Инжиниринг Данных
21K subscribers
1.57K photos
33 videos
176 files
2.86K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️
Download Telegram
Друзья, приветствую всех!
Давно вебинаров не было, лето, отпуска, все дела :)

Роман подготовил следующий вебинар - в среду 02.09.20 в 20:00.

О чем? Да про IELTs
Спикера вебинара: Darian Sandmartin (Даша).

Подписывайтесь на наш ютуб и ставьте уведомления, чтобы не пропустить
ссылка на трансляцию:
https://youtu.be/qV89JpCshaI


У Даши свой канал на ютубе по тематике IELTS с 90к+ подписчиками.

Также она основатель http://www.wsecommunity.com/ - это проект, объединяющий людей, которые учат английский и готовятся к IELTS.
Согласилась с вами родными поделиться своими знаниями.
Запись сохранять не буду, потому что кому действительно необходимо, те и так онлайн посмотрят :)
Структура вебинара:
1. Кейсы людей, которым нужен IELTS:
- отличница заканчивает школу и хочет учиться в Оксфорде
- программист работает по всему миру и хочет получить канадское гражданство
- студент-магистр хочет учиться по обмену и получить двойной диплом
- невеста переезжает на ПМЖ к мужу в Лондон
2. Им всем нужен IELTS - тест, который объективно оценивает уровень владения английским и открывает двери в англоязычный мир
3. Моя история (точки А и Б), куда меня привел IELTS
4. Система оценивания
- Academic / General
- шкала баллов
- количество баллов для целей миграции и учебы за рубежом
5. Страны, для которых понадобится IELTS и стоимость теста
6. Структура IELTS
- модули
- тайминг
- навыки, которые оцениваются
7. Как начать готовиться самому
- с какого уровня нужно начинать готовиться
- placement test - определение сильных и слабых сторон в лексике и грамматике
- mock IELTS test - определение сильных и слабых сторон в самом тесте
- постановка целей
- разработка плана по дням
- "сколько времени мне нужно на подготовку?"
8. Стандартный набор учебников
9. Сложности самоподготовки
- нужно разобраться с "фишками" экзамена - структурой эссе, тонкостями устного ответа, стратегий для решения тестов в секциях с чтением и аудированием
- сложно поддерживать темп
- нужно подтягивать грамматику
- некому проверить уровень речи
- не с кем тренировать разговорную речь
- некому проверить эссе и указать на ошибки
- нет людей вокруг, которые разделяют цель
10. Мои ресурсы для подготовки:
- телеграм-канал с учебниками
- speaking partners match
- пробные тесты по speaking & writing
- сообщество людей со схожими целями в телеграм-чате
- YouTube канал с массой пошаговых туториалов
- подкаст с примерами ответов на вопросы по говорению
- интенсивный курс по подготовке
Для тех, кто посмотрел вебинар про иммиграцию в Канаду, с текущим вебинаром будет полный комплект :)
Всем продуктивной недели :)
Сегодня увидел, что один из топовых инженеров Амазона - VP Amazon Robotics/Distinguished Engineer присоединился в роли CTO компании Scale AI, которую создал студент MIT 3 года назад в возрасте 21-22, в итоге он бросил MIT ( в лучших традициях фаундеров). Сейчас они закрыли раунд инвестиций C +100млн$. Насколько я понял, компания создала платформу, которая занимается разметкой данных (видео, аудио, текст). Чтобы создать крутой AI ему часто надо помочь тренироваться на реальных данных, для этого их надо размечать. То есть по сути, Scale AI это как call center на аутсорсу, но только они не на звонки отвечают, а размечают данные - The startup has nearly 30,000 contractors aiding in the labeling process. “The humans are pretty critical to what we’re doing because they’re there to make sure that all the data we provide is really high quality,”

Все мы знаем, насколько критично качество данных в аналитики, в принятии решений и ML/AI. Вот они решают конкретную задачу, повышают качество входных данных, а на выходе повышают качество AI моделей, например для автономных автомобилей.
Forwarded from Datalytics
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит

https://www.kaggle.com/learn/pandas
​​💫 БЕСПЛАТНЫЙ ВЕБИНАР ОБ IELTS

То, чего никогда не было - бесплатный и всеобъемлющий вебинар про IELTS с моими друзьями из школы аналитиков данных DataLearn!

2 сентября, в 20:00 (время московское) буду вещать про самостоятельную подготовку к тесту. Затрону темы:
1. Зачем нужен IELTS
2. Требуемые баллы
3. Структура теста
4. Где и за сколько сдавать
5. Как готовиться самостоятельно
6. Лучшие учебники
7. Сложности самоподготовки
8. Как я могу вам помочь

Трансляция будет здесь, присоединяйтесь!

Придете? 😍
Так как я сейчас в Amazon Retail, и текущий руководитель Jeff Wilke уходит на пенсию после 20 лет, назначают нового руководителя, если интересно, тут подробности.
Еще один новый канал по AI/ML и по развитию персонального бренда. Allie работает в AWS в роли sales для стартапов. Насколько я понял, она закончила MBA связанную с AI/ML и активно рассказывает в linkedin про свой опыт за что и получила популярность. Рассказывает очень позитивно.
Как вы понимаете, без английского языка в нашей профессии никуда. Для вас мы нашли интересного спикера, которые занимается обучение языка уже много лет. Сам вебинар про IELTS, это своего рода продолжение темы про Иммиграцию в Канаду, чтобы полностью осветить этот вопрос. Но даже если вы не планируете сдавать IELTS, вам будет полезно узнать про структуру экзамены, про материалы для изучения языка и много другого. Через 10 минут начало! https://youtu.be/qV89JpCshaI
Я часто ссылался на облачный ETL - Matillion. Я начал работать с ними с 2017 и теперь они попали в квадрант гартнера. Кто смотрел мои уроки по BI на datalearn, уже знает, что такое квадрант и кто туда попадает. На модуле 4 будем как раз с ETL/ELT разбираться. Я думаю ещё недели 2-3 и смогу продолжить.
Интересная статья про Data-Driven подход. В ней автор делится историями про подход Амазон. Сейчас у меня тоже интересные проекты. Я уже месяц с новой командой, но пока не доконца разобрался как все работает. С точки зрения бизнеса у нас 2 основных проекта - это feature attribution model (то есть все кампании на главной странице амазон) и customer perception. Science команда использует AWS Elastic Map Reduce (Hadoop) + Spark + Zeppelin для heavy liftin трансформаций - этот процесс называется feature engineering. Используется Hadoop потому что, объем кликстрима это сотни терабайтов. Дальше, используют GPU виртульную машину для моделей deep learning. Помимо этого есть еще много A/B тестов. В ближайше перспективе мне нужно будет найти и устранить причину в существующих data pipelines, которые берут начала из центрального озера данных и мы используем еще один EMR+Spark, чтобы копировать к себе нужные данные в формате parquet.
Другая моя инциатива заменить существующие подход EMR + GPU виртуальную машину, на Amazon Sage Maker. Как я понял с 2021 года Amazon планирует повсеместно использовать этот сервис для ML/AI.

Пока не очень понял как все это работает, но технические уже более менее понятно откуда данные приходят и куда уходят.
“There are no solutions. There are only trade-offs.” by Thomas Sowell. Что значит не бывает решений, а есть только компромиссы. При построении аналитических решений и продуктов это фраза очень кстати. Всегда мы слышим - "Мы можем это сделать, но...". Или " у нас вот есть 2 варианта, у каждого свои +/-".
22 сентября расскажут про Databricks + Lakehouse. Я очень хотел бы поработать на databrics и создать lakehouse. То есть это полная альтернатива традиционному хранилищу данных. Так же Spark даст возможность использовать библиотеки для ML, ноутбуки для визуализации и дашбордов, и библиотеки для стриминга. Кто-то делал проект на databricks? https://databricks.com/p/webinar/cloud-data-platform-virtual-event-lakehouse
А вот еще интересное мероприятия - DBT проводит онлайн конференцию в декабре. Интересное решения, для тех кто любит хранить все тбизнес дата трансформации в SQL (может и pyhton поддерживает). https://www.getdbt.com/coalesce/
Сегодня опытный человек лет 40 поделился со мной интересной идеей. В современной корпоративной культуре, человек подобен виртуальной машине. Так как мы с ним в амазоне, соответственно это EC2 instance, который работает, а когда что-то не так, его просто отключают и удаляют на всегда, или он сам сдувается и отваливается. Мне понравилось такое сравнение. Другой комментарий про отсутствие empathy (эмпатия - осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания). Люди настолько заняты и перегружены работой, что не остается места эмпатии. Как у вас с эмпатией на рабочем месте?

Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.
Forwarded from LEFT JOIN
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Forwarded from Reveal the Data
Написал заметку о том как быть, когда заказчик просит «таблицу как в Эксель» и никаких графиков. Показал для каких задач и как работают таблицы. Описал семь кейсов, которые обычно прячутся за такими запросами, и какие решения я использую.

https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/

#статья