Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают

Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).

Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Обзор отечественных BI
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).

Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.

Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Open Source рисовалка диаграмм https://github.com/jgraph/drawio
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Чистое золото картинка
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.