Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А Анастасия опубликовал 4й урок курса ML&DS. В котором вы узнаете:

📌 Build and Train ML model
📌 Overfitting и Underfitting + Cross-Validation
📌 Model Evaluation
📌 Tuning hyperparameters
📌 Submission of ‘.csv’ file
Презенташка для сегодняшнего митапа, ничего нового для вас, кроме одного слайда, где-то в конце архитектура для моего решения на databricks/delta lake. https://docs.google.com/presentation/d/1HShF6AIghwlV_-0LlPoT1yWcBuglFzMCkU1H4jdDbFI/
😊работаю над задачкой парсинга результата API - JSON, в котором много уровней вложений. Хочу сделать плоскую таблицу. Использую HDInsight+Spark, и потом буду Databricks.

Накидайте пожалуйста в комменты книги, курсы, tutorial, статьи или ещё чего, как в python парсить JSON. Мне ещё потом телеметрию с Xbox предстоит разбирать, хочу поучиться как правильно делать.
Forwarded from Retail Data Engineering Community (Oleg Dobretsov)
Что читать DE в телеге?

Сегодня подборка полезных TG-каналов для дата-инженера:

Инжиниринг данных https://t.me/rockyourdata Канал Дмитрия Аношина, эксперта по BI. Автор также ведет курс datalearn.ru, где обучает дата-инжиниринг (бесплатно)
Data Eng https://t.me/dataeng Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.
Moscow Spark https://t.me/moscowspark Чат московского community Apache Spark.
DE or DIE Chat https://t.me/deordie_chat Чат сообщества DE or DIE, созданный дата инженерами. Поддерживают ребята из DoDo Engineering. Проводят митапы DE or DIE вместе с NewProLab
Smart Data https://t.me/smart_data_channel Канал про Data Engineering, аналитику и данные.
Я у мамы Data Engineer! https://t.me/ohmydataengineer
Data online events & Moscow meetups https://t.me/data_events Очень полезный канал - все ивенты, связанные с данными
Data jobs feed https://t.me/datajobschannel Канал с вакансиями в сфере обработки данных (инженеры, аналитики). Полезно для понимания тенденций на рынке и востребованных навыков

Если знаете еще полезные каналы - пишите в комментариях!
Всем привет!
Сегодня (1 марта) в 19:00 по мск у нас вебинар - обзор Looker
https://youtu.be/-YMCafO_cZk

Завтра (2 марта) в 20:00 по мск вебинар - Введение в стандартные концепции SQL
https://youtu.be/hSmpNeHBDYQ
Через 10 минут начинаем вебинар по Looker
https://youtu.be/-YMCafO_cZk
Примерная структура для интереса:
Моделирование данных: структура проекта и блоки LookML
Исследование данных: pivot, drill-down, table calculations
Визуализация: типы графиков, дашбординг, кросс-фильтры, sharing
Во вторник (то есть уже сегодня по Москве в 8 вечера) у нас будет еще один вебинар - Введение в стандартные концепции SQL. Его проведет Миша Британ, он работает в Amazon Alexa в Бостоне в роли BI и помогает бизнес пользователям понимать концепции SQL и использовать SQL каждый день, так как в Амазоне это один из самых главных навыков.

Миша, можно сказать, English first, но отлично разговаривает на русском, иногда вставляю английские слова;) В общем, если вам интересно больше узнать про SQL (вы только начинаете с ним работать) или просто хотите побольше узнать про Амазон, задать вопросы про собеседования или как используются данные в Alexa, то не пропустите!
С каждым принятым решениям у нас есть выбор, двигаться вперед или оставить все как есть. Очень часто у нас открывается окно возможностей (opportunities), где нужно принять решение, иногда даже рискнуть. Именно из таких возможностей складывается наша жизнь и карьера.

В исходной точке в большинстве случаев у многих равные возможности, но со временем, одни уходят вперед, другие так и остаются на месте. Это касается работы, должности, инструментов мы используем, места жительства и тд. Я много общаюсь с разными людьми, и по привычке начинаю раздавать советы, иногда дельные, иногда не очень. Но по реакции человека, можно сразу понять насколько он/она открыты к возможностям и насколько готовы действовать. В 90% случаев, идеи и советы так и остаются идеями и бесполезными советами, но в 5-10% случаях человек может воспользоваться возможностью и без лишних вопросов “нырнуть” в неизвестное. Хуже не будет, но может стать значительно лучше.

Это у меня просто мысль проскочила, почему одни двигаются быстрей, а другие нет. Не бойтесь принимать решения, мы живем один раз, не откладывайте все на потом, действуйте и получайте все, что хотите! Вселенная вас услышит и направит, но финальный шаг за вами.
1
Открыл для себя новый термин - reverse ETL. Это когда нам нужно данные забирать из хранилища данных и загружать их в другие системы. Даже есть иснтрументы специально для этого;
Сегодня общался с командой Minecraft, дважды. Сначала с командой data engineers, о том какое у них решение. В целом практически все крупные студии использую решения “операционной аналитики” (ну это я так называю), к ним относятся решения Splunk, ElasticSearch+Logstash. Это когда инструмент пожирает данные на входе практически в реальном времени, и мы можем их искать. Часто используют слово Spelunking (это значит лазить в пещере с фонариком), как раз Splunk произошёл от этого слова. (Хочу засунуть splunk в курс datalearn обязательно).

В общем, для аналитики вместо традиционного подхода с хранилищем данных или платформой данных/озером данных у многих студий используется решение от Azure (Azure Data Explorer) с похожим принципом как у Splunk.

Но их data science команда уже кайфует от Databricks, и они поделились крутой ссылку по Best Practices для PySpark, которая была создана Palantir. На мой вопрос, хотели бы они, чтобы Databricks был и для Data Science и для Data Platfrom, все дружно закивали, значит, реально DataBricks это вещь💪

Еще оказалось, что аналитик Minecraft, раньше был в Amazon Game Studios, и часто бывал на мои ивентах Amazon Tableau User Groups и BI Tech Talks, за что очень благодарил😇
1
Вот над чем я буду работать следующий год-два