Инжиниринг Данных

Update по #datalearn:
1. Мне осталось 2 видео для модуля 4:
- 4.7 Fancy ETL для on-premise, в котором я хочу рассказать популярные решения на рынке (очень кратко) - Airflow, NiFi, dbt, Luigi, Dagster + попоулярную на отечественном рынке аналитическую БД Clickhouse. Так как у меня опыт с этим инструментами из разряда МНТ (метод научного тыка), то постараюсь импровизировать, впрочем как обычно. Но с удовольствием проведем вебинар по любому из этих инструментов.

- 4.8 Обзор вакансии ETL разработчик. Я хочу еще раз пройти про разницу (которая иногда отсутствует) между вакансиями ETL разработчик. Потом посмотрим требования, примеры вакансий на hh и за границей. Для опытных коллег, я хочу заметить, цель DataLearn дать необходимый минимум знаний для позиции ETL разработчик или для дополнительные знания для позиций BI разработчик или аналитик. Есть еще много вакансий, где используются классические ETL инструменты, реляционных базы данных и SQL. И чтобы начать шарашить pipeline на питоне, нужно понятно как все работает на более простом уровне, и потом уже можно усложнять. Ну это мое мнение. Как обычно welcome послушать опытных инженеров данных, особенно интересно, с чего они начинали.

Так же для модуля 4, Павел Новичков @eXtr1Mo запишет 3 видео (2 лабораторные работы по работе с Pentaho DI, работа с базой данных и использования техник dimensional modelling и обзор итогового проекта модуля 4)

2. Роман @rspon плотно занимается запуском еще 2х курсов для datalearn, которые крайне полезны для начинающих специалистов и они должны закрыть оставшиеся пробелы в подготовке к поиску первой работы в дата мире. Инструкторы уже себя очень хорошо зарекомендовали в сообществе datalearn. Так же на подходе много крайне интересных вебинаров и спикеров.

3. 5й модуль будет про Cloud Computing (облачные вычисления). Я постараюсь собрать информацию по курсам Azure, AWS, примеры лабораторных работ и сделаю его независимым от прошлых 4х модулей. Он поможет нам сделать переход из on-premise решения по аналитики к Cloud. Yandex и Mail вкладывают огромные ресурсы в развития отечественного облака, так что через какое-то время мы увидим большой спрос на таких специалистов. Даже сейчас есть спрос на AWS или GCP специалистов по аналитике на том же hh. И после модуля 5 мы уже перейдем к моей любимой теме - аналитическое хранилище в облаке, spark, озеро данных, Delta Lake и рассмотрим много облачных инструментов AWS и Azure, после чего вы сможете понять всем мои презентации и проекты, которые я делал в облаке.

3.2K viewsDmitry Anoshin, 01:59

About

Blog

Apps

Platform