Инжиниринг Данных
23.9K subscribers
2.1K photos
60 videos
194 files
3.26K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Вот и подходит модуль 4 про ETL к концу. Я записал 2 последних видео:

4.7 Fancy ETL инструменты
Моя любимая категория инструментов "Fancy", то есть чем-то не обычные, но очень популярные. В нашем уроке я упомяну 4 самых популярных инструмента, к тому же open source. Я с ними плотно не работал, поэтому я лишь слегка их коснусь, чтобы вы знали об их существовании и по возможности попробовали. Ну а если вы уже про них знаете, то приходите к нам поделиться опытом!

В этом видео вы узнаете про:
📌 Apache Airflow
📌 DBT tool
📌 Luigi
📌 Apache NiFi
📌 Clickhouse (+ fancy база данных)

Так же я добавил в git много ссылку на материалы по инструментам на русском и английском + ссылки на официальные tutorials. То есть вам этого будет достаточно, чтобы начать и поиграться -> отличная история для следующего собеседования, как вы изучаете и пробуете новые технологии.

4.8 Требования к ETL разработчику и отличия от Data Engineer
Практически в описание к любой data вакансии мы можем встретить термин ETL. ETL роль очень важная, так как эти процессы отвечают за консолидацию данных в едином хранилище данных, а в некоторых случаях это может быть озеро данных. Концептуально вакансия ETL разработчик/инженер Data Engineer очень похоже, разница лишь в скилах и названии позиции. В этом видео мы:
📌 Рассмотрим историю data профессий по интеграции данных
📌 Узнаем топ 11 навыков инженера данных
📌 Поговорим о сходствах и различиях двух вакансий
📌 Рассмотрим главные скилы ETL разработчика (ETL) и Инженера данных (DE)
📌 Вакансии ETL и DE Amazon, Facebook, Google
📌 Вакансии ETL и DE Российских компаний
📌 Вакансии ETL и DE в мире

Pavel Novichkov (@eXtr1Mo) еще добавит финальный проект по модулю 4 и лабораторные работы по Pentaho DI, на которых будем строить dimensional model и работать с хранилищем данных на postgres. Если есть вопросы по ETL, Павел ваш эксперт. Кстати, он открыт к предложения по работе на позиции ETL разработчик/BI разработчик. Он себя уже очень хорошо зарекомендовал💪

Ну и настраиваемся на модуль 5 про облачные вычисления на основе AWS и Azure. Я работал и с тем и с другим, проходил все их курсы и предавал в University of Victoria курс по Cloud Computing. Это будет первая ступенька в мир современных аналитических решений. Жду вдохновения из космоса😜
Forwarded from Denis Sexy IT 🤖
Я всегда относился к себе как к части каких-то интернет сообществ рунета, и всегда мне было любопытно, насколько в показателях русскоязычный сегмент «токсичнее» западного: если много сидеть в рунете то это чувствуется — иногда по злому, иногда по веселому, но в среднем рунет токсичнее какого-нибудь Reddit / FB / Twitter где общаются на английском языке, оно, наверное, и понятно, жизнь у нас не сахар по сравнению с многими странами, есть отчего озлобиться.

Вчера, совершенно случайно, наткнулся на исследование от Microsoft – оказывается они уже 5 лет исследуют эту тему и выпускают отчеты на эту же тему называя ее «Digital Civility» где пытаются подсчитать какой уровень «Цифровой Культуры» в каждой из стран, отчет про 2020 год, в нем приняло участие 16 000 человек из 32 стран, пара интересных моментов:

🔹 Миллениалы за 2020 год стали злобнее в целом по миру;
🔹 Вся надежда на зеточек, они няши как всегда и лучше себя ведут в интернете, у них рейтинг токсичности падает;
🔹 Россия находится на 31 месте... из 32, ниже нас Южная Африка, а выше Мексика. На первом месте Нидерланды. Никогда бы не подумал что буду чувствовать себя в мексиканском интернете как дома

Я перезалил сам отчет от 2021 года на Google Slides, вот ссылка (он на английском), а тут короткая версия на русском. Рекомендую всем кто любит интернет и исследования про него.

В отчете упомянуто, что многие не знают, что делать если вы столкнулись с онлайн-токсичностью, я немного покапитаню, но добавлю: если столкнетесь буллингом, троллингом, любой другой токсичностью (и при этом вы не на работе в интернете, где в ваши задачи входит работа с такими явлениями), то лучший способ это закрыть профиль, внести в ЧС и пойти дальше, потому что вы не торт и все не обязаны вас любить. Главное помнить, что в своем социальном пространстве вы главный, удаляйте что хотите и держите его комфортным для себя. Потому что слова это не просто буковки на экране, они могут правда вредить — на слайде 39 написано какие психологические последствия это все может вызвать. Любвиобильного онлайна вам и берегите себя 💖

P.S. Слово «токсичность» относительно новое у нас, вкладывает туда пока каждый что хочет: я им называю просто грубое общение, оскорбления, буллинг, троллинг и тп.
Павел Новичков записал супер подробное видео (уже 2ое) по инструменту Pentaho DI, чтобы вы смогли овладеть принципами ETL.

В этом видео вы:

📌 Познакомимся с графическим интерфейсом Spoon
📌 Рассмотрим строительные блоки любого проекта: Steps и Hops
📌 Узнаем про виды проектов в Pentaho: Jobs и Transformations. В чем их отличия и когда что использовать.
📌 Познакомимся с наиболее распространенными форматами данных в ETL
📌 Потренируемся работе с форматами txt, csv, xls, json, xml
📌 Построим несколько джобов и трансформаций
📌 Научимся запускать проекты по расписанию
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Кроме fancy инструментов, я люблю еще другую категорию - “Было-Стало”, как раз картинка про это. Конечно инструментов тут показали совсем чуть-чуть, но идею передали.
Компоненты BI решения
Компоненты Платформы Данных (это когда уже просто Хранилища данных и BI) не хватает
А тут более подробно рассмотрена диаграмма для DS&ML
Спросили: Что такое Databricks?

Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.

Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!

В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
☁️
Привет!
Новые публикации по Data Studio
1️⃣ Как преобразовать и упростить анализ эффективности рекламы при помощи Data Studio
https://clc.am/4kf9aw
2️⃣ [Видео] Аналитика воронки продаж онлайн школы в Google Data Studio - Дэшборды, отчеты по трафику, конверсиям
https://clc.am/XCYfwg
3️⃣ Наши любимые Ассоциированные конверсии (зачем нужны, как отследить в Google Analytics, Google Ads и добавить в отчеты GDS)
https://clc.am/-EIQ9w
4️⃣ [Видео] Простой отчет по контекстной рекламе в Google Data Studio
https://clc.am/r54b_Q
Всем привет! Мы уже провели немало интересных вебинаров от профессионалов со всего мира! И это только начало. Мы хотим собрать все самые крутые материалы по аналитике в одном месте и структурировать их за счет курсов data learn.

Мы создали форму для подачи заявки на вебинары. Интересные темы для вебинары:
- Обзор аналитики облачный решений AWS, Azure, GCP, Alibaba
- Обзор решений для BI/DW/ETL/BigData и тп (теория + демонстрация продукта)
- Информация про управление и развитие дата команд и дата продуктов
- Аналитические кейсы (внедрение решений аналитики и результаты)
- Ваши истории про иммиграция в любую страну и обзор рынка труда и процесс иммиграции
- Истории про смену проф ориентации
- Да все что угодно, лишь бы это было нам на пользу!
Инжиниринг Данных pinned «Всем привет! Мы уже провели немало интересных вебинаров от профессионалов со всего мира! И это только начало. Мы хотим собрать все самые крутые материалы по аналитике в одном месте и структурировать их за счет курсов data learn. Мы создали форму для подачи…»
Вот уже 10 лет я всегда с удовольствием смотрю на квадрант Gartner по BI инструментам.

Gartner, Magic Quadrant for Analytics and Business Intelligence Platforms, February 15, 2021, James Richardson, Kurt Schlegel, Rita Sallam, Austin Kronz, Julian Sun