Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Еще один инструмент для ETL, Data pipeline и даже для ML. https://dagster.io/
У Microsoft есть сайт, где можно выбрать бесплатные тренинги и воркшопы онлайн https://events.microsoft.com/
🎉 Друзья всех с Наступающим Новым Годом, а для тех кто будет это читать или смотреть позже, то уже С Новым Годом!

❤️ Команда DataLearn шлет поздравления - всем участникам сообщества и будущим новичкам.

❤️ В поздравлении мы анонсировали часть новинок, которые вас будут ждать, но далеко не все, а анонсы новинок в том числе не представленных в видео, анонсируем в ближайшее время
https://youtu.be/LaV5m7S3KP0
Короткое и интересное видео про работу голосовых помощников, которые собирают наши данные, чтобы делать рекламу умней. Интересный момент, колонки Гугл и Алекса почти задаром, а вот у Яндекса они стоят очень дорого, чтобы собирать данные клиентов. Возможно производство не такое массовое и поэтому дорогое.
Netflix описал как они оптимизировали хранилище данных в Amazon S3. https://netflixtechblog.com/optimizing-data-warehouse-storage-7b94a48fdcbe
В этом посте один товарищ долго и с картинками размышляет про разницу ETL и ELT.
Пример архитектуры для Big Data на AWS/GCP/Azure
Матилион недавно рассказал просто про Lakehouse на BigData London.

Lakehouse = DW + Data Lake. В облаках они хороши вместе уживаются в общую платформу.
Попался интересный ресурс про Data
Добавил новое видео про ETL подсистемы.

Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)

Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).

Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.
Старый пост от HBR про Learning to Learn. Главное преимущество тогда и тем более сейчас это учиться быстрее чем ваши конкуренты (применимо для компаний). Тоже само и про персональное развитие, это непозволительная роскошь что-то выучить от начала до конца и расслабиться. (В нашей профессии конца нет, пока учишь одно, появляется ещё 3 новых технологии/подхода). Чем дальше тем больше нужно учить, поэтом скорость потребления материала (не количество прочитанных книг или прослушанных лекций), а именно ценные блоки информации, которые помогают нам развивать нашу карьеру и компетенцию.
1609865357375.pdf
2.6 MB
Очень веселая презентация - Statistics for Hackers
Самая крутая Data компания Snowflake сделало 10 предсказаний по аналитике на 2021:
Trend #1: The value of data will rise exponentially
Trend #2: The rise of the Data Cloud - Рассвет The Data Cloud
Trend #3: Modernization beyond the data warehouse
Trend #4: Governance continues to be a top concern
Trend #5: So long, data lakes/warehouses
Trend #6: Collaboration goes mainstream
Trend #7: Analytics democratization becomes attainable
Trend #8: Data processing is available to all
Trend #9: Every app becomes a data app
Trend #10: A single platform for data becomes the solution

В общем без данных, а тем более без правильного места для их хранения (в облаке) и нормальным доступом (sql) вообще никуда. Если вы еще не купили Snowflake, то обязательно купите! Это я вам говорю как эсперт по снего из холодной Канады, несмотря на то, что я живу в самом теплом городе Канады (Виктория), где и снега то нет🤫
Получил приятный подарок из Киева от подписчика Александра Чернина - Кофе Data Learn. Кофе оказался очень вкусным, несмотря на то, что посылка шла довольно долго. Случайно забили указать номер дома. Но так как почта к нам ходит с посылками от Amazon Prime очень часто, смогли меня опознать по имени и найти мой дом.
Снова предлагает бесплатно попробовать экзамены Google Cloud Associate Cloud Engineer Practice Exams
Попался интересный и полезный white paper от Microsoft, особенно для HR или бизнеса - The scientist, the engineer and the warehouse – implementing cloud analytics