Инжиниринг Данных

Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸

Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥79🐳6⚡4

8.39K viewsDmitry, 07:21

Инжиниринг Данных

Какой подход в A/B тестах вы используете? (Вопрос из зала👉)

Anonymous Poll

19%

Фриквентистский подход

18%

Баесовский подход

27%

Я не знаю что такое А/B тесты

35%

Мы не используем А/B тесты

987 voters7.35K viewsDmitry, 16:51

Инжиниринг Данных

Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие ~~стучат молотком~~ работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

MotherDuck

DuckDB Tutorial For Beginners - MotherDuck Blog

Get up to speed quickly with DuckDB, including installation, VSCode workflow integration and your first SQL analytics project.

⚡22❤‍🔥6🌚1

9.52K viewsDmitry, 08:05

Инжиниринг Данных

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Спасибо, что отдали голос за правильного кандидата🍾😝

PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷)

Update: не прошло и несколько часов как вызвали на ковер🤪

PPS Еще оказывается Симпсоны были не правы первый раз😂

Please open Telegram to view this post

VIEW IN TELEGRAM

🍾77🫡48🗿1613😭7🙈6🍌3❤‍🔥2🌚2👨‍💻2🤷‍♂1

9.36K viewsDmitry, edited 15:53

Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.

💯43❤‍🔥32👾4🙈2⚡1

9.35K viewsDmitry, 18:45

Инжиниринг Данных

Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.

Появилась новая книга Apache Airflow Best Practices от Packt Publishing.

With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering

This book covers the following exciting features:

- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow

Книга про 2ю версию, хотя уже скоро будет версия 3.0.

Есть книга Data Pipelines with Apache Airflow

Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.

Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.

Расскажите, кто что использует?

Packt

Apache Airflow Best Practices | Data | Paperback

A practical guide to orchestrating data workflow with Apache Airflow. Top rated Data products.

🦄34❤‍🔥18🐳3💯1

10.3K viewsDmitry, 22:52

Инжиниринг Данных

Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.

Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.

Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.

Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.

Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.

В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour

Сейчас у них классные результаты:

During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.

What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.

Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)

Amazon

Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2 | Amazon Web Services

Large-scale, distributed compute framework migrations are not for the faint of heart. There are backwards-compatibility constraints to maintain, performance expectations to meet, scalability limits to overcome, and the omnipresent risk of introducing breaking…

❤‍🔥8🙈1

8.47K viewsDmitry, 16:58

Инжиниринг Данных

LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.

Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))

В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.

🐳6🫡5🙈4❤‍🔥1🍌1🗿1

8.39K viewsDmitry, edited 03:19

Инжиниринг Данных

В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.

Вот несколько классных вариантов использования для аналитики и инженерии данных:

- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в source модели dbt и уже строить модели внутри базы
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB

Этот список можно продолжать!

Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb

Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.

❤‍🔥41⚡12🐳1

10.2K viewsDmitry, edited 04:05

Инжиниринг Данных

Товарищ решил провести бесплатный bootcamp по DE, обычно он за 1500$ продает, а потом пишет в блоге как млн заработал🦯

💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков👉

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

6-week Free Data Engineering Boot Camp Launch Video | DataExpert.io

This data engineering boot camp will be amazing!

We'll be publishing a new video almost every day from November 15th, 2024 to December 31st, 2024!

Learn actual cloud stuff directly here: https://www.dataexpert.io/LAUNCH20
Join the Discord community! …

❤‍🔥53⚡127

10.5K viewsDmitry, 06:17

Инжиниринг Данных

Как подготовиться к публичному выступлению? Даже бывалые спикеры мандражируют перед своей речью, что уж говорить о новичках.

Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:

1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.

И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.

#неприлюдях

💬 N выступлений спустя, или почему спикер не смог

На рынке сейчас бесчисленное множество разного рода конференций, круглых столов и экспертных встреч, ну просто на любую профессиональную тему. Ивенты про технологии в России и за рубежом редко проходят без…

❤‍🔥13⚡5🫡5

8.2K viewsDmitry, 16:02

Инжиниринг Данных

Товарищи эксперты, филологи, отличники и отличницы, знатоки русского языка, как вы считаете, как правильно писать дата инженер на дореволюционной орфографии?
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр

(Слово дата оставим как есть, его все равно не было)

Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский

🌚23🙈206❤‍🔥2

7.27K viewsDmitry, edited 19:41

Инжиниринг Данных

Добавил видео о NoSQL базах данных в контексте аналитики, а именно об их использовании в качестве ИСТОЧНИКА данных для аналитических решений. В качестве примера выбрал документ-ориентированную базу данных MongoDB.

После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:

- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.

В завершение рассмотрел основные способы извлечения данных из MongoDB:

- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.

Не затронул только стриминг данных с помощью Kafka Connect или Debezium.

Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH

00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow

Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md

YouTube

NoSQL Databases for Data Analyst and Data Engineer | Module 2.6 | Surfalytics

In this video, we'll cover the topics related to NoSQL databases and their role in the Data Analytics stack. We’ll walk through the essentials of MongoDB, one of the most popular document databases in full-stack development. From understanding the differences…

❤‍🔥62⚡6

8.72K viewsDmitry, 16:42

Инжиниринг Данных

Бесплатные курсы по Snowflake на Coursera:

- Intro to Snowflake for Devs, Data Scientists, Data Engineers
- Introduction to Modern Data Engineering with Snowflake

⛄️

Please open Telegram to view this post

VIEW IN TELEGRAM

Coursera

Intro to Snowflake for Devs, Data Scientists, Data Engineers

Offered by Snowflake. This course introduces learners to ... Enroll for free.

🎄28❤‍🔥10🐳1

8.64K viewsDmitry, 06:44

Инжиниринг Данных

Идея FIRE (Financial Independence, Retire Early) уже не новая. FIRE с детьми и без - это очень большая разница. Есть еще semi-FIRE.

Вот 3 топ статьи на эту тему:

- An ex-Meta employee calculated that his family of 3 needs $5.6 million to retire in San Francisco. Here's the formula he used and how he plans to hit his 'enough number.'
- FIRE Lessons From ex-AMZN Director Dave Anderson
- Your Neighbors Are Retiring in Their 30s. Why Can’t You?

Интересно, кто-нибудь из подписчиков на пути к FIRE?

Лично у меня не получается. Возможно, причина в том, что в молодости всегда был дефицит, и поэтому постоянно хотелось «хороших и дорогих вещей, путешествий и тп». Когда начинаешь зарабатывать, появляется желание купить всё и сразу. Возможно, вам знакомо такое чувство. Лучше всего сначала купить то, что хочется, а потом уже думать, как быть дальше.

Про FIRE я даже не думаю, а вот semi-FIRE — это хорошая цель. Главное преимущество — не зависеть на 100% от работы. Например, вас сократят, а вам всё равно: у вас есть альтернативные источники дохода или сбережения.

Business Insider

An ex-Meta employee calculated that his family of 3 needs $5.6 million to retire in San Francisco. Here's the formula he used and…

How much is "enough" to retire early in San Francisco. FIRE blogger Andre Nader calculated the number for his three-person household.

❤‍🔥53⚡3🐳3🍌2😭2🦄2💯11

8.66K viewsDmitry, 20:07

Инжиниринг Данных

В русскоязычном дата сообществе есть несколько экспертов за кем я давно слежу. Один из них это Александр Бараков. Он пишет про стратегию и управление аналитикой и точно знает, как должно выглядеть BI решение, чтобы соответствовать требованиям бизнеса, пользователей и разработчиков. Я не знаю ни одного человека, который так глубоко специализируется на BI стратегии.

Вот несколько примеров:
- BI Strategy Guide
- BI Adoption Health Check

В этих схемах и диаграммах заложено много фундаментальных знаниях, которые помогут современным data leaders не наступать «на грабли» и воплощать в жизнь «data-driven» подход.

Уже несколько лет Александр проводит курсы по BI Стратегии и Data Governance.
Эти курсы у меня в обязательном списке.

4-13 декабря 2024 года он проводит как раз курс - Основы Data Governance.

Как вы могли понять из сообщения я не рекламирую курс, я его рекомендую, на рынке немного экспертов, которые не скатились в коммерцию и не «продают курсы» любой ценой. Эта программа проводится редко, не чаще чем раз в год. Поэтому рад поддержать данную инициативу.

🗂На курсе будет:

- Теоретические основы - основные элементы, технологии и практики DG и DQ
- Практические аспекты - почему дата каталоги, не взлетают, как создавать гибридные операционные ролевые модели, каким метриками обкладывать DG проекты т.д. Саша постил интересное исследование на эти темы на основе своих интервью с 20 компаниями - https://t.me/datanature/371
- DG здравого смысла - как-таки внедрять практики управления данными с учетом реалий и зрелости компании. Видео Александра на эту тему - Data Governance здравого смысла
- Кейсы участников, их проблемы и успешные решения.
- «Домашки» Каждый участник будет заполнять excel-гайд своего проекта Data Governance, применяя разделы курса на контекст своей компании.
- Нетворкинг: Участвуйте в активном обмене опытом с другими участниками курса и расширьте свою профессиональную сеть. На курсе обучаются CDO, руководители аналитики и дата менеджеры из всех крупнейших компаний.

Ссылка для регистрации: https://biconsult.ru/datagovernance/

❤‍🔥25⚡8🙊4💯3🌚2🐳1🗿1

9.51K viewsDmitry, edited 17:27

Инжиниринг Данных

the-analytics-stack-guidebook.pdf

13.5 MB

Хорошая книжка с терминологией и приятными картинками.

Сам BI инструмент Holistics топит за аналитику как код, такой вот азиатский looker.

❤‍🔥31

8.51K viewsDmitry, edited 22:37

Инжиниринг Данных

Мне всегда нравился продуктовый подход в аналитике. При таком подходе легче донести ценность до бизнеса и удобней измерять эффективность аналитического решения.

Сегодня увидел новую книгу - Managing Data as a Product: A comprehensive guide to designing and building data product-centered socio-technical architectures

Я уже давно подписан на автора в LinkedIn и мне нравится его специализация и подход.

Про книгу:

Traditional monolithic data platforms struggle with scalability and burden central data teams with excessive cognitive load, leading to challenges in managing technological debt. As maintenance costs escalate, these platforms lose their ability to provide sustained value over time. Managing Data as a Product introduces a modular and distributed approach to data platform development, centered on the concept of data products.

In this book, you’ll explore the rationale behind this shift, understand the core features and structure of data products, and learn how to identify, develop, and operate them in a production environment. The book also guides you through the design and implementation of an incremental, value-driven strategy for adopting data product-centered architectures, including strategies for securing buy-in from stakeholders. Additionally, it explores data modeling in distributed environments, emphasizing its importance in fully leveraging modern generative AI solutions.

Upon completing the book, you’ll have gained a comprehensive understanding of product-centric data architecture and the necessary steps to begin adopting this modern approach to data management.

What you will learn
- Recognize challenges in scaling monolithic data platforms, including cognitive load, tech debt, and maintenance costs
- Discover the benefits of adopting a data-as-a-product approach for scalability and sustainability
- Gain insights into managing the data product lifecycle, from inception to decommissioning
- Automate data product lifecycle management using a self-serve platform
- Implement an incremental, value-driven strategy for transitioning to data-product-centric architectures
- Master data modeling in distributed environments to enhance GenAI-based use cases

❤‍🔥34🐳1🎄1

8.53K viewsDmitry, 18:31

Инжиниринг Данных

Вот что ждет в Т-Банке аналитиков DWH, кроме ДМС, крутых офисов и других плюшек:

▪️Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
▪️Улучшения может предложить каждый. Здесь знают, как устроен продукт, и влияют на его развитие.
▪️Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
▪️Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.

Устраивайтесь в Т-Банк на позицию аналитика DWH до 23 декабря 2024 года и получайте приветственный бонус в размере одного оклада.

🐳8🙊7❤‍🔥4🍌2🎄1

7.57K viewsDmitry, 07:59

Инжиниринг Данных

Forwarded from topdatalab (Roman Zykov)

Сэкономил тысячи долларов в год, добавив кастомную авторизацию в Metabase.

По прежнему считаю, что Metabase одна из самых удобных BI систем для пользователей.
Но есть одна проблема - коммерческая PRO версия довольно дорогая - 500 долларов в месяц плюс 10 за пользователя.
Мне нужна была только одна фича из PRO - моя собственная система авторизации.

В итоге я хакнул код Metabase, и опубликовал свою версию с инструкциями здесь
https://github.com/rzykov/metabase/blob/fiev_auth/Fief_auth.md
Демо видео https://www.youtube.com/shorts/hfmGOYF_6RI

Кому это нужно:
1) Вы пишите стартап/продукт и вам нужно дать поиграться данные пользователям в приличном интерфейсе
2) Вы внедряете Metabase, но пока хотите сэкономить 🙂

Пользуйтесь на здоровье

❤‍🔥43⚡6🎄1

8.38K viewsDmitry, 17:03

About

Blog

Apps

Platform