Инжиниринг Данных

Очень классный мини сериал про качество продукта

What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?

Про качество вам расскажут топовые CEO, Founders и Product Managers.

linear.app

What is quality? And how do things of quality get built? A limited series. Now streaming.

❤‍🔥18🍾5🫡2

8.36K viewsDmitry, 00:45

Инжиниринг Данных

Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.

99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.

Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.

Данный tip подходят для разработчиков и инженеров;)

💯91❤‍🔥9⚡1

8.96K viewsDmitry, edited 02:36

Инжиниринг Данных

Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).

Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.

🐳29🫡11🌚10❤‍🔥4🙈4🌭32🍾1🗿1

7.91K viewsDmitry, 21:44

Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.

💯20❤‍🔥11⚡8🐳1

7.54K viewsDmitry, edited 23:58

Самое время ~~вмешиваться в американские выборы~~ хайповать и строить интерактивные визуализации!

Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата! 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

37🫡15🗿5⚡3🌚3❤‍🔥2😈1

8.57K viewsDmitry, 16:57

Инжиниринг Данных

Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.

Перевод:

A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.

Вот примеры, как A/A-тесты могут быть полезны:

1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.

2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.

3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.

Источник: https://experimentguide.com/

Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅

Please open Telegram to view this post

VIEW IN TELEGRAM

😈22⚡14💯8

8.03K viewsDmitry, edited 05:13

Инжиниринг Данных

Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸

Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥79🐳6⚡4

8.41K viewsDmitry, 07:21

Инжиниринг Данных

Какой подход в A/B тестах вы используете? (Вопрос из зала👉)

Anonymous Poll

19%

Фриквентистский подход

18%

Баесовский подход

27%

Я не знаю что такое А/B тесты

35%

Мы не используем А/B тесты

988 voters7.38K viewsDmitry, 16:51

Инжиниринг Данных

Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие ~~стучат молотком~~ работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

⚡22❤‍🔥6🌚1

9.57K viewsDmitry, 08:05

Инжиниринг Данных

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Спасибо, что отдали голос за правильного кандидата🍾😝

PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷)

Update: не прошло и несколько часов как вызвали на ковер🤪

PPS Еще оказывается Симпсоны были не правы первый раз😂

Please open Telegram to view this post

VIEW IN TELEGRAM

🍾77🫡48🗿1713😭7🙈6🍌3❤‍🔥2🌚2👨‍💻2🤷‍♂1

9.4K viewsDmitry, edited 15:53

Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.

💯43❤‍🔥32👾4🙈2⚡1

9.39K viewsDmitry, 18:45

Инжиниринг Данных

Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.

Появилась новая книга Apache Airflow Best Practices от Packt Publishing.

With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering

This book covers the following exciting features:

- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow

Книга про 2ю версию, хотя уже скоро будет версия 3.0.

Есть книга Data Pipelines with Apache Airflow

Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.

Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.

Расскажите, кто что использует?

Packt

Apache Airflow Best Practices | Data | Paperback

A practical guide to orchestrating data workflow with Apache Airflow. Top rated Data products.

🦄34❤‍🔥18🐳3💯1

10.4K viewsDmitry, 22:52

Инжиниринг Данных

Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.

Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.

Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.

Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.

Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.

В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour

Сейчас у них классные результаты:

During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.

What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.

Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)

Amazon

Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2 | Amazon Web Services

Large-scale, distributed compute framework migrations are not for the faint of heart. There are backwards-compatibility constraints to maintain, performance expectations to meet, scalability limits to overcome, and the omnipresent risk of introducing breaking…

❤‍🔥8🙈1

8.52K viewsDmitry, 16:58

Инжиниринг Данных

LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.

Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))

В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.

🐳6🫡5🙈4❤‍🔥1🍌1🗿1

8.41K viewsDmitry, edited 03:19

Инжиниринг Данных

В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.

Вот несколько классных вариантов использования для аналитики и инженерии данных:

- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в source модели dbt и уже строить модели внутри базы
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB

Этот список можно продолжать!

Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb

Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.

❤‍🔥41⚡12🐳1

10.2K viewsDmitry, edited 04:05

Инжиниринг Данных

Товарищ решил провести бесплатный bootcamp по DE, обычно он за 1500$ продает, а потом пишет в блоге как млн заработал🦯

💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков👉

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

6-week Free Data Engineering Boot Camp Launch Video | DataExpert.io

This data engineering boot camp will be amazing!

We'll be publishing a new video almost every day from November 15th, 2024 to December 31st, 2024!

Learn actual cloud stuff directly here: https://www.dataexpert.io/LAUNCH20
Join the Discord community! …

❤‍🔥53⚡127

10.7K viewsDmitry, 06:17

Инжиниринг Данных

Как подготовиться к публичному выступлению? Даже бывалые спикеры мандражируют перед своей речью, что уж говорить о новичках.

Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:

1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.

И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.

#неприлюдях

💬 N выступлений спустя, или почему спикер не смог

На рынке сейчас бесчисленное множество разного рода конференций, круглых столов и экспертных встреч, ну просто на любую профессиональную тему. Ивенты про технологии в России и за рубежом редко проходят без…

❤‍🔥13⚡5🫡5

8.23K viewsDmitry, 16:02

Инжиниринг Данных

Товарищи эксперты, филологи, отличники и отличницы, знатоки русского языка, как вы считаете, как правильно писать дата инженер на дореволюционной орфографии?
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр

(Слово дата оставим как есть, его все равно не было)

Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский

🌚23🙈206❤‍🔥2

7.3K viewsDmitry, edited 19:41

Инжиниринг Данных

Добавил видео о NoSQL базах данных в контексте аналитики, а именно об их использовании в качестве ИСТОЧНИКА данных для аналитических решений. В качестве примера выбрал документ-ориентированную базу данных MongoDB.

После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:

- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.

В завершение рассмотрел основные способы извлечения данных из MongoDB:

- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.

Не затронул только стриминг данных с помощью Kafka Connect или Debezium.

Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH

00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow

Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md

YouTube

NoSQL Databases for Data Analyst and Data Engineer | Module 2.6 | Surfalytics

In this video, we'll cover the topics related to NoSQL databases and their role in the Data Analytics stack. We’ll walk through the essentials of MongoDB, one of the most popular document databases in full-stack development. From understanding the differences…

❤‍🔥62⚡6

8.76K viewsDmitry, 16:42

About

Blog

Apps

Platform