Инжиниринг Данных – Telegram

Инжиниринг Данных

23.9K subscribers

2.16K photos

63 videos

194 files

3.29K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.9K subscribers

Инжиниринг Данных

Билл Инмон один из отцов основателей хранилищ данных все еще пишет посты в Linkedin, время от времени. Его последний пост был посвящен книге от Snowflake – Облачное Хранилище для Чайников (Cloud Data Warehousing for Dummies). Довольно известная серия, у меня даже в детстве были такие книги про Microsoft Office.

Как обычно Билл категоричен – “They should have renamed the book Data warehouse by dummies, not for dummies”.

Он назвал две причины:

1. Отсутствие информации об интеграции данных: Интеграция данных — это суть любого хранилища данных, составляющая 90% работы над проектом. Однако в книге, по его словам, этот аспект либо проигнорирован, либо упомянут без должного внимания.
2. Отсутствие текста как данных: Текстовые данные играют важную роль в современных хранилищах данных, зачастую не менее значимую, чем структурированные данные. Он критикует авторов за недостаток понимания того, как включать, хранить и использовать текстовую информацию в хранилище данных.

Для меня эти причины не показались настолько весомыми. Я понимаю, что цель книги было прорекламировать Snowflake, поэтому книга бесплатно распространяется. В ней много маркетинга и воды, но и аргументы Билла об использовании текста тоже не очень понятны. Я знаю, что он раньше работал над решением для хранения и обработки текста – Text Analytics Simplified.

Может он сам тут рекламируют свои идеи?

Я бы лучше почитал Ральфа Кимбала по теме хранилищ данных, его Dimensional Modelling как-то ближе и родней.

Cloud Data Warehousing for Dummies (3rd Edition)

Download Snowflake's Cloud Data Warehousing for Dummies and learn how to get the most out of your data with full elasticity.

🐳9❤‍🔥6🍾2🤷‍♂1

7.61K viewsDmitry, edited 15:10

Инжиниринг Данных

Forwarded from Продакт аналитикс

Перед тем, как вернуться к дальнейшему разбору многосерийной саги «Как быть и что делать с рынком состояния хуже некуда» , предлагаю стряхнуть пыль со своего ютуба , ведь уже завтра мы встретимся с
Димой Аношиным - экспертом по дата инжинирингу, ex-Amazon и Microsoft , а также автором DataLearn и Surfalytics.

Начнем эфир завтра, 31 октября в 21:00 по московскому времени на моем канале. Что обсудим:
- опыт в FAANG и как там оказаться
- ужасы текущего рынка и какие навыки в ходу
- поговорим о забуграх и что делать, чтобы преуспеть
- свои проекты VS найм и сподвигли ли свои проекты по-новому взглянуть на рынок кандидатов
- чему учить и чему учиться 📚

Ваши вопросы в комментариях категорически приветствуются !

До встречи 👋

Please open Telegram to view this post

VIEW IN TELEGRAM

Инжиниринг Данных

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

❤‍🔥14🌚2👨‍💻1

7.17K viewsDmitry, 18:00

Инжиниринг Данных

Можете присоединяться к стриму и задавать вопросы:)

https://www.youtube.com/watch?v=Rv1PVpX2Yv8

Встреча с Димой Аношиным

Встретимся с легендой дата-инжиниринга, ех-Amazon и ex-Microsoft, предпринимателем и по совместительству автором канала "Инжиниринг данных" - Димой Аношиным!

Тайминг будет, ожидайте :)

❤‍🔥6

7.4K viewsDmitry, edited 18:07

Инжиниринг Данных

Статистику AppMetrica теперь можно получить за пару кликов

Партнеры РСЯ и AdFox могут получить доступ к расширенной аналитике всего в несколько действий, так как процесс теперь автоматизирован и не нужно тратить время на написание кода. Чтобы воспользоваться этой возможностью, выполните следующие шаги:

1. Зарегистрируйтесь в AppMetrica под своим логином в РСЯ или Adfox.
2. Заполните профиль и свяжите с AppMetrica приложения, которые монетизируются через РСЯ.
3. Подтвердите свое согласие на передачу данных.

Таким образом клиенты РСЯ и AdFox смогут получить расширенные данные сервиса

Если вы уже работали с AppMetrica, то вас достаточно добавить в интерфейсе сервиса связь с приложение Yandex Mobile Ads в «Синхронизации Ads SDK».

❤‍🔥63

7.45K viewsDmitry, 17:10

Инжиниринг Данных

Очень классный мини сериал про качество продукта

What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?

Про качество вам расскажут топовые CEO, Founders и Product Managers.

What is quality? And how do things of quality get built? A limited series. Now streaming.

❤‍🔥18🍾5🫡2

8.36K viewsDmitry, 00:45

Инжиниринг Данных

Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.

99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.

Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.

Данный tip подходят для разработчиков и инженеров;)

💯91❤‍🔥9⚡1

8.96K viewsDmitry, edited 02:36

Инжиниринг Данных

Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).

Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.

🐳29🫡11🌚10❤‍🔥4🙈4🌭32🍾1🗿1

7.91K viewsDmitry, 21:44

Инжиниринг Данных

Media is too big

VIEW IN TELEGRAM

Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.

💯20❤‍🔥11⚡8🐳1

7.55K viewsDmitry, edited 23:58

Инжиниринг Данных

Media is too big

VIEW IN TELEGRAM

Самое время ~~вмешиваться в американские выборы~~ хайповать и строить интерактивные визуализации!

Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата! 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

37🫡15🗿5⚡3🌚3❤‍🔥2😈1

8.57K viewsDmitry, 16:57

Инжиниринг Данных

Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.

Перевод:

A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.

Вот примеры, как A/A-тесты могут быть полезны:

1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.

2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.

3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.

Источник: https://experimentguide.com/

Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅

Please open Telegram to view this post

VIEW IN TELEGRAM

😈22⚡14💯8

8.03K viewsDmitry, edited 05:13

Инжиниринг Данных

Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸

Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥79🐳6⚡4

8.41K viewsDmitry, 07:21

Инжиниринг Данных

Какой подход в A/B тестах вы используете? (Вопрос из зала👉)

Anonymous Poll

Фриквентистский подход

Баесовский подход

Я не знаю что такое А/B тесты

Мы не используем А/B тесты

988 voters7.38K viewsDmitry, 16:51

Инжиниринг Данных

Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие ~~стучат молотком~~ работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

⚡22❤‍🔥6🌚1

9.57K viewsDmitry, 08:05

Инжиниринг Данных

This media is not supported in your browser

VIEW IN TELEGRAM

Спасибо, что отдали голос за правильного кандидата🍾😝

PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷)

Update: не прошло и несколько часов как вызвали на ковер🤪

PPS Еще оказывается Симпсоны были не правы первый раз😂

Please open Telegram to view this post

VIEW IN TELEGRAM

🍾77🫡48🗿1713😭7🙈6🍌3❤‍🔥2🌚2👨‍💻2🤷‍♂1

9.4K viewsDmitry, edited 15:53

Инжиниринг Данных

Media is too big

VIEW IN TELEGRAM

Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.

💯43❤‍🔥32👾4🙈2⚡1

9.39K viewsDmitry, 18:45

Инжиниринг Данных

Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.

Появилась новая книга Apache Airflow Best Practices от Packt Publishing.

With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering

This book covers the following exciting features:

- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow

Книга про 2ю версию, хотя уже скоро будет версия 3.0.

Есть книга Data Pipelines with Apache Airflow

Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.

Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.

Расскажите, кто что использует?

Apache Airflow Best Practices | Data | Paperback

A practical guide to orchestrating data workflow with Apache Airflow. Top rated Data products.

🦄34❤‍🔥18🐳3💯1

10.4K viewsDmitry, 22:52

Инжиниринг Данных

Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.

Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.

Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.

Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.

Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.

В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour

Сейчас у них классные результаты:

During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.

What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.

Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)

Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2 | Amazon Web Services

Large-scale, distributed compute framework migrations are not for the faint of heart. There are backwards-compatibility constraints to maintain, performance expectations to meet, scalability limits to overcome, and the omnipresent risk of introducing breaking…

❤‍🔥8🙈1

8.52K viewsDmitry, 16:58

Инжиниринг Данных

LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.

Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))

В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.

🐳6🫡5🙈4❤‍🔥1🍌1🗿1

8.41K viewsDmitry, edited 03:19

Инжиниринг Данных

В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.

Вот несколько классных вариантов использования для аналитики и инженерии данных:

- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в source модели dbt и уже строить модели внутри базы
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB

Этот список можно продолжать!

Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb

Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.

❤‍🔥41⚡12🐳1

10.2K viewsDmitry, edited 04:05