Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Мне сказали что 7 figures data leaders должны играть в гольф, наверстываем 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥34🌚8🌭8🫡54🗿1
🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab


👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

Join the meeting: https://meet.google.com/xfn-kzgv-cwy
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥20🙈2
Live stream scheduled for
Live stream finished (23 minutes)
🤖 LLM меняют правила игры — не только в IT, но и в образовании, на работе и в общении.

На Data Fusion ВТБ и Институт ИИ МГУ представили большое исследование: поговорили с экспертами из МГУ, МФТИ, ВШЭ, РАН и собрали взгляд с двух сторон — технической и гуманитарной.

Что говорят?

- Вместо исчезающих профессий — их апгрейд. Программисты меньше пишут рутину, больше фокусируются на логике и тестировании. Дизайнеры — на креативе.
- Учиться проще: цифровой «двойник» преподавателя всегда на связи. Но и соблазн сдать всё «через нейросеть» — тоже растёт.
- В коммуникациях — новые правила игры. Мы всё чаще доверяем моделям как людям. Это удобно, но критическое мышление важно сохранить.
💯16🫡6🗿2❤‍🔥1
Давайте немного отвлекемся от ИТ будней, санкций, AI новостей и отжигов Трампа, и посмотрим на последние модные тренды.

После coachella, где собираются все модники появился четкий модный тренд на babushka style men outfit, где было куча мужиков в косынках.

Просто знайте, что сандали с носками это еще не вверх модной пирамиды, теперь можно и косынку надеть!😅
❤‍🔥22🙈22💯7💘2🤷1
Вот только закончили книгу по Snowflake, начинаем по Azure Databricks. Было много вопросов нафига козе баян делать Azure если есть просто Databricks. Мы им тактично объяснили зачем и нам дали добро.
❤‍🔥16🐳9
Forwarded from HR гастарбайтер в Европе 💶 (Kseniia Slobodskaia)
Вопросы на интервью: №5

What KPIs did you have in your previous/current role?

📌 А дальше - почти всегда:
• How did you track progress? What tools did you use?

📌 Для руководителей добавят:
• How do you know the KPI is right?
• How do you help others understand and reach their KPIs?


Разговор про KPIs важен, потому что дает понять, какие были приоритеты, как измерялся прогресс, какой был "единый язык" команды, на основе чего принимались решения и в итоге - как это влияло на рост и развитие этого кандидата (или как развитие кандидата влияло на улучшение KPIs😅).

Поэтому важно этот ответ подготовить заранее.

Рассказать:
— какие KPI были (и на какие цели завязаны)
— как вы их отслеживали (инструменты, отчёты, циклы)
— были ли они формально заданы или определялись вами

One of our KPIs was reducing time-to-fill for senior sales roles. We used Workday dashboards and weekly funnel reviews. Within one quarter, we improved it from 48 to 32 days by optimizing JD alignment and switching to a new agency partner.


Если KPI не было - не страшно

Страшно - когда кандидат говорит: "KPI не было" - и зависает 🌚

Даже в этом случае, главное - показать, как вы всё равно оценивали свою эффективность.

“I didn’t have formal KPIs, but I tracked my impact via turnaround time, project milestones, or stakeholder feedback”

“In my supporting role, success was reflected in how smoothly others could perform. I focused on responsiveness and being a reliable partner”


Даже если в компании не было системы KPI, хороший кандидат сам способен её для себя применить или хотя бы понимать, что важно в его работе. Бенчмарки, практика в других отделах, логика бизнеса - всё годится.

😬 Маленький личный кейс

Однажды кандидатка-рекрутер сказала, что закрывает вакансии от IC до VP за 2 недели, при том что до этого она упомянула, что одновременно ведёт 15–20 ролей. Звучит красиво, но в реальности невозможно. Я задала пару уточняющих вопросов - и всё посыпалось. Было грустно (мне).

Моё мнение:
Кандидаты, которые не могут внятно рассказать про KPI - чаще всего из незрелых бизнесов, не привыкли мыслить через ценность и вряд ли понимают, куда им расти. А как развиваться, если ты не можешь измерить, где ты вообще?

В предыдущих сериях:
Вопрос №1 - Tell me about yourself
Вопрос №2 - Why do you want to work at our company?
Вопрос №3 - Why are you looking for a new job?
Вопрос №4 - What were you expected to accomplish when you first joined your previous role?
❤‍🔥25🫡8🗿3🌭1👨‍💻1
Один из свежих, хотя и не совсем новых трендов — это возврат от распределённых вычислений (distributed computing) к вычислениям на одном узле, как в старые добрые времена SMP. Пример — DuckDB.

На картинке — типичный стек с DuckDB: всё локально, быстро, удобно. Но возникает вопрос — что произойдёт, если такой «одиночка» упадёт? Как быстро можно восстановиться?

Для большинства небольших и средних компаний объёма до 1 ТБ вполне достаточно, а всё, что не помещается, можно спокойно держать рядом — например, в Apache Iceberg на S3.


Использовал бы я duckDB? Ответ простой, для себя лично 100%, а вот как наемный сотрудник лучше делать ставку на проверенные технологии Spark, Trino, Snowflake и тп. Обычно так все и делают:)
🦄13👨‍💻7🫡3❤‍🔥1
Как измерить эффективность дата команды? Самый простой вариант это ROI (возврат инвестиций).


Солгасно статье How to think about the ROI of data work

ROI = 🎳 × 🎳(🖇) × 💰, где

🎳 (кегли) — это количество специалистов по данным, на которых повлияла ваша работа

🖇 (скрепка) — это степень воздействия на каждого из них (насколько вы упростили им работу)

💰 (мешок денег) — это влияние на бизнес, которое они могут оказать благодаря вашей работе

(песочные часы) — это время, которое вы потратили на выполнение задачи

Пример на практике: Если вы сделали улучшение, которым пользуются 5 аналитиков, и оно ускоряет их работу на 20%, а они, в свою очередь, приносят ощутимую пользу бизнесу — то вы проявили свою ценность.

Можно выделить 2 направления:

- KPI-персоны (ближе к бизнесу) — фокус на сокращение шагов до метрик и выбор самых "окупаемых" задач.

- Системные роли (инфраструктура) — фокус на масштабировании пользы (больше потребителей + выше эффективность).



На практике ROI чаще используется вендорами, чтобы продать "обещания" и "фичи", которых ещё нет или которые находятся в стадии беты. Это инструмент маркетинга, а не измерения реальной пользы.

Измерить реальный ROI от работы в данных — крайне сложно. Если считать только количество часов, которые якобы сэкономили — картина получается однобокой. Ведь организация продолжает платить зарплату, и эти издержки редко учитываются (а чаще вообще не раскрываются). Можно, конечно, сделать красивую презентацию и даже убедить руководство — но это больше похоже на иллюзию, чем на настоящие цели.

Гораздо продуктивнее работать в режиме OKR или хотя бы грамотно планировать спринты, чтобы:

каждая задача была привязана к бизнес-целям компании,

и результат можно было измерить.

Такой подход позволяет действительно продемонстрировать IMPACT и VALUE — а это напрямую влияет и на успех команды, и на карьерный рост каждого.

Как у вас с ROI? Например, хороший ли у вас ROI связанный с покупкой новой модели iPhone/Android?:)
🫡7❤‍🔥5🙉32
Давненько никто никого не покупал. Свершилось - Datadog acquires AI-powered observability startup Metaplane (AI там и не пахнет, так то). DataDog популярный и хороший инструмент для infrustructure observability и неплохо справляется с Data Observability. Облачная платформа. Но дорогая, я писал ранее про 65млн$ в год у Coinbase.

За сколько купили Metaplane — непонятно. Зачем — тоже не совсем ясно.
DataDog — популярное решение, и практически во всех компаниях, где я работал, он был в использовании. Ближайший бесплатный аналог — это Prometheus и Grafana, которые можно неплохо развернуть в Kubernetes.

С Metaplane я работал только на одном проекте. Мне досталась команда инженеров, аналитиков и ML-специалистов, а также набор разных инструментов: Snowflake, Metabase, Dagster, dbt, Keebo (для оптимизации затрат в Snowflake) и Metaplane. Люди, которые внедряли эти решения, к тому моменту уже ушли. Компания продолжала платить вендору, но инструментом никто не пользовался.

Я решил его оставить. Один аналитик, который очень хотел стать дата-инженером, вызвался стать экспертом по Metaplane. Он до сих пор разбирается 🙂

Расскажите про ваш опыт с Metaplane и DataDog или аналогами.
7❤‍🔥1
Media is too big
VIEW IN TELEGRAM
Привет от Карлсона, который живет на крыше:)
3❤‍🔥4114💯6🍾3🐳2💘1
12🙈6🍾2🫡2🐳1🍌1
Появился Airflow 3.0 или как у вас его любят назвать - плов.

Современный интерфейс — обновления статуса в реальном времени, удобный тёмный режим для глаз и улучшенный графический вид DAG'ов.

Assets — теперь можно явно указать, какие данные читает и пишет каждая задача, а Airflow сам строит полную карту зависимостей. Например, привязать загрузку файла в S3 к запуску пайплайна удалось за считаные минуты — без дополнительных скриптов.
(а я думал assets только у Dagster)

Событийный запуск — DAG'и могут стартовать сразу по факту появления новых данных, а не ждать расписания. Работает гораздо быстрее по сравнению с cron-запуском.

Версионирование и бандлы DAG'ов — все изменения пайплайна теперь отслеживаются как изменения кода. Плюс, весь DAG (таски, зависимости, документация) можно упаковать в один бандл для удобного деплоя или отката.

EdgeExecutor — можно запускать задачи на любой машине, хоть на Raspberry Pi, параллельно с основным кластером.

Backfill через UI — выбрал нужный диапазон дат, кликнул один раз — и Airflow сам перерассчитал все пропущенные периоды.


Уже кто-нибуль попробовал обновиться?

PS давайте сделаем вебинарчик для DataLearn, есть желающие?
1❤‍🔥62🍾1711🫡4
Загрузил 2 вебинарчика, которые недавно проводили. Обложки создал в ChatGPT.

История одного проекта с большим техническим долгом (Роман Зыков, автор канала @topdatalab) про SQLMesh, DLThub, Metabase, Postgres - YouTube, RuTube

Всё что нужно знать о Greenplum (Автор Никита Целищев, автор канала @DataEngineeringDigest) - YouTube, RuTube

И мне еще понравился вебинар G63. Животное удовольствие от Стаса Асафьева, я ужа давно смотрю его исторические обзоры, а тут он классно так про машину рассказал.

PS Если хотите сделать прикольный вебинар, рассказать про свой проект, you are welcome!
34🫡5💯1
Дата с Димой | Новости из мира BigTech | Эпизод 4️⃣

YouTube, Rutube

💡 В этом эпизоде обсуждаем свежие новости из мира BigTech, карьерные инсайты, новые технологии, оптимизацию данных, а также влиятельные стартапы и инвестиции.

🎯 Ключевые темы выпуска:

📊 dbt, analytics engineering и тренды в индустрии данных
⚡️ Качество данных, рост зарплат и новые возможности за пределами IT
🤖 Роль AI в аналитике — автоматизация, курсоры и исправление ошибок
❄️ Iceberg vs Snowflake — форматы хранения и скрытые издержки Databricks
🔥 Альтернативы Pandas — FireDucks, Polars и новые подходы к обработке данных
🚀 Гибридные СУБД, DuckDB и сверхпроизводительность на AWS S3
🧵 Pipe Syntax и упрощение работы с SQL
🛡 Безопасность в AI и уязвимости в Apache Parquet
🏦 Инвестиции в OpenAI и влияние религии на Кремниевую долину
🎯 Навыки 2030 года — AI, Big Data и новые подходы к найму
🧠 Сверхинтеллект в 2027 году — риск или шанс
📚 Будущее образования — навыки важнее дипломов
🧩 Data-инженерия, AI Tutors и прокачка навыков через код
🏢 AI в бизнесе — примеры Shopify и развитие внутренних AI-отделов
🏗 Проблемы с дата-центрами и оптимизация инфраструктуры
🇷🇺 Арена Day, российские вендоры и будущее отечественного софта
📈 Возвращение западных компаний в Россию и адаптация решений
📖 Литературные рекомендации по технологиям и AI
☁️ Проблемы Яндекс Облака и работа с отказами в облачных сервисах
⚙️ AI-агенты, Kubernetes и локальные аналитические платформы
🧩 Облачные BI-инструменты и тренды в AI-образовании
💻 Использование AI в разработке и обучение Spark через Яндекс
🛠 Трансформация Алисы в умного ассистента от Яндекса
✍️ Vibe Codding — новые подходы к написанию кода


🎥 Хронометраж:

00:01 Введение в новости аналитики, AI и карьерных трендов.
00:39 Обзор DBT Cloud и развития аналитической инженерии.
02:32 Качество данных, расширение профессии и зарплаты.
04:21 Роль AI в аналитике и примеры автоматизации.
05:18 Iceberg, Snowflake и скрытые затраты на облачные решения.
08:10 Альтернативы Pandas: Fire DXS, Arrow, Polars.
09:05 Проблемы DataBricks и новые подходы в аналитике.
12:50 Гибридная обработка данных и производительность AWS S3.
14:42 Облегчение работы с SQL с помощью pipe syntax.
16:34 Использование AI и обнаружение уязвимостей в Spark.
19:16 Инвестиции в AI и развитие рынка OpenAI.
22:05 Тренды поиска работы и рост зарплат инженеров.
26:45 Изменения в подходах к найму и собеседованиям.
27:42 Опасности и потенциал сверхинтеллекта в будущем.
28:39 Трансформация образования и самообучение.
30:34 Реалии трудоустройства после окончания обучения.
33:40 AI Tutor и важные навыки для дата-инженеров.
35:37 Как компании интегрируют AI в бизнес-процессы.
37:27 Проблемы использования дата-центров в Китае.
39:19 Арена Day и развитие российских IT-вендоров.
40:14 Возвращение западных компаний на рынок и вызовы для локальных решений.
41:10 Рекомендации книг о технологиях и будущем.
42:05 Проблемы Яндекс Облака и управление кризисами.
43:59 Развитие AI-агентов и Kubernetes в России.
44:52 Облачный BI и использование AI в образовании.
46:43 AI в разработке и обучение Apache Spark.
48:37 Трансформация Алисы в полноценного ассистента.
50:31 Инструменты Vibe Coding и создание BI Cube.

Не забывайте ставить лайк, подписываться и делиться этим видео с друзьями! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥50🫡8💯5💘1