Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
🤖 LLM меняют правила игры — не только в IT, но и в образовании, на работе и в общении.

На Data Fusion ВТБ и Институт ИИ МГУ представили большое исследование: поговорили с экспертами из МГУ, МФТИ, ВШЭ, РАН и собрали взгляд с двух сторон — технической и гуманитарной.

Что говорят?

- Вместо исчезающих профессий — их апгрейд. Программисты меньше пишут рутину, больше фокусируются на логике и тестировании. Дизайнеры — на креативе.
- Учиться проще: цифровой «двойник» преподавателя всегда на связи. Но и соблазн сдать всё «через нейросеть» — тоже растёт.
- В коммуникациях — новые правила игры. Мы всё чаще доверяем моделям как людям. Это удобно, но критическое мышление важно сохранить.
💯16🫡6🗿2❤‍🔥1
Давайте немного отвлекемся от ИТ будней, санкций, AI новостей и отжигов Трампа, и посмотрим на последние модные тренды.

После coachella, где собираются все модники появился четкий модный тренд на babushka style men outfit, где было куча мужиков в косынках.

Просто знайте, что сандали с носками это еще не вверх модной пирамиды, теперь можно и косынку надеть!😅
❤‍🔥22🙈22💯7💘2🤷1
Вот только закончили книгу по Snowflake, начинаем по Azure Databricks. Было много вопросов нафига козе баян делать Azure если есть просто Databricks. Мы им тактично объяснили зачем и нам дали добро.
❤‍🔥16🐳9
Forwarded from HR гастарбайтер в Европе 💶 (Kseniia Slobodskaia)
Вопросы на интервью: №5

What KPIs did you have in your previous/current role?

📌 А дальше - почти всегда:
• How did you track progress? What tools did you use?

📌 Для руководителей добавят:
• How do you know the KPI is right?
• How do you help others understand and reach their KPIs?


Разговор про KPIs важен, потому что дает понять, какие были приоритеты, как измерялся прогресс, какой был "единый язык" команды, на основе чего принимались решения и в итоге - как это влияло на рост и развитие этого кандидата (или как развитие кандидата влияло на улучшение KPIs😅).

Поэтому важно этот ответ подготовить заранее.

Рассказать:
— какие KPI были (и на какие цели завязаны)
— как вы их отслеживали (инструменты, отчёты, циклы)
— были ли они формально заданы или определялись вами

One of our KPIs was reducing time-to-fill for senior sales roles. We used Workday dashboards and weekly funnel reviews. Within one quarter, we improved it from 48 to 32 days by optimizing JD alignment and switching to a new agency partner.


Если KPI не было - не страшно

Страшно - когда кандидат говорит: "KPI не было" - и зависает 🌚

Даже в этом случае, главное - показать, как вы всё равно оценивали свою эффективность.

“I didn’t have formal KPIs, but I tracked my impact via turnaround time, project milestones, or stakeholder feedback”

“In my supporting role, success was reflected in how smoothly others could perform. I focused on responsiveness and being a reliable partner”


Даже если в компании не было системы KPI, хороший кандидат сам способен её для себя применить или хотя бы понимать, что важно в его работе. Бенчмарки, практика в других отделах, логика бизнеса - всё годится.

😬 Маленький личный кейс

Однажды кандидатка-рекрутер сказала, что закрывает вакансии от IC до VP за 2 недели, при том что до этого она упомянула, что одновременно ведёт 15–20 ролей. Звучит красиво, но в реальности невозможно. Я задала пару уточняющих вопросов - и всё посыпалось. Было грустно (мне).

Моё мнение:
Кандидаты, которые не могут внятно рассказать про KPI - чаще всего из незрелых бизнесов, не привыкли мыслить через ценность и вряд ли понимают, куда им расти. А как развиваться, если ты не можешь измерить, где ты вообще?

В предыдущих сериях:
Вопрос №1 - Tell me about yourself
Вопрос №2 - Why do you want to work at our company?
Вопрос №3 - Why are you looking for a new job?
Вопрос №4 - What were you expected to accomplish when you first joined your previous role?
❤‍🔥25🫡8🗿3🌭1👨‍💻1
Один из свежих, хотя и не совсем новых трендов — это возврат от распределённых вычислений (distributed computing) к вычислениям на одном узле, как в старые добрые времена SMP. Пример — DuckDB.

На картинке — типичный стек с DuckDB: всё локально, быстро, удобно. Но возникает вопрос — что произойдёт, если такой «одиночка» упадёт? Как быстро можно восстановиться?

Для большинства небольших и средних компаний объёма до 1 ТБ вполне достаточно, а всё, что не помещается, можно спокойно держать рядом — например, в Apache Iceberg на S3.


Использовал бы я duckDB? Ответ простой, для себя лично 100%, а вот как наемный сотрудник лучше делать ставку на проверенные технологии Spark, Trino, Snowflake и тп. Обычно так все и делают:)
🦄13👨‍💻7🫡3❤‍🔥1
Как измерить эффективность дата команды? Самый простой вариант это ROI (возврат инвестиций).


Солгасно статье How to think about the ROI of data work

ROI = 🎳 × 🎳(🖇) × 💰, где

🎳 (кегли) — это количество специалистов по данным, на которых повлияла ваша работа

🖇 (скрепка) — это степень воздействия на каждого из них (насколько вы упростили им работу)

💰 (мешок денег) — это влияние на бизнес, которое они могут оказать благодаря вашей работе

(песочные часы) — это время, которое вы потратили на выполнение задачи

Пример на практике: Если вы сделали улучшение, которым пользуются 5 аналитиков, и оно ускоряет их работу на 20%, а они, в свою очередь, приносят ощутимую пользу бизнесу — то вы проявили свою ценность.

Можно выделить 2 направления:

- KPI-персоны (ближе к бизнесу) — фокус на сокращение шагов до метрик и выбор самых "окупаемых" задач.

- Системные роли (инфраструктура) — фокус на масштабировании пользы (больше потребителей + выше эффективность).



На практике ROI чаще используется вендорами, чтобы продать "обещания" и "фичи", которых ещё нет или которые находятся в стадии беты. Это инструмент маркетинга, а не измерения реальной пользы.

Измерить реальный ROI от работы в данных — крайне сложно. Если считать только количество часов, которые якобы сэкономили — картина получается однобокой. Ведь организация продолжает платить зарплату, и эти издержки редко учитываются (а чаще вообще не раскрываются). Можно, конечно, сделать красивую презентацию и даже убедить руководство — но это больше похоже на иллюзию, чем на настоящие цели.

Гораздо продуктивнее работать в режиме OKR или хотя бы грамотно планировать спринты, чтобы:

каждая задача была привязана к бизнес-целям компании,

и результат можно было измерить.

Такой подход позволяет действительно продемонстрировать IMPACT и VALUE — а это напрямую влияет и на успех команды, и на карьерный рост каждого.

Как у вас с ROI? Например, хороший ли у вас ROI связанный с покупкой новой модели iPhone/Android?:)
🫡7❤‍🔥5🙉32
Давненько никто никого не покупал. Свершилось - Datadog acquires AI-powered observability startup Metaplane (AI там и не пахнет, так то). DataDog популярный и хороший инструмент для infrustructure observability и неплохо справляется с Data Observability. Облачная платформа. Но дорогая, я писал ранее про 65млн$ в год у Coinbase.

За сколько купили Metaplane — непонятно. Зачем — тоже не совсем ясно.
DataDog — популярное решение, и практически во всех компаниях, где я работал, он был в использовании. Ближайший бесплатный аналог — это Prometheus и Grafana, которые можно неплохо развернуть в Kubernetes.

С Metaplane я работал только на одном проекте. Мне досталась команда инженеров, аналитиков и ML-специалистов, а также набор разных инструментов: Snowflake, Metabase, Dagster, dbt, Keebo (для оптимизации затрат в Snowflake) и Metaplane. Люди, которые внедряли эти решения, к тому моменту уже ушли. Компания продолжала платить вендору, но инструментом никто не пользовался.

Я решил его оставить. Один аналитик, который очень хотел стать дата-инженером, вызвался стать экспертом по Metaplane. Он до сих пор разбирается 🙂

Расскажите про ваш опыт с Metaplane и DataDog или аналогами.
7❤‍🔥1
Media is too big
VIEW IN TELEGRAM
Привет от Карлсона, который живет на крыше:)
3❤‍🔥4114💯6🍾3🐳2💘1
12🙈6🍾2🫡2🐳1🍌1
Появился Airflow 3.0 или как у вас его любят назвать - плов.

Современный интерфейс — обновления статуса в реальном времени, удобный тёмный режим для глаз и улучшенный графический вид DAG'ов.

Assets — теперь можно явно указать, какие данные читает и пишет каждая задача, а Airflow сам строит полную карту зависимостей. Например, привязать загрузку файла в S3 к запуску пайплайна удалось за считаные минуты — без дополнительных скриптов.
(а я думал assets только у Dagster)

Событийный запуск — DAG'и могут стартовать сразу по факту появления новых данных, а не ждать расписания. Работает гораздо быстрее по сравнению с cron-запуском.

Версионирование и бандлы DAG'ов — все изменения пайплайна теперь отслеживаются как изменения кода. Плюс, весь DAG (таски, зависимости, документация) можно упаковать в один бандл для удобного деплоя или отката.

EdgeExecutor — можно запускать задачи на любой машине, хоть на Raspberry Pi, параллельно с основным кластером.

Backfill через UI — выбрал нужный диапазон дат, кликнул один раз — и Airflow сам перерассчитал все пропущенные периоды.


Уже кто-нибуль попробовал обновиться?

PS давайте сделаем вебинарчик для DataLearn, есть желающие?
1❤‍🔥62🍾1711🫡4
Загрузил 2 вебинарчика, которые недавно проводили. Обложки создал в ChatGPT.

История одного проекта с большим техническим долгом (Роман Зыков, автор канала @topdatalab) про SQLMesh, DLThub, Metabase, Postgres - YouTube, RuTube

Всё что нужно знать о Greenplum (Автор Никита Целищев, автор канала @DataEngineeringDigest) - YouTube, RuTube

И мне еще понравился вебинар G63. Животное удовольствие от Стаса Асафьева, я ужа давно смотрю его исторические обзоры, а тут он классно так про машину рассказал.

PS Если хотите сделать прикольный вебинар, рассказать про свой проект, you are welcome!
34🫡5💯1
Дата с Димой | Новости из мира BigTech | Эпизод 4️⃣

YouTube, Rutube

💡 В этом эпизоде обсуждаем свежие новости из мира BigTech, карьерные инсайты, новые технологии, оптимизацию данных, а также влиятельные стартапы и инвестиции.

🎯 Ключевые темы выпуска:

📊 dbt, analytics engineering и тренды в индустрии данных
⚡️ Качество данных, рост зарплат и новые возможности за пределами IT
🤖 Роль AI в аналитике — автоматизация, курсоры и исправление ошибок
❄️ Iceberg vs Snowflake — форматы хранения и скрытые издержки Databricks
🔥 Альтернативы Pandas — FireDucks, Polars и новые подходы к обработке данных
🚀 Гибридные СУБД, DuckDB и сверхпроизводительность на AWS S3
🧵 Pipe Syntax и упрощение работы с SQL
🛡 Безопасность в AI и уязвимости в Apache Parquet
🏦 Инвестиции в OpenAI и влияние религии на Кремниевую долину
🎯 Навыки 2030 года — AI, Big Data и новые подходы к найму
🧠 Сверхинтеллект в 2027 году — риск или шанс
📚 Будущее образования — навыки важнее дипломов
🧩 Data-инженерия, AI Tutors и прокачка навыков через код
🏢 AI в бизнесе — примеры Shopify и развитие внутренних AI-отделов
🏗 Проблемы с дата-центрами и оптимизация инфраструктуры
🇷🇺 Арена Day, российские вендоры и будущее отечественного софта
📈 Возвращение западных компаний в Россию и адаптация решений
📖 Литературные рекомендации по технологиям и AI
☁️ Проблемы Яндекс Облака и работа с отказами в облачных сервисах
⚙️ AI-агенты, Kubernetes и локальные аналитические платформы
🧩 Облачные BI-инструменты и тренды в AI-образовании
💻 Использование AI в разработке и обучение Spark через Яндекс
🛠 Трансформация Алисы в умного ассистента от Яндекса
✍️ Vibe Codding — новые подходы к написанию кода


🎥 Хронометраж:

00:01 Введение в новости аналитики, AI и карьерных трендов.
00:39 Обзор DBT Cloud и развития аналитической инженерии.
02:32 Качество данных, расширение профессии и зарплаты.
04:21 Роль AI в аналитике и примеры автоматизации.
05:18 Iceberg, Snowflake и скрытые затраты на облачные решения.
08:10 Альтернативы Pandas: Fire DXS, Arrow, Polars.
09:05 Проблемы DataBricks и новые подходы в аналитике.
12:50 Гибридная обработка данных и производительность AWS S3.
14:42 Облегчение работы с SQL с помощью pipe syntax.
16:34 Использование AI и обнаружение уязвимостей в Spark.
19:16 Инвестиции в AI и развитие рынка OpenAI.
22:05 Тренды поиска работы и рост зарплат инженеров.
26:45 Изменения в подходах к найму и собеседованиям.
27:42 Опасности и потенциал сверхинтеллекта в будущем.
28:39 Трансформация образования и самообучение.
30:34 Реалии трудоустройства после окончания обучения.
33:40 AI Tutor и важные навыки для дата-инженеров.
35:37 Как компании интегрируют AI в бизнес-процессы.
37:27 Проблемы использования дата-центров в Китае.
39:19 Арена Day и развитие российских IT-вендоров.
40:14 Возвращение западных компаний на рынок и вызовы для локальных решений.
41:10 Рекомендации книг о технологиях и будущем.
42:05 Проблемы Яндекс Облака и управление кризисами.
43:59 Развитие AI-агентов и Kubernetes в России.
44:52 Облачный BI и использование AI в образовании.
46:43 AI в разработке и обучение Apache Spark.
48:37 Трансформация Алисы в полноценного ассистента.
50:31 Инструменты Vibe Coding и создание BI Cube.

Не забывайте ставить лайк, подписываться и делиться этим видео с друзьями! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥50🫡8💯5💘1
Как понять, что в компании проблема с дата культурой и уровень вовлеченности у команды низкий? Хотя активность высокая. (Подойдет не только для даты команды)

Вот некоторые из признаков:

1) множество бесполезной активности в чатах/мессенджерах и много emojis и реакций по делу и без (для галочки)

2) для каждой задачи проекта создается новый рабочий чат, иногда и не один, потому что каждый хочет быть проактивным и побыстрей создать чатик и пригласить туда коллег (для галочки)

3) пишется большое кол-во документов, таких как Playbook/Runbook/ и тп, в которых документируются шаги выполнения команд (для галочки)

4) множество звонков и встреч, на которых бывает больше 3х человек

5) бесполезные комментарии в code reviews (для галочки)

6) повторяющиеся презентации и контент на встречах с командами о высокой цели и миссии компании и общий вклад к великой цели

7) отсутствие решения очевидных проблем с доступом, производительностью, legacy, качеством

А какие вы знаете признаки?
❤‍🔥28🫡4💯3🤷2
Сегодня за долгое время отсавил отзыв под продуктом в Amazon, и мне предложили отличный инцентив, чтобы я еще пяток оставил - шутка в подарок.

Теперь вы знаете, за что Product менеджеры получают по ляму в год.

Скорей всего это отличный сценарий использования AI для повышения вовлеченности клиентов.

Получился бы отличный keynote для большой AI конференции - "История успеха: Шутки от AI увеличили продажи на 9.87% и сократили отток клиентов на 2.3%"
🗿20💯12🍾3❤‍🔥1
Увидел я значит вакансию в LinkedIn - Principal AI Strategist. Интересно стало посмотреть требования. Все очень классно написано.

Executive Client Engagement and Leadership
— Главный AI-советник для ключевых клиентов.
— Проведение executive briefings, advisory sessions и C-level workshops.
— Ответственность за pre-sales, solution shaping, storytelling и крупные AI-сделки.
— Формирование trusted advisor отношений с клиентами.

Offering Ownership and Marketing Impact
— Создание и продвижение AI offerings и GTM-стратегий (LLMs, Agentic AI, Predictive Analytics).
— Отслеживание AI trends и трансформация их в решения и услуги.
— Разработка thought leadership материалов (white papers, кейноты, статьи).
— Участие в индустриальных форумах и мероприятиях как AI-евангелист.

Solution Design and Delivery Leadership
— Ведение AI strategy, governance, POCs и roadmaps для Fortune 1000.
— Консультирование по платформам (OpenAI, Claude, LangChain, Databricks, Azure OpenAI и др.).
— Обеспечение бизнес-результатов, ethical use и долгосрочной ценности AI.

Organizational Leadership
— Менторинг стратегов, архитекторов и консультантов в TEKsystems и One North.
— Выравнивание business и technical стейкхолдеров на AI-transformation.
— Формирование культуры excellence, innovation и responsible AI.

Skills & Qualifications
— 12+ лет в strategy consulting, tech advisory или innovation.
— 7+ лет AI-опыта:
 • AI strategy и governance,
 • presales и solutioning,
 • работа с LLMs, Generative AI, Predictive Analytics.
— Успешные C-level workshops и advisory.
— Сильный бизнес- и технический AI-бэкграунд.
— Навыки storytelling и executive communication.
— Опыт публикаций, спикерства и AI governance на enterprise-уровне.


Ну хотелки понятно, вы должны быть эдакий эксперт по AI, перед завтраком писать стратегию по внедрению AI в Fortune500 компаниях, до обеда успеть написать пару статей и white papers, подготовить доклад для конференции, а вечером провести доклад для C-уровня по AI.

Вам даже предлагают критерии оценки (что очень редко для вакансии, но классно, когда это есть):

Success Metrics
— Рост AI strategy revenue и расширение AI service line.
— Win rate в AI pre-sales и новых инициативах.
— Client satisfaction и executive endorsements.
— Объём thought leadership (white papers, конференции, публикации).
— Развитие внутренних AI capabilities и рост талантов.


Ну все понятно и логично.

Теперь самое интересное, сколько же стоит такой специалист в US.

Начнем с бенефитов - Скидки только для участников и корпоративные тарифы на всё — от пиццы и зоопарков до билетов в кино.

Просто замечательно.

И как вы думаете, какое вознаграждение у такого топого AI principal стратега?!

Не буду вас томить, просто напишу - Мы оставляем за собой право установить зарплату выше или ниже базового диапазона $162,600–$254,200.

То есть старший разработчик SQL в Америке получает примерно как Pricipal AI Strategist. Интересно, люди которые будут внедрять прорывные AI решения и писать стратегии (уверен тут они эксперты по использованию ChatGPT для написания стратегий), какого качества должны выдавать свои решения.

PS если вы вдруг ищету работу заграницей на позицию Product Manager с AI уклоном, прям можно с этой вакансии к себе в резюме добавлять, написано очень добротно (наверно другой AI strategist писал с попомью ChatGPT).
🫡24🍾6🙈6🐳52
Fivetran купил Census.

Fivetran это набор коннекторов к сотням источников данных. На одном проекте меня очень выручает, грузим данных из Amazon Seller Central, NetSuite и других сервисов. Так же там есть классная возможность использовать webhooks, чтобы собирать все события или по старинке забирать данные из SFTP.

Однозначно инструмент экономит тонну времени. Из минусов это цена за кол-во строк. Подойдет для небольших источников. Еще там есть описанная модель данных для каждого источника и можно подключить готовые dbt модели, чтобы рассчитывать метрики и писать результат в хранилище данных.

Census это у нас reverse etl. Например, хотите вы в хранилище данных обновить метрики для лидов и клиентов и потом отправить в платформу автоматизации маркетинга - Braze, Marketo или обновить информацию по клиентам в CRM. Вам нужно будет писать в API сервиса, и вот Census тут поможет.

Я использую его аналог HighTouch.

Теперь значит Fivetran будет прикрывать хранилище данных с двух концов🤑
Please open Telegram to view this post
VIEW IN TELEGRAM
5💯3❤‍🔥1🌭1
Как говорится, AI терминология in plain Russian🇷🇺

AGI: ИИ, который может думать как человек.
CoT (Chain of Thought): ИИ размышляет пошагово.
AI Agents: Автономные программы, принимающие решения.
AI Wrapper: Упрощает взаимодействие с ИИ-моделями.
AI Alignment: Обеспечивает соответствие ИИ человеческим ценностям.
Fine-tuning: Улучшение ИИ с помощью конкретных обучающих данных.
Hallucination: Когда ИИ генерирует ложную информацию.
AI Model: Обученная система для выполнения задачи.
Chatbot: ИИ, имитирующий человеческий разговор.
Compute: Вычислительная мощность для ИИ-моделей.
Computer Vision: ИИ, который распознаёт изображения и видео.
Context: Информация, которую ИИ запоминает для лучших ответов.
Deep Learning: Обучение ИИ через многослойные нейросети.
Embedding: Числовое представление слов для ИИ.
Explainability: Как можно понять решения ИИ.
Foundation Model: Крупная ИИ-модель, адаптирующаяся под задачи.
Generative AI: ИИ, создающий текст, изображения и т.п.
GPU: Аппаратное обеспечение для ускорения работы ИИ.
Ground Truth: Проверенные данные, на которых учится ИИ.
Inference: Прогнозы ИИ на новых данных.
LLM (Large Language Model): ИИ, обученный на больших текстах.
Machine Learning: ИИ, улучшающийся на основе данных.
MCP (Model Context Protocol): Стандарт доступа ИИ к внешним данным.
NLP (Natural Language Processing): ИИ, понимающий человеческий язык.
Neural Network: Модель ИИ, вдохновленная мозгом.
Parameters: Внутренние переменные ИИ для обучения.
Prompt Engineering: Создание запросов для управления ИИ-выходом.
Reasoning Model: Модель, которая следует логике.
Reinforcement Learning: Обучение ИИ с помощью наград и наказаний.
RAG (Retrieval-Augmented Generation): ИИ, который совмещает поиск и ответы.
Supervised Learning: ИИ, обучаемый на размеченных данных.
TPU: Специализированный процессор от Google для ИИ.
Tokenization: Разделение текста на более мелкие части.
Training: Обучение ИИ через изменение параметров.
Transformer: Архитектура ИИ для обработки языка.
Unsupervised Learning: ИИ, находящий закономерности в неразмеченных данных.
Vibe Coding: Программирование с помощью естественного языка.
Weights: Значения, формирующие обучение ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3410🫡8🙈2🤷2😈1