Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
После долгих лет в cloud я наконец-то понял: облако — переоценено.

Поэтому я решил инвестировать свое время в действительно важные и полезные навыки.

С гордостью сообщаю, что получил сертификацию по Oracle 9i и Informatica PowerCenter 7.1 — технологиям, которые когда-то держали весь enterprise-ETL на своих хрупких, но гордых серверах в серверных без кондиционеров.

В облаке слишком много YAML и нестабильных connection'ов
— а в on-prem — один раз настроил в 2005, и всё работает до сих пор
— плюс, приятно слышать, как твой сервер шумит в углу, пока ETL грузит данные 6 часов без сбоев

Следующие шаги:
☑️ Сертификация по Teradata CLI
☑️ Написание ETL-логики на COBOL
☑️ Настройка алертов через факс
💯81😭37🫡27🐳15❤‍🔥1010🌚8🌭7🗿6🦄3😈2
Я всегда думал, что Power BI бесплатный=) А оказывается они 1го апреля подняли цену, но анонс был почти сразу после моего дня рождения в ноябре☺️.

В потоке сегодняшних новостей сначало было непонятно - это правда или нет, оказывается правда.

https://powerbi.microsoft.com/en-us/blog/important-update-to-microsoft-power-bi-pricing/

Сейчас все заботятся об эффективности ценообразования и пытаюся свести юнит экономику.

У меня совсем недавно был хороший пример с Dagster.

Компания использует Dagster (cloud), как главный инструмент орекстрации. Такой аналог Airflow, который отличается концептуально, но тоже использует Python. (Dagster vs. Airflow)

Они платили за местА, около 200-300 в месяц и все было супер. Потом Dagster сделал ход конем, и сказал, что у них теперь кредиты как взрослых компаний.

Даже есть хорошая статья про это - The Problem with Dagster.

В стартапе на 50 человек, в которой есть Snowflake, dbt, Dagster, Metabase все было замечательно пока ценник был контроллируемым.

Однако новая модель стала рассчитывать стоимость по кол-ву объектов материлизации. То есть 1 dbt model (1 SQL запрос) - это 1 актив (asset), и если каждый час вы выполняет запуск 200+ моделей, то за год можете посчитать кол-во кредитов.

Если раньше цена был flat, то теперь она будет расти пропорционально росту моделей. Добавьте сюда еще среду разработки и другие джобы, получается, что Dagster за только пол года сожрал кредитов на 15к US. Неплохо так.

Сам dagster сказал типа сорян, сами виноваты😂

И теперь, я пишу RAPID, про возможные варианты сокращения расходов. Если без замены Dagster, то я хочу просту поместить dbt core в AWS ECS, то есть запускать контейнер с dbt, а логи отправлять в DataDog. Из минусов, пропадает прозрачность DAGа в dbt, из плюсов экономия 15-25к US$ в год, при ценнике на Snowflake 60к US$ в год. Но будут и другие опции в документе, когда все сделаем, расскажу.

Кстати, про RAPID (decison making framework) я рассказал в Дата с Димой
21❤‍🔥11🐳2
Forwarded from Trino и CedrusData
Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.

В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс

Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/
❤‍🔥30
Даже не верится, мы переписали нашу книгу 2019 года (между прочим была самая первая книга по снежинке) и вот она почти готова, добавили всяких свежестей и полезностей.

А теперь работаем над предложением по книге Data Engineering with Azure Databricks.

Издательство все переживает, зачем Azure Databricks копия, если есть (устаревшая по Databricks), но они не знают насколько Azure популярен в больших enterprise, и что там кроме Databricks (на azure) ничего нет нормального.
45💯12❤‍🔥4🦄2
Microsoft проводит AI challenge и победители (аж 50,000 человек) получат купоны на экзамены Microsoft.

Хотя вон ChatGPT генерит сертификаты не хуже настоящих😆
❤‍🔥15🌚2
А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?


Грустный продуктовый аналитик.

Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru

Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!

• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.


Встречаемся 15 апреля 19:00.

Подробности и регистрация по ссылке.

Реклама.
Рекламодатель ООО «Хэдхантер», ИНН 7718620740
Erid: 2VtzqwKs1K7
🌚9🦄5❤‍🔥4🌭2
Удобный подход к написанию SQL -> Pipe SQL

Есть даже white paper на эту тему - SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL от Google Research.

Идея очент похожа на написание PySpark, Pandas и другие подходы с использованием dataframes.

Все последовательно и лаконично.

SQL Pipe есть у DuckDB https://duckdb.org/community_extensions/extensions/psql.html

И теперь у Databricks в их свежем релизе.
36❤‍🔥11😭2🌚1🙊1
Лучшая подготовка перед собесом! А не ваш этот leetcode!
💯69❤‍🔥38🫡9🗿62💘2🦄2
На картинке умная мысль, что технологии это не стратегия, стратегия про другое.

Но, настоящая стратегия это дорого, сложно, долго и не понятно. Куда проще мигрировать с А на Б.

Измерять можно кол-во таблиц, дашбордов и строчек кодов и стоимостью старых лицензий и вендоров.

А новые косты, это не косты, это инвестиции с высоким ROI🤩
💯23🙈11❤‍🔥41
Внедрю и смигрирую аналитическое решение в облако или обратно, наберу и обучу команду (или уволю, если выгоднее), достигну бизнес-целей и эффективно освою AI/ML-бюджет. Обращайтесь — дорого, долго, но зато качественно!
68🌚21🫡13🙊6🗿5🌭2🐳1💘1
Понравилась статья The Reality of Tech Interviews in 2025.

Так как я сам регулярно прохожу собеседования на позиции от Staff Data Engineer до VP of Data Engineering & Analytics, чтобы оставаться в курсе происходящего в индустрии, понимать реальные ожидания по зарплате и уровню, а также следить за эволюцией процессов найма, — статья отлично отражает текущие проблемы для инженеров. Менеджерам среднего звена еще сложней.

В Surfalytics мы придерживаемся принципа прозрачности: делимся между собой зарплатными ожиданиями, предложениями и опытом прохождения интервью. Да и просто приходится собеседовать аналитиков и инженеров.

На мой взгляд, отечественный рынок ждут схожие изменения — пусть и с задержкой, но вектор очевиден. Легче точно не станет.

У меня у самого есть несколько замечательных примеров, когда я успешно прошел все этапы и в ожидании офера получал отказ, так как выбрали другого кандидата, который больше понравился или согласен на меньшие деньги (на 50% меньше).

Ключевые моменты из статьи (ChatGPT):

Ключевые проблемы и вызовы тех. собеседований в 2025 году:

1. Рынок противоречий:
- Спрос на инженеров восстанавливается, но *весьма избирательно*.
- Полный переход к remote свернулся: таких позиций становится всё меньше.

2. Ужесточение требований:
- Уровень сложности DSA и system design интервью вырос на 1 "стандартное отклонение".
- Алгоритмы LeetCode Hard стали нормой даже на mid/senior уровнях.
- От кандидатов требуют чистого кода, обработки ошибок и валидации — даже в лимите по времени.

3. Столкновение с реалиями:
- Большинство стартапов и Big Tech усилили этап team match — он стал ещё одним отбором, не гарантирующим оффер даже после успешного прохождения технических этапов.
- Много квалифицированных кандидатов → компании стали избирательны до мелочей.

4. Сильный дисбаланс в спросе:
- AI-инфраструктура, ML Ops и генеративный AI — горячие направления с высокими ЗП.
- Frontend, backend и mobile — сильно охлаждённый рынок с низкой текучкой и сокращёнными командами.

5. Драматическое падение шансов для джунов:
- Университетские наймы массово урезаны.
- Даже выпускники топовых вузов, проходят по 100+ собеседований и не получают ни одного оффера.

6. Давление на EM и Staff-инженеров:
- Менеджеров требуют "рукастых", умеющих писать код, а не просто управлять.
- Staff-инженеров часто понижают в уровне (downleveling) — предлагают позиции на ступень ниже, даже при хорошем перформансе.

7. Разрыв между Big Tech и стартапами в интервью-форматах:
- FAANG по-прежнему держится за алгоритмические интервью.
- Стартапы и mid-size компании внедряют реалистичные задачи, проекты и разрешают использование AI-инструментов.

8. Компенсации и конкуренция:
- В AI-инфраструктуре можно получить $1M+ total comp, но только при *узкоспециализированном опыте*.
- Инженеры с узкой специализацией в закрытых технологиях Google/Meta — менее конкурентоспособны на открытом рынке.

9. Влияние ИИ:
- Кандидаты массово используют LLM на фоне неадаптированных интервью.
- Это подрывает смысл классических задач — но Big Tech пока не спешит менять подход.

10. Проблема "потерянного поколения" инженеров:
- Массовое сокращение входа новых разработчиков может привести к дефициту mid-level через 3–5 лет.


Как у вас дела обстоят в ваших краях?
❤‍🔥21🫡5💯41💘1
Когда говорят про ИИ, чаще вспоминают ChatGPT или Gemini. Но теперь в этом списке есть и A-Vibe от Авито — легкая, но мощная модель, которая обогнала западные аналоги от OpenAI, Google и Anthropic в тестах на русском языке. В независимом российском бенчмарке MERA A-Vibe заняла первое место среди облегченных моделей (до 10 млрд параметров).

В отличие от GPT-4o или Claude, нейросеть от Авито изначально заточена под русскоязычные запросы и одновременно обрабатывает до 32 тысяч токенов. Это позволяет ей понимать смысл текста, вести диалоги и генерировать код лучше, чем GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные нейросети.

Авито уже использует модель в своих сервисах, а в будущем может открыть ее код. И если это произойдет, у малого бизнеса и разработчиков появится доступ к мощному ИИ без гигантских затрат.

Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
🗿17❤‍🔥11🌚4💯1
Live stream scheduled for
🚀 🚀 🚀

📅 Вебинар - сегодня (8 апреля в 19:00 по мск)
Тема вебинара: "Всё что нужно знать о Greenplum"

🔍Описание:
🔸На реальных примерах узнаем, что такое Greenplum.
🔸Чем сегмент отличается от сегмент-хоста?
🔸Что такое партицирование, а что такое дистрибуция?
🔸Как Greenplum хранит данные для эффективной работы MPP кластера?
🔸Что такое Motion данных, как и зачем его избегать?
🔸Что интересного можно увидеть в плане запроса?
🔸Как эффективно грузить данные в GP?
🔸Разберём эти и другие вопросы, а самое главное: увидим всё наглядно и на реальных примерах и задачах. Никакой теоритической воды, только факты и примеры.

🎙Спикер:
Nikita Tselishchev
Data Engineer в компании Unirest (KFC/Rostics).
Один из авторов курса https://yandex.cloud/ru/training/greenplum

🔗 Никита ведет канал про Дата инженериниг в телеграм @DataEngineeringDigest

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
138❤‍🔥9🫡3🗿3🤷2🤷‍♂1
Live stream finished (1 hour)
В телеграм-каналах на техническую тематику появляется всё больше информации про использование AI для прикладных задач: про требования при приёме на работу, про отбор кандидатов, которым разрешено выполнять тестовые задания с использованием AI.

Нравится, не нравится — терпи, моя красавица нужно привыкать к новой реальности, где AI становится ещё одним инструментом в вашем арсенале, который помогает быть сверхэффективным.

Вы можете стать гораздо продуктивнее с AI, если будете понимать, как он работает, и просто делегировать ему часть задач. Пока что эти инструменты требуют контроля и проверки, но в будущем ситуация может сильно измениться — и уже они будут контролировать и проверять нас 🙂

За последние несколько дней с помощью AI я:

- Насоздавал dbt-моделей (SQL, YAML) в нескольких проектах — это сотни строк кода, написанных за меня;

- Конвертировал 15 таблиц из SQL Server в Snowflake и создал Snowflake Stored Procedures с MERGE;

- Контрибьютил в репозиторий с Protobuf и Go, имея минимальные знания по этим технологиям;

- Разрулил проблемы с PyTest в Dagster;

- Участвовал в двух хакатонах, где использовались хранилища данных и LLMs;

- Занимался troubleshooting’ом всего, что ломалось и не работало;

- И многое другое.

Физически всё это было бы невозможно сделать за такой короткий срок.

Каждый раз, когда работаю с Cursor AI, думаю: «Всё классно», — но пока Cursor не может сам выполнять запросы к базе данных «из коробки».

То есть, пока что еще много COPY-PASTE (ручного труда).

И вот тут бы отлично подошел бы MCP. Как раз про него свежая статья - MCP Protocol: a new AI dev tools building block

- MCP — это как USB-C для ИИ-инструментов: универсальный интерфейс для подключения внешних систем к LLM-интегрированным IDE.

- MCP делает возможным, например, обращаться к базе данных напрямую из редактора кода, без переключения на PgAdmin или другие GUI-инструменты.

- Используя MCP, IDE может автоматически обращаться к БД, находить нужные таблицы, строить SQL-запросы и интерпретировать результаты, помогая разработчику.

- MCP вдохновлён Language Server Protocol (LSP) от Microsoft, который сделал возможной легкую интеграцию поддержки языков программирования в IDE.

- MCP быстро набрал популярность: VS Code, Cursor, Windsurf, Zed, Claude Desktop, Neovim и др. уже поддерживают MCP или планируют.

- Разработчики могут “разговаривать” с базами данных, CI/CD, системами фич-флагов и т.п. на естественном языке прямо в IDE.

- Протокол ещё очень сырой, но потенциал — огромный: как для повышения продуктивности разработчиков, так и для развития ИИ-агентов.

🎯 Основная идея:
Разработчику больше не нужно переключаться между инструментами. Он может задавать вопросы на естественном языке прямо в IDE, а LLM, используя MCP, под капотом подключается к нужным системам (БД, тикетинг и т.п.) и возвращает результат.
❤‍🔥4218😈2💯1😭1👨‍💻1