Инжиниринг Данных
23.4K subscribers
1.91K photos
58 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Designing Data-Intensive Applications, 2nd Edition - надеюсь и так все понятно, что это сложная, скучная, но полезная книга для опытных специалистов.

The Product-Minded Engineer - подчеркивает важность развития эмпатии у инженеров-программистов для более глубокого понимания потребностей пользователей и повышения качества создаваемых продуктов. Опираясь на более чем 20-летний опыт работы в таких компаниях, как Microsoft, Facebook и Stripe, автор предлагает стратегии, помогающие интегрировать технические навыки с ориентированностью на пользователя, что способствует карьерному росту и созданию более эффективных решений. (Полностью поддерживаю автора)

Fundamentals of DevOps and Software Delivery - руководство по DevOps и доставке программного обеспечения, охватывающее инструменты и методы, необходимые для развертывания и поддержки приложений в продакшене. (Автор, Евгений Брикман, написал очень крутую книга по Terraform Up an Running.)

Data Contracts - Книга Чада Сандерсона и Марка Фримана посвящена концепции дата-контрактов — соглашений между поставщиками и потребителями данных, направленных на обеспечение их качества и надежности. Авторы подробно рассматривают, как внедрение дата-контрактов помогает документировать ожидания к данным, устанавливать ответственность за их качество и автоматически применять эти требования в процессе CI/CD, что особенно важно при работе с данными, поступающими из внешних источников. (Ребята уже мусолят тему дата контрактов ни один год, и вот наконец-то книга почти готова)


В любом случае браться за все подряд это не очень эффективно, должен быть план и roam map, и нужно придерживаться его.
💯12❤‍🔥7🦄1
Какой Data Fusion без дата-соединений?

На конференции Data Fusion можно будет найти новых коллег, партнеров и инсайдеров из мира AI и DS. Организаторы специально к конференции выкатили Telegram-бот, который подберёт нужные контакты по принципу Tinder.

Свайпай анкеты и находи единомышленников, а пересечься вы сможете уже 16-17 апреля на площадке Data Fusion 🚀
Дата с Димой | Новости из мира BigTech | Эпизод 3

Youtube ▶️
Rutube ▶️

🎯 Ключевые темы выпуска:

📦 Snowflake + Iceberg — новые форматы хранения и поддержка Iceberg в Snowflake
⚙️ SQLMesh и нишевые тулзы — быстро, гибко, но пока сложно масштабировать
💾 Big Data ≠ Big Volume — 94% нагрузок укладываются в 10 ТБ, SSD — наше всё
🏗 DataBricks vs Snowflake — архитектура, ML, рост команд, кто кого
🧠 Семантический слой — YAML, NLP и осмысленные данные
🌍 Data Sharing и обмен метриками — как Facebook и Netflix делятся данными
🕵️‍♂️ Агенты и веб-скрейпинг — как автоматизировать сбор и обработку рыночных данных
🧑‍⚖️ Маск, Tesla и корпоративная монархия — теория заговора или новое будущее?
📉 Трамп и экономика — тарифы, эмиграция и как это влияет на рынок недвижимости
🔓 Open Source рулит — почему большие компании обожают открытые решения


💡 Источники:

https://aws.amazon.com/blogs/storage/connect-snowflake-to-s3-tables-using-the-sagemaker-lakehouse-iceberg-rest-endpoint/
https://duckdb.org/2025/03/14/preview-amazon-s3-tables.html
https://duckdb.org/2025/03/12/duckdb-ui
https://delta.io/blog/liquid-clustering/
https://www.databricks.com/blog/genie-conversation-apis-public-preview
https://docs.databricks.com/aws/en/lakehouse-architecture/reference
https://www.databricks.com/product/business-intelligence
https://github.com/mendableai/firecrawl
https://www.financialsamurai.com/
https://www.newyorker.com/culture/infinite-scroll/techno-fascism-comes-to-america-elon-musk
https://www.anthropic.com/news/model-context-protocol
https://github.com/ahujasid/blender-mcp
https://blog.cloudflare.com/ai-labyrinth/
https://www.instagram.com/pubity/p/DG-YawGvYhG/?img_index=1
https://dagster.io/blog/python-packages-primer-1
https://yandex.cloud/ru/training/compute
https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm
https://github.com/astronomer/airflow-ai-sdk
https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes
https://github.com/drawdb
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥34👨‍💻54🫡2
Алексей шарашит только впуть свои zoomcamps! я уже даже придумал бизнес идею, делать их на русском языке, да еще и на отчесественном стэке😀

Ссылки:
🔸 MLOps Zoomcamp: starts May 5, 2025
🔸 LLM Zoomcamp: starts June 2, 2025
🔸 ML Zoomcamp: starts September 2025

Я них конечно есть и недостаки, часто связанные с узкостью контента и выбора вендоров, которые спонсируют данную инициативу, но аналогов нет!

Вообще идея делать Workshop на русском end-to-end проектов вместе с вендорами будет топчик!
❤‍🔥35💯14🌚4
После долгих лет в cloud я наконец-то понял: облако — переоценено.

Поэтому я решил инвестировать свое время в действительно важные и полезные навыки.

С гордостью сообщаю, что получил сертификацию по Oracle 9i и Informatica PowerCenter 7.1 — технологиям, которые когда-то держали весь enterprise-ETL на своих хрупких, но гордых серверах в серверных без кондиционеров.

В облаке слишком много YAML и нестабильных connection'ов
— а в on-prem — один раз настроил в 2005, и всё работает до сих пор
— плюс, приятно слышать, как твой сервер шумит в углу, пока ETL грузит данные 6 часов без сбоев

Следующие шаги:
☑️ Сертификация по Teradata CLI
☑️ Написание ETL-логики на COBOL
☑️ Настройка алертов через факс
💯81😭37🫡27🐳15❤‍🔥1010🌚8🌭7🗿6🦄3😈2
Я всегда думал, что Power BI бесплатный=) А оказывается они 1го апреля подняли цену, но анонс был почти сразу после моего дня рождения в ноябре☺️.

В потоке сегодняшних новостей сначало было непонятно - это правда или нет, оказывается правда.

https://powerbi.microsoft.com/en-us/blog/important-update-to-microsoft-power-bi-pricing/

Сейчас все заботятся об эффективности ценообразования и пытаюся свести юнит экономику.

У меня совсем недавно был хороший пример с Dagster.

Компания использует Dagster (cloud), как главный инструмент орекстрации. Такой аналог Airflow, который отличается концептуально, но тоже использует Python. (Dagster vs. Airflow)

Они платили за местА, около 200-300 в месяц и все было супер. Потом Dagster сделал ход конем, и сказал, что у них теперь кредиты как взрослых компаний.

Даже есть хорошая статья про это - The Problem with Dagster.

В стартапе на 50 человек, в которой есть Snowflake, dbt, Dagster, Metabase все было замечательно пока ценник был контроллируемым.

Однако новая модель стала рассчитывать стоимость по кол-ву объектов материлизации. То есть 1 dbt model (1 SQL запрос) - это 1 актив (asset), и если каждый час вы выполняет запуск 200+ моделей, то за год можете посчитать кол-во кредитов.

Если раньше цена был flat, то теперь она будет расти пропорционально росту моделей. Добавьте сюда еще среду разработки и другие джобы, получается, что Dagster за только пол года сожрал кредитов на 15к US. Неплохо так.

Сам dagster сказал типа сорян, сами виноваты😂

И теперь, я пишу RAPID, про возможные варианты сокращения расходов. Если без замены Dagster, то я хочу просту поместить dbt core в AWS ECS, то есть запускать контейнер с dbt, а логи отправлять в DataDog. Из минусов, пропадает прозрачность DAGа в dbt, из плюсов экономия 15-25к US$ в год, при ценнике на Snowflake 60к US$ в год. Но будут и другие опции в документе, когда все сделаем, расскажу.

Кстати, про RAPID (decison making framework) я рассказал в Дата с Димой
21❤‍🔥11🐳2
Forwarded from Trino и CedrusData
Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.

В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс

Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/
❤‍🔥30
Даже не верится, мы переписали нашу книгу 2019 года (между прочим была самая первая книга по снежинке) и вот она почти готова, добавили всяких свежестей и полезностей.

А теперь работаем над предложением по книге Data Engineering with Azure Databricks.

Издательство все переживает, зачем Azure Databricks копия, если есть (устаревшая по Databricks), но они не знают насколько Azure популярен в больших enterprise, и что там кроме Databricks (на azure) ничего нет нормального.
45💯12❤‍🔥4🦄2
Microsoft проводит AI challenge и победители (аж 50,000 человек) получат купоны на экзамены Microsoft.

Хотя вон ChatGPT генерит сертификаты не хуже настоящих😆
❤‍🔥15🌚2
А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?


Грустный продуктовый аналитик.

Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru

Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!

• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.


Встречаемся 15 апреля 19:00.

Подробности и регистрация по ссылке.

Реклама.
Рекламодатель ООО «Хэдхантер», ИНН 7718620740
Erid: 2VtzqwKs1K7
🌚9🦄5❤‍🔥4🌭2
Удобный подход к написанию SQL -> Pipe SQL

Есть даже white paper на эту тему - SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL от Google Research.

Идея очент похожа на написание PySpark, Pandas и другие подходы с использованием dataframes.

Все последовательно и лаконично.

SQL Pipe есть у DuckDB https://duckdb.org/community_extensions/extensions/psql.html

И теперь у Databricks в их свежем релизе.
36❤‍🔥11😭2🌚1🙊1
Лучшая подготовка перед собесом! А не ваш этот leetcode!
💯69❤‍🔥38🫡9🗿62💘2🦄2
На картинке умная мысль, что технологии это не стратегия, стратегия про другое.

Но, настоящая стратегия это дорого, сложно, долго и не понятно. Куда проще мигрировать с А на Б.

Измерять можно кол-во таблиц, дашбордов и строчек кодов и стоимостью старых лицензий и вендоров.

А новые косты, это не косты, это инвестиции с высоким ROI🤩
💯23🙈11❤‍🔥41
Внедрю и смигрирую аналитическое решение в облако или обратно, наберу и обучу команду (или уволю, если выгоднее), достигну бизнес-целей и эффективно освою AI/ML-бюджет. Обращайтесь — дорого, долго, но зато качественно!
68🌚21🫡13🙊6🗿5🌭2🐳1💘1
Понравилась статья The Reality of Tech Interviews in 2025.

Так как я сам регулярно прохожу собеседования на позиции от Staff Data Engineer до VP of Data Engineering & Analytics, чтобы оставаться в курсе происходящего в индустрии, понимать реальные ожидания по зарплате и уровню, а также следить за эволюцией процессов найма, — статья отлично отражает текущие проблемы для инженеров. Менеджерам среднего звена еще сложней.

В Surfalytics мы придерживаемся принципа прозрачности: делимся между собой зарплатными ожиданиями, предложениями и опытом прохождения интервью. Да и просто приходится собеседовать аналитиков и инженеров.

На мой взгляд, отечественный рынок ждут схожие изменения — пусть и с задержкой, но вектор очевиден. Легче точно не станет.

У меня у самого есть несколько замечательных примеров, когда я успешно прошел все этапы и в ожидании офера получал отказ, так как выбрали другого кандидата, который больше понравился или согласен на меньшие деньги (на 50% меньше).

Ключевые моменты из статьи (ChatGPT):

Ключевые проблемы и вызовы тех. собеседований в 2025 году:

1. Рынок противоречий:
- Спрос на инженеров восстанавливается, но *весьма избирательно*.
- Полный переход к remote свернулся: таких позиций становится всё меньше.

2. Ужесточение требований:
- Уровень сложности DSA и system design интервью вырос на 1 "стандартное отклонение".
- Алгоритмы LeetCode Hard стали нормой даже на mid/senior уровнях.
- От кандидатов требуют чистого кода, обработки ошибок и валидации — даже в лимите по времени.

3. Столкновение с реалиями:
- Большинство стартапов и Big Tech усилили этап team match — он стал ещё одним отбором, не гарантирующим оффер даже после успешного прохождения технических этапов.
- Много квалифицированных кандидатов → компании стали избирательны до мелочей.

4. Сильный дисбаланс в спросе:
- AI-инфраструктура, ML Ops и генеративный AI — горячие направления с высокими ЗП.
- Frontend, backend и mobile — сильно охлаждённый рынок с низкой текучкой и сокращёнными командами.

5. Драматическое падение шансов для джунов:
- Университетские наймы массово урезаны.
- Даже выпускники топовых вузов, проходят по 100+ собеседований и не получают ни одного оффера.

6. Давление на EM и Staff-инженеров:
- Менеджеров требуют "рукастых", умеющих писать код, а не просто управлять.
- Staff-инженеров часто понижают в уровне (downleveling) — предлагают позиции на ступень ниже, даже при хорошем перформансе.

7. Разрыв между Big Tech и стартапами в интервью-форматах:
- FAANG по-прежнему держится за алгоритмические интервью.
- Стартапы и mid-size компании внедряют реалистичные задачи, проекты и разрешают использование AI-инструментов.

8. Компенсации и конкуренция:
- В AI-инфраструктуре можно получить $1M+ total comp, но только при *узкоспециализированном опыте*.
- Инженеры с узкой специализацией в закрытых технологиях Google/Meta — менее конкурентоспособны на открытом рынке.

9. Влияние ИИ:
- Кандидаты массово используют LLM на фоне неадаптированных интервью.
- Это подрывает смысл классических задач — но Big Tech пока не спешит менять подход.

10. Проблема "потерянного поколения" инженеров:
- Массовое сокращение входа новых разработчиков может привести к дефициту mid-level через 3–5 лет.


Как у вас дела обстоят в ваших краях?
❤‍🔥21🫡5💯41💘1
Когда говорят про ИИ, чаще вспоминают ChatGPT или Gemini. Но теперь в этом списке есть и A-Vibe от Авито — легкая, но мощная модель, которая обогнала западные аналоги от OpenAI, Google и Anthropic в тестах на русском языке. В независимом российском бенчмарке MERA A-Vibe заняла первое место среди облегченных моделей (до 10 млрд параметров).

В отличие от GPT-4o или Claude, нейросеть от Авито изначально заточена под русскоязычные запросы и одновременно обрабатывает до 32 тысяч токенов. Это позволяет ей понимать смысл текста, вести диалоги и генерировать код лучше, чем GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные нейросети.

Авито уже использует модель в своих сервисах, а в будущем может открыть ее код. И если это произойдет, у малого бизнеса и разработчиков появится доступ к мощному ИИ без гигантских затрат.

Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
🗿17❤‍🔥11🌚4💯1
Live stream scheduled for