Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

Основные тезисы:

Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.

Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.


Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.


Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.


Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.


Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.


Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.
311🤷7❤‍🔥4🍌4
Если вы вдруг заботитесь об окужайщей среде, переживаете за выбросы CO2, стараетесь не летать на самолетах, не ездить на вредных электрокарах и самокатах, то для вас Google Cloud предлагает эко френдли дата центры с Low CO2.

Такого нет ни у AWS, ни у Azure, ни даже у VK Cloud.
🌚42🍌13🦄6❤‍🔥4🙉2
8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.

Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.
🙈53😭25🫡9❤‍🔥5🐳54🦄3🌚2🍌1
Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.

Вы где ставите запятую?

PS а мой комент про predefined Best Practices:

I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same

Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡15🙈5😈2🌚1
Все таки Fivetran купил dbt Labs.

Мне кажется, они это сделали, потому что сам dbt Labs не вывозил, и экономика у них не очень сходилась.

https://www.reuters.com/business/a16z-backed-data-firms-fivetran-dbt-labs-merge-all-stock-deal-2025-10-13/
🌚96😭4
Один из самых ценных скилов работы с другими это уметь письменно излагать свои мысли и идеи.

«Если ты думаешь, не записывая, ты только думаешь, что думаешь

https://yewjin.substack.com/p/on-discovering-writing
❤‍🔥36💯23🦄2
Snowflake умеет делать маркетинг - DATA ENGINEERING SCHOOL
1❤‍🔥15🙈4
DuckDB поддерживает стриминг?!

В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)

🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.


⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.


🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.

Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
❤‍🔥8🐳64
This media is not supported in your browser
VIEW IN TELEGRAM
Как сэкономить на миграции в S3?
При реорганизации инфраструктуры компании часто платят за перенос данных дважды — за исходное хранилище и трафик, запросы и новое хранилище.

👉Selectel запустил «миграционные каникулы» для S3. 30 дней без оплаты хранения и входящих запросов, чтобы вы смогли подготовить инфраструктуру и спокойно перенести данные без лишних трат.

S3 от Selectel:
📦 Подходит для хранения бэкапов, данных приложений, ML-датасетов и работы с аналитикой;
💸Помогает сэкономить до 30% бюджета благодаря разным классам хранилища;
📍Катастрофоустойчиво засчет работы на базе дата-центров в Москве и Санкт-Петербурге.
Оформляйте заявку и пользуйтесь S3 от Selectel бесплатно в течение 30 дней:
https://slc.tl/91p1b

Реклама. АО "Селектел".erid:2W5zFJrHVXN
🙉43💯2
AI так быстро развивается, что уже не поспеть. Мне попалось два отчета про AI, там можно сразу посмотреть summary.

1. State of AI Report 2025

Основные выводы из Отчета за 2025 год:

OpenAI сохраняет незначительное лидерство, но конкуренция усилилась: Meta уступила первенство китайским компаниям DeepSeek, Qwen и Kimi, которые сокращают разрыв в задачах на рассуждение и кодирование, утверждая Китай в качестве сильного «номера 2».

Рассуждение
(reasoning) стало определяющим в этом году, поскольку ведущие лаборатории объединили обучение с подкреплением (reinforcement), вознаграждение на основе рубрик и проверяемое рассуждение с новыми средами, чтобы создать модели, способные планировать, размышлять, самокорректироваться и работать на все более длинных временных горизонтах.

Искусственный интеллект становится научным сотрудником: такие системы, как Co-Scientist от DeepMind и Virtual Lab от Стэнфорда, автономно генерируют, тестируют и проверяют гипотезы. В биологии ProGen3 от Profluent показал, что законы масштабирования теперь применимы и к белкам.

Структурированное рассуждение вышло в физический мир благодаря планированию по принципу «Цепочки действий» (Chain-of-Action), поскольку воплощенные системы ИИ, такие как Molmo-Act от AI2 и Gemini Robotics 1.5 от Google, начали пошагово рассуждать перед выполнением действий.

Резко ускорилось коммерческое внедрение. Сорок четыре процента американских компаний теперь платят за инструменты ИИ (по сравнению с 5% в 2023 году), средняя сумма контрактов достигла $530 000, а стартапы, ориентированные на ИИ (AI-first), росли в 1,5 раза быстрее, чем их конкуренты, согласно данным Ramp и Standard Metrics.

Наше первое исследование практикующих специалистов по ИИ с более чем 1200 респондентами показало, что 95% профессионалов теперь используют ИИ на работе или дома, 76% оплачивают инструменты ИИ из своего кармана, и большинство сообщает об устойчивом росте производительности — это свидетельство того, что реальное внедрение стало массовым.

Началась индустриальная эра ИИ. Центры обработки данных мощностью в несколько гигаватт, такие как Stargate, сигнализируют о новой волне вычислительной инфраструктуры, поддерживаемой суверенными фондами США, ОАЭ и Китая, при этом электроснабжение становится новым ограничивающим фактором.

Политика в области ИИ еще более ужесточилась. США сделали акцент на «ИИ в первую очередь для Америки» (America-first AI), Закон ЕС об ИИ (AI Act) застопорился, а Китай расширил свою экосистему моделей с открытыми весами и амбиции в отношении отечественного производства чипов.

Исследования безопасности вступили в новую, более прагматичную фазу. Модели теперь могут имитировать выравнивание (alignment) под контролем, что вызывает споры о прозрачности в сравнении с возможностями. Между тем, внешние организации по безопасности работают с бюджетами, меньшими, чем ежедневные расходы ведущей лаборатории.

Дебаты об экзистенциальном риске поутихли, уступив место конкретным вопросам о надежности, киберустойчивости и долгосрочном управлении все более автономными системами.
13💯6👨‍💻2🫡1
2. State of Foundation Models

Основные выводы:

Генеративный ИИ (Generative AI) стал массовым: каждый восьмой работник в мире теперь использует ИИ ежемесячно, причём 90% этого роста произошло всего за последние 6 месяцев. Годовые доходы AI-нативных приложений уже исчисляются миллиардами.

Масштабирование продолжается во всех измерениях: все технические показатели моделей продолжают улучшаться более чем в 10 раз по сравнению с прошлым годом, включая стоимость, интеллект, размер контекстных окон и многое другое. Средняя продолжительность человеческой задачи, которую модель может надёжно выполнять, удваивается каждые 7 месяцев.

Экономика фундаментальных моделей... сбивает с толку: OpenAI и Anthropic демонстрируют поистине беспрецедентный рост, ускоряя годовой доход до $1 млрд+. Однако общие затраты на обучение передовых моделей приближаются к $500 млн, а типичная модель устаревает в течение 3 недель после запуска из-за конкуренции и сближения открытого исходного кода.


Как и самые умные люди, самый умный ИИ будет «думать, прежде чем говорить»: модели рассуждения, обученные думать перед ответом, вероятно, представляют собой новый закон масштабирования — но для их обучения требуются значительные достижения в постобучении (post-training), включая обучение с подкреплением и модели вознаграждения. Постобучение может стать более важным, чем предварительное обучение (pre-training).

ИИ проник почти во все специализированные профессии: от инженеров и бухгалтеров до дизайнеров и юристов, ИИ-помощники (copilots) и агенты теперь справляются с дорогостоящими задачами практически во всех областях деятельности работников умственного труда.

Агенты, наконец, работают, но мы только в начале понимания того, как создавать ИИ-продукты: Агенты наконец-то стали мейнстримом, но шаблоны проектирования (design patterns) и системные архитектуры для ИИ-продуктов всё ещё находятся на самых ранних стадиях.

«AI-нативные» организации будут выглядеть совершенно иначе: более плоские команды из способных специалистов широкого профиля станут нормой, поскольку генеративный ИИ снижает ценность узкоспециализированных навыков. Многие роли будут стираться — например, продуктовая разработка, дизайн и инженерия.


PS пока Google GeminiPro переводил summary, в другом окне Cursor трабулшутил Airflow 3.1 на AWS Elastic Container Service (ECS).
1💯106🫡6
Ох уж это vibe coding. Мне кажется если вы чего-то не знаете, то vibe coding вам не поможет😵
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42🙈6
Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.

Пройти опрос можно здесь
🙈4🍌2🐳1
Очень хороший пример про стартап. Человек был 9м сотрудником. Работал себя не жалея. В итоге при продаже компании получил 80к чистыми.

Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.

Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.

Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?
1😭35🫡4💯1
Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени. Например, хочу писать логи тасков в AWS Cloud Watch…и всякое другое.

В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.

AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.

Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.

PS нашел классные статьи по Airflow 3 на ECS и локальной машине:

Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)

И еще статья понравилась: Executors in Apache-Airflow
10❤‍🔥4
ML-квалификация — сегодня в 16:00

Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.

В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.

Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле

Пора регистрироваться.
3🌚1
Нас ведь скоро заменят AI агенты?

Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:

ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:

* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.

На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.

Введение в работу ADE-bench

ADE-bench состоит из трёх основных компонентов:

* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)

Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.

Как выполняется задача

Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:

1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).

2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).

3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).

4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.

5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.

6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.

7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.


Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.

8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.
🫡11😭4❤‍🔥22
AI, который мы заслужили. Отличный пивот у OpenAI 👙
135🙈13❤‍🔥8🍌4
⚫️ Surfalytics VS Roadmappers

Не знаю, куда смотрит Дима, но я смотрю в прошлое — в то время, когда учился на DataLearn.

Моя фотка — это оммаж на фото Димы. И вот почему. Ещё задолго до канала и Школы 21, когда я зимой катался на коньках у дома, я включал разные подкасты, видео и интервью с Димой — и слушал про Дату. Конечно, тогда я почти ничего не понимал, всё казалось каким-то ну очень заоблачным и недостижимым. Ведь я не учился на программиста — я вообще музыку писал и видосы снимал. Какое, к чёрту, «ОЙТИ»? 😄 Короче, вдохновил он меня на Data Engineering!

Знаете это чувство, когда слушаешь, чего уже добился человек, а у тебя даже ещё ничего не начато? Такое ощущение, что ты капец как далеко. Это как если ты только сейчас задумываешься о получении паспорта в другую страну, а рядом человек уже год живёт с ним. Или как с изучением иностранного языка — кажется, что никогда не догонишь и всё уже упущено. Или мысли о возрасте: вот кто-то чего-то добился в 25, а тебе 30 — и ты думаешь, что жизнь окончена. 😅 Уверен, многие через это проходили. Я — точно в их числе.

Но я продолжал смотреть всё про DE и IT: отключил соцсети, перестал отвлекаться на развлекаловку и начал учиться. Помимо DataLearn, я ещё учил язык Си, потом поступил в Школу 21… Даже на JavaRush заходил и решал задачки на Джаве.
Больше всего страдал, конечно, с Си. 😅 Больше туда — ни ногой.

Постепенно я пришёл к DataLearn. Прорешал там где-то четыре модуля включительно. На пятый просто смотрел видео, а дальше уже начал пилить свой пет-проект — основу того, что позже стало нашим BootCamp. Потом был мой Telegram-бот для генерации паролей, а дальше — канал и всё остальное закрутилось.

Так вот к чему я всё это.
Идея нашего roadmap вообще появилась именно после курса на DataLearn от Димы Аношина. Потому что именно там я впервые увидел, как можно круто оформить материал на GitHub так, чтобы его было удобно читать. Хотя самая первая версия роадмапа была просто постом в Телеграме со ссылками на бесплатные материалы, уже вторая была оформлена на GitHub.

Сейчас, кстати, мы начинаем делать роадмапы и для других направлений IT. Уже выбрали шаблоны фронтенда для лендинга и самих роадмапов, чтобы можно было переключать темы, удобно смотреть с мобилы и пользоваться всем современным функционалом.

Поэтому, спасибо, что подписаны и поддерживаете нас. Ну и спасибо Диме за то, что повлиял! Возможно, кстати, теперь мы влияем и на вас. Пишу мы, потому что тот же Roadmap — это уже коллаборация нескольких авторов.

МЫ СЕМЬЯ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥56🫡13🦄7🌚43💯2