Инжиниринг Данных

Слышали про FDE (Forward Deployed Engineer)?

Суть проста - инженер не сидит в офисе, а встраивается прямо в процессы заказчика, работает рядом с пользователями продукта, наблюдает реальные боли, находит обходные пути и сразу же превращает их в фичи. Так рождается инженерия на границе — между продуктом и пользователем, между R&D и реальным миром.

В мире сложных систем, AI-инфраструктуры, кастомного железа и сверхскоростных релизов «просто быть вендором» уже недостаточно. Побеждают те, кто становится партнёром и работает рядом с клиентом как часть его команды.

The FDE Playbook for AI Startups with Bob McGrew от YC Combinator.

Видео «The FDE Playbook for AI Startups» - это разговор с Бобом МакГрю (Palantir, OpenAI), где он объясняет, что такое Forward Deployed Engineer (FDE) и почему эта модель особенно важна для AI-стартапов.

📌 Основные тезисы:
- FDE соединяет продукт, инженерию и клиента - делает то, что «не масштабируется», но именно это помогает понять рынок.
- Модель родилась в Palantir, где инженеры создавали решения прямо «в поле».
- В AI-стартапах такая роль особенно важна, потому что у клиентов нет готовых шаблонов - всё приходится изобретать вместе.
- Главная сложность - не скатиться в консалтинг и вовремя превращать кастомные решения в продукт.

YouTube

The FDE Playbook for AI Startups with Bob McGrew

Bob McGrew helped build some of the most influential technologies of the past two decades. Bob was an early engineer at PayPal, an early executive at Palantir and was recently Chief Research Officer at OpenAI - where he led the development of ChatGPT, GPT…

⚡10❤‍🔥4💯4🍌1🤷1

8.39K viewsDmitry, 02:40

Инжиниринг Данных

Давно была идея собрать все вместе про Data Engineering System Design собеседование. Они простые, если понимать фреймворк. Для себя я придумал 6 слоев, задачка за 45-55 минут рассказать красивую историю, где одно плавно переходит в другое. System Design моя самая любимая часть в собеседованиях, а вот leetcode☠️

🎯Ultimate cheatsheet for Data Engineering System Design interview.

PS если есть возможность, то с вас like в Linkedin.

Surfalytics

🎯Ultimate cheatsheet for Data Engineering System Design interview.

Because 'It Depends' Is a Valid Answer (But You Still Need to Know What It Depends On)

3⚡64❤‍🔥8👨‍💻7🐳22

9.67K viewsDmitry, 07:17

Инжиниринг Данных

Пример современного аналитического решения с duckdb.

1❤‍🔥30🙈13⚡4🤷3🐳2💯2

7.23K viewsDmitry, 21:58

Инжиниринг Данных

В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

Основные тезисы:

Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.

Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.

Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.

Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.

Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.

Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.

Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.

Pragmaticengineer

State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

3⚡11🤷7❤‍🔥4🍌4

7.86K viewsDmitry, edited 16:36

Инжиниринг Данных

Если вы вдруг заботитесь об окужайщей среде, переживаете за выбросы CO2, стараетесь не летать на самолетах, не ездить на вредных электрокарах и самокатах, то для вас Google Cloud предлагает эко френдли дата центры с Low CO2.

Такого нет ни у AWS, ни у Azure, ни даже у VK Cloud.

🌚42🍌13🦄6❤‍🔥4🙉2

6.53K viewsDmitry, 01:11

Инжиниринг Данных

8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.

Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.

🙈53😭25🫡9❤‍🔥5🐳54🦄3🌚2🍌1

6.77K viewsDmitry, 19:07

Инжиниринг Данных

Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.

Вы где ставите запятую?

PS а мой комент про predefined Best Practices:

I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same

Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌

Please open Telegram to view this post

VIEW IN TELEGRAM

🫡15🙈5😈2🌚1

6.88K viewsDmitry, 22:54

Инжиниринг Данных

Все таки Fivetran купил dbt Labs.

Мне кажется, они это сделали, потому что сам dbt Labs не вывозил, и экономика у них не очень сходилась.

https://www.reuters.com/business/a16z-backed-data-firms-fivetran-dbt-labs-merge-all-stock-deal-2025-10-13/

🌚9⚡6😭4

6.7K viewsDmitry, 16:58

Инжиниринг Данных

Один из самых ценных скилов работы с другими это уметь письменно излагать свои мысли и идеи.

«Если ты думаешь, не записывая, ты только думаешь, что думаешь.»

https://yewjin.substack.com/p/on-discovering-writing

❤‍🔥36💯23🦄2

7.39K viewsDmitry, 19:06

Инжиниринг Данных

Snowflake умеет делать маркетинг - DATA ENGINEERING SCHOOL

1❤‍🔥15🙈4

6.5K viewsDmitry, 06:59

Инжиниринг Данных

DuckDB поддерживает стриминг?!

В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)

🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.

⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.

🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.

Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.

❤‍🔥8🐳6⚡4

6.4K viewsDmitry, 16:03

Инжиниринг Данных

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Как сэкономить на миграции в S3?
При реорганизации инфраструктуры компании часто платят за перенос данных дважды — за исходное хранилище и трафик, запросы и новое хранилище.

👉Selectel запустил «миграционные каникулы» для S3. 30 дней без оплаты хранения и входящих запросов, чтобы вы смогли подготовить инфраструктуру и спокойно перенести данные без лишних трат.

S3 от Selectel:
📦 Подходит для хранения бэкапов, данных приложений, ML-датасетов и работы с аналитикой;
💸Помогает сэкономить до 30% бюджета благодаря разным классам хранилища;
📍Катастрофоустойчиво засчет работы на базе дата-центров в Москве и Санкт-Петербурге.
Оформляйте заявку и пользуйтесь S3 от Selectel бесплатно в течение 30 дней:
https://slc.tl/91p1b

Реклама. АО "Селектел".erid:2W5zFJrHVXN

🙉4⚡3💯2

5.27K viewsDmitry, 06:59

Инжиниринг Данных

AI так быстро развивается, что уже не поспеть. Мне попалось два отчета про AI, там можно сразу посмотреть summary.

1. State of AI Report 2025

Основные выводы из Отчета за 2025 год:

OpenAI сохраняет незначительное лидерство, но конкуренция усилилась: Meta уступила первенство китайским компаниям DeepSeek, Qwen и Kimi, которые сокращают разрыв в задачах на рассуждение и кодирование, утверждая Китай в качестве сильного «номера 2».

Рассуждение (reasoning) стало определяющим в этом году, поскольку ведущие лаборатории объединили обучение с подкреплением (reinforcement), вознаграждение на основе рубрик и проверяемое рассуждение с новыми средами, чтобы создать модели, способные планировать, размышлять, самокорректироваться и работать на все более длинных временных горизонтах.

Искусственный интеллект становится научным сотрудником: такие системы, как Co-Scientist от DeepMind и Virtual Lab от Стэнфорда, автономно генерируют, тестируют и проверяют гипотезы. В биологии ProGen3 от Profluent показал, что законы масштабирования теперь применимы и к белкам.

Структурированное рассуждение вышло в физический мир благодаря планированию по принципу «Цепочки действий» (Chain-of-Action), поскольку воплощенные системы ИИ, такие как Molmo-Act от AI2 и Gemini Robotics 1.5 от Google, начали пошагово рассуждать перед выполнением действий.

Резко ускорилось коммерческое внедрение. Сорок четыре процента американских компаний теперь платят за инструменты ИИ (по сравнению с 5% в 2023 году), средняя сумма контрактов достигла $530 000, а стартапы, ориентированные на ИИ (AI-first), росли в 1,5 раза быстрее, чем их конкуренты, согласно данным Ramp и Standard Metrics.

Наше первое исследование практикующих специалистов по ИИ с более чем 1200 респондентами показало, что 95% профессионалов теперь используют ИИ на работе или дома, 76% оплачивают инструменты ИИ из своего кармана, и большинство сообщает об устойчивом росте производительности — это свидетельство того, что реальное внедрение стало массовым.

Началась индустриальная эра ИИ. Центры обработки данных мощностью в несколько гигаватт, такие как Stargate, сигнализируют о новой волне вычислительной инфраструктуры, поддерживаемой суверенными фондами США, ОАЭ и Китая, при этом электроснабжение становится новым ограничивающим фактором.

Политика в области ИИ еще более ужесточилась. США сделали акцент на «ИИ в первую очередь для Америки» (America-first AI), Закон ЕС об ИИ (AI Act) застопорился, а Китай расширил свою экосистему моделей с открытыми весами и амбиции в отношении отечественного производства чипов.

Исследования безопасности вступили в новую, более прагматичную фазу. Модели теперь могут имитировать выравнивание (alignment) под контролем, что вызывает споры о прозрачности в сравнении с возможностями. Между тем, внешние организации по безопасности работают с бюджетами, меньшими, чем ежедневные расходы ведущей лаборатории.

Дебаты об экзистенциальном риске поутихли, уступив место конкретным вопросам о надежности, киберустойчивости и долгосрочном управлении все более автономными системами.

⚡13💯6👨‍💻2🫡1

5.46K viewsDmitry, edited 23:19

Инжиниринг Данных

2. State of Foundation Models

Основные выводы:

Генеративный ИИ (Generative AI) стал массовым: каждый восьмой работник в мире теперь использует ИИ ежемесячно, причём 90% этого роста произошло всего за последние 6 месяцев. Годовые доходы AI-нативных приложений уже исчисляются миллиардами.

Масштабирование продолжается во всех измерениях: все технические показатели моделей продолжают улучшаться более чем в 10 раз по сравнению с прошлым годом, включая стоимость, интеллект, размер контекстных окон и многое другое. Средняя продолжительность человеческой задачи, которую модель может надёжно выполнять, удваивается каждые 7 месяцев.

Экономика фундаментальных моделей... сбивает с толку: OpenAI и Anthropic демонстрируют поистине беспрецедентный рост, ускоряя годовой доход до $1 млрд+. Однако общие затраты на обучение передовых моделей приближаются к $500 млн, а типичная модель устаревает в течение 3 недель после запуска из-за конкуренции и сближения открытого исходного кода.

Как и самые умные люди, самый умный ИИ будет «думать, прежде чем говорить»: модели рассуждения, обученные думать перед ответом, вероятно, представляют собой новый закон масштабирования — но для их обучения требуются значительные достижения в постобучении (post-training), включая обучение с подкреплением и модели вознаграждения. Постобучение может стать более важным, чем предварительное обучение (pre-training).

ИИ проник почти во все специализированные профессии: от инженеров и бухгалтеров до дизайнеров и юристов, ИИ-помощники (copilots) и агенты теперь справляются с дорогостоящими задачами практически во всех областях деятельности работников умственного труда.

Агенты, наконец, работают, но мы только в начале понимания того, как создавать ИИ-продукты: Агенты наконец-то стали мейнстримом, но шаблоны проектирования (design patterns) и системные архитектуры для ИИ-продуктов всё ещё находятся на самых ранних стадиях.

«AI-нативные» организации будут выглядеть совершенно иначе: более плоские команды из способных специалистов широкого профиля станут нормой, поскольку генеративный ИИ снижает ценность узкоспециализированных навыков. Многие роли будут стираться — например, продуктовая разработка, дизайн и инженерия.

PS пока Google GeminiPro переводил summary, в другом окне Cursor трабулшутил Airflow 3.1 на AWS Elastic Container Service (ECS).

1💯10⚡6🫡6

5.44K viewsDmitry, edited 23:19

Инжиниринг Данных

Ох уж это vibe coding. Мне кажется если вы чего-то не знаете, то vibe coding вам не поможет😵

Please open Telegram to view this post

VIEW IN TELEGRAM

💯42🙈6

5.48K viewsDmitry, 04:55

Инжиниринг Данных

Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.

Пройти опрос можно здесь

🙈4🍌2🐳1

5.41K viewsDmitry, 13:02

Инжиниринг Данных

Очень хороший пример про стартап. Человек был 9м сотрудником. Работал себя не жалея. В итоге при продаже компании получил 80к чистыми.

Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.

Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.

Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?

1😭35🫡4💯1

6.32K viewsDmitry, edited 17:17

Инжиниринг Данных

Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени. Например, хочу писать логи тасков в AWS Cloud Watch…и всякое другое.

В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.

AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.

Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.

PS нашел классные статьи по Airflow 3 на ECS и локальной машине:

Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)

И еще статья понравилась: Executors in Apache-Airflow

⚡10❤‍🔥4

6.2K viewsDmitry, edited 04:36

Инжиниринг Данных

ML-квалификация — сегодня в 16:00

Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.

В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.

Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле

Пора регистрироваться.

⚡3🌚1

6.91K viewsDmitry, 06:59

Инжиниринг Данных

Нас ведь скоро заменят AI агенты?

Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:

ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:

* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.

На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.

Введение в работу ADE-bench

ADE-bench состоит из трёх основных компонентов:

* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)

Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.

Как выполняется задача

Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:

1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).

2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).

3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).

4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.

5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.

6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.

7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.

Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.

8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.

🫡11😭4❤‍🔥22

6.61K viewsDmitry, 15:13

About

Blog

Apps

Platform