Инжиниринг Данных
23.8K subscribers
2.09K photos
60 videos
194 files
3.25K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
И в подтверждение всего вышесказанного расскажу, что мне удалось сделать вчера. На базе Surfalytics я могу экспериментировать, и у меня были в команде UX/UI-дизайнеры, SDE, маркетинговые эксперты, reels-мейкеры и т.п. У каждого была возможность за мой счёт реализовать их же идеи 🍪🍪

Остановлюсь на примере SDE, а именно — разработке backend/frontend. Мы решили мигрировать с GitHub Pages и Zapier на Netlify (хостинг) и Supabase (бэк). Идея была простая — добавить личный кабинет и в нём сделать roadmap и множество других фич.
Supabase оказался очень крутым продуктом — по сути это Postgres и множество фич: аутентификация, возможность запускать функции (как AWS Lambda) и т.п. Можно создавать новые таблицы и трекать разные активности.

Товарищ смог справиться с миграцией as is, но дальше пока у нас не очень хорошо шло. Я решил поэкспериментировать. С помощью Claude Code я запустил сайт локально с подключением к Supabase prod и начал добавлять фичи и менять структуру Supabase и страницы сайта. У меня не было много времени, но я прифигел от результата. Даже мой SDE офигел от результата и попросил его научить.

Я смог добавить визуализацию как у GitHub, которая показывает вашу активность. Пока это только логины в кабинет, но потом я смогу подключить активность в Discord.
Но самое крутое — это как AI начал решать задачу вместе со мной для создания Roadmap. Мне нужно было сделать конфигуратор задач с описанием и возможностью сохранять результат в Supabase БД, и он справился.

Я добавил несколько скринов.

Параллельно с этим локально я развернул Airflow 3.1, чтобы выгрузить всю историю сообщений из Discord с 2023 года — там самый сок. Я знал про DuckLake, но не использовал. Ну как я? Claude Code постарался, учит меня родной.

Я сделал себе DuckLake:
• сторадж в S3 (копейки)
• каталог в Neon Postgres (бесплатно)

Я ещё экспериментировал с Open Source BI — долго пытался завести Evidence, но не сработало, переключился на Cube.js.

Далее я подвяжу мой DuckLake на бэк и смогу обновить график активности. И сделать AI-интеграцию:
• на базе всех сообщений сделать RAG и подвязать его к боту, который будет помогать в Discord и отвечать на базе прошлых сообщений
• автоматически создавать Weekly Newsletter на базе переписок и статей, которые мы шарим (делать выжимку из статей)

То есть задача — максимально мотивировать участников сообщества, чтобы не ленились и не расслаблялись. В целом наличие всего это никак не влияет на успех сообщества, но хочется реализовать свои идеи.

И всё это возможно благодаря AI-разработке, где мне лишь достаточно иметь намерение.

#aidev
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2915💯2
Запись вебинара про Tengri от Николая.

Вебинар представляет Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse от Николая Голова, который ранее проектировал решения на Snowflake и Databricks.

Суть платформы: Tengri объединяет загрузку, хранение, трансформацию, аналитику и визуализацию данных в одном месте. Из коробки доступны SQL, Python и AI-агенты. Архитектура построена на разделении вычислений и хранения (Compute & Storage), используется формат Iceberg поверх S3-совместимых хранилищ (MinIO, Ceph, AWS, Yandex, VK) с поддержкой ACID-транзакций.

Проблема, которую решает: компании вынуждены собирать «зоопарк» из ETL, BI, ML-инструментов, а облачные платформы вроде Snowflake имеют ограничения — привязка к облаку, стоимость, невозможность держать данные у себя. Tengri — это альтернатива, которую можно развернуть on-prem, в облаке или гибридно, от одного сервера до кластера.
Отличия от конкурентов: в отличие от ClickHouse, Greenplum, Trino+Spark и классических DWH, Tengri — это единая платформа, а не отдельный компонент. Не нужно искать редких специалистов, минимальное администрирование, встроенные RBAC, аудит и контроль доступа.

AI-агенты встроены в платформу и помогают аналитикам и бизнесу автоматизировать работу с данными.
Целевая аудитория: те, кто ищет замену Snowflake/Databricks, хочет держать данные на своей инфраструктуре, строит LakeHouse или устал от сложной интеграции множества инструментов.



https://youtu.be/B377-Dvn_xc?si=gAKy2PPQFXufLY-p
❤‍🔥137
Ну вы поняли ;)

#aidev
💯22🌚1322🐳1
Как же круто Opus 4.6 в исполнение Claude Code при поддержки dbt и MCP делает сравнение и проверки. Да еще, сам предложит улучшения.

Раньше делали всякие кривые data diff и тп инструменты, а теперь просто просим сравнить Prod и измененный Dev.

Если надо и док сгенерит и письмо напишет с объяснениями.

Но как все замечают с AI вы работаете намного больше, вы просто не можете остановиться, ведь все ваши идеи и задачи превращаются в реальный результат.

#aidev
1❤‍🔥18🙈12💯75
На OpenClaw я не решился из-за безопасности и решил по старинке N8N.

Теперь-то можно все на outsource отдавать агентам.

Как в песне - Не могу остановиться.

#aidev
❤‍🔥7👨‍💻4
Очень классная презентация про миграция с Fivetran на Airbyte и потом на dlt.

У меня есть один Fivetran и он дороже Snowflake, вот думаю с AI я смогу его на easy эмигрировать. Как у вас опыт с dlt и Airbyte?

Claude слайды прям в сердечко=)

https://docs.google.com/presentation/d/e/2PACX-1vQvJapgEkJxgpsWqoMlmEw-ctV3gZe0LLc5oZBHaJNezBGAYKYoyir1aQi-37tO37SjFGaYjmQJhi_r/pub?start=false&loop=false&delayms=3000&slide=id.g175a817e68e_3_932
💯3
А вот мой Fivetran - 20 аквтиных подключений и пример Snowflake (январь 2026), который еще не только обрабатывает Fivetran 20 источников, а еще есть Azure Data Factory и там очень много данных из Azure SQL и CosmosDB.

Это лишь один из Fivetran и Snowflake, просто тут я знаю всю от и до.

Перекинуть все на dlt или даже написать Python можно, но это время и никак не повлияет на меня.

Главное преимущество Fivetran - это сервис. Он сам все делает, я вообще туда не захожу.

С Airbyte и Meltano OS я работал, это было вечное ковыряние в коде и куча багов (еще до AI мира).
Вчера еще была статья в комментах про то, как команда выкинула нафиг весь код и open source и людей, которые писали этот корявый код (и не важно с AI или без).

https://medium.com/@reliabledataengineering/dbt-databricks-the-combo-that-cut-our-data-team-from-12-to-5-engineers-be97e83fa7cb

Очень интересный сценарий, на заметку боссам и CDO. Но в РФ реалиях это не работает.

Я кстати вспомнил, что в прошлом году общался с VK и там была позиция на Max типа CTO/CDO платформы, но надо было закрыть ее в декабре.

Вообще место хорошее, ведь этот человек может реально попробовать повлиять на качество сервиса и пилить самую современную дата платформу и заодно модернизировать VK Cloud и развивать их любимый Lakehouse + Iceberg. Думаю так все ок с бюджетами.

Но я бы хотел смотреть в сторону managed DuckLake или пилить аналог Databricks (Compute + Notebooks + Data ingesting + ML + pipelines) и все это с интерфейсом в YML.
❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
35❤‍🔥16🫡12💯7🙈2
Заметил как народ сейчас начал активно впаривать курсы по Claude Code и AI разработке за дорого и решил сделать бесплатный курс и добавил на dataengineer.ru - Claude Code 101

Так как проект dataengineer.ru сидит в GitHub repo, то он полностью открыт и можно вносить изменения в курс всем желающим.

Курс получился простой и легкий. Последняя глава про возможность использовать Claude Code с бесплатными моделями. Я сам так не делал, но поискал информацию про это.

#aidev
65❤‍🔥16728🫡3
В последние несколько дней мне попались несколько интересных примеров/вопросов, которые могут возникнуть в любой компании.

1️⃣ Мы платим Montecarlo 100k$ в год за всякие data quality, observability. Dbt tests не работают, так как нужен UI, чтобы не технические пользователи смогли сами все сделать. Нужно взять Claude Code и создать агентов, чтобы они сами все проверяли и писали SQL и если нужно, можно это все где-то хостить и добавить красивый UI.

Я подумал, ну реально дураки, платят 100к в год вендору, а Claude Code все на раз-два завайбкодит. Заодно можно попросить отвайбкодить Snowflake, HighTouch, Airflow, Fivetran и другое=)

В этой ситуации видны хотелки менеджеров. Вам Claude, не чтобы за вас работу делать, а чтобы вы заменили вендоров. Это же AI, он все может….


2️⃣ PM кто кайфует от Claude Code и уже сам может делать end-to-end одноразовые дашборды поверх google sheets, заявил, что нам бы надо использовать Make .com или Zappier .com, чтобы накрутить всякие там автоматизации, и все быстренько работало, но то есть куяк-куяк и в продакшн, то есть надо быть AI-first + serverless. А я вот со своим традиционным дата инжинирингом замедляю прогресс.

А то, что половина его хотелок уже давно в дашбордах, это уже не принципиально. Негоже современному продукт менеджеру пользоваться технологиями из прошлого.

И вот непонятно, неужели data engineering уже такой bottle neck для бизнеса. По мне чувак вообще одноразовую фигню какую-то придумал.

3️⃣Последний пример был не про AI, и он больше как открытый вопрос. Возьмем любой стартап, у кого еще аналитика в начальной стадии. Как бы я сделал - добавил Airflow, dbt и там уже по ходу смотрел, где чего добавить. Все просто и понятно, любой человек без опыта научится за несколько месяцев.

Но у этой истории есть альтернатива - взять managed Kubernetes на облаке и туда вставить open source Kafka и все остальное, чтобы данные летали в real time, и все было по взрослому и на долгую перспективу. Нужно или не нужно это не самое главное, главное, что теоретически в будущем когда компания вырастит, будет круто иметь все в real-time и можно всякие интеграции бизнесовые делать.

Этот кейс интересный, ведь когда компания выбирает для себя путь, особенно если у нее есть возможность использовать западный стек, от первоначального выбора будет зависеть очень много.

Мой подход был всегда использовать такие решения для конкретных кейсов, но технически реально сразу его использовать для всего, только вопрос, стоит ли это того или нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
20❤‍🔥12🫡53
Познакомился сегодня с библиотекой Get Shit Done


Это лёгкая и мощная система мета-промптинга, контекстной инженерии и спецификационно-ориентированной разработки для Claude Code, OpenCode и Gemini CLI.

Какую проблему решает?
GSD решает проблему «context rot» — деградации качества ответов ИИ по мере заполнения контекстного окна. Когда вы описываете задачу ИИ и он генерирует код, результат часто получается нестабильным и разваливается при масштабировании. GSD выступает прослойкой контекстной инженерии, которая делает Claude Code надёжным.

Как это работает?
Рабочий процесс состоит из цикла:
Инициализация проекта (⁠/gsd:new-project) — описываете идею, система извлекает всё необходимое, создаёт ⁠PROJECT.md, ⁠REQUIREMENTS.md, ⁠ROADMAP.md, ⁠STATE.md
Обсуждение фазы (⁠/gsd:discuss-phase) — система выявляет «серые зоны» и уточняет ваше видение, формируя ⁠CONTEXT.md
Планирование (⁠/gsd:plan-phase) — исследование и создание планов, каждый достаточно маленький для выполнения в свежем контекстном окне
Выполнение (⁠/gsd:execute-phase) — параллельное выполнение планов «волнами» (waves) с учётом зависимостей, атомарные git-коммиты
Верификация (⁠/gsd:verify-work) — автоматическая проверка + ваша ручная приёмка (UAT)
Повтор — цикл повторяется до завершения всех фаз, затем ⁠/gsd:complete-milestone

Ключевые особенности
Мульти-агентная оркестрация — тонкий оркестратор порождает специализированных подагентов, основное контекстное окно остаётся на 30–40%
XML-форматирование промптов — оптимизировано под Claude
Атомарные git-коммиты — каждая задача = отдельный коммит, удобно для ⁠git bisect и отката
Quick Mode — для мелких задач (баг-фиксы, конфиги) без полного цикла планирования
Поддержка brownfield — команда ⁠/gsd:map-codebase анализирует существующий код перед началом работы

Ради интереса попробую использовать для какой-нибудь задачи.

Может кто уже использовал? И какие еще есть хорошие варианты для планирования задач агентов?
24❤‍🔥8
Замечательно, согласно мужичкам из All-In подкаста, уже сейчас токены становятся дороже инженеров. Они сжигаются очень быстро и очень много, а результат не всегда предсказуемый и правильный. Хотя сейчас в целом мало кто пользуется агентами, в основном инженеры, но не большинство.

Дополнительно AI агенты едят токены сами по себе на разных псевдо полезных интеграциях.

Прямо сейчас у меня открыт AI gateway Requestly.io который пропускает весь трафик Claude code и считает токены, заодно хранит мою переписку с AI (менеджерам на заметку).

И я вижу сколько долларов я сжег пока гонял Get Shit Done из прошлого поста, чтобы придумать как заменить Montecarlo из позапрошлого поста💰

Пора пойти сделать, что-то полезное за день🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤷26🌚6❤‍🔥2
Года два назад я писал про глобальную экспансию - increase global presence. Тогда я застал это в Microsoft и в Okta, когда менеджеры говорили открыто, что задание нанять 2х индусов, вместо одного Американца, так как дешевле.

Походу сейчас тренд меняется, в одно большой публичной компании закрыли офис в Индии и сократили всех разработчиков. Офис оказался неэффективным и одна из проблем была, что большая текучка кадров, то есть приходят, работают, но условия плохие и увольняется. И в целом оказалась, дешевая рабочая сила не сильно помогла компании.

PS наверно едут в Москву дворниками.
🤷12💯6🌚3🍌3
Пример сравнения платформа данных в РФ. Насколько соответствует действительности?
💯214❤‍🔥4🙊3🐳1
Who will be the first CIO fired for AI agent havoc? - с таким заголовоком вышла статья на CIO издательстве.

Вот как AI заменит руководителей в прямом смысле…

Краткое содержание статьи
Статья посвящена рискам неконтролируемого внедрения ИИ-агентов в крупных компаниях и угрозе увольнения CIO (ИТ-директоров) из-за последствий их работы.

Ключевые тезисы:
• Прогноз IDC: К 2030 году до 20% из 1,000 крупнейших компаний столкнутся с судебными исками, регуляторными штрафами или увольнением CIO из-за сбоев, вызванных неуправляемыми ИИ-агентами.
• Проблема каскадных ошибок: Когда несколько ИИ-агентов работают совместно, ошибка одного может лавинообразно усиливаться — остальные агенты действуют на основе ошибочного результата, создавая «бесконечный цикл».
• FOMO как драйвер: Многие компании спешат внедрять ИИ-агентов из страха отстать от конкурентов, не уделяя должного внимания управлению и контролю.
• Юридические последствия: Для исков не нужны новые законы об ИИ — существующие правовые нормы (например, HIPAA) уже применимы. ЕС будет активно штрафовать за нарушения приватности, штаты США тоже могут принять регулирование.
• Угроза для CIO лично: Совету директоров достаточно задать один вопрос — «Что именно делают наши ИИ-агенты?» — и если CIO не может ответить, его карьере конец. Потеря доверия совета происходит за секунды, в отличие от судебных процессов, которые тянутся годами.

Рекомендации:
• Вести полный реестр работающих агентов
• Обеспечить аудит-трейл от действия агента до бизнес-результата
• Включать человека в контур для чувствительных задач
• Добавлять «трение» для необратимых действий
• Проводить учения и заранее определять «красные линии»
• Делать процессы управления максимально прозрачными

Главный вывод:
Агентный ИИ не создаёт новых принципов управления — он лишь резко повышает цену их игнорирования. CIO, который сможет показать чёткие контроли и журналы аудита, будет в гораздо лучшем положении, чем тот, кто скажет «это система сделала сама».

Здесь не поспоришь, кому-то надо будет отвечать за vibe-coding, за утечку данных и другие прелести быстрой разработки.

Open AI и Antropic должны выпустить отметку, что это только не компетентные CIO уйдут, их заменит AI, а компании станут лучше, ведь, что вас не убьет - сделает сильней.
🫡16❤‍🔥5🐳2🙈2