Инжиниринг Данных
23.9K subscribers
2.14K photos
63 videos
194 files
3.29K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
❤‍🔥417
У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.

Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)

Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…

При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.

Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.

Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.

Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)

Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.

Я так и не понял, зачем им AWS хранилище данных, это же небезопасно! 😞
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙉19❤‍🔥10💯61🐳1
🔛 ЗАКРЫТЫЙ СТАРТ
🕳 ПЛАТФОРМЫ АРЕНДЫ GPU
➡️ 37 ₽ в час

Инвайт-код для подписчиков канала:
➡️ ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций


На платформе:
⭐️RTX 5090 • 32GB GDDR7
⭐️стабильная работа без оверселлинга
⭐️живая техническая поддержка: реальные инженеры, которые помогают с настройкой и запуском

📎 GPUGO.RU
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚7❤‍🔥3
С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.

https://dimoobraznii1986.github.io/sayward-canoe-trip/

Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.

Если хотите присоединиться, welcome!

PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.

При желании можете добавить настоящий домен.
49❤‍🔥10🦄4🐳1🌚1
2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.

В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.

Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪🍪
Please open Telegram to view this post
VIEW IN TELEGRAM
2💯1👨‍💻1
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.

Это когда 20% знаний закрывают 80% потребностей.

В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.

Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema

PS моделирование данных очень трудно дается AI, так же как и system design.
❤‍🔥4613💯8
Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.

Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!

https://blog.surfalytics.com/p/practical-data-modelling-with-sql
❤‍🔥646🐳3
Claude Code c моделью Opus 4.6 очень круто. Но даже за тариф в 200$ в месяц вам будет не хватать, особенно если вы очень любознательный и изобретательный человек=)

В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.

За март я потратил 1000$+ через API Anthropic и решил урезать пользование.

У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄

А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны

Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥18🙈15
Vibe-coding весело, но иногда лень печатать, поэтому можно воспользоваться бесплатной программой Handy, которая запишет ваш голос и преобразует в текст. Бесплатно.

https://github.com/cjpais/Handy

А вы чем пользуетесь?
🫡95❤‍🔥4🙈4
Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку

PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)
❤‍🔥22🌚1
Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.

Я слегка работал и с одним и другим.

Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.

Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.

Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.

У кого какой опыт с каталогами?
❤‍🔥91