Инжиниринг Данных

❤‍🔥41⚡7

5.33K views02:02

У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.

Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)

Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…

При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.

Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.

Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.

Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)

Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.

Я так и не понял, зачем им AWS хранилище данных, это же небезопасно! 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

2🙉19❤‍🔥10💯6⚡1🐳1

5.66K views00:35

Инжиниринг Данных

🔛

ЗАКРЫТЫЙ СТАРТ

🕳

ПЛАТФОРМЫ АРЕНДЫ GPU

➡️

37 ₽ в час

Инвайт-код для подписчиков канала:
➡️ ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций

На платформе:
⭐️RTX 5090 • 32GB GDDR7
⭐️стабильная работа без оверселлинга
⭐️живая техническая поддержка: реальные инженеры, которые помогают с настройкой и запуском

📎 GPUGO.RU

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚7❤‍🔥3

5.94K views06:59

Инжиниринг Данных

С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.

https://dimoobraznii1986.github.io/sayward-canoe-trip/

Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.

Если хотите присоединиться, welcome!

PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.

При желании можете добавить настоящий домен.

⚡49❤‍🔥10🦄4🐳1🌚1

5.6K views23:47

Инжиниринг Данных

2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.

В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.

Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪

🍪

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2💯1👨‍💻1

5.22K views15:42

Инжиниринг Данных

Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.

Это когда 20% знаний закрывают 80% потребностей.

В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.

Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema

PS моделирование данных очень трудно дается AI, так же как и system design.

❤‍🔥46⚡13💯8

7.79K views20:42

Инжиниринг Данных

Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.

Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!

https://blog.surfalytics.com/p/practical-data-modelling-with-sql

Surfalytics

Practical Data Modelling with SQL

From Bus Matrix to DuckDB (SpaceX Launches)

❤‍🔥64⚡6🐳3

7.48K views06:53

Инжиниринг Данных

Claude Code c моделью Opus 4.6 очень круто. Но даже за тариф в 200$ в месяц вам будет не хватать, особенно если вы очень любознательный и изобретательный человек=)

В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.

За март я потратил 1000$+ через API Anthropic и решил урезать пользование.

У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄

А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны

Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом🏆

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥18🙈15

7.37K views21:06

Инжиниринг Данных

Vibe-coding весело, но иногда лень печатать, поэтому можно воспользоваться бесплатной программой Handy, которая запишет ваш голос и преобразует в текст. Бесплатно.

https://github.com/cjpais/Handy

А вы чем пользуетесь?

🫡9⚡5❤‍🔥4🙈4

6.43K views01:16

Инжиниринг Данных

Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку

PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)

❤‍🔥22🌚1

6.25K views06:51

Инжиниринг Данных

Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.

Я слегка работал и с одним и другим.

Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.

Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.

Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.

У кого какой опыт с каталогами?

❤‍🔥9⚡1

5.77K views21:25

About

Blog

Apps

Platform