У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.
Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)
Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…
При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.
Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.
Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.
Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)
Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.
Я так и не понял, зачем им AWS хранилище данных, это же небезопасно!😞
Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)
Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…
При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.
Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.
Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.
Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)
Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.
Я так и не понял, зачем им AWS хранилище данных, это же небезопасно!
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙉19❤🔥10💯6⚡1🐳1
Инвайт-код для подписчиков канала:➡️ ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций
На платформе:
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚7❤🔥3
С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.
https://dimoobraznii1986.github.io/sayward-canoe-trip/
Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.
Если хотите присоединиться, welcome!
PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.
При желании можете добавить настоящий домен.
https://dimoobraznii1986.github.io/sayward-canoe-trip/
Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.
Если хотите присоединиться, welcome!
PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.
При желании можете добавить настоящий домен.
⚡49❤🔥10🦄4🐳1🌚1
2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.
В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.
Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪 🍪
В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.
Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡2💯1👨💻1
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.
Это когда 20% знаний закрывают 80% потребностей.
В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.
Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema
PS моделирование данных очень трудно дается AI, так же как и system design.
Это когда 20% знаний закрывают 80% потребностей.
В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.
Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema
PS моделирование данных очень трудно дается AI, так же как и system design.
❤🔥46⚡13💯8
Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.
Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!
https://blog.surfalytics.com/p/practical-data-modelling-with-sql
Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!
https://blog.surfalytics.com/p/practical-data-modelling-with-sql
Surfalytics
Practical Data Modelling with SQL
From Bus Matrix to DuckDB (SpaceX Launches)
❤🔥64⚡6🐳3
Claude Code c моделью Opus 4.6 очень круто. Но даже за тариф в 200$ в месяц вам будет не хватать, особенно если вы очень любознательный и изобретательный человек=)
В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.
За март я потратил 1000$+ через API Anthropic и решил урезать пользование.
У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄
А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны
Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом🏆
В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.
За март я потратил 1000$+ через API Anthropic и решил урезать пользование.
У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄
А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны
Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥18🙈15
Vibe-coding весело, но иногда лень печатать, поэтому можно воспользоваться бесплатной программой Handy, которая запишет ваш голос и преобразует в текст. Бесплатно.
https://github.com/cjpais/Handy
А вы чем пользуетесь?
https://github.com/cjpais/Handy
А вы чем пользуетесь?
🫡9⚡5❤🔥4🙈4
Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку
PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)
PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)
❤🔥22🌚1
Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.
Я слегка работал и с одним и другим.
Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.
Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.
Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.
У кого какой опыт с каталогами?
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.
Я слегка работал и с одним и другим.
Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.
Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.
Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.
У кого какой опыт с каталогами?
❤🔥9⚡1