У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.
Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)
Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…
При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.
Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.
Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.
Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)
Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.
Я так и не понял, зачем им AWS хранилище данных, это же небезопасно!😞
Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)
Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…
При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.
Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.
Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.
Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)
Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.
Я так и не понял, зачем им AWS хранилище данных, это же небезопасно!
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙉19❤🔥10💯4⚡1
Инвайт-код для подписчиков канала:➡️ ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций
На платформе:
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚6❤🔥3
С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.
https://dimoobraznii1986.github.io/sayward-canoe-trip/
Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.
Если хотите присоединиться, welcome!
PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.
При желании можете добавить настоящий домен.
https://dimoobraznii1986.github.io/sayward-canoe-trip/
Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.
Если хотите присоединиться, welcome!
PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.
При желании можете добавить настоящий домен.
⚡48❤🔥8🦄4🐳1🌚1
Здесь говорят о том, как работать с данными в 2026 году ↗️
Узнайте на GoCloud 2026
9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.
Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.
Вы узнаете:
А еще вас ждут демо сервисов, практические воркшопы, нетворкинг и афтерпати.
👉 Успейте зарегистрироваться👈
Узнайте на GoCloud 2026
9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.
Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.
Вы узнаете:
▶️ какие подходы к работе с данными станут стандартом в 2026 году▶️ как управлять разными-дата сервисами на одной платформе▶️ как быстро обрабатывать real-time данные▶️ почему ML-системы начинаются не с моделей, а с дата-инфраструктуры▶️ какие возможности дает интеграция ИИ и Spark
А еще вас ждут демо сервисов, практические воркшопы, нетворкинг и афтерпати.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡2❤🔥1
Как поведёт себя аналитическая СУБД в облаке под нагрузкой? Разбор реального кейса
Selectel и СР-ТЕХ приглашают на практический вебинар, где покажут, как провели нагрузочное тестирование и масштабировали аналитический кластер на 111 узлов всего за час в облаке.
📅 31 марта, 12:00
📍 Онлайн
👥 Для дата-инженеров, архитекторов данных, DevOps и SRE-инженеров, технических руководителей
👉 Смотрите полную программу и регистрируйтесь: https://slc.tl/9cja0
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFJx7JtH
Selectel и СР-ТЕХ приглашают на практический вебинар, где покажут, как провели нагрузочное тестирование и масштабировали аналитический кластер на 111 узлов всего за час в облаке.
📅 31 марта, 12:00
📍 Онлайн
👥 Для дата-инженеров, архитекторов данных, DevOps и SRE-инженеров, технических руководителей
👉 Смотрите полную программу и регистрируйтесь: https://slc.tl/9cja0
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFJx7JtH
👨💻2🍌1🦄1
2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.
В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.
Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪 🍪
В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.
Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡2💯1👨💻1
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.
Это когда 20% знаний закрывают 80% потребностей.
В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.
Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema
PS моделирование данных очень трудно дается AI, так же как и system design.
Это когда 20% знаний закрывают 80% потребностей.
В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.
Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema
PS моделирование данных очень трудно дается AI, так же как и system design.
❤🔥39⚡9💯6
Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.
Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!
https://blog.surfalytics.com/p/practical-data-modelling-with-sql
Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!
https://blog.surfalytics.com/p/practical-data-modelling-with-sql
Surfalytics
Practical Data Modelling with SQL
From Bus Matrix to DuckDB (SpaceX Launches)
❤🔥50🐳1