Инжиниринг Данных
23.8K subscribers
2.09K photos
60 videos
194 files
3.25K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
❤‍🔥406
У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.

Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)

Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…

При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.

Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.

Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.

Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)

Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.

Я так и не понял, зачем им AWS хранилище данных, это же небезопасно! 😞
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙉18❤‍🔥10💯41
🔛 ЗАКРЫТЫЙ СТАРТ
🕳 ПЛАТФОРМЫ АРЕНДЫ GPU
➡️ 37 ₽ в час

Инвайт-код для подписчиков канала:
➡️ ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций


На платформе:
⭐️RTX 5090 • 32GB GDDR7
⭐️стабильная работа без оверселлинга
⭐️живая техническая поддержка: реальные инженеры, которые помогают с настройкой и запуском

📎 GPUGO.RU
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚6❤‍🔥3
С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.

https://dimoobraznii1986.github.io/sayward-canoe-trip/

Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.

Если хотите присоединиться, welcome!

PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.

При желании можете добавить настоящий домен.
48❤‍🔥7🦄4🐳1🌚1
Здесь говорят о том, как работать с данными в 2026 году ↗️

Узнайте на GoCloud 2026

9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.

Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.

Вы узнаете:
▶️какие подходы к работе с данными станут стандартом в 2026 году
▶️как управлять разными-дата сервисами на одной платформе
▶️как быстро обрабатывать real-time данные
▶️почему ML-системы начинаются не с моделей, а с дата-инфраструктуры
▶️какие возможности дает интеграция ИИ и Spark


А еще вас ждут демо сервисов, практические воркшопы, нетворкинг и афтерпати.

👉Успейте зарегистрироваться👈
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥1
Как поведёт себя аналитическая СУБД в облаке под нагрузкой? Разбор реального кейса

Selectel и СР-ТЕХ приглашают на практический вебинар, где покажут, как провели нагрузочное тестирование и масштабировали аналитический кластер на 111 узлов всего за час в облаке.

📅 31 марта, 12:00
📍 Онлайн
👥 Для дата-инженеров, архитекторов данных, DevOps и SRE-инженеров, технических руководителей

👉 Смотрите полную программу и регистрируйтесь: https://slc.tl/9cja0

Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events

Реклама. АО "Селектел". erid:2W5zFJx7JtH
👨‍💻2🍌1🦄1
2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.

В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.

Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪🍪
Please open Telegram to view this post
VIEW IN TELEGRAM
2💯1👨‍💻1
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.

Это когда 20% знаний закрывают 80% потребностей.

В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.

Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema

PS моделирование данных очень трудно дается AI, так же как и system design.
❤‍🔥256💯5