Инжиниринг Данных

Очень хорошо прошло утро понедельника в Т-Банк! Шикарная организация, вкусный завтрак и теплая компания! Спасибо всем, кто смог прийти или подключиться онлайн.

Вот, что у меня есть из материалов:
1. Моя презентация - Примеры аналитических решений и команд из реальных проектов
2. Все презентации.
3. Запись на YouTube и VK
4. Космический фотоотчет от профессионального фотографа Екатерины Советкиной, можете себя найти!

PS Долетел до Ванкувера без задержек.

❤‍🔥92⚡26🎄8🌚4🍌2🫡2

12K viewsDmitry, 15:03

Инжиниринг Данных

Dbt labs купили SDF стартап.

SDF — это высокопроизводительный набор инструментов для разработки на SQL, объединённый в одну CLI. Он включает в себя мультидиалектный SQL-компилятор, систему типов, фреймворк для трансформаций, линтер и сервер языка. Написанный на Rust, он обладает высокой степенью параллелизации и рассчитан на масштабирование.

Этот набор инструментов основан на передовых разработках в понимании SQL. SDF представляет каждый SQL-диалект (Snowflake, Redshift, BigQuery и др.) как полную ANTLR-грамматику с определениями всех типов данных, правил приведения, функций, тонкостей областей видимости и многого другого.

В отличие от исторического подхода dbt (где SQL воспринимался как строки текста), SDF видит объекты, типы, синтаксис и семантику.

Точно так же, как виртуальные машины (VMs) эмулируют физическое оборудование, SDF эмулирует SQL-компиляторы, нативные для используемых вами платформ данных.

SDF основанная дуэтом отец/сын (Лукас и Вольфрам Шульте, CEO и CTO соответственно) и с основной командой исследователей баз данных из Microsoft Research, Meta и других организаций, компания включает в себя одних из самых квалифицированных специалистов на планете для решения задачи надежного и масштабируемого понимания SQL.

Почему это важно:

1. dbt исторически рассматривал SQL как текстовые строки с некоторым Jinja-шаблонированием. SDF (SQL Development Framework) приносит настоящую поддержку SQL — парсинг, системы типов и семантический анализ для различных диалектов.

2. Практическое влияние огромное: примерно в 100 раз быстрее компиляция, поддержка IDE и детализированная lineage без подключения к вашему хранилищу данных.

3. Самое интересное, SDF эмулирует компиляторы SQL нативно, так что может обнаруживать ошибки на этапе разработки, а не во время выполнения.

Это действительно полезная покупка, так как одна из главных задач dbt это генерация (compile) SQL запросов.

Для бесплатной версии dbt core пока ничего нового.

⚡56🙈6🤷1

10.5K viewsDmitry, 17:25

Личный пример использования VSCode + Claude. Нашел плагин для VSCode - Cline (раньше назывался Claude Dev). Он позволяет открыть окно чата. Ему нужен ключ API от Claude.

У меня была простая и скучная задача - для поля type сделать CASE WHEN для 40+ сценариев. Я скопировал исходный код из приложения, показал пример в prompt и плагин сразу обновил мой файл с dbt моделью, даже написал сколько это стоило.

⚡51👾4

10.6K viewsDmitry, 07:05

Инжиниринг Данных

Каникулы закончились, самое время пойти учиться!

Совет: лучше тратить деньги работодателя на курсы, чем свои. Но выхлопа за свои всегда больше! 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡55💯14🗿2

10.8K viewsDmitry, 20:41

Инжиниринг Данных

Немножко метрик и проверки гипотез.

Гипотеза
Использование социальных сетей на ежедневной основе, чтобы публиковать туда shorts/reels по тематике поможет вырасти аудиторию Surfalytics (условно дата сообщества) и вырасти свой бренд.

Что было сделано

Начиная с Апреля 2024 до Января 2025 года (8 месяцев) почти каждый день сначала и потом 3 раза в неделю мы постили shorts/reels в 4 социальных сети:
- LinkedIn
- TikTok
- Youtube shorts
- X/Twitter

Я использовал сервис Buffer (6$ в месяц за одну соц сеть). Сервис по расписанию загружает видосы и посты по всем соц сетям. И конечно я сам не делал нарезку, так как это огромное кол-во время. Я платил товарищу и он создавал реально крутые и интересные reels/shorts.

Результаты

TikTok:
- 825 likes
- 43 followers
- просмотры от 200 до 700 для одного видео

X:
- 24 followers

Youtube:
- сложно понять ценность shorts, обычно просмотры в районе 70-500 для одного видео
- сам YouTube Surfalytics смог вырасти до 1630 подписчиков (data learn например 17800 подписчиков)

Linkedin за 365 дней:
- 355,812 Impressions
- 64,836 Members reached
- топ 3 поста, которая я сам написал, 2 из них про книгу O’Reilly (Trino, Power BI)
- топ 2 поста по likes - пост про день пап (фотка меня с детьми) и пост про день свадьбы (меня с женой)
- видосики обычно собирали по 10-20 likes от членов Surfalytics
- сейчас у меня 7681 follower, я не смог найти сколько было раньше, но думаю где-то в районе 6000.

Еще есть блог на Substack, туда я пишу редко, но очень качественный контент связанный с развитием data карьеры, там 5660 подписчиков, правда я сам загрузил туда возможно 5500 emails:)

Вообще метрик в каждой соц сети или инструменте хоть отбавляй, возможно, если бы я из изучал более детально, смог бы улучшить показатели.

Какие выводы
- Соцсети — это как океан, и моя идея использовать их для привлечения аудитории на западном рынке не работает так, как хотелось бы. Прямолинейный подход — создать канал, блог и ожидать, что аудитория придёт сама — неправилен. Причём даже качество аудитории здесь не играет решающей роли.

- Например, я публиковал свой контент в группах Facebook и LinkedIn, где состоят сотни тысяч человек, но результата это не принесло.

- LinkedIn полезен сам по себе, как часть резюме. Если у вас хороший профиль, вам иногда могут написать рекрутеры, но, честно говоря, я ни разу не находил работу таким способом.

- Возможно, если бы у меня вообще не было соцсетей, мой доход остался бы прежним, а свободного времени стало бы больше. Однако у блогинга есть одна особенность — он заполняет карьерную пустоту и создаёт ощущение, что вы становитесь более ценным экспертом. Это своего рода ментальный буст к уверенности.

- Безусловно, «глупые» посты с мемами или провокационные записи набирают намного больше охватов. Но для такого контента нужна предрасположенность. Чем больше «чёрнухи», тем выше охваты — ничего нового.

- Аналогично, мой интернет-магазин https://shop.surfalytics.com/, на который я потратил $8–10 тысяч (дизайн + интеграция на Shopify), — это ещё один эксперимент, который не сработал.

Почему всё так плохо?
Как я уже говорил, дело вовсе не в контенте, а в том, что ниша занята. В 2020–2021 годах было очень мало блогеров на тему дата-аналитики, и они смогли завоевать хорошую репутацию, став лидерами мнений. Сейчас таких лидеров много, поэтому мой контент — это всего лишь «ещё одно видео», которое для западного зрителя теряется среди сотен других похожих.

Я считаю, что завершил свой эксперимент с shorts/reels и соцсетями. Теперь я вернусь в обычный режим, буду делать видеоуроки для своего бессмертного курса по аналитике и инжинирингу данных, а также добавлять ценность для сообщества Surfalytics через проекты, карьерные консультации и поддержку.

Я абсолютно спокойно отношусь к отсутствию результата. Чтобы достичь классных результатов или создать что-то действительно стоящее, нужно сначала многое попробовать и потерпеть несколько неудач. Это даёт реальную обратную связь о том, что работает, а что нет, и позволяет принимать более осознанные решения о дальнейших действиях.

1❤‍🔥170⚡29🫡15💯9🍾3🗿2🐳1👨‍💻1👾1

8.84K viewsDmitry, 18:52

Инжиниринг Данных

Всем привет, буду в LA 1,2 го февраля в районе Irvine. Если есть народ с LA можно где-нибудь выпить некрепкого и не поздно, просто покупаться🥶, или погреться у огонька🔥 в элитном районе LA.

Чатик https://t.me/+gay7oVPZyqA0MmJh

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡8😭6

7.95K viewsDmitry, edited 23:44

Инжиниринг Данных

Время AI War, кто первый одержит вверх, того уже не догнать.

Наступает эра «войны ИИ»: кто первым одержит верх, того уже не догнать.

На изображении — реклама из The Washington Post от 21 января 2025 года.

Окружение нового президента состоит из представителей BigTech. Их цель ясна: они уже пообещали вложить 500 млрд в создание инфраструктуры для искусственного интеллекта.

Полагаю, Китай тоже не отстаёт: у них уже машины прыгают на автопилоте.

В России, к сожалению, пока не слышно о громких инвестициях в ИИ.

Что ж, нам остаётся лишь самостоятельно изучать, как искусственный интеллект может помочь нам работать эффективнее.

Если раньше на собеседованиях мы рассказывали о том, как консолидировать данные в одном месте (хранилище данных) и построить дашборд с KPI для бизнес-пользователей, то теперь надо думать о сценариях использования ИИ-инструментов и о том, какую ценность они могут принести.

Важно понимать, как с помощью инженерии данных можно добавить функциональность продукту, повысить его качество или улучшить клиентский опыт.

На данном этапе мы ещё только в начале пути:

Шаг 0: ChatGPT помогает нам писать код.

Шаг 1: Наша IDE может работать с ИИ и сама генерировать код.

Шаг 2: Вендорские решения (Snowflake, Databricks) или сторонние ИИ-агенты позволяют использовать «коробочные» решения для генеративного ИИ и автоматизации рутинных задач (Customer Service, чаты и т. п.).

В целом необходимо нарабатывать экспертизу в области сценариев применения ИИ для работы с данными, ведь скоро наше резюме будет выглядеть совсем по-другому. Вместо built data pipelines в нём появятся integrated AI agents, built RAG on top of data warehouse и другие похожие формулировки.

💯68🙈11😈2

9.57K viewsDmitry, edited 18:28

Инжиниринг Данных

В продолжение прошлого поста

❤‍🔥47💯22🌚12🙈11🤷‍♂1

9.96K viewsDmitry, 05:42

Инжиниринг Данных

У меня сформировалось мнение, что в РФ нет увольнений, специалисты ИТ востребованы. Но вот сегодня в сети обсуждают новости про В «дочках» Сбербанка массовые увольнения. Под ударом программисты и разработчики.

В Северной Америке уже давно так, как говорится welcome to the club.

Есть подробности?

CNews.ru

В «дочках» Сбербанка массовые увольнения. Под ударом программисты и разработчики - CNews

ИТ-специалисты, работающие в дочерних компаниях Сбербанка, сообщают о начавшихся массовых сокращениях. Сотрудникам предлагают уволиться по соглашению сторон.

9.73K viewsDmitry, 19:11

Инжиниринг Данных

Совсем недавно, чтобы выделиться нужно было использовать ChatGPT, чтобы написать красивое и вежливое письмо.

Теперь, достаточно просто самостоятельно написать 1-2 предложения, и вы уже будете не такой как все.

💯118🙊1

9.29K viewsDmitry, 18:57

Инжиниринг Данных

Я давно подписан на Financial Samurai блог, автор живет в San Francisco и пишет про финансы, про рынок США и экономические события, которые влияют на рынок США.

Сегодня я узнал, что автор азиат🙌, почему-то читая его последние пол года я представлял white американца, такой вот bias.

A pioneer of the FIRE (Financial Independence, Retire Early) movement in 2009, Sam previously worked at Goldman Sachs and Credit Suisse before retiring at age 34 as a multi-millionaire.

На картинке хорошо видно алокация пассивного дохода, где недвижимость составляет 56%. То есть не акции, не ценные бумаги, бонды, ETF и крипта, а недвижимость. Ключевой момент, что вся недвижимость без ипотеки. И это ключевой момент.

Что в Москве, что в Ванкувере, или в другом любом городе ключевой момент доходности от недвижимости это отсутствие ипотеки.

А вы еще хотите инвестировать в недвижимость?

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥24🙈11🫡5

8.45K viewsDmitry, edited 18:57

Инжиниринг Данных

Наконец-то дошли руки опубликовать вебинар по DBT, который мы сделали на январских праздниках вместе с VK Cloud.

dbt является самым популярны фреймворком для трансформации данных внутри хранилища данных. Это очень важный инcтрумент, так как на его примере можно понять множество концептов, таких как CI/CD, документация, качество данных, unit tests, инкрементальная загрузка и многое другое.

Ссылки:
DATALEARN | DE - 101 | МОДУЛЬ 4-09 Начало работы с dbt | часть 1
🔗 https://youtu.be/XLH3xiwrVPo
🔗 https://rutube.ru/video/private/421494939f6d39e512d14b8f1452ea12/?p=QLhX919M3AFPY8ZIR_NjrA

DATALEARN | DE - 101 | МОДУЛЬ 4-10 Начало работы с dbt | часть 2
🔗 https://youtu.be/SGvK4ZDyyuc
🔗https://rutube.ru/video/private/f24ed2b686922188fadeb18ccaef4fc2/?p=PvzMNWlwAOLUdfSUfAmoqw

Добавил все в Datalearn учебник в модуль 4

PS Качество видео не 4к, мы использовали первый раз Telegram streaming.

Полезные ссылки:
- Бесплатные курсы dbt от dbt labs
- Примеры DBT репозиториев в канале Алексея, архитектора VK Cloud, с кем мы проводили вебинар. В 1ой части он рассказывал и показывал облако VK.
- Презентация по dbt
- Инструкция к проекту
- Пример решения

PPS больше спасибо Наташе Павловой, которая несмотря на январские праздники все организовала на высшем уровне от VK и всем выдавала по 5000 кредитов🔝. Ну и конечно Роману Пономареву (отец основатель datalearn 👉), кто как обычно все сделал по высшему разряду!

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 4-09 Начало работы с dbt | часть 1

Если вы хотите не просто «что-то там понимать» в dbt, а реально строить аналитические хранилища по-взрослому — добро пожаловать!

🛠 Что будет на уроке:
📌 Простое и понятное введение в dbt core
📌 Развёртывание базы данных Postgres 16 в VK Cloud
📌 Настройка…

12❤‍🔥91🍾14⚡7👨‍💻2

9.33K viewsDmitry, edited 07:18

Инжиниринг Данных

В последнем проекте для Surfalytics мы изучали SQLMesh.

Раньше я думал, что это имеет отношение к Data Mesh подходу. Оказывается, это конкурент dbt. То есть, решает такие же задачи, как dbt - трансформация с помощью SQL внутри хранилища данных. (T в ELT).

Инструмент тоже open source. Некоторые вещи реализованы по другому, например у них главная фишка - это виртуальные среды. Если в dbt мы сами выбираем физическое место (схему, базу), где dbt будет создавать таблицы и вьюхи, то в SQLMesh у нас этот процесс управляется виртуальными средами. (Тут больше про envs https://tobikodata.com/virtual-data-environments.html)

Есть и другие плюшки, например встроенный CRON (ставить модели на расписание), SQL клиент в UI, CI/CD бот, аналог SDF (SQL компилятор на базе SQLglot).

У них есть интеграция для dbt/dlt, то есть вы можете легко мигрировать ваши dbt проекты на SQLMesh.

Еще из интересного - они не пустили основателя на конференцию dbt.

Вот что пишут в статье про сравнение dbt и SQLMesh:

Стоит ли выбрать SQLMesh вместо dbt?
На мой взгляд, если вас заботят инженерные аспекты построения конвейеров данных (а это важно), или если дата-инженеры создают и управляют "T", то вам стоит выбрать SQLMesh.

Нужен ли вам широкий набор интеграций с различными платформами и инструментами для работы с данными и/или хотите использовать что-то с более крупным, зрелым сообществом? Тогда, возможно, стоит остановиться на dbt.

Если кратко, я бы сказал, что выбор между SQLMesh и dbt сводится к тому, стоит ли дополнительная сложность SQLMesh того для вас и вашей команды. Интеграции с другими инструментами и зрелость сообщества со временем подтянутся.

Следует отметить, что SQLMesh совместим с dbt, что означает возможность использования SQLMesh поверх существующего проекта dbt в качестве обёртки, используя функции SQLMesh, такие как виртуальные среды данных. Возможно, стоит попробовать и посмотреть, понравится ли вам SQLMesh?

Также не забывайте, что SQLMesh НЕ заставляет писать огромное количество yaml и Jinja. Некоторым нравится иметь всё в yaml, но я предпочитаю определять метаданные прямо в файлах моделей. Меньше переключений контекста - лучше для меня. Мне также никогда не нравился синтаксис Jinja. SQLMesh позволяет использовать чистый Python, что является большим плюсом.

Мое мнение: я бы не стал изучать SQLMesh, так как dbt очень популярный, работает отлично, большое сообщество, есть VC деньги на развитие продукта и есть спрос на такие скилы. SQLMesh это нишевой продукт, который больше подходит энтузиастам, которые любят плыть против течения и у них много свободного времени, чтобы внедрять такие решения. Главная цель пробовать такие нишевые продукты - быть в теме и такие insights порождают хороший диалог с нанимающим менеджером.

По плану дальше на проектах изучить:
- open source BI: Metabase, Superset, Evidence
- локальная оркестрация контейнеров (docker stack, kind, Minikube)
- GenAI функциональность Snowflake и Databricks

Из этих кубиков мы можем строить более большие проекты.

❤‍🔥26⚡14💯1

7.61K viewsDmitry, 20:13

Инжиниринг Данных

На январских праздниках я успел заехать в Питер, сходил на Щелкунчика в Мариинский театр (сравнил его с Щелкунчиком в Большом театре и в Ванкувере), посетил кафе Счастье и ресторан Joli. Покатался на льду по тротуарам (реально опасно передвигаться зимой).

Но самое прикольное, я встретился с 2мя дата профи, это Николай Валотти, автором Left Join и Сергей Громов, основатель компании BI Consult (самый аутентичный дизайн сайта, который я видел).

С Колей мы попили утром кофе и дальше он побежал по дата делам. А к Сергею я попал на экскурсию в офис, выпил чай с баранками, узнал об истории компании, посмотрел на крутецкую картинную галерею известных русских художников и коллекцию старинных компьютеров и артефактов.

Так же познакомился в BI Consult с Жанной, руководителем направления обучения. Они рассказали, что хотели бы найти человека, кому интересно преподавать корпоративным клиентам. Я попросил поделится информацией, чтобы расшарить в канале, вдруг кому интересно и у кого-то есть желание диверсицировать свои доходы и подрабатывать преподавателем.

Учебный центр "BI Consult" успешно функционирует с 2018 года. В числе слушателей курсов сотрудники компаний нефтегазовой и финансовой отрасли, розничной торговли и производства.

Сейчас учебный центр в поиске эксперта в области DWH для прочтения курсов “Современная архитектура хранилища данных” и "Курс по DWH".

Что важно:
✔️Практический опыт сбора, хранения и обработки больших объемов данных с использованием OLTP, ETL, DWH и Data Lake, также работы с различными типами баз данных, включая традиционные SQL-базы данных и современные NoSQL-базы данных
✔️Понимание специфики столбцовой организации хранения данных
✔️Умение проектировать хранилища данных, используя методики Data Vault и Anchor Modeling
✔️Опыт работы с инструментами оркестрации и обработки данных в реальном времени
✔️Понимание принципа работы средств визуализации данных (BI)
✔️Понимание принципа работы машинного обучения в контексте инженерии данных и различий разновидностей машинного обучения в области анализа данных (Data Mining) и машинного обучения (Machine Learning)
✔️Желание рассказать и научить других строить архитектуру данных

Формат работы: Онлайн-курсы, несколько раз в год.

Своё резюме высылайте Жанне в личные сообщения: @Ghannaleto

❤‍🔥27🐳8🌚3🎄1

7.24K viewsDmitry, edited 02:28

About

Blog

Apps

Platform