Завтра у нас вкусные завтраки в Т Банк, сбор уже в 9 утра, но нужно записаться https://meetup.tbank.ru/event/data-zavtrak/
Т-Банк Митапы
Митап Data завтрак
Начните утро 13 января с Data завтрака: обсудим архитектуру аналитических решений, команды и инструменты.
❤🔥13⚡7🗿6🌚2🍌2🙈2
А кто не смог оффлайн, будет онлайн, но нужно зарегестрироваться, чтобы ссылку на стрим прислали.
❤🔥8
Очень хорошо прошло утро понедельника в Т-Банк! Шикарная организация, вкусный завтрак и теплая компания! Спасибо всем, кто смог прийти или подключиться онлайн.
Вот, что у меня есть из материалов:
1. Моя презентация - Примеры аналитических решений и команд из реальных проектов
2. Все презентации.
3. Запись на YouTube и VK
4. Космический фотоотчет от профессионального фотографа Екатерины Советкиной, можете себя найти!
PS Долетел до Ванкувера без задержек.
Вот, что у меня есть из материалов:
1. Моя презентация - Примеры аналитических решений и команд из реальных проектов
2. Все презентации.
3. Запись на YouTube и VK
4. Космический фотоотчет от профессионального фотографа Екатерины Советкиной, можете себя найти!
PS Долетел до Ванкувера без задержек.
❤🔥92⚡26🎄8🌚4🍌2🫡2
Dbt labs купили SDF стартап.
SDF — это высокопроизводительный набор инструментов для разработки на SQL, объединённый в одну CLI. Он включает в себя мультидиалектный SQL-компилятор, систему типов, фреймворк для трансформаций, линтер и сервер языка. Написанный на Rust, он обладает высокой степенью параллелизации и рассчитан на масштабирование.
Этот набор инструментов основан на передовых разработках в понимании SQL. SDF представляет каждый SQL-диалект (Snowflake, Redshift, BigQuery и др.) как полную ANTLR-грамматику с определениями всех типов данных, правил приведения, функций, тонкостей областей видимости и многого другого.
В отличие от исторического подхода dbt (где SQL воспринимался как строки текста), SDF видит объекты, типы, синтаксис и семантику.
Точно так же, как виртуальные машины (VMs) эмулируют физическое оборудование, SDF эмулирует SQL-компиляторы, нативные для используемых вами платформ данных.
SDF основанная дуэтом отец/сын (Лукас и Вольфрам Шульте, CEO и CTO соответственно) и с основной командой исследователей баз данных из Microsoft Research, Meta и других организаций, компания включает в себя одних из самых квалифицированных специалистов на планете для решения задачи надежного и масштабируемого понимания SQL.
Почему это важно:
1. dbt исторически рассматривал SQL как текстовые строки с некоторым Jinja-шаблонированием. SDF (SQL Development Framework) приносит настоящую поддержку SQL — парсинг, системы типов и семантический анализ для различных диалектов.
2. Практическое влияние огромное: примерно в 100 раз быстрее компиляция, поддержка IDE и детализированная lineage без подключения к вашему хранилищу данных.
3. Самое интересное, SDF эмулирует компиляторы SQL нативно, так что может обнаруживать ошибки на этапе разработки, а не во время выполнения.
Это действительно полезная покупка, так как одна из главных задач dbt это генерация (compile) SQL запросов.
Для бесплатной версии dbt core пока ничего нового.
SDF — это высокопроизводительный набор инструментов для разработки на SQL, объединённый в одну CLI. Он включает в себя мультидиалектный SQL-компилятор, систему типов, фреймворк для трансформаций, линтер и сервер языка. Написанный на Rust, он обладает высокой степенью параллелизации и рассчитан на масштабирование.
Этот набор инструментов основан на передовых разработках в понимании SQL. SDF представляет каждый SQL-диалект (Snowflake, Redshift, BigQuery и др.) как полную ANTLR-грамматику с определениями всех типов данных, правил приведения, функций, тонкостей областей видимости и многого другого.
В отличие от исторического подхода dbt (где SQL воспринимался как строки текста), SDF видит объекты, типы, синтаксис и семантику.
Точно так же, как виртуальные машины (VMs) эмулируют физическое оборудование, SDF эмулирует SQL-компиляторы, нативные для используемых вами платформ данных.
SDF основанная дуэтом отец/сын (Лукас и Вольфрам Шульте, CEO и CTO соответственно) и с основной командой исследователей баз данных из Microsoft Research, Meta и других организаций, компания включает в себя одних из самых квалифицированных специалистов на планете для решения задачи надежного и масштабируемого понимания SQL.
Почему это важно:
1. dbt исторически рассматривал SQL как текстовые строки с некоторым Jinja-шаблонированием. SDF (SQL Development Framework) приносит настоящую поддержку SQL — парсинг, системы типов и семантический анализ для различных диалектов.
2. Практическое влияние огромное: примерно в 100 раз быстрее компиляция, поддержка IDE и детализированная lineage без подключения к вашему хранилищу данных.
3. Самое интересное, SDF эмулирует компиляторы SQL нативно, так что может обнаруживать ошибки на этапе разработки, а не во время выполнения.
Это действительно полезная покупка, так как одна из главных задач dbt это генерация (compile) SQL запросов.
Для бесплатной версии dbt core пока ничего нового.
⚡56🙈6🤷1
Media is too big
VIEW IN TELEGRAM
Личный пример использования VSCode + Claude. Нашел плагин для VSCode - Cline (раньше назывался Claude Dev). Он позволяет открыть окно чата. Ему нужен ключ API от Claude.
У меня была простая и скучная задача - для поля
У меня была простая и скучная задача - для поля
type сделать CASE WHEN для 40+ сценариев. Я скопировал исходный код из приложения, показал пример в prompt и плагин сразу обновил мой файл с dbt моделью, даже написал сколько это стоило.⚡51👾4
Каникулы закончились, самое время пойти учиться!
Совет: лучше тратить деньги работодателя на курсы, чем свои. Но выхлопа за свои всегда больше!👌
Совет: лучше тратить деньги работодателя на курсы, чем свои. Но выхлопа за свои всегда больше!
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡55💯14🗿2
Немножко метрик и проверки гипотез.
Гипотеза
Использование социальных сетей на ежедневной основе, чтобы публиковать туда shorts/reels по тематике поможет вырасти аудиторию Surfalytics (условно дата сообщества) и вырасти свой бренд.
Что было сделано
Начиная с Апреля 2024 до Января 2025 года (8 месяцев) почти каждый день сначала и потом 3 раза в неделю мы постили shorts/reels в 4 социальных сети:
- LinkedIn
- TikTok
- Youtube shorts
- X/Twitter
Я использовал сервис Buffer (6$ в месяц за одну соц сеть). Сервис по расписанию загружает видосы и посты по всем соц сетям. И конечно я сам не делал нарезку, так как это огромное кол-во время. Я платил товарищу и он создавал реально крутые и интересные reels/shorts.
Результаты
TikTok:
- 825 likes
- 43 followers
- просмотры от 200 до 700 для одного видео
X:
- 24 followers
Youtube:
- сложно понять ценность shorts, обычно просмотры в районе 70-500 для одного видео
- сам YouTube Surfalytics смог вырасти до 1630 подписчиков (data learn например 17800 подписчиков)
Linkedin за 365 дней:
- 355,812 Impressions
- 64,836 Members reached
- топ 3 поста, которая я сам написал, 2 из них про книгу O’Reilly (Trino, Power BI)
- топ 2 поста по likes - пост про день пап (фотка меня с детьми) и пост про день свадьбы (меня с женой)
- видосики обычно собирали по 10-20 likes от членов Surfalytics
- сейчас у меня 7681 follower, я не смог найти сколько было раньше, но думаю где-то в районе 6000.
Еще есть блог на Substack, туда я пишу редко, но очень качественный контент связанный с развитием data карьеры, там 5660 подписчиков, правда я сам загрузил туда возможно 5500 emails:)
Вообще метрик в каждой соц сети или инструменте хоть отбавляй, возможно, если бы я из изучал более детально, смог бы улучшить показатели.
Какие выводы
- Соцсети — это как океан, и моя идея использовать их для привлечения аудитории на западном рынке не работает так, как хотелось бы. Прямолинейный подход — создать канал, блог и ожидать, что аудитория придёт сама — неправилен. Причём даже качество аудитории здесь не играет решающей роли.
- Например, я публиковал свой контент в группах Facebook и LinkedIn, где состоят сотни тысяч человек, но результата это не принесло.
- LinkedIn полезен сам по себе, как часть резюме. Если у вас хороший профиль, вам иногда могут написать рекрутеры, но, честно говоря, я ни разу не находил работу таким способом.
- Возможно, если бы у меня вообще не было соцсетей, мой доход остался бы прежним, а свободного времени стало бы больше. Однако у блогинга есть одна особенность — он заполняет карьерную пустоту и создаёт ощущение, что вы становитесь более ценным экспертом. Это своего рода ментальный буст к уверенности.
- Безусловно, «глупые» посты с мемами или провокационные записи набирают намного больше охватов. Но для такого контента нужна предрасположенность. Чем больше «чёрнухи», тем выше охваты — ничего нового.
- Аналогично, мой интернет-магазин https://shop.surfalytics.com/, на который я потратил $8–10 тысяч (дизайн + интеграция на Shopify), — это ещё один эксперимент, который не сработал.
Почему всё так плохо?
Как я уже говорил, дело вовсе не в контенте, а в том, что ниша занята. В 2020–2021 годах было очень мало блогеров на тему дата-аналитики, и они смогли завоевать хорошую репутацию, став лидерами мнений. Сейчас таких лидеров много, поэтому мой контент — это всего лишь «ещё одно видео», которое для западного зрителя теряется среди сотен других похожих.
Я считаю, что завершил свой эксперимент с shorts/reels и соцсетями. Теперь я вернусь в обычный режим, буду делать видеоуроки для своего бессмертного курса по аналитике и инжинирингу данных, а также добавлять ценность для сообщества Surfalytics через проекты, карьерные консультации и поддержку.
Я абсолютно спокойно отношусь к отсутствию результата. Чтобы достичь классных результатов или создать что-то действительно стоящее, нужно сначала многое попробовать и потерпеть несколько неудач. Это даёт реальную обратную связь о том, что работает, а что нет, и позволяет принимать более осознанные решения о дальнейших действиях.
Гипотеза
Использование социальных сетей на ежедневной основе, чтобы публиковать туда shorts/reels по тематике поможет вырасти аудиторию Surfalytics (условно дата сообщества) и вырасти свой бренд.
Что было сделано
Начиная с Апреля 2024 до Января 2025 года (8 месяцев) почти каждый день сначала и потом 3 раза в неделю мы постили shorts/reels в 4 социальных сети:
- TikTok
- Youtube shorts
- X/Twitter
Я использовал сервис Buffer (6$ в месяц за одну соц сеть). Сервис по расписанию загружает видосы и посты по всем соц сетям. И конечно я сам не делал нарезку, так как это огромное кол-во время. Я платил товарищу и он создавал реально крутые и интересные reels/shorts.
Результаты
TikTok:
- 825 likes
- 43 followers
- просмотры от 200 до 700 для одного видео
X:
- 24 followers
Youtube:
- сложно понять ценность shorts, обычно просмотры в районе 70-500 для одного видео
- сам YouTube Surfalytics смог вырасти до 1630 подписчиков (data learn например 17800 подписчиков)
Linkedin за 365 дней:
- 355,812 Impressions
- 64,836 Members reached
- топ 3 поста, которая я сам написал, 2 из них про книгу O’Reilly (Trino, Power BI)
- топ 2 поста по likes - пост про день пап (фотка меня с детьми) и пост про день свадьбы (меня с женой)
- видосики обычно собирали по 10-20 likes от членов Surfalytics
- сейчас у меня 7681 follower, я не смог найти сколько было раньше, но думаю где-то в районе 6000.
Еще есть блог на Substack, туда я пишу редко, но очень качественный контент связанный с развитием data карьеры, там 5660 подписчиков, правда я сам загрузил туда возможно 5500 emails:)
Вообще метрик в каждой соц сети или инструменте хоть отбавляй, возможно, если бы я из изучал более детально, смог бы улучшить показатели.
Какие выводы
- Соцсети — это как океан, и моя идея использовать их для привлечения аудитории на западном рынке не работает так, как хотелось бы. Прямолинейный подход — создать канал, блог и ожидать, что аудитория придёт сама — неправилен. Причём даже качество аудитории здесь не играет решающей роли.
- Например, я публиковал свой контент в группах Facebook и LinkedIn, где состоят сотни тысяч человек, но результата это не принесло.
- LinkedIn полезен сам по себе, как часть резюме. Если у вас хороший профиль, вам иногда могут написать рекрутеры, но, честно говоря, я ни разу не находил работу таким способом.
- Возможно, если бы у меня вообще не было соцсетей, мой доход остался бы прежним, а свободного времени стало бы больше. Однако у блогинга есть одна особенность — он заполняет карьерную пустоту и создаёт ощущение, что вы становитесь более ценным экспертом. Это своего рода ментальный буст к уверенности.
- Безусловно, «глупые» посты с мемами или провокационные записи набирают намного больше охватов. Но для такого контента нужна предрасположенность. Чем больше «чёрнухи», тем выше охваты — ничего нового.
- Аналогично, мой интернет-магазин https://shop.surfalytics.com/, на который я потратил $8–10 тысяч (дизайн + интеграция на Shopify), — это ещё один эксперимент, который не сработал.
Почему всё так плохо?
Как я уже говорил, дело вовсе не в контенте, а в том, что ниша занята. В 2020–2021 годах было очень мало блогеров на тему дата-аналитики, и они смогли завоевать хорошую репутацию, став лидерами мнений. Сейчас таких лидеров много, поэтому мой контент — это всего лишь «ещё одно видео», которое для западного зрителя теряется среди сотен других похожих.
Я считаю, что завершил свой эксперимент с shorts/reels и соцсетями. Теперь я вернусь в обычный режим, буду делать видеоуроки для своего бессмертного курса по аналитике и инжинирингу данных, а также добавлять ценность для сообщества Surfalytics через проекты, карьерные консультации и поддержку.
Я абсолютно спокойно отношусь к отсутствию результата. Чтобы достичь классных результатов или создать что-то действительно стоящее, нужно сначала многое попробовать и потерпеть несколько неудач. Это даёт реальную обратную связь о том, что работает, а что нет, и позволяет принимать более осознанные решения о дальнейших действиях.
1❤🔥170⚡29🫡15💯9🍾3🗿2🐳1👨💻1👾1
Всем привет, буду в LA 1,2 го февраля в районе Irvine. Если есть народ с LA можно где-нибудь выпить некрепкого и не поздно, просто покупаться🥶 , или погреться у огонька🔥 в элитном районе LA.
Чатик https://t.me/+gay7oVPZyqA0MmJh
Чатик https://t.me/+gay7oVPZyqA0MmJh
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡8😭6
Время AI War, кто первый одержит вверх, того уже не догнать.
Наступает эра «войны ИИ»: кто первым одержит верх, того уже не догнать.
На изображении — реклама из The Washington Post от 21 января 2025 года.
Окружение нового президента состоит из представителей BigTech. Их цель ясна: они уже пообещали вложить 500 млрд в создание инфраструктуры для искусственного интеллекта.
Полагаю, Китай тоже не отстаёт: у них уже машины прыгают на автопилоте.
В России, к сожалению, пока не слышно о громких инвестициях в ИИ.
Что ж, нам остаётся лишь самостоятельно изучать, как искусственный интеллект может помочь нам работать эффективнее.
Если раньше на собеседованиях мы рассказывали о том, как консолидировать данные в одном месте (хранилище данных) и построить дашборд с KPI для бизнес-пользователей, то теперь надо думать о сценариях использования ИИ-инструментов и о том, какую ценность они могут принести.
Важно понимать, как с помощью инженерии данных можно добавить функциональность продукту, повысить его качество или улучшить клиентский опыт.
На данном этапе мы ещё только в начале пути:
Шаг 0: ChatGPT помогает нам писать код.
Шаг 1: Наша IDE может работать с ИИ и сама генерировать код.
Шаг 2: Вендорские решения (Snowflake, Databricks) или сторонние ИИ-агенты позволяют использовать «коробочные» решения для генеративного ИИ и автоматизации рутинных задач (Customer Service, чаты и т. п.).
В целом необходимо нарабатывать экспертизу в области сценариев применения ИИ для работы с данными, ведь скоро наше резюме будет выглядеть совсем по-другому. Вместо built data pipelines в нём появятся integrated AI agents, built RAG on top of data warehouse и другие похожие формулировки.
Наступает эра «войны ИИ»: кто первым одержит верх, того уже не догнать.
На изображении — реклама из The Washington Post от 21 января 2025 года.
Окружение нового президента состоит из представителей BigTech. Их цель ясна: они уже пообещали вложить 500 млрд в создание инфраструктуры для искусственного интеллекта.
Полагаю, Китай тоже не отстаёт: у них уже машины прыгают на автопилоте.
В России, к сожалению, пока не слышно о громких инвестициях в ИИ.
Что ж, нам остаётся лишь самостоятельно изучать, как искусственный интеллект может помочь нам работать эффективнее.
Если раньше на собеседованиях мы рассказывали о том, как консолидировать данные в одном месте (хранилище данных) и построить дашборд с KPI для бизнес-пользователей, то теперь надо думать о сценариях использования ИИ-инструментов и о том, какую ценность они могут принести.
Важно понимать, как с помощью инженерии данных можно добавить функциональность продукту, повысить его качество или улучшить клиентский опыт.
На данном этапе мы ещё только в начале пути:
Шаг 0: ChatGPT помогает нам писать код.
Шаг 1: Наша IDE может работать с ИИ и сама генерировать код.
Шаг 2: Вендорские решения (Snowflake, Databricks) или сторонние ИИ-агенты позволяют использовать «коробочные» решения для генеративного ИИ и автоматизации рутинных задач (Customer Service, чаты и т. п.).
В целом необходимо нарабатывать экспертизу в области сценариев применения ИИ для работы с данными, ведь скоро наше резюме будет выглядеть совсем по-другому. Вместо built data pipelines в нём появятся integrated AI agents, built RAG on top of data warehouse и другие похожие формулировки.
💯68🙈11😈2
У меня сформировалось мнение, что в РФ нет увольнений, специалисты ИТ востребованы. Но вот сегодня в сети обсуждают новости про В «дочках» Сбербанка массовые увольнения. Под ударом программисты и разработчики.
В Северной Америке уже давно так, как говорится welcome to the club.
Есть подробности?
В Северной Америке уже давно так, как говорится welcome to the club.
Есть подробности?
CNews.ru
В «дочках» Сбербанка массовые увольнения. Под ударом программисты и разработчики - CNews
ИТ-специалисты, работающие в дочерних компаниях Сбербанка, сообщают о начавшихся массовых сокращениях. Сотрудникам предлагают уволиться по соглашению сторон.
Я давно подписан на Financial Samurai блог, автор живет в San Francisco и пишет про финансы, про рынок США и экономические события, которые влияют на рынок США.
Сегодня я узнал, что автор азиат🙌 , почему-то читая его последние пол года я представлял white американца, такой вот bias.
A pioneer of the FIRE (Financial Independence, Retire Early) movement in 2009, Sam previously worked at Goldman Sachs and Credit Suisse before retiring at age 34 as a multi-millionaire.
На картинке хорошо видно алокация пассивного дохода, где недвижимость составляет 56%. То есть не акции, не ценные бумаги, бонды, ETF и крипта, а недвижимость. Ключевой момент, что вся недвижимость без ипотеки. И это ключевой момент.
Что в Москве, что в Ванкувере, или в другом любом городе ключевой момент доходности от недвижимости это отсутствие ипотеки.
А вы еще хотите инвестировать в недвижимость?
Сегодня я узнал, что автор азиат
A pioneer of the FIRE (Financial Independence, Retire Early) movement in 2009, Sam previously worked at Goldman Sachs and Credit Suisse before retiring at age 34 as a multi-millionaire.
На картинке хорошо видно алокация пассивного дохода, где недвижимость составляет 56%. То есть не акции, не ценные бумаги, бонды, ETF и крипта, а недвижимость. Ключевой момент, что вся недвижимость без ипотеки. И это ключевой момент.
Что в Москве, что в Ванкувере, или в другом любом городе ключевой момент доходности от недвижимости это отсутствие ипотеки.
А вы еще хотите инвестировать в недвижимость?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥24🙈11🫡5
Наконец-то дошли руки опубликовать вебинар по DBT, который мы сделали на январских праздниках вместе с VK Cloud.
Ссылки:
DATALEARN | DE - 101 | МОДУЛЬ 4-09 Начало работы с dbt | часть 1
🔗 https://youtu.be/XLH3xiwrVPo
🔗 https://rutube.ru/video/private/421494939f6d39e512d14b8f1452ea12/?p=QLhX919M3AFPY8ZIR_NjrA
DATALEARN | DE - 101 | МОДУЛЬ 4-10 Начало работы с dbt | часть 2
🔗 https://youtu.be/SGvK4ZDyyuc
🔗https://rutube.ru/video/private/f24ed2b686922188fadeb18ccaef4fc2/?p=PvzMNWlwAOLUdfSUfAmoqw
Добавил все в Datalearn учебник в модуль 4
PS Качество видео не 4к, мы использовали первый раз Telegram streaming.
Полезные ссылки:
- Бесплатные курсы dbt от dbt labs
- Примеры DBT репозиториев в канале Алексея, архитектора VK Cloud, с кем мы проводили вебинар. В 1ой части он рассказывал и показывал облако VK.
- Презентация по dbt
- Инструкция к проекту
- Пример решения
PPS больше спасибо Наташе Павловой, которая несмотря на январские праздники все организовала на высшем уровне от VK и всем выдавала по 5000 кредитов🔝. Ну и конечно Роману Пономареву (отец основатель datalearn👉 ), кто как обычно все сделал по высшему разряду!
dbt является самым популярны фреймворком для трансформации данных внутри хранилища данных. Это очень важный инcтрумент, так как на его примере можно понять множество концептов, таких как CI/CD, документация, качество данных, unit tests, инкрементальная загрузка и многое другое.
Ссылки:
DATALEARN | DE - 101 | МОДУЛЬ 4-09 Начало работы с dbt | часть 1
🔗 https://youtu.be/XLH3xiwrVPo
🔗 https://rutube.ru/video/private/421494939f6d39e512d14b8f1452ea12/?p=QLhX919M3AFPY8ZIR_NjrA
DATALEARN | DE - 101 | МОДУЛЬ 4-10 Начало работы с dbt | часть 2
🔗 https://youtu.be/SGvK4ZDyyuc
🔗https://rutube.ru/video/private/f24ed2b686922188fadeb18ccaef4fc2/?p=PvzMNWlwAOLUdfSUfAmoqw
Добавил все в Datalearn учебник в модуль 4
PS Качество видео не 4к, мы использовали первый раз Telegram streaming.
Полезные ссылки:
- Бесплатные курсы dbt от dbt labs
- Примеры DBT репозиториев в канале Алексея, архитектора VK Cloud, с кем мы проводили вебинар. В 1ой части он рассказывал и показывал облако VK.
- Презентация по dbt
- Инструкция к проекту
- Пример решения
PPS больше спасибо Наташе Павловой, которая несмотря на январские праздники все организовала на высшем уровне от VK и всем выдавала по 5000 кредитов🔝. Ну и конечно Роману Пономареву (отец основатель datalearn
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 4-09 Начало работы с dbt | часть 1
Если вы хотите не просто «что-то там понимать» в dbt, а реально строить аналитические хранилища по-взрослому — добро пожаловать!
🛠 Что будет на уроке:
📌 Простое и понятное введение в dbt core
📌 Развёртывание базы данных Postgres 16 в VK Cloud
📌 Настройка…
🛠 Что будет на уроке:
📌 Простое и понятное введение в dbt core
📌 Развёртывание базы данных Postgres 16 в VK Cloud
📌 Настройка…
12❤🔥91🍾14⚡7👨💻2
В последнем проекте для Surfalytics мы изучали SQLMesh.
Раньше я думал, что это имеет отношение к Data Mesh подходу. Оказывается, это конкурент dbt. То есть, решает такие же задачи, как dbt - трансформация с помощью SQL внутри хранилища данных. (T в ELT).
Инструмент тоже open source. Некоторые вещи реализованы по другому, например у них главная фишка - это виртуальные среды. Если в dbt мы сами выбираем физическое место (схему, базу), где dbt будет создавать таблицы и вьюхи, то в SQLMesh у нас этот процесс управляется виртуальными средами. (Тут больше про envs https://tobikodata.com/virtual-data-environments.html)
Есть и другие плюшки, например встроенный CRON (ставить модели на расписание), SQL клиент в UI, CI/CD бот, аналог SDF (SQL компилятор на базе SQLglot).
У них есть интеграция для dbt/dlt, то есть вы можете легко мигрировать ваши dbt проекты на SQLMesh.
Еще из интересного - они не пустили основателя на конференцию dbt.
Вот что пишут в статье про сравнение dbt и SQLMesh:
Стоит ли выбрать SQLMesh вместо dbt?
На мой взгляд, если вас заботят инженерные аспекты построения конвейеров данных (а это важно), или если дата-инженеры создают и управляют "T", то вам стоит выбрать SQLMesh.
Нужен ли вам широкий набор интеграций с различными платформами и инструментами для работы с данными и/или хотите использовать что-то с более крупным, зрелым сообществом? Тогда, возможно, стоит остановиться на dbt.
Если кратко, я бы сказал, что выбор между SQLMesh и dbt сводится к тому, стоит ли дополнительная сложность SQLMesh того для вас и вашей команды. Интеграции с другими инструментами и зрелость сообщества со временем подтянутся.
Следует отметить, что SQLMesh совместим с dbt, что означает возможность использования SQLMesh поверх существующего проекта dbt в качестве обёртки, используя функции SQLMesh, такие как виртуальные среды данных. Возможно, стоит попробовать и посмотреть, понравится ли вам SQLMesh?
Также не забывайте, что SQLMesh НЕ заставляет писать огромное количество yaml и Jinja. Некоторым нравится иметь всё в yaml, но я предпочитаю определять метаданные прямо в файлах моделей. Меньше переключений контекста - лучше для меня. Мне также никогда не нравился синтаксис Jinja. SQLMesh позволяет использовать чистый Python, что является большим плюсом.
Мое мнение: я бы не стал изучать SQLMesh, так как dbt очень популярный, работает отлично, большое сообщество, есть VC деньги на развитие продукта и есть спрос на такие скилы. SQLMesh это нишевой продукт, который больше подходит энтузиастам, которые любят плыть против течения и у них много свободного времени, чтобы внедрять такие решения. Главная цель пробовать такие нишевые продукты - быть в теме и такие insights порождают хороший диалог с нанимающим менеджером.
По плану дальше на проектах изучить:
- open source BI: Metabase, Superset, Evidence
- локальная оркестрация контейнеров (docker stack, kind, Minikube)
- GenAI функциональность Snowflake и Databricks
Из этих кубиков мы можем строить более большие проекты.
Раньше я думал, что это имеет отношение к Data Mesh подходу. Оказывается, это конкурент dbt. То есть, решает такие же задачи, как dbt - трансформация с помощью SQL внутри хранилища данных. (T в ELT).
Инструмент тоже open source. Некоторые вещи реализованы по другому, например у них главная фишка - это виртуальные среды. Если в dbt мы сами выбираем физическое место (схему, базу), где dbt будет создавать таблицы и вьюхи, то в SQLMesh у нас этот процесс управляется виртуальными средами. (Тут больше про envs https://tobikodata.com/virtual-data-environments.html)
Есть и другие плюшки, например встроенный CRON (ставить модели на расписание), SQL клиент в UI, CI/CD бот, аналог SDF (SQL компилятор на базе SQLglot).
У них есть интеграция для dbt/dlt, то есть вы можете легко мигрировать ваши dbt проекты на SQLMesh.
Еще из интересного - они не пустили основателя на конференцию dbt.
Вот что пишут в статье про сравнение dbt и SQLMesh:
Стоит ли выбрать SQLMesh вместо dbt?
На мой взгляд, если вас заботят инженерные аспекты построения конвейеров данных (а это важно), или если дата-инженеры создают и управляют "T", то вам стоит выбрать SQLMesh.
Нужен ли вам широкий набор интеграций с различными платформами и инструментами для работы с данными и/или хотите использовать что-то с более крупным, зрелым сообществом? Тогда, возможно, стоит остановиться на dbt.
Если кратко, я бы сказал, что выбор между SQLMesh и dbt сводится к тому, стоит ли дополнительная сложность SQLMesh того для вас и вашей команды. Интеграции с другими инструментами и зрелость сообщества со временем подтянутся.
Следует отметить, что SQLMesh совместим с dbt, что означает возможность использования SQLMesh поверх существующего проекта dbt в качестве обёртки, используя функции SQLMesh, такие как виртуальные среды данных. Возможно, стоит попробовать и посмотреть, понравится ли вам SQLMesh?
Также не забывайте, что SQLMesh НЕ заставляет писать огромное количество yaml и Jinja. Некоторым нравится иметь всё в yaml, но я предпочитаю определять метаданные прямо в файлах моделей. Меньше переключений контекста - лучше для меня. Мне также никогда не нравился синтаксис Jinja. SQLMesh позволяет использовать чистый Python, что является большим плюсом.
Мое мнение: я бы не стал изучать SQLMesh, так как dbt очень популярный, работает отлично, большое сообщество, есть VC деньги на развитие продукта и есть спрос на такие скилы. SQLMesh это нишевой продукт, который больше подходит энтузиастам, которые любят плыть против течения и у них много свободного времени, чтобы внедрять такие решения. Главная цель пробовать такие нишевые продукты - быть в теме и такие insights порождают хороший диалог с нанимающим менеджером.
По плану дальше на проектах изучить:
- open source BI: Metabase, Superset, Evidence
- локальная оркестрация контейнеров (docker stack, kind, Minikube)
- GenAI функциональность Snowflake и Databricks
Из этих кубиков мы можем строить более большие проекты.
❤🔥26⚡14💯1
На январских праздниках я успел заехать в Питер, сходил на Щелкунчика в Мариинский театр (сравнил его с Щелкунчиком в Большом театре и в Ванкувере), посетил кафе Счастье и ресторан Joli. Покатался на льду по тротуарам (реально опасно передвигаться зимой).
Но самое прикольное, я встретился с 2мя дата профи, это Николай Валотти, автором Left Join и Сергей Громов, основатель компании BI Consult (самый аутентичный дизайн сайта, который я видел).
С Колей мы попили утром кофе и дальше он побежал по дата делам. А к Сергею я попал на экскурсию в офис, выпил чай с баранками, узнал об истории компании, посмотрел на крутецкую картинную галерею известных русских художников и коллекцию старинных компьютеров и артефактов.
Так же познакомился в BI Consult с Жанной, руководителем направления обучения. Они рассказали, что хотели бы найти человека, кому интересно преподавать корпоративным клиентам. Я попросил поделится информацией, чтобы расшарить в канале, вдруг кому интересно и у кого-то есть желание диверсицировать свои доходы и подрабатывать преподавателем.
Учебный центр "BI Consult" успешно функционирует с 2018 года. В числе слушателей курсов сотрудники компаний нефтегазовой и финансовой отрасли, розничной торговли и производства.
Сейчас учебный центр в поиске эксперта в области DWH для прочтения курсов “Современная архитектура хранилища данных” и "Курс по DWH".
Что важно:
✔️Практический опыт сбора, хранения и обработки больших объемов данных с использованием OLTP, ETL, DWH и Data Lake, также работы с различными типами баз данных, включая традиционные SQL-базы данных и современные NoSQL-базы данных
✔️Понимание специфики столбцовой организации хранения данных
✔️Умение проектировать хранилища данных, используя методики Data Vault и Anchor Modeling
✔️Опыт работы с инструментами оркестрации и обработки данных в реальном времени
✔️Понимание принципа работы средств визуализации данных (BI)
✔️Понимание принципа работы машинного обучения в контексте инженерии данных и различий разновидностей машинного обучения в области анализа данных (Data Mining) и машинного обучения (Machine Learning)
✔️Желание рассказать и научить других строить архитектуру данных
Формат работы: Онлайн-курсы, несколько раз в год.
Своё резюме высылайте Жанне в личные сообщения: @Ghannaleto
Но самое прикольное, я встретился с 2мя дата профи, это Николай Валотти, автором Left Join и Сергей Громов, основатель компании BI Consult (самый аутентичный дизайн сайта, который я видел).
С Колей мы попили утром кофе и дальше он побежал по дата делам. А к Сергею я попал на экскурсию в офис, выпил чай с баранками, узнал об истории компании, посмотрел на крутецкую картинную галерею известных русских художников и коллекцию старинных компьютеров и артефактов.
Так же познакомился в BI Consult с Жанной, руководителем направления обучения. Они рассказали, что хотели бы найти человека, кому интересно преподавать корпоративным клиентам. Я попросил поделится информацией, чтобы расшарить в канале, вдруг кому интересно и у кого-то есть желание диверсицировать свои доходы и подрабатывать преподавателем.
Учебный центр "BI Consult" успешно функционирует с 2018 года. В числе слушателей курсов сотрудники компаний нефтегазовой и финансовой отрасли, розничной торговли и производства.
Сейчас учебный центр в поиске эксперта в области DWH для прочтения курсов “Современная архитектура хранилища данных” и "Курс по DWH".
Что важно:
✔️Практический опыт сбора, хранения и обработки больших объемов данных с использованием OLTP, ETL, DWH и Data Lake, также работы с различными типами баз данных, включая традиционные SQL-базы данных и современные NoSQL-базы данных
✔️Понимание специфики столбцовой организации хранения данных
✔️Умение проектировать хранилища данных, используя методики Data Vault и Anchor Modeling
✔️Опыт работы с инструментами оркестрации и обработки данных в реальном времени
✔️Понимание принципа работы средств визуализации данных (BI)
✔️Понимание принципа работы машинного обучения в контексте инженерии данных и различий разновидностей машинного обучения в области анализа данных (Data Mining) и машинного обучения (Machine Learning)
✔️Желание рассказать и научить других строить архитектуру данных
Формат работы: Онлайн-курсы, несколько раз в год.
Своё резюме высылайте Жанне в личные сообщения: @Ghannaleto
❤🔥27🐳8🌚3🎄1