Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Привет! Замучился я ковырять helm charts, Kubernetes на GCP для Airbyte, Airflow. Мне нужно поменять настройки и посмотреть, что у меня не так, и как уже сделать правильно, уходит очень много времени и мало результата. Мне нужен эксперт, кто мне поможет поменять настройки и задеплоить этот адский open source.

Я могу заплатить через PayPal (Европа, США) или по Канаде перевод, через свою корпорацию. Пишите в личку, если вы супер эксперт по этим технологиям.

Если вы не в Европе/Северная Америка и у вас нет PayPal, то заплатить не получится.
👨‍💻13🫡9🌚7🐳4🦄4🍌2🌭1
Значит у нас 3 основных формата Lakehouse - Hudi, Iceberg, Delta.

Hudi совсем прохудился и пропал из информационного поля.

Традиционно Databricks пилит Delta (Delta Lake), а Iceberg был создан Tabular, и сейчас - Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg

Так же Iceberg популярен как независимый lakehouse, например для Trino.

PS свежая книжка про Iceberg - Apache Iceberg: The Definitive Guide (вроде как Dremio приложили руку к написанию)

Вот еще новость от Snowflake - Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg
💯76🐳3🙈1
В этом году не получилось на конференцию по Snowflake:(

Не получится набрать стикеров, футболок, бутылок и другого хлама (за счет VC и инвестиций в data стартапы), но зато все самое интересное все будут постить, а я буду репостить! 👙
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19💯7🐳5
Канал для аналитиков уже в Telegram!

Его ведет Влад Князев, аналитик из финтеха, который ярко и с юмором пишет заметки и проводит эфиры о том, как выйти на новый уровень в карьере в IT.

Начинай прокачивать насмотренность системно уже сейчас👇

Подпишись на @godnolytika
🗿24🍌14🤷‍♂6🙈43❤‍🔥22🌭1
Сегодня познакомился с новым термином - HIFI. Можно было сделать интерактив и оставить место для вашей фантазии в комментариях. Но, не буду, сразу расскажу, что к чему, можете добавить в резюме, рядом с CICD, HELM, K8S, DBT.

Нет, это не группа из нашего детства (а кто еще наверно даже не родился).

HIFIs — high-income, financially insecure people — are another dimension of the economic experience, joining the diverse ranks of DINKs, HENRYs, and ALICEs.

Так, еще больше сокращений. Давайте их тоже посмотрим:

DINK - a dual-income couple with no kids.

Так это не про меня…

HENRYs — high earners, not rich yet, a term first coined over 20 years ago by Fortune's Shawn Tully. They might someday own the assets to make them millionaires, but for now, they're just raking in plump paychecks.

Так, уже ближе. Я же “почти” мульти миллионер со своими ипотеками в одном из самых дорогих городов мира (пока со знаком минус, но если взять модуль от ипотек, будет солидно).

ALICEs — or Asset Limited, Income Constrained, Employed — is a term coined by United Way's United For ALICE program to describe Americans who work and make more than the Federal Poverty Level for a family of four of $31,200, or $15,060 for an individual, but who struggle to pay for basic needs.

Ну тут уже получается мы все немного ALICE. Мне кажется если вы employed (не путать с over-employed), то вы точно ограничены и живете от зарплаты до зарплаты, и далее следует большой список базовых нужд, high cost of living, и тп.

Хорошо, давайте вернемся к термину - HIFI - я уверен, что большинство людей в ИТ сфере более менее зарабатывают хорошо. Хорошо это конечно относительно, например зп 100т в год (6т в месяц на руки в Канаде) - это ОЧЕНЬ хорошая зарплата для Канады, если вы не в ИТ. А вот для ИТ это лишь половинка от хорошей зарплаты в 200т. Значит, вы что-то делаете не так или работаете не там. Это не значит, что всем платят 200т, это значит что есть перспектива зарабатывать от 200т до 300т, работая на одной работе, обладая нужной компетенцией. (В штатах там всякие FAANG платят по 500к-600к, как вы знаете🤱)

В целом не важно, сколько вы зарабатываете. Обычно, чем больше вы зарабатываете, тем больше вы тратите. Ведь нужно себя награждать за труды. И получается, чем больше зарабатываете, тем более вы insecure.

Вообще, согласно статье все проблемы связаны с вашими дорогими покупками

Inflation and the rising cost of living in the US are partially to blame for HIFIs' precarious financial situation. Inflation rates are double what they were 10 years ago, according to the Bureau of Labor Statistics. The consumer price index for US cities, which assesses the cost of living, rose by about 8% in the past 10 years.


Короче, (у нас в Ванкувере уже дело к ночи), постарайтесь своими дорогими покупками не раздувать инфляцию, вкладывайтесь в Surfalytics свои знания и навыки и покупайте только те вещи, от которых вас реально прет.

PS как у вас с расходами, вы можете их контролировать, или по классике “авось пронесет”🫣

PPS у меня есть идеальный пример товарища, который точно не HIFI. Я уже писал про Никиту, кто был бизнес аналитиком в Ванкувере с зп 93 на руки и крутыми навыками Excel (до Surfalytics), через месяцев 5, он стал Sr Data Analyst и работал с Snowflake, dbt, Sigma, Fivetran, еще через почти 6-8 месяцев его total comp составляет 270к🔥Ради такого я даже добавил новые tires в Club500, теперь у нас есть club 200-300-400-500. Самое интересно, что Никита продолжает жить на тебе 93к в год и это идеальный пример, когда у вас растет доход, нужно постараться оставить расходы прежними. Есть и противоположные примеры и магазинами Cartier, Rolex, новыми машинами.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥338💯5🙈3
Forwarded from Коля Митин говорит (Nick Mitin)
Феномен Джобса

Чем дольше Эпл живёт без Джобса, тем очевиднее, что мы понимаем ситуацию наоборот. У многих разработчиков и особенно дизайнеров какие-то завышенные ожидания от их продукции. Кажется, что это связано с тем, что Стив Джобс (создатель первого Айфона на минуточку) появился в их жизни в период их пубертата.

На самом деле Эпл всегда была, есть и будет обычной корпорацией, как Гугл, Амазон, Майкрософт, Фейсбук, Самсунг, а работают там такие же люди, как и во всей Айтишечке. На Ютубе (организация финансируется Гуглом) миллиард видосов про то, как успешно пройти собеседование в компанию, которая отбирает только лучших специалистов в мире.

Стив Джобс же обладал минимальным набором качеств эффективного капиталиста:
1. Умел считать деньги и время (Ну ладно, не всегда умел, но когда его первый раз выперли Эпл, пришлось понять, что деньги компании не бесконечные и тоже научиться их считать)
2. Умел продавать свои идеи инвесторам и исполнителям
3. Выжимать всё из людей и заставлять их делать как ему нужно
4. Был беспринципным засранцем

История, которая прекрасно иллюстрирует все четрыре пункта:
В начале 1975 года Джобс вернулся в Atari. Тогда шла доработка игры Breakout и была объявлена премия за оптимизацию схемы игры в размере 100 долларов за каждый исключенный из схемы чип. Джобс вызвался взяться за эту работу, но так как плохо разбирался в разработке электронных схем, вынужден был обратиться к Возняку, работавшему тогда в Hewlett-Packard. Дополнительная сложность заключалась в сроках — Джобс заявил, что работу нужно было выполнить за 4 дня. На разработку такой схемы обычно требуется несколько месяцев, но Джобс смог убедить Возняка, что тот справится за 4 дня.

Возняк практически не спал четверо суток, днём работая на основной работе, но выполнил задание, разработав за отведённое время схему игры. При этом, к большому удивлению инженеров Atari, он использовал всего 45 чипов (подобные схемы тогда содержали 130—170 чипов, а наиболее удачно разработанные — 70—100 чипов). За эту работу Джобс передал Возняку чек на 350 долларов. Однако позднее выяснилось, что Джобс обманул своего партнёра, сообщив, что в Atari ему заплатили только 700 долларов. Джобс умолчал об объявленной премии в 100 долларов за каждый сэкономленный чип, которая на самом деле в сумме составила 5000 долларов. Получалось, что эту премию Джобс полностью присвоил себе. Кроме того, четырёхдневный срок Джобс тоже выдумал, потому что хотел успеть на ферму Фридланда к сбору урожая яблок и торопился на самолёт. Получив деньги, он бросил работу в Atari.


И только после всего этого Джобс верил в то, что может изменить мир. Только. После. Этого. Изменить мир и на этом заработать. А как иначе? Вокруг нас сотни тысяч людей, которые знают как улучшить что угодно, без шуток, но никогда не пытались посчитать экономику этого улучшения. И если спросить у них: «чувак, окей, отличная идея, давай пустим пять твоих следующих годовых премий на это?», нетрудно догадаться, что услышишь в ответ.

Поэтому, дорогие дизайнеры, перестаньте грезить каким-то величием Эпл, его никогда не было. История Эпл, это череда непрерывных факапов и спотыкашек, с эпизодическими удачными или даже суперудачными продуктами. А в какой-то момент в этой истории был Стив Джобс, который помимо всего прочего, умел ловко пощекотать вас за эрогенные зоны. Но его больше нет, и никто вас за эрогенные зоны больше щекотать не собирается.

Поэтому, если вам уже не 18-22 года, нужно завязывать грезить по Эпл и принять мир с его капиталистическим устройством и разобраться, как и почему внедряются улучшения при капитализме. Тогда вам станет понятно, почему на проблему, которая обозначена на картинке всем наплевать, и что можно с этим сделать.

Я попробую рассказать вам об этом в следующем посте.
71💯12❤‍🔥7🗿6
Если у вас есть дети, могу посоветовать им настоящий журнал Юный натуралист https://unnaturalist.ru/anonce/show/anonceId/279/#top

И конечно в свежем номере есть рассказ про пеликанов - КАК ЛЕТАЮТ ПЕЛИКАНЫ

PS а для взрослых у нас про пеликанов тут - https://www.scifly.ai/
💘29❤‍🔥10🍾52🙈2🤷‍♀1🐳1
13 июня будет Trino Fest, у них есть онлайн сессия.

Trino - SQL движок, который умеет читать данные из других баз данных, файлов, NoSQL баз, sftp, и еще много чего. Полностью открытое ПО. Я знаю, что можно использовать sql движок от Clickhouse/Duckdb (без функции хранения данных в базу), но деталей не знаю.

Я даже специально зашел на любимый сайт своей молодости HH (headhunter ru) и поискал “trino”, и нашел довольно много вакансий Инженера Данных с Trino. Также trino используются в отечественном облаке.

Идеальный стек мог бы быть в облаке или on-premise:
- Trino - SQL Engine, строим Iceberg Data Lake
- Нужно найти где хранить данные, в зависимости от возможностей
- dbt - бизнес логика в SQL
- Airflow/Prefect - расписание
- Airbyte/Meltano - набор коннекторов к источникам данных
- Metabase - SQL доступ для пользователей + дашборды (возможно Superset)
- Kubernetes - хостинг всего этого дела
20🐳4❤‍🔥3
Про визуализацию Настеньку и ее графики📊

В телеграмме достаточно много канало про визуализацию и инфографику. Сегодня я поделюсь с интересным каналом, который я уже давно читаю. В нем прекрасно все и название и контент - настенька и графики.

Я посмотрел в истории своего канала, у меня было несколько упоминаний канала и самое первое было 4 сентября 2020 года.

В канале много примеров визуализаций, даже есть визуализация про про бары в Питере🥂

В целом в канале очень много информации про best practices и историю визуализации. Думаю подписчики канала не попадают в просак с pie chart. Еще у Насти афигенный Tableau Public Profile и даже есть курс по визуализации и разработки в Tableau на степике.

А кроме Насти еще еще много талантливых писателей, у кого одно из хобби писать что-нибудь в телеграмм, их собрали в папочку, на которую вы можете подписаться, там 15 каналов про Аналитику.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥28🌚64
Действие - это применение некоторого инструмента к процессам для достижения поставленной цели. Главным критерием является не результативность действия, которая может быть и нулевой, и отрицательной. Всё это носит вероятностный характер. Делать что-либо, когда результат не гарантирован на 100% - с тактического масштаба достаточно глупо. Зачем тратить энергию на то, что либо принесёт результат или нет? Лучше зависнуть в экономном режиме и ждать стопудовых вариантов. Все это логично и рационально.

Чтобы таким образом живые существа не вымирали за миллионы лет естественного отбора в нас закрепилась одна молекула, молекула «ещё», то есть дофамин. Чем более случайный результат, тем больше азарта, тем больше дофамина в предвкушении возможного выигрыша. Эта молекула поощряет наши вероятностные действия.

Более того, без дофамина, как выяснили в ходе одного ужасного эксперимента по лечению зависимостей, мы вообще не можем двигаться. Лишенные чувствительности к дофамину пациенты превратились в парализованных, обездвиженных людей.

Предформой дофамина является норадреналин. Который, в свою очередь вырабатывается от стресса, когда нам что-либо угрожает. Все логично и рационально, если опасность застала врасплох, надо срочно сваливать либо атаковать, может и замереть контролируя свои мышцы, но в любом случае действовать. Поэтому если с утра в течение первого часа после подъема сделать силовые упражнения (десяток другой приседаний, отжиманий) и потом поставить и достичь цели, то дофаминовые цепочки заведутся на весь день. Цель может быть минимальной - прочесть 10 страниц книги, помыть посуду, сделать NBack, но обязательно ощущать добровольную завершенность задачи. Вот то самое удовлетворение от сделанного.

Именно добровольное, потому что если кто-то заставляет, то цепочка подачи дофамина в лобной доли блокируется. В армии заставляют отжиматься, но это не дает удовольствия.

Ещё дофамин выплескивается после обжигающе холодного душа идти ополаскивания, если здоровье позволяет. Обливание должно быть краткосрочным, это не для того, чтобы привыкать к холоду. В результате на четыре часа уровень дофамина растет в два раза. В отличие от множества других ю способов поднять дофамин, после которых дофамин резко падает.

Чем выше поднят дофамин, тем ниже он падает. Если одновременно смотреть интересный фильм, есть фастфуд и пить сладкую газировку, то дофамин зашкаливает. Но после этого резко и очень сильно падает. Лучше отдельно: кино, газировка и фастфуд, раз уж так сложилось.

Это краткое осмысление одного из подкастов Эндрю Хубермана - https://youtu.be/QmOF0crdyRU
❤‍🔥42🗿176🎄1🤷1
Вот буквально на днях кол-во подписчиков перевалило за 20 000! Конечно активных только 5000, остальные 15т наверно “мертвые души”, но это уже совсем другая история.

Канал был создан в 6 ноября 2018 года. Тогда еще телеграмм не был таким популярным и вообще за пределами РФ не использовался. Так получилось, что Алексей меня пригласил на первый Матемаркетинг выступить с докладом от Амазон. Ему был интересен Амазон, как громкое имя, а не лично я. Я даже не помню как мы познакомились, но помню, что до Матемаркетинга я был летом в Москве, и мы встретились первый раз, я получил интересный инсайт - телеграмм канал приносит больше денег чем full time работа.

И вот в ноябре 2018 на конференции, я выступил с докладом, и использовал канал, чтобы расшарить лабы по Snowflake + Tableau. В 2018 году Snowflake еще был не публичной компаний и в Канаде о нем мало кто знал, а в Москве уже проходили воркшопы по нему! А доклад назывался - BI-системы и DWH - Архитектура и кейсы

Уже после конференции у меня было 600 подписчиков, и я начал бомбить историями про “залететь на работу без опыта”. Вообще думаю о том, что мой канал про “Инжиниринг карьеры и данных”.

И тут я подумал, как круто, можно летать на конференцию в Москву благодаря каналу. И действительно, скоро я выступал в Mail Ru офисе перед огромной аудиторий - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? И это было очень круто, я сам кайфанул как круто получилось. Секрет был прост:
- 2 предложения на слайд (желательно все выучить наизусть)
- много ярких и интересных слайдов
- несколько классных промо роликов от Amazon Alexa

Так же я писал статьи на Хабр, у которых было пот 40к-80к просмотров, что приводило новых пользователей.

Так же выступил онлайн на нескольких конференциях, включая Smart Data - главная конференция по инжинирингу данных:
- Два типа инженеров данных
- Инжиниринг данных в «Майкрософт»
- Все жду 3ю серию про архитектуру и решения

В какой-то момент ко мне пришли с запросом из курсов Skill Factory на создание курса по Инжинирингу Данных. Я сделал план курса, но мне предложили 120т рублей за разработку курса и попросили сделать за месяц. Дали доступ на курс по data science посмотреть пример, оказалось все очень печально, из чего я сделал вывод, что все эти курсы шляпа. Чтобы программа не пропадала, решил записать курс и Роман Пономарев очень помог с организаций и поддержкой (курс и сообщество дальше живет) - datalearn.ru . Сообщество очень помогло во время ковида, и я точно знаю, что очень многим помогло начать карьеру, найти работу и тп. Мне всегда хотелось делиться знаниями и у меня всегда была мысль сделать что-нибудь для своей Родины, ну и вообще верю в круговорот энергии, больше даешь, больше получаешь!

Здесь же зародился замечательный проект про мониторинг пеликанов, который теперь называется https://www.scifly.ai/ . Сегодня вот, например, обсуждал как бы классно было бы открыть ферму пеликанов в Подмосковье (ведь есть фермы/заповедники кенгуру). Вы знали, что пеликанам появились 40-50 млн лет?! И я не знал…

Из последнего в Сентябре/Октябре появился Surfalytics. Это как datalearn, но на английском и глобальный. Так же все бесплатно, но вход сообщество уже за номинальную плату, потому что совсем бесплатное не очень-то уж ценится.

Поэтому, мое вам большое спасибо, что продолжаете читать, благодаря каналу я познакомился с огромным кол-вом людей по всему миру! И я рад, что я могу тут быть самим собой и реализовывать потребность “поделиться” ссылочкой, побузить на менеджера или проект, пожаловаться на маленькую зарплату или негодовать на массовые увольнения!
❤‍🔥267🍾66🦄2615🫡8🐳1🤷1
В книге Джейсона Каланиса "Ангел-инвестор”, Джейсон приводит пример вопросов, на которые нужно ответить, перед тем как принять решения об инвестировании (seed investment в данном контексте).

Самое интересное, что эти вопросы хорошо подходят для вашей карьеры. Вообще особо не важно, что вы делаете на работе, но задать эти вопросы во время собеседования или общаться с фаундерами использую их же терминологию лишним не будет.

Какая проблема решается? – Понять, какую конкретную проблему решает стартап, и насколько она значима для целевой аудитории.

Почему сейчас? – Почему именно сейчас настало подходящее время для решения этой проблемы? Какие изменения в технологии, рынке или обществе делают этот момент подходящим?

Почему вы? – Почему именно эта команда способна успешно реализовать эту идею? Какой у них опыт, знания и мотивация?

Что уникального? – В чем уникальность продукта или услуги? Почему конкуренты не смогут легко повторить или превзойти это решение?

Как вы будете зарабатывать деньги? – Какова бизнес-модель стартапа? Как планируется генерировать доход и какова стратегия монетизации?

Какие метрики важны? – Какие ключевые показатели эффективности (KPI) будут использоваться для измерения успеха? Как будет измеряться рост и прогресс?

Какова ваша стратегия роста? – Как стартап планирует привлекать клиентов и масштабировать бизнес? Какие маркетинговые и продажные стратегии будут использоваться?

Какие риски? – Какие основные риски связаны с бизнесом и как команда планирует их минимизировать?

Какие у вас конкуренты? – Кто основные конкуренты на рынке? Чем они отличаются и как стартап планирует конкурировать с ними?

Как вы используете инвестиции? – Как стартап планирует использовать привлеченные средства? На какие основные области будут направлены инвестиции?


Да еще в случает офера в стартап, вы сможете оценить самостоятельно шансы на успех:


Какое у вас текущее количество наличных денег? – Это помогает понять текущий финансовый резерв стартапа.

Каков ваш месячный уровень сжигания наличных (burn rate)? – Этот показатель показывает, сколько денег стартап тратит каждый месяц.

Сколько месяцев у вас осталось на существующих наличных? – Этот вопрос помогает оценить, насколько долго стартап сможет продолжать операционную деятельность при текущем уровне расходов.

Какой ваш план по привлечению следующих раундов финансирования? – Важно понимать, как стартап планирует привлекать дополнительные инвестиции и какие шаги они предпринимают для этого.

У меня недавно был такой кейс, где я зарядил все эти вопросы фаундерам стартапа, и эффект был очень позитивный. Теперь помогаю им выстроить все систему аналитики с 0. Конечно в моем контексте главный уклон был на данные, метрики бизнеса, ценность данных для продукта и leadership команды.

Я всегда говорю, вы как специалист должны добавлять ценность компании, коллегам, инвесторам, фаундарам, руководству. По опыту surflalytics я вижу, что скиллы можно быстро получить, а вот behaviour вопросы, навыки продавать себя и рассказывать красиво про свой опыт это не просто, а тут уже не получился в тихушку задачки порешать на Leetcode, нужно выявить слабые места и переступить через свои страхи, начать делать, что вы раньше не делали- Public Speaking? Blog posting? Youtube channel? Митапы? Нетворкинг?

PS теперь Surfalytics это про engineering data career.
49💯15❤‍🔥13
Самое время летом читать про Iceberg, все вендоры уже вдоль и поперек про него рассказали на своих конференциях.
❤‍🔥306🐳5
Одна из сложностей для обучения, курсов и тренингов - оторванность от реального бизнеса.

Обычно выбор сводится к данным Airbnb в CSV файла, NY Taxi в Parquet и тп, затертых до дыр use cases.

У меня давно была идея как-нибудь решить эту проблему.

В мое случае, я хочу сделать реальный интернет магазин с реальным товаром, например футболки. Чтобы все это упростить, пусть это будет drop-shipping/print on-demand на Shopify, интеграция с Stripe, Google Ads, Facebook Ads, LinkedinAds. Можно даже на Amazon положить.

Сам объем продаж и профит мне не важны, мне важны реальные данные и реальные use cases.

Для начала я решил скрестить дорогие машины и прикольный спорт (серфинг, лыжи, горный/дорожный, велосипед, кайтинг), еще рыбалка и охота. Выбрал разные машины типа DeLorean time machine, Ford GT40, Lamborghini Countach LP500 S, FERRARI TESTAROSSA, и тп + 2 бонусом Volga GAZ 21, vaz-2108.

Попросил мою любимую дизайнерскую студию https://studiomuti.co.za/graphics придти с идеями дизайна и товарища предпринимателя изучить вопрос местного рынка футболок, кто интегрируется с shopify. (Товарищ до Канады продавал на Озоне успешно, так что можно будет потом и на озон закинуть ради эксперимента).

PS это я дизайнерам нарисовал гелик с серфом в качестве ТЗ:)

Кстати наш Data Surf bootcamp будет 20-25 Августа в Тофино.
33🐳4❤‍🔥1
Работая в больших компаниях часто можно услышать или увидеть как продуктовые менеджеры бегают с CDP (Customer Data Platform)(раньше это была фишка маркетологов). В данном контексте это вендорское решение, например Segment, Amplitude или еще чего.

Customer Data Platform is an all-in-one marketing and data infrastructure. In a nutshell, it’s a database for all your user information with a connected activation layer to help you leverage the data for marketing.


Главное в CDP это клиент, поэтому хочется создать 360 взгляд на активность клиента, и иметь возможность сегментировать и взаимодействовать (письмо, push, звонок и тп)

Если вы работает над создание хранилища данных, где хотите консолидировать данные едином месте, когда вы слышите про новую инициативу - создать CDP, то сразу возникает вопрос зачем?

Сразу понятно это долго и дорого. Но не для всех. Кто далек от технологий, верит, что CDP решит все проблем, наконец-то будет единый источник данных, продуктовые и маркетинговые метрики будут аккуратные, качество данных будет замечательным, и никаких outages. Прям как в сказке….

Особенно прикольно, когда под капотом у CDP тот же стек, что и вас в компании. Но вы об этом все равно не узнаете, CDP это black box, с хорошим маркетингом и сильным продажниками🤱

Friends Don’t Let Friends Buy a CDP

PS Как у вас с CDP?
Please open Telegram to view this post
VIEW IN TELEGRAM
12🍌1
Forwarded from Книжный куб (Alexander Polomodov)
dbt — ядро современной платформы данных - Евгений Ермаков - SmartData 2023 (Рубрика #Architecture)

Интересный доклад Евгения Ермакова про построение дата платформы в toloka.ai, которая, получив независимость от Yandex, вынуждена была переезжать на новые технологии. В итоге, выбор пал на databricks, dbt, airflow и tableau. Автор рассказывает о том, почему был сделан такой выбор и как в итоге это все работает.

Основные моменты следующие:
- Сама toloka - это система для краудсорсинга, куда заказчики приходят с задачками навроде разметить данные, а с другой стороны на платформе зарегестрированы люди, которые их выполняют
- Архитектура базируются на трех китах:
-- Data lakehouse
-- Процессы в соответствии с подходом data mesh
-- Современный технологический стек
- До переезда на новые технологии ребята использовали много своего, часть из которого уже есть в opensource: YTsaurus, datalens
- После переезда выбрали новые технологии и dbt стал ядром системы, закрывая функциональность: data quality, data catalog/ data observability, batch processing (вместе со spark), orchestration (вместе с airflow)
- Изначально dbt (data building tool) нужен был в качестве удобного инструмента для transformation шага в ETL/ELT
- Интересно, что в концепции компании dbt есть мнение и относительно ролей, где помимо стандартных data engineers и data analysts появляется еще analytics engineer. В итоге, data engineers - это те, кто делают так, чтобы data платформа работала эффективно, data analysts ищут инсайты в данных и помогают их эффективно использовать, а вот analytics engineers - это ребята, что-то среднее между другими двумя + хорошо укладывается в концепцию data mesh, где нет централизованной дата-команды, а есть дата-команды по доменам
- Основой dbt-проекта является dbt model. Модель состоит из файла с описанием логики (.sql или .py файл) и файла с описанием конфигурации. В .sql файле есть запрос на формирование объекта, другие модели используются через ref() или source() + используется jinja шаблонизация. В .py файле возвращаем dataframe с рассчитанными данными, есть доступ ко всем возможностям pyspark + другие модели тоже используются через ref() или source()
- Материализацию запроса dbt берет на себя и есть разные стратегии, из которых самая интересная incremental
- Настройки хранятся в dbt_project.yaml и profiles.yaml
- dbt поддерживает большое количество баз данных, например, postgres, mysql, clickhouse, ...
- dbt - это консольная утилита, например, при запуске dbt build происходит сборка всех зависимостей между моделями, а также компиляция python/sql запросов и запись в manifest.json
- Команда dbt run запускает скомпилированные запросы, где запуск можно настроить по разному, но интересно запускать по графу
- Кстати, dbt умеет генерировать документацию командой dbt docs generate и дальше можно посмотреть на lineage данных
- Также мы можем писать тесты в том же месте, где мы описываем модели, а дальше запускать их при помощи dbt tests. Например, можем проверять unique или not null на поле, а также если хотим relations между моделями
- У dbt есть еще много возможностей, но про них стоит почитать самостоятельно:)
- Дальше автор рассказывает как сделать data mesh на уровне dbt + airflow. Автор рассматривает варианты вида:
-- Монолитный - один dbt проект на всю компанию
-- Микросервисный - отдельные dbt проекты на каждый домен
-- Layered - отдельные dbt проекты по уровням
-- Смешанный - анархия, где проекты создаются кто как хочет
Выбрали монолитный подход и получили аля монорепо под data mesh, в котором живут все. Обусловлено это было тем, что при микросервисном подходе ломались все связки между моделями (до 1.6 не могли называть модели одинаково в разных проектах + была проблема с импортом друг друга, так как это приводило к циклическим зависимостям).
Из интересного еще сделали конвертор графа исполнения dbt в airflow формат, чтобы запускать DAG из airflow.

В итоге, ребята реализовали свой подход к data mesh при помощи open source инструмнетов и вся схема выглядит достаточно стройно.

#Data #Datamesh #DWH #Processes #Management
40❤‍🔥16💯4😭1
Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республики Беларусь.

Узнать подробности и зарегистрироваться можно здесь.
🗿359🙈3😈2🤷1
Все привет! Оставьте в комментариях вопросы и я смогу ответить на них более развернуто🍞
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8🌚1