Инжиниринг Данных

High SQL: практики, которые стоит забрать себе 😉

Делимся записью докладов с митапа ЮMoney о работе с базами данных.

Илья, разработчик ЮMoney и один из спикеров события, поделился, что для него главный критерий успешности доклада — новизна. Даже пересказ чужого опыта в инфотейнмент-формате не заходит так, как решение актуальных проблем отрасли.

«Судя по отклику зала, особенно зашёл доклад Миши про DG. И было интересно взглянуть на актуальный опыт ”а как у них“ от Димы», — делится Илья.

Инсайты с выступлений, которые участники унесли с собой:

🟣 Data-agnostic-подход DBT позволяет мигрировать между разными хранилищами без переписывания SQL-логики, сохраняя версионность и автоматизацию через Git и CI/CD.
🟣 Производительность БД зависит от множества факторов: выбирайте эффективные ключи, проектируйте секционирование, не стремитесь покрыть индексами все запросы и подбирайте оптимальные сценарии загрузки данных.
🟣 Контроль качества данных эффективен только при комплексном подходе: собственная система с UI/API, интеграция с каталогом и «светофором» для метрик актуальности, точности и согласованности, а также вовлечение владельцев данных, инженеров и бизнес-заказчиков.

Смотрите записи докладов на YouTube и ВКонтакте, а фотографии лежат в альбоме

™️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡14❤‍🔥6

8.66K viewsDmitry, 15:38

Инжиниринг Данных

Можно бесплатно получить книгу https://buf.build/resources/data-engineering-design-patterns

В комментариях я скачал для вас.

1❤‍🔥61⚡4

9.59K viewsDmitry, 20:14

Инжиниринг Данных

Учите JOINs!

2144🫡12⚡6🙊6🐳1🌚1💯1

9.61K viewsDmitry, 06:42

Инжиниринг Данных

По инженерным командам заметил определенные patterns.

Например, по размеру команды и поведению.

Я могу разделить команды на две большие группы.

1) маленькая команда 1-3 человека, где все делают все достаточно быстро, помогают друг другу. Это не обязательно стартап, это может быть большая компания, но команды там маленькие и автономные. Инженеры чувствуют свободу и занимаются тем, что нравится.

2) большая команда до 10 человек и выше. Тут уже полная неразбериха, каждые пилит что-то свое, старенькие инженеры не хотят помогать новеньким. Решения принимаются либо очень долго, либо очень быстро и непрозрачно, часто кулуарно. Эксперты становятся bottle neck и могут быть токсичными для всей команды. Особенно их бесит, когда берут новых инженеров с зарплатой на 30% выше, чем у них.

Если с маленькими командами все понятно и проблем обычно не бывает, за исключением отсутствия документации и риска потерять человека и вместе с ним всю экспертизу, то с большими командами вечные проблемы.

->Согласно закону Брукса, каждая “добавленная голова” повышает стоимость координации (n(n-1)/2).

->Согласно эффекту Рингельмана, с ростом группы падает индивидуальный вклад.

->Согласно закону Конуэя, система копирует структуру коммуникаций. Если оргуструктура запутана, продукт тоже будет фрагментирован.

Так же появляется проблемы связанные с “психологической безопасностью”, команда перестает учиться и делиться знаниями.

Как диагностировать проблему?

- Время принятия решения и кол-во решения принятых без обсуждений с командой. Иначе говоря, отсутствия технических документов - tech spec, RAPID, etc
- Задержка с Code Review и очередь к “экспертам”
- Низкие оценки в опросах про эффективность команды (опросы важный элемент для больших команд)
- Четкие сигналы о проблемах на встречать 1:1
- Отсутствие ownership и инициативы от команды

А как у вас обстоят дела с инженерными командами? Вы эксперт bottle neck? Страдаете от закрытости коллег? Не знаете как расшевелить ваши команды?

Wikipedia

Brooks's law

principle in software development that, past some point, assigning more people to a software project ends up delaying it

💯40🌚5⚡4🫡1

8.59K viewsDmitry, edited 00:08

Инжиниринг Данных

👩‍💻👨‍💻 Хочешь узнать, как AI реально меняет работу инженеров в России?

Александр, автор канала Книжный Куб рассказал про исследование в Т-Банке: они собирают данные о том, как компании применяют AI, что работает, а что — просто хайп.

Пройти можно здесь 👉 Ссылка на опрос (≈30 минут).

А в январе–феврале будут результаты + отчёт по методологии.

PS в РФ паттерн использования AI инструментов отличается от того, что я вижу в Северной Америке, поэтому мне будет тоже интересно узнать его результаты.

Книжный куб

Большое исследование AI в инженерной культуре России (Рубрика #AI)

Мы в Т-Банке активно работаем над созданием AI экосистемы инструментов для наших разработчиков, которые помогают нам эффективнее создавать продукты для клиентов. Мы много рассказываем про…

❤‍🔥7⚡5🤷2

8.18K viewsDmitry, edited 16:34

Инжиниринг Данных

Пятница

Leritta, Tegra Biks

Всех с пятницей!

❤‍🔥17⚡2🐳2💯2🍌2🤷‍♀1🤷1

7.45K viewsDmitry, edited 21:49

Инжиниринг Данных

Как появляется технический долг? (Technical debt)

Все очень просто - ушлые ребята менеджеры топят за скорость в ущерб качеству.

Вот свежий пример:

would encourage us to bias for speed over accuracy, ship it (Нужно скорее фокусироваться на скорости, чем на точности, и выкатывать)

Это нормально, иногда “срезать” углы, но когда организация сдвигается в сторону скорости, со временем создаются множество проблемных зон, которые никогда не будут решены и могут замедлить рост.

А как у вас со “speed over accuracy”?

💯44🌚1

6.72K viewsDmitry, edited 23:23

Инжиниринг Данных

Если раньше хороший инженер умел писать хороший код, то теперь AI может писать код за нас. Конечно, его нужно проверять, но как мы выше писал -

would encourage us to bias for speed over accuracy, ship it

То получается, все таки время у нас не так много, на написания кода. Я спорить не буду с экспертами, кто будет доказывать, что ❌уйн😮 ваш AI и ничего он не понимает в написании кода😇

Лучше расскажу другую идея, что системный дизайн сейчас очень важен, так как AI (еще) не способен понять бизнес контекст и ему все равно, что там будет Batch или Streaming. С poker face он вам будет доказывать, что Batch лучше, streaming. А если ему сказать, что он не прав, он вам точно также расскажет, что Streaming лучше Batch.

Для меня сейчас самое ценное это System Design. Его намного сложней “списать” и “придумать” на собеседовании, если не было реального опыта. Далее был бы data modelling, но без него можно существовать, а вот без правильной архитектуры совсем сложно.

Для любого собеседования на ML, DE - system design must have. Ну и самим было бы классно разбираться, что зачем и почему. Так что качайте системный дизайн для аналитических и ML систем, и там обязательно должно быть место для GenAI.

1💯61⚡13❤‍🔥7🌚2🙈2🫡2🐳1

7.8K viewsDmitry, edited 17:59

Инжиниринг Данных

DuckDB быстрей Spark 🦆

В посте DuckDB benchmarked against Spark сравнили Spark и DuckDB на локальном MacBook Pro, и утка показала отличный результат.

Поэтому если мало данных, можно смело пользоваться уткой. Зависит от вашего сервера, на котором запускается duckdb.

Есть прикольные кейсы, когда Pandas заменяют DuckDB и распаралеливуют процессы, например через lambda или чтобы экономить дорогой Snowflake compute.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥29⚡88🫡3

8.01K viewsDmitry, 00:02

Инжиниринг Данных

«Съешьте лягушку!» (англ. Eat That Frog!) - короткая, но очень полезная книга. Брайн Трейси там изложил базу, как нужно делать карьеру.

🔫

😊

🔫

Сегодня я услышал классную идею: лидер ― это человек, которому не нужен постоянный надзор и контроль сверху.

Тему лидерства затерли до дыр. Когда мы слышим про лидеров, мы представляем каких-то очень крутых людей, которые успешные, эффективные, мыслят стратегически и далее по списку.

А всего-то нужно:
-> Самостоятельно ставить цели и двигаться к ним без внешнего давления.
-> Брать ответственность за результаты, а не перекладывать её на руководителя или обстоятельства.
-> Самомотивироваться и мотивировать других, не ожидая, что кто-то будет «подгонять».
-> Дисциплинированно работать, даже если рядом начальника.

Важно конечно не только теорию знать, но и применять ее на практике.

PS после этой книги, emojis с Pepe приобретают новый смысл! 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥72💯7⚡2

7.02K viewsDmitry, 04:20

Инжиниринг Данных

Airbyte выпустил версию 2.0. Теперь это end-to-end платформа (data ingestion, data transformation, reverse ETL).

Keynote from CEO

Почти все компании не хотят заморачиваться с интеграцией источников данных и использую Fivetran. Затем узнаю ценообразование и офигевают от Monthly Active Rows (MAR) - за каждую загруженную строчку нужно платить. Получается дорого.

И тут уже начинаются разговоры про альтернативы:
- Airflow + Python
- Metano
- Airbyte
- dltHub
- другие инструменты

Как обычно tradeoff - цена/скорость.

Бесплатный Airbyte был всегда проблемным. Облачный (managed) - работает достойно, по слухам. Отличный вариант для небольших компаний.

Расскажите, как у вас дела с Airbyte?

YouTube

Airbyte 2.0: Michel Tricot Keynote

-------------------------
Learn more: www.airbyte.com/v2

👨‍💻4🐳1

6.53K viewsDmitry, edited 22:45

Инжиниринг Данных

Интересное обновление на стороне потребления данных. С 24 сентября для всех открывается доступ к Нейроаналитику в BI-платформе DataLens — ИИ-агенту, который умеет "читать" дашборды и генерировать по ним инсайты и даже код.

Фишка в том, что теперь бизнес-пользователи могут напрямую спрашивать у данных: «почему упали продажи?» или «какой канал лучше работает?». Без того, чтобы дергать аналитика за каждую мелочь.

Инженеры тоже выигрывают: агент сам пишет код для кастомных визуализаций и ускоряет доработку отчётов. То есть результаты вашей работы начинают анализироваться ИИ напрямую, без лишних шагов.

Данные перестают быть «табличками для отчёта» и начинают отвечать сами.

Провод

ИИ на службе бизнеса — 24 сентября на конференции Yandex Neuro Scale команда Yandex Cloud рассказала, как нейросети постепенно пронизывают все решения компании. ИИ уже используется в ИБ-сервисах, разработке, аналитике, продажах и клиентской поддержке. И на…

21⚡9🌚3💯2🫡1

7.19K viewsDmitry, 15:30

Инжиниринг Данных

Все чаще использую MCP в IDE. В моем случае cursor.

Подключаюсь к Snowflake, BigQuery.

Примеры:
- Вот табличка в snowflake, сделай dbt model для нее
- Можешь взять несколько ID и проверить логику в big query
- Я хочу дать доступ в snowflake terraform, можешь написать запрос и посмотреть права
- dbt test упал, почему?

А если тему развивать, то можно уже делать по другому - prod pipeline упал - нужно разобраться почему и написать возможный путь mitigation.

То есть MCP просто дает возможность подключаться к другим инструментом и самостоятельно изучать данные, сохраняя вам время.

Пример MCP для BigQuery:


{
  "mcpServers": {
    "bigquery": {
      "command": "/opt/homebrew/bin/toolbox",
      "args": ["--prebuilt","bigquery","--stdio"],
      "env": {
        "BIGQUERY_PROJECT": "data-1"
      }
    }
  }
}

Еще нужно добавить правило в репозитория agents.md, где написать инструкции, и все будет в разы удобней.

Есть и другой пример. В AWS, я просто использовал AWS CLI клиент, и он может обращаться к облаку и находить нужную информацию. Но вчера я немного встрял. Точнее встрял сегодня😵.

AI инструменты очень хорошо помогают с неизвестными репозиториями, и вы можете быстро разобраться, что за чем, и для чего. Через AWS CLI я смог найти все нужные AWS ресурсы, и понял, что один из API ключей испортился. Я его обновил руками. Но в какой-то момент AI решило заменить production ключи (удалить их все) на новый пустой key pair. Узнал я об этом сегодня, когд инженеры сказали, что все интеграции в Segment/Braze не работают. Было немного стыдно😳

Поэтому спешка с AI, точно не к чему. Еще и по слухам, инструменты стали хуже работать (cost reduction?)

27⚡12🌚6💯4❤‍🔥2

6.85K viewsDmitry, 03:28

Инжиниринг Данных

Последни года полтора у меня была подписка на Audible - сервис Amazon, с онлайн книгами. Классный сервис, книги часто читают сами авторы. Обычно я слушаю книги в машине и часто с детьми, пока развожу на тренировки.

Несмотря на то, что в Audible есть все книги, по факту у меня была проблема, что в среднем книги это 12-20 часов аудио, и чтобы прослушать одну книгу, уходило очень много времени. Дома я не слушаю аудио книги, в машине я часто после работы и устаю. Детям еще сложней держать в голове контекст.

Поэтому я отменил подписку на audible и пришел к выводу, что большие книги должны быть художественные или технические (где много hands-on). А в бизнес книги будет намного удобней использовать краткое содержание и основные идеи и выводы. Моя логика простая - я могу слушать 2-3 месяца книгу на 20 часов и узнать что-то новое, но пропустить часть важных идей, или могу за 2-3 месяца послушать 15-25 кратких содержаний. Концентрация идей будет выше, детям будет интересней, ведь теперь я могу успевать слушать не только бизнес, но и про природу, эволюцию, развитие, подростков и тп.

Вот пример двух последних книг:
- Тайная жизнь деревьев, Петер Вольлебен - узнали много интересного про деревья.
- Умные родители - гениальный ребенок, Тони Бьюзен - очень весело было слушать с детьми и обсуждать как они будут воспитывать своих детей и сравнивать как мы их воспитываем

На картинке мой список summarу, который накидал на ближайшее время.

Сервис и качество мне очень понравился и есть возможность купить бессрочный тариф. Это не реклама, а именно мой личный опыт, возможно кому-то будет интересно.

https://smartreading.ru

Заодно я знаю создателя сервиса, поэтому рад поддержать хороший продукт. На сайте у них еще множество интересных книг и инфографик, которые команда Smart Reading создают на базе summaries, возможно я предложу в будущем издать такую книгу про Дата Инжиниринг.

❤‍🔥34💯12🐳3🍌32🫡1

11.1K viewsDmitry, 19:40

About

Blog

Apps

Platform