Инжиниринг Данных
23.9K subscribers
2.15K photos
63 videos
194 files
3.29K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Hightouch получил новый раунд инвестиций, на эти деньги они уже сняли офис в San Francisco и начали хайрить куча людей. Все-таки с помощью vibe-coding reverse ETL не так гладко работает. У нас 2х местах его выпиливают, в обоих местах компании из списка S&P500 - причина в высокой цене.
🙈3
В сведенной статье от Pragmatic Engineer - The Pulse: token spend breaks budgets – what next? (Расходы на AI-токены выходят из-под контроля) рассказывают насколько проблема токенов становиться острой.

Расходы на токены у многих компаний выросли до 10 раз за последние месяцы. Автор опросил сотрудников 15 компаний и выявил два лагеря:
1. ”Let it rip and measure" — дать командам использовать AI без ограничений, потом смотреть на метрики. Так чаще поступают крупные компании, где операционная гибкость важнее экономии.
2. ”Curbing spending" — активное управление расходами и оптимизация использования токенов. Этим занимаются небольшие компании, которые либо оптимизируют потребление, либо закладывают больший бюджет.

Общий консенсус: рост продуктивности оправдывает расходы, даже если они высоки. Среди популярных способов оптимизации — переключение на более дешёвые модели для рутинных задач, кэширование промптов и лимиты на уровне команд.

По сути, статья фиксирует момент, когда AI из "эксперимента" превратился в реальную статью операционных расходов, с которой инженерные и финансовые команды пока не очень умеют работать.


Я вижу такие паттерны:
1. Условно безлистный Claude Code с моделями Opus и Sonnet. Иногда использую сторонний Gateway, чтобы контролировать расходы.
2. Полный запрем на Code Assist. И тут происходит несколько сценариев:
• Без AI люди пытаются что-то гуглить, что-то сами делать, что-то в Teams Copilot, бесплатном ChatGPT. Все очень медленно и плохого качества. Мне лично кажется это проблема людей, у них вообще нет мотивации учить что-то новое, как говорится - и так сойдет.
• Люди полностью поддерживают запрет на AI, ведь не безопасно же, но при этом сами урвали себе за 20$ AI и что-то лепят втихушку, как будто без AI, но по факту с AI.
• Использование AI на максималках, окольными путями завести модели антропика черех API ключ, и фигачат в режиме YOLO. Без AI уже как без интернета, можно не работать.
3. Есть еще промежуточный вариант, он как правило всегда с Microsoft Teams. Мне вообще кажется, если компании используют Microsoft Teams это дно для инженера, ведь стек будет соответствующий. В данном случае у вас будет бесплатный и бесполезный copilot.

В целом полностью согласен - AI токены дорого. Особенно, когда это корпоративный план и там уже квоты работают по другому.
💯102
Уверен, что меня читает много студентов с разных направлений, а у этих читателей скорее всего еще и широкий круг общения.

Поэтому этот пост для вас!
Образовательный центр СИРИУС в г. Сочи запускает набор стажировок на летнюю июльскую проектную программу «Большие вызовы».
Я сам прошел все вехи этой программы: участвовал там и в роли школьника, затем стажера и наконец, руководителя проектов (в проекте по космическим технологиям).

Программа покрывает практически все расходы и предоставляет жилье и питание.

Очень рекомендую подаваться и ехать, опыт и яркие эмоции обеспечены!

Стажировки для студентов-выпускников (заявки до 11 мая):
1) (ассистенты руководителей проектов и методистов): https://sochisirius.ru/obuchenie/graduates-events/smena2361/10830
2) Центр робототехники: https://sochisirius.ru/obuchenie/graduates-events/smena2373/10891
3) Пресс-служба: https://sochisirius.ru/obuchenie/graduates-events/smena2362/10833
4) ЦОПП (внеучебная деятельность): https://sochisirius.ru/obuchenie/graduates-events/smena2375/10894

Стажировка для педагогов РЦ (заявки до 27 мая):
https://sochisirius.ru/obuchenie/pedagogam/smena2376/10902

Инженерная комната
Рамиль Гайнутдинов
🙈10❤‍🔥7
Альтернатива Claude Code - Pi agent.
🐳1132
2 картинки, одна про пост 2025 год, в котором говорится “покажи свой код” и другая свежая с take home assignment. И там и там идея в том, что сам код уже не важен. Важно уметь пользоваться современными инструментами и решать проблемы. Сейчас это ИИ агенты.


Идеально подходит выражение - «Хочешь делать работу — сначала наточи инструменты»

В случае ИИ агентов - это контекст, правила, модель, MCP, план.
❤‍🔥16
This media is not supported in your browser
VIEW IN TELEGRAM
Робот готов! А вы говорите бесполезный generative AI
❤‍🔥4312
22 мая в Москве пройдёт уже седьмая конференция АНА'26 для тех, кто работает с AI, ML и данными.

Отличный повод:
🤝 познакомиться с людьми из индустрии
🎯 послушать живые use cases от команд Яндекса, Сбера, Авито, Wildberries, ВкусВилла и десятков других
🎁 собрать подарочки от спонсоров
☕️ просто хорошо провести день среди своих

В программе — полный цикл data & AI: MLOps, LLM в продуктах, AI-агенты, архитектура, экономика масштабирования и многое другое.

Форматы:
→ Офлайн — 39 900 ₽
→ Онлайн — 19 900 ₽
→ Команды от 3 человек — скидки до 10%

Программа и билеты — на сайте конференции.

PS это не рекламный пост, это я вам рекомендую сходить, особенно, если ваша компанию вам покроет расходы. Вы узнаете много нового и примените новые знания на работе, а может быть и работу найдете:)
🍌5🐳2🙊22
Сейчас в такое время живем, что вечером готовишься к встрече, которая должна быть рано утром из-за того, что часть команды в Израиле, а на следующий день офис в Израиле закрывают, сотни человек на улице, митинг отменяется.

PS цена акции не выросла:( Не работают старые методы.

Кстати про акции, месяца 1-2 назад я спросил AI, какие акции космических компаний и компаний по оперативке можно купить. Результат 2x. Так же добавил новый stop-loss - 7% trailing - авто продажа, если акции потеряла 7% в моменте. (Это база, но я не использовал раньше)
🍌186🙈2
Скоро учебники будут такие
🙈108😭17🦄11💯3❤‍🔥1
📌 Что вы делаете, когда классические A/B-тесты невозможны?

Коллеги из Trisigma зовут на онлайн-митап как раз по таким ситуациям. 21 мая в 18:30 три спикера (из Авито, Finom и ex. Ozon Tech и Lamoda Tech) расскажут про свои нестандартные кейсы из практики:

⚡️Как проводить офлайн-эксперименты с AI-агентами и измерять качество, когда всё недетерминировано.
⚡️Когда и какими нестандартными инструментами можно заменить A/B.
⚡️ Можно ли сделать рабочую связку PSM, фейкдоров и оценки эластичности.

Регистрация на стрим по ссылке!
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Сегодня столкнулся с интересным кейсом по Azure Databricks.

Что дано:
• 3 Azure Subscriptions Dev/Test/Prod
• 3 Azure Databricks Workspaces

Все четко и понятно.

Databricks уже давно использует Unity Catalog вместо обычного Hive. Кстати он есть open source.

Unity Catalog — это централизованный каталог и система управления данными от Databricks.

Представь, что в компании есть десятки таблиц, файлов, ML-моделей, разбросанных по разным облакам и воркспейсам. Unity Catalog — это единое место, где всё это зарегистрировано, где видно кто к чему имеет доступ, откуда пришли данные и куда они идут.

Он решает три главных вопроса:

Кто может видеть данные? — можно задавать права вплоть до отдельных строк и столбцов таблицы.

Откуда эти данные и можно ли им доверять? — автоматически строится граф происхождения данных (lineage): от источника до дашборда.

Как найти нужные данные? — есть поисковый интерфейс с описаниями, тегами и метаданными.

Всё это работает единообразно для любого воркспейса в аккаунте Databricks, что и делает его «единым» (Unity).


Оказалось спустя почти года разработки, оказалось, что Metastore находится в Dev подписке.

Metastore — это хранилище метаданных, то есть место, где Unity Catalog держит всю информацию о данных, но не сами данные.

Проще говоря, metastore знает: какие таблицы существуют, где физически лежат их файлы в облаке, какая у них схема (столбцы и типы), кто имеет к ним доступ и т.д. Это как оглавление книги — само содержимое страниц хранится отдельно, но оглавление говорит тебе, где что искать.

В контексте Unity Catalog metastore — это верхний уровень иерархии. Внутри него живут каталоги (catalogs), внутри каталогов — схемы (schemas), а внутри схем уже таблицы и прочие объекты. На один аккаунт Databricks в одном регионе обычно один metastore, и все воркспейсы в этом регионе к нему подключаются и видят одни и те же метаданные.


У metastore есть особенность, о которой мы узнали только сегодня - можно только иметь один на целый Azure регион. А как вы знаете, очень важно, чтобы все ресурсы были всегда в одном регионе (в одном дата центре).

Из-за этого исторически так получилось, что все 3 workspaces привязаны к одному metastore и все ресурсы Azure завязаны на один и тот же регион.

Это прям ахиллесова пята Databricks.

Оказалось, что спустя почти год внедрения нашли этот косяк и решили мигрировать. Хранить все метаданные в dev совсем не комильфо. Databricks стал очень metadata driven, то есть все его Declarative Jobs, Autoloader и тп - все находится в каталоге. И весь ваш прогресс тоже завязан на каталог.

Сегодня мы пытались создать новый каталог в prod подписке. А из-за того, чтобы один metastore на регион, у нас ничего не получилось. При этом подготовка к этому перформансу заняла больше месяца у подрядчика. И это они же запили сердце databricks в dev. И теперь они готовились 2 месяца, чтобы узнать об ограничении региона.

Я как мог их поддерживал шутками и прибаутками, даже взял на себя ответственность расшарить экран и мышкой кликать.

PS проблему пока не решили в лоб.

Вот так, век живи, век учись!
14🙈7🌚4
Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform ⤵️

Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.
На вебинаре 21 мая эксперт Cloud․ru покажет, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.

В программе:
▶️в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;

▶️зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;

▶️как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;

▶️почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;

▶️как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;

▶️какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
🤷31
Приглашаем вас на совместный вебинар AXENIX и вендора BR Systems, посвященный XLTable — OLAP‑системе с широким функционалом для работы с данными ClickHouse и Trino и поддержкой протокола XMLA в Excel.

Эксперты подробно расскажут об XLTable и его основных преимуществах: быстроте внедрения, отсутствии дублирования данных, снижении затрат на TCO, бессрочной лицензии и других.

В рамках вебинара вас ждет:

🔸Обзор рынка OLAP-систем
🔸Демо системы XL Table от BR Systems
🔸Разбор реальных кейсов крупных компаний

Также у вас будет возможность задать свои вопросы.

Для участия необходимо зарегистрироваться на сайте. На указанную вами почту придет ссылка на вебинар. Подключайтесь к нам 21 мая в 16:00.

До встречи!

XLTable: Telegram | Сайт
2❤‍🔥103💯3🍌3
Уважаемая команда по найму,

Благодарю вас за интерес к отклонению моей заявки.

Я ознакомился с вашим письмом об отказе и был впечатлён вашим процессом принятия решений и стремлением двигаться вперёд с другими кандидатами.

Однако в этом году я получил уже немало писем с отказами. Поэтому, после тщательного рассмотрения, я принял решение не принимать ваш отказ на данном этапе.
Ещё раз выражаю восхищение вашей смелостью отказать мне и желаю всяческих успехов в отклонении других кандидатов.

С нетерпением жду возможности присоединиться к команде в ближайшее время.

С уважением,

🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
💯112👨‍💻26😭24❤‍🔥1613🦄5🐳2🤷‍♀1
Пример coding задачек для собеседования, но уже можно решать с AI. Пример от Staff Engineer из Meta.

То есть, вам нужно общаться с агентом и рассказывать, как вы думаете, как решаете задачу. Раньше можно было выучить типовые задачки и постараться, чтобы ответ прошел verification. А теперь, задачки по коду превратились в системный дизайн, где нужно все проговаривать.

Хорошая новость для тех, кто не любит секции leetcode! Но это в передовых компаниях уже так делают, думаю большинство такое не грозит.

https://youtu.be/A1kX8fJx53c?si=Mu3l-TppeqXxxnCV

У кого-то были уже такие примеры на собеседованиях?
❤‍🔥19🙊1
За последнее время мне удалось пообщаться со многими компаниями Enterprise-уровня, и у всех одна и та же проблема — криво внедренный Databricks.

Что значит криво? Значит неудобно и неинтуитивно.

Почему так? Потому что «а кто ж его знает, как надо».

Добавим сюда, что Databricks в такие конторы внедряется подрядчиками, которые ездят по ушам VP-уровню и другому персоналу, который уже мастер спорта по митингам и презентациям, но у которого есть сложности с технической составляющей организации, в которой они работают годами.

Вот и получается: хотели как лучше, а получилось как всегда.

Зато таких картин нет в историях со Snowflake.

Что бы там ни говорили про цены, производительность и другие особенности платформ, я ни разу не видел косячного внедрения Snowflake.

Ну, максимум ценник выше, чем должен быть, но люди работают, пишут запросы, и вопросов, как получить доступ к данным, не возникает.

У всех всё понятно: dbt, Airflow, GitHub. Всё работает как и должно, легко найти специалиста, легко подключить Claude Code.

А как у вас дела?

PS фото с paddle board, скоро будет экспедиция на 5 дней, тренируюсь.
25
Добавил секцию блога к сайту. Начнем с базы, что такое спутник 🛰🛰

https://blog.playeronespace.com/p/what-is-a-satellite
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚54
Офер в Яндекс за выходные: 6–7 июня

Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.

Как всё устроено:

🔵 до 27 мая — регистрация;

🔵 6 июня — две технические секции, вместо трёх в обычном найме;

🔵 7 июня — знакомство с командами и офер.

В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.

Все подробности и полезные ссылкина сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳6❤‍🔥4🌚41🦄1