Инжиниринг Данных
23.9K subscribers
2.15K photos
63 videos
194 files
3.29K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Робот готов! А вы говорите бесполезный generative AI
❤‍🔥4312
22 мая в Москве пройдёт уже седьмая конференция АНА'26 для тех, кто работает с AI, ML и данными.

Отличный повод:
🤝 познакомиться с людьми из индустрии
🎯 послушать живые use cases от команд Яндекса, Сбера, Авито, Wildberries, ВкусВилла и десятков других
🎁 собрать подарочки от спонсоров
☕️ просто хорошо провести день среди своих

В программе — полный цикл data & AI: MLOps, LLM в продуктах, AI-агенты, архитектура, экономика масштабирования и многое другое.

Форматы:
→ Офлайн — 39 900 ₽
→ Онлайн — 19 900 ₽
→ Команды от 3 человек — скидки до 10%

Программа и билеты — на сайте конференции.

PS это не рекламный пост, это я вам рекомендую сходить, особенно, если ваша компанию вам покроет расходы. Вы узнаете много нового и примените новые знания на работе, а может быть и работу найдете:)
🍌5🐳2🙊22
Сейчас в такое время живем, что вечером готовишься к встрече, которая должна быть рано утром из-за того, что часть команды в Израиле, а на следующий день офис в Израиле закрывают, сотни человек на улице, митинг отменяется.

PS цена акции не выросла:( Не работают старые методы.

Кстати про акции, месяца 1-2 назад я спросил AI, какие акции космических компаний и компаний по оперативке можно купить. Результат 2x. Так же добавил новый stop-loss - 7% trailing - авто продажа, если акции потеряла 7% в моменте. (Это база, но я не использовал раньше)
🍌186🙈2
Скоро учебники будут такие
🙈108😭17🦄11💯3❤‍🔥1
📌 Что вы делаете, когда классические A/B-тесты невозможны?

Коллеги из Trisigma зовут на онлайн-митап как раз по таким ситуациям. 21 мая в 18:30 три спикера (из Авито, Finom и ex. Ozon Tech и Lamoda Tech) расскажут про свои нестандартные кейсы из практики:

⚡️Как проводить офлайн-эксперименты с AI-агентами и измерять качество, когда всё недетерминировано.
⚡️Когда и какими нестандартными инструментами можно заменить A/B.
⚡️ Можно ли сделать рабочую связку PSM, фейкдоров и оценки эластичности.

Регистрация на стрим по ссылке!
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Сегодня столкнулся с интересным кейсом по Azure Databricks.

Что дано:
• 3 Azure Subscriptions Dev/Test/Prod
• 3 Azure Databricks Workspaces

Все четко и понятно.

Databricks уже давно использует Unity Catalog вместо обычного Hive. Кстати он есть open source.

Unity Catalog — это централизованный каталог и система управления данными от Databricks.

Представь, что в компании есть десятки таблиц, файлов, ML-моделей, разбросанных по разным облакам и воркспейсам. Unity Catalog — это единое место, где всё это зарегистрировано, где видно кто к чему имеет доступ, откуда пришли данные и куда они идут.

Он решает три главных вопроса:

Кто может видеть данные? — можно задавать права вплоть до отдельных строк и столбцов таблицы.

Откуда эти данные и можно ли им доверять? — автоматически строится граф происхождения данных (lineage): от источника до дашборда.

Как найти нужные данные? — есть поисковый интерфейс с описаниями, тегами и метаданными.

Всё это работает единообразно для любого воркспейса в аккаунте Databricks, что и делает его «единым» (Unity).


Оказалось спустя почти года разработки, оказалось, что Metastore находится в Dev подписке.

Metastore — это хранилище метаданных, то есть место, где Unity Catalog держит всю информацию о данных, но не сами данные.

Проще говоря, metastore знает: какие таблицы существуют, где физически лежат их файлы в облаке, какая у них схема (столбцы и типы), кто имеет к ним доступ и т.д. Это как оглавление книги — само содержимое страниц хранится отдельно, но оглавление говорит тебе, где что искать.

В контексте Unity Catalog metastore — это верхний уровень иерархии. Внутри него живут каталоги (catalogs), внутри каталогов — схемы (schemas), а внутри схем уже таблицы и прочие объекты. На один аккаунт Databricks в одном регионе обычно один metastore, и все воркспейсы в этом регионе к нему подключаются и видят одни и те же метаданные.


У metastore есть особенность, о которой мы узнали только сегодня - можно только иметь один на целый Azure регион. А как вы знаете, очень важно, чтобы все ресурсы были всегда в одном регионе (в одном дата центре).

Из-за этого исторически так получилось, что все 3 workspaces привязаны к одному metastore и все ресурсы Azure завязаны на один и тот же регион.

Это прям ахиллесова пята Databricks.

Оказалось, что спустя почти год внедрения нашли этот косяк и решили мигрировать. Хранить все метаданные в dev совсем не комильфо. Databricks стал очень metadata driven, то есть все его Declarative Jobs, Autoloader и тп - все находится в каталоге. И весь ваш прогресс тоже завязан на каталог.

Сегодня мы пытались создать новый каталог в prod подписке. А из-за того, чтобы один metastore на регион, у нас ничего не получилось. При этом подготовка к этому перформансу заняла больше месяца у подрядчика. И это они же запили сердце databricks в dev. И теперь они готовились 2 месяца, чтобы узнать об ограничении региона.

Я как мог их поддерживал шутками и прибаутками, даже взял на себя ответственность расшарить экран и мышкой кликать.

PS проблему пока не решили в лоб.

Вот так, век живи, век учись!
14🙈7🌚4
Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform ⤵️

Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.
На вебинаре 21 мая эксперт Cloud․ru покажет, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.

В программе:
▶️в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;

▶️зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;

▶️как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;

▶️почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;

▶️как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;

▶️какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
🤷31
Приглашаем вас на совместный вебинар AXENIX и вендора BR Systems, посвященный XLTable — OLAP‑системе с широким функционалом для работы с данными ClickHouse и Trino и поддержкой протокола XMLA в Excel.

Эксперты подробно расскажут об XLTable и его основных преимуществах: быстроте внедрения, отсутствии дублирования данных, снижении затрат на TCO, бессрочной лицензии и других.

В рамках вебинара вас ждет:

🔸Обзор рынка OLAP-систем
🔸Демо системы XL Table от BR Systems
🔸Разбор реальных кейсов крупных компаний

Также у вас будет возможность задать свои вопросы.

Для участия необходимо зарегистрироваться на сайте. На указанную вами почту придет ссылка на вебинар. Подключайтесь к нам 21 мая в 16:00.

До встречи!

XLTable: Telegram | Сайт
2❤‍🔥103💯3🍌3
Уважаемая команда по найму,

Благодарю вас за интерес к отклонению моей заявки.

Я ознакомился с вашим письмом об отказе и был впечатлён вашим процессом принятия решений и стремлением двигаться вперёд с другими кандидатами.

Однако в этом году я получил уже немало писем с отказами. Поэтому, после тщательного рассмотрения, я принял решение не принимать ваш отказ на данном этапе.
Ещё раз выражаю восхищение вашей смелостью отказать мне и желаю всяческих успехов в отклонении других кандидатов.

С нетерпением жду возможности присоединиться к команде в ближайшее время.

С уважением,

🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
💯112👨‍💻26😭24❤‍🔥1613🦄5🐳2🤷‍♀1
Пример coding задачек для собеседования, но уже можно решать с AI. Пример от Staff Engineer из Meta.

То есть, вам нужно общаться с агентом и рассказывать, как вы думаете, как решаете задачу. Раньше можно было выучить типовые задачки и постараться, чтобы ответ прошел verification. А теперь, задачки по коду превратились в системный дизайн, где нужно все проговаривать.

Хорошая новость для тех, кто не любит секции leetcode! Но это в передовых компаниях уже так делают, думаю большинство такое не грозит.

https://youtu.be/A1kX8fJx53c?si=Mu3l-TppeqXxxnCV

У кого-то были уже такие примеры на собеседованиях?
❤‍🔥19🙊1
За последнее время мне удалось пообщаться со многими компаниями Enterprise-уровня, и у всех одна и та же проблема — криво внедренный Databricks.

Что значит криво? Значит неудобно и неинтуитивно.

Почему так? Потому что «а кто ж его знает, как надо».

Добавим сюда, что Databricks в такие конторы внедряется подрядчиками, которые ездят по ушам VP-уровню и другому персоналу, который уже мастер спорта по митингам и презентациям, но у которого есть сложности с технической составляющей организации, в которой они работают годами.

Вот и получается: хотели как лучше, а получилось как всегда.

Зато таких картин нет в историях со Snowflake.

Что бы там ни говорили про цены, производительность и другие особенности платформ, я ни разу не видел косячного внедрения Snowflake.

Ну, максимум ценник выше, чем должен быть, но люди работают, пишут запросы, и вопросов, как получить доступ к данным, не возникает.

У всех всё понятно: dbt, Airflow, GitHub. Всё работает как и должно, легко найти специалиста, легко подключить Claude Code.

А как у вас дела?

PS фото с paddle board, скоро будет экспедиция на 5 дней, тренируюсь.
25
Добавил секцию блога к сайту. Начнем с базы, что такое спутник 🛰🛰

https://blog.playeronespace.com/p/what-is-a-satellite
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚54
Офер в Яндекс за выходные: 6–7 июня

Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.

Как всё устроено:

🔵 до 27 мая — регистрация;

🔵 6 июня — две технические секции, вместо трёх в обычном найме;

🔵 7 июня — знакомство с командами и офер.

В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.

Все подробности и полезные ссылкина сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳6❤‍🔥4🌚41🦄1
Отличный аргумент, что AI не заменит нас!

А вы умеете кушать готовить?👀
Please open Telegram to view this post
VIEW IN TELEGRAM
💯30🌚25🤷2
Собрал материал про AI workloads и видео карты на спутниках https://blog.playeronespace.com/p/brains-in-orbit-a-complete-guide

Решил, что IoT спутниковая сеть это очень банально. Узнал про LEO PNT - gps на низкой орбите с точностью до см. Очень круто и дорого. А вот Edge AI интересный кейс и можно начать с небольшого, если просто сфокусироваться на сам спутник, который будет делать расчеты на борту.
6
Если вам интересен соревновательный ML — у Яндекса скоро завершается регистрация на Yandex ML Challenge.

Формат довольно приятный: длинный онлайн-тур без жёсткого тайминга на несколько часов. Можно спокойно подумать над решениями и потестить разные подходы.

Из задач:
— LLM / foundation models
— CV
— RL
— оптимизация нейросетей

Старт — 21 мая. На всё дают 11 дней и 40 сабмитов на каждую задачу.

Топ-100 участников попадут в очный финал на Young Con в Москве.
Победителю — 1 млн рублей, топ-15 получат устройства от Яндекса.

В целом выглядит как хороший повод проверить себя на актуальных ML-задачах и посмотреть, что делают другие участники.

Регистрация ещё открыта.
🙈5❤‍🔥3🌚2🤷21
Поиск работы за рубежом часто выглядит как хаос: десятки джоб-бордов, LinkedIn, рефералы, противоречивые советы

В итоге можно месяцами что-то делать и не получать приглашений на интервью, а оффера ждать годами. Не потому что ты слабый кандидат — просто в твоем поиске нет системы.

AgileFluent вот уже 5 лет помогают IT и Digital специалистам искать работу на международке: 800+ офферов в 32 странах, большая команда топовых экспертов и собственная платформа по откликам и нетворку.

Ребята ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ гайдами, статьями и чек-листами, которые кратно упрощают поиски

Если давно думаешь о работе за рубежом — это хороший момент начать. Подписывайся на ребят🙂

👉 Подписаться

Реклама. ООО «Эджайл», ИНН 7810964334, erid:2VtzqxL664g
🙈2
В cвой личный slack добавил себе Notion бота из Notion Calendar, который собирает все встречи и присылает мне список на завтра и время во сколько вставать (за 15 минут до 1й встречи). Notion Calendar позволяет собрать все календари вместе, а если календарь закрыт, я вручную дублирую событие в личный календарь.

Видно, что день прям busy, но это у меня такие обычные вторник, среда, четверг.

Зато, в понедельник тихо, все еще отходят от выходных, а в пятницу все уже готовятся к выходным. Поэтому я уже воспринимаю вторник-четверг как данность, мне хоть в 3 раза больше митингов, справимся🎮

Сейчас столько классных штук, которые экономят время:
• можно собрать все slackи в одном месте и агент будет все писать, что произошло
• можно все почты подключить к агенту, тоже будет у вас summary.

Но я пока по старинке! А как вы себе упростили рабочий процесс?

PS reschedule конфликты - для слабаков🍪🍪
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥173