Инжиниринг Данных
23.9K subscribers
2.14K photos
63 videos
194 files
3.29K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
DataLens внутри вашего продукта: как это сделать? 📊

Аналитика «под капотом» — это стандарт хорошего UX. Если вы хотите внедрить дашборды в свои сервисы, не заставляя пользователей логиниться в сторонних системах, подключайтесь к эфиру Yandex DataLens.

Когда: 15 апреля.

О чем: Встраивание аналитики в ЛК и корпоративные порталы.

Профит: Минимум костылей, безопасный доступ и готовые механики от команды DataLens.
Регистрируйтесь заранее, чтобы не пропустить.
🙈51🌚1
Semantic Layer vs. Text-to-SQL: 2026 Benchmark Update

В статье сравнили dbt Semantic Layer (YML документация о моделях и метриках) и LLM модели.

Очевидно, что LLM будет очень хорошо работать, если у нее будет правильный контекст и semantic layer это как раз и делает. Но и без SL уже модели хорошо сами все находят.

Качественная документация очень ценна и она поможет использовать AI более эффективно.
1❤‍🔥11💯5🙈2
Обожаю ситуации, когда приходит новый консалтинг бутик и начинает учить как надо делать data warehouse.

И что же они предлагают - модернизацию аналитики! В стартапе, где и так все новое и модернизированное=)

• внедрить orchestration tool (Dagster). Почему Dagster? Зачем? Почему понятно - у них есть экспертиза. Внедрение тулов и миграции это круто, особенно с AI.
• добавить CI/CD (куда? Зачем?)
• data governance (почему и для кого?)

То есть любой консалт готов день и ночь писать код (генерить код) и показывать эффективность в PRs, tickets, sprints и тп. Как будто в этом ценность. А для VP ролей это нормально, в их понимании все плохо, бизнес не до получает инсайтов и вот придет консалтинг и все сделает=)

Для надежности они открыли роль на Manager Data Analytics. На мой вопрос, почему менеджер? У нас нет ни одного аналитика, они сказали, что manager это, как бы, experienced senior аналитик.

В общем меня сейчас научат, как надо! А я с вами поделюсь!🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡468😭8🙈6🌚2
О как бывает! Хотя проблема конечно была в том, что быстро бюджет кончился и новых денег не появилось, на новую стратегию и миграцию.

Мы тут не по мелочам размениваться пришли, а строим production ready AI аналитические решения на Big Data, да еще real time streaming.

Они дорогие, требует много времени. И вообще это очень престижно иметь в компании lakehouse и AI агентов!

Собственнику надо было еще подождать месяцев 18, чтобы наверняка оценить результат!
🙈30🌚9💯51
Компании бывают разные - кто-то тихо и усердно работает, а кто-то хайпует, собирает лайки, реакции, раунды инвестиций и растет.

Один из самых крутых стартапов в этой области это Artisan. Они еще давно вешали плакаты в Сан Франциско - “Stop hiring people”.

В этот раз они прям реально отожгли - она наняли на работу Jordan Belfort на позицию VP оf sales. Того самого Волка с Wall Street. И записал крутые рекламы - The Wolf of Wall Street vs. Ava 2.0 | The Sell-Off Возможно он там временно, как первоапрельская шутка.

Они как-то предлагали им написать и рассказать о себе, чтобы устроиться к ним на работу. Вместо резюме я им отправил себя сидящего на крыше гелика с шампанским. Ответа не получил=)
❤‍🔥4🙈32🦄1
Ducklake демо репозиторий https://github.com/jeff-skoldberg-gmds/ducklake-demo

Отличное и простое решение, главное не дорогое.
❤‍🔥24🦄31
Когда нет особых новостей и инноваций, то можно просто переименовывать решения.

Looker Studio переименовывается обратно в Data Studio — возвращение к «любимому и знакомому» названию.

Data Studio становится единым местом для работы с активами Google Data Cloud: отчёты, разговорные агенты BigQuery, приложения из Colab-ноутбуков.

• Data Studio — инструмент для личного исследования данных: быстрые ad-hoc отчёты, визуализация данных из BigQuery, Google Sheets, Google Ads.
• Looker — остаётся корпоративной BI-платформой с управляемой семантической моделью и агентными возможностями.
🤷18❤‍🔥4🐳2👨‍💻2
В понедельник, 13 апреля в 8:00 (МСК) проведём совместный эфир с Яной Тимохиной.

Поговорим на ооочень важную тему👇

🔥Выгорание: как распознать вовремя и не сгореть

Обсудим:
— Что такое выгорание на самом деле
— Личный опыт Димы Аношина (как это ощущается изнутри)
— Основные симптомы, которые многие игнорируют
— Причины: почему это происходит даже у «успешных»
— Стадии выгорания — как не довести до крайности
— Как отличить выгорание от усталости или депрессии
— Что делать, чтобы помочь себе и восстановиться

Вам точно на эфир, если вы:
— чувствуете усталость, которая не проходит
— теряете интерес к работе или жизни
— много делаете, но не чувствуете отдачи

Про Яну:
— Бизнес-психолог
— Сертифицированный коуч
— Карьерный консультант
— Еx-HR в международной компании

📍Эфир пройдет в ZOOM
Продолжительность: ~1 час

Ссылка на Zoom:
https://us06web.zoom.us/j/87588523656?pwd=5xnE1Cp6Uwad4j8dcoDIIjH60qhAZg.1

Идентификатор конференции: 875 8852 3656
Код доступа: 581962

Пишите ваши вопросы в комментариях 🙂

До встречи!
❤‍🔥22🍌1
Media is too big
VIEW IN TELEGRAM
Я тут видео хотел записать про наш вебинар, но телефон все время падал, но идею передал:) присоединяйтесь и в конце смогу ответить на ваши вопросы на любую тему 🛸
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥155🤷2💯1
Кто не приходил в зум, многое пропустил🫣🤯
Давайте продолжим в meet

Update: ссылку убрал.
❤‍🔥8🍌2
Андрей Карпатый разделяет пользователей на 2 группы

Первая проблема, на мой взгляд, — это актуальность и уровень использования. Думаю, многие попробовали бесплатный тариф ChatGPT где-то в прошлом году и позволили этому опыту слишком сильно повлиять на их взгляды на ИИ. Это группа людей, которые смеются над различными причудами моделей, галлюцинациями и т. д. Да, я тоже видел вирусные видео, где расширенный голосовой режим OpenAI тупит на простых вопросах вроде «мне лучше доехать до автомойки или дойти пешком». Дело в том, что эти бесплатные и устаревшие/снятые с поддержки модели не отражают возможностей новейшего поколения передовых агентных моделей этого года — в особенности OpenAI Codex и Claude Code.

Но это подводит меня ко второй проблеме. Даже если люди платят 200 долларов в месяц за использование передовых моделей, многие из их возможностей относительно «точечны» в узкотехнических областях. Типичные запросы — поиск, написание текстов, советы и т. п. — это не те области, в которых произошли наиболее заметные и драматические скачки в возможностях. Отчасти это связано с техническими особенностями обучения с подкреплением и использованием верифицируемых наград. Но отчасти и потому, что эти сценарии использования недостаточно приоритизированы компаниями в их гонке за улучшениями, поскольку не приносят столько денег. Золотые жилы находятся в другом месте, и фокус внимания смещается туда.

Это подводит меня ко второй группе людей, которые одновременно 1) платят за и используют передовые агентные модели (OpenAI Codex / Claude Code) и 2) делают это профессионально в технических областях — программировании, математике и исследованиях. Именно эта группа людей в наибольшей степени подвержена «ИИ-психозу», потому что недавние улучшения в этих областях в этом году были просто ошеломляющими. Когда вы даёте одной из этих моделей доступ к терминалу, вы можете наблюдать, как она разбирается с задачами программирования, на которые обычно ушли бы дни или недели работы. Именно эта вторая группа людей придаёт гораздо большее значение возможностям моделей, их темпу роста и различным последствиям в сфере кибербезопасности.

TLDR: Люди из этих двух групп просто говорят на разных языках. Это действительно одновременно так: бесплатный и, думаю, слегка заброшенный (?) «Расширенный голосовой режим» OpenAI будет тупить на самых глупых вопросах в вашем Instagram Reels — и в то же самое время платный Codex от OpenAI высшего уровня будет час за часом методично переструктурировать целую кодовую базу или находить и эксплуатировать уязвимости в компьютерных системах. Это действительно работает и сделало драматический скачок благодаря двум свойствам: 1) эти области предлагают явные функции вознаграждения, которые поддаются верификации, а значит, хорошо поддаются обучению с подкреплением (например, пройдены ли юнит-тесты — да или нет, в отличие от написания текстов, качество которых гораздо сложнее оценить объективно), но также 2) они значительно ценнее в B2B-сегменте, а значит, наибольшая часть команды сосредоточена на их улучшении. Вот где мы сейчас находимся.


Я так же замечаю это особенность про два типа пользователей. Первая группа - их большинство. Они не сильно используют AI, ведь он тупой. Вторая группа сидит на Claude Code с тарифом за 200$ в месяц и им мало токенов.

Про результат и перспективы каждой из групп можете догадаться сами.

Только сегодня встречался с боссами большой публичной американской компании. Они всем дали Claude Code и никто его не использует, они не понимают, что делать и как.

И так везде.

Я предложил им нагрузить работой всех так, что без AI они просто не вытянут.

Мы согласились, что все кто не хочет меняться и использовать AI в работе буду уволены.

И в подтверждение этому, на прошлой неделе другая публичная американская компания уволила куча людей, включая две команда дата инженеров. Почему? AI оптимизация.
💯22🙈144🍌4🙉3🐳1
Модель вашей жизни

Иван Крутко сделал хорошее интервью.

Важная мысль -- мы не объекты, мы субъекты своей жизни.
Плохо получится само, над хорошим надо работать.

Я искренне поделился своими мыслями

О предпринимательстве и бизнесе. Как предпринимателям проверять жизнеспособность своих идей? Стоит ли давать второй шанс убыточным проектам? Что делает проекты успешными — интуиция или удача?

Об инвестициях. И здесь не только про финансы. Регулярный спорт и тренировки — это тоже инвестиции в свою энергию, здоровье и дисциплину, которые прямо влияют на продуктивность.

О жизни в релокации, хобби и планах на будущее.

https://www.youtube.com/watch?v=w-gRLhyNfz4
❤‍🔥13🌚1
Продолжаем тему про выгорание:)
❤‍🔥45💯26🌚75🦄3
Самое любимое в процессе книго-писания - это получить обложку со своим именем. Коллег писателей поздравляю.

Я даже не знаю какая эта книга по счету - 9ая? 10ая?

Как говориться больше 2х уже не имеет значение.

Я думаю это последняя книга у меня. И в целом технические книги проигрывают AI ассистентам.

Все еще ценны советы экспертов и видео уроки, где можно понять общую идею (system design) и дальше уже раскрутить ее с AI и понять как построить.

Все-таки на человека приятней смотреть и слушать.

Дальше, уже нужно получать патенты в области космических изобретений😎
150❤‍🔥10🤷3
Я провел следующую часть воркшопа про Data Ingestion Patterns | Part 2- в нем добавил другой метод создания AWS Lambda, рассмотрели AWS Batch, AWS ECR (container registry) и AWS ECS (Container Service). Как обычно использовали Claude Code и Infra as a Code с AWS Cloud Formation. Много рассуждение про использование этих решений на реальных проектах.

Концепт очень простой - у нас есть Python файл, который скачивает данные по GitHub API и мы его переиспользуем разными методами. План рассмотреть все возможности AWS для batch и streaming и потом повторить для Azure и GCP.

Первая часть - Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/7 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.
1🫡16❤‍🔥137💯1