Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А вы пойдёте на Матемаркетинг’25?

20–21 ноября в Москве пройдёт крупнейшая конференция по маркетинговой и продуктовой аналитике — более 2 000 участников, 12 потоков и 100+ докладов.

Темы:
• AI и ML в аналитике и автоматизации маркетинга
• Data-платформы, персонализация и CVM
• BI, визуализация и A/B-тестирование
• Новые решения от Яндекс и Tengri Data

Будут интерактивные зоны, карьерные консультации, настольные игры и подкасты.
Участники получат 6-месячный доступ к онлайн-платформе с записями докладов прошлых лет.

📍 Кластер «Ломоносов» МГУ, Раменский бульвар 1
🔗 Подробности и регистрация — на сайте конференции.

P.S. До сих пор считаю, что это лучшая конференция в русскоязычном пространстве. Поэтому рекомендую! Отличное место для нетворкинга и самый лучший способ собрать информацию по аналитическим use cases.

Скидка 10% по коду ROCKYOURDATA10
❤‍🔥54🤷‍♀2💯2🤷1
Сначала нам рассказывают, что 75% изменений делается с помощью AI, а потом мы видим как куча компаний сталкиваются с AWS outage. Совпадение?))
3🙈67😈9😭73🙉1🤷1
Самый популярный pet проект для западной аналитики.
🙈30💯5❤‍🔥2
Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.

Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈3213🙉5🐳2💯1
Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.

В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.

Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.

В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.

Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?

Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.

Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.

Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.

Про корпорации, их отношение к сотрудникам он хорошо подметил.
4🦄23❤‍🔥19🐳10💯52
У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.
4❤‍🔥37🐳8💯8🌚1
Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
Job analysis completed
🔧 Optimizing resume for job match...
Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
PDF created successfully: src-resume/my-resume-optimized.pdf
Optimization complete!
📄 Files created:
- src-resume/my-resume-optimized.json
- src-resume/my-resume-optimized.pdf
- optimization_report.txt


А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.
💯22❤‍🔥14
🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.
👨‍💻6❤‍🔥5
В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.


https://lancedb.github.io/lance/


💻Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥33💯7🙈1🤷1
Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.

Вот его 4ая книга:

Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.

💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.

📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.

🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.

🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.

Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.
2❤‍🔥399🙈1
Инновации создают новые возможности и новые профессии😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1🦄36😭247🍌3🐳2🙉2❤‍🔥1🌚1
Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.

LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.

А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😭17❤‍🔥4👨‍💻3🙈2
Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.

Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.

По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.
🐳20💯101❤‍🔥1
Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.

С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.

А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.

Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.

У кого какой режим?
❤‍🔥7💯1