Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.
4❤‍🔥37🐳8💯8🌚1
Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
Job analysis completed
🔧 Optimizing resume for job match...
Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
PDF created successfully: src-resume/my-resume-optimized.pdf
Optimization complete!
📄 Files created:
- src-resume/my-resume-optimized.json
- src-resume/my-resume-optimized.pdf
- optimization_report.txt


А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.
💯22❤‍🔥14
🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.
👨‍💻6❤‍🔥5
В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.


https://lancedb.github.io/lance/


💻Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥33💯7🙈1🤷1
Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.

Вот его 4ая книга:

Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.

💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.

📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.

🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.

🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.

Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.
2❤‍🔥399🙈1
Инновации создают новые возможности и новые профессии😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1🦄36😭247🍌3🐳2🙉2❤‍🔥1🌚1
Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.

LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.

А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😭17❤‍🔥4👨‍💻3🙈2
Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.

Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.

По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.
🐳20💯101❤‍🔥1
Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.

С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.

А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.

Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.

У кого какой режим?
❤‍🔥7💯1
Амазон сократил 30т человек, среди них много инженеров и менеджеров.

При этом финансовые показатели очень хорошие.

Цитаты с reddit:


Amazon treats workers like shit. It doesn't matter if you're a highly educated developer or just a delivery driver. You're basically just a sacrificable pawn.


Amazon относится к сотрудникам как к мусору. Неважно, ты высококвалифицированный разработчик или просто курьер — ты всего лишь пешка, которой можно пожертвовать.


I would happily be sacrificed if it means more share holder value generated. If billionaires get richer then it will eventually trickle down to me. Ronald Reagan said so and he was the POTUS and no POTUS has ever lied before


Я с радостью пожертвую собой, если это увеличит доходы акционеров. Если миллиардеры станут богаче — в итоге что-то «перепадёт» и мне. Так сказал Рональд Рейган, а он был президентом США, и ведь ни один президент США никогда не врал. (сарказм)

Layoffs will continue until morale improves. Thank you for your attention on the matter.


Сокращения будут продолжаться, пока моральный дух не повысится. Спасибо за внимание к этому вопросу. (саркастическая фраза, игра слов)


compensate for overhiring during the peak demand of the pandemic
My dudes it is Q4 2025. How much longer is this excuse going to hold water?


«Компенсируем избыточный найм во время пика пандемии».
Ребята, уже четвёртый квартал 2025 года. Как долго ещё это оправдание будет звучать убедительно?


This period of economic history will be explained as the moment when companies profitability became completely detached from employees job security. You have companies making record profits and yet laying off employees without thinking twice. Profitable and growing companies used to share their fortune with their workforce, it has now dramatically changed.


Этот период экономической истории будут описывать как момент, когда прибыль компаний окончательно отделилась от стабильности рабочих мест. Компании получают рекордные прибыли, но всё равно без колебаний увольняют сотрудников. Раньше успешные и растущие компании делились своим успехом с работниками — теперь всё кардинально изменилось.


В наше время вообще нельзя просто спокойно работать, все время нужно ходить по собеседованиям, качать скилы, создавать side business, делать нетворкинг, посещать конференции и вести свой блог. Но не факт, что это поможет
💯73🙈15🐳6❤‍🔥3
Вчера закончил слушать книгу “Homo Deus (Человек Божественный) - Краткая история будущего”, автора Юваля Ноя Харари. Книга была издана 2015-2016 года и многое о чем говорит автор, как будто уже происходит сейчас. Особенно посли новостей про mass layoffs.

В книге автор рассмотрел возможные направления человечества когда голод, болезни и войны уже не главная проблема человечества. Один из тезисов был про датаизм (dataism), то есть данные становятся центром мира. Алгоритмы и ИИ могут лучше, чем человек, принимать решения. Автор пишет, что будущее будет принадлежать системам, которые умеют обрабатывать и использовать информацию, а не людям с «душой» или «сознанием».

И еще была интересная теория про развитие неравенства между элитами и “остальными”.

Немного summary от бездушной машины:

⚙️ От социального неравенства — к биологическому кастовому обществу
Если в XX веке разделение шло по уровню доходов или образованию, то в XXI оно может стать непреодолимым:
бедные просто не смогут конкурировать с «улучшенными» в скорости мышления, памяти, выносливости;
даже рынок труда изменится — «обычные» люди будут ненужны, заменены ИИ и роботами.

🧠 Новая элита управляет не только экономикой, но и алгоритмами
Харари отмечает, что в будущем власть будет у тех, кто контролирует данные и алгоритмы.
Это не просто богатые — это владельцы информации (Google, Amazon, Meta, правительства).
Они смогут предсказывать и управлять поведением масс, формируя желания и решения людей.

⚖️ Главная опасность — "бесполезный класс"
Он вводит понятие "useless class" — людей, которых не нужно ни экономике, ни армии, ни политике.
Они не смогут найти работу, потому что ИИ будет эффективнее.
Их участие в обществе будет сведено к потреблению и цифровым развлечениям.


«Проблема будущего — не эксплуатация, а бесполезность миллионов людей.»
💯20🙈8🙉6🙊6🐳11
Вернемся к нашим “баранам”. Мы все знаем Apache Kafka. Стандартное решение по стримингу.

Redpanda — это event-streaming платформа, аналог Apache Kafka, но с другой архитектурой (C++ вместо Java, без ZooKeeper, без JVM).
Продукт хочет заменить Kafka, обеспечив совместимость с Kafka API и клиентами, но при этом дать в 5–10 раз меньше latency и в разы проще эксплуатацию.

Я использовал Red Panda Community Edition когда мы строили решение для API трейдинга в AlpacaMarkets на GCP и k8s. Red Panda не open-source, она source available. Проблем в эксплуатации не было. Но и объемы были не очень большие.

Компания уже единорог и они решили двигаться в сторону платформы, поэтому купили Oxla - Redpanda acquires Oxla, a distributed SQL Engine, launches new Agentic Data Plane for governing AI Agents for enterprise data. То есть теперь у них будет свой SQL движок и они могут уже давать Stream/Batch на входе и трансформацию данных. (data in motion and at rest)

Red Panda Docker Image.
27🫡3❤‍🔥1
Fundamentals of Data Engineering.pdf
4 MB
Red Panda дарит вам книгу Fundamentals of Data Engineering
🫡39❤‍🔥30🐳1
Я подписан на вакансии от GetMatch уже довольно давно. Интересно следить за рынком.

Самую большую зарплату я видел на дата инженера в Сбербанк за 750т в в месяц.

Второе место получает Алиса и 680т в год.

Кстати вчера с коллегами из Америки обсуждали вопрос про DW и DWH - как правильно? Я узнал у ChatGPT, оказывается:

Используй DW, когда пишешь на английском или готовишь официальную документацию, особенно если аудитория — международная.

Используй DWH, если работаешь в команде или регионе (например, в России, Восточной Европе или Германии), где принято именно такое обозначение.

Так что если работаете за границей, (не) ударьте лицом в грязь, используйте правильную терминологию.

PS Сервис GetMatch и их бот просто 🟢.

PPS Кто нибудь учился в Сколково MBA? Или какой самый топ MBA в РФ (ради хорошего нетворкинга)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
Онлайн Analytics Open Source conference https://osacon.io/about/ 4-5 Ноября.

А еще будет PyData в Сиэтле 7-9 ноября офлайн https://pydata.org/seattle2025, хочу на нее попасть и отдохнуть от работы поковырять AI на их воркшопах.
6