Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сначала нам рассказывают, что 75% изменений делается с помощью AI, а потом мы видим как куча компаний сталкиваются с AWS outage. Совпадение?))
3🙈67😈9😭73🙉1🤷1
Самый популярный pet проект для западной аналитики.
🙈30💯5❤‍🔥2
Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.

Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈3213🙉5🐳2💯1
Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.

В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.

Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.

В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.

Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?

Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.

Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.

Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.

Про корпорации, их отношение к сотрудникам он хорошо подметил.
4🦄23❤‍🔥19🐳10💯52
У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.
4❤‍🔥37🐳8💯8🌚1
Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
Job analysis completed
🔧 Optimizing resume for job match...
Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
PDF created successfully: src-resume/my-resume-optimized.pdf
Optimization complete!
📄 Files created:
- src-resume/my-resume-optimized.json
- src-resume/my-resume-optimized.pdf
- optimization_report.txt


А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.
💯22❤‍🔥14
🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.
👨‍💻6❤‍🔥5
В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.


https://lancedb.github.io/lance/


💻Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥33💯7🙈1🤷1
Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.

Вот его 4ая книга:

Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.

💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.

📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.

🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.

🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.

Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.
2❤‍🔥399🙈1
Инновации создают новые возможности и новые профессии😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1🦄36😭247🍌3🐳2🙉2❤‍🔥1🌚1
Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.

LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.

А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😭17❤‍🔥4👨‍💻3🙈2
Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.

Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.

По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.
🐳20💯101❤‍🔥1
Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.

С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.

А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.

Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.

У кого какой режим?
❤‍🔥7💯1
Амазон сократил 30т человек, среди них много инженеров и менеджеров.

При этом финансовые показатели очень хорошие.

Цитаты с reddit:


Amazon treats workers like shit. It doesn't matter if you're a highly educated developer or just a delivery driver. You're basically just a sacrificable pawn.


Amazon относится к сотрудникам как к мусору. Неважно, ты высококвалифицированный разработчик или просто курьер — ты всего лишь пешка, которой можно пожертвовать.


I would happily be sacrificed if it means more share holder value generated. If billionaires get richer then it will eventually trickle down to me. Ronald Reagan said so and he was the POTUS and no POTUS has ever lied before


Я с радостью пожертвую собой, если это увеличит доходы акционеров. Если миллиардеры станут богаче — в итоге что-то «перепадёт» и мне. Так сказал Рональд Рейган, а он был президентом США, и ведь ни один президент США никогда не врал. (сарказм)

Layoffs will continue until morale improves. Thank you for your attention on the matter.


Сокращения будут продолжаться, пока моральный дух не повысится. Спасибо за внимание к этому вопросу. (саркастическая фраза, игра слов)


compensate for overhiring during the peak demand of the pandemic
My dudes it is Q4 2025. How much longer is this excuse going to hold water?


«Компенсируем избыточный найм во время пика пандемии».
Ребята, уже четвёртый квартал 2025 года. Как долго ещё это оправдание будет звучать убедительно?


This period of economic history will be explained as the moment when companies profitability became completely detached from employees job security. You have companies making record profits and yet laying off employees without thinking twice. Profitable and growing companies used to share their fortune with their workforce, it has now dramatically changed.


Этот период экономической истории будут описывать как момент, когда прибыль компаний окончательно отделилась от стабильности рабочих мест. Компании получают рекордные прибыли, но всё равно без колебаний увольняют сотрудников. Раньше успешные и растущие компании делились своим успехом с работниками — теперь всё кардинально изменилось.


В наше время вообще нельзя просто спокойно работать, все время нужно ходить по собеседованиям, качать скилы, создавать side business, делать нетворкинг, посещать конференции и вести свой блог. Но не факт, что это поможет
💯73🙈15🐳6❤‍🔥3