Инжиниринг Данных

AI, который мы заслужили. Отличный пивот у OpenAI 👙

135🙈13❤‍🔥8🍌4

5.3K viewsDmitry, 06:18

⚫️

Surfalytics VS Roadmappers

Не знаю, куда смотрит Дима, но я смотрю в прошлое — в то время, когда учился на DataLearn.

Моя фотка — это оммаж на фото Димы. И вот почему. Ещё задолго до канала и Школы 21, когда я зимой катался на коньках у дома, я включал разные подкасты, видео и интервью с Димой — и слушал про Дату. Конечно, тогда я почти ничего не понимал, всё казалось каким-то ну очень заоблачным и недостижимым. Ведь я не учился на программиста — я вообще музыку писал и видосы снимал. Какое, к чёрту, «ОЙТИ»? 😄 Короче, вдохновил он меня на Data Engineering!

Знаете это чувство, когда слушаешь, чего уже добился человек, а у тебя даже ещё ничего не начато? Такое ощущение, что ты капец как далеко. Это как если ты только сейчас задумываешься о получении паспорта в другую страну, а рядом человек уже год живёт с ним. Или как с изучением иностранного языка — кажется, что никогда не догонишь и всё уже упущено. Или мысли о возрасте: вот кто-то чего-то добился в 25, а тебе 30 — и ты думаешь, что жизнь окончена. 😅 Уверен, многие через это проходили. Я — точно в их числе.

Но я продолжал смотреть всё про DE и IT: отключил соцсети, перестал отвлекаться на развлекаловку и начал учиться. Помимо DataLearn, я ещё учил язык Си, потом поступил в Школу 21… Даже на JavaRush заходил и решал задачки на Джаве.
Больше всего страдал, конечно, с Си. 😅 Больше туда — ни ногой.

Постепенно я пришёл к DataLearn. Прорешал там где-то четыре модуля включительно. На пятый просто смотрел видео, а дальше уже начал пилить свой пет-проект — основу того, что позже стало нашим BootCamp. Потом был мой Telegram-бот для генерации паролей, а дальше — канал и всё остальное закрутилось.

Так вот к чему я всё это.
Идея нашего roadmap вообще появилась именно после курса на DataLearn от Димы Аношина. Потому что именно там я впервые увидел, как можно круто оформить материал на GitHub так, чтобы его было удобно читать. Хотя самая первая версия роадмапа была просто постом в Телеграме со ссылками на бесплатные материалы, уже вторая была оформлена на GitHub.

Сейчас, кстати, мы начинаем делать роадмапы и для других направлений IT. Уже выбрали шаблоны фронтенда для лендинга и самих роадмапов, чтобы можно было переключать темы, удобно смотреть с мобилы и пользоваться всем современным функционалом.

Поэтому, спасибо, что подписаны и поддерживаете нас. Ну и спасибо Диме за то, что повлиял! Возможно, кстати, теперь мы влияем и на вас. Пишу мы, потому что тот же Roadmap — это уже коллаборация нескольких авторов.

~~МЫ СЕМЬЯ~~

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥53🫡13🦄7🌚4⚡3💯2

4.54K viewsDmitry, 18:02

Инжиниринг Данных

👨‍🦳Как мы раньше делали резюме?

У нас был/есть Word (Google) документ, который мы меняем раз в год. Иногда, мы можем иметь несколько копий с разными flavours. Некоторые, меняют в ручную аж для каждой вакансии.

🤖Как можно (и нужно) делать сейчас?

У нас есть наше базовое резюме в Markdown. Есть базовый промпт, который не меняет даты и название компаний. Далее мы скармливаем ссылку с вакансией и на выходе получаем готовый PDF под конкретную вакансию.

При желании можно сделать бота, который будет все делать в автоматическом режиме, например через телеграмм бота. Можно построить целого агента на n8n или может быть уже можно на Open AI.

Какие есть варианты, для такого подхода?

1) Pandoc + LaTeX (самый надёжный)
Почему: чёткая типографика, хорошая поддержка шрифтов/Юникода, кроссплатформенно.

2) Node.js: md-to-pdf (Markdown → HTML → PDF через headless Chrome)
Почему: верстаешь резюме как веб-страницу с Print CSS, пиксель-перфект контроль, нет LaTeX.

3) Python: markdown + WeasyPrint
Почему: всё в Python; верстка через HTML/CSS; хорошая типографика.

4) Chrome Puppeteer (максимальный контроль рендера)
Почему: тот же HTML/CSS, но полный контроль (шрифты, header/footer, номера страниц, margin-box).

5) Typst (современная альтернатива LaTeX)
Почему: быстрая компиляция, понятные шаблоны. Markdown можно конвертнуть через Pandoc или встраивать.

6) HTML+wkhtmltopdf / Prince / Paged.js (печать с Paged Media)
Если тебе важны сложные колонтитулы, много-колоночность, номера страниц:

7) OpenResume
Next.js + TypeScript + Tailwind CSS - готовое open source решение

FAQ (мое мнение)
1) Нужно ли менять резюме под каждую вакансию?
Я пока этого не делаю, у меня есть несколько разных резюме, которые заточены на определенный стек или позицию. Задача резюме пройти firewall из HR или системы, через которую делаются отклики. Когда вас позвали на собеседование, уже не так важно.

2) Нужен ли Cover Letter?
Никогда не использовал.

3) Как лучше быстрей всего найти работу?
Если вы знаете hiring manager или вас ему лично порекомендовали. Некоторые пытаются подружиться в LinkedIn, но я не очень верю в этот способ.

4) Помогают ли AI боты в поиске работы?
Они могу автоматизировать за вас процесс, сами отвлекаться и пытаться записать вас на собеседование, но я считаю, что это не правильный подход. Даже если у вас будет 1000 откликов в день, вряд ли вас это придвинет к оферу, а если еще бот за вас будет писать сообщения, то получается уже медвежья услуга, так как все устали от AI генерированного конвента. Создать бота, который будет за вас откликаться сейчас может каждый, но ценности в этом я пока не вижу. Вот если бы бот, который за меня работал, а я только зарплату тратил бы, то это было бы удобно! Так же сайты, которые позволяют использовать бота для отклика (как LinkedIn и другие агрегаторы) теряют ценность для работодателя, так как получается очень много “мусора” и “спама” от неправильных кандидатов.

5) Что самое ценное?
Я считаю самое важное это время между опубликованной вакансией и вашим откликом. Но тут сложно понять, где они публикуются в первую очередь. Самое лучшее, что вы можете сделать, уделять каждый день 15 мину, на отклики на свежие вакансии. Получается как с инвестициями, надо всегда инвестировать по чуть-чуть. С поиском работы также, инвестируйте каждый день свое время.

6) Когда нужно искать работу?
Ее нужно искать всегда. Самое худшее время искать работу - это когда она вам нужно и вы потеряли старую.

7) Нужно ли быть “блогером” и строить личный бренд?
Сама ценность “блогерства” и личного бренда может быть не высокой. Но это офигенная практика выхода из зоны комфорта, и дополнительные поинты к вашей уверенности и способности себя “продать” в нужный момент.

8 ) Что еще важно?
Важно всегда повышать квалификацию (grow mindset - должно быть вашей сильной стороной). Очевидно сейчас полезно изучать как AI влияет на нашу индустрию и как его можно использовать в работе.

—
Что можете добавить?

💯52⚡157❤‍🔥4🦄2

4.45K viewsDmitry, edited 18:56

Инжиниринг Данных

А вы пойдёте на Матемаркетинг’25?

20–21 ноября в Москве пройдёт крупнейшая конференция по маркетинговой и продуктовой аналитике — более 2 000 участников, 12 потоков и 100+ докладов.

Темы:
• AI и ML в аналитике и автоматизации маркетинга
• Data-платформы, персонализация и CVM
• BI, визуализация и A/B-тестирование
• Новые решения от Яндекс и Tengri Data

Будут интерактивные зоны, карьерные консультации, настольные игры и подкасты.
Участники получат 6-месячный доступ к онлайн-платформе с записями докладов прошлых лет.

📍 Кластер «Ломоносов» МГУ, Раменский бульвар 1
🔗 Подробности и регистрация — на сайте конференции.

P.S. До сих пор считаю, что это лучшая конференция в русскоязычном пространстве. Поэтому рекомендую! Отличное место для нетворкинга и самый лучший способ собрать информацию по аналитическим use cases.

Скидка 10% по коду ROCKYOURDATA10

❤‍🔥5⚡4🤷‍♀2💯2

4.79K viewsDmitry, 06:59

Инжиниринг Данных

Сначала нам рассказывают, что 75% изменений делается с помощью AI, а потом мы видим как куча компаний сталкиваются с AWS outage. Совпадение?))

3🙈65😈9😭6⚡3🙉1🤷1

6.03K viewsDmitry, 16:29

Инжиниринг Данных

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌

5🤷4⚡3

4.89K viewsDmitry, 12:01

Инжиниринг Данных

Самый популярный pet проект для западной аналитики.

🙈26💯5❤‍🔥1

4.56K viewsDmitry, 16:38

Инжиниринг Данных

🔐 Craft IT Talk: закрытое комьюнити Big Data-специалистов

Есть темы, которые не разбирают на конференциях, и задачи, о которых не пишут в блогах. Craft IT Talk — закрытое сообщество, где Big Data-эксперты из финтеха говорят начистоту.
Клуб объединяет архитекторов, дата-инженеров, аналитиков и тимлидов из крупных банков, страховых и ИТ-компаний.

🔹Закрытые встречи в неформальной обстановке
🔹Разговоры о реальных кейсах с экспертами вашего уровня
🔹Опыт коллег из Big Data в финансах, который обычно остается за стенами офисов
🔹Доступ к эксклюзивным материалам, которые мы создаем вместе

Членство бесплатное: сообщество формируется по профессиональному принципу.

👉 Вступить в клуб

🌚4🍌2🫡11

4.39K viewsDmitry, 08:04

Инжиниринг Данных

Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.

Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯

Please open Telegram to view this post

VIEW IN TELEGRAM

🙈2812🙉5🐳2💯1

4.55K viewsDmitry, 20:32

Инжиниринг Данных

Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.

В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.

Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.

В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.

Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?

Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.

Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.

Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.

Про корпорации, их отношение к сотрудникам он хорошо подметил.

4🦄23❤‍🔥17🐳8💯32

4.4K viewsDmitry, 23:19

Инжиниринг Данных

У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.

4❤‍🔥29🐳6💯6🌚1

3.73K viewsDmitry, 20:08

Инжиниринг Данных

Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
✅ Job analysis completed
🔧 Optimizing resume for job match...
✅ Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
  1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
  2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
  3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
  4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
  5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
  6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

✅ Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
✅ PDF created successfully: src-resume/my-resume-optimized.pdf
✅ Optimization complete!
📄 Files created:
   - src-resume/my-resume-optimized.json
   - src-resume/my-resume-optimized.pdf
   - optimization_report.txt

А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.

GitHub

GitHub - xitanggg/open-resume: OpenResume is a powerful open-source resume builder and resume parser. https://open-resume.com/

OpenResume is a powerful open-source resume builder and resume parser. https://open-resume.com/ - xitanggg/open-resume

💯19❤‍🔥9

3.25K viewsDmitry, edited 04:21

Инжиниринг Данных

🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.

Yandex Music

Аналитика Яндекса: Как данные меняют будущее про...

👨‍💻6❤‍🔥1

2.59K viewsDmitry, 15:44

Инжиниринг Данных

В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻

Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.

https://lancedb.github.io/lance/

💻

Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻

Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥13💯5

2.1K viewsDmitry, 22:34

About

Blog

Apps

Platform