Инжиниринг Данных

8. Будущее data engineering
• Роли будут требовать знания языков за пределами Java/Scala/Python/SQL
• Компании понимают, что проблемы не в объеме, а в governance и качестве данных
• Эволюция open table форматов
• GenAI не заменит junior-ов — младшие инженеры лучше работают с ИИ и учат seniors

Ключевая мысль:
Staff engineer имеет "outsized impact" (непропорционально большое влияние). У всех одинаковое количество часов, и все кодят с примерно одинаковой скоростью. На определенном уровне важнее становится ЧТО вы кодите, а не скорость:
• Находить проекты, двигающие бизнес вперед
• Помогать бизнесу убирать неопределенность
• Предотвращать выбор решений, которые будут стоить миллионы и потребуют миграции через 18 месяцев

Мне очень понравились рекомендации, и я полностью с ними согласен. Очень четко сказано, что важно быть гибким и мягким. С этим сложно, если у вас низкий порог терпимости к глупости коллег и не хватает терпения на бюрократию. Но, к сожалению, уже давно факт, что в корпоративной культуре любят не умных/быстрых, а удобных и послушных. Надо быть такой нянькой-душкой и медленно, но верно продавливать свою позицию и заручаться поддержкой коллег.

То есть при желании можно вырасти до уровня Staff, но вам придется переступить через свое эго.

И тут еще возникает одна загвоздка — финансовое вознаграждение. Давайте посчитаем на примере канадского рынка. Staff data engineer — зарплата $250k в год. При этом вам все будут говорить: "Ну ты же Staff, ты должен и то, и это" — и надо тащить. Ведь обычно позиция Staff встречается в больших организациях со сложной оргструктурой, и там за 5 минут уже ничего не накодить. Любое изменение — это боль и множество встреч и согласований, очень часто без common sense. Иными словами, ожидания высокие, а работу сложно измерить в строчках кода, метриках или еще чем-то. И обычно расти после Staff особо некуда, скорее всего это в people manager, но туда можно и сразу перейти без Staff.

А вот возьмите Senior DE. Вилка $160-180k в год. Как правило, скоуп понятен — берешь и делаешь. И еще остается много времени на личные проекты или внешние проекты, где вы можете заработать еще столько же — $160-180k в год. Поэтому вот не все так однозначно.

Но если вы Staff в FAANG, то там кроме базы у вас появляется жирный бонус, и чем выше грейд, тем выше бонус. И сама организация достаточно большая, чтобы был хороший impact. Поэтому у всех есть выбор — зарабатывать деньги или отправиться в корпоративное приключение в поисках карьерной лестницы.

⚡25❤‍🔥14

5.69K viewsDmitry, edited 03:28

Инжиниринг Данных

https://github.com/mfontanini/presenterm

Наконец можно и презентации делать в Markdown

GitHub

GitHub - mfontanini/presenterm: A markdown terminal slideshow tool

A markdown terminal slideshow tool. Contribute to mfontanini/presenterm development by creating an account on GitHub.

❤‍🔥21⚡1

5.76K viewsDmitry, edited 01:44

Инжиниринг Данных

Snowflake уже настоящая unified платформа с возможностью грузить данные из API.

Так и fivetran не нужен будет. И еще в Snwoflake можно хостить бесплатно dbt core и создавать крутые Python Apps на Streamlit (BI). ML и AI там тоже есть.

💯25⚡7❤‍🔥4🙉2

5.03K viewsDmitry, 19:21

Инжиниринг Данных

Сейчас LinkedIn заполнен 3мя типами контента:

1) все рассказывают про Toon, какой замечательный дата формат, и как он экономит токены. Но все, кто про него пишет, его даже не использовали. Я вот тоже написал здесь и тоже не использовал.

2) Несмотря на то, что Nvidia опубликовала свои доходы в + и все выдухнули - пузырь еще не дозрел, но сегодня весь рынок красный. Знающие люди делаются инсайдами.

3) Если контент на русском, то часто народ жалуется на рекрутеров, рекрутеры жалуются на соискателей и обязательно с приложением скринов переписки. И еще будут посты о том, как кто-то кому-то помог найти работу. И чтобы вы подумали? Скриншоты и пруфы приложены🍪

🍪

А что вам там попадется?

Please open Telegram to view this post

VIEW IN TELEGRAM

4❤‍🔥34🙈9🤷‍♀2😭1

5.47K viewsDmitry, 03:19

Инжиниринг Данных

dltHub - инструмент для интеграции данных (open source). Он не очень популярный, но про него всегда отзываются хорошо. Был бы там еще коннектор к 1С, было бы совсем замечательно.

Они выпустили классный курс - Deploy dlt pipelines, в котором показывают как пользоваться dlt с Airflow, Prefect, Dagster, Modal, Kestra (инструменты оркестрами)

Так же есть и базовые курсы:
dlt Fundamentals
dlt Advanced
Freecodecamp: Data Engineering with Python and AI

Кто-нибудь использовал в продакшн?

❤‍🔥22⚡8

6.22K viewsDmitry, 17:31

Инжиниринг Данных

Недавно появился новый тренд. Точнее он появился давно, но о нем стали говорить лидеры AI - дата центр в космосе.

Уже одна компания Star Cloud (backed by Nvidia и Sam Altman) запустила свой первый спутник с GPU, есть и другие игроки на рынке, кто делает bet на космические дата центры, так как на земле не хватит энергии для AI.

Примеры из новостей и игроки:
- Starcloud-1 satellite reaches space, with Nvidia H100 GPU now operating in orbit
- Интервью CEO Starcloud
- Exploring a space-based, scalable AI infrastructure system design от Google Research
- How I told a CEO his data centre was obsolete.
- Jeff Bezos Creates A.I. Start-Up Where He Will Be Co-Chief Executive
- Elon Musk is making it clear that the only path to the kind of energy AI will need is space.

Построить дата центр в космосе звучит нереально. Но также говорили про многочасовые ракеты, спутниковый интернет и многое другое.

Как вы думаете, какие уникальные кейсы могут быть в космосе с использованием вычислительных мощностей и GPU?

Например есть известная компания Varda, которая был backed by Питер Тиль. Это компания решает уникальные проблемы - забирает материалы на земле и дальше работает с ними в космосе, так как в космосе состав материала изменяется и его можно дальше изучать, на земле такое просто не возможно.

1🌚10🐳3❤‍🔥2

5.47K viewsDmitry, 22:13

Инжиниринг Данных

Вот это я понимаю народные цены. Ваше капучино дороже стоит, чем час с реальным дата инженером.

Источник TopMate, где инженеры из Индии учат других инженеров за ~~еду~~ доллары.

🐳28❤‍🔥1

5.4K viewsDmitry, 05:05

Инжиниринг Данных

Я уже писал про инструмент Agor, который позволяет управлять несколькими агентами одновременно без участия человека. Пока еще сыроват, но это реально выглядит как будущее разработки ПО и скоро инструменты будут разбивать ваш запрос на подзадачи и каждый агент будет играть свою роль. Вы уже можете сами протестировать подход https://agor.live/guide/spawned-subsessions#example-cross-agent-code-review

Update: В свежем обновлении курсора добавили Agent Review - Agent Review runs Cursor Agent in a specialized mode focused on catching bugs in your diffs. This tool analyzes proposed changes line-by-line and flags issues before you merge.

❤‍🔥6🌚2

5.44K viewsDmitry, 19:48

Инжиниринг Данных

Хорошая статья - 3 levels of writing. Напоминает нам о важности использовать свой мозг.

…
Во-первых, ИИ останется с нами надолго. Мы должны использовать ИИ очень осознанно. Не меняйте свой долгосрочный рост на краткосрочную продуктивность.

В мире, где все заняты тем, что используют ИИ для всей своей работе, будьте тем, кто использует мозг.

Так же, как и мышцы, тренировка мозга требует целенаправленной практики.
ИИ может помочь с исследованиями, корректировкой тона и проверкой ваших предположений.

Но не заблуждайтесь, есть большая ценность в том, чтобы делать вещи "вручную" ради себя самого. Вы можете выбрать ходьбу пешком, даже если у в
ас есть машина. Это занимает больше времени, но долгосрочная польза для здоровья того стоит.

Кремниевый мозг раз за разом показывал, что может превзойти углеродный мозг: Deep Blue, AlphaGo, Watson и многие другие, которые появятся, поскольку массивные инвестиции в ИИ обязательно принесут результаты.

Но это неважно. Это не соревнование.
В эпоху массово производимого, персонализированного и "глубоко подделанного" синтетического контента вам понадобится ваш мозг в отличной форме.

Забудьте об отличной форме.
Просто поддерживайте его в текущей форме, и вы будете самым умным: 😂

❌️ Результат работы ИИ часто ленивый, низкого качества и лишён опыта и мнения. Вы можете настроить промпт, чтобы придать ему больше характера, но это просто подделка следующего уровня.

✅️ Так же, как мышцы, мозг становится сильнее с тренировкой и использованием. Самая непосредственная опасность ИИ не в том, чтобы забрать наши рабочие места, а в том, чтобы сделать нас глупыми!

✅️ Отключайте автопилот, чтобы заставить себя думать. Поднимайтесь по лестнице, когда можете.

✅️ Используйте традиционные поисковые системы, чтобы находить ответы на проблемы и решения других людей, потому что это расширяет ваш разум и знакомит вас с более широким спектром идей, чем LLM будет кормить вас с ложечки.

✅️ Читайте книги, блоги и т.д., чтобы узнать, как другие решали проблемы, вместо того чтобы полагаться на ИИ, который пережёвывает коллективную мудрость для генерации красиво выглядящих решений.

✅️ И самое важное, пожалуйста, пожалуйста, пожалуйста, не выдавайте результат работы ИИ за свою работу. Это не только обманчиво и нечестно, но те, кто обладает критическим мышлением и не "припарковал свой мозг", видят это насквозь.

Вы можете думать, что действуете умно, используя ИИ для эффективности, но 1) товар массового производства — это не преимущество, 2) то, что вы делаете со своим мозгом, эквивалентно потреблению ультра-обработанной пищи!

По иронии судьбы, по мере повышения качества результатов работы ИИ, способность критически мыслить и связываться с человеческой стороной решения проблем становится ещё более важной.

В битве между машинами и людьми всегда принимайте сторону людей. Люди следуют за людьми, покупают у людей и строят глубокие отношения с людьми. Всегда будут анекдотичные исключения (как японка, которая недавно вышла замуж за свой ИИ), но я ставлю против того, что такое поведение станет массовым.

ИИ — отличный инструмент. Он помогает быстрее достигать результатов. Он генерирует массивный синтетический результат за долю времени, которое требуется для органического производства.

Но когда дело доходит до итога, ему нужна система ценностей. А ценности создаются людьми. ИИ можно обучить генерировать ценности, но ИИ — это не мы: его вычислительная мощность не ограничена черепом, у него нет тела с нашими потребностями и желаниями.
…

1💯75❤‍🔥20⚡3

5.54K viewsDmitry, 23:16

Инжиниринг Данных

Я решил не терять время зря и изучать GenerativeAI для задач дата-инжиниринга и начал с прикладного курса от Databricks. У них есть целая специализация с примерами и лабораторными работами. После них вы сможете лучше понимать задачи, связанные с embeddings, Vector DB, RAG, LLM deployment/serving и т.п. Конечно, это всё привязано к Databricks, и многие модели идут прямо из коробки.

Получается, AI очень сильно завязан на инжиниринг данных. Вам также нужно собирать данные, парсить и хранить их. Писать к ним запросы, думать о масштабировании и безопасности. Пока каждый вендор разрабатывает свою версию реальности, но со временем всё устаканится и будет более понятно.

Вчера уже видел курс от индуса про LLM для Data Engineering. На собеседованиях уже могут поинтересоваться, а как у вас дела с Cursor, Claude Code, MCP и делали ли вы AI-решения.

Можно брать любой курс/специализацию от большого вендора + пару книг O’Reilly и это будет отличное начало.

Скоро pet проекты будут вместо dbt+Postgres, VectorDB+LLMs

PS Нашел репозиторий с примерами https://github.com/Weixin97/GenAI-with-LLM/tree/main

❤‍🔥39🐳6⚡5💯1

5.61K viewsDmitry, 01:12

About

Blog

Apps

Platform