Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я писал уже свой подход про ARR как личный суммарный заработок. Как и другой любой пост он 50/50, кому-то откликнулось, а для кого-то 🔴.

На выходных у меня была стратегическая сессия с @YanaTimokhina, где 3 часа проговаривали, что работает, а что нет. Попытались спланировать цели на 5 и 15 лет. И как-то после нее стало легче.

Реально есть польза от высказаться и поразмышлять вслух, а если у человека есть в этом опыт, он быстро уловит суть и поможем переосмыслить многие вещи.

Одно из первых решений было убрать токсичность, для меня это свалить с одного из проектов, который приносит 250k (только база) CAD $ ARR. По канадским меркам это много, и самое главное там не сложно делать работу, но токсичная среда сжирает весь ресурс и не остается сил на себя и креативность. Поэтому, сегодня я написал, что мой последний день с ними 31 декабря и сразу стало легче.

Другой инсайт был, что я не знаю сколько я зарабатываю, и сколько мы тратим. Поэтому идея работать много не очень эффективна, ведь я не знаю сколько достаточно и для чего, а страх не до заработать на долгой перспективе будет иметь негативные последствия.

Один из главных инсайтов 2025 год, что высокая зарплата и много ответственности это не всегда самый важный критерий, иногда можно позволить себе сделать перерыв, чтобы поработать и поучиться в свое удовольствие.

Да и вообще, все же мы знаем, что у нас марафон, а не спринт.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥43💯18🦄61
Знаете, что такое “смена работы N+1”?

Это достаточно надежный и популярный способ менять работу в Северной Америке.

Сейчас расскажу.

Вы работаете на работе А. И вы решили найти новую работу - Б.

Что делают любители? Прощаются с коллегами на работе А и выходят на работу Б. Только потом может оказаться, что работа Б это не так и весело, и хуже, чем работа А. Но вам уже надо разгребать работу Б следующие 12-18 месяцев, как минимум. Как говорится стерпится-слюбится.

А что делают профессионалы? Оно думают о завершении работы А, чтобы начать работу Б. Но работа Б это риск, поэтому они решаются на trial период на работе Б, продолжая работать на работе А. Таким образом у вас есть возможность попробовать Б и при необходимости отказаться от нее и остаться на А, или наоборот, уйти с А, и остаться на Б.

Такой overlap позволяет безопасно менять работу. Очень популярный метод, надо как-нибудь попробовать, если будет удаленка.
2🙈38❤‍🔥223🌚2
Из всего многообразия новых AI штук, моя любимая это MCP для тестирования данных и поиска ошибок.
115
Как у вас дела с Kubernetes?

Kubernetes (K8s) — это система для автоматического управления контейнерами с приложениями. Представь её как "дирижёра оркестра" для твоих программ.


С ним можно построить любое решение - сам продукт, сервис или аналитическое решение в облаке или on-premise.

Очевидно использовать managed версию в AWS/Azure/GCP легче, чем разворачивать все с нуля на своем железе.

Для DevOps k8s это один из главных скилов. Эксперты без работы не останутся, особенно если нет альтернативы в виде публичного облака.

Claude мне выдал альтернативы:

Легковесные альтернативы
- Docker Swarm - встроенная оркестрация Docker, проще в настройке и использовании
- K3s - облегченная версия Kubernetes от Rancher (до 40 МБ), идеальна для edge-устройств и IoT
- MicroK8s - минималистичный Kubernetes от Canonical, быстрая установка одной командой
- Nomad (HashiCorp) - простая оркестрация для контейнеров, VM и standalone приложений

Платформы как сервис (PaaS)
- Docker Compose - для локальной разработки и простых развертываний
- Heroku - классический PaaS, минимум настроек
-
Fly.io - современная платформа с глобальным распределением
- Railway - простой деплой с автоматической настройкой

Специализированные решения
- Apache Mesos (с Marathon/DC/OS) - для крупномасштабных кластеров
- Rancher - управление несколькими кластерами и оркестраторами
- OpenShift - корпоративная платформа на базе Kubernetes с дополнительными функциями
- Portainer - упрощенное управление Docker и Kubernetes через веб-интерфейс


В моем опыте мне два раза приходилось с ним работать:
1) В FinTech стартапе использовали k8s на GCP (managed), на нем жили Airflow, Metabase, Open Metadata, dbt, Trino, Red Panda и все Python программы, которые поднимались в контейнерах через Airflow.

2) В большом Enterprise, использовали k8s на AWS, для самого продукта (multi tenant), и локальная разработка так же велась на k8s.

Для себя я решил ограничиться сервисами контейнеров:
- AWS ECS/Fargate
- Azure Container Instances
- Google Cloud Run

Вам приходиться работать с k8s?
🌚14🐳10❤‍🔥4
Знаете кому AI не помогает?

Всем кто раньше топил за low/no code. Ведь там все завязано у вендора на кликанье мышкой в приятном интерфейсе.

Особенно разные BI инструменты или ETL инструменты. Сейчас можно быстрей сделать dashboard в Streamlit или Plotly, чем такой же в Tableau или Sigma BI.

Я не имею ввиду произведение искусства в Tableau. Я про обычные полезные дашбордики с bar/line charts или быстрые ad-hoc визуализации.

Даже в Looker нет удобной интеграции и нужно либо копировать руками LookML или в VSCode менять код без возможности валидации.

У меня есть пример одного инструмента, кто отлично смог встроить AI в свой процесс - это Matillion ETL. Это такой low-code инструмент, у которого всегда были проблемы с интеграцией в Git. Они добавили бота, который может теперь строить pipelines по промпту.

Зато есть у вас все аналитическое решение как код, то AI может посмотреть во все слои трансформации и подсказать, где ошибка или где можно улучшить.

Таким образом, у нас теперь любое репо превращается в low-code.
1💯225
MWS Cloud запустил сервис GPU on-premises.

Что это такое? Компания будет устанавливать серверы с GPU необходимые для обучения и инференса искусственного интеллекта в периметре предприятий.

Посмотрел, как это работает:
• Специалисты помогают компании определить нужную ей конфигурацию серверов с GPU - можно взять готовую: доступно 7 видов карт и более 20 готовых конфигураций, можно собрать индивидуально под себя
• Серверы разворачивают на площадке компании или дата-центре MWS Cloud. Кстати, их можно и купить, и арендовать
• Установка и поддержка на всех этапах - на MWS Cloud

Полезная история для компаний, которым требуется развертывание вычислительных мощностей с графическими усилителями в закрытом контуре.
🐳2
Первый раз увидел вакансию Analytics Engineer. Обычно всегда Data Engineer.

Ключевое тут - это dbt. Но как видно в компании еще есть Trino, Iceberg. В целом для отечественного рынка очень хороший стек!

Обычно разделение идет на дата инженера и дата аналитика. Что уже давно не отражает суть.

Сейчас все вакансии инженерные (vibe coding?). Просто дата инженер еще может создавать инфраструктуру для аналитического решения, а аналитик инженер строить витрины.

Главный скилл для аналитик инженера - это понимание бизнеса и общение с бизнес заказчиками. То есть вам надо построить дашборд и вам не нужно ждать пока дата инженеры соберут витрину, они могут сами сделать витрину и job для ее обновления. Роль дата инженера будет создать фреймворк для этого.

Альтернатива такому стеку (как в вакансии) будет Hadoop (HDFS, Spark, Hive) и сверху Clickhouse или Greenplum (а может быть Greenplum будет вместо Hadoop сразу).

Скорей всего компаний в РФ, которые могут себе позволить создать классное и современное решение с нуля нет. У всех свой Франкенштейн legacy, который нужно поддерживать и параллельно добавлять всякие современные улучшения.

Я возможно всей картины не вижу, поправьте меня и расскажите как на самом деле дела обстоят.
1❤‍🔥26🌚116🙉2🍌1👨‍💻1
Недавно изучал архитектуру AI-приложений у Microsoft при подготовке к AI-900 экзамену.

Там выделяют 4 слоя: данные, модели, вычисления и оркестрация.

Все любят говорить про модели. GPT, fine-tuning, prompt engineering. Но никто не говорит про слой данных.

А ведь слой данных - это основа, без него ваша крутая модель просто не работает.

Что включает слой данных:
- Структурированные данные (SQL, PostgreSQL)
- Неструктурированные данные (документы, изображения)
- Потоковые данные в реальном времени

У Microsoft для этого есть Cosmos DB, Azure Data Lake. Все как сервис (PaaS), чтобы не возиться с инфраструктурой.

Дальше идет слой моделей - тут обучение, fine-tuning, версионирование.

Можно взять готовую модель (Azure OpenAI) или обучить свою через Azure Machine Learning.

Вычислительный слой - это где все крутится. Azure Functions для serverless, Kubernetes для enterprise. Тут выбор зависит от масштаба и бюджета.

И наконец слой оркестрации — связывает все вместе. API, SDK, агенты. Microsoft Foundry позволяет управлять всем из одного места.

Соотвественно у других вендоров свой набор инструментов. Недавно я рассказывал про System Design для дата инжиниринга, а AI будет свой фреймворк, который может наполняться готовыми элементами.

Все AI-проекты начинаются с "давайте сначала почистим данные”. Потому что без качественных данных модель будет выдавать мусор. Garbage in — garbage out.

Вот что реально важно в слое данных:
Чистота - никаких дубликатов и ошибок
Полнота - достаточный объем для обучения
Актуальность - регулярное обновление
Доступность - быстрый доступ для моделей

Точно такие же характеристики качества данных у традиционного хранилища данных.

В итоге получается: данные -> модели -> вычисления -> оркестрация -> AI-приложение.

Соответственно инженеры данных очень скоро могу начать готовить данные не для BI дашбордов, а для AI приложений.
💯29❤‍🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Данные — сырьё для гипотез. А без гипотез не получится успешный продукт.

В VK аналитики помогают продуктам говорить на языке пользователей. Узнайте, как принципы помогают VK превращать гипотезы в фичи и чем гордятся команды. Переходите по ссылке — вдохновляйтесь и присоединяйтесь.
28
Google Antigravity — это новая, бесплатная IDE.

Это прямой конкурент других AI IDE, таких как Cursor.

https://antigravity.google

Go тестировать
Please open Telegram to view this post
VIEW IN TELEGRAM
💯265
Хотите узнать кошмар современного high-performance сотрудника?

Windows ноутбук без админского доступа, без возможности скачать программы, AI чат, AI IDE. И компьютер ложится спать каждые 15 минут без активности. Даже, чтобы скачать Python или Git нужен запрос в help desk, согласование безопасностью и ожидание несколько дней.

Получается уже не high-performance.

А ведь раньше все как-то обходились без всего этого.
2🙈68💯45🌚15😭5🤷2
А у вас не внедряют AI? Вот вам совет для карьерного буста:

В прошлом квартале я внедрил Microsoft Copilot для 4 000 сотрудников. 30 долларов за место в месяц. 1,4 миллиона долларов в год.

Я назвал это "цифровой трансформацией". Совету директоров понравилась эта фраза. Они одобрили это за одиннадцать минут. Никто не спросил, что это на самом деле будет делать. Включая меня.

Я всем говорил, что это "увеличит продуктивность в 10 раз". Это не реальное число. Но звучит как реальное.
HR спросил, как мы будем измерять этот 10-кратный рост. Я сказал, что мы "задействуем аналитические панели". Они перестали спрашивать.

Три месяца спустя я проверил отчёты об использовании. 47 человек открыли его. 12 использовали больше одного раза. Один из них был я.

Я использовал его, чтобы обобщить письмо, которое мог прочитать за 30 секунд. Это заняло 45 секунд. Плюс время, потраченное на исправление галлюцинаций. Но я назвал это "успешным пилотом". Успех означает, что пилот не провалился явно.

Финансовый директор спросил об окупаемости инвестиций. Я показал ему график. График шёл вверх и вправо. Он измерял "внедрение ИИ". Я придумал эту метрику. Он одобрительно кивнул.

Теперь у нас "внедрён ИИ". Я не знаю, что это означает. Но это есть в нашей презентации для инвесторов.

Старший разработчик спросил, почему мы не используем Claude или ChatGPT. Я сказал, что нам нужна "безопасность корпоративного уровня". Он спросил, что это означает. Я сказал "соответствие требованиям". Он спросил, каким требованиям. Я сказал "всем". Он выглядел скептически. Я назначил ему "беседу о развитии карьеры". Он перестал задавать вопросы.

Microsoft прислала команду для кейс-стади. Они хотели представить нас как историю успеха. Я сказал им, что мы "сэкономили 40 000 часов". Я вычислил это число, умножив количество сотрудников на число, которое я придумал. Они не проверяли это. Они никогда не проверяют. Теперь мы на сайте Microsoft. "Глобальное предприятие достигло экономии 40 000 часов продуктивности с Copilot". Генеральный директор поделился этим в LinkedIn. Он получил 3 000 лайков. Он никогда не использовал Copilot. Никто из руководителей не использовал. У нас есть исключение. "Стратегический фокус требует минимального цифрового отвлечения". Я написал эту политику.

Лицензии продлеваются в следующем месяце. Я запрашиваю расширение. Ещё 5 000 мест. Мы не использовали первые 4 000. Но на этот раз мы "стимулируем внедрение". Внедрение означает обязательное обучение. Обучение означает 45-минутный вебинар, который никто не смотрит. Но завершение будет отслеживаться. Завершение — это метрика. Метрики попадают в панели. Панели попадают в презентации для совета директоров. Презентации для совета директоров продвигают меня по службе. Я стану старшим вице-президентом к третьему кварталу.

Я всё ещё не знаю, что делает Copilot. Но я знаю, для чего он нужен. Он нужен, чтобы показать, что мы "инвестируем в ИИ".
Инвестиции означают траты. Траты означают обязательства. Обязательства означают, что мы серьёзно относимся к будущему. Будущее — это то, что я скажу.

Пока график идёт вверх и вправо.


Источник.
🫡62❤‍🔥27💯23😭11🐳6🤷6👨‍💻5🙈5🌚4🍌3
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉
15
Знаете, где сейчас косанлтинг компании зарабатывают в Северной Америке?

Нет, это не AI. Про AI я уже только опубликовал историю.

На традиционных миграциях. Но они не совсем традиционные.

Вот, кто-то навайбкодил:
COBOL to Databricks Converter
SAS to Databricks Converter

К сожалению, AI в этих вопросах не сильно помогает(л). Не знаю как сейчас.


Может быть когда-нибудь будет миграция 1C на Databricks? Кстати, один раз общался с разработчиком 1С из Майами, так что получится еще наоборот из Databricks на 1C.

У меня всегда была мечта - сделать аналитическую платформу в экосистеме 1С👀
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈6❤‍🔥2
Интересный кейс был недавно.

Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того, чтобы взять машину.

Без AI уже очень сложно быть на 100% эффективным.

Конечно, ключевой вопрос — это фундаментальные знания. Например, я могу не знать ничего в мобильной разработке, но с AI смогу создать мобильное приложение.

Качество будет так себе, ведь у меня нет опыта в этом деле и AI нафантазирует за меня, сделает MVP, который вряд ли попадёт в продакшн. И самое главное — знаний у меня в мобильной разработке не прибавится.

А вот если я эксперт в какой-то области и просто хочу аутсорсить простые запросы и задачки junior (AI), и могу чётко поставить задачку с предсказуемым и проверяемым результатом, то здесь и появляется эффективность и скорость. Я держу в голове контекст, архитектуру и контролирую процесс, а бездушная машина печатает мои мысли и валидирует их через MCP или CLI.

То есть иметь AI IDE — это такой base line. Это не про co-pilot для каждого сотрудника, которые там будут спрашивать про погоду.

Теперь про мой кейс.
Что делать, если AI IDE заблокированы. ChatGPT и Anthropic заблокированы, и есть только Copilot в Teams (бесплатная версия).

Для начала добываем VSCode — лучший бесплатный IDE. Дальше нам надо поставить плагины, тут есть две опции:
• Cline
• KiloCode

Очевидно, API Claude закрыт, но у меня есть API ключ. Бесплатный copilot рассказал мне про сервис — Openrouter.ai

OpenRouter.ai — это универсальная платформа-агрегатор, которая предоставляет единый API-доступ к более чем 400 языковым моделям искусственного интеллекта от различных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и других).


Сервис позволяет зарегистрироваться бесплатно, и у него собственный API Gateway. В нём я добавил свой Claude API ключ и подключил OpenRouter в KiloCode как провайдера. Задача для меня решена.

Картинки из OpenRouter.
24❤‍🔥10🌚4🤷‍♀1