Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Клуб анонимных аналитиков (Alex Kolokolov)
Клуб одиноких аналитиков 🔞

Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найти нормального мужика целевую аудиторию и повысить конверсию.

Тут непаханое поле для аналитики, много аналогий с бизнесом.

📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения

Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%

Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%

Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽‍♂️

📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.

А еще по аналогии со старой и новой клиентской базой - френдзона! Все ваши симпатии из прошлого, которые сейчас тоже могут быть в поиске. Иногда достаточно пары сообщений, чтобы дойти до «К тебе или ко мне?» без всех этих свайпов.


В любой непонятной ситуации мы делаем дашборд. Вышло аж в двух версиях (у мужчин и женщин метрики разные)

🤓 Если вы тоже вместо встреч с незнакомыми людьми хотите провести вечер за анализом графиков — ставьте ❤️ и пишите ваши предложения по метрикам любви
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥42🌚19126🍌4🤷1
Несмотря на то, что datalearn уже не развивается, несчитая редких, но очень интересных вебинаров (кстати, когда у нас про Dagster там следующий?☺️) и чата (@datalearn_chat) для студентов, я все еще считаю его отличной базой для самостоятельного изучения и вхождения в профессию связанную с аналитикой и дата инжинирингом для людей, которые не из мира ИТ, как я когда-то был.

PS ничто не принесет вам столько ништяков как создание бесплатных курсов👉 и я не устаю повторять - все самое лучшее бесплатное!💪

Публикую отзыв:

Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)

Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.

Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.

Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥103💯2014
Business_Intelligence_Engineer_Role_Guideline.pdf
466.7 KB
Гайд ролей BI разработчиков в Amazon
❤‍🔥25
Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную зарплату с современным стеком.

Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.

Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.

Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜

PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.

Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись🤑
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥61💯137🫡7🌚11
Forwarded from Книжный куб (Alexander Polomodov)
Краткий обзор платформы данных Т-Банка (Рубрика #Data)

Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны

1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным

Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.

#Data #Database #Architecture #Software #Engineering #PlatformEngineering
17❤‍🔥13🫡51
https://www.ssp.sh/brain/data-engineering-toolkit/

Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.

Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear 😜
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤‍🔥9👨‍💻1
Сегодня выступил удаленно на митапе Юmoney в Питере про dbt, презентация https://docs.google.com/presentation/d/17deTqSeuSjHIVLIWxQ3QIt40o9gKL8k6bmg1WxtPmcU/edit?usp=sharing

Пример репозитория: https://github.com/dimoobraznii1986/dbt_workshop_vk/tree/main/models

Если есть вопросы, пишите в комментах.
❤‍🔥24🐳115
В комментарии к прошлому посту был вопрос:

В ETL-процессе на стадии Transform имеем много DAG’ов с большой Python-логикой, основанной на Pandas, внутри от аналитиков данных. В итоге такой типичный DAG занимает 30–50 ГБ RAM в Airflow и может отрабатывать несколько часов. Как такие DAG’и с Python внутри переносить на dbt?

Паттерн использования Airflow, чтобы выполнять Python (Pandas и т.п.), очень понятен и удобен, особенно если вы делаете пет-проекты, изучаете Airflow или Python. Возможно, это хороший вариант для небольшого MVP, но в продакшн лучше такое не тащить. У нас получается монолит, который трещит по швам, и из-за плохого запроса может всё упасть.

То есть, первое, что нужно сделать - признать проблему и признать факт, что данное решение не оптимально. Уже не важно, кто и почему хочет его использовать. Вопрос в том, какие есть альтернативы и как смигрировать с номинальным downtime для конечных пользователей.

На всякий случай для читателей - Airflow - это инструмент оркестрации. Он создан для того, чтобы запускать наши data pipelines (jobs) по расписанию. Это очень популярный инструмент в мире, и прям number one в РФ среди open-source инструментов. Его назначения - запускать задачи по расписанию.

Из-за того, что DAGs (jobs) мы пишем на Python, так и хочется сразу всё сделать внутри одного job. Но лучше так не делать.

Какие есть альтернативы? Конечно, среди них есть и dbt, но мы же не хотим на том же самом инстансе запускать dbt, где только что был Pandas.
1. Вместо Pandas можно попробовать PyArrow, Polars или DuckDB (pyduck) — просто ради интереса сравнить потребление памяти. Но в любом случае, мы не хотим запускать вычисления там же.
2. Вопрос про то, как мы хостим Airflow? Мы же можем использовать Managed Airflow в отечественном облаке, можем хостить на виртуальной машине, в контейнере или в поде (Kubernetes).
3. Например, если мы хотим дать возможность запускать Python/Pandas/DuckDB-скрипты, то нам всё равно нужно место, где это делать. Один из вариантов — использовать паттерн, в котором каждая программа (job/DAG) будет выполняться в своём контейнере. Например, мы запускаем DAG, а в нём task запускает Pod/Container с нашей логикой. Если не хватит памяти, то на Airflow это никак не повлияет.

Точно так же и dbt. Самый главный вопрос — где будет compute, который будет запускать dbt? В случае контейнеров и подов, можно просто запустить Airflow DAG, который возьмёт образ с dbt из регистра и запустит его.

А сама миграция с Pandas на dbt — это по сути миграция Pandas DataFrames на SQL. В dbt будет легче организовать модели (SQL-файлы), установить naming standards, добавить тесты и документацию. Появится lineage и зависимости.

Я, конечно, могу ошибаться, но когда я слышу про Pandas в проде - это мне напоминает «куяк-куяк — и в продакшн, потом починим»

А как у вас с custom Python, где вы его выполняете и что делаете, когда не хватает памяти?
❤‍🔥29💯13🙉1
У нас были data drinks в Seattle, Chicago, LA, NY.

Теперь давайте сделаем в Париже, Ницце, Монако🌴

Как раз планировал там побывать в конце июля начале августа. Как обычно я сделаю группу, пишите если вы в тех краях и что-нибудь придумаем!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥316💯4
Сейчас во многих компаниях проводится quarterly performance reviews - то есть оценка вашей производительности как аналитика, менеджера, инженера.

Как правило, мы сами себе готовы поставить самый высокий балл из возможных, но менеджер вряд ли согласится с таким раскладом и в лучшем случае скажет meet expectations — типа всё оки, работаем дальше.

Как же быть в такой непростой ситуации?

* всегда документируйте свои достижения
* создавайте артефакты - документация, playbooks, технические документы (System Design), документы по принятию решений (DACI/RAPID)
* перед началом цикла уточните, каким образом можно будет измерять ваши цели, на что обращает внимание руководство
* во время каждой встречи 1:1 используйте время, чтобы оценить прогресс по вашим целям
* ищите возможность взять дополнительную ответственность, а главное - облегчить жизнь вашего линейного руководителя

Это базовые вещи, о которых мы часто забываем. Опасность кроется в другом - я называю это false expectations, когда мы сами себе придумываем цели и результат, много работаем на достижение этих целей, а потом оказывается, что это никому не нужно. Как результат - выгорание, потеря вовлечённости, поиск новой работы. Что вообще-то всегда хорошо лично для вас, потому что job security это миф.

Поэтому перед вами развилка - вы хотите играть в эту игру по корпоративным правилам, где важней видимость вашего труда, где есть конкретный impact на бизнес‑задачу в ущерб всему остальному. Или вы просто работаете в комфортном для вас режиме без каких-либо ожиданий.

А теперь посмотрим на обратную сторону медали, когда вы - менеджер и вам нужно оценивать ваших инженеров. Вам, скорее всего, придётся забыть, что вы сами были инженером и вас оценивали вдоль и поперёк.

* Вам нужно установить чёткие цели для команды и для каждого инженера в отдельности. Цели должны быть измеримы и иметь чёткий impact на бизнес, даже если мы говорим про обработку 50 гигабайт данных в оперативной памяти с помощью Pandas.
* 1:1 ‑ встречи - ваш главный инструмент для отслеживания и корректировки целей. Вам важно контролировать ситуацию, чтобы на performance review не было сюрпризов, которые потом выльются в увольнение инженеров.
* Общайтесь с другими департаментами, чтобы лучше понимать фидбек о вашей команде и инженерах
* Во время процесса оценки лучше разделить личностный рост и рост компенсации — не смешивайте эти две вещи
* Имейте чёткую карьерную лестницу с уровнями и ожиданиями от инженеров и помогите разобраться в ней вашим инженерам
* Старайтесь избегать эмоциональных ответов и прокачивайте soft skills. Если инженеру ещё простительно ляпнуть ерунду, то менеджеру уже нет.
* К сожалению, как и в HR, менеджеру важно думать, что будет хорошо для компании, а не для инженера
* Обязательно постарайтесь найти бюджет на команду, чтобы отправить их на курсы, конференции
* Найдите бюджет на team building - желательно не поход в кино, а недельную поездку к морю или экспедицию на Дальний Восток
* Если инженер себя переоценивает (все мы bias), то лучше сразу привести пример, почему он не прав
* При любом удобном случае хвалите команду
* Всегда учитесь, теперь вам надо понимать не только технические аспекты решения, но и психологию, эмоциональный интеллект. Читайте профессиональную литературу и прокачивайте soft skills.
2💯58❤‍🔥17🙈5🫡2🐳1
Пока мы фиксим Airflow DAGs, учимся не страдать и не выгорать на работе, тут такие страсти происходит, каких наверно data сообщество еще не встречало. Ну хоть какой-то движ в вендорах. Из последнего только Fivetran купил Census:)
24😈15🌚5🐳3❤‍🔥2
Snowflake Generative AI Deep Dive - March 2025.pdf
7 MB
Презентация про Snowflake Cortex AI, в который вы найдете AI возможности платформы Snowflake.

Все у кого есть снежинка трудятся над их внедрением, я пробовал некоторые из решений GenAI, ML, но все они одинаково плохо работали для меня из коробки.
8❤‍🔥1