Инжиниринг Данных
23.4K subscribers
1.91K photos
58 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Грокс
Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.

https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
🫡257🙈3🍾1
Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop

PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
2👨‍💻5021🍾97🗿4❤‍🔥3👾2🤷1
Forwarded from LEFT JOIN
Media is too big
VIEW IN TELEGRAM
Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.

И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.

Обсудили не только трудности.

🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?

🔜 YouTube
🔜 VK
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥479🍾5🎄32
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro


Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
❤‍🔥492🗿2
Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.

В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.

В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.
❤‍🔥3614
Как ML помогает ритейлу

В продуктовом ритейле автоматизировано множество процессов, и даже у банки сгущенки есть свой цифровой след. О том, как торговые сети прогнозируют предпраздничный ажиотаж, оптимизируют HR-процессы и принимают решения о внедрении ИИ, в подкасте «Деньги любят техно» рассказали директор по управлению данными X5 Tech Тигран Саркисов и директор по развитию искусственного интеллекта Х5 Tech Михаил Неверов.

Ведущий эпизода, начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев, обсудил с гостями подходы к построению команд и процессов, роли дата-инженеров и дальнейшие перспективы развития сервисов с ИИ, актуальных для ритейла.

В предновогоднем выпуске также подвели итоги года в Data Science и попробовали заглянуть в будущее.

Рекомендуем посмотреть эпизод или послушать его в аудиоверсии.
2
Сервис Cleve AI сделали прикольную штуку - мы даем ей ссылку на LinkedIn, а она нам создает summary за целый год.

Мне кажется я постил в этом году больше чем нас 5 лет в сумме, но когда увидел сколько другие постят (1000-1500) постов в год, понимаю, что я еще noob.

Из 3х самых популярных постов 2 было про семью и детей.

Мне кажется сейчас все стали блогерами и генерят контент и ценность LinkedIn очень сильно размывается.

Если я задам себе вопрос, чтобы изменилось, если бы не было LinkedIn? Мне кажется ничего, работу я искал через сайты для поиска работы, нетворкинг там что есть, что нет. Но альтернативы для “профессиональной” сети нет.
💯426
Финальный отзыв в этом году. Рад, что у нас получилось дожать. Когда идут отказы или еще хуже, вы прошли все собеседования и компания замораживает позицию, то очень сложно продолжать. Поэтому нужно помнить, стакан наполовину полон, а не наполовину пуст.

Ура, я получил job offer!” - Как эта фраза много значит для меня, вы наверно сможете меня понять, прочитав мою историю.

Когда-то давно я услышал пословицу: “Под лежачий камень вода не течёт”. По-английский она звучит так: “No song, no supper”. Это про меня. Я хочу управлять своей жизнью.

Мне кажется это стало гимном моего поиска работы в качестве Sr Data Engineer в Канаде.

Немного предыстории: я по образованию врач-хирург, закончил в РФ Мед Академию и 1 год отработал в больнице. Параллельно у меня всегда была тяга к IT технологиям, после появления у меня ПК в 1997 году, мой пытливый ум никогда не оставлял его.

После работы врачом я ушел на 8 лет в фармацевтический бизнес и вот тогда понял, что нужно что-то менять, мигрировать в другую страну. Я решил самостоятельно перейти в IT сектор.

Шел 2018 год. За полгода-год самостоятельного обучения фронтенду я смог устроиться на свою первую работу Frontend инженером. С этой работой в 2022 я переехал в Ванкувер, Канаду. Устроился в местную ванкуверскую компанию FE инженером. Сразу быстро стал понимать, что этого уровня недостаточно, для комфортного существования в третьем городе в мире по стоимости жилья/средней ЗП.

Захотел пойти в Data, это направление меня давно интересовало, на сегодняшний очень востребовано и с достойным уровнем компенсации труда. Стал искать больше материалов и реальные успешные истории - нашел дата сообщество Surfalytics. С ценностями, которые мне по душе - прокачка в Дате и здоровый образ жизни.

6 месяцев безостановочного стука во все двери, редактирование и рассылка резюме, мониторинг вакансий, собеседования, обучение, проекты, воркшопы, домашние задания, технические собеседования, проявление инициативы, задавание правильных вопросов. C августа 2024 мое приложение для записи собеседований (Limitless) насчитало 39 собеседований и там явно не все учтено. С января 2025 я выхожу на работу Sr Data Engineer в компанию Electronic Arts. Лучший новогодний подарок, я считаю.

Surfalytics сообщество мне дало понимание следующих вещей:

- Сориентировали по актуальным зарплатам в год или в час на контрактной основе, какие есть вилки для разных типов специалистов.
- Дали понимание, какой стек технологий актуальный сейчас на рынке и владение какими инструментами обычно хотят видеть работодатели от кандидатов в Северной Америке. Количество огромное, за что браться, что осваивать и в каком порядке - чтобы получить 80% результата при 20% фокуса на навыках.
- Кроме технических скилов (hard skills), много внимания уделяется Job Interviews Skills, Business Domain и в целом идет упор на общение с hiring manager и закрытие его pain points на примере своих “pet” проектов, которые очень приближены к реальным задачам.

Как я благодарен своему наставнику и проводнику по этому тернистому пути Дмитрию Аношину! Дмитрий создал дата комьюнити и благоприятные условия для обучения, возможностью делиться ценным опытом, помогать друг другу на этом нелегком пути. Порой когда уже теряешь веру, ты видишь на реальных примерах как у участников сообщества получается достигать результатов, прокачиваться, улучшать свои навыки как хард так и софт. Я уверен, что для нас всех стресс проходить собеседования и быть оцененным. Это опыт, который нужно пройти и получить. Но награда того стоит. Тем более для участников сообщества есть материалы, поддержка, 15 летний опыт Дмитрия в этом бизнесе.

Дальше больше! Всех обнял.


#testimmonial
283❤‍🔥57🍾30👨‍💻2🌭1🙈1
Всем привет!

В перерывах между прогулками по нарядной Москве я готовлюсь к выступлению на Data завтрак 13 января, которые мы проведем в Т-Банк.

Data завтрак: свежий старт для данных и идей!

Врываемся в 2025 год содержательно! Приглашаем вас 13 января на Data завтрак: полезные блюда помогут восстановиться после «салатной комы», а свежие Data-темы зарядят новыми знаниями о ключевых аспектах работы с данными.

Для кого это мероприятие:

Для аналитиков, инженеров данных, разработчиков и всех, кто интересуется современными подходами к работе с данными и платформами.

Что в программе:

- Дмитрий Аношин, основатель консалтинговой компании Rock Your Data в Северной Америке, специализирующейся на современной облачной аналитике. Дмитрий поделится обзором аналитических решений, инструментов и команд. Узнаем, как строить команды, справляться со сложностями и разрабатывать архитектуры аналитических решений.

- Валерий Поляков, CDO в Т-Банке: расскажет о тернистом пути платформы данных в Т-Банке — от централизованного вендорского решения до сложной экосистемы open-source компонентов. Валерий с 2011 года работает с данными в разных ролях — строил отчетность, хранилища данных, платформы данных, различные аналитические продукты на основе данных. В Т-Банке работал с 2012 по 2019 год и затем вновь в Т с 2022 года.
Нетворкинг за завтраком.


В конце мы разыграем подарки, которые я привез (на фотографии).

PS Спасибо за помощь в организации Александру Поломодову, Техническому Директору Т-Банк, автору канала Книжний Клуб @book_cube и Александре Пановой за организацию мероприятия.

Александр мне уже устроил экскурсию по шикарному офису Т-Банка. Не пропустите возможность заглянуть и познакомиться!
❤‍🔥5015💯5🌭2
Media is too big
VIEW IN TELEGRAM
С наступающим Новым годом! 🎅
Please open Telegram to view this post
VIEW IN TELEGRAM
75❤‍🔥56🎄30🍾23💯5🙈3💘1
Сегодня показали классное место в центре (Чистые Пруды) с крафтовым пивом, узнаю у них на днях как забукать этаж и можно будет собраться. Создал чатик для координации https://t.me/+ZRjFRVrMm445ZjIx по датам выберу в диапазоне 5-8 января как будет место. Каждый купить себе дринк и потрещим за дату
22🫡7🎄5🌚3🦄2🤷‍♀1
Media is too big
VIEW IN TELEGRAM
Анонс небольшого вебинара из 2х частей про dbt на русском. Чуть позже пришлю ссылку на стрим.

Мероприятие будет 5,6 января в 9:30 утра.

Всю информацию пришлю и все необходимые ресурсы.
❤‍🔥107🫡22🎄11🗿54
Роман Пономарев по классике подготовил обложку и описание:

🧠 dbt: С ЧЕГО НАЧАТЬ? | Вебинар с Дмитрием Аношиным 🚀

👋 Привет, будущие мастера данных!

Если вы хотите не просто «что-то там понимать» в dbt, а реально строить аналитические хранилища по-взрослому — добро пожаловать!

🛠 Что будет на вебинаре:
Простое и понятное введение в dbt core
Развёртывание базы данных Postgres 16 в VK Cloud
Настройка SQL-клиента для подключения (например, DBeaver)
Создание staging-схем и подготовка данных
Разработка первых моделей и знакомство с best practices
Практика на каждом этапе

⚡️ Ключевая идея вебинара:
Вы не просто послушаете. Вы сделаете. У вас всё получится.

🎁 Для кого этот вебинар?
✔️Для тех, кто хочет начать работать с dbt 🛠
✔️Для аналитиков, инженеров данных и всех, кто работает с SQL и хранилищами 📊
✔️Для тех, кто хочет научиться проектировать данные, а не просто писать запросы 🧑‍💻

🎯 Почему стоит прийти?
✔️ Это не теория. Это практика с нуля до результата.
✔️ Всё объясним простыми словами, но по делу.
✔️ Дмитрий Аношин — не просто эксперт, а человек, который делал это много раз и умеет учить.

📅 Дата: 2025-01-05
🕒 Время: 9:30 утра по мск

👉
Ссылка на ютуб
#datalearn #вебинар

PS мне кажется лучший вариант и посмотреть и послушать и потом попытаться повторить самостоятельно так как будет очень много материала. Моя главная задача показать что такое dbt, и что в нем нет ничего сложного, он совершенно бесплатный и очень полезный.

Чтобы вам было удобней запустить базу данных мы будем использовать Vk Cloud, но вы можете использовать и свою базу данных Postgres или любую другую.

Заодно VK Cloud быстренько расскажут какие у них есть аналитические сервисы (мне самому интересно послушать).

По окончанию первой части у вас будет весь день впереди попробовать все сделать самостоятельно.

Что вам понадобится:
1) зарегистрироваться в VK Cloud. Если у вас есть корпоративная почта, вам дадут 3к рублей на счет. Если личная почта и вдруг нет кредитов, оставьте вашу почту здесь до конца завтрашнего дня и вамначислят кредиты.

2) мы будем использовать Visual Studio Code или при желании вы можете использовать GitHub Codespace (бесплатная виртуальная IDE)
3) обязательно нужен GitHub аккаунт, где вы можете создать новый репозиторий для нашего проекта с пустым файликом Readme
4) Для windows вам нужно скачать Git и он вам позволит использовать Git bash вместо Power Shell. Аналог это Ubuntu на windows. На macos все и так работает.
5) мы будем использовать командную строку CLI
6) на компьютере должен быть python, чтобы использовать виртуальную среду venv.
7) если будет время посмотри на dbt в docker и CI/CD во 2й части.

Я постараюсь рассказать, что и зачем используется.

Если чего-то не знаете не страшно, но если вы работаете с аналитикой это всенеплохо знать. На английском я сделал модуль 0, где рассказал и показал все эти вещи, может посмотреть короткие видео и повторить.

Если вы гуляете на праздниках, ничего страшного посмотрите как вернётесь ! Мне больше интересно отследить насколько полезным будет материал.

Всем хорошего вечера!
💯46❤‍🔥30🍌12🤷5🎄4🌚1
Live stream scheduled for
Всем доброе утро, мы решили стримить в телеграмм вместо YouTube.

В YouTube стрима не будет.

Вот ссылка на презентацию: https://docs.google.com/presentation/d/1jJYyzUTtv6Z-Hu-udGCR-iGp-jLuSh_M-ix2fRiZQt8/edit?usp=sharing

Ссылка на то, что будем делать: https://github.com/surfalytics/data-projects/tree/main/de-projects/18_dbt_intro

И на мой конечный результат: https://github.com/dimoobraznii1986/dbt_workshop
❤‍🔥35🤷65🌚1