Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Еще один Success Story для Surfalytics от Максима из Онтарио.

Бэкграунд:
Закончил железнодорожный университет в Новосибирске по специальности инженер, информационные системы и технологии.
После универа начал работать инженером тех поддержки в международной компании, затем продолжил как технический писатель, после чего перешёл в технические проджект менеджеры и проработал около 13 лет. Из инструментов немного использовал SQL для простых запросов и Python для автоматизации отчётов. Английский был на уровне intermediate, разговорный практически на нуле. Поэтому до переезда нашел репетитора и начал заниматься с упором на разговорный. За полгода занятий поднял до уровня upper-intermediate / advanced, которого уже было достаточно для прохождения интервью.

В Канаду переехал вместе с семьёй в декабре 2022, 10 месяцев назад.
После переезда по инерции начал искать работу проджектом. В процессе откликов понял что хочу сменить сферу и выбрал направление аналитики данных.

Определиться с направлением (ответить на вопрос Куда?) - это большое дело. Но мне было совершенно непонятно Как туда идти, а куча курсов, ресурсов, информации делали это еще сложнее.
Через нетворк в LinkedIn я узнал про Диму и data learn. Это помогло мне получить понимание и ответы на вопрос «Как?»
Ещё было очень полезно оказаться в группе Surfalytics bootcamp, в которой мы обсуждали вакансии, ЗП вилки, помогали друг другу улучшить резюме и даже созванивались для подготовки к интервью.

Поиск работы
1 раунд поиска
С мая по октябрь 2023
Откликов - 210(+40) шт. 210 отмечал в экселе, около 40 откликался через easy apply на LinkedIn и Indeed без отметок в экселе, поэтому цифра 40 примерная
Приглашений на интервью - 14 шт.
Оферов - 1 шт:
Senior Data Analyst в technology solutions provider - 110k base salary + 15% annual bonus
В процессе много экспериментировал с резюме с целью повысить конверсию в приглашения, всего было около 10 версий резюме.

Что учил:
Активно начал заниматься с середины марта 2023

- Прошёл SQL курс на DataLearn
- Прошел 3 модуля DataLearn
- Решил практически все задачки по SQL на DataLemur
- DBT fundamentals course
- Курс Google Data Analytics на курсере (8 модулей)
- Visualization with Tableau program (5 модулей)
- Прочитал Lean Analytics
- Подготовил портфолио
1 Excel project
4 Tableau projects
1 Power BI project
2 SQL projects
2 Python
1 data engineering project with deployment BI solution in cloud and data modeling (Amazon Redshift and Tableau Server Linux on MS Azure cloud)
- Освежил знания по Python и pandas, прошёл несколько курсов по python, в т.ч. на kaggle. Сделал выжимку из прошедших ранее курсов в виде Jupyter Notebook

К каждому раунду интервью готовился по несколько часов. Активно пинговал рекрутеров через LinkedIn и по e-mail после откликов

Делал записи интервью для разбора ошибок и подготовки ответов на вопросы, по которым затупил.
❤‍🔥12215💯4🍌3🗿1
Если вы еще не знакомы с dbt, то стоит обратить внимание на этот инструмент, который умеет работать с вашими SQL запросами и превращать их в SQL модели и собирать из них Directed Acyclic Graph, ну то есть выполнять ваши SQL запросы модели по очереди. А еще можно макросы писать (каждый раз пишу это слова и немного вздрагиваю от мысли о VBA макросах). В dbt все попроще с этим, там jinja - близко к питончику. А еще dbt умеет те же модели, но на Python. Хотя excel тоже уже умеет на питоне, даже мой сын в 11 лет немного умеет))

Ладно, 16-19 октября будет у них конференция в Сан Диего, но можно и онлайн записаться - https://coalesce.getdbt.com/register/online
💯12🐳3
Недавно у нас был вебинар LLM / Большие языковые модели / Самообучаемый чат бот на котором Сергей Христолюбов и Роман Чуприков рассказали про большие языковые модели, LLM, а также как работать с ботом, его исходники и пояснение.


Сергей попросил проголосовать за его бота:
1. Зайдите на сайт https://productradar.ru/
2. Войдите с помощью яндекс или google
3.
Проголосуйте за WikiBot - он №1 в списке WikiBot - Сервис по созданию чат-бота для поддержки клиентов. WikiBot обучается на вашей базе знаний и отвечает как человек.



Давайте поддержим хороших ребят.
🐳11❤‍🔥2🌭1
Пока одни вендоры думают как им сделать real time решения, побольше новых фич и сервисов, Microsoft fabric заморачивается с иконками🏖
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚17🦄103🗿3🙈2
Building an Observability Startup: Chronosphere - статья от Pragmatic Engineer. В статье автор рассказывает про инженера, который поработал в Microsoft, потом AWS, где трудился над observability для виртуальных машин и создал сервис AWS System Manager, затем создавал observability систему M3 в Uber и уже потом создал продукт Chronosphere и получил под него инвестиции.

В этой истории мне понравилось, что мужик всю жизнь занимался +/- одним и тем же и потом решил сделать продукт по своей теме. Достаточно популярная история.

Но я задумался о другом - о возможностях. В Северной Америке я вижу много успешных кейсов, когда студенты computer science уже после 3го курса попадают в FAANG на стажировку, а после окончания учебы уже работают на полную ставку. Я сам наблюдал, как приходят стажеры в Amazon, быстро учатся, через 1-2 годика уже в штате, через 1-2 годика уже senior. Было очевидно, что компания делает на них ставку, поощряет их и инвестирует в них.

Для них все выглядит просто и они плывут практически по течению карьерного роста. Конечно, надо напрягаться, учиться, и еще раз учиться. В LinkedIn я часто вижу как вчерашние junior сегодня уже staff инженеры и рассказывают о высоких зарплатах и продают консультации по 200$ в час, где вам могут дать пару дельных советов.

Со временем я осознал, что мой тернистый путь, совсем другой. Что для стажера местного университета роль и должность сеньора это вполне достижимый результат за короткий срок, главное попасть в хорошую компанию. Для меня же, иммигранта, инженера конструктора с тремя детьми это почему-то никогда не работало.

Все таки, хороший старт очень важен, а если он еще произошел в 20 лет, а не 35, то вообще будет замечательно. Но мне кажется, что "хороший старт" это не про большинство моих читателей, у всех свой "тернистый" путь, он тяжелый, и чтобы достичь более менее такого же результата нам придется постараться и сделать намного больше. А если мы еще хотим и зарплату как в долине, но это уже тогда вообще придется как следует впахивать на старости лет. Хотя это же относительный термин, кто-то и в 70 себя на 20 ощущает.

У меня вот есть самовар на дровах, и если вдруг не будет электричества, я всегда смогу скипятить чайку, а вот все эти инженеры из долины не смогут, так что не все так плохо!
💯56👨‍💻25❤‍🔥108🌚4
16 по 20 Октября у Microsoft будет онлайн ивент - Airlift. Раньше не слышал про такое событие, там будут секции про Data&AI, где будут углубленные сессия по аналитическим решениям.

Основные бенефиты:
- попрактиковать английский
- понять куда Microsoft двигает аналитическую индустрию
- узнать больше про новые продукты и use cases (Power BI, Fabric, Synapse, Databricks, Azure ML and etc)
🌚9🎄5👾1
Зак все правильно говорит - много работы, проектов, ad-hoc запросов вам не помогут получить промо, да и вообще будут проблемы с результатом, потому что во всей это билиберде (или белеберде) мало ценности, много лишних телодвижений, сообщений, и активностей, но для руководства и бизнеса это бесполезно.

Поэтому на работе попробуйте понять какие проекты ценны, и какие люди важны для вашего промо и фидбека, и работайте на них. Все хотелки от пользователей (если это не директор/vp) можно слать лесом.
💯35🫡29❤‍🔥4🤷‍♂41
Очень интересный кейс https://medium.com/@laurengreerbalik/hightouch-is-just-blindly-copying-rudderstack-2e80dba56b27

Когда один инструмент копирует код из другого инструмента, а другой инструмент копирует его из 3го. Целая драма. А если написано Лаурой то вообще атас😐

А вот ее пост из за которого ее блокнул LinkedIn https://t.me/rockyourdata/3730
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚6
Только булки все расслабили, а тут опять увольнения, да еще в серьезных компаниях 😞
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿29🫡8🐳2🌚2😭1
Forwarded from Книжный куб (Alexander Polomodov)
Why Most Data Projects Fail and How to Avoid It • Jesse Anderson • YOW! 2022

Интересное выступление про data проекты от Jesse Anderson, автора книги "Data Teams". Автор говорит о ключевых вопросах, которые стоит задать при старте проектов
- Who - Автор говорит про правильный состав команды для data проектов. Собственно автор про это написал целую книгу и он говорит про баланс data scientists, data engineers, operations.
- What - Автор задает вопрос про бизнес значение того data продукта/проекта, которым вы занимаетесь. Автор говорит о том, что фразы "Мы делаем AI" от CEO не хватает для data strategy:) В общем, надо понимать как ваш проект принесет ценность для бизнеса. Причем помимо стратегии нужен план и его execution. Особенно во времена, когда tech компании занимаются сокращениями в направлениях, что не приносят деньги.
- When - Автор говорит о том, а когда эта бизнес ценность будет создана. Нужен проект с понятными временными границами, чтобы он не был слишокм долгим, чтобы быть отмененным где-то посердине и не слишком коротким, обещающим золотые горы, которым на самом деле будет невозможно соответствовать.
- Where - И вот мы наконец-то добрались до первого технического вопроса, а где собственно эти данные будут обрабатываться, как будет выглядеть архитектура решения. И тут для ответа тоже не хватает фразу "Мы будем использовать технологию XYZ вендора ABC". Проблема в том, что вендор может пообещать все что угодно, но это обещание не факт, что выполнимо, более того, не факт, что оно оптимально для заказчика:)
- How - Здесь речь идет про план выполнения и про фокусировку на приоритетных направлениях. Хотя часто такие data проекты пытаются успеть сразу везде, а дальше теряют эффективность на context switches и застывают на месте, переставая генерировать какую-либо ценность кроме рассказов о наступлении AI:) Автор интересно рассказывает про то, как бизнес заказчикам перпендикулярно на конкретные технические решения, но важно какую бизнес-ценность они могут получить по результатам выполнения плана.
- Why - Автор задает вопрос, а почему же эти данные обладают ценностью? Просто отгружать данные и гонять ETL/ELT пайпланы не достаточно. Важно понимать как использование данных в новых проектах позволит обеспечить нужный ROI (return on investments), причем автор говорит о том, что он ищет 10x ROI для data проектов

Напоследок автор говорит о том, что для AI и data проектов важно понимать, что такие проекты сложны и требуют навыков, людей и организационных изменений для своего успеха. И это достаточно сложно и не все способны приносить пользу в таких проектах. Конкретно, автор рассказывает про то, что если запускать data и AI проекты внутри DWH команд, то такие проекты обречены на неудачу ("the team where good data projects go to die). Это обусловлено не тем, что DWH технологии плохие, а потому, что это скорее проблема людей ("people problem"), которые очень специфично разбираются с проблемами и очень специфичным образом выстраивают свою работу. В общем, автор говорит о том, что эта не та команда, которая должна отвечать за data и AI проекты нового типа.

В конце автор рассказывает о том, как можно получить помощь с такими проектами за счет аутсорсинга (если у компании нет своей инженерной команды и культуры), за счет привлечения консультантов (правда, автор говорит о том, что консультанты по менеджменту типа BCG, Bain, Mckinsey зачастую не обладают компетенциями для помощи в таких data проектах). В конце автор упоминает свою книгу "Data teams", которую он написал для менеджеров, которым предстоит запускать data и AI проекты.

P.S.
Мне автор продал свою книгу, поэтому я добавлю ее в свой long list на чтение:)

#Management #Leadership #Data #DataScience #AI #Engineering #Software #SoftwareDevelopment #ML
❤‍🔥226
К гадалки не ходи, понятно, что лучше удерживать народ, чем потом искать замену. Но никто не хочет этого делать, вдруг дешевле все таки использовать свежие кадры💀
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19💯13🙈1
Spark Data Skewness.pdf
860.4 KB
Маленькая презентация про Data Skew (перекос данных) в Databricks.

Перекос данных известный термин при работе с распределенными системами (Redshift, Synapse, Hadoop и тд). Можно сказать это фундаментальная вещь. Но решается в каждом продукте по своему.
🫡179
Классная математика увольнений 🧮
🙈19🗿62
В статье Working at a Startup vs in Big Tech автор сравнивает работу в стартапе и большой компании.

В табличке как раз хорошо отражены + и -. Сам я практически всегда работал в Big Tech, как-то надежней, но всегда получал и продолжаю получать Misaligned Incentives (точее ничего не получать).

А как вы считаете, где лучше?

Мне кажется лучше работать в стартапе типа Apple, Google в 90х или Lyft, Uber, Airbnb в 2000х и потом плавно вырасти в Big Tech и уйти на пенсию через 10 лет работы после IPO😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11🌚6💯3🗿2
Бизнес, данные и кибер-футуризм: Alfa Data Science Meetup #3 🪩

27 октября в Екатеринбурге пройдет хардовый Alfa DS Meetup #3 Business. Участникам предложат посмотреть на ценности, метрики и особенности CLTV через призму бизнеса и аналитики.

Ребята из Альфы расскажут о том, как успешно справляются с рутиной с помощью машинного обучения, а также всех гостей ждет два отдельных трека докладов.

Только для очных зрителей будет доступна закрытая панельная дискуссия с приглашенными спикерами из билайна и СберМаркета про особенности разработки и применения моделей CLTV и Networking Party.

Когда: 27 октября в 19:00 (по местному времени)

Где: г. Екатеринбург, ул. Горького, д. 7А (офис Альфа-Банка) + онлайн-трансляция

Успейте зарегистрироваться на митап по ссылке — количество мест ограничено!

Реклама. АО "АЛЬФА-БАНК" erid: 2Vtzqxm7VW4 шла
🗿32🌭1
ML-инженер Газпромбанка опубликовал на Хабре статью про автоматизацию переобучения моделей в банковских условиях. Когда на работу влияет не только финансовая специфика, но и куча регуляторики с требованиями безопасников (нет того же Git LFS).

Текст об параллельном выполнении процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.
😭117👨‍💻3❤‍🔥2🌚2
Мой бывший коллега Андрей Менде ищет человека:

Привет!

Я ищу инженера и/или аналитика данных на проект. Сразу предупрежу, что это не трудоустройство, имеет смысл вписываться если вы хотите добавить себе в портфолио интересный кейс и попрактиковаться за вознаграждение.

Сервис аренды автомобилей систематически логировал в ClickHouse все поиски, клики и бронирования, которые делали клиенты.

Задача состоит в том, чтобы попробовать определить случаются ли ситуации, когда недостаток предложения автомобилей в определенном сегменте приводит к тому, что клиентам скорее всего нечего бронировать, и выдать рекомендации каких предложений нужно добавить в инвентарь, чтобы избежать падения конверсии.

Писать в телеграм
@andrewmende

Ок кстати еще и на data learn выступал - Data science и Product Management

Для опыта будет неплохо вам поковырять реальные данные, заодно можно и refference попросить на будущее к нему в компанию (booking)
❤‍🔥219👾1
Чувак просто жжет со своими курсами. Отличная мотивация для меня, повешу себе на стенку, чтобы не чиниться, а то так и придется еще долго на “дядь” трудится, чтобы столько зарабатывать👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚2716🐳5💯2