Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
discover.pdf
9.6 MB
Чтобы получить канадское гражданство, нужно сдать тест на знание истории Канады, прав, законов, государственного строя, населения и много еще чего. Если кому интересно посмотреть факты про Канады, то вы найдете их в этой небольшой брошюре.
Для тех, кто регистрировался на https://datalearn.ru :
Мы обнаружили, что многие из вас не знают про то, что у нас есть гит и думают что у нас только уроки на ютубе.

Ютуб без гита бесполезен...

В слаке многие из вас не знают что у нас много каналов и каждый канал посвящен своей теме и на самом деле все очень удобно

В связи с этим всем вопрос: накидайте предложения как сделать навигацию удобной, чтобы люди те кто регистрировались знали про слак и гит, может подскажите где лучше всего на сайте разместить инфу.
Часто-задаваемые вопросы про Tableau & Power BI на собеседованиях
1610112167537.pdf
2.4 MB
Февраль 2013 года, начало облачного DW. В приложение paper про Amazon Redshift.
Очень крутая статья про hiring. Кстати, согласно этой статье, самые крутые data scientist - музыканты.

Еще интересная история про compensation:

Once you’ve made an offer and hired someone, you need to keep assessing compensation. I learned this during a period when Netflix was losing people because of exorbitant offers from our competitors. One day I heard that Google had offered one of our folks almost twice his current pay, and I hit the roof. He was a really important guy, so his manager wanted to counter. I got into a heated e-mail exchange with his manager and a couple of VPs. I wrote, “Google shouldn’t decide the salaries for everybody just because they have more money than God!” We bickered for days. They kept telling me, “You don’t understand how good he is!” I was having none of it.

But I woke up one morning and thought, Oh, of course! No wonder Google wants him. They’re right! He had been working on some incredibly valuable personalization technology, and very few people in the world had his expertise. I realized that his work with us had given him a whole new market value. I fired off another e-mail: “I was wrong, and by the way, I went through the P&L, and we can double the salaries of everybody on this team.”
... “We also encouraged our employees to interview elsewhere regularly. That was the most reliable and efficient way to learn how competitive our pay was.

Это реально классно, когда можно агрументировать свою зарплату, сколь ты заработаешь денег компании. Я вот не могу, отсюда мои трудности с переговорами. Моих агрументов, что на рынке получают (быстренько гуглю максимум) X, и я получаю тот же X (+ бонусы конечно) не всегда прокатывает, и максимум, что можно получить это X - 20%-30%, что по факту будет на 50% больше текущей зарплаты. Но это не тот заветный X, о котором мечталось…

Получается, чтобы много зарабатывать недостаточно быть data engineer/scientist или manager. Нужно понимать как мы можем добавить ценности компании, почему они должны нам платить выше рынка и тп. С этой точки зрения вопрос зарплаты и ее размера становиться очень прозрачным.
Forwarded from Reveal the Data
Guide_to_Dashboard_Design.pdf
5.2 MB
A Guide to Creating Dashboards People Love to Use

Хороший гайд по разработке дашбордов. Всего понемногу и по делу, в институте такое называли методичкой. Только картинки устаревшие, так как выпущена 10 лет назад, но принципы это не отменяет. =)

#ссылка
У PacktPub есть классная возможность быть техническим ревьевером. Например, сейчас я проверяю 2 книги:
- Machine Learning Engineering with MLFlow - Я не использовал ML flow вообще никогда, и это будет отличная возможностью изучить технологию и пройти все упражнения
- Cloud scale analytics with Azure Data services - Тут наоборот, я хорошо знаю Azure Data Platform и больше сканирую книгу на здравый смысл.

Так же они еще предлагали проверять книгу по AWS Glue, но я уже переключился на Azure. И Еще была книга про Power Platform. В общем, если вы хорошо шарите в современных технологиях, то можете написать Arindam Majumder <arindamm@packt.com> ему часто нужно технические ревьеверы, и возможно еще нужны по Glue, MLflow и Azure. И можно в PacktPub добавить свой профайл, чтобы приходили.

PS За это не платят, но для меня это удобный способ свежие книги читать по теме.
1610312318532.pdf
1.4 MB
Excel cheatsheet
В своем докладе про 5 лет в Амазон я рассказывал про один из ключевых моментов для ML и Data Engineering проектов - data quality. Так как мы использовали Spark (поверх Elastic Map Reduce aka Hadoop) для feature engineering, то для качества данных и unit tests использовали (и продолжают использовать в Амазоне) библиотеку Deequ, которая была написана на Scala. А сейчас вышла версия для Python - PyDeequ. Если у вас ETL на Spark, то для вас это самое главное решение по качеству данных. Ну для DataBricks и Delta Lake подойдет.
Пока мы в свои 20-30+ думаем, чем бы нам заниматься и где развиваться, некоторым удается в 10 лет сделать больше😜 Я в 10 лет мог из лего замок построить, кстати он еще со мной в Канаде, мое приданное. И он стоит на Ebay 500US$ (собранный). Лего еще та инвестиция! Вообще с лего интересно получилось, все свое лего так бережно берег для своих детей, а оно у них повсюду валяется, все перемешано и сломано… Но замок лежит в гараже до лучших времен.☺️
В последнем видео про ETL я рассказывал про ETL подсистемы и одна из них называлась Late Arriving Dimensions. Скрывать не буду, особо никогда не пользовался этим подходом. Вот довольно простое видео от Matillion на примере Snowflake.

А если у вас не хранилище данных, а озеро, в нашем примере delta lake, то там тоже можно реализовать этот подход.
Новый вебинар от Романа:

Друзья, приветствую всех!
Вот и польза подоспела сразу после праздников.
В среду (13 января) в 20:00 по мск вебинар!

Тема: Data команда. Цели, структура и управление
Спикер: Владимир Лагутинский, профессионал с 10-ти летним опытом в данной теме
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В среду в 20:00 быть на вебинаре

Всех обнял, до встречи в эфире
🤗
И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
https://youtu.be/NLOq7GC7zA8
Родители у меня орнитологи и работают в Московском Зоопарке, в принципе я там и вырос, и водил свою будущую жену на свидание покормить пеликанов. Они несколько раз посещали Канаду и отец кандидат наук по птицам и хорошо в них разбирается и у него много научных статей по этой теме. Я ему помог освоить medium, где он написал мини рассказ про животный мир Британской Колумбии, если кому интересно, можете прочитать.
Это пять!
Интересное решение - google big query позволяет читать данные в другом облаке. Это уже тренд на multicloud и пример как вендоры адаптируются, ну и со снежинкой конкуренция. Раньше bigquery умел читать только данные из своего google storage.