Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Screenshot_20200223-195635~2.png
368.9 KB
Согласно отчету dice, data engineer #1 вакансия по востребованности. В прошлом году это был data scientist, а до него был big data specialist. А ещё где-то был специалист по визуализации. https://techhub.dice.com/Dice-2020-Tech-Job-Report.html
Planning a Power BI Enterprise Deployment.docx
11.9 MB
Отличный документ про планирование и внедрение Power BI. Есть ли у вас еще интересные материалы про Data Governance для PowerBI?
В коллекцию картинок. В общем устал я от GIMP, где в ручную надо все делать, и сделал теперь в canva. Получилось классно.
Обожаю эту фотографию Ванкувера, везде ее вставляю и оттенок оранжевый
Март напряженный:
4 Марта Snowflake Data Breakfast и потом Snowflake User Group. Заняло много времени, чтобы пробиться к Snowflake. Получилось через community. Я буду там выступать, и договорились провести user groups в Торонто, Калгари и Монреале, и должны все оплатить за перелеты. Юзер группы это круто, где есть доступ к аудитории, там и клиенты. Я буду рассказывать про Cloud Analytics Fundamentals + приколы про Amazon Redshift, который 128 нод.

11 Марта - Vancouver User Group, я теперь и в Виктории, и в Ванкувере являюсь администратором. Долго пробивался к ним, теперь есть доступ ко всей аудитории и заодно я смогу выступать там. Я буду рассказывать про Tableau Prep.

17 Марта - конференция Microsoft - SQL Saturday, я сделал Rock Your Data спонсором (всего за 500$) и буду тоже выступать про Azure Data Platform.

Еще я должен подготовиться к собеседованию в University of Victoria, я подался на преподавателя курса по Data Analytics, это будет финальная презентация. Денег там мало платят, но зато хорошо для связей.

Несмотря на такое большое кол-во мероприятий, сложно все это монетизировать, но мы не сдаемся.

Кстати я видел есть в Москве официальная Tableau User Group, если в апреле приеду на конференцию, то нужно будет организовать ивент.

Про курс обещанный я не забыл. Думаю, вот на каком фоне видео записывать, надо поторопиться, пока загар не сошел))
Снова и снова пишут про data literacy. Идея в том, что руководитель в любой оранизации должен говорить на языке данных, должен понимать данные и уметь использовать базовые инструменты для работы с данными (отчет, дашборд, визуализация)
Если вы работаете с Big Data, то вы часто работаете с продуктами Apache (Hadoop, Hive, Kafka). Так же вы слышали про Data Lake, особенно в контексте облака, где много инструментов, чтобы быстро его создать. Когда мы храним данные в озере данных, или вообще работает с большими данными, важно использовать правильный формат данных. Вот хорошая статья про Apache Parquet. Отличная компрессия (10x) и возможность партиционирования, сделала это формат лидером.
Я писал уже, что Redshift выпустил новый кластер RA3. Главная фишка - это разделение compute/storage. В качестве основного storage теперь S3. Очень напоминает Snowflake. Я написал не большой пост про это https://medium.com/rock-your-data/meet-a-new-generation-of-redshift-data-platform-ra3-e65544920866
A group of ex-NSA and Amazon engineers are building a 'GitHub for data' https://techcrunch.com/2020/02/20/gretel-nsa-amazon-github-data/
Data-for-Breakfast-Master-Deck-Q1-2020_FINAL.pdf
16.7 MB
Самая свежая презентация про Snowflake.
Наконец-то Quicksight опубликовали галлерею дашбордов для индустрий https://aws.amazon.com/quicksight/gallery/
Хочу поделиться советом, очевидным, но важным для повышения. Когда мы приходим в новую компанию, мы думаем, что поработаем годик, полтора и нас повысят.

Потом мы уже начинаем общаться с менеджером про повышение, и оказывается, что это не так просто. Возникает множество труднестей.

Но все сводится к одному - мы не обсудили scope, не поставили цели. Если бы в первый день работы, у нас были четкие цели на следующий год, которые вам поставил менеджер, и вы все выполнили по пунктам.

В общем, если есть цель расти, обязательно обсудите цели, что вам нужно сделать и закрепите это на бумаге. Звучит просто, но этого никто не делает и через год, полтора люди разочаровываются и ищут другую работу.

Вы ставите цели перед тем как начать работать в новой компании?
Еще одна статья про коллаборация data engineers, analysts and data scientists. Мне особенно понравилось, как автор называет знакомые нам вещи другими именами (можно сказать синонимами.

Сначала он рассказывает, чем они занимаются:
1)Releasing analytics products - это тоже самое, что делать BI, дашбордики, отметики, витрины данных и тп (кстати давно не слышал это слово)

2)Industrializing machine learning pipelines - делают data science, наверно модельки на python и дальше их уже деплоят.

Дальше он про challenges Releasing analytics products:
1)Translating business rules to code - это старо как мир, понять бизнес логику и засунуть ее в отчет или analytics product.

2)Scheduling data aggregations/consolidations - ну это ETL. Логика их п1 нужно поставить на расписание, и как правило когда рассчитывают метрики, данные агрегируют.

Потом он пишет Our data lake is on BigQuery, и я не против, так как грань между Data Lake и Data Warehouse стирается, и теперь есть Data Platform и к ней SQL интерфейс.

Our scheduling tool is Apache Airflow - то есть для ETL у них open source, про него вы слышали. Логика ETL написана на Python т обязательно есть процесс CI/CD и версионность в GitHub.

Теперь про Industrializing machine learning pipelines:

Все как обычно - training, prediction, and evaluation. Мне еще понравилась фраза: Machine learning blueprint. Я пока не использовал ее в своем лексиконе.

Походу тексту я заметил такую цитату: Have you ever realized after a long debate that you were all talking about the same thing from the beginning but using different words? Мне кажется автор в таком стиле всю статью написал:)

===

Что касается терминологии, сейчас сильно поменялась терминология. Например, я просматривал вакансии и теперь уже пишут не Директор BI, а Директор Data Platform и тп.

Так как с консалтингом у меня был затык в продажах, то я решил практиковаться с C-level. Для этого я откликнулся на вакансии типа Director Analytics, Director Data Platform и тп в Ванкувере, Сиэтле, Бостоне и Калифорнии, и общаюсь с CFO, CTO, CMO. Таким образом, я изучаю нужны компаний, узнаю сколько где платят, и получаю опыт общения с топами. В принципе я уже понял что нужно говорить и разряда - Моя задача помогать компаниям достигать бизнес целей с использованием данных и аналитики (заработать деньги, сократить косты и устранить риски), разработать дата стратегию и видение и внедрить ее, используя инновационные решения.

По опыту точно скажу, собеседование это лучший опыт для развития навыков, вам бесплатно проведут срез знаний, вы поймете, где у вас пробелы, так же вы научитесь бороться со стрессом и получать удовольствие от процесса, а как бонус можно слетать на выходные в другой город бесплатно.
Полистал эту книжку, очень понравилась. Особенно если вы продаете/внедряете аналитику или строите систему с нуля. Много материалов про взаимодействие с бизнесом.