Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Новая книжка про клиентское поведение: The Secret Lives of Customers: A Detective Story About Solving the Mystery of Customer Behavior
У Xbox есть центральная команда аналитики и она ищет себе Data Engineer. Роль для US/Canada (вдруг кто в этих краях и ищет). Сейчас Xbox это классно, они делают игры по подписке с Game Pass, запустили xCloud и выпустили новые крутые консоли, я думаю они меняют игровую индустрию. Вот вакансия. Еще есть интересные вакансии у Minecraft, тоже US/Canada. Но есть еще студия Rare и Turn10, они в UK.
Про организацию дата команд у нас был замечательный вебинар - ДАТА КОМАНДА: ЦЕЛИ, СТРУКТУРА И УПРАВЛЕНИЕ / ВЛАДИМИР ЛАГУТИНСКИЙ

А вот свежая статья Organizing Data Teams — Where to Make The Cut
Анастасия опубликовала видео 2 модуля 3 по своему курсу DS&ML101 https://youtu.be/ogJni5wpmac
В нашем слаке опубликовали интересную статья - оригинал и перевод от пьяного разработчика. Но я например трезвым такие же советы давал на хабре.

Вот примеры:
- не нравится работу, ищите новую
- хотите больше денег, ищите новую
- не парьтесь с языками, выучите только SQL, а там дальше видно будет
И так далее.
Вчера я сдал экзамен (в своем стиле без подготовки). Нужно было минимум 70%, и я набрал 70🙈, вообще оказалась что для сотрудников Microsoft экзамены бесплатны, сдавай-не хочу))) при желании все материалы для подготовки тоже бесплатны на сайте Microsoft (или большинство)
А это может быть вам интересно, на Upwork можно свои черты заказать и искать работу по прилансу. Уверен там есть по дате проекты, но вот как со спросом/предложением не знаю. Обычно эксперты из Индии за 5$ в час обладают всеми сертификатами и знаниями))
Недавно читал про Jeff Wilke, он работал в Амазон с осени 1999 на позиции VP и General Manager of Operations. Я его сам никогда не видел в живую, но мужик был мировой. Когда я перешел в последнюю команду Customer Behaviour Analytics, он возглавлял это направление и смотрел много его видео про квартальные встречи, когда готовился к эвенту в mail.ru - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле?


Он тоже ушел на пенсию в 2021 после Безоса. Про него есть одна история про клетчатую рубашку (flannel shirt). Тут его прощальное письмо и история про рубашку. По началу он брал людей из корпоративного офиса и помогал на складе и всегда носил клетчатую рубашку. Уже когда Амазон вырос, он все равно продолжал носить клетчатую рубашку, чтобы напоминать корпоративному офису про тяжелую работу на складах, в общем эти рубашки стали символом, и теперь можно их купить в Амазон под брендом Amazon Essentials.
Forwarded from Kseniia Tomak
У нас готов новый выпуск того самого дайджеста, о котором мало кто слышал:
https://digest.deordie.org/04_A_spark_of_the_summer_sun/
_____
Напомню, что у нас есть issue tracker: https://github.com/deordie/deordie-digest/issues
5 видов аналитики:

🐒Descriptive analytics - что случилось? Например сумма продаж за прошлую неделю на 50% больше текущей.
🐒Diagnostic analytics - почему? Почему продажи упали? Например, из-за новогодних праздников или ковида.
🐒Predictive analytics - что будет в будущем? Например, бюджет или модель продаж (можно использовать logistic regression)
🐒Prescriptive analytics - как улучшить бизнес показатели? Это те самые data insights и бизнес рекомендации, которые мы должны добывать в данных. Что сделать, чтобы продажи пошли в гору?
🙈Cognitive analytics (не буду переводить, чтобы не запутать вас) - helps to draw inferences from existing data and patterns.
Prescriptive и Cognitive аналитика это самое сложное. Так как существует много разных bias, мы часто можем выводы подгонять под желаемые результаты. Нашел отличный вебинар, который глубоко обсуждает эту тему - Understanding Decision Driven Analytics.
8-9 июня Snowflake Summit, можно узнать что нового в индустрии и куда cloud analytics двигается.
Сегодня сдал еще один экзамен Azure Data Fundamentals (DP-900), в прошлом комментарии один из читателей про него рассказал.

Оказался довольно простым и практически не про облака, больше про классические аналитические вещи типа ETL/ELT, Batch/Streaming. И часть вопросов про инструменты Azure для аналитики HDIsight, Synapse Analytics, Azure SQL, Azure Blob и Azure Cosmos DB (тут я наугад отвечал).

Материал по подготовки очень хороший и небольшой, стоит того, чтобы проскролить, покрывает базовые вещи по аналитики.
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.

У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!

Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!

PS CI/CD pipeline уже работает!
Почему delta lake так называется?
Forwarded from Smart Data (Denis Solovyov)
Всем привет. Думаю, предыдущую рубрику можно закрывать. Я постарался охватить все основные направления работы с данными и дать пошаговый план развития с полезными ссылками для каждой позиции.

Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.

Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.

Итак, поговорим о концепциях.

Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:

1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).

Разберём каждый слой подробнее:

Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.

Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.


Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.

Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.


Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.

Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.


Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.

Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
👍1