У Xbox есть центральная команда аналитики и она ищет себе Data Engineer. Роль для US/Canada (вдруг кто в этих краях и ищет). Сейчас Xbox это классно, они делают игры по подписке с Game Pass, запустили xCloud и выпустили новые крутые консоли, я думаю они меняют игровую индустрию. Вот вакансия. Еще есть интересные вакансии у Minecraft, тоже US/Canada. Но есть еще студия Rare и Turn10, они в UK.
Про организацию дата команд у нас был замечательный вебинар - ДАТА КОМАНДА: ЦЕЛИ, СТРУКТУРА И УПРАВЛЕНИЕ / ВЛАДИМИР ЛАГУТИНСКИЙ
А вот свежая статья Organizing Data Teams — Where to Make The Cut
А вот свежая статья Organizing Data Teams — Where to Make The Cut
Анастасия опубликовала видео 2 модуля 3 по своему курсу DS&ML101 https://youtu.be/ogJni5wpmac
В нашем слаке опубликовали интересную статья - оригинал и перевод от пьяного разработчика. Но я например трезвым такие же советы давал на хабре.
Вот примеры:
- не нравится работу, ищите новую
- хотите больше денег, ищите новую
- не парьтесь с языками, выучите только SQL, а там дальше видно будет
И так далее.
Вот примеры:
- не нравится работу, ищите новую
- хотите больше денег, ищите новую
- не парьтесь с языками, выучите только SQL, а там дальше видно будет
И так далее.
Reddit
From the ExperiencedDevs community on Reddit
Explore this post and more from the ExperiencedDevs community
Недавно читал про Jeff Wilke, он работал в Амазон с осени 1999 на позиции VP и General Manager of Operations. Я его сам никогда не видел в живую, но мужик был мировой. Когда я перешел в последнюю команду Customer Behaviour Analytics, он возглавлял это направление и смотрел много его видео про квартальные встречи, когда готовился к эвенту в mail.ru - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле?
Он тоже ушел на пенсию в 2021 после Безоса. Про него есть одна история про клетчатую рубашку (flannel shirt). Тут его прощальное письмо и история про рубашку. По началу он брал людей из корпоративного офиса и помогал на складе и всегда носил клетчатую рубашку. Уже когда Амазон вырос, он все равно продолжал носить клетчатую рубашку, чтобы напоминать корпоративному офису про тяжелую работу на складах, в общем эти рубашки стали символом, и теперь можно их купить в Амазон под брендом Amazon Essentials.
Он тоже ушел на пенсию в 2021 после Безоса. Про него есть одна история про клетчатую рубашку (flannel shirt). Тут его прощальное письмо и история про рубашку. По началу он брал людей из корпоративного офиса и помогал на складе и всегда носил клетчатую рубашку. Уже когда Амазон вырос, он все равно продолжал носить клетчатую рубашку, чтобы напоминать корпоративному офису про тяжелую работу на складах, в общем эти рубашки стали символом, и теперь можно их купить в Амазон под брендом Amazon Essentials.
Forwarded from Kseniia Tomak
У нас готов новый выпуск того самого дайджеста, о котором мало кто слышал:
https://digest.deordie.org/04_A_spark_of_the_summer_sun/
_____
Напомню, что у нас есть issue tracker: https://github.com/deordie/deordie-digest/issues
https://digest.deordie.org/04_A_spark_of_the_summer_sun/
_____
Напомню, что у нас есть issue tracker: https://github.com/deordie/deordie-digest/issues
5 видов аналитики:
🐒Descriptive analytics - что случилось? Например сумма продаж за прошлую неделю на 50% больше текущей.
🐒Diagnostic analytics - почему? Почему продажи упали? Например, из-за новогодних праздников или ковида.
🐒Predictive analytics - что будет в будущем? Например, бюджет или модель продаж (можно использовать logistic regression)
🐒Prescriptive analytics - как улучшить бизнес показатели? Это те самые data insights и бизнес рекомендации, которые мы должны добывать в данных. Что сделать, чтобы продажи пошли в гору?
🙈Cognitive analytics (не буду переводить, чтобы не запутать вас) - helps to draw inferences from existing data and patterns.
🐒Descriptive analytics - что случилось? Например сумма продаж за прошлую неделю на 50% больше текущей.
🐒Diagnostic analytics - почему? Почему продажи упали? Например, из-за новогодних праздников или ковида.
🐒Predictive analytics - что будет в будущем? Например, бюджет или модель продаж (можно использовать logistic regression)
🐒Prescriptive analytics - как улучшить бизнес показатели? Это те самые data insights и бизнес рекомендации, которые мы должны добывать в данных. Что сделать, чтобы продажи пошли в гору?
🙈Cognitive analytics (не буду переводить, чтобы не запутать вас) - helps to draw inferences from existing data and patterns.
Prescriptive и Cognitive аналитика это самое сложное. Так как существует много разных bias, мы часто можем выводы подгонять под желаемые результаты. Нашел отличный вебинар, который глубоко обсуждает эту тему - Understanding Decision Driven Analytics.
MIT Sloan Management Review
Webinar: Understanding Decision-Driven Analytics | MIT Sloan Management Review
Bart De Langhe and Stefano Puntoni explain how organizations can make better decisions with data.
8-9 июня Snowflake Summit, можно узнать что нового в индустрии и куда cloud analytics двигается.
Snowflake
Summit
Explore the future of data, AI, and applications at Snowflake Summit 2025. Join experts, attend workshops, and get SnowPro certified while learning new data trends.
Сегодня сдал еще один экзамен Azure Data Fundamentals (DP-900), в прошлом комментарии один из читателей про него рассказал.
Оказался довольно простым и практически не про облака, больше про классические аналитические вещи типа ETL/ELT, Batch/Streaming. И часть вопросов про инструменты Azure для аналитики HDIsight, Synapse Analytics, Azure SQL, Azure Blob и Azure Cosmos DB (тут я наугад отвечал).
Материал по подготовки очень хороший и небольшой, стоит того, чтобы проскролить, покрывает базовые вещи по аналитики.
Оказался довольно простым и практически не про облака, больше про классические аналитические вещи типа ETL/ELT, Batch/Streaming. И часть вопросов про инструменты Azure для аналитики HDIsight, Synapse Analytics, Azure SQL, Azure Blob и Azure Cosmos DB (тут я наугад отвечал).
Материал по подготовки очень хороший и небольшой, стоит того, чтобы проскролить, покрывает базовые вещи по аналитики.
Чувак рассказывает как он стал менеджером по аналитике в Амазон и делится советами как быть начинающему менеджеру.
Insight Extractor - Blog
Three stories about my managerial journey published on Plato | Insight Extractor - Blog
I wanted to share 3 stories that Plato (engineering leadership mentorship platform) recently published about my managerial journey. It captures some learnings in career growth, productivity, team process and sharing the team vision. Links below. (1) How to…
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
Forwarded from Smart Data (Denis Solovyov)
Всем привет. Думаю, предыдущую рубрику можно закрывать. Я постарался охватить все основные направления работы с данными и дать пошаговый план развития с полезными ссылками для каждой позиции.
Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.
Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.
Итак, поговорим о концепциях.
Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:
1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).
Разберём каждый слой подробнее:
Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.
Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.
Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.
Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.
Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.
Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.
Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.
Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.
Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.
Итак, поговорим о концепциях.
Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:
1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).
Разберём каждый слой подробнее:
Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.
Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.
Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.
Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.
Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.
Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.
Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.
Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
👍1