Ах, откуда столько информации? Это principal engineer дает презентацию в нашем орге.
Классную штуку я нашел:
What is a Data Engineering Immersion Day?
Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.
Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation
https://aws-dataengineering-day.workshop.aws/
What is a Data Engineering Immersion Day?
Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.
Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation
https://aws-dataengineering-day.workshop.aws/
Класс! Microsoft создаёт подводный датацентр.
Microsoft
Microsoft finds underwater datacenters are reliable, practical and use energy sustainably | Innovation Stories
Microsoft retrieved the Northern Isles underwater datacenter from the seafloor off Scotland's Orkney Islands. Project Natick is proving the concept of underwater datacenters is feasible as well as logistically, environmentally and economically practical.
В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?
Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).
Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Fivetran
Cloud Data Warehouse Benchmark | Blog | Fivetran
Our newest benchmark compares price, performance and differentiated features for Redshift, Snowflake, BigQuery, Databricks and Synapse.
Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap
Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.
На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.
Также и на Google Cloud. Я не знаю названий сервисов.
Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.
====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".
Мы рассмотрим эти варианты 1 и 2 на datalearn.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.
На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.
Также и на Google Cloud. Я не знаю названий сервисов.
Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.
====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".
Мы рассмотрим эти варианты 1 и 2 на datalearn.
Medium
Running Apache Spark on AWS
By Mariusz Strzelecki
Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.
Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄
Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄
Я уже говорил, что data engineer и data scientist это лучшие друзья, у каждого есть свои сильные стороны и вместе они могут решить задачу. В Амазон есть специальный сервис, где можно писать благодарности, за 4,5 год это моя первая, за созданные Redshift кластер, который я подключил ко всем сервисам и помог ускорить процесс создания моделей для customer perception.
Для SDE (разработчики ситуация наоборот, обычно спорим😤)
Что касается измерения perception, то это просто - опросы. А вот, чтобы создать методологию, выбрать вопросы, семплирование клиентов и потом сделать проекцию семпла на всех клиентов амазон, это уже сложно. Есть позиция Economist Scientist - это такой phd, почти профессор, кто знает толк в определенной области, он разрабатывает методологию, и data scientist уже делает модель, больше как рабочие руки. Ну а data engineer вообще черно рабочий, мне нужно предоставить данные по clickstream, server side и тп, все автоматизировать и настроить, для Северной Америки и Европы, не забыть про privacy.
Для SDE (разработчики ситуация наоборот, обычно спорим😤)
Что касается измерения perception, то это просто - опросы. А вот, чтобы создать методологию, выбрать вопросы, семплирование клиентов и потом сделать проекцию семпла на всех клиентов амазон, это уже сложно. Есть позиция Economist Scientist - это такой phd, почти профессор, кто знает толк в определенной области, он разрабатывает методологию, и data scientist уже делает модель, больше как рабочие руки. Ну а data engineer вообще черно рабочий, мне нужно предоставить данные по clickstream, server side и тп, все автоматизировать и настроить, для Северной Америки и Европы, не забыть про privacy.
Роман Понамарев полностью взял контроль над вебинарами🚀 Вот ловите следующий и не пропустите:
Друзья, всем привет!
Пока Дмитрий готовит порцию новых видео, я вас помучаю вебинарами.
Дата вебинара: 18 сентября в 20:00 по мск
Наш следующий гость - это Марина Крюкова, она BI инженер в Amazon!
О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает за регион Бразилия. До этого 1,5 года работала в ритейле в департаменте Сonsumer electronics. Ее образование в сфере управления персоналом, до переезда в США жила в Москве и несколько лет работала рекрутером в компаниях LG Electronics и Xerox.
Тема вебинара - Изменение карьеры и работа в сфере аналитики в США
Содержание:
- Поиск работы в США
- Смена направления из Рекрутмента в Data
- Работа на позициях Business analyst/Business intelligence engineer
Ссылка на вебинар:
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
Не забудьте подписаться на канал и заклацать колокольчик!🙏
Друзья, всем привет!
Пока Дмитрий готовит порцию новых видео, я вас помучаю вебинарами.
Дата вебинара: 18 сентября в 20:00 по мск
Наш следующий гость - это Марина Крюкова, она BI инженер в Amazon!
О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает за регион Бразилия. До этого 1,5 года работала в ритейле в департаменте Сonsumer electronics. Ее образование в сфере управления персоналом, до переезда в США жила в Москве и несколько лет работала рекрутером в компаниях LG Electronics и Xerox.
Тема вебинара - Изменение карьеры и работа в сфере аналитики в США
Содержание:
- Поиск работы в США
- Смена направления из Рекрутмента в Data
- Работа на позициях Business analyst/Business intelligence engineer
Ссылка на вебинар:
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
Не забудьте подписаться на канал и заклацать колокольчик!🙏
YouTube
ИЗМЕНЕНИЕ КАРЬЕРЫ И РАБОТА В СФЕРЕ АНАЛИТИКИ В США / МАРИНА КРЮКОВА
🔔 Наш следующий гость - это Марина Крюкова, она BI инженер в Amazon!
О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает…
О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает…