Роман подготовил новый вебинар, копирую из slack! Всех прокачаем!🤩
Всем привет!
У нас подоспел новый вебинар, на котором будет практика и вы сможете повторить все действия и даже выложить в паблик, что будет плюсом для портфолио
Тема - SQL в анализе данных 101. Решаем прикладную задачу сегментации.
Когда: 10 декабря (четверг) в 19:00 по мск
Спикер: Eugene Kudashev . Вы наверное уже его знаете из чатов 😊
Описание вебинара:
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка: https://youtu.be/72mRlugPKNI
Рекомендации:
установить табло десктоп - на нашем где инструкция как установить его на год бесплатно, заварить чай и быть в онлайне на нашем ютубе в назначенное время☺️
Подписывайтесь на наш ютуб канал datalearn и не забывайте нажимать на колокольчик, чтобы не пропустить выход новых видео, а также огромная просьба делиться видео с друзьями и коллегами.
Хорошим материалом делиться надо ☺️
Всех обнял, до встречи в эфире🤗
Всем привет!
У нас подоспел новый вебинар, на котором будет практика и вы сможете повторить все действия и даже выложить в паблик, что будет плюсом для портфолио
Тема - SQL в анализе данных 101. Решаем прикладную задачу сегментации.
Когда: 10 декабря (четверг) в 19:00 по мск
Спикер: Eugene Kudashev . Вы наверное уже его знаете из чатов 😊
Описание вебинара:
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка: https://youtu.be/72mRlugPKNI
Рекомендации:
установить табло десктоп - на нашем где инструкция как установить его на год бесплатно, заварить чай и быть в онлайне на нашем ютубе в назначенное время☺️
Подписывайтесь на наш ютуб канал datalearn и не забывайте нажимать на колокольчик, чтобы не пропустить выход новых видео, а также огромная просьба делиться видео с друзьями и коллегами.
Хорошим материалом делиться надо ☺️
Всех обнял, до встречи в эфире🤗
YouTube
SQL В АНАЛИЗЕ ДАННЫХ РЕШАЕМ ПРИКЛАДНУЮ ЗАДАЧУ / ЕВГЕНИЙ КУДАШЕВ
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка на материалы в видео и презентацию:
http…
Ссылка на материалы в видео и презентацию:
http…
А я буду рассказывать про свою профессию и другие профессии, которые работают с данными на образовательном онлайн-фестивале и онлайн-интенсиве по технологическим сферам - ТехноИнновации
Вы слышали про Slowly Changing Dimensions (SCDs)? Вот про них небольшая статья с примерами.
The Holistics Blog
Slowly Changing Dimensions (SCDs) In The Age of The Cloud Data Warehouse
What a new approach to slowly changing dimensions tell us about the future of dimensional data modeling.
Ещё одно подтверждение насколько snowflake крут, и как он меняет индустрию и заставляет других развиваться. Вот и Redshift подготовил data sharing.
Amazon
Announcing Amazon Redshift data sharing (preview) | Amazon Web Services
Amazon Redshift is a fast, scalable, secure, and fully managed cloud data warehouse that makes it simple and cost-effective to analyze all your data using standard SQL. Amazon Redshift offers up to 3x better price performance than any other cloud data warehouse.…
В штате Флорида, data scientist самостоятельно собирал данные по ковиду, и его данные отличались от официальных, к ним домой ворвались агенты с оружием, изъяли всю технику. Так что, сами понимаете - статистика наука точная)
BBC News
Police raid home of Florida Covid-19 tracker creator - BBC News
Rebekah Jones was fired from the Department of Health after accusing it of manipulating virus data.
Еще один кейс ML. Особенно актуальный после сериала Queen’s Gambit от Neyflix. Я его посмотрел, мне очень понравился. Тоже решил записать детей на шахматы онлайн😎 Если кто по скайп нанимает репетиторов для детей 6-8 лет, поделитесь в комментариях.
Meduza
Из-за изоляции и сериала «Ход королевы» все начали играть в шахматы онлайн. Но что делать с читерами?
Из-за вынужденной изоляции во время пандемии, а также на фоне популярности сериала «Ход королевы» люди по всему миру стали массово играть в шахматы онлайн. Это привело к беспрецедентному уровню читерства, когда игроки пользуются подсказками компьютерных программ.…
Прямо сейчас начинается вебинар https://youtu.be/72mRlugPKNI
YouTube
SQL В АНАЛИЗЕ ДАННЫХ РЕШАЕМ ПРИКЛАДНУЮ ЗАДАЧУ / ЕВГЕНИЙ КУДАШЕВ
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка на материалы в видео и презентацию:
http…
Ссылка на материалы в видео и презентацию:
http…
Все слышали про Boston Dynamics. Их покупает хендай, интересно, что они будут делать с ними.
The Robot Report
Hyundai to acquire Boston Dynamics for nearly $1B
According to a report from The Korea Economic Daily, Hyundai Motor will acquire Boston Dynamics for $921 million (1 trillion won).
Статья про история Olap кубов. Самые популярные кубы, которые лосих пор в ходу это Microsoft Analyses Services. Да и те переключились с Multidimensional Model в Tabular Model. Лично я их не люблю, потому что, это дополнительный слой в аналитическом решении между хранилищем и BI. Но есть ребята, кто так лихо ими умеют пользоваться и подключают готовый куб к Excel, что не подкопаешься, и бизнес пользователи довольны, ведь пользуются Excel☺️
Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
The Holistics Blog
The Rise and Fall of the OLAP Cube
A definitive history of the rise of the OLAP cube, how it's affected our industry, and what comes after.
Карьера в Аналитике.pdf
8.4 MB
Вчерашняя презентация для студентов.
Я же теперь в игровой индустрии, оказывается сегодня была Game Awards 2020.
YouTube
The Game Awards 2020 Official Stream (4K) - Video Game's Biggest Night Live!
Video game's biggest night is LIVE on YouTube in 4K. With appearances by Keanu Reeves, Christopher Nolan, Gal Gadot, Tom Holland, Brie Larson, Reggie Fils-Aime, The Muppets, Stephen A. Smith, Nolan North, Troy Baker and more!
Plus performances by Eddie Vedder…
Plus performances by Eddie Vedder…
Forwarded from LEFT JOIN
Конференция Coalesce от dbt: что посмотреть?
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
Coral is a library for analyzing, processing, and rewriting views defined in the #Hive Metastore, and sharing them across multiple execution engines 💯💯💯
Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin
Coral consists of following modules:
✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin
Coral consists of following modules:
✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Интересный обзор решений для аналитики и их ценообразование в статье “The Two Philosophies of Cost in Data Analytics”
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that’s just the beginning. Dask is a framework to build distributed applications that has since been used with dozens of other systems like XGBoost, PyTorch, Prefect, Airflow, RAPIDS, and more. It’s a full distributed computing toolbox that fits comfortably in your hand.
www.coiled.io
What is Dask?
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that's just the beginning.