Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Роман подготовил новый вебинар, копирую из slack! Всех прокачаем!🤩

Всем привет!

У нас подоспел новый вебинар, на котором будет практика и вы сможете повторить все действия и даже выложить в паблик, что будет плюсом для портфолио
Тема - SQL в анализе данных 101. Решаем прикладную задачу сегментации.
Когда: 10 декабря (четверг) в 19:00 по мск
Спикер: Eugene Kudashev . Вы наверное уже его знаете из чатов
😊

Описание вебинара:
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка:
https://youtu.be/72mRlugPKNI

Рекомендации:

установить табло десктоп - на нашем где инструкция как установить его на год бесплатно, заварить чай и быть в онлайне на нашем ютубе в назначенное время☺️
Подписывайтесь на наш ютуб канал datalearn и не забывайте нажимать на колокольчик, чтобы не пропустить выход новых видео, а также огромная просьба делиться видео с друзьями и коллегами.
Хорошим материалом делиться надо
☺️
Всех обнял, до встречи в эфире
🤗
А я буду рассказывать про свою профессию и другие профессии, которые работают с данными на образовательном онлайн-фестивале и онлайн-интенсиве по технологическим сферам - ТехноИнновации
В штате Флорида, data scientist самостоятельно собирал данные по ковиду, и его данные отличались от официальных, к ним домой ворвались агенты с оружием, изъяли всю технику. Так что, сами понимаете - статистика наука точная)
Google Search now featuring in-depth math assistance for solving equations in over 70 languages.
Статья про история Olap кубов. Самые популярные кубы, которые лосих пор в ходу это Microsoft Analyses Services. Да и те переключились с Multidimensional Model в Tabular Model. Лично я их не люблю, потому что, это дополнительный слой в аналитическом решении между хранилищем и BI. Но есть ребята, кто так лихо ими умеют пользоваться и подключают готовый куб к Excel, что не подкопаешься, и бизнес пользователи довольны, ведь пользуются Excel☺️

Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
Карьера в Аналитике.pdf
8.4 MB
Вчерашняя презентация для студентов.
Наверно поэтому все учат питон:)
Forwarded from LEFT JOIN
Конференция Coalesce от dbt: что посмотреть?

С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.

Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.

Мой шорт-лист докладов, которые рекомендую изучить:

* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов

@leftjoin
Coral is a library for analyzing, processing, and rewriting views defined in the #Hive Metastore, and sharing them across multiple execution engines 💯💯💯

Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin

Coral consists of following modules:

✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Интересный обзор решений для аналитики и их ценообразование в статье “The Two Philosophies of Cost in Data Analytics
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that’s just the beginning. Dask is a framework to build distributed applications that has since been used with dozens of other systems like XGBoost, PyTorch, Prefect, Airflow, RAPIDS, and more. It’s a full distributed computing toolbox that fits comfortably in your hand.