Один из читателей @Shtock 😝 заметил, что Matillion не очень хорошее решение, мягко говоря. Я согласен, у него есть свои достатки и преимущества. По сути можно любим решением решить задачу, если хорошо владеть им. Например, можно взять Excel и построить отличный дашборд, который будет решать бизнес задачи, хотя многи скажут, что excel плохой BI инструмент. Поэтому совершенно не важно какое решение мы используем, его главная задача приносить пользу бизнесу. Я, например, использовал Matillion на последних 2 проектах, потому что, я знаю как в нем сделать быстро то, чего хочет бизнес, хотя я мог бы использовать Apache Airflow или AWS Glue. Поэтому критерий "хороший/плохой" очень относительный.
Зато оказалось, что Александр, отлично разбирается в облачных хранилищах данных и поделился
1) Своей презентацией Cloud DW deep Dive. "в презентаци идёт попытка доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.
Также рассказано почему модели данных одного и того же хранилища должны быть разными между Redshift, Big Query и Snowflake и как эффективно использовать возможности данных СУБД."
2) Записью выступления на митапе Cloud DW and data models optimization.
Если есть чего интресного из по теме канала присылайте, расшарим!
Зато оказалось, что Александр, отлично разбирается в облачных хранилищах данных и поделился
1) Своей презентацией Cloud DW deep Dive. "в презентаци идёт попытка доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.
Также рассказано почему модели данных одного и того же хранилища должны быть разными между Redshift, Big Query и Snowflake и как эффективно использовать возможности данных СУБД."
2) Записью выступления на митапе Cloud DW and data models optimization.
Если есть чего интресного из по теме канала присылайте, расшарим!
SlideShare
Cloud DWH deep dive
Cloud DWH deep dive - Download as a PDF or view online for free
20 Python libraries.pdf
4.1 MB
ebook - 20 python libraries that you don't use but should
Еще одна программа для Data Engineer, уже на 5 месяцев, включает в себя Cloud DW, Spark, NoSQL.
Udacity
Data Engineering Training Course | Become a Data Engineer | Udacity
Data Engineering is the foundation of Big Data. Enroll in our data engineering with AWS training course and learn essential skills to become a data engineer.
Пример использование Embedded Power BI на государственном сайте Канадского правительства который показывает сколько и какого типа машин было зарегистрировано. Отчет опубликован 19 ноября, но данные до 2018 года. Да и сам дашборд чего-то совсем скучный.
www150.statcan.gc.ca
New Motor Vehicle Registrations Data Visualization Tool
This interactive dashboard provides access to current and historical data on new vehicle registration . It allows the user to compare and analyze new vehicle registration data by fuel type, geography and vehicle type. This web application is updated annually.
Руководитель Data Science Airbnb выступал с докладом в прошлом году - Scaling Data Science. Может быть интересно.
Академия аналитики данных, визуализации и тп появляются как грибы. Вот ещё одна попалась. Там можно бесплатно скачать storytelling guide.
Datastoryacademy
Data Story Academy - Train your teams to turn data into decisions.
DATA NEEDS A STORY!! but identifying executive priorities is hard, designing intuitive visualizations is an art, presenting to an audience is scary. Learn how to train your teams to transform confusing data into stories that create clarity & inspire action…
Если вы хотите учить Data Science, ML, то самое важное это понимать как данные, алгоритмы и статистика могу приносить пользу. Для этого нужно знать не алгоритмы, а бизнес кейсы. Вот 3 примеры от Airbnb:
1. Эксперементы
2. Как NPS (рейтинг опроса) предсказывает букирование
3. Определение предпочтений хоста
1. Эксперементы
2. Как NPS (рейтинг опроса) предсказывает букирование
3. Определение предпочтений хоста
Medium
Experiments at Airbnb
Airbnb is an online two-sided marketplace that matches people who rent out their homes (‘hosts’) with people who are looking for a place to stay (‘guests’). We use controlled experiments to learn and…
Если Tableau лидер в области визуализации данных и self-service аналитики, то Alteryx - это лидер в области self-service подготовки данных (такой вот настольный ETL инструмент для бизнес пользователя с возможность сервера). Попался хороший блог пост про сравнение Alteryx и Tableau Prep (утилита Табло для подготовки данных).
Книжка по теме Designing Cloud Data Platforms написанная консультантами Канадской консалтинговой компанией Pythian. Один из авторов Данил Збуривский, я с ним познакомился когда в прошлом году выступал на Enterprise Data World в Бостоне. Он рассказывал про проект миграции на Azure Data Platform.
Manning Publications
Designing Cloud Data Platforms
Centralized data warehouses, the long-time defacto standard for housing data for analytics, are rapidly giving way to multi-faceted cloud data platforms. Companies that embrace modern cloud data platforms benefit from an integrated view of their business…
Увидел интересную вакансию в Касперский - data engineer или пишете менеджеру в Linkedin. Не успел спросить про деньги🙈 Не смотря на то, что вакансия DWH разработчик, вы будете себя чувствовать Data Engineer)
hh.ru
Вакансия Developer DWH (Data Engineer) в Москве, работа в компании Лаборатория Касперского (вакансия в архиве)
Зарплата: не указана. Москва. Требуемый опыт: 1–3 года. Полная занятость. Дата публикации: 05.11.2019.
Прямо сейчас проходит AWS re:invest, крупнейшее мероприятие. На презентуют новы сервисы. Вот один из них, Query Accelerator для Redshift. Интересно будет попробовать и сравнить.
TechCrunch
AWS speeds up Redshift queries 10x with AQUA
At its re:Invent conference, AWS CEO Andy Jassy today announced the launch of AQUA (the Advanced Query Accelerator) for Amazon Redshift, the company’s data warehousing service. As Jassy noted in his keynote, it’s hard to scale data warehouses when you want…