Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Один из читателей @Shtock 😝 заметил, что Matillion не очень хорошее решение, мягко говоря. Я согласен, у него есть свои достатки и преимущества. По сути можно любим решением решить задачу, если хорошо владеть им. Например, можно взять Excel и построить отличный дашборд, который будет решать бизнес задачи, хотя многи скажут, что excel плохой BI инструмент. Поэтому совершенно не важно какое решение мы используем, его главная задача приносить пользу бизнесу. Я, например, использовал Matillion на последних 2 проектах, потому что, я знаю как в нем сделать быстро то, чего хочет бизнес, хотя я мог бы использовать Apache Airflow или AWS Glue. Поэтому критерий "хороший/плохой" очень относительный.

Зато оказалось, что Александр, отлично разбирается в облачных хранилищах данных и поделился
1) Своей презентацией Cloud DW deep Dive. "в презентаци идёт попытка доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.

Также рассказано почему модели данных одного и того же хранилища должны быть разными между Redshift, Big Query и Snowflake и как эффективно использовать возможности данных СУБД.
"
2) Записью выступления на митапе Cloud DW and data models optimization.

Если есть чего интресного из по теме канала присылайте, расшарим!
Data Visualization Fashion:)
20 Python libraries.pdf
4.1 MB
ebook - 20 python libraries that you don't use but should
Пример использование Embedded Power BI на государственном сайте Канадского правительства который показывает сколько и какого типа машин было зарегистрировано. Отчет опубликован 19 ноября, но данные до 2018 года. Да и сам дашборд чего-то совсем скучный.
p-value на одной картинке
Руководитель Data Science Airbnb выступал с докладом в прошлом году - Scaling Data Science. Может быть интересно.
Если вы хотите учить Data Science, ML, то самое важное это понимать как данные, алгоритмы и статистика могу приносить пользу. Для этого нужно знать не алгоритмы, а бизнес кейсы. Вот 3 примеры от Airbnb:
1. Эксперементы
2. Как NPS (рейтинг опроса) предсказывает букирование
3. Определение предпочтений хоста
Из Аэропорта Сиэтл
Если Tableau лидер в области визуализации данных и self-service аналитики, то Alteryx - это лидер в области self-service подготовки данных (такой вот настольный ETL инструмент для бизнес пользователя с возможность сервера). Попался хороший блог пост про сравнение Alteryx и Tableau Prep (утилита Табло для подготовки данных).
Комментарии излишни😣
Книжка по теме Designing Cloud Data Platforms написанная консультантами Канадской консалтинговой компанией Pythian. Один из авторов Данил Збуривский, я с ним познакомился когда в прошлом году выступал на Enterprise Data World в Бостоне. Он рассказывал про проект миграции на Azure Data Platform.
Затронув тему книг - сегодня я должен закончить проверять книгу про Snowflake с Apress. Сейчас просматриваю финальный результат. Заметил, что у них очень сильные корректировщики, которые правят грамматику и проверяют правописание
Увидел интересную вакансию в Касперский - data engineer или пишете менеджеру в Linkedin. Не успел спросить про деньги🙈 Не смотря на то, что вакансия DWH разработчик, вы будете себя чувствовать Data Engineer)
Прямо сейчас проходит AWS re:invest, крупнейшее мероприятие. На презентуют новы сервисы. Вот один из них, Query Accelerator для Redshift. Интересно будет попробовать и сравнить.