Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Лёгкое субботнее чтение.
Лёша Долотов, долгое время бывший главным аналитиком Яндекса, написал статью о своём пути внутри компании и даёт важные советы тем, кто принимает решения на основе данных.
https://habr.com/ru/company/yandex/blog/447822/
@internetanalytics
Лёша Долотов, долгое время бывший главным аналитиком Яндекса, написал статью о своём пути внутри компании и даёт важные советы тем, кто принимает решения на основе данных.
https://habr.com/ru/company/yandex/blog/447822/
@internetanalytics
Хабр
Почти уволен. Как я построил отдел аналитики Яндекса
Меня зовут Алексей Долотов, я 10 лет не писал на Хабр. Отчасти дело в том, что когда мне было 22 года, я начал строить отдел аналитики Яндекса, затем семь лет им руководил, а теперь придумал и строю...
Вы уже знаете, Snowflake это облачное хранилище данных нового поколения, очень популярное в Штатах и Европе. На него даже мигрируют с Redshift. Он доступен на Azure и AWS. Вот ближайший вебинар https://www.snowflake.com/webinar/snowflake-on-azure-modern-data-analytics-apac/
Snowflake
Snowflake on Azure: Modern Data Analytics | Snowflake
The need to store, transform, analyze and share data is growing exponentially, with demand for Azure-based data analytics and data warehouse solutions
А вот серия вебинаров по Tableua про Dashboards https://www.tableau.com/learn/series/dashboards
Новый whitepaper - Инструкция для Машинного Обучения. Ничего нового, красивый документ и introduction to ML.
Прошел Google Next. Google серьезно инвестирует в аналитические решения. Сейчас очень много новостей про новый сервис для интеграции данных - Cloud Data Fusion. Можете ознакомиться. Я думаю из плюсов хорошая интеграция с BigQuery и Google сервисами. Но из минусов - нет преднастроенных коннекоторов, например SalesForce, Jira и тп. И нет удобного механизма для создания трансформаций. https://cloud.google.com/blog/products/data-analytics/google-cloud-smart-analytics-accelerates-your-business-transformation?utm_medium=nu_ne_hrena_sebe
Google Cloud Blog
From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation | Google Cloud…
We’re announcing a number of new services and updates that transform the way businesses engage with their data.
Еще один вебинар по теме модернизации хранилища данных https://tdwi.org/webcasts/2019/04/arch-all-cloud-data-warehouse-modernization.aspx?tc=page0
Transforming Data with Intelligence
Cloud Data Warehouse Modernization | Transforming Data with Intelligence
Is it time to reassess your current business processes and future demands to liberate your legacy data warehouse? Learn key modernization steps as you explore data discovery, data catalogs, self-service data access, and other key cloud DW features that let…
Амазон проводит много конференция, но самая инновационная это re:MARS.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
US About Amazon
re:MARS
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.