Через 5 минут начинаем:
https://youtu.be/W9JvqMAc73Y
https://youtu.be/W9JvqMAc73Y
YouTube
DREMIO ОЗЕРО ДАННЫХ / VIKTOR KESSLER
Стремясь стать data driven, многие организации хотят демократизировать доступ к данным.
Однако они часто борются с постоянно увеличивающемся объемом данных, количеством запросов и растущим расходам на хранение данных.
Чтобы решить эту проблему, была…
Однако они часто борются с постоянно увеличивающемся объемом данных, количеством запросов и растущим расходам на хранение данных.
Чтобы решить эту проблему, была…
Виктор Кесслер очень классно рассказал про современный landscape решений и про индустрию. Рассказал про историю продукта Dremio и Apache Arrow, и много другого. Обаятельно посмотрите доклад и узнаете много нового. https://youtu.be/W9JvqMAc73Y
👍1
Orphaned (осиротевшая) Analytics are one-off Machine Learning (ML) models written to address a specific business or operational problem, but never engineered for sharing, re-use and continuous-learning and adapting. То есть модель, которая решает конкретную задачу, но о ней мало кто знает внутри организации. А еще лучше, если человек, который ее создал, просто уволился.
Этот термин отлично подойдет для дашбордов, таблиц фактов, ETL jobs.
А вот сама статья.
Этот термин отлично подойдет для дашбордов, таблиц фактов, ETL jobs.
А вот сама статья.
Data Science Central
Orphaned Analytics: The Great Destroyers of Economic Value
I’m overjoyed to announce the release of my latest book “The Economics of Data, Analytics, and Digital Transformation.” The book takes many of the concepts discussed in this blog to the next level of pragmatic, actionable detail. Thanks for your support!…
Компания Thoughtworks (BI вендор) выпускает интересный digest - Technology Radar. В свежем выпуске они рассказали про тренды в аналитике. Многое мы уже и так знаем, например о популярности SQL, удобстве dbt для T в процессе ELT, data mesh и mainstream machine learning.
Еще они затронули тему monorepo. У кого-то есть соображения по этому вопросу?
PS Кстати, мы готовим очень полезный курс - DevOps для инжиниринга данных на Azure. Автор курса дата инженер Майкрософт из Сиэтла, наша соотечественница. Я сам жду этот курс, чтобы добавить best practices в свою работу.
Еще они затронули тему monorepo. У кого-то есть соображения по этому вопросу?
PS Кстати, мы готовим очень полезный курс - DevOps для инжиниринга данных на Azure. Автор курса дата инженер Майкрософт из Сиэтла, наша соотечественница. Я сам жду этот курс, чтобы добавить best practices в свою работу.
Thoughtworks
Macro trends in the technology industry | April 2021
In each edition of the Radar we include a handful of “themes” that help the reader understand larger trends among the details of the individual blips. We only have limited space and often there are more trends than we have room for. These “macro trends” articles…
В статье сравниваю форматы таблиц для озера данных: Hudi, Iceberg и Delta Lake.
Git for Data - lakeFS
Hudi vs Iceberg vs Delta Lake: Detailed Comparison
Discover how Hudi, Iceberg, and Delta Lake compare in data lake table formats, focusing on performance, scalability, updates, and platform compatibility.
А тут, автор сравнивает Redshift (для меня это обычно хранилище данных), PrestoDb, Trino (никогда не слышал). И вообще SQL движков очень много, автор решил привлечь внимание к своему продукту. Вы какие SQL движки используете для аналитики? У меня теперь целый арсенал в Synapse:
- Serverless SQL Pool - managed SQL engine (платим только, когда используем)
- Dedicated SQL Pool - аналитическое MPP хранилище данных
- Spark Pool - кластер managed Spark на Azure
- Serverless SQL Pool - managed SQL engine (платим только, когда используем)
- Dedicated SQL Pool - аналитическое MPP хранилище данных
- Spark Pool - кластер managed Spark на Azure
Medium
Benchmarking SQL engines for Data Serving: PrestoDb, Trino, and Redshift
In the business of external data enrichment for data science, the main focus is on the ability to provide a fast and scalable way to…
Layering Your Data Warehouse with dbt (open source инструмент для T в ELT):
1. Root Layer - The first layer is the landing zone for any initial data ingestion.
2. Logic Layer - The logic layer is where the heavy lifting of your data transformation is done.
3. Dimension and Activity Layer - This layer is where we begin to surface data models for others to use in their own analysis and projects.
4. Reporting Layer - This layer is for your metric calculations and any levels of aggregation you might need for reporting.
1. Root Layer - The first layer is the landing zone for any initial data ingestion.
2. Logic Layer - The logic layer is where the heavy lifting of your data transformation is done.
3. Dimension and Activity Layer - This layer is where we begin to surface data models for others to use in their own analysis and projects.
4. Reporting Layer - This layer is for your metric calculations and any levels of aggregation you might need for reporting.
Medium
Layering Your Data Warehouse
Hello I am Mitchell Silverman! I have worked in data over the last decade at a number of tech companies including WayUp, WeWork, and now…
Forwarded from Dmitry N
GitHub
GitHub - joelparkerhenderson/monorepo-vs-polyrepo: Monorepo vs. polyrepo: architecture for source code management (SCM) version…
Monorepo vs. polyrepo: architecture for source code management (SCM) version control systems (VCS) - joelparkerhenderson/monorepo-vs-polyrepo
Forwarded from Дашбордец
Котятки🐱
В Билайне удалось выстроить очень удачный онбординг для аналитиков из бизнеса, - они очень плавно вливаются во внутреннее сообщество Qlik, даже не зная на этапе входа модного слова self-service.
Мне это рассказывали, что называется, "на правах очевидца и участника событий", но тогда, в 2020, верилось мне с трудом.
Теперь прояснилось, - смотрим видео, кайфуем, перенимаем:
https://youtu.be/jhQ2NVgLCu4
В Билайне удалось выстроить очень удачный онбординг для аналитиков из бизнеса, - они очень плавно вливаются во внутреннее сообщество Qlik, даже не зная на этапе входа модного слова self-service.
Мне это рассказывали, что называется, "на правах очевидца и участника событий", но тогда, в 2020, верилось мне с трудом.
Теперь прояснилось, - смотрим видео, кайфуем, перенимаем:
https://youtu.be/jhQ2NVgLCu4
YouTube
Qlik Sense в Вымпелком: 400 self-service разработчиков
Владимир Бакланов, руководитель BI-департамента в "Вымпелком" рассказывает, как за полгода удалось удвоить число self-service разработчиков аналитики - с 200 до 400, как в компании обучают и развивают пользователей аналитики.
01:03 - data-driven стратегия…
01:03 - data-driven стратегия…
Мы подготовили ещё один крутейший и главное полезный вебинар. Абсолютные гуру👨🚀🥷 Product Management из booking.com расскажут о своей работе, чтобы вы лучше смогли понимать как они взаимодействуют с командами аналитиками и измеряют продукты.
🦥Тема: Data science и Product Management
🦦Описание: Владимир Калмыков (Group Tech PM booking.com) и Андрей Менде (PM DataScience booking.com) расскажут, в чем особенности работы PM в Data Science командах, и как датасаентисту эффективно построить работу со своим PM. Разберем, какие ошибки совершают PM'ы у которых еще нет опыта работы с ML командами. Володя может также поделиться своим опытом о том, как перейти в Tech/DS PM-ы, если вы чувствуете, что готовы рулить процессом в том числе на уровне бизнеса.
🎰Дата: Вечер 29 апреля.
🤩Доклад must have для всех!
https://youtu.be/XvFVzeZcVGc
🦥Тема: Data science и Product Management
🦦Описание: Владимир Калмыков (Group Tech PM booking.com) и Андрей Менде (PM DataScience booking.com) расскажут, в чем особенности работы PM в Data Science командах, и как датасаентисту эффективно построить работу со своим PM. Разберем, какие ошибки совершают PM'ы у которых еще нет опыта работы с ML командами. Володя может также поделиться своим опытом о том, как перейти в Tech/DS PM-ы, если вы чувствуете, что готовы рулить процессом в том числе на уровне бизнеса.
🎰Дата: Вечер 29 апреля.
🤩Доклад must have для всех!
https://youtu.be/XvFVzeZcVGc
Microsoft Azure показывает очень крутые результаты продаж. Возможно пандемия помогла клиентам переместиться в облако. AWS продолжает выпускать новые продукты и фичи буквально еженедельно, а вот про GCP как-то нечего сказать, так как они не так популярны в моей ленте🤗
Msn
Microsoft Beats Q3 Earnings Estimates, Sees Azure Revenue Up 50%
Technology giant Microsoft Corporation (NASDAQ: MSFT) reported fiscal third-quarter earnings after market close Tuesday.
6 Мая Tableau проведет онлайн мероприятие на весь день - Tableau Live. Будет много интересного.
Если вам интересно с чего начинается история cloud computing - то вот она. В 1961 году профессор John McCarthy сказал в MIT: “Computing may someday be organized as a public utility just as the telephone system is a public utility, Each subscriber needs to pay only for the capacity he actually uses, but he has access to all programming languages characteristic of a very large system … Certain subscribers might offer service to other subscribers … The computer utility could become the basis of a new and important industry.”
#datalearn модуль 5.2 все еще в процессе🥸
#datalearn модуль 5.2 все еще в процессе🥸
MIT Technology Review
The Cloud Imperative
Treating computing as a utility, like electricity, is an old idea. But now it makes financial sense—a historic shift that is reshaping the IT industry.
Self-service это north star для любого крупного аналитического проекта. Хочется, чтобы инженеры и аналитики создавали дата продукты, а пользователи самостоятельно ими пользовались. На практике это работает редко. Еще один взгляд на эту проблему Why is self-serve still a problem?
benn.substack
Why is self-serve still a problem?
We’re not going to solve it until we define it.