Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Виктор Кесслер очень классно рассказал про современный landscape решений и про индустрию. Рассказал про историю продукта Dremio и Apache Arrow, и много другого. Обаятельно посмотрите доклад и узнаете много нового. https://youtu.be/W9JvqMAc73Y
👍1
Orphaned (осиротевшая) Analytics are one-off Machine Learning (ML) models written to address a specific business or operational problem, but never engineered for sharing, re-use and continuous-learning and adapting. То есть модель, которая решает конкретную задачу, но о ней мало кто знает внутри организации. А еще лучше, если человек, который ее создал, просто уволился.

Этот термин отлично подойдет для дашбордов, таблиц фактов, ETL jobs.

А вот сама статья.
Компания Thoughtworks (BI вендор) выпускает интересный digest - Technology Radar. В свежем выпуске они рассказали про тренды в аналитике. Многое мы уже и так знаем, например о популярности SQL, удобстве dbt для T в процессе ELT, data mesh и mainstream machine learning.

Еще они затронули тему monorepo. У кого-то есть соображения по этому вопросу?

PS Кстати, мы готовим очень полезный курс - DevOps для инжиниринга данных на Azure. Автор курса дата инженер Майкрософт из Сиэтла, наша соотечественница. Я сам жду этот курс, чтобы добавить best practices в свою работу.
А тут, автор сравнивает Redshift (для меня это обычно хранилище данных), PrestoDb, Trino (никогда не слышал). И вообще SQL движков очень много, автор решил привлечь внимание к своему продукту. Вы какие SQL движки используете для аналитики? У меня теперь целый арсенал в Synapse:
- Serverless SQL Pool - managed SQL engine (платим только, когда используем)
- Dedicated SQL Pool - аналитическое MPP хранилище данных
- Spark Pool - кластер managed Spark на Azure
Вот как бывает - чувак был BI консультантом, я его даже приглашал в Amazon на BI tech talks года 3 назад, а сейчас он баллотируется в меры))
Backstage модуль 5
Layering Your Data Warehouse with dbt (open source инструмент для T в ELT):
1. Root Layer - The first layer is the landing zone for any initial data ingestion.
2. Logic Layer - The logic layer is where the heavy lifting of your data transformation is done.
3. Dimension and Activity Layer - This layer is where we begin to surface data models for others to use in their own analysis and projects.
4. Reporting Layer - This layer is for your metric calculations and any levels of aggregation you might need for reporting.
Интересный материал.
Forwarded from Дашбордец
Котятки🐱
В Билайне удалось выстроить очень удачный онбординг для аналитиков из бизнеса, - они очень плавно вливаются во внутреннее сообщество Qlik, даже не зная на этапе входа модного слова self-service.
Мне это рассказывали, что называется, "на правах очевидца и участника событий", но тогда, в 2020, верилось мне с трудом.
Теперь прояснилось, - смотрим видео, кайфуем, перенимаем:
https://youtu.be/jhQ2NVgLCu4
Мы подготовили ещё один крутейший и главное полезный вебинар. Абсолютные гуру👨‍🚀🥷 Product Management из booking.com расскажут о своей работе, чтобы вы лучше смогли понимать как они взаимодействуют с командами аналитиками и измеряют продукты.


🦥Тема: Data science и Product Management

🦦Описание: Владимир Калмыков (Group Tech PM booking.com) и Андрей Менде (PM DataScience booking.com) расскажут, в чем особенности работы PM в Data Science командах, и как датасаентисту эффективно построить работу со своим PM. Разберем, какие ошибки совершают PM'ы у которых еще нет опыта работы с ML командами. Володя может также поделиться своим опытом о том, как перейти в Tech/DS PM-ы, если вы чувствуете, что готовы рулить процессом в том числе на уровне бизнеса.

🎰Дата: Вечер 29 апреля.

🤩Доклад must have для всех!

https://youtu.be/XvFVzeZcVGc
Microsoft Azure показывает очень крутые результаты продаж. Возможно пандемия помогла клиентам переместиться в облако. AWS продолжает выпускать новые продукты и фичи буквально еженедельно, а вот про GCP как-то нечего сказать, так как они не так популярны в моей ленте🤗
6 Мая Tableau проведет онлайн мероприятие на весь день - Tableau Live. Будет много интересного.
Если вам интересно с чего начинается история cloud computing - то вот она. В 1961 году профессор John McCarthy сказал в MIT: “Computing may someday be organized as a public utility just as the telephone system is a public utility, Each subscriber needs to pay only for the capacity he actually uses, but he has access to all programming languages characteristic of a very large system … Certain subscribers might offer service to other subscribers … The computer utility could become the basis of a new and important industry.”

#datalearn модуль 5.2 все еще в процессе🥸
Self-service это north star для любого крупного аналитического проекта. Хочется, чтобы инженеры и аналитики создавали дата продукты, а пользователи самостоятельно ими пользовались. На практике это работает редко. Еще один взгляд на эту проблему Why is self-serve still a problem?