Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Databricks выпустил BI функциональность для своей платформы.
На дворе ноябрь, и многим из нас не хватает теплых летних ночей в лесу вокруг костра

Ребята из ProductStar решили устроить digital-конференцию и воссоздать эту волшебную атмосферу. В чиле спикеров у цифрового костра — тим-лиды Яндекса, HH, SEMrush, DeliveryClub, Skyeng. 30 докладов, круглые столы, работающие инструменты и закрытые группы в чатах. Не хватает только вас 😉

Мероприятие будет полезно всем, кто работает в сфере IT — от новичков до профессионалов. Лучшие практики российских и зарубежных компаний проведут лекции по четырем направлениям:

— Продакт-менеджмент
— Аналитика
— Разработка
— Маркетинг

Кроме того, можно будет поучаствовать в воркшопах, спросить советы о своих проектах и принять участие в нетворкинге!

ProductStar TeamLead Festival пройдет 21 ноября онлайн и будет абсолютно бесплатным!

Не упустите возможность провести время с пользой в приятной компании топовых спикеров!

Больше подробностей по ссылке 👉 https://bit.ly/32Cjfqn
Forwarded from LEFT JOIN
Опубликован список докладов конференции Coalesce (да-да, от тех самых создателей dbt, которые недавно вновь привлекли инвестиции).

Самое время зарегистрироваться и добавить интересующие доклады в свой календарь.

Среди наименований встречаются интересные вещи типа: «Cleaning the fish: A sushi-inspired approach to clean datasets» 🍣🧹📁
Давным давно (в 2010) я нашел курс на русском на Интуите - Проектирование хранилищ данных для приложений систем деловой осведомленности (Business Intelligence Systems). Курс содержит в себе много теории про базы данных, моделирование и особенно полезен если вы планируете строить решения в Microsoft BI и использовать OLAP кубы SSAS (что еще часто бывает требование работодателя на отечественном рынке).

В общем, если учитесь, стоит пролистать лекции, может чего полезного найдете.
Инструментов для интеграции и трансформации данных (ETL/ELT) существует огромное множество. В этом уроке мы рассмотрим самые популярные решения на рынке и разделим их на типы по цене и удобству. В этом видео вы узнаете про:

📌 Типы ETL решений
📌 Квадрант Gartner и Forrester
📌 Gui vs Non-Gui
📌 Коммерческий ETL - Microsoft Integration Services и Informatica Power Center
📌 Open Source ETL - Pentaho, Apache Nifi, Apache Airflow, DBT Tool
📌 Облачный ETL - Matillion, Fivetran, AWS Glue, Azure Data Factory

https://youtu.be/wksfXoeNO7Y
У меня всегда было такое чувство, не знал как правильно словами сказать, а тут хорошо расписали как работает рынок.
В Microsoft проходит внутренняя конференция по ML. Конференция как конференция, куча непонятных штук про ML. А вот, что мне понравилось, что есть сессии для детей и родителей, например построить голосового помощника или собрать Raspberry PI и другое. Я такого вообще никогда не встречал. К сожалению все эти вещи уже booked. Это вообще супер крутая идея для онлайн конференций, организаторам на заметку)

Еще из интересного, у Microsoft есть Garage. То есть это помещение, где стоят станки, 3D принтеры и другое оборудование и все могут приходить и учавствовать и изучать новые вещи, причем с детьми. Конечно сейчас это все онлайн.

Разница в культуре между Амазоном и Майкрософт большая, хотя я тут всего неделю.

Кстати, я нашел крутой ресурс - Space Data Camp для детей и их родителей. Очень рекомендую - английский попрактикуется, с детьми будет чем заняться. И там еще много ресурсов и workshop для детей связанных с ИТ.
Согласно исследованиям MIT Sloan - How to build a data-driven company, главным катализатором является культура компании, культура по работа с данными и общая грамотность (data literacy). Одних дорогих аналитических инструментов и опытных data engineer/scientist/bi недостаточно.
Data_Strategy_Guide_Generate_a_data_driven_strategic_advantage_for.pdf
507.9 KB
Generate a data-driven strategic advantage for your people and customers.
Скоро начнется Data Cloud Summit (Snowflake). Очень рекомендую посмотреть keynote, чтобы понять куда движется индустрия.
Слышали про pseudo code? Это как бы код, но нет код. Отличный вариант, когда не знаем как решить задачу и написать настоящий код. Мы можем нарисовать решение использую псевдокод. Так же работает для собеседований.
Forwarded from data будни
SCD — Slowly Changing Dimensions

На одном собеседовании меня спросили как бы я спроектировал табличку для хранения показателей датчика, который иногда но нерегулярно меняется; и так, чтобы потом можно было найти показание за определённую дату простым запросом, не перебирая всю таблицу.

Сначала я долго тупил, но потом минут за 30 мы с собеседующим пришли к рабочему варианту… это оказался вариант по типу SCD2 — уже давно придумали как надо правильно.

Всего типов 6 — вот небольшая статья с примерами данных для каждого типа:
https://habr.com/ru/post/101544/
Вышло обновление книги по визуализации данных, от главного тренера и евангелиста по Табло - Andy Kirk - Data Visualisation: A Handbook for Data Driven Design

Другой крутой мужик по Табло это Ryan Sleeper, у него есть 2 книги по Табло, и я их видел в PDF.