Инжиниринг Данных

#buildingdatateams chapter1 - Data Teams
Автор рассказывает про сложность BigData и важность Data Teams. Прежде всего дает определение BigData.

Для него все big data, что плохо работает или совсем не работает, например:
- данные грузятся очень долго
-запрос положит базу данных
-задача имеет много шагов
-данные разбросаны по организации и очень сложно собрать их вместе, чтобы решить задачу

Потом он говорит про важность Big data для менеджеров. Потому что они часто недооценивают важность и сложность проектов и как результат - failed.

Главное сложность big data - distributed systems (то есть кластера). Такие системы разбивают задачу на более мелкие шаги и обрабатываю на нескольких машинах.

Дальше он говорит о Data Pipelines и Data Products. Для него data pipeline это процесс, который делает данные доступные для бизнеса. И в процессе данные трансформируются. Data Product используют данные, которые приходят с pipeline и преобразуются таким образом, чтобы было удобно потреблять их пользователям.

Затем он проходится по "непониманиям". Говорит, что часто BI путают с data science и этого нельзя делать. Другая идея, что инженеринг данных это тоже самое, что хранилище данных. Разница в том, что для автора инженеры данных работают с distributed systems, а вот ETL разработчики (DW) с такими системами не работают.

За свою карьеру, он видел много failed проектов. Серкет успеха это правильный набор команд. По мнению автора их должно быть 3:
1) Команды Data Science:
-знаю математику
-понимают важность данных
-есть понимание инструментов big data
-умеют немного программировать

A data scientist is someone who has augmented their math and statistics background with programming to analyze data and create applied mathematical models.

2) Команда Data Engineering:
- у них software engineering background
- у них специализация в big data
- они круто программят
- есть базовые знания data science

A data engineer is someone who has specialized their skills in creating software solutions around big data.

3) Команда Operations:
- отвечают за работу систем и приложений созданных data science & data engineering teams
- оптимизируют и поддерживают сеть (для передачи данных)
- решают проблемы с железом
- установка и обновление ПО
- установка и конфиг операционной системы

An operations engineer is someone with an operational or systems engineering background who has specialized their skills in big data operations, understands data, and has learned some programming.

Дальше он говорит, что для маленьких организаций сложно иметь все 3 команды, и нужен один человек швейцарский нож, которого не найти просто так.

Ну и конечно, если этими команды плохо руководить, вы получите - failed project.

====
🤔 я лично не со всем соглашусь. Мне показалось, что у мужика супер крутой опыт внедрения решения Apache (Hadoop и тп) on premise, включая закупку железа и его конфигурации. Он не работал с BI/DW командами, и наверное, только сейчас начинает работать с облаками. Так как все крупные корпорации еще сидят он premise и у них реальные задачи с огромным объемом данных. Он все разделил на "черное" и "белое", например, если у вас нет background в разработке ПО, то вы плохой инженер. Или есть, вы работает с хранилищем данных, то вы тоже не инженер. Мне видеться картина не в черно белом цвете, а более яркой, когда у нас кто угодно может быть кем угодно, да и еще понятие BigData/DW уже теряет границу и современные платформы данных это микс озера данных и хранилища данных.

Я уже прочитал половину книги, и буду дальше скидывать конспекты автора.

❤1

3.26K viewsDmitry Anoshin, edited 03:38

About

Blog

Apps

Platform