Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture