Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture