Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture
👍8
Читаю хороший текст Metadata as a Data Model о восприятии метаданных как основы архитектуры данных и дата модели. Автор не из мира технологий, а консультант по онтологиям, что чувствуется в примерах из библиотечного мира и других предметных областей где проектирование моделей данных первично их технической реализации.

Что важно понимать про метаданные и стандарты, то что их существование это результат совместных размышлений, а то есть кто-то совместно хорошо подумал чтобы они появились и даже если эти стандарты неидеальны, они покрывают если не полностью то существенно сценарии применения данных в отношении которых они написаны. Через призму опыта их написавших, несомненно. Поэтому если Вы придумали какую-то спецификацию или стандарт в одиночку, то, скорее всего, это плохая спецификация. За очень редким исключением непревзойдённого опыта, но люди с таким опытом обычно понимают как спецификации разрабатываются и в одиночку их тоже не пишут.

Стандарты метаданных - это одновременно, фундамент и ограничитель. Шаблон мышления и практического воплощения и базовые знания для входа во многие профессии. Например, стандарт Dublin Core в какой-то момент вырос из AACR и MARC, стал основой для описания большей части онлайн контента даже если формально он в их описании не упомянут. Большая часть разработчиков, де-факто, описывают существующие или новые типы объектов аналогично, используя базовые шаблоны, в первую очередь естественности восприятия наличия определённых характеристик и параметров у этих объектов.

Это ведь кажется очевидным что у каждого объекта есть название, описание, дата когда он создан, дата когда он изменён и тд. Готовые стандарты и спецификации упрощают работу с любыми стандартизированными данными.
...

#metadata #dataannotations #dataarchitecture
82