Ivan Begtin
9.15K subscribers
2.66K photos
5 videos
114 files
5.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards
👍2
Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.

Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.

Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.

Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/

#standards #blockchain #w3c #identifiers
👍5