Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.
Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.
А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.
В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.
По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.
Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/
#datadiscovery #opendata #data #datatools #standards
Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.
А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.
В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.
По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.
Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/
#datadiscovery #opendata #data #datatools #standards
egeria-project.org
Egeria Project - Open metadata and governance for enterprises
Open metadata and governance for enterprises - automatically capturing, managing and exchanging metadata between tools and platforms
👍2
Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
www.w3.org
Decentralized Identifiers (DIDs) v1.0
Decentralized identifiers (DIDs) are a new type of identifier that
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
👍5