Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто изучает практики обмена данными я напомню про такой инструмент/экосистему как Frictionless Data [1]. Это проект Open Knowledge Foundation по стандартизации обмена данными, в первую очередь табличными.

Проект большой и, что самое главное, начавшийся со стандартов [2] и постепенно, неспешно, охватывающий разные области применения. Особенно в научной-академической среде [3] где сейчас его внедряют в исследовательских репозиториях.

Ссылки:
[1] https://frictionlessdata.io
[2] https://frictionlessdata.io/standards/

#opendata #data #standards
Весьма интересный Block Protocol [1] стандарт/протокол про интеграцию между данными и интерактивными элементами. Позволяют через данные и схемы стыковать таблицы, загрузки файлов, отображение карточек персон и так далее по заранее готовым шаблонам. Большая работа и интересная идея, стоит отслеживать его развитие. За стандартом находится команда Hash.ai [2] стартапа по созданию "Github'а для симуляций", также любопытный продукт. Немного за пределами моих интересов, но их подход к учёту и систематизации данных очень любопытен.

Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai

#protocols #standards #data
👍2
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards
👍2
Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.

Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.

Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.

Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/

#standards #blockchain #w3c #identifiers
👍5
В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.

Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.

Bioschemas

Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.

Data Discovery Engine

Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org

FAIRSharing

Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.


Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org

#opendata #openscience #openaccess #standards #data
👍4
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.


Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy
👍5🔥1
Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.

По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.

У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.

Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.

Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3

#data #standards
👍5👎1
К вопросу о проектах по замене SQL на другие языки запросов, а есть и другой путь, создания спецификации описывающей все известные операции по работе с данными и работе SQL поверх неё и использования конверсии из её описания в SQL запросы.

Такой проект есть, он называется Substrait [1]. Его автор сооснователь проектов Apache Calcite, Apache Arrow, Apache Drill и ряда стартапов таких как Sundesk и Dreamio.

Основная идея в том чтобы стандарт для дата-операций был универсальным и через него можно было бы выполнять запросы к хранилищам данных.

Уже есть много референсных реализаций спецификации для Ibis, Dpyr, Apache Calcite, Trino и Spark.

Для тех кто не сталкивался с этими продуктами - все они представляют уровни абстракции для работы с данными. Например, Ibis в Python [3] даёт возможность делать SQL запросы без SQL. Удобно для тех кто любит Python way для работы с данными.

Substrait выглядит весьма перспективно, если вендоры в этом направлении потянутся, то может стать глобальной спецификацией и даже стандартом.

Ссылки:
[1] https://substrait.io/
[2] https://docs.google.com/presentation/d/1HQReIM6uB1Dli_yXfELOJWAE6KsvXAoUmHLlTYZ8laA/edit#slide=id.g1476627d6f9_0_213
[3] https://ibis-project.org

#standards #data #bigdata #dataengineering
👍13🤮2
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess
👍61
Вышел стандарт DCAT-AP 3.0 по публикации каталогов открытых данных. Это официальный стандарт Евросоюза по публикации данных и он основан на стандарте DCAT 3.0 от W3C.

Изменений там немало, но и не критично. DCAT давно используется всеми основными разработчиками общедоступных каталогов данных и геоданных.

Его отдельные ревизии есть в ЕС, в США, в отдельных европейских странах и ещё в ряде стран мира.

В Армении, если появится государственный портал открытых данных, он тоже будет с поддержкой DCAT. Если не появится, то мы добавим поддержку в Open Data Armenia

В РФ стандарт DCAT ни в какой версии не применялся. В начале инициатив по открытости Минэк РФ придумал свои "методические рекомендации" с раскрытием метаданных в виде CSV файлов. Чтобы облегчить краулинг данных на портал data.gov.ru. Рекомендации эти применяют до сих пор, хотя они и морально и технически устарели, а data.gov.ru более не существует.

Пока же добавлю что DCAT поддерживается в Dateno при индексации каталогов и, в частности, метаданные из порталов на базе ArcGIS Hub собираются именно в формате DCAT.

#opendata #data #standards
👍8
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
👍4
Вышла вторая версия стандарта Data Package [1] ранее он назывался Frictionless Data. Полезен он будет всем кто публикует табличные CSV файлы которые с его помощью очень хорошо описываются. Это большой плюс, особенно для тех кто не является дата инженерами или аналитиками, а рядовыми учёными, пользователям и тд.

Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.

Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.

Ссылки:
[1] https://datapackage.org

#opensource #standards #opendata #data #okfn
👍4🔥3
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
👍7🤗1
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.

Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а

Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.

Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.

Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml

#opensource #government #standards
32👍2💯1
A framework for Al-ready data [1] свежий доклад от Open Data Institute о том как публиковать наборы данных для машинного обучения. Характерно что ссылаются на стандарт Croissant и Hugging Face и не ссылаются на Frictionless Data.

Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.

Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/

#opendsata #readings #standards
👍41
Вышла 3-я редакция стандарта формата для изображений PNG [1]. Почему это событие? Потому что предыдущая, вторая редакция [2], выходила в 2003 году (22 года назад!)

Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif

А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.

Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/

#standards
7🤩4👍2
Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.

Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]

В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.

В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.

Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt

#opensource #standards #ai
👍7
Полезные ссылки про технологии, данные и не только:
- vectorless - браузерное приложение (privacy-first) для общения с PDF документами без серверной обработки и векторных баз данных. Хорошая штука, как скоро это станет трендом?
- Vibe Analysis - ещё один автор рассуждает о применении ИИ для дата анализа. Слишком оптимистично, как по мне. Но много ссылок на продукты в этой области и, в принципе, небесполезно
- AGENT.md: The Universal Agent Configuration File попытка стандартизации описания ИИ агентов, не очень сложное, непонятно насколько будет поддержано кем-то
- POML: Prompt Orchestration Markup Language а тут попытка стандартизации промпт-инженерии, но от Microsoft. Ориентировано на систематизацию и на данные
- EnrichMCP ещё один инструмент для превращения баз данных в MCP API. Насколько лучше других сказать не берусь.

#ai #opensource #standards
4👍4
Реально простое лицензирование (RSL) свежий стандарт описания того как опубликован контент на веб-ресурсах. Создан в коллаборации Yahoo, Medium, Reddit, Raptive и ряда других медиа и ориентирован на то чтобы явным образом указывать условия доступа к контенту в robots.txt, веб-страницах и так далее причём, согласно анонсу с акцентом на автоматизированное потребление контента ИИ краулерами.

Выглядит весьма проработано и интегрировано с передачей метаданных о лицензиях в:
- Schema.org
- robots.txt
- HTTP заголовках
- RSS лентах
- внутри метаданных изображений и PDF файлах

С возможностью указания:
- запрета на обучение ИИ
- разрешения на обучение ИИ с ограничениями
- отсутствие ограничений на обучение ИИ
- свободных лицензий на код (OSI)
- свободных лицензий на контент (CC)

и так далее

Из особенностей - ничего нет про наборы данных и в техническом комитете нет data людей, но все участвующие про контент. Из наиболее известных людей я там увидел Тима О'Рэлли.

Сам подход интересный декомпозицией ограничений в машинную форму. Об этом многие задумывались и лучше всего ИМХО лицензии структурировались в проектах вроде Creative Commons. Здесь же реестр лицензией с их ключевыми характеристиками авторы создавать не стали, вместо этого ввели возможность указания новых параметров завязанных на ИИ.

Не знаю получит ли более широкое распространение, но проработка стандарта там хорошая, так что инициатива стоит внимания и применения.

#standards #licenses #specifications
👍32😍2❤‍🔥1
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards
🔥21🌚1