Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Любопытный стандарт публикации продуктов на данных Open Data Product Specification [1] специально для тех компаний и не только компаний которые торгуют данными. Да, да, это не [Open Data] Product specification, а именно [Open] Data Product Specification. Слово Open тут про открытость стандарта, а не про открытые данные.

Что, впрочем, не делает стандарт менее любопытным. Идея любопытная как альтернатива спецификациям общедоступных данных для повышения находимости именно коммерческих данных. Хорошо бы дополнило стандарт Schema.org.


Ссылки։
[1] https://opendataproducts.org

#opendata #data #specifications #
👍3🏆2🤔1
Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.

Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.

#ai #mcp #utcp #specifications
👍73🙏2
Реально простое лицензирование (RSL) свежий стандарт описания того как опубликован контент на веб-ресурсах. Создан в коллаборации Yahoo, Medium, Reddit, Raptive и ряда других медиа и ориентирован на то чтобы явным образом указывать условия доступа к контенту в robots.txt, веб-страницах и так далее причём, согласно анонсу с акцентом на автоматизированное потребление контента ИИ краулерами.

Выглядит весьма проработано и интегрировано с передачей метаданных о лицензиях в:
- Schema.org
- robots.txt
- HTTP заголовках
- RSS лентах
- внутри метаданных изображений и PDF файлах

С возможностью указания:
- запрета на обучение ИИ
- разрешения на обучение ИИ с ограничениями
- отсутствие ограничений на обучение ИИ
- свободных лицензий на код (OSI)
- свободных лицензий на контент (CC)

и так далее

Из особенностей - ничего нет про наборы данных и в техническом комитете нет data людей, но все участвующие про контент. Из наиболее известных людей я там увидел Тима О'Рэлли.

Сам подход интересный декомпозицией ограничений в машинную форму. Об этом многие задумывались и лучше всего ИМХО лицензии структурировались в проектах вроде Creative Commons. Здесь же реестр лицензией с их ключевыми характеристиками авторы создавать не стали, вместо этого ввели возможность указания новых параметров завязанных на ИИ.

Не знаю получит ли более широкое распространение, но проработка стандарта там хорошая, так что инициатива стоит внимания и применения.

#standards #licenses #specifications
👍32😍2❤‍🔥1
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards
🔥21🌚1
TOON - свежий инструмент/спецификация/нотация для отправки структурированных данных LLM.

Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.

Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.

#opensource #ai #llm #specifications
👍743💊1
Ещё одна совсем-совсем свежая спецификация PLOON для отправки данных в ИИ агенты с максимальной экономией токенов. Экономит до 60% в сравнении с JSON и до 14.1% в сравнении с TOON. Автор написал бенчмарк показывающий что PLOON сильно экономнее других форматов. Уже прям любопытно что дальше, когда наступит момент что ИИ агенты смогут нормально употреблять бинарные данные и тогда все эти оптимизации будет очень легко заменить.

#ai #data #dataengineering #specifications
👍41