Продолжая рассказывать про применение ИИ агентов для разработки, после экспериментов на не самом критичном коде я добрался до обновления реестра дата каталогов в Dateno и могу сказать что результаты пока что хорошие.
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
✍8❤3🔥3🎉2
В рубрике как это устроено у них эстонский портал культурного наследия E-Varamu включает 23.8 миллиона описаний архивных объектов из которых 1.94 миллиона доступны онлайн. Включает изображения, документы, карты, тексты, аудио и видеозаписи, и даже наборы данных.
Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.
Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.
Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.
Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.
#opendata #digitalheritage #culture #culturalheritage #estonia
Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.
Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.
Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.
Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.
#opendata #digitalheritage #culture #culturalheritage #estonia
⚡3✍2🔥2