Ivan Begtin
9.38K subscribers
2.26K photos
4 videos
106 files
4.95K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.

Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.

Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.

Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.

Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.

Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.

По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.

#thoughts #dateno #datasets