Ivan Begtin
8.02K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Что такое наборы данных ? (2/2)

А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.

Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.

Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.

А ответ на вопрос что такое набор данных всё ещё не так однозначен.

Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22

#data #datasearch #datafragmentation #thoughts
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data
Я в своих выступлениях про поисковик по данным Dateno рассказывал про то что один из приоритетов его развития - это повышение качества данных.

Причём, чтобы было понятно, качество данных и их описания, метаданных, подавляющего числа порталов открытых данных плохое. Иногда совсем плохое - чаще, реже среднее, но очень хорошее - это огромная редкость. Причём почти всегда это качество является отражением того что с ним работают люди которые вручную вносят файлы и заполняют описание.

Вот пример одной из практических задач. В Dateno сейчас 3383 типа форматов файлов, но, в реальности, это лишь 129 форматов, потому что пользователи указывают в полях типа file format что попало, часто с ошибками. Помимо того что есть указания по которым вообще нельзя понять что это за файл, так есть ещё и много форм написания расширений и типов. На скриншотах примеры с форматами и расширениями которые приходится приводить в порядок, сейчас, полувручную. Похожая ситуация с типами MIME, они очень даже активно заполняются с ошибками, хотя, казалось бы, так быть не должно.

Поэтому большая часть работы над поисковиком - это обогащение данных, повышение качества их описания, извлечение метаданных из самих данных и многое другое для нормализации описания каждого датасета.

На скриншотах можно увидеть проверку в OpenRefine автоматически размеченных форматов и типов mime по одному из снапшотов базы Dateno. И это с оговоркой что сейчас проиндексированы далеко не самые "грязные" каталоги данных. Скорее всего ситуация будет сильно хуже с форматами когда начнём индексировать большие каталоги научных данных. Вот тут, конечно, хотелось бы найти инструмент который бы всё это делал без участия человека, но такого не наблюдается.

Потому что, например, определение форматов и типов mime относительно хорошо можно делать по содержанию файла, но скачивание всех-всех файлов для поисковика является весьма дорогостоящей задачей, и с точки зрения трафика и с точки зрения ресурсов.

#dateno #data #howitworks #datasearch #dataquality
Как и где искать наборы данных? Помимо Dateno, поисковика над которым работает наша команда, в мире существует некоторое количество поисковых систем в которых можно попробовать найти нужные данные.

Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org

BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска

Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.

FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске

Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.

#datasearch #opendata #data #search #datasets #dateno
Подборка ссылок и моих наблюдений про то как публикуют данные в мире:

1. Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]

2. THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]

3. Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]

4. Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.

5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.

Ссылки:
[1] https://www.cncb.ac.cn/
[2] https://download.cncb.ac.cn/
[3] https://github.com/Unidata/tds
[4] https://thredds.rda.ucar.edu/thredds/catalog/catalog.html
[5] https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch
[6] https://datamed.org/

#opendata #data #datasets #datatools #datacatalogs #datasearch
Для тех кто интересуется поиском по данным и каталогами данных, реестр каталогов переехал на сайт Dateno и теперь доступен по адресу dateno.io/registry и содержит ещё и статистику из самого портала Dateno, по странам и по каждому каталогу в числе датасетов.

Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.

Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.

#dateno #datacatalogs #datasearch #data #opendata
Очередные обновления в Dateno:
- загружены более 4.9 миллионов карточек датасетов, удалены часть недоступных, почищены часть дубликатов. Итого в поисковом индексе сейчас 14.85 миллионов наборов данных
- из добавленного: индикаторы Всемирного банка, индикаторы множества национальных статслужб таких как Финляндия, Латвия, Эстония, Филлипины, Швеция и многих других
- Улучшилась фильтрация по форматам файлов, все форматы теперь приводятся к стандатизированным значениям
- Появился фильтр по типу данных таким как: геоданные, семантические данные, архивы, изображения, итд. включая просто data (привычные дата файлы) . Построен поверх фильтра по форматам файлов.
- Из небольшого и необычного, проиндексированы датасеты инсталляций ПО Aleph, используемых журналистами расследователями и частично открытые через интерфейс и API. Таких датасетов чуть более 300, но они бывают весьма большими.

Список изменений можно почитать тут, а новость на английском чуть позже на наших ресурсах в соц сетях.

Всё, по прежнему, работает в режиме максимально быстрого поиска, что дорого обходится по аппаратным ресурсам, зато даёт незабываемые ощущения когда надо что-то быстро найти.

Сейчас система достигла временного пика по размеру поискового индекса и ближайшие шаги мы будем предпринимать в сторону повышения качества индекса, улучшения и развития UI и постепенной архивации хотя бы части данных. Новые источники будут подключаться понемногу, и в основном небольшие.

Не могу не напомнить что Dateno создаётся в Армении, небольшой распределённой командой и цель проекта в том чтобы дать современный удобный быстрый и насколько только возможно большой поисковик и поисковый индекс по всем общедоступным наборам данных.

#opendata #datasets #datacatalogs #datasearch #dateno
Размышляя над задачами поиска данных (data discovery) и их доступностью вспоминаю про ключевой принцип отличия открытых данных от общедоступной информации. Статус данных как открытых предполагает осознанность владельцем данных того что он делает. Чтобы опубликовать датасет, ему/ей надо подумать о метаданных, надо выбрать лицензию, надо подготовить данные в машиночитаемом виде и, желательно, убедится что данные разумного качества. Это всё хорошо работает когда такая осознанность у владельца данных есть и работает так себе когда её недостаточно.

Но дело в том что кроме данных публикуемых осознанно есть много чего что публикуется AS IS без размышлений о правах, статусе и машиночитаемости. Иногда это недокументированные API, иногда веб страницы пригодные к скрейпингу, иногда что-то ещё. В любом случае это данные которые по всем формальным критериям, в первую очередь, юридическим относить к открытым данным нельзя.

Когда мы говорим про поиск данных, то пользователи редко ищут именно открытые данные, их, как правило, интересуют данные насколько возможно хорошего качества, желательно с максимальной свободой использования и желательно с минимальным техническим порогом для их использования. Желательно машиночитаемых, но часто если даже нет, то можно и скрейпить их из HTML или из документов .

Я довольно давно размышляю о том как можно охватить больше данных за пределами каталогов данных и идей и мыслей довольно много, но за каждым шагом есть свои ограничения и оценка востребованности.
1. Сейчас Dateno индексирует данные работая с ограниченным числом источников каталогизируемых полу-вручную. Если отказаться от этого принципа и подключить индексирование всего что есть через краулинг schema.org Dataset, то число наборов данных можно нарастить на 10-15 миллионов датасетов, одновременно снизится качество метаданных, появится SEO спам и просто мусор. Одна из претензий к Google Dataset Search именно по наличию такого мусора в индексе и сильная заспамленность.
2. Кроме датасетов по schema.org есть огромное число машиночитаемых ресурсов и API доступных через краулинг сайтов. Самые очевидные RSS/ATOM фиды которые к API можно отнести. Менее очевидные, к примеру, эндпоинты ArcGIS серверов которые и так уже активно в Dateno добавлялись , но не как датасеты, а как каталоги таблиц и с ручной проверкой. Тем не менее открытых API немало, но их поиск и доступность ближе к задачам OSINT и инфобеза, а не только data discovery.
3. Многие немашиночитаемые сведения можно делать машиночитаемыми автоматически. Извлекать таблицы из разных языков разметки, преобразовывать документы в таблицы или извлекать таблицы из контента там где они есть. Например, из НПА, из научных статей, из корпоративной отчетности и ещё много чего. Но это тоже много маленьких данных, интересных некоторым исследователям, журналистам, но не так вероятно что интересные data scientist'ам.
4. Тем не менее если оценивать качество поиска по числу наборов данных как основному критерию, то обогнать Google Dataset Search и другие поисковики по данным - это не то реальная, это не такая уж сложная задача. Вызовы в ней скорее в моделировании, как создавать фасеты на разнородных данных, не всегда имеющих геопривязку, например
5. Сложнее задача в создании нового качества доступа к общедоступным данным. Как сделать проиндексированные датасеты удобными? Как облегчить работу аналитиков и иных пользователей? И вот тут концептуальный момент в том где происходит переход от поисковика по метаданным к системе управления данными. К примеру, для статистических индикаторов невелика разница между тем чтобы индексировать их описание (метаданные) и сами значения. По ресурсоёмкости почти одно и то же, а имея копии сотен статистических порталов данных, остаёмся ли мы поисковиком или становимся агрегатором и можно превращаться во что-то вроде Statista ? Неочевидно пока что

#opendata #datasearch #datasets #dateno #thoughts
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china
Для тех кто ищет данные сейчас и регулярно не могу не напомнить что в Dateno перенесен каталог порталов данных который ранее был Common Data Index и если в самом Dateno каталог ещё не проиндексирован, можно самостоятельно в него зайти и поискать на его сайте.

Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.

Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.

#opendata #dateno #datasets #datasearch
В рубрике интересных поисковиков по данным, Lens.org научный поисковик по патентам, авторам и научным работам. Причём научных работ там проиндексировано 272 миллиона из которых 3.8 миллиона - это наборы данных.

Грамотно спроектированный интерфейс, удобный поиск (хотя и в Dateno быстрее) и большой охват источников.

Из минусов:
- существенный дисбаланс в сторону США и мало данных других стран
- многое названное там датасетами таковым не является
- только научные данные и даже не всех отраслей

#opendata #datasearch #datatools
Кстати, если вы ещё не видели, мы обновили главную страницу Dateno [1] и выглядит всё лучше и лучше, а заодно можно сразу увидеть того сколько датасетов есть по разным макрорегионам.

Можно увидеть насколько много данных по развитым регионам и насколько их мало, к примеру, по Африке.

Правда у этих цифр есть объективная причина.Она в том что да, в развитых странах гораздо больше данных из-за лучшей цифровизации, культуры открытости, культуры работы с данными и тд. Данных очень много и всё больше гиперлокальных, муниципальных данных

Поэтому данных по Африке так мало, даже когда мы продолжим георазметку датасетов, всё равно их будет сильно меньше чем где-то ещё и большая часть этих данных будет создана в США и Европейских странах.

А вот то что мало данных по Азии, у этого есть объективные причины необходимости индексирования данных по Китаю, где свой уникальный софт, свои каталоги данных и тд. Если даже только основные репозитории проиндексировать там будет несколько миллионов наборов данных, но все на китайском языке😂

Ссылки:
[1] https://dateno.io

#opendata #dateno #datasets #datasearch #search
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.

Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]

Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.

Разницу между GeoSeer и Dateno можно описать так:
1. В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. Пока в Dateno нет расширенного вывода метаданных для георесурсов

В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.

Ссылки:
[1] https://www.geoseer.net
[2] https://t.me/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats

#opendata #datasearch #datasets #geodata #spatial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот и свежие новости о Dateno. Мы привлекли раунд инвестиций в рамках которого в ближайшее время планируем запустить API, значительно увеличить поисковый индекс и добавить немало новых возможностей которые сейчас в разработке, а это и функции ИИ, и значительная работа по улучшению качества и полноты поиска. А также, что немаловажно, мы добавим в поиск немало данных связанных с web3 и blockchain.

#opendata #dateno #datasearch #investment #ai #blockchain #web30
Forwarded from Dateno
Exciting News from Dateno!

We are thrilled to announce that Dateno has successfully closed its latest investment round, led by Blockchair! 🎉 This marks a major milestone in our mission to revolutionize data accessibility and search.

Since our launch just a few months ago, Dateno has been rapidly growing, now indexing over 15 million datasets. By the end of 2024, we aim to expand this number to 30 million! Our platform offers a focused and advanced data search experience, supporting 13 facets for filtering results, making it easier than ever for users to find the datasets they need.
With this new investment and partnership, we’re excited to roll out major updates, including the launch of the Dateno API. This will position Dateno as the world's largest search index for data, allowing other projects to integrate our robust data search capabilities directly into their platforms.

We’re also incorporating blockchain and web3 data from Blockchair and other decentralized finance players, and we’re hard at work on AI-powered features to improve search accuracy and relevance. These enhancements will empower data analysts worldwide, making their work more intuitive, efficient, and insightful.

We’re just getting started, and we’re grateful for the support of our investors, partners, and the entire Dateno community. Stay tuned for more updates, and thank you for being part of this journey with us! 🚀

#Dateno #DataSearch #Investment #Innovation #AI
Давно размышляю о том как в научной среде публикуют данные и насколько всё зависит от научной дисциплины. В разных науках подход, инструменты, культура работы с данными и их доступность существенно отличаются.

Например, особняком идёт всё что касается life sciences особенно в части биоинформатики. Практически все исследования там, или создают данные, или используют и ссылаются на данные, или то и другое. Фактически это огромная связанная инфраструктура через стандарты, идентификаторы, специальные платформы и специализированные платформы и базы данных. Собственный мир развивающийся по собственным правилам.

Второй похожий блок - это науки о Земле включая климатологию, метеорологию, геофизику, науки о морях и океанах. По внутренним ощущениям там не так всё технологизировано, вернее, несколько консервативнее, но также это собственная экосистема.

Особняком данные связанные с ИИ, одна из областей где коммерческих данных может быть больше чем научных. Большая часть из них сконцентрированы в Kaggle и Hugging Face.

И отдельная история - это экономика, социальные науки, гуманитарные науки, госуправление и тд. Там данные если публикуются то скорее рассматриваются как один из результатов научной деятельности. Вот они публикуются, или на тех же ресурсах что и научные статьи, или на специализированных научных порталах общего типа.

Всё это сильно влияет на то как собирать данные, что считать датасетами, объём собираемых данных и так далее.

К примеру, сбор научных данных из репозиториев научных результатов - это, часто, поиск иголки в стоге сена. Не все научные репозитории поддерживают API и фильтрацию результатов по типу содержимого. Из репозиториев на базе DSpace, к примеру, надо вначале извлечь всё, а потом уже процеживать их по множеству критериев чтобы вытащить датасеты. Из 1 миллиона таких научных результатов, то что является датасетами будет 50-60 тысяч записей.

Возникает ситуация когда можно собирать научные данные и в процессе приходится ещё множество метаданных других научных работ и поисковик/поисковый индекс по научным работам получается автоматически. Как бы естественно. Но делать, его, вряд ли осмысленно поскольку таких поисковиков множество.

#thoughts #datasearch #openaccess #opendata
В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.

С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...

Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.

Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.

Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.

И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.

Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01

#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
Про то как публикуют и работают с опубликованными датасетами расскажу про их публикацию по стандарту schema.org.

В Schema.org, наборе стандартов для публикации информации о разных объектах для удобства их индексирования, есть два типа объектов Dataset и DataCatalog. Первый описывает набор данных и включает довольно большое число атрибутов, редко заполненных полностью, но тем не менее. Второй описывает коллекцию наборов данных, как правило это наборы данных одного сайта, реже несколько каталогов данных на одном сайте.

Особенность в том что если объекты типа Dataset ещё более-менее встречаются, то DataCatalog - это безусловная редкость. К примеру, в проекте Web Data Common за 2023 год извлечено менее миллиона (839 тысяч) ссылок на страницы с объектами Dataset и совсем нет объектов типа DataCatalog. Нет не случайно, потому что даже беглая проверка по каталогам данных в Dateno registry показывает что в лучшем случае у каждого тысячного каталога данных есть эта разметка.

А вот разметка Dataset присутствует у многих каталогов, из широко известных, к примеру, Hugging Face и Kaggle. А вот к примеру, на общеевропейском портале data.europa.eu этой разметки нет, а на национальном портале США data.gov она сокращённая и даёт только минимальные атрибуты такие как название и ключевые слова, без детализации прикреплённых ресурсов или лицензий.

При этом в команде Google, полтора года назад упоминали что в их поисковом индексе Google Dataset Search есть 45 миллионов записей с 13 тысяч сайтов. Правда у них охват шире чем у Common Crawl, а также явно кроме объектов Dataset они добавляют в индекс объекты типа DataDownload, они тоже есть в спецификации schema.org и, наконец, Google Dataset Search индексирует датасеты через разметку RDFa, а по ней нет статистики из Common Crawl. В проекте Web Data Commons нет отдельной выгрузки объектов типа Dataset для RDFa.

Основных проблем со Schema.org две.

Первая в том что это добровольная разметка объектов и слишком часто ей размечают коммерческие данные и сервисы рассчитывая на продвижение в поиске Гугла. И действительно там в поиске много "мусора", данных не имеющих ценности, но проиндексированных и доступных для поиска.

Вторая в том что реально интересные каталоги данных Schema.org не поддерживают. Особенно это справедливо в отношении геоданных и геопорталы практически все используют только собственные стандарты публикации данных.

Собственно поэтому в Dateno основная индексация не через краулинг объектов Schema.org, а несколько десятков видов API.

#thoughts #datasearch #dateno
В рубрике интересных поисковиков по данным Datacite Commons [1] это поисковик по научным данным, другим научным работам, научным организациям и репозиториям данных. Создан и развивается компанией DataCite, выдающей DOI для работ связанным с данными и собирающей единый индекс научных работ с метаданными объектов которые получили эти DOI.

Выглядит достаточно большим, 61 миллион работ включая 19 миллионов наборов данных [2].

Но, если присмотреться, то не всё так там с этим просто.
1) Значительная часть датасетов, около 2 миллионов, находятся на сервисе Data Planet [3] и публично недоступны, даже каталог посмотреть нельзя, только метаданные в DataCite.
2) Как минимум два источника - это GBIF и The Cambridge Structural Database это базы со структурированным описанием встречаемости видов и химических элементов. Это не датасеты, а как бы единые базы нарезанные на большое число записей. На эти записи по отдельности выдаются DOI, но называть их датасетами скорее неправильно.
3) Особенность метаданных в DataCite в отсутствии ссылок на файлы/ресурсы, поэтому те карточки датасетов что там есть не дают информации по реальному содержанию, только говорят о факте существования набора данных.

На фоне DataCite Commons у нас в Dateno реализовано гораздо больше, и с точки зрения объёмов проиндексированного, и с точки зрения удобства поиска.

Но не все источники данных из DataCite сейчас есть в Dateno и их ещё предстоит добавить. Ключевой вопрос в том рассматривать источники данных такие как GBIF как множество датасетов или не считать такое дробление обоснованным?

Ссылки:
[1] https://commons.datacite.org
[2] https://commons.datacite.org/statistics
[3] https://data.sagepub.com

#opendata #data #datasearch