Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике интересных проектов на открытых данных, малоизвестная поисковая система по наборам данных Auctus [1] созданная в Visualization, Imaging, and Data Analysis lab (VIDA) Университета Нью Йорка

В отличие от Google Dataset Search (GDS) эта поисковая система выгружает данные, анализирует их состав, дает возможности расширенного поиска и дополнительно визуализирует данные на карте, таблицей и графиками. Охват меньше чем у GDS, зато подача результата качественно лучше.

У проекта открытый код и хорошая документация [2], а также авторы написали научную статью о его создании [3].

Лично я давно хочу сделать похожую штуку, может быть с меньшим акцентом на визуализацию и с большим на обнаружение данных. В том числе включив поиск по семантическим типам данных. А Auctus хороший пример того что такой проект возможен разумными силами.

Ссылки:
[1] https://auctus.vida-nyu.org
[2] https://gitlab.com/ViDA-NYU/auctus/auctus
[3] https://arxiv.org/abs/2102.05716

#opendata #data #datasearch
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez
У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.

Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.

По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.

Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.

Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about

#opendata #data #datasearch #opensource
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
This media is not supported in your browser
VIEW IN TELEGRAM
Я регулярно рассказываю о том над чем я лично работаю над глобальным поисковиком по данным Common Data Index и могу уже показать демо поиска по датасетам. Пока без дизайна, без карточек датасетов, без ещё многого.

Зато очень быстро, с более чем 3.3 миллионами наборов данных. Причём добавление большего числа наборов данных не проблема.

Общий объём метаданных в поиске 7.5Gb, а сам поисковый индекс занимает 65Gb.

Много работы уходит на стандартизацию данных из разных источников, но это интересная гибридно аналитическая и инженерная работа.

Пока по плану ближе к концу августа будет публичный сервис поиска.

#opendata #datacatalogs #datasearch
6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки.

Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс.

Если успею к конференции, то может быть и интерфейс поиска успею показать.

#opendata #datasearch #smartdata #datasets #events
В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:

- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах

- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.

- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.

- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite

- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.

- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.

- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.

- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.

#opendata #datasets #data #datasearch
В список поисковых систем по данным, который я ранее публиковал, можно добавить GeoSeer [1] единственный известный мне поисковик по точкам подключения к гео API по всему миру. Охватывает точки подключения к WFS, WMS, WCS, WMTS и около 3.5 миллионов таких точек.

Существует в подписочной бизнес модели с оплатой за тарифы доступа к API.

При этом сам поисковик выглядит слегка кустарно и с 2022 года в нём не обновляется статистика, а с 2020 года автор(-ы) перестал публиковать посты в блоге. Тем не менее, даже с учётом этих ограничений, это один из немногих существующих поисковиков по геоданным в мире.

Ссылки:
[1] https://www.geoseer.net

#opendata #datasearch #geodata #spatial