Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Не все данные называются наборами данных или базами данных или даже просто данными. Например, научные работы состоящие из данных или включающие данные могут называть datasets и, чаще всего, именно так и называют в репозиториях научных данных или в институциональных репозиториях научных и университетских исследовательских центров.

Однако, современные научные журналы - это, тоже, далеко не только тексты статей, там есть довольно много разных технологизированных тенденций и одна из них это публикация статей с данными. Такие статьи называют не datasets, а data paper, data report, data article и data note. Они включают сам текст статьи и уведомление о доступности данных включающее ссылки на первичные данные или данные полученные в результате работы.

Например, издательство Frontiers размещает data reports в своих онлайн изданиях [1]. Пока немного, всего 597 статей из 512 тысяч, это меньше чем 0.1%, но, тем не менее. Постепенно их число растёт.

В GBIF есть описание о том что такое data paper и примеры изданий их публикующих [2], подсказка , много таких изданий. Например, data paper есть в изданиях издательства Pensoft [3] и ещё немало специализированных журналов для данных вернее для статей с данными.

Есть подборки таких журналов [4] и их несложно найти при желании.

Подобные работы иногда сопровождаются приложенными дата файлами, а чаще ссылками на публикации данных в научных репозиториях. Таких как Dryad, Zenodo, Mendeley и ещё много других.

Для меня лично незакрытым вопросом остаётся воспринимать ли data papers как предмет индексирования поисковой системы по данным. С одной стороны большая часть данных из них доступны в каталогах данных, с другой стороны большая часть - это не все и многие данные в каталоги данных не попадают.

Ссылки:
[1] https://www.frontiersin.org/articles?publication-date=01%2F01%2F2007-06%2F04%2F2024&type=123
[2] https://www.gbif.org/data-papers
[3] https://mycokeys.pensoft.net/browse_journal_articles.php?form_name=filter_articles&sortby=0&journal_id=11&search_in_=0&section_type%5B%5D=134
[4] https://zenodo.org/records/7082126

#openaccess #thoughts #research #data #datasets
В рубрике как это устроено у них британское НКО Align to Innovate [1] сфокусированы на развитии открытости в биоинформатике через конкурсы, турниры и открытые данные в этой сфере. У них пример подхода к публикации данных через верификацию сообществом [2] начиная с dataset proposal (предложения конкретного набора данных) и продолжая сбором данных.

Очень логичная инициатива потому что подготовка больших верифицированных академических датасетов - это большая работа и дорогая к тому же. А здесь логичный процесс особенно если научные фонды понимают зачем создаются данные и то что надо финансировать процесс их создания.

Ссылки:
[1] https://alignbio.org
[2] https://alignbio.org/datasets-in-detail

#opendata #datasets #openaccess #data
В рубрике как это работает у них, польский портал Most Wiedzy [1] (Мост к знаниям) на котором публикуются результаты научной деятельности. В отдельном разделе портала Dane Badawcze [2] собраны открытые научные данные.

Всего 4093 набора данных на сегодняшний день, большая часть их под лицензиями CC0 и CC-BY.

У проекта есть открытое API [3] и выгрузка данных для семантического веба RDF/OWL [4].

Создан в университете Гданьска, используется десятком исследовательских центров Польши.

Ссылки:
[1] https://mostwiedzy.pl/pl/
[2] https://mostwiedzy.pl/pl/open-research-data/catalog
[3] https://api.mostwiedzy.pl/
[4] https://mostwiedzy.pl/pl/open-data

#opendata #openaccess #poland #datacatalogs
Подборка полезных ссылок про данные, технологии и не только:
- Catalogue of predictive models in the humanitarian sector [1] каталог предсказательных моделей в гуманитарном секторе, про погоду, засуху, катастрофы, пандемии и так далее. Большая подборка, в основном от университетов и структур ООН
- OGP Data Dashboard [2] обещания стран по развитию открытости в рамках OGP наложенное на карты. В том числе локальные инициативы
- Rubber Duck Debugging [3] отладка резиновой уточкой, способ программирования код объясняешь код построчно желтой резиновой утке рядом. Можно заменить на плюшевого медведя. Не новость, но полезное напоминание для тех кто задолбался с отладкой;)
- Enhancing findability and searchability of research data: Metadata conversion and registration in institutional repositories [4] научная работа про повышение качества поиска и находимости научных данных. Построено с акцентом на японскую национальную систему публикации научных данных IRDB [5]
- SciLake. Scientific Knowledge Graphs in the heart of Open Science
[6] европейский проект поверх OpenAIRE по сбору дополнительных данных и обогащению метаданных связанных с научными активностями. Больше похоже на параллельные научные гранты по обогащению данных OpenAIRE, не связанные между собой, но результатом может быть интересный открытый код

Ссылки:
[1] https://centre.humdata.org/catalogue-for-predictive-models-in-the-humanitarian-sector/
[2] https://www.opengovpartnership.org/data-dashboard
[3] https://en.wikipedia.org/wiki/Rubber_duck_debugging
[4] https://datascience.codata.org/articles/10.5334/dsj-2024-040
[5] https://irdb.nii.ac.jp
[6] https://scilake.eu

#opendata #datascience #programming #data #openaccess
В рубрике как это устроено у них японский национальный репозиторий результатов научных работ IRDB [1], включает 4.1 миллиона ресурсов, большая часть которых это научные статьи, журналы, публикации после конференций и так далее, а также боле чем 124 тысячи наборов исследовательских данных. Чем то IRDB схож с проектами OpenAIRE и SciDB, хотя и сделан весьма консервативнее.

В его основе харвестинг метаданных из более чем 700 научных репозиториев [2] в которых реализовано раскрытие метаданных по стандарту JPCOAR [3] через интерфейсы OAI-PMH. Сам репозиторий IDRB также поддерживает доступ через OAI-PMH [4] и с ним можно взаимодействовать программным образом.

Простота харвестинга во многом обеспечена тем что значительная часть репозиториев - это репозитории на базе open-source ПО Weko3 которое является доработанной версией репозитория для научных публикаций Invenio 3 и который и обеспечивает предоставление метаданных через OAI и, также, предоставляет иные, API упрощающие сбор данных. Weko3 был разработан Национальным институтом информатики Японии, той же организацией что управляет IRDB

У IRDB множество недостатков тоже есть:
- нет bulk download, нельзя скачать базу целиком
- нет документированного API, даже интерфейс OAI не упомянут на сайте, не говоря уже о том что он устарел для большей части задач
- схемы данных описания датасетов весьма консервативны. Нет даже разметки schema.org, не говоря уже о DCAT.

В целом проект выглядит проработанным, живым, но замершим в развитии.

Кстати, китайский проект SciDb сделан очень похожим образом. Также есть ПО институциональных репозиториев созданный структурой Китайской академии наук и централизованный архив/поиск индексирующий все эти репозитории.

Возвращаясь к IRDB, например, для Dateno проще автоматизировать сбор метаданных из японских репозиториев напрямую чем индексировать IRDB именно из-за отсутствия другого API кроме OAI.


Ссылки:
[1] https://irdb.nii.ac.jp
[2] https://irdb.nii.ac.jp/en/repositorylist
[3] https://schema.irdb.nii.ac.jp/en
[4] https://irdb.nii.ac.jp/oai

#opendata #data #openaccess #japan #china #openscience
В рубрике интересных каталогов данных малоизвестных за пределами своих отраслей GBIF (Global Biodiversity Information Facility) [1] портал для публикации данных о встреченных видах в рамках исследований биоразнообразия.

Сейчас на портале более 108 тысяч наборов данных о 7.7 миллионах видах и чуть менее 3 миллиардах упоминаний о случаях встречи с ними (occurrences). Помимо информации о видах и датасетах там есть профили стран и можно найти данные даже по очень экзотическим территориям или по известным странам с большой подробностью.

Вот профиль с датасетами и животными Армении [2] и, например, если Вы интересовались есть ли в Армении медведи. Да, есть;) [3]

Почти все материалы в GBIF опубликованы под лицензиями CC-BY и CC0.

Это бесценный источник ресурсов для обучения распознавания изображений животных и их следов.

Ссылки:
[1] https://www.gbif.org
[2] https://www.gbif.org/country/AM/summary
[3] https://www.gbif.org/occurrence/4436343743

#opendata #biodiversity #openaccess
Команда OpenAIRE пишет про партнёрство с лабораторией SCImago [1], командой которая создала несколько продуктов по оценке и рэнкингу научных институций и стран. Кстати, если Вы не видели их рейтинг стран по научным публикациям, то стоит взглянуть [2] и, кстати, картинка о состоянии российской науки, вернее падения её интеграции в мировую и цитируемости. Я это комментировать не буду, уверен что найдутся те кто может объяснить эти процессы лучше меня.

Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.

Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.

Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU

#opendata #openaccess #openaire #europe #rankings
Давно размышляю о том как в научной среде публикуют данные и насколько всё зависит от научной дисциплины. В разных науках подход, инструменты, культура работы с данными и их доступность существенно отличаются.

Например, особняком идёт всё что касается life sciences особенно в части биоинформатики. Практически все исследования там, или создают данные, или используют и ссылаются на данные, или то и другое. Фактически это огромная связанная инфраструктура через стандарты, идентификаторы, специальные платформы и специализированные платформы и базы данных. Собственный мир развивающийся по собственным правилам.

Второй похожий блок - это науки о Земле включая климатологию, метеорологию, геофизику, науки о морях и океанах. По внутренним ощущениям там не так всё технологизировано, вернее, несколько консервативнее, но также это собственная экосистема.

Особняком данные связанные с ИИ, одна из областей где коммерческих данных может быть больше чем научных. Большая часть из них сконцентрированы в Kaggle и Hugging Face.

И отдельная история - это экономика, социальные науки, гуманитарные науки, госуправление и тд. Там данные если публикуются то скорее рассматриваются как один из результатов научной деятельности. Вот они публикуются, или на тех же ресурсах что и научные статьи, или на специализированных научных порталах общего типа.

Всё это сильно влияет на то как собирать данные, что считать датасетами, объём собираемых данных и так далее.

К примеру, сбор научных данных из репозиториев научных результатов - это, часто, поиск иголки в стоге сена. Не все научные репозитории поддерживают API и фильтрацию результатов по типу содержимого. Из репозиториев на базе DSpace, к примеру, надо вначале извлечь всё, а потом уже процеживать их по множеству критериев чтобы вытащить датасеты. Из 1 миллиона таких научных результатов, то что является датасетами будет 50-60 тысяч записей.

Возникает ситуация когда можно собирать научные данные и в процессе приходится ещё множество метаданных других научных работ и поисковик/поисковый индекс по научным работам получается автоматически. Как бы естественно. Но делать, его, вряд ли осмысленно поскольку таких поисковиков множество.

#thoughts #datasearch #openaccess #opendata