Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Один из необычных наборов данных которые мне попадались - это данные к научной статье об определении зрелости филиппинских кокосов с помощью машинного обучения по акустическим сигналам [1] группа учёных, и не маленькая группа, 8 человек как-никак, придумали устройство для простукивания кокосов, выбрали 129 кокосов для тестирования и сделали 132 300 замеров (data points) после чего выложили статью и к ней набор данных со всеми замерами [2]. Набор данных в большом Excel файле, на 250+ мегабайт.

Возможно - это какая-то важная задача в автоматизации труда при сборе и сортировке кокосов, честно говоря я недостаточно знаю о кокосовых фермах и их производстве, но звучит довольно необычно. Как если бы кто-то сделал устройство для простукивания арбузов и провел машинное обучение по автоматическому определению их зрелости и типа.

Ссылки:
[1] https://www.sciencedirect.com/science/article/abs/pii/S0168169919324767
[2] https://www.sciencedirect.com/science/article/pii/S2352340923000549

#openscience #opendata #curious #food
Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии

- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима

- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data

- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана

- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет

- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией

- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая

Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] http://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] http://data.library.sh.cn/index

#opendata #digitalhumanities #ancienthistory #datasets #openscience
В рубрике как это работает у них проект Sciencebase.gov [1], каталог публикаций, материалов, карт и геоданных Геологической службы США (USGS). В каталоге содержится более 50 тысяч наборов данных связанных только с геологическими исследованиями, там же публикуются выпуски данных геологической службы и данные полученные исследователями и научными службами финансируемыми USGS.

Интересно и то что этот репозиторий лишь один из нескольких десятков аккредитованных USGS как рекомендуемых к публикации научных данных [2], все они, либо государственные, либо академические, либо от консорциумов университетов/научных центров.

В случае Sciencebase у всех записей большой объём метаданных включающий геокоординаты набора данных, уникальные идентификаторы, информацию о авторах, организации и многое другое.

Ссылки։
[1] https://www.sciencebase.gov/catalog/
[2] https://www.usgs.gov/office-of-science-quality-and-integrity/acceptable-digital-repositories-usgs-scientific

#opendata #openaccess #openscience
Один из важнейших элементов научной инфраструктуры данных - это так называемые универсальные репозитории (Generalist data repositories), хранилища научных данных не привязанные ни к одной из научных дисциплин и при этом дающие возможность сохранять данные условно любого объёма и с метаданными/описанием пригодным для интеграции в другие цифровые продукты и элементы цифровой научной инфраструктуры.

У журнала Nature есть неплохая подборка со списком всех хранилищ данных по их темам и, в том числе, список универсальных хранилищ [1], это:
- Dryad Digital Repository http://datadryad.org/
- figshare https://figshare.com
- Harvard Dataverse https://dataverse.harvard.edu
- Open Science Framework https://osf.io
- Zenodo https://zenodo.org
- Science Data Bank https://scidb.cn

Можно обратить внимание что тут есть китайский SciDb и китайские научные власти приложили немало усилий чтобы превратить SciDb в полноценный открытый репозиторий с интеграцией, например, с OpenAIRE. В то же время тут нет Mendeley Data от Elsevier потому что его как открытый репозиторий не рассматривает как минимум редакция Nature.

Подобные списки есть и в других изданиях, а также у многих университетов в специальных руководствах в статьях "Choosing a data repository' или "Selecting a data repository".

Помимо универсальных репозиториев есть ещё и тысячи узкодисциплинарных, привязанных к конкретным отраслям и часто включающим не только/не столько наборы данных в чистом виде, но добавления к существующим базам структурированных объектов. Например, репозиторий Vivli [2] для хранения исследовательских данных клинических исследований построен вокруг исследований (study), а не наборов данных, а исследования, в свою очередь, включают специфичные атрибуты для данной дисциплинарной области.

Ещё один подвид научных репозиториев данных - это университетские репозитории данных, чаще от одного университета, реже, но бывает, от их группы/ассоциации. Но и в этом случае создатели таких репозиториев стараются создавать профили на портале Re3Data [3] поскольку за последние годы многие издания стали рекомендовать выбирать репозиторий именно из этого каталога, при соблюдении ряда условий, таких как публикация на принципах FAIR [4].

Научные репозитории данных можно рассматривать как один из "индикаторов жизни" научных дисциплин в странах, наряду с числом публикаций, патентов, цитирований, активных исследователей и т.д.

Одним из важнейших трендов в современной цифровой научной инфраструктуре в распространении принципов открытости данных. Они касаются не только новых исследований, но и существующих архивов ранее доступных учёным только по запросу.

Открытость научных данных является одним из важнейших трендов в развитии открытости данных в мире, в ряде стран национальные порталы открытых данных уже интегрируются в научную инфраструктуру (США, Франция), в других это есть в планах.

Ссылки:
[1] https://www.nature.com/sdata/policies/repositories
[2] https://vivli.org/
[3] https://www.re3data.org
[4] https://www.go-fair.org/fair-principles/

#likbez #openscience #openaccess #data #datacatalogs
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.

В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.

Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.

Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.

RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].

Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/

#opendata #openaccess #openscience
В рубрике как это работает у них, в Аргентине Министерством науки, технологий и инноваций создана Sistema Nacional de Repositorios Digitales (Национальная система цифровых репозиториев) [1] для которой ещё в 2015 году были разработаны требования по подключению репозиториев академических учреждений с довольно простыми правилами сводящимися к заполнению метаданных по стандарту Dublin Core, поддержки интерфейсов сбора данных и так далее [2]. На организацию этих репозиториев и их приведение к стандарту университеты получали дополнительное финансирование [3] на техническую работу и на обучение кадров.

Всего таким образом охвачено 44 репозитория включающие как научные статьи и результаты конференций, так и исследовательские данные. Для исследовательских данных у них же создана отдельная система DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina [4]

Это во многом похоже на программы Европейского Союза, я приводил в пример появление репозиториев данных в Польше в Варшавском университете [5].

Ссылки:
[1] https://repositoriosdigitales.mincyt.gob.ar/vufind/
[2] https://repositoriosdigitales.mincyt.gob.ar/files/Directrices_SNRD_2015.pdf
[3] https://repositoriosdigitales.mincyt.gob.ar/vufind/Content/financiamiento
[4] https://dacytar.mincyt.gob.ar
[5] https://t.me/begtin/4759

#opendata #openaccess #openscience #data
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals