Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Один из важнейших элементов научной инфраструктуры данных - это так называемые универсальные репозитории (Generalist data repositories), хранилища научных данных не привязанные ни к одной из научных дисциплин и при этом дающие возможность сохранять данные условно любого объёма и с метаданными/описанием пригодным для интеграции в другие цифровые продукты и элементы цифровой научной инфраструктуры.

У журнала Nature есть неплохая подборка со списком всех хранилищ данных по их темам и, в том числе, список универсальных хранилищ [1], это:
- Dryad Digital Repository http://datadryad.org/
- figshare https://figshare.com
- Harvard Dataverse https://dataverse.harvard.edu
- Open Science Framework https://osf.io
- Zenodo https://zenodo.org
- Science Data Bank https://scidb.cn

Можно обратить внимание что тут есть китайский SciDb и китайские научные власти приложили немало усилий чтобы превратить SciDb в полноценный открытый репозиторий с интеграцией, например, с OpenAIRE. В то же время тут нет Mendeley Data от Elsevier потому что его как открытый репозиторий не рассматривает как минимум редакция Nature.

Подобные списки есть и в других изданиях, а также у многих университетов в специальных руководствах в статьях "Choosing a data repository' или "Selecting a data repository".

Помимо универсальных репозиториев есть ещё и тысячи узкодисциплинарных, привязанных к конкретным отраслям и часто включающим не только/не столько наборы данных в чистом виде, но добавления к существующим базам структурированных объектов. Например, репозиторий Vivli [2] для хранения исследовательских данных клинических исследований построен вокруг исследований (study), а не наборов данных, а исследования, в свою очередь, включают специфичные атрибуты для данной дисциплинарной области.

Ещё один подвид научных репозиториев данных - это университетские репозитории данных, чаще от одного университета, реже, но бывает, от их группы/ассоциации. Но и в этом случае создатели таких репозиториев стараются создавать профили на портале Re3Data [3] поскольку за последние годы многие издания стали рекомендовать выбирать репозиторий именно из этого каталога, при соблюдении ряда условий, таких как публикация на принципах FAIR [4].

Научные репозитории данных можно рассматривать как один из "индикаторов жизни" научных дисциплин в странах, наряду с числом публикаций, патентов, цитирований, активных исследователей и т.д.

Одним из важнейших трендов в современной цифровой научной инфраструктуре в распространении принципов открытости данных. Они касаются не только новых исследований, но и существующих архивов ранее доступных учёным только по запросу.

Открытость научных данных является одним из важнейших трендов в развитии открытости данных в мире, в ряде стран национальные порталы открытых данных уже интегрируются в научную инфраструктуру (США, Франция), в других это есть в планах.

Ссылки:
[1] https://www.nature.com/sdata/policies/repositories
[2] https://vivli.org/
[3] https://www.re3data.org
[4] https://www.go-fair.org/fair-principles/

#likbez #openscience #openaccess #data #datacatalogs
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.

В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.

Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.

Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.

RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].

Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/

#opendata #openaccess #openscience
В рубрике как это работает у них, в Аргентине Министерством науки, технологий и инноваций создана Sistema Nacional de Repositorios Digitales (Национальная система цифровых репозиториев) [1] для которой ещё в 2015 году были разработаны требования по подключению репозиториев академических учреждений с довольно простыми правилами сводящимися к заполнению метаданных по стандарту Dublin Core, поддержки интерфейсов сбора данных и так далее [2]. На организацию этих репозиториев и их приведение к стандарту университеты получали дополнительное финансирование [3] на техническую работу и на обучение кадров.

Всего таким образом охвачено 44 репозитория включающие как научные статьи и результаты конференций, так и исследовательские данные. Для исследовательских данных у них же создана отдельная система DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina [4]

Это во многом похоже на программы Европейского Союза, я приводил в пример появление репозиториев данных в Польше в Варшавском университете [5].

Ссылки:
[1] https://repositoriosdigitales.mincyt.gob.ar/vufind/
[2] https://repositoriosdigitales.mincyt.gob.ar/files/Directrices_SNRD_2015.pdf
[3] https://repositoriosdigitales.mincyt.gob.ar/vufind/Content/financiamiento
[4] https://dacytar.mincyt.gob.ar
[5] https://t.me/begtin/4759

#opendata #openaccess #openscience #data
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.

Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/

#opendata #openaccess #openscience #spain #eu
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu
В рубрике открытых данных о которых почти никто не знает. Один из малоизвестных типов каталогов данных за пределами профессионального сообщества - это IPT: The Integrated Publishing Toolkit [1] специально ПО используемое ботаниками, биологами для публикации открытых наборов данных интегрированных в международный проект GBIF (Global Core Biodata Resource).

В России есть множество инсталляций IPT, например, от Зоологического института в СПб [2] и Югорского госуниверситета [3]. Его инсталляции есть даже в Иране [4], а все данные из IPT агрегируются в поиск GBIF где уже более 85 тысяч наборов данных

Некоторые инсталляции IPT по странам находятся в других странах. Например, IPT по Армении [5], поэтому поиск по наборам данных помогает найти данные даже по тем странам где инсталляции IPT формально отсутствуют.

Все данные публикуются под свободными лицензиями, как правило CC-BY

Всё это о том что значительная часть открытых данных в мире находится не на поверхности, неизвестна широкой публики и имеет, преимущественно, узкоотраслевое применение.

Но они есть и их очень много.

Ссылки:
[1] https://www.gbif.org/ipt
[2] http://ipt.zin.ru:8080/ipt/
[3] http://ipt.ugrasu.ru:8080/
[4] http://217.11.23.22/ipt/
[5] https://www.gbif.org/dataset/search
[6] https://armenia.ipt.gbif.no/

#opendata #openaccess #openscience #biology #plants
В рубрике как это работает у них IRDB (Institutional Repositories DataBase) [1] японский агрегатор результатов научной деятельности в котором собрано более 3.8 миллионов записей, большая часть которых - это научные публикации, но более 100 тысяч открытые наборы данных.

В агрегаторе собираются материалы из 486 японских исследовательских репозиториев, а для сбора данных используется JPCOAR [2], японский вариант стандарта публикации результатов научных работ.

Эту базу можно, в чём-то сравнить с китайским SciDB, однако последний сделан с акцентом только на данные, а здесь все научные результаты. Поэтому корректнее сравнивать его с европейским OpenAIRE, на который он по смыслу и идеологии весьма похож.

Ссылки:
[1] https://irdb.nii.ac.jp/en
[2] https://schema.irdb.nii.ac.jp/en
#opendata #openaccess #japan #openscience
Многие знают что в России отсутствует национальная инфраструктура по публикации исследовательских данных похожая на Zenodo в ЕС или SciDb в Китае, но не все знают что есть небольшое, но живое число низовых инициатив.

Лично мне известно 4 такие инициативы"
- Репозиторий открытых данных по русской литературе и фольклору (Институт русской литературы (Пушкинский дом) РАН)
- Репозиторий психологических исследований и инструментов RusPsyData
- Портал электронных ресурсов Южного федерального университета
- Другой портал научных данных на базе Figshare, Южного федерального университета

Можно обратить внимание что таких инициатив нет у ведущих российских ВУЗов и тем более у Минобрнауки РФ. Каждый проект по открытым научным данным кажется необычным именно потому что недостаточна институциональная среда для их появления. Но они есть хотя их и немного. Также я время от времени пишу про более точечные узкоотраслевые научные инициативы.

#opendata #openaccess #openscience #datasets
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
В рубрике интересных источников данных Wolfram Data Repository [1] каталог из 1041 набора данных от команды Wolfram Research.

Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.

Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.

Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.

P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.

Ссылки:
[1] https://datarepository.wolframcloud.com

#opendata #openscience #research #wolfram
Любопытный исследовательский проект ORKG [1] дословно The Open Research Knowledge Graph (ORKG) aims to describe research papers in a structured manner. With the ORKG, papers are easier to find and compare.

А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая.

Да, у них открытое API, точки подключения к SPARQL и много чего открытого.

Ссылки:
[1] https://orkg.org

#opendata #openapi #openscience #knowledge #science
Свежий доклад ОЭСР по применению ИИ в науке [1], вернее это даже не доклад, а сборник статей объединённых одной темой. Много примеров того как ИИ уже сейчас применяется в научной работе и о том как может применяться в ближайшем будущем. В целом документ ИИ-оптимистичен, практически все тексты о том как ИИ хорош и полезен во всём: автоматизации лабораторий, поиске лекарств, удобных инструментах управления знаниями и так далее.

Важная часть текстов посвящена вопросу Is science getting harder? (Становится ли тяжелее заниматься наукой?) и ответ на этот вопрос - да, а ИИ рассматривается как важный усилитель работы учёных.

Почитать полезно, поскольку это та область которая как раз должна вызывать наименьшие опасения этики работы с ИИ. Возможно.

Ссылки:
[1] https://www.oecd.org/publications/artificial-intelligence-in-science-a8d820bd-en.htm

#openscience #ai #readings
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.

Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.

С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.

Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.

Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en

#openscience #openaccess #austria
В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.

Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.

Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов

У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.

Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.

Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/

#opendata #openaccess #openscience #science #research #materials #molecules