В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
docs.openalex.org
Overview | OpenAlex technical documentation