Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.

Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.

Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.

И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.

Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/

#opendata #academy #openscience #machinelearning #datasets