К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
✍9
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess