Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.

Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.

С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.

Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.

Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en

#openscience #openaccess #austria