Forwarded from APICrafter
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…
Научная статья Diego A. Forero, Walter H. Curioso и George P. Patrinos "The importance of adherence to international standards for depositing open data in public repositories" [1] о значимости международной стандартизации в публикации открытых данных в общедоступных репозиториях. В статье весьма подробно о том как организации выделяющие финансирование исследований в США и в Европе обязывают учёных публиковать результаты как открытые данные, о стандартах TOP Transparency and Openness Promotion [2] и множество ссылок на научные статьи и дискусии о принципах обмена данных в ситуации пандемии и необходимости доступности качественных данных.
Статья опубликована в BMC (Springer Nature), поэтому у неё довольно чёткий уклон в сторону биоинформатики, но много отсылок и на государственные порталы открытых данных в ЕС и США.
И тут же вдогонку пример поисковой системы по данным - DataMed.org [3] более 2.300.000+ наборов данных из 76 цифровых репозиториев. На его же основе Covid19 Data Index [4] где более 7800+ наборов данных исследований по COVID-19.
Ссылки:
[1] https://bmcresnotes.biomedcentral.com/articles/10.1186/s13104-021-05817-z
[2] https://www.cos.io/initiatives/top-guidelines
[3] https://datamed.org/
[4] https://www.covid19dataindex.org/
#opendata #datacatalogs #datasets #data #medicine #biomed
Статья опубликована в BMC (Springer Nature), поэтому у неё довольно чёткий уклон в сторону биоинформатики, но много отсылок и на государственные порталы открытых данных в ЕС и США.
И тут же вдогонку пример поисковой системы по данным - DataMed.org [3] более 2.300.000+ наборов данных из 76 цифровых репозиториев. На его же основе Covid19 Data Index [4] где более 7800+ наборов данных исследований по COVID-19.
Ссылки:
[1] https://bmcresnotes.biomedcentral.com/articles/10.1186/s13104-021-05817-z
[2] https://www.cos.io/initiatives/top-guidelines
[3] https://datamed.org/
[4] https://www.covid19dataindex.org/
#opendata #datacatalogs #datasets #data #medicine #biomed
BioMed Central
The importance of adherence to international standards for depositing open data in public repositories - BMC Research Notes
There has been an important global interest in Open Science, which include open data and methods, in addition to open access publications. It has been proposed that public availability of raw data increases the value and the possibility of confirmation of…
В рубрике как это устроено у них есть большая тема про доступность данных которую никак не уложить в короткий текст да и длинных текстов понадобится немало. Про инфраструктуру открытых данных в медицине, тесно переплетённую с идеей открытого доступа в науке.
Сразу всё сложно, можно подступиться к к отдельным её частям.
...
Значительная часть открытых данных связанных с медицинскими исследованиями в мире публикуется благодаря политике Национального института здравоохранения США (NIH). И связано это с тем что у NIH есть последовательная политика:
1. Вначале предпочтительности, а далее обязательности открытого доступа для всех финансируемых им исследований.
2. Последовательная политика поощрения создания и создания собственных репозиториев данных и иных результатов научной деятельности.
3. Прямые инвестиции в инфраструктуру создания, обработки, визуализации и систематизации данных научных исследований.
Примеры реализации этих политик в виде каталога репозиториев данных поддерживаемых NIH [1] причём эти репозитории разделяются на Generalist и Domain Specific. Первые - это репозитории данных как датасетов, такие как Zenodo или OSF. Вторые - это специализированные репозитории данных где единицей измерения/учёта/записи являются, как правило, не датасеты, а объекты научной деятельности к которым привязаны данные. Это могут быть репозитории исследований (studies), репозитории геномов (genomes) и так далее. Как правило эти репозитории содержат существенное число метаданных связанных с медициной/биоинформатикой/генетикой и перевязаны между собой кросс ссылками.
По мере нарастания критической массы разных проектов, а там реально очень много проектов на данных у NIH есть Common Fund Data Ecosystem (CFDE) [2] по интеграции существующих дата порталов и иных дата проектов общими правилами и конвейерами обработки данных. А сама эта инициатива существует в рамках The Common Fund в рамках которого как раз финансируется общая инфраструктура, важная для всех направлений исследований [3].
Медицина и, более широко, биоинформатика формируют собственную сложную экосистему репозиториев данных, инструментов, ключевых понятий и онтологий чем многие другие.
Реальные объёмы данных, количественные и качественные там поражают и одновременно, это область весьма замкнутого применения. Она как бы полностью в себе, как и большая часть научных дисциплин. Во всяком случае так это выглядит со стороны человека не вовлеченного в них напрямую.
...
Ссылки:
[1] https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html
[2] https://commonfund.nih.gov/dataecosystem
[3] https://commonfund.nih.gov/current-programs
#opendata #medicine #openaccess #health #data
Сразу всё сложно, можно подступиться к к отдельным её частям.
...
Значительная часть открытых данных связанных с медицинскими исследованиями в мире публикуется благодаря политике Национального института здравоохранения США (NIH). И связано это с тем что у NIH есть последовательная политика:
1. Вначале предпочтительности, а далее обязательности открытого доступа для всех финансируемых им исследований.
2. Последовательная политика поощрения создания и создания собственных репозиториев данных и иных результатов научной деятельности.
3. Прямые инвестиции в инфраструктуру создания, обработки, визуализации и систематизации данных научных исследований.
Примеры реализации этих политик в виде каталога репозиториев данных поддерживаемых NIH [1] причём эти репозитории разделяются на Generalist и Domain Specific. Первые - это репозитории данных как датасетов, такие как Zenodo или OSF. Вторые - это специализированные репозитории данных где единицей измерения/учёта/записи являются, как правило, не датасеты, а объекты научной деятельности к которым привязаны данные. Это могут быть репозитории исследований (studies), репозитории геномов (genomes) и так далее. Как правило эти репозитории содержат существенное число метаданных связанных с медициной/биоинформатикой/генетикой и перевязаны между собой кросс ссылками.
По мере нарастания критической массы разных проектов, а там реально очень много проектов на данных у NIH есть Common Fund Data Ecosystem (CFDE) [2] по интеграции существующих дата порталов и иных дата проектов общими правилами и конвейерами обработки данных. А сама эта инициатива существует в рамках The Common Fund в рамках которого как раз финансируется общая инфраструктура, важная для всех направлений исследований [3].
Медицина и, более широко, биоинформатика формируют собственную сложную экосистему репозиториев данных, инструментов, ключевых понятий и онтологий чем многие другие.
Реальные объёмы данных, количественные и качественные там поражают и одновременно, это область весьма замкнутого применения. Она как бы полностью в себе, как и большая часть научных дисциплин. Во всяком случае так это выглядит со стороны человека не вовлеченного в них напрямую.
...
Ссылки:
[1] https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html
[2] https://commonfund.nih.gov/dataecosystem
[3] https://commonfund.nih.gov/current-programs
#opendata #medicine #openaccess #health #data
commonfund.nih.gov
Common Fund Data Ecosystem (CFDE) | NIH Common Fund
Program SnapshotThe Common Fund Data Ecosystem (CFDE) aims to enable broad use of Common Fund data to accelerate discovery. Common Fund programs generate a wide range of diverse and valuable data sets and knowledge designed to be used by the research community. However…