Ivan Begtin
9.31K subscribers
2.1K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.

1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.

#opendata #europe #datacatalogs
В рубрике как это устроено у них порталы данных эпидемиологических исследований, для них существует специальное ПО с открытым кодом Obiba Mica [1], я в прошлом году упоминал [2] портал с данными по COVID-19, но это далеко не единственный такой проект с данными.

На базе Obiba Mica работает несколько десятков порталов данных в рамках проектов RECAP Preterm [3], европейский проект мониторинга детей с недостаточным весом и рождённых до срока и EUCAN Connect [4] совместные проекты Евросоюза и Канады в области персонализированной и превентивной медицины. Инсталляции на базе Obiba Mica разбросаны по разным странам: Испания [5], Португалия [6] и многие другие.

В чём особенность этих порталов? Во первых они не содержат открытые данные. Практически всегда содержащиеся там данные - это медицинские сведения, даже если они деперсонализированы, они более всего похожи на микроданные переписей и также организованы.

У датасетов есть переменные и метаданные которые детально описаны, доступны, стандартизированы, но сами данные доступны только после регистрации, направления запроса и получения подтверждения.

И, конечно, это продукт с открытым исходным кодом [7].

Во многих научных дисциплинах есть специализированные продукты/каталоги данных используемых для доступа к данным исследований в форме специфичной для этой дисциплины и Obiba Mica - это один из таких примеров.

В реестре Dateno есть около 20 дата порталов на базе Obiba Mica, в дикой среде их ещё где-то столько же, но в индексе Dateno их нет, поскольку данные из таких каталогов недоступны, а есть только метаданные. А это снижает приоритет индексирования, не говоря уже о том что наборов данных в таких порталах немного, от единиц до пары сотен датасетов.

Ссылки:
[1] https://www.obiba.org/pages/products/mica/
[2] https://t.me/begtin/5053
[3] https://recap-preterm.eu/
[4] https://eucanconnect.com/
[5] https://coral.igtp.cat/pub/
[6] https://recap-ispup.inesctec.pt/pub/
[7] https://github.com/obiba

#opendata #datacatalogs #datasets #dateno #microdata #epidemiology