Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
👍12
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe
👍5
В рубрике как это устроено у них публикация данных высокой ценности в Испании.

Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.

Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"

#opendata #datasets #europe #spain
👍112
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.

Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.

Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]

В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.

Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.

А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.


Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview

#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
👍7
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.

Делают его на CKAN и, в целом, как-то без энтузиазма 😜

В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.

В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.

Ссылки:
[1] http://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/

#opendata #bosnaihercegovina #europe #ckan #datasets
5👍1
Почему некоторых особенно крупных порталов с данными нет в Dateno? Например, европейский портал data.europe.eu [1] кажется очень большим. Там более чем 1.8 миллиона датасетов со всех стран входящих в Европейский союз, там есть API через которое их можно выкачать и выглядит как "надо брать", проиндексировать его и сразу индекс сильно расшириться.

Всё так, за несколькими но, и очень существенными.

Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.

Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.

Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.

Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам

В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.

Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.

В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.

Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper

#opendata #data #datasets #dateno #europe
👍1011🤔1