В рубрике как это устроено у них публикация данных высокой ценности в Испании.
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
👍11❤2
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.
Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.
Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]
В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.
Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.
А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.
Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview
#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.
Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]
В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.
Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.
А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.
Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview
#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
👍7
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] http://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] http://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
✍5👍1
Почему некоторых особенно крупных порталов с данными нет в Dateno? Например, европейский портал data.europe.eu [1] кажется очень большим. Там более чем 1.8 миллиона датасетов со всех стран входящих в Европейский союз, там есть API через которое их можно выкачать и выглядит как "надо брать", проиндексировать его и сразу индекс сильно расшириться.
Всё так, за несколькими но, и очень существенными.
Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.
Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.
Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.
Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам
—
В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.
Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.
В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.
Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper
#opendata #data #datasets #dateno #europe
Всё так, за несколькими но, и очень существенными.
Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.
Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.
Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.
Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам
—
В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.
Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.
В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.
Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper
#opendata #data #datasets #dateno #europe
👍10✍1❤1🤔1
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.
Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.
Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.
В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.
А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных
Ссылки:
[1] https://www.govdata.de
#opendata #germany #europe #datasets #data
Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.
Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.
В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.
А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных
Ссылки:
[1] https://www.govdata.de
#opendata #germany #europe #datasets #data
👍5
Команда OpenAIRE пишет про партнёрство с лабораторией SCImago [1], командой которая создала несколько продуктов по оценке и рэнкингу научных институций и стран. Кстати, если Вы не видели их рейтинг стран по научным публикациям, то стоит взглянуть [2] и, кстати, картинка о состоянии российской науки, вернее падения её интеграции в мировую и цитируемости. Я это комментировать не буду, уверен что найдутся те кто может объяснить эти процессы лучше меня.
Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.
Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.
Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU
#opendata #openaccess #openaire #europe #rankings
Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.
Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.
Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU
#opendata #openaccess #openaire #europe #rankings
🔥3
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets
👍1
Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.
Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.
Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.
Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.
Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.
Привязка данных связана скорее с географическим положением, чем с административными границами.
Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search
#opendata #climate #oceans #europe #datacatalogs #datasearch
Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.
Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.
Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.
Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.
Привязка данных связана скорее с географическим положением, чем с административными границами.
Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search
#opendata #climate #oceans #europe #datacatalogs #datasearch
✍3❤1
Вышел европейский доклад
Open data in Europe 2024 [1] который также называют доклад по зрелости открытых данных (Open Data Maturity Report). В нём анализ состояния открытости данных, порталов открытых данных и госполитик в этой области по всем странам ЕС + некоторым странам кандидатам + Украине. Например, Сербия, а также Босния и Герцеговина там есть, а вот Грузии и Турции там нет. Впрочем на сегодняшний день это самый всеохватывающий доклад по открытости данных в отдельном над государственном образовании / регионе.
На первых трех местах по общей оценке идут: Франция, Польша и Украина, а на последних трёх: Албания, Мальта и Босния и Герцеговина. Последний случай особый, там отставание от стран ЕС наиболее серьёзно. По сути в Боснии и Герцеговине внятной политики открытости данных нет, портал данных тоже был в полурабочем состоянии когда я смотрел его в последний раз.
Лично мне доклад наиболее интересен большим числом кейсов, примеров и ссылок на порталы. Всегда есть что добавить в реестр каталогов данных Dateno.
Ссылки:
[1] https://data.europa.eu/en/publications/open-data-maturity/2024
#opendata #europe
Open data in Europe 2024 [1] который также называют доклад по зрелости открытых данных (Open Data Maturity Report). В нём анализ состояния открытости данных, порталов открытых данных и госполитик в этой области по всем странам ЕС + некоторым странам кандидатам + Украине. Например, Сербия, а также Босния и Герцеговина там есть, а вот Грузии и Турции там нет. Впрочем на сегодняшний день это самый всеохватывающий доклад по открытости данных в отдельном над государственном образовании / регионе.
На первых трех местах по общей оценке идут: Франция, Польша и Украина, а на последних трёх: Албания, Мальта и Босния и Герцеговина. Последний случай особый, там отставание от стран ЕС наиболее серьёзно. По сути в Боснии и Герцеговине внятной политики открытости данных нет, портал данных тоже был в полурабочем состоянии когда я смотрел его в последний раз.
Лично мне доклад наиболее интересен большим числом кейсов, примеров и ссылок на порталы. Всегда есть что добавить в реестр каталогов данных Dateno.
Ссылки:
[1] https://data.europa.eu/en/publications/open-data-maturity/2024
#opendata #europe
✍6❤2👍1😁1
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.
1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.
#opendata #europe #datacatalogs
1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.
#opendata #europe #datacatalogs
data.europa.eu
The official portal for European data | data.europa.eu
Discover the single point of access to open data from European countries, EU institutions, agencies and bodies and other European countries.
👍6
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].
Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.
Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]
и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.
Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action
#opendata #datasets #europe #statistics #healthcare
Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.
Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]
и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.
Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action
#opendata #datasets #europe #statistics #healthcare
👍3❤2
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.
Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.
Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.
Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.
Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data
#opendata #europe #transport #airtraffic #datasets
Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.
Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.
Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.
Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data
#opendata #europe #transport #airtraffic #datasets
👍3✍1
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana
👍4⚡2
Заработала пилотная инфраструктура Европейского консорциума Open Web Search по созданию открытого европейского поисковика [1] всё под эгидой цифрового суверенитета Евросоюза, дословно - Europe’s Independence in Web Search.
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
🔥9❤2
Европейцы всё активнее обсуждают цифровой суверенитет и независимость от американских технологии, в особенности big tech'ов. .
Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.
Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.
Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html
#europe #regulation #clouds
Из свежего о чём стоит знать - это в недавних слушаниях [1] в Сенате Франции представитель Microsoft отказался под присягой давать гарантию что спецслужбы США не могут получить доступ к данным европейских граждан в европейских ЦОДах Microsoft в любой момент.
Поэтому в том что касается локализации данных - это вопрос не только физического их местонахождения, но и то кто имеет или в любой момент может получить доступ к этим данным.
Ссылки:
[1] https://www.senat.fr/compte-rendu-commissions/20250609/ce_commande_publique.html
#europe #regulation #clouds
👍10✍6🔥4💯1
Тем временем в Европе сворачивается история с раскрытием реестров конечных бенефициаров компаний. Сами данные продолжают собирать, но теперь эти реестры убирают из открытого доступа в тех странах где ранее публиковали. Свежее решение датского регулятора (на датском языке) по которому с 1 сентября 2025 г. датский реестр бенефициаров компаний публиковаться не будет. Их кейс когда-то неплохо разбирали в рамках проекта Open Ownership в 2023 году и в целом в мире всё постепенно двигалось к большей открытости бенефициаров до директивы (ЕС) 2024/1640 от 31 мая 2024 которая возникла после решения европейского суда.
История эта интересная, но у меня пока нет времени написать про неё лонгрид. Она ровно о том что защита персональных данных, а в данном случае GDPR, главный ограничитель открытости коммерческих реестров.
#opendata #europe
История эта интересная, но у меня пока нет времени написать про неё лонгрид. Она ровно о том что защита персональных данных, а в данном случае GDPR, главный ограничитель открытости коммерческих реестров.
#opendata #europe
erhvervsstyrelsen.dk
Adgang til oplysninger om reelle ejere
Denne vejledning omhandler, hvem der kan få adgang til oplysninger om reelle ejere fra den 1. september 2025, betingelser for adgangen og muligheden for at videregive oplysninger om reelle ejere samt Erhvervsstyrelsens kontrol.
😢8❤5👍4💔2✍1🔥1
Свежий документ Organizing Public Support for Open Digital Infrastructure про германское Sovereign Tech Agency (STA) и финансирование открытого кода идентифицированного как наиболее критичного для глобальной инфраструктуры. Полезный текст про "бигтехозамещение здорового человека" и теперь это важный европейский мэйнстрим по снижению цифровой зависимости от США и Китая и создание открытой цифровой инфраструктуры (open digital infrastructure).
Я, наверное, с пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.
В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.
Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.
С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.
#opensource #europe #readings
Я, наверное, с пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.
В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.
Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.
С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.
#opensource #europe #readings
👍4❤3🔥3
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.
#opendata #datasets #data #europe
#opendata #datasets #data #europe
👍4✍1🔥1🤔1
На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.
Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.
Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.
Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.
Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.
Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.
#opendata #europe #rdf #semanticweb #linkeddata #thoughts
Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.
Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.
Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.
Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.
Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.
#opendata #europe #rdf #semanticweb #linkeddata #thoughts
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍4🤔2✍1⚡1
Я, кстати, пропустил эту новость, а оказывается в конце ноября 2025 г. проект языка Zig полностью мигрировал с Github на Codeberg и теперь именно там его исходный код, задачи, команда разработки и тд. Для тех кто не слышал о нем Codeberg - это некоммерческая открытая платформа для хостинга открытого кода созданная на базе Forgejo открытой.и бесплатной альтернативе Github, Gitlab, Gitea для самостоятельнрого создания системы контроля кода поверх Git.
Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.
Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.
Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.
С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.
Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.
#opensource #europe #github #codeberg #zig
Особенность Codeberg в четких правилах, явно обозначенным акцентом на FOSS и при этом достаточная зрелость для практического использования.
Почему новость про Zig важна? У одного только репозитория Zig'а на Github'е было 42.7 тысяч подписчиков, а после миграции на Codeberg их почти сразу стало 3.1 тысяча подписчиков на их платформе.
Что с одной стороны в 14 раз меньше, а с другой стороны на Codefberg'е Zig теперь на втором месте.
Если почитать почему автор Zig'а Andrew Kelley мигрировал с Github'а то он пишет про нежелание оказаться в ситуации vendor lock-in и того что Github стал портиться, в частности, в отношении Github Actions и конфликта между политикой Zig Strict No LLM/AI Policy и толерантностью команды Github'а к потокам автосгенерированных PR и Issues.
С одной стороны миграция Zig'а на Codeberg - это не массовая миграция, а с другой если Евросоюз реально войдет в торговый клинч с США, то я бы предполагал миграцию с Github'а (и Gitlab'а) всего государственного кода и кода получающего грантовое финанасирование ЕС как минимум.
Это не Бог весть какое хтоническое изменение, на фоне остальных международных событий, но все же важное для ИТ если оно произойдет.
#opensource #europe #github #codeberg #zig
forgejo.org
Forgejo – Beyond coding. We forge.
Forgejo is a self-hosted lightweight software forge. Easy to install and low maintenance, it just does the job.
❤6🤔5✍2