Ivan Begtin
9.07K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
👍101
Свежий портал открытых данных, на сей раз в Баварии open.bydata.de [1]

Более 1100 наборов данных, несколько видов API для доступа; через SPARQL, API для CKAN и своё API для доступа к внутренней базе.

Что характерно для всех европейских порталов с данными почти половина наборов данных - это геоданные. Они включают: слои к геокартам в формате WMS, файлы GeoJSON, файлы Esri Shape (SHP) и API серверов ArcGIS.

Помимо геоданных большая часть других датасетов посвящена городской инфраструктуре и её использованию в городах Баварии. У портала явный акцент на вовлечение в использовании городских/территориальных данных.


Ссылки:
[1] https://open.bydata.de

#opendata #datasets #germany
👍9
Рейтинг открытости данных в Германии Open Data Ranking от OKF Germany [1].

На первом месте регион Schleswig-Holstein, на последнем Saxony-Anhalt, а ключевые оценки по юридической обязательности публикации данных.

Если посмотреть на рейтинг то кажется что всё не так уж хорошо, хотя, ИМХО, они игнорируют порталы геоданных которых в Германии немало, особенно на региональном и городском уровне.

В реестре Dateno сейчас 378 каталогов данных в Германии [2] из которых 211 - это геопорталы.

При этом почти наверняка в каталоге собрано далеко не всё, как минимум у каждой из земель в Германии есть собственный статистический офис и много муниципальных порталов данных.

Поэтому этот рейтинг скорее про качество госполитики чем про доступность данных, хотя авторы и пытаются это смешать и добавили туда оценку по доступности документов парламентов. Что, несомненно, важно, хотя и методически странно. Тогда надо бы разделять на меньшее число крупных блоков: законодательство, технологии, прозрачности власти.

В любом случае рейтинг полезен и любопытен.

Ссылки:
[1] https://opendataranking.de
[2] https://dateno.io/registry/country/DE

#opendata #data #germany #ratings
👍3
Geoexplorer Berlin [1] сервис навигации по геоданным Берлина, интерфейс над их каталогом данных на базе Geonetwork.

Отличительная особенность в интеграции ChatGPT в интерфейс и это выражается в генерации описания того зачем нужен конкретный датасет, дословно: "На какие вопросы отвечает этот датасет?" и в автодокументировании данных. А также в поиске по данным на естественном языке. Немецком языке, конечно же.

Данных там немного, но функции любопытные. Есть что изучить и применить.

Разработано в Technologie Stiftung Berlin [2], открытый код под лицензией MIT [3]

Ссылки:
[1] https://geoexplorer.odis-berlin.de/
[2] https://www.technologiestiftung-berlin.de/
[3] https://github.com/technologiestiftung/odis-geoexplorer

#opendata #geodata #datasets #ai #opensource #germany #berlin
5
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.

Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.

Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.

В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.

А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных

Ссылки:
[1] https://www.govdata.de

#opendata #germany #europe #datasets #data
👍5
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
👍2
Дашборд Германии (Dashboard Deutchland) [1] свежий проект германской статслужбы Destatis по визуализации ключевых индикаторов текущего состояния экономики.

Довольно простая и симпатичная штука со множеством панелей по разным областям с данными, в основном, с актуализацией в месяц, иногда с задержкой в 3 месяца.

Еженедельные и ежесуточные индикаторы тоже есть [2].

Плюс дают возможность зарегистрироваться и настроить личные дашборды.

А внутри используется открытое API того же Destatis и данные из других источников.

Ссылки:
[1] https://www.dashboard-deutschland.de/
[2] https://www.dashboard-deutschland.de/pulsmesser_wirtschaft/pulsmesser_wirtschaft_daily

#opendata #dataviz #germany #statistics #dashboards
👍9
В рубрике как это устроено у них пакет для Python под названием ... Германия, в оригинале deutschland [1] звучит странно, а содержание весьма логично. Этот пакет - это набор функций и классов для доступа к наиболее значимым наборам данных и API Германии. Сами данные предоставляются и API поверх данных и в виде сервисов предоставляются через портал bund.dev [2] где они задокументированы и общедоступны.

А пакет для python выглядит как логичное развитие и дополнение, значительно снижающие порог входа к использованию этих данных.

Заодно можно обратить внимание что чуть ли не основные примеры про работу с геоданными и данными регистра компаний.

Особенность в том что этот проект негосударственный и делается командой активистов.

Ссылки:
[1] https://github.com/bundesAPI/deutschland
[2] https://bund.dev

#germany #data #api #opendata
🔥7👍211
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets
👍5😐21
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
4👍2🔥1
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
🤔5💯3👍1💔1
В рубрике как это устроено у них и на сей раз не про данные а про государственного вестоношу в Германии Bundes Messenger [1] это специальное приложение для устройств Apple и Android разработанное по заказу европейским подрядчиком T-Systems по заказу BWI GmbH (агентству цифры и инноваций при Минобороны Германии).

В чем его особенности:
1. Он предназначен только для госслужащих и у него сейчас относительно немного пользователей, 5+ тысяч для приложения на Android
2. Приложение полностью с открытым кодом [2] опубликованным в рамках инициативы OpenCoDE
3. Основан на открытом протоколе обмена Matrix [3] с серверами находящими под управлением BWI.
4. Изначально выросло из приложения BwMessenger созданное для германской армии и имеющее более 100 тысяч пользователей.
5. Это просто система сообщений без чего-либо про юридическую значимость, госуслуги или обмен документами.
6. Нигде нет явно выраженных планов распространять его или что-то на его основе как систему обмена сообщений для самих граждан.

Ссылки:
[1] https://messenger.bwi.de/bundesmessenger
[2] https://gitlab.opencode.de/bwi/bundesmessenger/info
[3] https://matrix.org/

#opensource #germany #messenger
4👍42
Во Франции власти с 1 сентября для госслужащих стал обязательным мессенжер Tchap для всех рабочих коммуникаций.

Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.

Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.

#opensource #france #germany
👏22👍11🔥3