Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.

Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально

И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.

Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf

#opendata #un #sdg #indicators #reports
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators