В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets