В CKAN появилась поддержка схемы метаданных Croissant [1], переводится как круассан, используемой для публикации наборов данных для машинного обучения. По этой схеме уже публикуются данных в Hugging Face, Kaggle и OpenML, а теперь ещё и в репозиториях на CKAN.
Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.
Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard
#opendata #ckan #opensource #datacatalogs #datasets
Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.
Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard
#opendata #ckan #opensource #datacatalogs #datasets
В рубрике как это устроено у них портал геоданных Всемирной продовольственной программы [1]. Работает на базе STAC Server и реализует спецификацию STAC для доступа к данным спутникового мониторинга.
Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.
Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.
Открытых STAC серверов в мире уже немало и становится всё больше.
В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.
P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?
Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free
#opendata #datasets #un #wfp #geodata
Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.
Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.
Открытых STAC серверов в мире уже немало и становится всё больше.
В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.
P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?
Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free
#opendata #datasets #un #wfp #geodata
В рубрике как это работает у них один из лучших из известных мне порталов открытых данных это IDB Open Data [1] Межамериканского банка развития. Его особенность это совмещение публикации открытых данных, статистических индикаторов и исследовательских данных.
Внутри всё работает на базе CKAN со значительной кастомизацией и добавлением множества дополнительных фильтров включая геопокрытие, тематику и многое другое. А индикаторы представлены в виде файлов ресурсов приложенных к датасетам, например [2], у них нет визуализации, но их можно скачать.
Это само по себе любопытный подход к публикации, и данных, и индикаторов.
Ссылки:
[1] https://data.iadb.org
[2] https://data.iadb.org/dataset/abea491d-2123-4aed-b94a-5dcd057e4fad/resource/cdf56d56-16b7-4ab1-a76c-3637ca49068f
#opendata #datacatalogs #datasets #latinamerica
Внутри всё работает на базе CKAN со значительной кастомизацией и добавлением множества дополнительных фильтров включая геопокрытие, тематику и многое другое. А индикаторы представлены в виде файлов ресурсов приложенных к датасетам, например [2], у них нет визуализации, но их можно скачать.
Это само по себе любопытный подход к публикации, и данных, и индикаторов.
Ссылки:
[1] https://data.iadb.org
[2] https://data.iadb.org/dataset/abea491d-2123-4aed-b94a-5dcd057e4fad/resource/cdf56d56-16b7-4ab1-a76c-3637ca49068f
#opendata #datacatalogs #datasets #latinamerica
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.
Статистика ЕАЭС [1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.
Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года
И так со всеми остальными материалами в этом разрезе
P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли
Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat
#russia #closeddata #opendata #statistics
Статистика ЕАЭС [1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.
Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года
И так со всеми остальными материалами в этом разрезе
P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли
Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat
#russia #closeddata #opendata #statistics