Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.
Обещают 850+ наборов данных, 100+ миллионов страниц.
А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].
Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт
Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data
#opendata #datasets #wikipedia #api
Обещают 850+ наборов данных, 100+ миллионов страниц.
А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].
Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт
Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data
#opendata #datasets #wikipedia #api
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.
Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]
Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации
Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/
#opendata #datasets #statistics #imf
Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]
Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации
Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/
#opendata #datasets #statistics #imf