Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
Прекрасный инструмент по визуализации климатических расходов в США [1] с отображением и поиске по карте и по почтовому индексу (что, кстати, отличная идея) чтобы можно было найти расходы рядом со своим домом.

Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.

А также доступны код и документация [2]

Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker

#usa #spending #datasets #climate #dataviz
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.

Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.

Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.

Ссылки:
[1] https://github.com/RolnickLab/OpenForest

#opendata #datacatalogs #datasets
Продолжаю время от времени публиковать открытые наборы данных. В этот раз это слепок метаданных с репозитория публикации научных работ СПбГУ (dspace.spbu.ru) [1]

Датасет охватывает более 105 тысяч документов и включает все метаданные что были опубликованы на этом портале, метаданные собирались через API Dspace на котором он построен.

Я откладывал его публикацию к другим датасетам полезным для библиографов и тех кто работает с метаданными по научным работам, но, оказалось что совсем недавно портал dspace.spbu.ru перестал работать. По слухам на ресурсы СПбГУ была большая хакерская атака и часть ресурсов потеряна. Хочется надеяться что у них есть бэкапы (а если нет то гильотина для тех кто должен был их сделать). Подчеркну что этот датасет тексты документов не включает, только ссылки на них и метаданные, поэтому если у портала бэкапов нет, то это потеря.

Ссылки:
[1] https://hubofdata.ru/dataset/dspace-spbgu

#opendata #russia #bibliometry #datasets
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.

Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].


Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8

#opendata #closeddata #datasets #data
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.

Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.

Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.

Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].

Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.

Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/

#opendata #datasets #france #data
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.

Ссылки:
[1] https://t.me/tochno_st/476

#opendata #datasets
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.

Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.

Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].

А также доступен код проекта [3] и пример визуализации в QGIS.

Доступно под лицензией CC-BY 4.0

Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548

#opendata #geodata #datasets
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.

Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.

Условия использования не указаны, исходим из того что это Public Domain.

Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.

Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center

#opendata #russia #cryptocurrencies #crypto #datasets
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.

Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.

Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports

#opendata #datasets #dataquality
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.

Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.

Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.

А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.

Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/

#opendata #datasets #data #datatools #france
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.

У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.

Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.

У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.

При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.

Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.

Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets

#opendata #education #france #datasets #data #datacatalogs
Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.

Обещают 850+ наборов данных, 100+ миллионов страниц.

А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].

Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт

Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data

#opendata #datasets #wikipedia #api
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.

Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]

Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации

Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/

#opendata #datasets #statistics #imf
В CKAN появилась поддержка схемы метаданных Croissant [1], переводится как круассан, используемой для публикации наборов данных для машинного обучения. По этой схеме уже публикуются данных в Hugging Face, Kaggle и OpenML, а теперь ещё и в репозиториях на CKAN.

Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.

Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard

#opendata #ckan #opensource #datacatalogs #datasets
В рубрике как это устроено у них портал геоданных Всемирной продовольственной программы [1]. Работает на базе STAC Server и реализует спецификацию STAC для доступа к данным спутникового мониторинга.

Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.

Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.

Открытых STAC серверов в мире уже немало и становится всё больше.

В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.

P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?

Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free

#opendata #datasets #un #wfp #geodata
В рубрике как это работает у них один из лучших из известных мне порталов открытых данных это IDB Open Data [1] Межамериканского банка развития. Его особенность это совмещение публикации открытых данных, статистических индикаторов и исследовательских данных.

Внутри всё работает на базе CKAN со значительной кастомизацией и добавлением множества дополнительных фильтров включая геопокрытие, тематику и многое другое. А индикаторы представлены в виде файлов ресурсов приложенных к датасетам, например [2], у них нет визуализации, но их можно скачать.

Это само по себе любопытный подход к публикации, и данных, и индикаторов.

Ссылки:
[1] https://data.iadb.org
[2] https://data.iadb.org/dataset/abea491d-2123-4aed-b94a-5dcd057e4fad/resource/cdf56d56-16b7-4ab1-a76c-3637ca49068f

#opendata #datacatalogs #datasets #latinamerica
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.

Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.

#data #datasets #llm