Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.

В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.

Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.

Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].

NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.

В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.

Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.

Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org

#opendata #datasets #usa #spending
А вот и ещё одно последствие от стремительной резки фед. бюджета США Трампом/Маском. Mozilla рассылают письма пожертвовать им денег потому что опасаются потери $3.55 миллионов грантовых средств на несколько проектов. Это Mozilla’s Responsible Computing Challenge и Mozilla Common Voice. Первая программа касалась развивающихся стран, весь мир точно не затрагивает. А вот Mozilla Common Voice жаль, будем надеяться что будут другие источники финансирования.


#mozilla #spending #datasets
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
Прекрасный инструмент по визуализации климатических расходов в США [1] с отображением и поиске по карте и по почтовому индексу (что, кстати, отличная идея) чтобы можно было найти расходы рядом со своим домом.

Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.

А также доступны код и документация [2]

Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker

#usa #spending #datasets #climate #dataviz
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.

Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.

Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.

Ссылки:
[1] https://github.com/RolnickLab/OpenForest

#opendata #datacatalogs #datasets
Продолжаю время от времени публиковать открытые наборы данных. В этот раз это слепок метаданных с репозитория публикации научных работ СПбГУ (dspace.spbu.ru) [1]

Датасет охватывает более 105 тысяч документов и включает все метаданные что были опубликованы на этом портале, метаданные собирались через API Dspace на котором он построен.

Я откладывал его публикацию к другим датасетам полезным для библиографов и тех кто работает с метаданными по научным работам, но, оказалось что совсем недавно портал dspace.spbu.ru перестал работать. По слухам на ресурсы СПбГУ была большая хакерская атака и часть ресурсов потеряна. Хочется надеяться что у них есть бэкапы (а если нет то гильотина для тех кто должен был их сделать). Подчеркну что этот датасет тексты документов не включает, только ссылки на них и метаданные, поэтому если у портала бэкапов нет, то это потеря.

Ссылки:
[1] https://hubofdata.ru/dataset/dspace-spbgu

#opendata #russia #bibliometry #datasets
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.

Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].


Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8

#opendata #closeddata #datasets #data
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.

Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.

Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.

Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].

Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.

Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/

#opendata #datasets #france #data
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.

Ссылки:
[1] https://t.me/tochno_st/476

#opendata #datasets
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.

Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.

Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].

А также доступен код проекта [3] и пример визуализации в QGIS.

Доступно под лицензией CC-BY 4.0

Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548

#opendata #geodata #datasets
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.

Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.

Условия использования не указаны, исходим из того что это Public Domain.

Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.

Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center

#opendata #russia #cryptocurrencies #crypto #datasets
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.

Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.

Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports

#opendata #datasets #dataquality
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.

Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.

Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.

А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.

Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/

#opendata #datasets #data #datatools #france
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.

У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.

Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.

У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.

При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.

Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.

Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets

#opendata #education #france #datasets #data #datacatalogs