Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.89K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.

Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных

Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413

По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти

Оставшиеся относятся к коммерческим, общественным и международным.

Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)

Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.

Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.

Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных

При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.

Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.

Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io

Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.

#opendata #datasets #datasearch #usa #data
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia
В рубрике общедоступных, но малоизвестных данных в России.
- Веб-ГИС Климат [1] климатические карты от ИМЭКС СО РАН. В виде статических карт и приложенных к ним данных в формате NetCDF и архив данных, также, в формате NetCDF [2]
- Геопортал ИДСТУ СО РАН [3] портал с геоданными и спутниковыми снимками. Собственная разработка с открытым кодом [4] (правда код забросили лет 5 назад).
- Геопортал Новосибирска [5] на базе COGIS/eLiteGIS, похоже что совместимого с ArcGIS. Много слоёв данных по городу доступно через API
- Московские наборы данных [6] с портала ai.mos.ru. Говорить что они общедоступны нельзя, для доступа надо заполнить форму и получить разрешение. Потенциально хорошо что есть наборы данных которые госорганы в мире вообще не предоставляют, плохо то что нет условий использования и многое вообще должно быть открытыми данными, а не вот так.
- AARI WDC Sea-Ice [7] российский узел мирового центра данных (WDC) для наблюдений за Арктикой. Климатические научные данные за разные временные периоды

Ссылки:
[1] http://climate.scert.ru/
[2] http://climate.scert.ru/Environment/data/archive/
[3] https://geos.icc.ru
[4] https://gitlab.com/fromul/geoservices
[5] https://map.novo-sibirsk.ru/elitegis/rest/services/
[6] https://ai.mos.ru/datasets/?lang=RU
[7] http://wdc.aari.ru/

#opendata #russia #datasets #data #geodata #ai
Про открытые данные в России на фоне архивации сайтов Росстата. Почему я всегда говорил что data.gov.ru был очень плох, нет даже так очень и очень плох. Потому что одних только статистических отчетов в Excel (XLSX) и только не сайтах территориальных управлений Росстата было опубликовано по от 30 до 80 тысяч файлов. Например, на сайте Мосстата их 1339. Я смогу сказать точнее когда все сайты терр. управлений будут сохранены.

Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.

Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.


#opendata #statistics #russia
В рубрике как это устроено не у них статистическая база статкомитета СНГ [1].

На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.

Доступна в виде базы данных [1] и BI-портала [2]

Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,

Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных

В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.

В то же время это полезный источник показателей по постсоветским странам.

Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/

#opendata #datasets #statistics
К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации

Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.

Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.

Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.

Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.

Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.

#opendata #data #statistics
Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".

Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.

Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.

1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.

2. Некоторые статпоказатели в ЕМИСС

ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов

Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.

3. Международные данные ООН

Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.

4. Региональные порталы данных: Москва

В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе

5. И, наконец, конечно поиск данных через ИИ

Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки

Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.

#opendata #statistics #municipalities #cities #russia
В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.

Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.

Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru

#opendata #closeddata #russia
В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]

Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.

Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.

С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.

Для примера, данные по районам Армении.

Ссылки:
[1] https://dataviz.vam.wfp.org

#opendata #dataviz #climate #data #russia
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.

Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства

Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.

С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.

#opendata #hyperlocal #hackathons #data #datasets
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.

Будет очень интересен тем кто изучает рекомендательные системы.

Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda

#opendata #datasets #data #yandex
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics
Вышел свежий доклад Global Data Barometer [1] про доступность открытых данных в мире. Глобальным он, увы, быть перестал и сейчас его охват не по всем странам, а только по некоторым развивающимся (всего 43 страны).

Для тех кто развивающимися странами интересуется может быть интересно.

Например, увидеть крупные пробелы в доступности данных о языках, лоббировании и политической ответственности и регистрах компаний.

А лучше всего раскрываются данные о закупках и госрасходах.

В любом случае жаль потери глобальности.

Ссылки:
[1] https://globaldatabarometer.org/

#opendata