В рубрике как это устроено не у них статистическая база статкомитета СНГ [1].
На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.
Доступна в виде базы данных [1] и BI-портала [2]
Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,
Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных
В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.
В то же время это полезный источник показателей по постсоветским странам.
Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/
#opendata #datasets #statistics
На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.
Доступна в виде базы данных [1] и BI-портала [2]
Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,
Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных
В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.
В то же время это полезный источник показателей по постсоветским странам.
Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/
#opendata #datasets #statistics
👍5✍3❤1
К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации
Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.
Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.
Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.
Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.
Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.
#opendata #data #statistics
Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.
Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.
Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.
Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.
Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.
#opendata #data #statistics
😢15❤2
Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".
Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.
Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.
1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.
2. Некоторые статпоказатели в ЕМИСС
ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов
Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.
3. Международные данные ООН
Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.
4. Региональные порталы данных: Москва
В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе
5. И, наконец, конечно поиск данных через ИИ
Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки
—
Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.
#opendata #statistics #municipalities #cities #russia
Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.
Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.
1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.
2. Некоторые статпоказатели в ЕМИСС
ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов
Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.
3. Международные данные ООН
Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.
4. Региональные порталы данных: Москва
В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе
5. И, наконец, конечно поиск данных через ИИ
Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки
—
Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.
#opendata #statistics #municipalities #cities #russia
❤7✍4
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный навоплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.
#ai #statistics #opensource #data #datatools
✍7❤3
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
🔥8✍3❤2
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.
Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]
Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/
#opendata #banking #france #statistics
✍5
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов
Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.
Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.
#opendata #statistics #thoughts
🔥5❤4👍1
Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.
У UNECE есть подборка кейсов применения ИИ для статистики [4].
Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.
Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/
#statistics #ai #data
⚡3👍2
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
❤5😍5✍3
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Telegram
Ivan Begtin
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского…
✍4❤2👍2
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.
И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.
А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)
Итого: 41,8% показателей не обновлялись с 2022 года
Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)
При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.
Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.
Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).
Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.
#opendata #data #statistics #russia
И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.
А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)
Итого: 41,8% показателей не обновлялись с 2022 года
Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)
При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.
Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.
Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).
Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.
#opendata #data #statistics #russia
✍10👍4👏1😐1
Аналитическая записка стат сообщества США о текущем состоянии статслужб страны. Там про многое:
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях
В целом полный комплект проблем... успешныхлюдей стран.
Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.
А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.
#data #USA #statistics
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях
В целом полный комплект проблем... успешных
Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.
А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.
#data #USA #statistics
1👍5⚡2😢2
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.
В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.
Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.
В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.
#opendata #data #statistics #oecd #readings
В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.
Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.
В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.
#opendata #data #statistics #oecd #readings
👍6✍1🔥1
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.
В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".
Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation
Они выглядят как более полезные с практической точки зрения.
#statistics #ai #readings
В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".
Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation
Они выглядят как более полезные с практической точки зрения.
#statistics #ai #readings
✍4❤3
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.
Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.
Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.
Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это каксамоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.
#opendata #government #russia #rosstat #statistics #closeddata
Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.
Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.
Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как
#opendata #government #russia #rosstat #statistics #closeddata
publication.pravo.gov.ru
Постановление Правительства Российской Федерации от 13.11.2025 № 1784 ∙ Официальное опубликование правовых актов
Постановление Правительства Российской Федерации от 13.11.2025 № 1784
"Об утверждении Правил предоставления сведений, полученных в результате обработки первичных статистических данных и (или) административных данных при осуществлении официального статистического…
"Об утверждении Правил предоставления сведений, полученных в результате обработки первичных статистических данных и (или) административных данных при осуществлении официального статистического…
💯11😁7👍5🤔4😢3🔥1
В продолжение про постановление российского пр-ва про взимание платы за доступ к статистике и то как оно в мире:
- OECD: Set of good statistical practices свод хороших статистических практик от ОСЭР. Включают рекомендации по бесплатному и свободному распространению статистики. Пункт 9.2: A dissemination policy ensures the free dissemination of official statistics.
- OECD: Open access by default рекомендации ОЭСР по предоставлению доступа к данным в режиме открытости по умолчанию
- OECD Principles and Guidelines for Access to Research Data from Public Funding рекомендации ОЭСР по предоставлению доступа к исследовательским данным (микроданным) с открытостью по умолчанию и взиманию платы только в исключительных случаях и в объеме не более себестоимости
Я специально привожу в пример принципы ОЭСР, есть также и позиции других международных и межгосударственных организаций, практики распространения данных в других странах и многое другое.
Практически все они сводятся к следующим принципа:
1. Статистика по всем вопросам являющихся объектом общественного интереса должна быть открыта и общедоступна
2. За доступ к статистике не должна взиматься плата за исключением очень ограниченного числа случаев запросов на доступ к специализированным данным требующих существенных усилий
3. По умолчанию все данные должны быть свободно доступными в цифровой форме и распространяться в открытую максимально возможными способами распространения
#opendata #statistics #regulation #oecd
- OECD: Set of good statistical practices свод хороших статистических практик от ОСЭР. Включают рекомендации по бесплатному и свободному распространению статистики. Пункт 9.2: A dissemination policy ensures the free dissemination of official statistics.
- OECD: Open access by default рекомендации ОЭСР по предоставлению доступа к данным в режиме открытости по умолчанию
- OECD Principles and Guidelines for Access to Research Data from Public Funding рекомендации ОЭСР по предоставлению доступа к исследовательским данным (микроданным) с открытостью по умолчанию и взиманию платы только в исключительных случаях и в объеме не более себестоимости
Я специально привожу в пример принципы ОЭСР, есть также и позиции других международных и межгосударственных организаций, практики распространения данных в других странах и многое другое.
Практически все они сводятся к следующим принципа:
1. Статистика по всем вопросам являющихся объектом общественного интереса должна быть открыта и общедоступна
2. За доступ к статистике не должна взиматься плата за исключением очень ограниченного числа случаев запросов на доступ к специализированным данным требующих существенных усилий
3. По умолчанию все данные должны быть свободно доступными в цифровой форме и распространяться в открытую максимально возможными способами распространения
#opendata #statistics #regulation #oecd
👍8✍3🔥3❤1
В качестве регулярных напоминаний.
Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат
И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).
Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.
#statistics
Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат
И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).
Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.
#statistics
Substack
Российская статистика: немашиночитаемая институциональная фрагментация
Если бы не было статистики, мы бы даже не подозревали о том, как хорошо мы работаем. (c) к.ф. "Служебный роман"
👍4
Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.
А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.
Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.
Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?
#dataviz #statistics #datatools
А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.
Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.
Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?
#dataviz #statistics #datatools
👏3🤝3⚡2
Forwarded from Open Data Armenia
Для тех кто интересуется статистикой Республики Армения мы опубликовали парсер данных Банка статистики Армстата statbank.armstat.ru, он доступен как открытый код в репозитории statbank-parser на языке Python и позволяет выгрузить более 900 индикаторов включая метаданные и данные по каждому индикатору в формате CSV.
Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.
Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.
Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.
Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.
#opendata #statistics #armstat
Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.
Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.
Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.
Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.
#opendata #statistics #armstat
❤3
Полезное чтение про данные, технологии и не только:
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей
#readings #privacy #statistics #data
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей
#readings #privacy #statistics #data
Foreign Affairs
Compute Is the New Oil
America and the Gulf must work together on artificial intelligence.
❤4✍1