Ivan Begtin
9.38K subscribers
2.19K photos
4 videos
104 files
4.91K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.

Статистика ЕАЭС
[1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.

Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года

И так со всеми остальными материалами в этом разрезе

P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли

Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat

#russia #closeddata #opendata #statistics
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.

Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.

Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.

У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.

Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/

#opendata #statistics
В рубрике как это устроено у них портал муниципальных данных стран ОЭСР (Local Dat Portal) [1] предоставляет детальную статистику по более чем 100 индикаторам и по всем странам входящим в ОЭСР. Портал появился в ноябре 2024 года и сделан на базе ProtoMap с динамической подгрузкой слоёв.

Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.

Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]

Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17

#opendata #statistics #geodata #oecd
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.

Опишу тезисно и сжато по результатам беглого прочтения.

Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта

Нейтральное
-
создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.


Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.

Ссылки:
[1] http://government.ru/news/54972/

#opendata #closeddata #russia #statistics
How Bad Is China’s Economy? The Data Needed to Answer Is Vanishing [1] статья в WSJ (под пэйволом, но можно прослушать в аудио) о том что в Китае перестали публиковать сотни статистических показателей на фоне торговой войны с США. Что-то напоминает, да?

Сейчас будет взлёт спроса на альтернативные данные о состоянии китайской экономики, получить их будет не так просто, но реалистично.

Впрочем всегда есть официальная статистика которую альтернативными способами не получить. Лично мне ещё интересно что будет с данными о внешней торговле Китая. В РФ её закрыли в первую очередь, хочется надеяться что в Китае она останется доступной.

Ссылки:
[1] https://www.wsj.com/world/china/china-economy-data-missing-096cac9a

#opendata #closeddata #china #statistics #tradewars
В продолжение короткого анализа плана мероприятий по реформе статистики в РФ напомню мои многочисленные тексты про статистику в России и не только:
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда

И многое другое по тегу #statistics тут в телеграм канале.

Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.

#statistics #readings
Запоздалая новость российской статистики, система ЕМИСС (fedstat.ru) будет выведена из эксплуатации до 31 декабря 2025 года. Формулировки совместного приказа Минцифры и Росстата упоминают что именно до, а то есть в любой день до конца этого года, хоть завтра.

Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]

Откуда такая таинственность и почему он есть только в Консультант Плюс?

А самое главное, что заменит ЕМИСС? И существует ли уже это что-то

Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1

#opendata #closeddata #russia #statistics
Хороший разбор в виде дата истории темы зависимости даты рождения и даты смерти в блоге The Pudding [1]. Без какой-то единой визуализации, но со множеством графиков иллюстрирующих изыскания автора и выводы о том что да, вероятность смерти у человека выше в день рождения и близкие к нему дни и это превышение выше статистической погрешности.

Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.

Там же есть ссылки на исследования с большими выборками, но теми же результатами.

Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.

P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.

Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/

#opendata #dataviz #curiosity #statistics
Forwarded from Dateno
Global stats just got a major upgrade at Dateno!

We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.

📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.

And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → dateno@dateno.io

🔍 Try it now: https://dateno.io

#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).

Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.

Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.

Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.

Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда

#opendata #dateno #search #datasets #statistics