Ivan Begtin
9.02K subscribers
2.64K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.

Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.

Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam

#opendata #datasets #statistics #census
42👍2
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.

И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.

А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)

Итого: 41,8% показателей не обновлялись с 2022 года

Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)

При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.

Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.

Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).

Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.

#opendata #data #statistics #russia
10👍4👏1😐1
Аналитическая записка стат сообщества США о текущем состоянии статслужб страны. Там про многое:
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях

В целом полный комплект проблем... успешных людей стран.

Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.

А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.

#data #USA #statistics
1👍52😢2
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.

В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.

Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.

В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.

#opendata #data #statistics #oecd #readings
👍61🔥1
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.

В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".

Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation

Они выглядят как более полезные с практической точки зрения.

#statistics #ai #readings
43
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.

Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.

Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.

Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как самоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.

#opendata #government #russia #rosstat #statistics #closeddata
💯11😁8👍5🤔4😢3🔥1
В продолжение про постановление российского пр-ва про взимание платы за доступ к статистике и то как оно в мире:
- OECD: Set of good statistical practices свод хороших статистических практик от ОСЭР. Включают рекомендации по бесплатному и свободному распространению статистики. Пункт 9.2: A dissemination policy ensures the free dissemination of official statistics.
- OECD: Open access by default рекомендации ОЭСР по предоставлению доступа к данным в режиме открытости по умолчанию
- OECD Principles and Guidelines for Access to Research Data from Public Funding рекомендации ОЭСР по предоставлению доступа к исследовательским данным (микроданным) с открытостью по умолчанию и взиманию платы только в исключительных случаях и в объеме не более себестоимости

Я специально привожу в пример принципы ОЭСР, есть также и позиции других международных и межгосударственных организаций, практики распространения данных в других странах и многое другое.

Практически все они сводятся к следующим принципа:
1. Статистика по всем вопросам являющихся объектом общественного интереса должна быть открыта и общедоступна
2. За доступ к статистике не должна взиматься плата за исключением очень ограниченного числа случаев запросов на доступ к специализированным данным требующих существенных усилий
3. По умолчанию все данные должны быть свободно доступными в цифровой форме и распространяться в открытую максимально возможными способами распространения

#opendata #statistics #regulation #oecd
👍93🔥31
В качестве регулярных напоминаний.

Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат

И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).

Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.

#statistics
👍4
Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.

А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.

Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.

Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?

#dataviz #statistics #datatools
👏3🤝32
Forwarded from Open Data Armenia
Для тех кто интересуется статистикой Республики Армения мы опубликовали парсер данных Банка статистики Армстата statbank.armstat.ru, он доступен как открытый код в репозитории statbank-parser на языке Python и позволяет выгрузить более 900 индикаторов включая метаданные и данные по каждому индикатору в формате CSV.

Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.

Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.

Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.

Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.

#opendata #statistics #armstat
3
Полезное чтение про данные, технологии и не только:
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей

#readings #privacy #statistics #data
62
В рубрике как это устроено у них SDMX Metadata AI Assistant (MAIA) специальный инструмент для обогащения статистических метаданных в формате SDMX от Банка международных расчетов.

На вход принимает файлы с метаданными SDMX и DSD, анализирует их и обогащает. На самом деле ничего супер необычного или прорывного, просто небольшой полезный инструмент для экосистемы SDMX. От него было бы больше пользы будь эти инструменты встроены в существующие стат продукты.

Тем не менее полезно для того чтобы понимать как ИИ уже используется в консервативной среде официальной статистики

#statistics #ai
👍2
В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.

У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.

#opendata #datacatalogs #statistics #ASEAN
👍41
Статистика использования генеративных ИИ инструментов молодежью в странах ЕС. А также датасет на котором эта визуализация построена.

Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)

Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?

Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?

#statistics #aiagents
👍6🔥42
В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.

Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.

Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.

#opendata #statistics #portugal
👍4
Новый портал данных Всемирного банка - Data 360 пока находится в режиме бета версии, но уже есть на что посмотреть.

Можно обратить внимание:
1. Охватывает все аудитории - программистов, аналитиков, обычных пользователей.
2. Данные доступны как в виде датасетов для массовой выгрузки так и REST API
3. Есть профили у каждой страны/территории охваченными показателями
4. Для аналитиков есть каталог индикаторов и отчетов совмещенный с каталогом данных
5. Есть тематические аналитические страницы с наборами ключевых показателей.

В целом это эволюция в публикации данных ВБ, у них до сих пор есть как минимум 4 публичных интерфейсов с данными и это еще один, может быть он остальные заменит когда-нибудь.

Из особенностей:
- данные индикаторов публикуют в SDMX формате, но SDMX совместимое API не предоставляют, вместо этого свое REST API
- метаданные хранят в СУБД и отдают как JSON или как автосгенерированный PDF

Вообще крупные международные агенства и национальные статслужбы давно придерживаются подхода по предоставлению данных в унифицированном виде. Если бы Росстат в РФ имел бы подобную систему - куда проще было бы с его данными работать. Но нет, такого не ждем. А вот статведомства других стран могут взять этот пример на заметку.

Еще наблюдение в том что ВБ каждый раз разрабатывают новую систему размещения данных а не берут имеющуюся с рынка. Как это делает ОЭСР, к примеру, с .Stat Explorer.


#opendata #statistics
👍742
В рубрике как это устроено у них продолжение про открытые данные Всемирного Банка.

- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени

#opendata #datasets #datacatalogs #data #statistics
3👍3🔥3😁2
Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо

#opendata #data #datasets #statistics #transport #energy #climate #aviation
53🔥3
Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).

Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI

Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.

Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).

Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.

Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.

Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.

#opendata #datasets #data #datacatalogs #statistics
👍5431
Свежий документ Data Systems at a Crossroads: Official Statistics for a New Era
от авторов из PARIS21 (The Partnership in Statistics for Development in the 21st Century).

Документ о том что национальные статистические службы в мире находятся в кризисе, а ещё вернее в нескольких кризисах:
- Кризис доверия и легитимности. Растёт политизация данных, а «факты» всё чаще проигрывают «чувствам» в публичной дискуссии.
- Финансовый и институциональный. Статистические службы недофинансируются, а их бюджеты несут всё большую нагрузку по сбору новых показателей (SDG, климат, цифровая экономика).
- Кадровый разрыв. Между хорошо оснащёнными НСО, которые уже экспериментируют с ML и NLP, и бюро, где данные до сих пор собираются на бумаге и обрабатываются в Excel, - пропасть.

Вывод там довольно простой, есть развилка в виде:
- продолжения медленного развития "как есть"
- глубокой трансформации статистических служб

Документ ценный краткостью и актуальностью и очень близок к моим собственным размышлениям. Статистические службы наиболее близки по смыслу к "дата-службам", они могли бы (должны бы?) производить оперативную качественную аналитику и поставлять данные, но за десятилетия-столетия своего существования обросли столь объемными фактическими и когнитивными ограничениями что в редких случаях выступают в этой роли.

При это цикл их развития очень медленный в сравнении со всем что творится с данными, а теперь и с ИИ в коммерческом секторе. К официальной статистике обращаются когда нет достойных альтернатив, но она почти всегда отстает в актуальности, полноте и соответствию ожиданиям рынка.

Например, Росстат можно сравнить с Почтой России. Вроде как монументальное явление, а WB и Ozon уже существенно почту потеснили. Монумент еще не рухнул, но вызывает очень много вопросов. Так и с Росстатом, вроде он есть и имеет полномочия, а реальной экспериментальной аналитикой и статистикой в РФ занимаются подведы Пр-ва и фед. органов исп. власти.

Росстат лишь как пример близкий, в похожих кризисах находятся статслужбы очень многих стран. Как они изменяться? Вот в этом документе есть некоторые размышления с примерами.

#statistics #readings
6👍54