Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.39K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Аналитическая записка стат сообщества США о текущем состоянии статслужб страны. Там про многое:
- сокращение финансирования
- отмена многих опросов и наблюдений
- запланированные задержки в публикациях

В целом полный комплект проблем... успешных людей стран.

Во многих странах адекватной статистики просто нет и идет куда более быстрая деградация стат служб. Не будем показывать пальцем в каких.

А в США сложилась сложная децентрализованная система федеральной статистики, доступная в хорошем машиночитаемом виде, почти во всех разрезах. Неидеальная, конечно, но все же.

#data #USA #statistics
1👍52😢2
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.

В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.

Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.

В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.

#opendata #data #statistics #oecd #readings
👍61🔥1
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.

В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".

Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation

Они выглядят как более полезные с практической точки зрения.

#statistics #ai #readings
43
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.

Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.

Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.

Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как самоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.

#opendata #government #russia #rosstat #statistics #closeddata
💯11😁8👍5🤔4😢3🔥1
В продолжение про постановление российского пр-ва про взимание платы за доступ к статистике и то как оно в мире:
- OECD: Set of good statistical practices свод хороших статистических практик от ОСЭР. Включают рекомендации по бесплатному и свободному распространению статистики. Пункт 9.2: A dissemination policy ensures the free dissemination of official statistics.
- OECD: Open access by default рекомендации ОЭСР по предоставлению доступа к данным в режиме открытости по умолчанию
- OECD Principles and Guidelines for Access to Research Data from Public Funding рекомендации ОЭСР по предоставлению доступа к исследовательским данным (микроданным) с открытостью по умолчанию и взиманию платы только в исключительных случаях и в объеме не более себестоимости

Я специально привожу в пример принципы ОЭСР, есть также и позиции других международных и межгосударственных организаций, практики распространения данных в других странах и многое другое.

Практически все они сводятся к следующим принципа:
1. Статистика по всем вопросам являющихся объектом общественного интереса должна быть открыта и общедоступна
2. За доступ к статистике не должна взиматься плата за исключением очень ограниченного числа случаев запросов на доступ к специализированным данным требующих существенных усилий
3. По умолчанию все данные должны быть свободно доступными в цифровой форме и распространяться в открытую максимально возможными способами распространения

#opendata #statistics #regulation #oecd
👍93🔥31
В качестве регулярных напоминаний.

Про открытые данные и статистику я писал довольно много в последние годы в блоге:
- Российская статистика: немашиночитаемая институциональная фрагментация
- Статистика как дата продукт
- Почему невозможно хвалить Росстат

И ещё больше тут в телеграм канале по тегу #statistics (я же не просто ставлю теги каждому посту, это такой формат публичной записной книжки).

Надо бы как-то собраться и написать обзорный текст, но всегда много других дел, поэтому чаще пишу в контексте индексации статистики в Dateno и дата каталогов.

#statistics
👍4
Ещё про официальную статистику, есть важный тренд о котором я писал пока что мало - это отделение данных от их представления. Официальная статистика чаще всего строится как цельные системы в которых сразу есть и возможность получения данных и их визуальное представление.

А за это время появились десятки стартапов и сервисов которые наглядность обеспечивают значительно лучше официальные статистические сервисы, например, я довольно давно слежу за сервисом PlotSet с их интерактивными графиками. Очень наглядные штуки они генерируют в очень короткие сроки. При этом я не призываю использровать именно их, есть и другие варианты, и многие из них создаются с помощью ИИ агентов.

Ключевое тут в отделении данных от представления. Отдельно данные и API и отдельно интерактивный сервис на них основанный. Для популяризации официальной статистики такое разделение может быть эффективнее любых монолитных централизованных платформ.

Интересно, кстати, есть ли альтернативы PlotSet с открытым кодом?

#dataviz #statistics #datatools
👏3🤝32
Forwarded from Open Data Armenia
Для тех кто интересуется статистикой Республики Армения мы опубликовали парсер данных Банка статистики Армстата statbank.armstat.ru, он доступен как открытый код в репозитории statbank-parser на языке Python и позволяет выгрузить более 900 индикаторов включая метаданные и данные по каждому индикатору в формате CSV.

Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.

Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.

Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.

Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.

#opendata #statistics #armstat
3
Полезное чтение про данные, технологии и не только:
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей

#readings #privacy #statistics #data
62
В рубрике как это устроено у них SDMX Metadata AI Assistant (MAIA) специальный инструмент для обогащения статистических метаданных в формате SDMX от Банка международных расчетов.

На вход принимает файлы с метаданными SDMX и DSD, анализирует их и обогащает. На самом деле ничего супер необычного или прорывного, просто небольшой полезный инструмент для экосистемы SDMX. От него было бы больше пользы будь эти инструменты встроены в существующие стат продукты.

Тем не менее полезно для того чтобы понимать как ИИ уже используется в консервативной среде официальной статистики

#statistics #ai
👍2
В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.

У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.

#opendata #datacatalogs #statistics #ASEAN
👍41
Статистика использования генеративных ИИ инструментов молодежью в странах ЕС. А также датасет на котором эта визуализация построена.

Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)

Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?

Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?

#statistics #aiagents
👍6🔥42
В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.

Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.

Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.

#opendata #statistics #portugal
👍3