Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
👍10
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.

В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.

Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.

Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru

#opendata #culture #russia #closeddata
😢6👍1🤨1
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.

Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].


Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8

#opendata #closeddata #datasets #data
😢7😁2😱2🤣1😐1
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.

Статистика ЕАЭС
[1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.

Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года

И так со всеми остальными материалами в этом разрезе

P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли

Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat

#russia #closeddata #opendata #statistics
😢53💊1
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.

Опишу тезисно и сжато по результатам беглого прочтения.

Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта

Нейтральное
-
создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.


Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.

Ссылки:
[1] http://government.ru/news/54972/

#opendata #closeddata #russia #statistics
👍85😢1
How Bad Is China’s Economy? The Data Needed to Answer Is Vanishing [1] статья в WSJ (под пэйволом, но можно прослушать в аудио) о том что в Китае перестали публиковать сотни статистических показателей на фоне торговой войны с США. Что-то напоминает, да?

Сейчас будет взлёт спроса на альтернативные данные о состоянии китайской экономики, получить их будет не так просто, но реалистично.

Впрочем всегда есть официальная статистика которую альтернативными способами не получить. Лично мне ещё интересно что будет с данными о внешней торговле Китая. В РФ её закрыли в первую очередь, хочется надеяться что в Китае она останется доступной.

Ссылки:
[1] https://www.wsj.com/world/china/china-economy-data-missing-096cac9a

#opendata #closeddata #china #statistics #tradewars
👍5🌚4🗿1
Запоздалая новость российской статистики, система ЕМИСС (fedstat.ru) будет выведена из эксплуатации до 31 декабря 2025 года. Формулировки совместного приказа Минцифры и Росстата упоминают что именно до, а то есть в любой день до конца этого года, хоть завтра.

Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]

Откуда такая таинственность и почему он есть только в Консультант Плюс?

А самое главное, что заменит ЕМИСС? И существует ли уже это что-то

Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1

#opendata #closeddata #russia #statistics
😱178👍53🌚3😢1
Как читать отчёты Счетной палаты в РФ ? Не надо читать финальные выводы и довольно бесполезно читать вступление. Всё самое главное посередине там где изложение фактов. Какие-то факты могут отсутствовать, может не быть иногда глубины, но те что приведены, как правило, достаточно точны.

История с ГАС Правосудие и потерей огромного объёма данных судебных решений именно тот случай [1]. Спасибо ребятам из Если быть точным за подробное изложение и анализ этой истории [2]. Единственно с чем я несогласен, а это не надо сотням людей использовать один парсер. Нужна была бы открытая база судебных решений которая когда-то была в Росправосудии. Парсер - это плохой путь, приводящий к массовому применении каптчи. Но создать ресурс с данными тоже непросто, его могут быстро заблокировать.

Однако в этой истории про ГАС Правосудие я хочу сделать акцент на 60+ миллиардах потраченных на эту систему денег, и даже не на то что их взломали, и это всячески скрывали. А на том у что у системы не было резервных копий.

И скажу я вам не тая, подозреваю что это не единственная российская государственная информационная система резервных копий к которых нет. И не появится если за это не будет последствий, а их похоже что нет.

И, конечно, данные по судебным делам - это самое что ни на есть общественное достояние, общественно значимые данные которые безусловно и безальтернативно должны были бы быть открытыми. Вместо того чтобы отреагировать на парсеры данных выкладкой датасетов для массовой выгрузки, сотрудники Суддепа много лет развлекались встраиванием каптчи на страницах сайта. А то есть на "вредительство" у них время и ресурсы были, а на создание архивных копий нет?

Ссылки:
[1] https://t.me/expertgd/12660
[2] https://t.me/tochno_st/518

#opendata #closeddata #theyfailed #russia
👍16😢3😁2🥰1🤔1😍1
В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.

Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.

Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru

#opendata #closeddata #russia
🤔4😢4💯21👍1
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics
8
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.

Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.

#opendata #closeddata #usa #trump
431🤔1
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata
😢9👍31😱1💯1
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.

Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.

Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.

Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как самоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.

#opendata #government #russia #rosstat #statistics #closeddata
💯11😁7👍5🤔4😢3🔥1