Ivan Begtin
9.01K subscribers
2.64K photos
5 videos
114 files
5.46K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.

Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.

Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#opendata #closeddata #russia #crimestatistics
8
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.

Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.

#opendata #closeddata #usa #trump
431🤔1
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata
😢10👍31😱1💯1
Свежее постановление российского пр-ва устанавливающее плату за доступ к по запросу к официальной статистической информации на бумаге (!) и в электронном виде (!!). Текст пока только в в виде скана на портале официального опубликования правовых актов, в виде текста он скорее всего появится не раньше чем через несколько дней, на сайте пр-ва базовая задержка в публикации документов 3 дня, но бывает и поболее.

Мне много что есть сказать самому, а заодно я прогнал этот текст через пару ИИ агентов - Perplexity, Manus и Deepseek. ChatGPT разобирать его отказался, а Алиса от Яндекса глубоко анализировать документы не научилась еще.

Результаты анализа Perplexity и Manus'а я прикладываю, а от Deepseek доступно по ссылке.

Что я скажу от себя:
1. Взимание платы за официальную статистику - это существенный барьер в её получении. Выгода гос-ва от запросов будет невелика, а ограничения будут серьезными. Я не знаю кто продумывал эту бизнес модель, но подозреваю что её нет и цель не деньги, а ограничения в распространении.
2. Если для бумажных документов и сложных запросов и необходимости пересылки ещё можно предположить что можно было бы взимать оплату, то для предоставления данных в электронном виде это не оправдано ничем.
3. Сам подход противоречит практикам развитых стран, рекомендациям ОЭСР и тд. Там наоборот идут по пути бесплатности распространения статистической информации
4. Агрессивно взимают плату за любой чих в коммуникации со статслужбами только в наибеднейших странах, в основном, африканских.
5. Собирать и распространять статистику на бумаге в 21 веке это как, даже не могу придумать приличного сравнения, это как самоудовлетворятся предаваться греху на публику или это как выйти куда-нибудь в публичное место и орать изо всех сил: "Смотрите, мы вас ненавидим! Нет, вы смотрите, смотрите же! Реально ненавидим". Потому что любовь к пользователям бумаги не предусматривает, и не должна предусматривать.

#opendata #government #russia #rosstat #statistics #closeddata
💯11😁8👍5🤔4😢3🔥1
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.

ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного

Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов


а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.

В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.

Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.

А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.

#opendata #closeddata #russia #environment #ecology
👍103😢3👌21
Портал открытых данных Москвы data.mos.ru недоступен уже 2 недели с сообщением о технических работах без каких либо анонсов о их завершении. Явный признак что он уже мёртв. Этот портал был старейшим из российских официальных порталов данных и он был чуть более живым чем остальные.

Но ценных данных там давно не было, а теперь недоступны и те что были.

#opendata #closeddata #russia #moscow
😱155🕊4😁2🌚1
Ещё одна весьма неприятная российская новость то что Сотрудников вузов уже штрафуют за упоминания нежелательных организаций. https://66.ru/news/society/287190/

И тут у меня вопрос, если я сошлюсь на данные созданные в Университете Беркли или Йеле или IETLS то меня тоже захотят оштрафовать?

У Йеля и Беркли есть значимые датасеты опубликованные на Hugging Face и платформах Dataverse

#opendata #datasets #russia #closeddata
😢21💊521👏1🕊1🌚1💯1
В рубрике закрытых данных в РФ из открытого доступа исчезли данные судебной статистики с сайта Судебного департамента. По ссылке теперь сообщение Информация временно не доступна. Доступна страница в Интернет-архиве с последней копией 7 марта 2026 года и пока еще работают прямые ссылки на Excel файлы. Но, возможно, ненадолго.

Это данные небольшого объема, но значимые для исследователей правоохранительной системы России и журналистов.

#opendata #closeddata #russia #courts
😢11💊411🔥1
Вдогонку к исчезновению судебной статистики. У меня есть копия статистики судебного департамента с 2005 года по 1-е полугодие 2025 года. Всего 502 Excel файла общим объёмом в 173MB

С одной стороны это немного, а с другой стороны бывает нужно. Если суддеп доступ к данным не вернет или если кто-то в более качеством виде их не опубликует, я их где-то размещу в одном из каталогов открытых данных.

P.S. Возможно надо сделать еще архивы обзоров статистических данных которые Верховный суд и суддеп публикуют

#opendata #closeddata #datasets #courts #russia
👍166🔥2😁1
Где-то в начале 2026 года, точную дату сейчас сложно установить, закрылся портал проекта OneGeology https://portal.onegeology.org/ (ссылка сейчас не работает) и с анонсом что возможно летом 2026 года его передадут от Британской геологической службе аналогичной службе Японии. При этом их каталог геоданных еще доступен (1111 наборов геоданных в каталоге на базе Geonetwork). Также остается доступным сайт самого проекта с техническими документами.

OneGeology существовал с 2008 года, и не то чтобы он был ключевым, но заметным ресурсом с геоданными. Посмотрим в каком виде он возродится.

#opendata #geodata #closeddata
4🤔3👍2
В рубрике закрытых данных в России сразу три наблюдения

С сайтов территориальных управлений Казначейства России исчезли все годовые и ежемесячные отчеты об исполнении бюджетов


Это можно посмотреть на примере сайта УФК по Москве и аналогичная ситуация на сайтах других УФК которые я проверял, примерно с десяток. Произошло это вместе с обновлением их сайтов и старые прямые ссылки на публиковавшиеся там Excel файлы. Это тем более странно потому что эти отчеты не обновлялись с 2022 года, так что можно сказать что исчезли архивные материалы которые, казалось бы, никому не мешали. Это явно произошло в 2024-2026 годах, потому что я помню что еще пару лет назад все было доступно.

С сайта Правительства РФ исчезла информация о советах и комиссиях

Профильный раздел пуст, есть только архивные данные за 2024 год (по отдельной ссылке), актуальных сведений нет. Произошло это где-то в мае 2024 года, а я, честно говоря, этот момент упустил. Честно говоря тоже странное явление потому что если цель была скрыть их состав, то можно было и не публиковать состав, а так оказывается как будто нет правительственных комиссий (а они есть).

Приказы Минцифры в разных местах

Если посмотреть на список приказов Минцифры РФ на их новом сайте и на сайте официального опубликования правовых актов то можно обнаружить что списки не бьются. Мне лично не удалось найти ни один из их приказов размещенных на publication.pravo.gov.ru в разделе на сайте Минцифры РФ хотя его пополняют. Может я плохо искал?

#closeddata #opendata #russia
👍86😱4😢3🗿1
В рубрике закрытых открытых данных в России открытые данные Росморречфлота ранее размещались по ссылке opendata.morflot.ru, но домен с данными был полностью удален в начале 2022 года и описание содержания осталось только в Интернет архиве. Сейчас на сайте агентства есть только веб страница "Открытые данные", где есть описание словами что они открытые данные публикуют, но без ссылки на сами данные. Также раньше ссылки на страницу открытых данных была на главной странице и на всех страницах в футере, а теперь "запрятана поглубже" на сайте и самих данных нет, в любом случае.

А данные там были небесполезные, как минимум статистика и основные реестры.

Вообще же с сайта Росморречфлота и его подведов исчезло довольно много разных сведений, о портозаходах, о статистике грузооборота, о графиках расстановки судов в портах. Скорее всего и много всего другого, это лучше знают люди погруженные в отрасль.

#opendata #closeddata #russia
😢10👍311🗿1
В рубрике закрытых открытых данных в России Минтранс РФ уже полгода как не публикует статистический бюллетень "Транспорт России". Последний бюллетень размещался у них на сайте 11 декабря 2025 года и за 9 месяцев 2025 года, а до этого 8 сентября, а до этого 9 июня, а до этого 14 марта.

То есть бюллетень публиковался примерно через 2.5 месяца после прошлого отчетного периода и в 2026 году до 15 марта должен был быть опубликован бюллетень за 2025 год, а до середины июня (в течении 10 дней от сегодня) ожидался бы бюллетень за первый квартал 2026 года.

Но бюллетеня за 2025 год нет, почему непонятно, анонсов на сайте Минтранса РФ я лично тоже не видел.

Записываем этот случай в очередной пример закрытия официальной статистики в РФ.

#opendata #closeddata #russia
6😢51❤‍🔥1