Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] https://t.me/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime
В рубрике закрытых в России данных. Министерство юстиции РФ с 2022 года не публикует в официальной статистике [1]:
- Сведения о контроле и надзоре в сфере государственной регистрации актов гражданского состояния
- Сведения о государственной регистрации актов гражданского состояния и органах ее осуществляющих

Кроме того, как минимум, с 2021 года в официальной статистике Минюста РФ не раскрываются сведения о регистрации смерти. Эти данные есть в статистике за 2019 год [2] и отсутствуют в статистике за 2021 [3].
Статистика за 2020 год на федеральном уровне не публиковалась.

При этом на региональном уровне, в некоторых регионах таких как Республика Алтай, терр управления Минюста РФ публикуют статистику, в том числе полугодовую и в том числе за 2023 год и в том числе о регистрации смертей [4]. В других регионах, терр. упр. по Владимирской области отправляют на оф. сайт Минюста РФ и сами ничего не публикуют [5], а в Республике Адыгея вообще ничего не размещают [6].

P.S. Фактически эти данные были одним из немногих источников сведений о смертности, полезные для перепроверки других источников. Но и они "были", и ненадёжны.

Ссылки:
[1] https://minjust.gov.ru/ru/activity/statistic/
[2] https://minjust.gov.ru/uploaded/files/sbornikpominyusturossii0261912.xls
[3] https://minjust.gov.ru/uploaded/files/kopiya-17241652-66814750.xls
[4] https://to02.minjust.gov.ru/ru/pages/svedeniya-o-gosudarstvennoj-reg29012024/
[5] https://to33.minjust.gov.ru/ru/activity/statistic/
[6] https://to01.minjust.gov.ru/ru/activity/statistic/

#closeddata #opendata #russia #statistics #demographics
В качестве регулярного напоминания, в России уже 11 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] https://t.me/begtin/4714

#opendata #closeddata #russia
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.

У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»

Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".

Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.

Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.

Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.

Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.

Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.

Не любят людей в Рослесхозе, ох как не любят.

P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц

Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest


#opendata #datasets #forestry #russia #closeddata #baddata
В рубрике закрытых данных в России портал открытых данных ЯНАО (data.yanao.ru)

В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.

Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb

#opendata #closeddata #datasets #data #russia
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]

Как думаете, что не так с этими опросами?

Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.

Так что нет в Казахстане портала открытых данных;)

А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.

P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.

Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz

#opendata #kazakhstan #closeddata #datacatalogs
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.

Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.

При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.

Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.

Ссылки:
[1] https://bsr.sudrf.ru

#opendata #closeddata #russia
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].

От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.

1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.

Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.

Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168

#opendata #russia #closeddata #crime #migration #mvdrf
Один из крупнейших каталогов геоданных в России - это ФГИС Территориального планирования (ФГИС ТП) [1] управляемое Минэкономразвития РФ. Значительная часть этих данных - это геоданные в форматах XML, GML и других, но их нельзя скачать, скачивать можно только данные в растровой форме - PDF, TIF, JPG, PNG

Хотя именно открытые геоданные составляют большую часть открытых данных в развитых странах, но это не про РФ, и не про ряд стран секретящих всё что связано с их территориями.

Эти данные не закрывались в 2022 году и позже поскольку не открывались никогда.

В общей сложности там порядка 200 тысяч принятых документов из которых не менее четверти должны содержать машиночитаемые геоданные.

Ссылки:
[1] https://fgistp.economy.gov.ru

#opendata #closeddata #geodata #russia
Открытость исчезла из деятельности Правительства Нижегородской области РФ (c)

Этот заголовок можно воспринимать буквально, поскольку после обновления сайта Пр-ва Нижегородской области из него полностью исчез раздел Открытые данные . Ранее он был доступен и сейчас его можно найти на старом сайте Пр-ва [1] и ссылка не него была в разделе Деятельность старого сайта [2].

На новом сайте раздела нет и в разделе Деятельность [3] нет упоминания открытости и по словам "открытые данные" [4] ничего не найти.

Пока ещё остались только отдельные упоминания датасетов на сайтах отдельных органов власти области.

Ссылки:
[1] http://old.nobl.ru/?id=158039
[2] http://old.nobl.ru/activities
[3] https://nobl.ru/deyatelnost-pravitelstva/
[4] https://nobl.ru/search/?q=%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5+%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5

#opendata #datasets #data #closeddata #russia
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.

Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.

Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html

#opendata #data #tambovregion #dataportals #closeddata
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»

С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .

АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠

Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e

#opendata #closeddata #russia #energy
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia
В Ведомостях (которые уже совсем не торт) за пэйволом [1] статья о том что Минэкономразвития РФ такие зайки большие молодцы и выпустили циркуляр о том что всем госорганам можно открывать данные для компаний создающие ИИ.

Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii


#opendata #russia #closeddata
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata