Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".

Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.

Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.

Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.

Не забудьте зарегистрироваться и присоединиться!

#opendata #opendataday #events #russia
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.

У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»

Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".

Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.

Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.

Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.

Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.

Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.

Не любят людей в Рослесхозе, ох как не любят.

P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц

Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest


#opendata #datasets #forestry #russia #closeddata #baddata
К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.

Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.

Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.

Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.

Но про эти ограничения важно не забывать.

#opendata #russia #dateno #datacatalogs
В рубрике закрытых данных в России портал открытых данных ЯНАО (data.yanao.ru)

В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.

Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb

#opendata #closeddata #datasets #data #russia
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.

Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.

При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.

Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.

Ссылки:
[1] https://bsr.sudrf.ru

#opendata #closeddata #russia
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.

Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.

Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.

Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.

А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8

#government #russia #russianlang #laws
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.

А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.

Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.

А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.

#opendata #datasets #data #russia
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].

От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.

1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.

Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.

Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168

#opendata #russia #closeddata #crime #migration #mvdrf