Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".
Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.
Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.
Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.
Не забудьте зарегистрироваться и присоединиться!
#opendata #opendataday #events #russia
Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.
Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.
Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.
Не забудьте зарегистрироваться и присоединиться!
#opendata #opendataday #events #russia
opendataday.ru
День открытых данных 2024
Присоединяйтесь к нам, чтобы отметить силу открытых данных и их потенциал для позитивных изменений в мире! #OpenDataDay #ODD2023 #BetterTogetherThanAlone
Если Вы ещё не подключились, трансляция онлайн Дня открытых данных в Москве идет вот тут https://www.youtube.com/live/qOEg6lvC1hY?feature=shared
Доклады уже начались
#opendata #events #russia
Доклады уже начались
#opendata #events #russia
YouTube
День открытых данных 2024
В среду 6 марта 2024 года Инфокультура проведет ежегодный День открытых данных 2024. Это ежегодное международное мероприятие, которое помогает продвигать ко...
Я давненько не писал о ярких примеров того как не надо публиковать данные и особенно российских примеров. Но вот свежий пример подоспел.
У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»
Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".
Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.
Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.
Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.
Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.
Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.
Не любят людей в Рослесхозе, ох как не любят.
P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц
Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest
#opendata #datasets #forestry #russia #closeddata #baddata
У Рослесхоза есть приказ N153 [1]
«Об отнесении лесов к защитным лесам, эксплуатационным лесам и установлении их границ, о выделении особо защитных участков лесов и установлении их границ на территории Оричевского лесничества Кировской области, о внесении изменения в приказы Федерального агентства лесного хозяйства от 30.11.2011 № 506, от 28.06.2019 № 870 и о признании утратившим силу приказа Федерального агентства лесного хозяйства от 12.04.2021 № 332»
Который состоит из двух страниц и 162 приложений половина из которых - это "Графическое описание местоположения границ земель", а вторая половина "Перечень координат характерных точек границ земель".
Как, я уверен, что вы уже догадались всё это геоданные и все они опубликованы в виде PDF файлов в 784 мегабайтном архиве.
Хорошо хоть таблицы не сканами и вполне пригодны для автоматического их извлечения.
Но, в принципе, такое сложно делать случайно. Люди которые таким образом публикуют данные совершенно точно не могут не знать что эти таблицы нужны именно в машиночитаемом виде и, по хорошему, ни в каком ином.
Публиковать, хотя бы, в Excel/ODS было бы несложно, но такого нет.
Я такого немало видел на разных ресурсах развивающихся стран, там даже данные ценового мониторинга публиковались в PDF, и ещё всякое разное. Но это всё постепенно менялось, меняется и довольно быстро. А в развитых странах геоданные - это основные открытые данные. У многих городов и регионов портала данных может не быть, но портал геоданных есть.
Не любят людей в Рослесхозе, ох как не любят.
P.S. И таких актов там много, сотни [2]. А PDF файлы приложений с таблицами могут достигать тысяч страниц
Ссылки:
[1] https://rosleshoz.gov.ru/doc/2023.02.27_pf_%E2%84%96153
[2] https://rosleshoz.gov.ru/documents/borderforest
#opendata #datasets #forestry #russia #closeddata #baddata
К вопросу о поиске по данным и Dateno, я вскоре и чаще буду писать про проект на английском, у него значительно более широкая аудитория на самых разных языках. Но кое-что важное для России важно объяснить.
Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.
Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.
Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.
Но про эти ограничения важно не забывать.
#opendata #russia #dateno #datacatalogs
Если отфильтровать в Dateno российские данные то можно найти много геоданных, большая часть из которых будет из одного источника, ГИС Портала ДВС РАН созданного на базе геокаталога Geonetwork. Данные там, если честно, в плохом виде и, возможно, весь источник придётся убрать потому что ссылки внутри него не работают. Но, важно то что в РФ только геопорталы и только некоторые более-менее соответствуют международным стандартам. А вот почти все госпорталы открытых данных не поддерживают, ни API CKAN, ни стандарт DCAT, ни даже стандарт schema.org Dataset. В итоге чтобы проиндексировать эти каталоги надо писать парсеры под каждый. Оправданно ли это учитывая что на большинстве порталов данные не обновляют лет 6 и там редко когда более тысячи датасетов ? Неоправданно. Можно пытаться индексировать реестры данных которые соответствуют методрекомендациям Минэка, но... мягко говоря эти реестры не дотягивают по аттрибутивному составу до того что нужно для индексирования.
Вторая проблема в том что почти все госсайты и проекты госорганов теперь недоступны из-за рубежа. Чтобы проиндексировать российские госкаталоги данных надо иметь IP адрес в РФ. Итог, как Вы понимаете, удручающий.
Тем не менее в Dateno есть наш Hub of data, будет много данных о России из международных каталогов данных и ещё немало всего постепенно собираемого и вносимого.
Но про эти ограничения важно не забывать.
#opendata #russia #dateno #datacatalogs
В рубрике закрытых данных в России портал открытых данных ЯНАО (data.yanao.ru)
В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.
Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb
#opendata #closeddata #datasets #data #russia
В веб-архиве отсутствует с мая 2022 года, где-то в 2022-2023 годах был окончательно закрыт.
Последняя архивная копия была нами снята в апреле 2022 года, объём 54Mb
#opendata #closeddata #datasets #data #russia
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.
Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.
При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.
Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.
Ссылки:
[1] https://bsr.sudrf.ru
#opendata #closeddata #russia
Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.
При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.
Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.
Ссылки:
[1] https://bsr.sudrf.ru
#opendata #closeddata #russia
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.
Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.
Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.
Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.
А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8
#government #russia #russianlang #laws
Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.
Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.
Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.
А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8
#government #russia #russianlang #laws
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.
А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.
Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.
А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.
#opendata #datasets #data #russia
А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.
Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.
А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.
#opendata #datasets #data #russia
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.
Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.
Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020
#russia #closeddata #data #opendata #census #rosstat
Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.
Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020
#russia #closeddata #data #opendata #census #rosstat
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].
От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.
1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.
Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.
Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168
#opendata #russia #closeddata #crime #migration #mvdrf
От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.
1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.
Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.
Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168
#opendata #russia #closeddata #crime #migration #mvdrf