для тех кто ищет данные с исчезающих сайтов госорганов и правоохранительных органов в частности на хабе открытых данных теперь есть группа данных которая так и называется "Архивы сайтов правоохранительных органов России"
http://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #opendata #opengov #webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на ibegtin@infoculture.ru
http://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #opendata #opengov #webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на ibegtin@infoculture.ru
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.
Но вот никто не спросил меня про да и не пишет, а что будет со всем темцифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?
Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.
Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.
Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.
P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!
Ссылки:
[1] http://ruarxive.org
#webarchive #ruarxive #archival
Но вот никто не спросил меня про да и не пишет, а что будет со всем тем
Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.
Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.
Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.
P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!
Ссылки:
[1] http://ruarxive.org
#webarchive #ruarxive #archival
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).
Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли
Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.
#webarchive #archive #datasets
Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли
Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.
#webarchive #archive #datasets
Продолжаю публиковать крупнейшие наборы данных для исследователей.
Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.
Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.
2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы
3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.
4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/
5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.
6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.
Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump
#webarchive #data #datasets
Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.
Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.
2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы
3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.
4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/
5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.
6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.
Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump
#webarchive #data #datasets
Telegram
Ivan Begtin
Data, Data engineering, Tech, Open Government and 🦝. Join my channel https://t.me/begtin
Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?
Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].
ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница
Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.
Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/
#archives #personal #webarchive
Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].
ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница
Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.
Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/
#archives #personal #webarchive
О разных подходах к цифровой архивации.
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org
#digital #archival #webarchive
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org
#digital #archival #webarchive
National Archives
NARA Guidance on Managing Web Records
January 2005 (PDF version available ) Web site operations are an integral part of an agency's program. Managing web records properly is essential to effective web site operations, especially the
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
национальныепроекты.рф
Национальные проекты России
Официальный информационный ресурс с планами развития страны на ближайшее будущее и мерами по улучшению качества жизни населения. Сайт создан при поддержке АНО «Национальные приоритеты».
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.
К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.
А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.
Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org
#archives #web #webarchive
К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.
А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.
Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org
#archives #web #webarchive
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.
За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]
Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.
Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru
#opendata #opengov #webarchive #archive
За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]
Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.
Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru
#opendata #opengov #webarchive #archive
Есть органы власти на которых можно рассказывать про архивацию сайтов, инвентаризацию ИТ ресурсов и открытость данных одновременно, потому что на них все эти темы сходятся.
В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.
Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.
Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.
Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать
Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.
Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] http://fcior.edu.ru
[7] https://fpu.informika.ru
#data #webarchive #opendata #archive
В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.
Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.
Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.
Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать
Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.
Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] http://fcior.edu.ru
[7] https://fpu.informika.ru
#data #webarchive #opendata #archive
eo.edu.ru
Дошкольное образование
Web site created using create-react-app