Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
для тех кто ищет данные с исчезающих сайтов госорганов и правоохранительных органов в частности на хабе открытых данных теперь есть группа данных которая так и называется "Архивы сайтов правоохранительных органов России"
http://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #‎opendata #‎opengov #‎webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на ibegtin@infoculture.ru
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] http://ruarxive.org

#webarchive #ruarxive #archival
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
Продолжаю публиковать крупнейшие наборы данных для исследователей.

Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.

Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.

2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы

3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.

4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/

5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.

6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.

Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump

#webarchive #data #datasets
Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?

Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].

ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница

Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.

Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/

#archives #personal #webarchive
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы


Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.

Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?


#archives #digitalpreservation #webarchive
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.

К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.

А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.

Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org

#archives #web #webarchive
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.

За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]

Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.

Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru

#opendata #opengov #webarchive #archive
Есть органы власти на которых можно рассказывать про архивацию сайтов, инвентаризацию ИТ ресурсов и открытость данных одновременно, потому что на них все эти темы сходятся.

В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.

Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.

Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.

Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать

Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.

Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] http://fcior.edu.ru
[7] https://fpu.informika.ru

#data #webarchive #opendata #archive