Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Я поднял сейчас свои самые ранние архивы сайтов которые я начинал делать в 2012 году и выяснилось
что с 2012 года исчезло не менее 73 государственных или связанных с государством сайтов и порталов. Причем эти 73 - это только по результатам проверки доступности ранее заархивированных сайтов. Это те 73 архивы которых были созданы. Надо полагать что реальные потери составили многократно большее число сайтов и материалов.

Причина этого банальна - в России нет практики архивации цифрового контента, нет государствен
ной цифровой архивной службы, нет обязательной архивации всех документов, всей переписки госслужащих.

Вот тут полный список всего что было сохранено в 2012 году https://docs.google.com/spreadsheets/d/1wQoBFSvEWoUMubqUj3t2q3AaUUFash7RKX2aJZWSBcE/edit#gid=0

И вот лишь некоторые примеры теперь уже несуществующих сайтов, но копии которых сделаны:
http://01-112.ru/ Архив сайта - Оказание помощи пострадавшим в ДТП
http://2004.kremlin.ru/ Архив сайта Администрации Президента до 2004 года
http://2018.minsvyaz.ru Архив сайта Обсуждение целей Минкомсвязи России 2012—2018
http://contract.mil.ru/ Архив сайта контрактной службы Минобороны России
http://duty.mil.ru/ Архив сайта военной службы Минобороны России
http://fssn.ru/ Архив федеральной службы страхового надзора (ныне расформированной)
http://g8finance.ru/ Архив сайта встречи G8 в 2006 году
http://kursk1943.mil.ru/ Архив проекта Курск 1943
http://lib.adm.gov.ru Библиотека Администрации Президента Российской Федерации
http://www.medvedev2008.ru Архив сайта кандидата в Президенты Медведева Д.А.
http://www.mgdf.ru Сайт конференции организованной Министерством Финансов Российской Федерации в 2010 году
http://presscenter.minsvyaz.ru Архив Связьэкспоком 2011 (конференции Минкомсвязь России)
http://roskart.rosreestr.ru/ Архив сайта Роскартографии
http://rosnedv.rosreestr.ru/ Архив сайта Роснедвижимости
http://rosreg.rosreestr.ru/ Архив сайта Росрегистрации
http://rost.ru Совет при Президенте по реализации приоритетных проектов
http://russianlang.ru/ Архив госпрограммы ФЦП "Русский Язык"
http://sovet.mil.ru/ Общественный совет при Минобороны России. Архив сайта
http://www.transport.spb.ru Архив сайта Комитета транспорта Санкт-Петербурга. Комитет расформирован в 2013 году
http://w3.rfbr.ru/ Архив сайта РФФИ до 2011 года
http://rosohrancult.ru/ Архив официального сайта Росохранкультуры
http://zhirinovskiy2012.ru/ Архив кандидата в Президенты Жириновского В.В. за 2012 год
http://210.minfin.ru Архив сайта празднования 210 летия Минфина

#digitalpreservation #archive
📈Ого! Вконтакте разрешил скачивать пользователям свои личные данные в машиночитаемом виде. В датасете есть все: история посещений, фотографии, видео и твоя переписка с одноклассницей в 2008 году. Запросить данные: https://vk.com/data_protection?section=rules#archive
Сколько я не смотрю, не читаю, не поднимаю архивные материалы - хоть убей я не могу понять в чем отличия между:
- национальными приоритетными проектами
- федеральными целевыми программами
- федеральными адресными инвестиционными программами
- государственными программами
- национальными проектами

Причём если о ФЦП ещё кое где остались следы и материалы, то о национальных приоритетных проектах всё давно подчистили. Сайт rost.ru отдали (интересно ещё кто отдал?) Партии Роста, а весь контент про национальные приоритетные проекты - остался только в archive.org [1] и у меня есть слепок этого сайта 2012 года (7 лет назад) который можно скачать тут [2] (700 МБ в распакованном виде).

И риторика всё время одна и та же, как будто всё по новой, как будто никто ничего не помнит.

Ссылки:
[1] https://web.archive.org/web/20070706162228/http://rost.ru/
[2] https://hubofdata.ru/dataset/rost-ru-2012-10-22

#archive #programs #data
Портал открытых данных data.mosreg.ru [1] более не существует. Согласно распоряжению N10-24-1/РВ от 25.03.2019 выпущенному Министерства государственного управления, информационных технологий и связи Московской области 29 марта 2019 года система АИСОД (data.mosreg.ru) официально выведена из эксплуатации.

Нюанс этой истории добавляет тот факт что это распоряжение подписано 25 марта, а опубликовано 31 мая 2019 года [2]. Никого не предупредили, решили за 4 дня, уничтожили и через 2 месяца опубликовали распоряжение.

К сожалению именно этот портал я заархивировать не успел. И он лишь один из тысяч примеров моментально исчезающих государственных ресурсов.

Мы, конечно, запросим архив этого сайта, но скорее всего ничего не получим.

Учитывая что у федерального портала data.gov.ru [3] уже давно нет финансирования, то скоро исчезнуть может и он.

Ссылки:
[1] https://data.mos.reg.ru
[2] http://mits.mosreg.ru/dokumenty/normotvorchestvo/normativnye-pravovye-akty-mingosupravleniya-m/31-05-2019-11-05-13-o-vyvode-iz-ekspluatatsii-avtomatizirovannoy-infor
[3] http://data.gov.ru

#opendata #digitalpreservation #archive
Государство приватизировало фирму "Мелодия" за 329 миллионов рублей о чём пишут Ведомости [1]. Особенность сделки в том что Мелодия владела огромным аудиоархивом советской эстрады накопленном за всё время своего существования. Одна только стоимость архива составляет 300-350 миллионов рублей (из материалов статьи) по одним оценкам и 30-60 миллионов рублей по другим оценкам.

Как и во многих подобных случаях печальна здесь ситуация когда, фактически, объекты культурного наследия, пусть даже и в цифровой или пока ещё не в цифровой форме, передаются частным компаниям без каких-либо последующих обязательств и обременений.

Ссылки:
[1] https://www.vedomosti.ru/media/articles/2020/02/20/823569-gosudarstvo-melodiya

#preservation #archive
Интернет архив ведет архивацию сайтов публикующих информацию о COVID-19. Их архив собран в специальной коллекции [1]. Анонс был ещё в феврале 2020 года [2] и было собрано уже 9019 сайтов на 51 языке, но, на удивление, нет ни одного веб сайта от России. Скорее всего потому что мало кто системно у нас в стране занимается архивацией сайтов на время COVID'а.

Если Вам не лень, потратьте немного времени и отправьте на архивацию те ресурсы про короновирус о которых Вы знаете, через форму отправки [3].

Если каждый раз заполнять форму тяжело, присылайте мне на ibegtin@infoculture.ru или в телеграм, мы соберем полный список ресурсов и отправим в IIPC и Archive.org для обязательной архивации.

Ссылки:
[1] https://archive-it.org/collections/13529
[2] https://netpreserveblog.wordpress.com/2020/02/13/cdg-collection-novel-coronavirus/
[3] https://docs.google.com/forms/d/e/1FAIpQLSc4jyson7OGxe8HWaAm2s5BWvAug8mgastWEtNxbFYQbZX62g/viewform

#digitalpreservation #archive
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.

За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]

Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.

Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru

#opendata #opengov #webarchive #archive
Есть органы власти на которых можно рассказывать про архивацию сайтов, инвентаризацию ИТ ресурсов и открытость данных одновременно, потому что на них все эти темы сходятся.

В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.

Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.

Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.

Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать

Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.

Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] http://fcior.edu.ru
[7] https://fpu.informika.ru

#data #webarchive #opendata #archive
Ещё про архивацию данных, на сей раз институтов развития. К примеру, ВЭБ.РФ много лет публикует много материалов на своём сайте, обязательную отчетность и, например, отчетность об устойчивом развитии . Они есть в разделе на сайте в PDF формате [1], но только за 3 года: 2013, 2014 и 2016 они создавали (заказывали подготовку) отчётность в интерактивном формате и отчетность за 2016 год в таком виде уже не открывается [2], хотя и за 2013 и 2014 годы доступна [3] [4]. Это не критично, поскольку отчет за 2016 год есть в PDF, но странно. Аналогичным образом исчезли:
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]

Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.

Я таких примеров могу приводить ещё много, а вот примеров обратного немного.

Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.

Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.

Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] http://csr2016.veb.ru/
[3] http://csr2013.veb.ru/ru/
[4] http://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] http://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/http://magazine.veb.ru/
[9] http://www.cbr.ru/archive/archive_fkcb/
[10] http://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru

#webarchive #archive #data
Мало кто знает что у компании Yahoo устойчивая репутация разрушителя интернет культуры. Об этом в статье в Atlantic "Yahoo, the Destroyer" [1].

А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.

В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.

А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.

Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.

В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).

Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]

Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org

#webarchive #archive
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation
В качестве регулярного напоминания, хотя портал data.gov.ru недоступен и нет признаков что даже если его перезапустят там будут те же данные что были и ранее и хотя есть большие сомнения что ранее опубликованные там данные были актуальны и полезны, но мы сделали полную архивную копию. Это ZIP файл на 14 GB в который сохранено всё что можно было сохранить, на 2 февраля 2022 года. Соответственно после распаковки размер будет несколько больше. Сразу скажу что основной объём там создают несколько больших наборов данных вроде слепка базы ФИАС (не самого актуального, кстати), а всё остальное представлено в виде бесконечного числа мелких CSV файлов из регионов и муниципалитетов.

Прямую ссылку не даю чтобы совсем не забить трафик на сервер, но если кому-либо понадобится этот архив - пишите в личку в телеграм, пришлю ссылку. Есть желание, также, загрузить эти данные в Интернет-архив, но всё это время просто не доходили руки.

#opendata #archive #russia #datasets