Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.24K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Новости проекта на 5 апреля 2022 г.

- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow

#news #digitalpreservation #webarchives
Обратите внимание, на 19 мая мы планируем в России провести конференцию по цифровой архивации - веб-архивы, архивы соцсетей и так далее. Я писал об этом ранее и подробности в канале @ruarxive. Будет две дискуссии - по сохранению цифровой культуры и по сохранению цифровых СМИ. А также будет столько докладов по 20 минут сколько мы сможем вместить.

Во первых, приглашаю послушать, зарегистрируйтесь на сайте.
Во вторых, если Вам есть что сказать то предложите доклад. Тайминг 20 минут, из которых 15 минут доклад + 5 минут ответов на вопросы. Пишите мне или по контактам на сайте.

От Инфокультуры (@infoculture) мы расскажем про национальный цифровой архив и наши инициативы архивации. Также я расскажу про 1-2 инструмента архивации которые ранее выкладывал в открытый доступ.

Ещё мы очень хотели позвать иностранных спикеров, но, с этим есть сложности сейчас, поэтому если не получится, то обязательно сделаем это к следующему мероприятию.

Программа очень скоро будет доступна, следите за новостями!

#digitalpreservation #webarchives
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Напоминаю что сегодня будет трансляция нашей мини-конференции про цифровую архивацию [1], подключайтесь дистанционно, у нас будут интересные дискуссии и доклады.

Я буду участвовать в пленарной дискуссии в 16 часов и выступать с докладом после дискуссий. В докладе буду рассказывать о том зачем мы создали Национальный цифровой архив Ruarxive.org [2] и что делали в 2022 году.

Ссылки:
[1] https://conference.ruarxive.org
[2] https://ruarxive.org

#digitalpreservation #webarchives
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.

В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.

Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.

Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.

Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.

Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.

Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive

#opendata #digitalpreservation #webarchives
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.me/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]

В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.

Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.

В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org

#digitalpreservation #webarchives
С точки зрения цифровой архивации смена руководителя крупной госструктуры - это всегда сигнал к потере данных, контента и цифровых материалов. Не потому что предыдущий или новый руководитель плохой или хороший, а потому что в России нет обязательных требований по сохранению цифровых материалов и из публичного доступа они исчезают, часто очень быстро.

К примеру, к вопросу о Роскосмосе и смене его руководителя.
У Роскосмоса было и частично есть несколько сайтов, проектов
- www.roscosmos.ru - основной сайт, работает
- online.roscosmos.ru - сайт онлайн трансляций, минимальная информация
- ntk.roscosmos.ru - Орбита молодежи 2022, пока работает
- en.roscosmos.ru - англоязычная версия сайта
- gptl.ru - портал геоданных Роскосмоса
- pod.gptl.ru - портал открытых данных ДЗЗ
- tvroscosmos.ru - телестудия Роскосмоса
- licenses.roscosmos.ru - реестр лицензий
- vyzov.roscosmos.ru - программа полетов МКС-66
- keystart.roscosmos.ru - Ключ на старт, когда-то просветительский проект, сейчас недоступен

Плюс социальные сети и возможно есть и другие ресурсы, тут перечислены те что я знаю.

Что из этого может исчезнуть? Да практически все если, к примеру, новый руководитель захочет объединить всё в один ресурс. Или, если, например, решит что YouTube на котором лежат видеозаписи ТВ Роскосмоса недостаточно посконный и оттуда видео начнут удалять и переносить или ещё что-то.

Следующий вопрос, а каком приоритете и как всё это сохранять. Некоторые сайты архивируется классическими веб-краулерами, там где предусмотрен переход по ссылкам и их индексирование. А некоторые так не сохранятся, потому что не предполагают их индексирование и используют Ajax/API. К примеру licenses.roscosmos.ru, gptl.ru, pod.gptl.ru автоматически не заархивируются, нужно, или запускать краулер на базе браузера или писать парсеры. А tvroscosmos.ru можно заархивировать в части текста, но не в части видео, потому что всё видео на Youtube.

Всё это о том что любая внешняя архивация требует больших усилий, часто совершенно излишних. Проблемы возникают от того что нет чётких обязательств у госорганов, госкорпораций, госорганизаций сдавать в архив цифровой контент на регулярной основе.

P.S. А архив цифровых ресурсов Роскосмоса мы делаем

#digitalpreservation #webarchives
В рубрике полезных инструментов работы с данными, я выложил в открытый доступ очередную маленькую утилиту filegetter [1] для проектов цифрового архива (ruarxive.org, телеграм канал @ruarxive).

Утилита делалась когда-то для тех случаях когда в файле набора данных есть ссылки на какие-то файлы, например, PDF/DOC документы или изображения или ещё что-то что надо собрать вместе с набором данных. Такие файлы можно собирать разными способами, например, набором скриптов для командной строки или из скрипта на любом скриптовом языке. Но в какой-то момент это стало довольно неудобно каждый раз писать программу на на сто строк кода, когда можно было бы описать правила в 5 строках конфигурационного файла.

Поэтому на базе другой утилиты, apibackuper [2], созданной для архивации данных в API была быстро сделана эта утилита которая так и пролежала почти год пока у меня не нашлось немного времени сделать к ней документацию и примеры.

Так вот примеры:
- выгрузка файлов приложенных к проекту бюджета с сайта Госдумы [3]
- выгрузка отчетов политических партий с сайта ЦИК РФ [4]
- выгрузка изображений из каталога музейного фонда [5]

Всё это довольно простые примеры, когда файлы выкачиваются из первоисточников и складываются внутрь ZIP контейнера, а рядом сохраняется файл с метаданными.

Главное применение - архивация сопутствующих файлов привязанных к наборам данных.

В итоге, рано или поздно, хочется это упаковать в связанные между собой инструменты для цифровой архивации. Их по отдельности уже много: архивация Wordpress, API, файлов, веб-сайтов, телеграм и других цифровых объектов и типов источников данных и контента.

Ссылки:
[1] https://github.com/ruarxive/filegetter
[2] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/filegetter/tree/main/examples/budget2023
[4] https://github.com/ruarxive/filegetter/tree/main/examples/rupolitparties
[5] https://github.com/ruarxive/filegetter/tree/main/examples/goskatalog

#opendata #digitalpreservation #webarchives #opensource
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives