Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Собран и загружается архив Эха Москвы.

На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.

Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop

Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.

Официальный сайт Эха Москвы

Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.

О архиве сайта я напишу ещё подробнее позже, по готовности.

Ссылка:
[1] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_telegram/echomskru_20220303.zip
[2] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_vk/echomsk_vk_20220303.zip

#digitalpreservation #webarchives #archives #echomskru
Для тех у кого нет возможности выкачать архив сайта Эха Москвы который мы ранее выкладывали, мы сейчас ведем выгрузку mp3 файлов отдельных передач радиостанции, они пока ещё доступны онлайн по прямым ссылкам.

Сейчас это 37277 ссылок из которых скачано 4167 файла и выгрузка продолжается.

Тем кто хочет успеть сохранить конкретные передачи, список всех выкладываем пока ещё активные ссылки.

В файле echomskru_mp3_urls.zip - все пока ещё работающие ссылки на mp3 файлы которые мы успели собрать с сайта радиостанции.

В файле echomskru_lists.zip - те же ссылки разбитые по названиям программ.

Ссылки ведут на CDN сервер Эха Москвы, он пока ещё доступен за пределами России, для выгрузки, Вам, возможно потребуется VPN подключение.

Списки можно загружать в любую программу поддерживающую выгрузку файлов списками, например Persepolis, бесплатная программы для выгрузки с открытым кодом [1].

Ссылки:
[1] https://persepolisdm.github.io/

#webarchives #archives #echomskru
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive