Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage