Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
1🤔10❤6❤🔥1
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].
Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8
#statistics #digitalpreservation #archives #data #timeseries
🔥8✍3❤2