Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.

End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB

Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV

Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB

Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]

А также существует значительное число инициатив меньшего масштаба.

Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).

Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/

#digitalpreservation #webarchives #trump #usa
7👍2
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
👍103
Написал в рассылку про инструменты веб архивации и об отличиях инструментов из экосистемы WARC используемые в веб архивах и современных краулеров собирающих контент с веб сайтов.

#digitalpreservation #webarchives #WARC #crawling
5
Data Rescue Project [1] - ещё один проект в США по архивации госданных. Делается группой исследовательских организаций, сохраняют данные сами и систематизируют сохранённое другими.

В общедоступном каталоге сейчас 87 источников данных [2]

Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.

В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.

Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/

#opendata #webarchives #digitalpreservation
Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation
105🤔5🌚1
В продолжение предыдущей публикации про API веб архива, приведу в пример текущее состояние архивации веб-сайтов российских ФОИВов Интернет Архивом (web.archive.org).

Это результаты самой поверхностной проверки, но можно увидеть что как минимум веб-сайты Минсельхоза РФ и Фельдъегерской службы не архивируются уже почти 3 года, а ряд других 9 месяцев. Если сайт Фельдъегерской службы никого не волнует, по большому счёту, то сайт Минсельхоза уже важнее. И это только поверхностная проверка потому что для ряда сайтов веб архив блокируется с возвращением 403 ошибки. Например, сайт Росархива тоже попадёт в этот список потому что веб архив сохранял его именно с ошибками.

Рано или поздно мы снова начнём архивационную кампанию по сохранению сайтов российских госорганов в рамках Национального цифрового архива (ruarxive.org). Это стало сильно сложнее поскольку теперь официальный контент часто просто невозможно индексировать, приходится прикладывать дополнительные усилия. Но хотя бы можно сохранить то что точно не попадает в веб-архив Интернет Архива.

P.S. Кроме сайтов ФОИВ аналогичная ситуация с большей частью сайтов региональных органов власти и государственных информационных систем.

#digitalpreservation #webarchives #ruarxive #russia
🔥4🌚1
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?

Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.

Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.

Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.

P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал

#digitalpreservation #webarchives
🙏4👍2🔥2
Стал недоступен портал документации и отчетности поставщиков Минэкономразвития России (портал управления проектами госпрограммы Информационное общество) aisup.economy.gov.ru [1]. В Интернет архива последняя версия от 7 февраля 2022 года [2].

Мы последний раз архивировали этот сайт 8 лет назад, его копия есть в файловом хранилище Ruarxive и составляет 33ГБ в виде WARC файлов. Напишите, если она вам понадобится.

А если у вас есть более свежие архивные копии материалов этого сайта, присылайте нам, положим их в хранилище и сделаем общедоступными.

Ссылки:
[1] https://aisup.economy.gov.ru
[2] https://web.archive.org/web/20220207104559/https://aisup.economy.gov.ru/pubportal//

#digitalpreservation #webarchives
61🔥1
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets
👍73
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.

Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.

Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.

Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.

Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.

Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.

Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.

Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.

Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).

А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.

Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc

#webarchives #digitalpreservation #opensource
👍10🔥321
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
2109
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.

Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.

Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.

В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?

#webarchives #digitalpreservation
1🤔106❤‍🔥1
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).

Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.

Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.

А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.

Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.

Ссылки:
[1] https://github.com/datacoon/metawarc

#opensource #webarchives
🔥1031
Я вот думал всё как показать реальную картину импортозамещения в российских госорганах и вспомнил про архивацию госсайтов и что у меня есть какое-то число архивов сайтов госорганов, не всех, но есть хотя бы 20 сайтов ведомств. А утилита metawarc, о которой я рассказывал ранее, умеет извлекать метаданные из файлов .xlsx, .docx, .pptx и других (общий стандарт там OOXML).

Ну а поскольку MS Office и опенсорсные и российские пакеты для работы с документами сохраняют разное в атрибуте Application в метаданных, то осталось только извлечь метаданные и сделать выборки по популярности офисного ПО на ограниченном числе госсайтов.

Итак:
За период до 2022 года включительно доступно 9328 документов из которых
- 62 документа сделано в LibreOffice
- 2 документов в MyOffice
- 1 документ в Р7-Офис
- 3 документа в WPSOffice

Остальные в MS Office

В общей сложности 68 из 9328 документов сделано не в MS Office (0.07%)

За период 2023-2025 годов всего 3108 документов, из которых:
- 155 созданы в Р7-Офис
- 132 созданы в LibreOffice
- 14 созданы в WPS Office
- 4 созданы в MyOffice

Итого 305 документов из 3108 сделаны не в MS Office, это около 10%.

Подсчёт грубый, не все архивы сайтов госорганов РФ у меня под рукой, чаще файлы публикуют в PDF и тд.

В общем и целом анализ без строгой методологии.

Но некоторую картинку происходящего даёт. 10% это много или мало? Не знаю.

Это пример для чего ещё могут быт полезны веб архивы

#opendata #webarchives #documents
❤‍🔥7🔥7👍52
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.

Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?

#webarchives
4
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.

Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.

Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.

В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.

Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.

Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами

Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.

Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.

Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.

#digitalpreservation #webarchives #thoughts
432
Чувствую что первой, возможно, короткой книжкой которую я напишу будет книга о цифровом сохранении. Потому что все остальные мои цифровые хобби уже превратились в работу, а это всё ещё именно хобби.

А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.

1. Создание копии сайта

Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.

Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.

Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.

2. Использование архивов сайтов

После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.

ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.

pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.

Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.

3. Анализ и обработка WARC файлов

Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.

Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.

Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.

#digitalpreservation #webarchives #guides
9👍6🔥4
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.

Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.

При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.

#webarchives #digitalpreservation #data
👍7😢21🤔1
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata
😢9👍31😱1💯1
Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu

#opendata #opanapi #digitalpreservation #webarchives
👍133