Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.me/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
К вопросу о том как исчезает официальный контент государственных инициатив приведу в пример сайт открытого пр-ва open.gov.ru [1]. Сайт перестали обновлять с 2018 года, после смены состава фед. правительства. Какое-то недолгое время он был онлайн, а с января 2021 года у него "протух" сертификат который ещё и был сделан с поддержкой только TLS 1.0 [2] поэтому сейчас рядовому пользователю его не открыть.

При этом он остался в проиндексированным в Гугле [3], а с помощью консольных и программных инструментов его можно сохранить и получить конкретную страницу, но это, видимо, тоже пока что временно.

Я напомню что государственные сайты, да и вообще сайты в Рунете, не подвергаются обязательной архивации как это происходит в других странах. Нет требований, стандартов, правил, процедур и обязанности к созданию архивов, например, уже закрытых проектов или ликвидируемых организаций. Их цифровой контент и другие цифровые артефакты их деятельности исчезают быстро и безвозвратно.

Это не самый яркий пример, были и похуже, но для меня он важен тем что много моей общественной работы было связано с открытостью гос-ва.

Ссылки:
[1] https://open.gov.ru
[2] https://www.ssllabs.com/ssltest/analyze.html?d=open.gov.ru
[3] https://www.google.com/search?q=site%3Aopen.gov.ru

#digitalpreservation #openness #opengov #archives
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives
На сайте Интернет-архива ещё в начале 2022 года появилась коллекция David Rumsey Map Collection из более чем 100 тысяч исторических карт [1] созданная изначально Дэвидом Рамси и поддерживаемая и поныне библиотекой Стенфорда на сайте davidrumsey.com [2] где собрано более 200 тысяч карт в общей сложности.

Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.

Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.

Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.

Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/

#digitalpreservation #archives #geospatial #maps
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.

Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.

В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.

#internet #connectivity #digitalpreservation #archives
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.

Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.

Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.

Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481

#opendata #datasets #digitalpreservation #datacatalogs #data #archives
Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?

#digitalpreservation #webarchives #archives
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc