Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь http://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - http://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] http://digital2.library.unt.edu/nomination/eth2016/about/
[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] http://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97
Для всех кто интересуется текущем статусом проекта по цифровой архивации - я написал подробный пост на Medium
https://medium.com/p/digital-archive-8fbcd893e4e4

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.
В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.
Рапортую о текущем статусе:
всего собрано данных на 5.4 терабайта из которых:
- 39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
- 2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
- 3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
- 3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
- остальное — архивы открытых данных

в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”.

Также на хабе созданы группы позволяющие просматривать архивы по темам:
- Группа “Агентство ипотечного жилого строительства” — 20 сайтов
- Группа “Арбитражный суд” — 64 сайта
- Группа “Олимпиада Сочи” — 18 сайтов
- и так далее, несколько десятков групп можно найти на сайте

Архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.
1. Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.

2. Архивация проводится одним из следующих способов:
- “полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
- “полным слепком” FTP сервера если архивируется FTP сервер
- специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
- написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
- из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.

3. У цифрового архива на сегодняшний день есть ряд ограничений:
- Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
- Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на Ibegtin@infoculture.ru
Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — http://archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

#webarchiving #digitalpreservation #opendata
Закончился проект по архивации сайтов кандидатов в муниципальные депутаты. Подробнее в моем блоге на Medium [1]

Могу лишь дополнить ссылку тем что это очень большая проблема в архивации данных социальных сетей. Все что приходит в Facebook, потом оттуда не выходит. Это гигантская черная дыра из-за которой архивация охватывает только то что находится вне социальных сетей.

Ссылки:
[1] https://medium.com/@ibegtin/archived-elections-edec77f04f7d

#digitalpreservation #webarchiving