Примеры исчезающих сайтов или зачем нужна веб-архивация.
В 2013-2014 годах когда шла подготовка к Олимпиаде и само грандиозное мероприятие десятки организаций были созданы и десятки сайтов для них также были созданы.
Тогда же с начала 2014 года я начал их архивировать.
Прошло 3 года и значительной части этих сайтов уже либо не существует, либо там нет тех материалов что были раньше. Вот примеры:
- Коллекция "Сочи 2014" Bosco http://sochi2014.bosco.ru/ сайт исчез, теперь там редирект на основной сайт Bosco с частью материалов с сайта (описанием коллекции)
- Управление Олимпийскими Объектами http://www.olimp-ps.ru/ был сайт общества с ограниченной ответственностью "Промсервис", теперь какой-то украиноязычный блог.
- Сайт Росгидромета по погоде на Сочи-2014 http://meteosochi2014.ru/ исчез и вместо него какой-то блог
- Волонтерский центр Томского политехнического университета http://2014.tpu.ru/ более не открывается
- Спецпроект компании Кока-кола по Сочи-2014 http://sochi2014.coca-cola.ru/ не открывается
- Спецпроект Сбербанк-Сочи-2014 http://sochi2014-sberbank.ru/ все материалы удалены, сайт заполнен непонятно чем
- Сайт с информацией о логистике Информация о логистике http://tdog2014.com отсутствует, вместо него запаркованная страница
- Информация о вещании из Сочи-2014 http://panoramahd.ru/ закрыт паролем
- Информация о переселении жителей Сочи http://www.relocation.olympdep.ru/ более не работает
- Информация о деятельности администрации Краснодарского края в предверии Олимпиады Сочи-2014 http://www.olympdep.ru/ вместо него какой-то сайт визитка
- Госкорпорация Олимпстрой http://www.sc-os.ru сайт полностью переделан с 2014 года, доступность материалов надо тщательно перепроверять
- Спецпроекты Оргкомитета http://job.sochi2014.com и http://culture.sochi2014.com сейчас все недоступны
Это не полный список, это список того что я успел заархивировать в 2014 году. Ресурсов у меня тогда было маловато и вся коллекция в сжатом виде около 24 гигабайт.
Я примерно в то же время проводил тотальную архивацию всех ресурсов РИА Новостей и больше сил приходилось на них. Кстати, многие из них также не пережили последние 3 года.
Причем чаще все потери всех ресурсов - это отсутствие культуры, а не злой умысел. Многих просто не волнует что становится с архивными проектами, а еще больше владельцев просто не знают что делать.
Поэтому у меня есть даже такие странные явления как заархивированные сайты МММ (среднее время жизни каждого из них - 1 год), сайты банков поскольку каждый день все они под угрозой и многое другое.
Если Вы знаете какие-либо интернет-ресурсы имеющие культурную ценность и которые могут исчезнуть в любой момент - пишите мне на ibegtin@infoculture.ru и он будет сохранен.
#digitalpreservation #archival
В 2013-2014 годах когда шла подготовка к Олимпиаде и само грандиозное мероприятие десятки организаций были созданы и десятки сайтов для них также были созданы.
Тогда же с начала 2014 года я начал их архивировать.
Прошло 3 года и значительной части этих сайтов уже либо не существует, либо там нет тех материалов что были раньше. Вот примеры:
- Коллекция "Сочи 2014" Bosco http://sochi2014.bosco.ru/ сайт исчез, теперь там редирект на основной сайт Bosco с частью материалов с сайта (описанием коллекции)
- Управление Олимпийскими Объектами http://www.olimp-ps.ru/ был сайт общества с ограниченной ответственностью "Промсервис", теперь какой-то украиноязычный блог.
- Сайт Росгидромета по погоде на Сочи-2014 http://meteosochi2014.ru/ исчез и вместо него какой-то блог
- Волонтерский центр Томского политехнического университета http://2014.tpu.ru/ более не открывается
- Спецпроект компании Кока-кола по Сочи-2014 http://sochi2014.coca-cola.ru/ не открывается
- Спецпроект Сбербанк-Сочи-2014 http://sochi2014-sberbank.ru/ все материалы удалены, сайт заполнен непонятно чем
- Сайт с информацией о логистике Информация о логистике http://tdog2014.com отсутствует, вместо него запаркованная страница
- Информация о вещании из Сочи-2014 http://panoramahd.ru/ закрыт паролем
- Информация о переселении жителей Сочи http://www.relocation.olympdep.ru/ более не работает
- Информация о деятельности администрации Краснодарского края в предверии Олимпиады Сочи-2014 http://www.olympdep.ru/ вместо него какой-то сайт визитка
- Госкорпорация Олимпстрой http://www.sc-os.ru сайт полностью переделан с 2014 года, доступность материалов надо тщательно перепроверять
- Спецпроекты Оргкомитета http://job.sochi2014.com и http://culture.sochi2014.com сейчас все недоступны
Это не полный список, это список того что я успел заархивировать в 2014 году. Ресурсов у меня тогда было маловато и вся коллекция в сжатом виде около 24 гигабайт.
Я примерно в то же время проводил тотальную архивацию всех ресурсов РИА Новостей и больше сил приходилось на них. Кстати, многие из них также не пережили последние 3 года.
Причем чаще все потери всех ресурсов - это отсутствие культуры, а не злой умысел. Многих просто не волнует что становится с архивными проектами, а еще больше владельцев просто не знают что делать.
Поэтому у меня есть даже такие странные явления как заархивированные сайты МММ (среднее время жизни каждого из них - 1 год), сайты банков поскольку каждый день все они под угрозой и многое другое.
Если Вы знаете какие-либо интернет-ресурсы имеющие культурную ценность и которые могут исчезнуть в любой момент - пишите мне на ibegtin@infoculture.ru и он будет сохранен.
#digitalpreservation #archival
boscosport.ru
Сочи 2014
Мы предлагаем широкий ассортимент качественной одежды по адекватным ценам.
Ещё один интересный проект в рамках европейской исследовательской программы Horizon 2020 - это проект ARCHIVER (Archiving and preservation for research environments) [1] в котором Евросоюз финансирует разработку и пилотирование технологий архивации данных петабайтного объёма и выше.
В проекте три крупных исследовательских центра: CERN, DESY и PIC и две консалтинговые компании.
В проекте собраны основные сценарии использования для которых нужны новые технологии [2] и уже сформировались 5 консорциумов компаний, в основном вокруг крупных облачных игроков [5] таких как Google и Amazon
P.S. Архивация и долгосрочное сохранение - это одна из моих любимых тем и очень жаль, конечно, состояние цифровизации этой отрасли в России. Остаётся лишь писать про лучшие практики в мире
Ссылки:
[1] https://www.archiver-project.eu/
[2] https://www.archiver-project.eu/deployment-scenarios
[3] https://www.archiver-project.eu/design-phase-award
#data #archival #eu
В проекте три крупных исследовательских центра: CERN, DESY и PIC и две консалтинговые компании.
В проекте собраны основные сценарии использования для которых нужны новые технологии [2] и уже сформировались 5 консорциумов компаний, в основном вокруг крупных облачных игроков [5] таких как Google и Amazon
P.S. Архивация и долгосрочное сохранение - это одна из моих любимых тем и очень жаль, конечно, состояние цифровизации этой отрасли в России. Остаётся лишь писать про лучшие практики в мире
Ссылки:
[1] https://www.archiver-project.eu/
[2] https://www.archiver-project.eu/deployment-scenarios
[3] https://www.archiver-project.eu/design-phase-award
#data #archival #eu
Archiver-project
Deployment Scenarios Technical Summaries
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.
Но вот никто не спросил меня про да и не пишет, а что будет со всем темцифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?
Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.
Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.
Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.
P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!
Ссылки:
[1] http://ruarxive.org
#webarchive #ruarxive #archival
Но вот никто не спросил меня про да и не пишет, а что будет со всем тем
Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.
Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.
Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.
P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!
Ссылки:
[1] http://ruarxive.org
#webarchive #ruarxive #archival
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org
#digital #archival #webarchive
На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.
А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].
Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.
Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.
Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.
Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org
#digital #archival #webarchive
National Archives
NARA Guidance on Managing Web Records
January 2005 (PDF version available ) Web site operations are an integral part of an agency's program. Managing web records properly is essential to effective web site operations, especially the
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].
В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.
По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.
Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207
#archival #webarchive #government #netprojects
национальныепроекты.рф
Национальные проекты России
Официальный информационный ресурс с планами развития страны на ближайшее будущее и мерами по улучшению качества жизни населения. Сайт создан при поддержке АНО «Национальные приоритеты».