Ivan Begtin

Проект "End of Term Presidential Harvest 2016" [1] подходит к завершению. Это 5 месячная инициатива библиотеки конгресса, нескольких университетов и библиотек по архивации всех сайтов уходящей администрации Барака Обамы.

В виду большого объема данных проект использует Nomination Tool когда кто угодно может предложить организаторам ссылки для архивации для приориетного сохранения. Более 11 тысяч ссылок было предложено 294 участниками.

А 17 января группа энтузиастов собралась на хакатон по сбору данных по экологии [2] опубликовав 18 наборов данных на портале DataRefuge [3] созданного специально для сохранения архивных госданных.

Все это, не в последнюю очередь, связано непосредственно с избранием Дональда Трампа в президенты США и тем что в его команде много климатических скептиков, выступающих против борьбы с глобальным потеплением. Судьба агентства EPA в США под вопросом, как и их данные.

Не стоит полагать что это проблема имеет отношение только к США. В России ситуация с уничтожением официальных сайтов ничуть не лучше. Много лет назад я начал архивировать госсайты, находящиеся в зоне риска + перечень сайтов которые могли бы исчезнуть, но представляют ценность.

Архивация государства [4] это и есть тот самый давний проект в рамках которого уже собрано несколько терабайт данных в сжатом виде и десятков-сотен в распакованном. Но, за деятельностью над открытыми данными и коммерческими проектами на него остается не так много времени.

Как то я уже это писал. На такой проект сложно привлечь средства. А волонтеров оказывается очень немного. В одной из следующих публикаций я напишу про размеры накопленного архива и его потенциальном будущем.

Ссылки:
[1] http://digital2.library.unt.edu/nomination/eth2016/about/
[2] https://www.wired.com/2017/01/rogue-scientists-race-save-climate-data-trump/
[3] https://www.datarefuge.org/
[4] https://opengovdata.ru/projects/govarchive/

#opendata #opengov #preservation #data

Wired

Rogue Scientists Race to Save Climate Data from Trump

The incoming Trump administration's EPA transition team intends to remove some climate data from the agency's website. These researchers are swooping in to help.

834 views10:02

Ivan Begtin

Я ещё даже не успел написать рефлексию по ИТ части послания президента как произошла радостная (?) новость что Правительство РФ добровольно ушло в отставку [1]

У этой внезапности есть и оборотная сторона. Кому как, а мне необходимо срочно запускать архивацию текущих сайтов Правительства в нашем национальном цифровом архиве [2] потому что многих из них не переживают смены руководителей.

Ссылки:
[1] https://www.rbc.ru/politics/15/01/2020/5e1f140e9a7947d36a51ab30
[2] https://ruarxive.org

#government #digitalarchives #preservation

РБК

Медведев объявил об уходе правительства в отставку

Свое решение Дмитрий Медведев объяснил желанием дать главе государства возможность реализовать предложения, внесенные тем в рамках послания Федеральному собранию

1.3K viewsIvan Begtin, 13:51

Add a comment

Ivan Begtin

Государство приватизировало фирму "Мелодия" за 329 миллионов рублей о чём пишут Ведомости [1]. Особенность сделки в том что Мелодия владела огромным аудиоархивом советской эстрады накопленном за всё время своего существования. Одна только стоимость архива составляет 300-350 миллионов рублей (из материалов статьи) по одним оценкам и 30-60 миллионов рублей по другим оценкам.

Как и во многих подобных случаях печальна здесь ситуация когда, фактически, объекты культурного наследия, пусть даже и в цифровой или пока ещё не в цифровой форме, передаются частным компаниям без каких-либо последующих обязательств и обременений.

Ссылки:
[1] https://www.vedomosti.ru/media/articles/2020/02/20/823569-gosudarstvo-melodiya

#preservation #archive

Ведомости

Государство продало «Фирму Мелодия»

Владелец крупнейшего в России аудиоархива приватизирован за 329,6 млн рублей

1.3K viewsIvan Begtin, 11:32

2 comments

Ivan Begtin

РБК пишут про реформу институтов развития [1] , ликвидацией 8 из них и объединением остальных под ВЭБ.РФ.
Многие из этих институтов развития, действительно, много лет (десятилетие) друг друга дублировали и как они будут существовать теперь внутри ВЭБ.РФ - это интересно.

Ещё интереснее то что ВЭБ превращается в супер-мега госкорпорацию с многократно большими ресурсами, я пока не могу оценить всех изменений которые за этим последуют. Потому что очевидно что некоторые из старых команд институтов развития потеряют работу полностью, другие будут встроены в новую оргмодель. Непонятно какие из этих структур сохранят юрлица и какие нет.

Но вот что могу сказать точно это то что у всех этих институтов развития публиковалось довольно много данных и похоже пора делать архивные слепки их ресурсов. Честно говоря у меня не доходили руки чтобы инвентаризировать хотя бы их домены (а их много), но официальные сайты сохранить нужно как минимум.

Там есть много того что долгосрочно должно было попасть в базу Госрасходов [2], например, компании получившие господдержку и суммы предоставленных субсидий и ещё немало всего (РФРИТ, Фонд содействия инновациям, РНФ и и др.).

Ссылки:
[1] https://www.rbc.ru/ins/society/23/11/2020/5fbb360d9a79474d25c90e85?
[2] https://spending.gov.ru

#preservation #archives #government

РБК

Реформа институтов развития, в зоне риска 35 банков. Главные новости РБК

Под управление госкорпорации ВЭБ.РФ передадут восемь институтов развития, еще восемь ликвидируют; банковский рынок ждут сокращения, в мире появится новый лидер по переработке нефти; дороги в России ул

1.3K viewsIvan Begtin, 06:50

Ivan Begtin

Об архивации официальных сайтов и иных цифровых ресурсов институтов развития.
Я подготовил открытый список общедоступных ресурсов [1], там базовые метаданные по каждому сайту и стратегия архивации.

Обратите внимание что:
- есть не только официальные сайты, но и данные публикуемые как API. Стандартный подход к архивации их не возьмёт.
- нужно время чтобы собрать сведения о соцсетях и расставить приоритеты по сбору данных из них: из твиттера просто, из фэйсбука сложно, из Youtube требует очень много места
- сайт Фонда защиты прав участников долевого строительства https://фонд214.рф/ уже недоступен (быстро они)
- не все сайты проектов учтены, нужно их собирать
- учтены некоторые ресурсы в которых текущие институты развития были партнерами и которые могут исчезнуть

Если Вы знаете что-то относящееся к институтам развития:
- что имеет ценность
- может исчезнуть
- не безумно сложно собрать

То пишите мне тут или на ibegtin@infoculture.ru.

Итогом будет коллекция архивов сайтов, данных, публикаций в соцсетях доступных для всех заинтересованных.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing

#archives #preservation #datasets

1.4K viewsIvan Begtin, 14:10

Ivan Begtin

На фоне краткосрочной недоступности Facebook'а не могу не напомнить что все социальные сети и сервисы не вечны. Это полезно сделать архив собственных данных из соцсети, а также напоминаю сервисы экспорта собственных данных из наиболее популярных сервисов.

- Google - https://takeout.google.com
- Facebook - https://facebook.com/dyi/
- Twitter - https://twitter.com/settings/download_your_data
- VK - https://vk.com/data_protection
- Yandex - https://passport.yandex.ru/profile/data
- Microsoft - https://account.microsoft.com/privacy/activity-history?view=voice
- Slack - https://slack.com/intl/en-fr/help/articles/201658943
- Instagram - https://www.instagram.com/download/request/
- Github - https://github.com/settings/admin в разделе "Export account data"
- Telegram (Desktop) - перейти в "Настроки" -> "Продвинутые настройки" -> "Экспорт данных из Telegram"

Я также создал давно ещё список сервисов из которых можно забрать свои данные, и веду его в репозитории на Github [1], пополняйте его если знаете другие важные/крупные сервисы позволяющие делать take out данных.

Лично я рекомендую сделать пометку себе в календарь и хотя бы раз квартал сохранять свои данные.

Ссылки:
[1] https://github.com/ivbeg/awesome-data-takeout

#archives #preservation

Facebook

See posts, photos and more on Facebook.

2.4K viewsIvan Begtin, 07:43

About

Blog

Apps

Platform