Ivan Begtin
8.07K subscribers
1.51K photos
3 videos
100 files
4.26K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Проект "End of Term Presidential Harvest 2016" [1] подходит к завершению. Это 5 месячная инициатива библиотеки конгресса, нескольких университетов и библиотек по архивации всех сайтов уходящей администрации Барака Обамы.

В виду большого объема данных проект использует Nomination Tool когда кто угодно может предложить организаторам ссылки для архивации для приориетного сохранения. Более 11 тысяч ссылок было предложено 294 участниками.

А 17 января группа энтузиастов собралась на хакатон по сбору данных по экологии [2] опубликовав 18 наборов данных на портале DataRefuge [3] созданного специально для сохранения архивных госданных.

Все это, не в последнюю очередь, связано непосредственно с избранием Дональда Трампа в президенты США и тем что в его команде много климатических скептиков, выступающих против борьбы с глобальным потеплением. Судьба агентства EPA в США под вопросом, как и их данные.

Не стоит полагать что это проблема имеет отношение только к США. В России ситуация с уничтожением официальных сайтов ничуть не лучше. Много лет назад я начал архивировать госсайты, находящиеся в зоне риска + перечень сайтов которые могли бы исчезнуть, но представляют ценность.

Архивация государства [4] это и есть тот самый давний проект в рамках которого уже собрано несколько терабайт данных в сжатом виде и десятков-сотен в распакованном. Но, за деятельностью над открытыми данными и коммерческими проектами на него остается не так много времени.

Как то я уже это писал. На такой проект сложно привлечь средства. А волонтеров оказывается очень немного. В одной из следующих публикаций я напишу про размеры накопленного архива и его потенциальном будущем.

Ссылки:
[1] http://digital2.library.unt.edu/nomination/eth2016/about/
[2] https://www.wired.com/2017/01/rogue-scientists-race-save-climate-data-trump/
[3] https://www.datarefuge.org/
[4] https://opengovdata.ru/projects/govarchive/


#opendata #opengov #preservation #data
Я ещё даже не успел написать рефлексию по ИТ части послания президента как произошла радостная (?) новость что Правительство РФ добровольно ушло в отставку [1]

У этой внезапности есть и оборотная сторона. Кому как, а мне необходимо срочно запускать архивацию текущих сайтов Правительства в нашем национальном цифровом архиве [2] потому что многих из них не переживают смены руководителей.

Ссылки:
[1] https://www.rbc.ru/politics/15/01/2020/5e1f140e9a7947d36a51ab30
[2] https://ruarxive.org

#government #digitalarchives #preservation
Государство приватизировало фирму "Мелодия" за 329 миллионов рублей о чём пишут Ведомости [1]. Особенность сделки в том что Мелодия владела огромным аудиоархивом советской эстрады накопленном за всё время своего существования. Одна только стоимость архива составляет 300-350 миллионов рублей (из материалов статьи) по одним оценкам и 30-60 миллионов рублей по другим оценкам.

Как и во многих подобных случаях печальна здесь ситуация когда, фактически, объекты культурного наследия, пусть даже и в цифровой или пока ещё не в цифровой форме, передаются частным компаниям без каких-либо последующих обязательств и обременений.

Ссылки:
[1] https://www.vedomosti.ru/media/articles/2020/02/20/823569-gosudarstvo-melodiya

#preservation #archive
РБК пишут про реформу институтов развития [1] , ликвидацией 8 из них и объединением остальных под ВЭБ.РФ.
Многие из этих институтов развития, действительно, много лет (десятилетие) друг друга дублировали и как они будут существовать теперь внутри ВЭБ.РФ - это интересно.

Ещё интереснее то что ВЭБ превращается в супер-мега госкорпорацию с многократно большими ресурсами, я пока не могу оценить всех изменений которые за этим последуют. Потому что очевидно что некоторые из старых команд институтов развития потеряют работу полностью, другие будут встроены в новую оргмодель. Непонятно какие из этих структур сохранят юрлица и какие нет.

Но вот что могу сказать точно это то что у всех этих институтов развития публиковалось довольно много данных и похоже пора делать архивные слепки их ресурсов. Честно говоря у меня не доходили руки чтобы инвентаризировать хотя бы их домены (а их много), но официальные сайты сохранить нужно как минимум.

Там есть много того что долгосрочно должно было попасть в базу Госрасходов [2], например, компании получившие господдержку и суммы предоставленных субсидий и ещё немало всего (РФРИТ, Фонд содействия инновациям, РНФ и и др.).

Ссылки:
[1] https://www.rbc.ru/ins/society/23/11/2020/5fbb360d9a79474d25c90e85?
[2] https://spending.gov.ru

#preservation #archives #government
Об архивации официальных сайтов и иных цифровых ресурсов институтов развития.
Я подготовил открытый список общедоступных ресурсов [1], там базовые метаданные по каждому сайту и стратегия архивации.

Обратите внимание что:
- есть не только официальные сайты, но и данные публикуемые как API. Стандартный подход к архивации их не возьмёт.
- нужно время чтобы собрать сведения о соцсетях и расставить приоритеты по сбору данных из них: из твиттера просто, из фэйсбука сложно, из Youtube требует очень много места
- сайт Фонда защиты прав участников долевого строительства https://фонд214.рф/ уже недоступен (быстро они)
- не все сайты проектов учтены, нужно их собирать
- учтены некоторые ресурсы в которых текущие институты развития были партнерами и которые могут исчезнуть

Если Вы знаете что-то относящееся к институтам развития:
- что имеет ценность
- может исчезнуть
- не безумно сложно собрать

То пишите мне тут или на ibegtin@infoculture.ru.

Итогом будет коллекция архивов сайтов, данных, публикаций в соцсетях доступных для всех заинтересованных.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing

#archives #preservation #datasets
На фоне краткосрочной недоступности Facebook'а не могу не напомнить что все социальные сети и сервисы не вечны. Это полезно сделать архив собственных данных из соцсети, а также напоминаю сервисы экспорта собственных данных из наиболее популярных сервисов.

- Google - https://takeout.google.com
- Facebook - https://facebook.com/dyi/
- Twitter - https://twitter.com/settings/download_your_data
- VK - https://vk.com/data_protection
- Yandex - https://passport.yandex.ru/profile/data
- Microsoft - https://account.microsoft.com/privacy/activity-history?view=voice
- Slack - https://slack.com/intl/en-fr/help/articles/201658943
- Instagram - https://www.instagram.com/download/request/
- Github - https://github.com/settings/admin в разделе "Export account data"
- Telegram (Desktop) - перейти в "Настроки" -> "Продвинутые настройки" -> "Экспорт данных из Telegram"

Я также создал давно ещё список сервисов из которых можно забрать свои данные, и веду его в репозитории на Github [1], пополняйте его если знаете другие важные/крупные сервисы позволяющие делать take out данных.

Лично я рекомендую сделать пометку себе в календарь и хотя бы раз квартал сохранять свои данные.

Ссылки:
[1] https://github.com/ivbeg/awesome-data-takeout

#archives #preservation