Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.

Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.

В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.

#internet #connectivity #digitalpreservation #archives
В качестве регулярного напоминания, портал открытых данных РФ (data.gov.ru) закрыт уже почти 8 месяцев, вероятность что на его месте создадут что-то другое ненулевая, вероятность что новый портал будет содержать все данные с предыдущего - нулевая.

Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.

Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.

Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip

#opendata #digitalpreservation #datacatalogs #russia #data #datasets
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.

Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет

Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.

Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва

Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru

#webarchives #digitalpreservation #russia #government
Исчез из открытого доступа портал открытых данных города Омска [1] последнее известное время его доступности это июнь 2022 года, на эту дату есть запись в Интернет архиве. Всего на сайте было 50 наборов данных, в основном по инфраструктуре города.

Архивная копия сайта нами была создана 15 апреля 2022 года в рамках проекта @ruarxive. В общей сложности 269 MB в формате WARC File.

Я только сейчас обнаружил что эти архивы мы всё ещё не выложили онлайн, так что сделаем это в этом году. Пока они все доступны по запросу, пишите если понадобятся.

Ссылки:
[1] http://opendata.admomsk.ru
[2] https://web.archive.org/web/20220622220148/http://opendata.admomsk.ru/

#opendata #closeddata #russia #omsk #digitalpreservation #webarchives
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives