Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.22K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
На сайте Интернет-архива ещё в начале 2022 года появилась коллекция David Rumsey Map Collection из более чем 100 тысяч исторических карт [1] созданная изначально Дэвидом Рамси и поддерживаемая и поныне библиотекой Стенфорда на сайте davidrumsey.com [2] где собрано более 200 тысяч карт в общей сложности.

Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.

Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.

Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.

Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/

#digitalpreservation #archives #geospatial #maps
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок

Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.

Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.

А самые актуальные вносятся за 2023 год довольно оперативно.

Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230

#digitalhumanities #culture #australia #open #digitalpreservation
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.

Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?

#digitalpreservation #webarchives #security
Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд.

Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.

#opendata #digitalpreservation #webarchives
К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения.

Один лишь пример из многих

Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/

#opendata #digitalpreservation #afganistan #geodata
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.

Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.

В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.

#internet #connectivity #digitalpreservation #archives
В качестве регулярного напоминания, портал открытых данных РФ (data.gov.ru) закрыт уже почти 8 месяцев, вероятность что на его месте создадут что-то другое ненулевая, вероятность что новый портал будет содержать все данные с предыдущего - нулевая.

Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.

Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.

Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip

#opendata #digitalpreservation #datacatalogs #russia #data #datasets