Я регулярно писал о том что в России много открытых и общедоступных данных гос-ва через открытые API, нигде не документированные, но существующие [1]. Но это, конечно же, не только российская специфика и очень многие сайты создаются по архитектуре Jamstack [2] и данные подгружаются через вызовы REST API или запросы GraphQL.
Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.
А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.
И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.
Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.
Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.
Ссылки:
[1] https://t.me/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10
#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan
Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.
А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.
И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.
Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.
Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.
Ссылки:
[1] https://t.me/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10
#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan
Telegram
Ivan Begtin
Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов…
a) API сделанные разработчиками для работы каких-то компонентов…
На сайте Интернет-архива ещё в начале 2022 года появилась коллекция David Rumsey Map Collection из более чем 100 тысяч исторических карт [1] созданная изначально Дэвидом Рамси и поддерживаемая и поныне библиотекой Стенфорда на сайте davidrumsey.com [2] где собрано более 200 тысяч карт в общей сложности.
Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.
Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.
Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.
Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/
#digitalpreservation #archives #geospatial #maps
Красивых карт там много, есть на что посмотреть. Желающие могут скачать хоть всю коллекцию целиком, это всего лишь 1.4ТБ файлов.
Что можно с ними делать? Например, создавать цифровые культурные проекты и пополнять архивы.
Например, по России там почти 7 тысяч карт [3] что сопоставимо с почти 10 тысячами карт на геопортале РГО [4]. Но и, в принципе, есть карты практически всех стран, есть что поискать.
Ссылки:
[1] https://archive.org/details/david-rumsey-map-collection
[2] https://davidrumsey.com/
[3] https://archive.org/details/david-rumsey-map-collection&sort=-reviewdate?query=Russia
[4] https://geoportal.rgo.ru/
#digitalpreservation #archives #geospatial #maps
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок
Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.
Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.
А самые актуальные вносятся за 2023 год довольно оперативно.
Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230
#digitalhumanities #culture #australia #open #digitalpreservation
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок
Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.
Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.
А самые актуальные вносятся за 2023 год довольно оперативно.
Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230
#digitalhumanities #culture #australia #open #digitalpreservation
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.
Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.
Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.
#digitalpreservation #archives #ruarxive
Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.
Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.
#digitalpreservation #archives #ruarxive
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.
Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?
#digitalpreservation #webarchives #security
Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?
#digitalpreservation #webarchives #security
Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд.
Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.
#opendata #digitalpreservation #webarchives
Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.
#opendata #digitalpreservation #webarchives
К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения.
Один лишь пример из многих
Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/
#opendata #digitalpreservation #afganistan #geodata
Один лишь пример из многих
Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/
#opendata #digitalpreservation #afganistan #geodata
Forwarded from Национальный цифровой архив
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
РБК
«Роснано» предупредило о риске банкротства
«Роснано» сообщило, что не сможет до конца года погасить долги за счет собственных средств. Его чистый долг составляет 95 млрд руб. Оно испытывает подобные проблемы уже несколько лет. Путин говорил о
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):
В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am
В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.
Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.
Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.
#opendata #russia #armenia #projects #digitalpreservation
В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am
В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.
Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.
Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.
#opendata #russia #armenia #projects #digitalpreservation
Telegram
Open Data Armenia
Open Data Armenia news channel. English/Armenian/Russian
Join chat at https://t.me/opendataamchat
Join chat at https://t.me/opendataamchat
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives