Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive
Я регулярно писал о том что в России много открытых и общедоступных данных гос-ва через открытые API, нигде не документированные, но существующие [1]. Но это, конечно же, не только российская специфика и очень многие сайты создаются по архитектуре Jamstack [2] и данные подгружаются через вызовы REST API или запросы GraphQL.

Такой подход имеет много преимуществ при доступе с мобильных устройств и для ускорения настольных браузеров, но имеет один важнейший недостаток - контент сайтов выпадает из архивации. Поэтому, к примеру, многие данные с сайта Мэрии Москвы (mos.ru) не архивируются, они доступны только через API и не присутствуют в форме HTML кода.

А вот выдался и наглядный пример из другой страны. Относительно недавно обновился официальный сайт органов власти Республики Казахстан (www.gov.kz) [3]. Выглядит он сейчас весьма прилично, быстро грузится и обладает многими полезными характеристиками: удобным поиском, чёткой структурой и быстрым откликом.

И, как Вы уже догадались новый сайт Правительства Казахстана сделан именно таким. Почти весь контент отдаётся через GraphQL или REST API. Например, документы Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан [4] возвращаются именно через такое API [5]. Аналогично новости, события, вакансии, госуслуги, жизненные ситуации и тд. по всем организациям на этом портале.

Казалось бы почему бы не публиковать их сразу как открытые данные? Но это другой вопрос. Сейчас ничто не мешает желающим превращать данные из API с этого сайта/этой госсистемы в общедоступные наборы данных.

Но, конечно, это никак не поможет тому что сайт gov.kz будет хуже индексироваться поисковыми системами, что архивы материалов в Интернет-архиве (archive.org) будут не полны и что если теперь делать архивную копию этого сайта, то надо учитывать ещё и его API.

Ссылки:
[1] https://t.me/begtin/3303
[2] https://jamstack.org/
[3] https://www.gov.kz
[4] https://www.gov.kz/memleket/entities/mdai?lang=ru
[5] https://www.gov.kz/api/v1/public/content-manager/documents?sort-by=created_date:DESC&projects=eq:mdai&page=1&size=10

#opendata #opengov #digitalpreservation #webarchives #api #government #kazakhstan
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.

Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?

#digitalpreservation #webarchives #security
Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд.

Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.

#opendata #digitalpreservation #webarchives
Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.

Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет

Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.

Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва

Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru

#webarchives #digitalpreservation #russia #government
Исчез из открытого доступа портал открытых данных города Омска [1] последнее известное время его доступности это июнь 2022 года, на эту дату есть запись в Интернет архиве. Всего на сайте было 50 наборов данных, в основном по инфраструктуре города.

Архивная копия сайта нами была создана 15 апреля 2022 года в рамках проекта @ruarxive. В общей сложности 269 MB в формате WARC File.

Я только сейчас обнаружил что эти архивы мы всё ещё не выложили онлайн, так что сделаем это в этом году. Пока они все доступны по запросу, пишите если понадобятся.

Ссылки:
[1] http://opendata.admomsk.ru
[2] https://web.archive.org/web/20220622220148/http://opendata.admomsk.ru/

#opendata #closeddata #russia #omsk #digitalpreservation #webarchives
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?

#digitalpreservation #webarchives #archives
Поднакопилось какое-то количество мыслей про доступность/открытость данных и дата инженерию, прежде чем писать по каждой мысли отдельный текст, изложу тезисами:

- проблема поиска данных под конкретную задачу в том что структурированных данных может и не быть. Ищущий решает задачу интеграции данных в свой продукт/решение своей задачи и машиночитаемость данных - это лишь снижение барьера по работе с ними, а так то данные могут быть и распарсены из любого неструктурированного формата или собраны вручную. Из-за такой модели потребления главный недостаток поиска структурированных данных в том что их может не быть и пользователю нужен первоисточник.

- самое сложное - это производство данных и ещё сложнее производство хороших данных. Создавая Dateno одной из мыслей было хотя бы частично решить задачу нахождения данных индексируя основных производителей. Но это не решает проблему отсутствия данных. Как поощрять их создание? Конкурсы для волонтеров? Datathon'ы ? Вопрос открытый.

- геоданные очень прикольная штука когда они очищены и приведены в удобную форму. Можно, например, довольно быстро сделать геопортал Армении на базе TerriaJS и интегрировать туда данные из нашего портала открытых данных data.opendata.am даже сейчас пара сотен слоёв данных наберётся из открытых источников и результат даже будет вполне симпатичен и открыт. Стоит ли делать его с учётом скорого обновления maparmenia.am (не отовсюду и не всегда доступен, неизвестно чем будет после обновления) ? Стоит ли делать такой портал для других стран?

- особенность доступности данных в России что всё что на сайтах госорганов названо "открытыми данными" таковыми не является, или бесполезно, или не обновлялось от 4 до 8 лет. Создать портал открытых данных без гос-ва не так сложно, сколь сложно его держать актуальным и с тем что его надо обновлять. Перезапуск темы открытых данных в России так чтобы данные были востребованы? Ха! Самое очевидное - машиночитаемые нормативные документы и первичные нормативные документы и тексты для машинного обучения, систематизация научных данных и их агрегация и много-много-много датасетов. Это не дорого, этим некому заниматься внутри гос-ва и не похоже что появится кто-то в ближайшие годы. Но если федералы всё же запустят новую версию data.gov.ru то точно сделаем альтернативу ему, больше и лучше, просто чтобы все знали что они не умеют;)

- веб архивация, цифровая архивация находится в кризисе. Причин много, и они нарастают. Во первых многие страны огораживаются, как РФ от поисковых ботов, во вторых информации производится сильно больше чем раньше, волонтеров и НКО недостаточно, далее контент тяжелеет, далее всё больше контента в соцсетях с авторизацией и пэйволов, инструменты устаревают, соцсети блокируют доступ к контенту, а в некоторых странах нет даже политики сохранения даже ключевого контента.

#opendata #data #thoughts #webarchives #geodata
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
Собрал свои публичные презентации по нескольким темам и понял что получится большой пост если перечислять все. Вот тут самые основные:

Открытые данные
-
Раскрытие данных о госфинансах как часть государственной политики - про проекты открытости госфинансов и их значимости
- Открытые данные как основа госполитики - о том как устроены открытые данные в мире
- Как искать данные с помощью каталогов данных. Проект Datacatalogs.ru - об одном из первых каталогов-каталогов данных
- Sharing Data for Disaster Response and Recovery Programs - об открытых данных в вопросах чрезвычайных ситуаций и восстановления
- Открытость информационных систем нормотворчества - об открытости/закрытости систем нормотворчества в России

Data engineering
-
Dateno. Global Data Discovery search engine - презентация проекта поиска по данным Dateno
-
Datacrafter. Каталог и озеро данных на базе MongoDB - презентация для выступления на конференции SmartData, о внутренностях продукта Datacrafter и куча технических подробностей

Open Data Armenia
-
Open Finances. International and Armenia overview - обзор проектов по открытости госфинансов в мире и в Армении
- Open Data, Open Code, Open Licenses - о разных компонентах открытости

Открытый код
- Открытый код в других странах - Как и в каком объёме и кто именно публикует открытый код, почему это важно и почему это становится всё более популярным

Приватность
-
Слежка через государственные мобильные приложения - о том как государственные органы следят за гражданами с помощью мобильных приложений и сливают информацию о их передвижении и действиях коммерческим компаниям
- Термины и объекты регулирования: ADM-системы - о том что такое системы для автоматического принятия решения и как они описываются в разных странах
- О необходимости контроля и аудита ADM- систем - о том как регулировать ИИ используемый для автоматического принятия решений

Веб архивация
- Организация веб-архивов - о том как устроены современные интернет архивы и Национальный цифровой архив (ruarxive.org)
- Дата инженерия и цифровая гуманитаристика - о том какие большие цифровые гуманитарные проекты есть в мире и про Национальный цифровой архив

Понятный язык
- Простой и понятный русский язык - о простоте русского языка и её измерении
- Простота нормативно-правового языка - о подходах к оценке нормативно-правовых текстов

P.S. Всего у меня 200+ неразобранных презентаций за последние 15 лет, в онлайне не больше 30. Что-то устаревает, что-то нельзя публиковать, что-то бессмысленно без самого выступления, но, по мере разбора завалов, буду выкладывать дальше.

#opendata #opensource #plainlanguage #webarchives #digitalpreservation #dataengineering #armenia
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc