Ivan Begtin
9.37K subscribers
2.21K photos
4 videos
105 files
4.92K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- I Have Written You A Book On Forensic Metascience [1] о книге по перепроверке научных работ, книга небольшая и очень практически ориентированная
- GovWayback [2] сервис для простого просмотра сайтов органов власти США до 20 января 2025 года (инаугурации пр-та Трампа). Надстройка над Интернет Архивом, повышающее удобство проверки изменений на этих сайтах
- Kroki. Creates diagrams from textual descriptions! [3] бесплатное API и открытый код по генерации диаграмм и графиков из текстового описания. Поддерживает множество нотаций: BlockDiag (BlockDiag, SeqDiag, ActDiag, NwDiag, PacketDiag, RackDiag), BPMN, Bytefield, C4 (with PlantUML) и многие другие

Ссылки:
[1] https://jamesclaims.substack.com/p/i-have-written-you-a-book-on-forensic
[2] https://govwayback.com/
[3] https://kroki.io

#digitalpreservation #digramming #openaccess
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?

Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.

Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.

Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.

P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал

#digitalpreservation #webarchives
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.

ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.

Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту ibegtin@infoculture.ru). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.

P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.

Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/

#digitalpreservation #archives #history
Билл Гейтс опубликовал оригинальный код Microsoft 50 летней давности, для Altair BASIC [1].

Подумать только, я вот BASIC во всех формах застал очень мало. Только QBasic в ранних версиях MS DOS и совсем немного Visual Basic в Windows. А так мой самый ранний код - это Паскаль и Ассемблер. И, признаться, в 15-16 лет я писал его чище и аккуратнее, но с куда меньшим пониманием ответов на вопрос "зачем".

Но код на BASIC это, в любом случае, ностальгия.

Ссылки:
[1] https://www.gatesnotes.com/home/home-page-topic/reader/microsoft-original-source-code

#opensource #microsoft #billgates #digitalpreservation
Стал недоступен портал документации и отчетности поставщиков Минэкономразвития России (портал управления проектами госпрограммы Информационное общество) aisup.economy.gov.ru [1]. В Интернет архива последняя версия от 7 февраля 2022 года [2].

Мы последний раз архивировали этот сайт 8 лет назад, его копия есть в файловом хранилище Ruarxive и составляет 33ГБ в виде WARC файлов. Напишите, если она вам понадобится.

А если у вас есть более свежие архивные копии материалов этого сайта, присылайте нам, положим их в хранилище и сделаем общедоступными.

Ссылки:
[1] https://aisup.economy.gov.ru
[2] https://web.archive.org/web/20220207104559/https://aisup.economy.gov.ru/pubportal//

#digitalpreservation #webarchives
Случился апокалипсис и нет Интернета? В США есть не то чтобы популярное, но заметное движение выживальшиков (preppers) с большим числом товаров и даже специализированными магазинами для них. Один из любопытных продуктов для выживания - это Prepper Disk [1] оффлайновая точка Wi-Fi с диском на 512ГБ или 1ТБ с оффлайн копией Википедии, множества руководств, OpenStreetMap, руководства iFixIt, StackOverflow по выживанию, копия сайта Ready.Gov (агентства FEMA) и многое другое.

Пишут что у них резко выросли продажи [2] на фоне второго прихода Трампа к власти.

Ребята, конечно, молодцы, это один из способов монетизировать усилия по сохранению наиболее ценного контента.

Кроме них ещё есть похожий проект Internet-in-a-box [3], значительно дешевле и для развивающихся стран с акцентом на школы. Там внутри Kiwix и много контента из проектов фонда Wikimedia.

Ссылки:
[1] https://www.prepperdisk.com
[2] https://www.404media.co/sales-of-hard-drives-prepper-disk-for-the-end-of-the-world-have-boomed-under-trump/
[3] https://internet-in-a-box.org/

#digitalpreservation
Похоже что с РГБ случилась какая-то катастрофа, все их цифровые ресурсы недоступны и пишут что неизвестно когда восстановят https://t.me/leninka_ru/5986.

В РГБ и конкретно в НЭБ было немало цифрового контента, полезного как для историков, так и ценного для создания исторических наборов данных, да и просто для всех кто интересовался историей не только России, но и всего наследия РИ и СССР.

Наша команда Национального цифрового архива @ruarxive никогда ресурсы РГБ не архивировала исходя из их максимальной сохранности. Не было признаков что материалы оттуда могут быть удалены. Но вот что-то случилось, непонятно проблемы с оборудованием или работа хакеров и много неопределённости и недоступные ресурсы. Если их в итоге восстановят, то будем архивировать как минимум НЭБ.

P.S. Пишут что в здании РГБ был пожар и данные в целостности.

#digitalpreservation
Кстати, в качестве напоминания, не забудьте забрать свои данные из Skype. С мая он более не поддерживается, а забрать личные данные можно по инструкции https://go.skype.com/export.chat.history

Для многих это целая жизнь которая может пропасть если забыть сохранить чаты, файлы и контакты.

#digitalpreservation
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.

Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.

Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.

Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.

Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.

Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.

Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.

Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.

Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).

А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.

Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc

#webarchives #digitalpreservation #opensource
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.

Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.

Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.

В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?

#webarchives #digitalpreservation
В рубрике, как это устроено у них, историческая статистика Италии [1] на портале Serie storiche (Timeseries) статистической службы Италии. Включает данные 1500 индикаторов по 22 темам начиная с 19 века, пока некоторым индикаторам с 1854 года.

Все данные в формате Excel файлов которые были созданы на основе статистических изданий 20го века с обзором исторической статистики и на основе исторических статсборников [2].

Ссылки:
[1] https://seriestoriche.istat.it
[2] https://seriestoriche.istat.it/index.php?id=8

#statistics #digitalpreservation #archives #data #timeseries