Forwarded from Национальный цифровой архив
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".
Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.
#webarchives #digitalpreservation #statistics #rosstat #russia
Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.
#webarchives #digitalpreservation #statistics #rosstat #russia
2❤10✍9
Про архивацию сайтов, моё хобби, которое уже почти стало моей работой. Вот буквально несколько дней назад я мы для @ruarxive закончили архивировать все сайты Росстата и его терр. управлений. В итоге это около 315GB в сжатом виде. Много это или мало? Это нормально для такого числа сайтов и, наверное, можно было бы ещё лучше если бы добавить в исключение архивацию видеофайлов ибо кому они нужны.
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
Так вот, по хорошему, конечно надо проводить тотальную архивацию всех госсайтов в РФ, хотя бы ФОИВов и региональных властей. Но, есть большое НО о котором я уже писал. Подавляющее число сайтов российских органов власти недоступны из нероссийских подсетей и, хуже того, быстро блокируют доступы даже из российских.
Например, попытка архивировать сайт Таможенной службы РФ привела к блокировке краулера после выгрузки 160MB, совсем немного. Конечно можно вспомнить про возможность использования многих IP адресов, того что можно переключать прокси, но... Это всё хорошо для коммерческого парсинга и очень плохо для некоммерческой архивации.
В итоге даже с серверов/IP адресов в России можно сохранить не всё. И что с этим делать?
#webarchives #digitalpreservation
1🤔10❤6❤🔥1
Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives
🔥10❤3✍1
Я вот думал всё как показать реальную картину импортозамещения в российских госорганах и вспомнил про архивацию госсайтов и что у меня есть какое-то число архивов сайтов госорганов, не всех, но есть хотя бы 20 сайтов ведомств. А утилита metawarc, о которой я рассказывал ранее, умеет извлекать метаданные из файлов .xlsx, .docx, .pptx и других (общий стандарт там OOXML).
Ну а поскольку MS Office и опенсорсные и российские пакеты для работы с документами сохраняют разное в атрибуте Application в метаданных, то осталось только извлечь метаданные и сделать выборки по популярности офисного ПО на ограниченном числе госсайтов.
Итак:
За период до 2022 года включительно доступно 9328 документов из которых
- 62 документа сделано в LibreOffice
- 2 документов в MyOffice
- 1 документ в Р7-Офис
- 3 документа в WPSOffice
Остальные в MS Office
В общей сложности 68 из 9328 документов сделано не в MS Office (0.07%)
За период 2023-2025 годов всего 3108 документов, из которых:
- 155 созданы в Р7-Офис
- 132 созданы в LibreOffice
- 14 созданы в WPS Office
- 4 созданы в MyOffice
Итого 305 документов из 3108 сделаны не в MS Office, это около 10%.
Подсчёт грубый, не все архивы сайтов госорганов РФ у меня под рукой, чаще файлы публикуют в PDF и тд.
В общем и целом анализ без строгой методологии.
Но некоторую картинку происходящего даёт. 10% это много или мало? Не знаю.
Это пример для чего ещё могут быт полезны веб архивы
#opendata #webarchives #documents
Ну а поскольку MS Office и опенсорсные и российские пакеты для работы с документами сохраняют разное в атрибуте Application в метаданных, то осталось только извлечь метаданные и сделать выборки по популярности офисного ПО на ограниченном числе госсайтов.
Итак:
За период до 2022 года включительно доступно 9328 документов из которых
- 62 документа сделано в LibreOffice
- 2 документов в MyOffice
- 1 документ в Р7-Офис
- 3 документа в WPSOffice
Остальные в MS Office
В общей сложности 68 из 9328 документов сделано не в MS Office (0.07%)
За период 2023-2025 годов всего 3108 документов, из которых:
- 155 созданы в Р7-Офис
- 132 созданы в LibreOffice
- 14 созданы в WPS Office
- 4 созданы в MyOffice
Итого 305 документов из 3108 сделаны не в MS Office, это около 10%.
Подсчёт грубый, не все архивы сайтов госорганов РФ у меня под рукой, чаще файлы публикуют в PDF и тд.
В общем и целом анализ без строгой методологии.
Но некоторую картинку происходящего даёт. 10% это много или мало? Не знаю.
Это пример для чего ещё могут быт полезны веб архивы
#opendata #webarchives #documents
❤🔥7🔥7👍5❤2
Forwarded from Национальный цифровой архив
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
✍4
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
❤4✍3⚡2
Чувствую что первой, возможно, короткой книжкой которую я напишу будет книга о цифровом сохранении. Потому что все остальные мои цифровые хобби уже превратились в работу, а это всё ещё именно хобби.
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
❤9👍6🔥4
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Nieman Lab
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects
Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.
👍7😢2✍1🤔1
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
😢10👍3⚡1😱1💯1
Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu
#opendata #opanapi #digitalpreservation #webarchives
#opendata #opanapi #digitalpreservation #webarchives
👍13❤3
Forwarded from Национальный цифровой архив
Большое обновление сайта Ruarxive.org. Добавили много новых статей, лучше структурировали сам сайт, добавили поиск, обновили до последней версии Docusaurus'а (движка на котором сайт построен).
В том числе можно обратить внимание на статьи:
- Быстрый старт: архивация за 5 минут
- Как создать цифровой архив сайтов
- Экстренная архивация: когда счет идет на часы
- Курс по цифровой архивации
И многие другие, включая статьи по использованию конкретных инструментов и обзоры наиболее известных сервисов.
Новое содержимое сайта собрано из публикаций в телеграм канале @ruarxive, других публикаций об исчезновении интернет-ресурсов, презентаций курса по цифровой архивации и других материалов.
Среди других изменений:
- обновлена главная страница для большей понятности содержания сайта
- добавлен поиск по контенту
Да, структура сайта ещё не идеальна, а поскольку многие статьи преобразованы из презентаций, то там больше буллетов чем текста, и они ещё будут обновляться.
Если у Вы найдете какие-либо ошибки, если возникли идеи или если Вы готовы дополнить и расшрить материалы, пишите в @ruarxivechat и в issues на github
P.S. Сейчас в работе систематизация всех собранных ранее сайтов и других результатов архивных кампаний. Все это будет собрано в единый набор данных с базой архивов и далее доступно или через специальный интерфейс или на hubofdata.ru (там уже есть раздел с архивами сайтов и другими архивами).
#digitalpreservation #webarchives #knowledgebase
В том числе можно обратить внимание на статьи:
- Быстрый старт: архивация за 5 минут
- Как создать цифровой архив сайтов
- Экстренная архивация: когда счет идет на часы
- Курс по цифровой архивации
И многие другие, включая статьи по использованию конкретных инструментов и обзоры наиболее известных сервисов.
Новое содержимое сайта собрано из публикаций в телеграм канале @ruarxive, других публикаций об исчезновении интернет-ресурсов, презентаций курса по цифровой архивации и других материалов.
Среди других изменений:
- обновлена главная страница для большей понятности содержания сайта
- добавлен поиск по контенту
Да, структура сайта ещё не идеальна, а поскольку многие статьи преобразованы из презентаций, то там больше буллетов чем текста, и они ещё будут обновляться.
Если у Вы найдете какие-либо ошибки, если возникли идеи или если Вы готовы дополнить и расшрить материалы, пишите в @ruarxivechat и в issues на github
P.S. Сейчас в работе систематизация всех собранных ранее сайтов и других результатов архивных кампаний. Все это будет собрано в единый набор данных с базой архивов и далее доступно или через специальный интерфейс или на hubofdata.ru (там уже есть раздел с архивами сайтов и другими архивами).
#digitalpreservation #webarchives #knowledgebase
✍7🔥3⚡2
Forwarded from Национальный цифровой архив
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
👍6
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
Electronic Frontier Foundation
Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record
Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet
👍2🔥2❤1