Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение темы AI Free я не так давно публиковал свой рассказ Сделано людьми, на самом деле лишь один из сценариев, я его хотел превратить в более длинную художественную форму, но всё ещё ищу вдохновение.

Тем времени в контексте Organic books, как сколько появится сертификация "Органическое правительство" или "Органический совет директоров" или "Органическая служба доставки" и тд.

Например, пр-во Албании уже не совсем органическое, есть подозрение что некоторые советы директоров тоже скоро начнут "терять органичность". Можно уже планировать художественный или публицистический труд "Потеря органичности", это как потеря невинности, но необратимее.

#thoughts #ai
101
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.

Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.

Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.

В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.

Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.

Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами

Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.

Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.

Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.

#digitalpreservation #webarchives #thoughts
432