Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.

Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.

Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.

В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.

Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.

Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами

Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.

Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.

Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.

#digitalpreservation #webarchives #thoughts
432
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).

Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.


Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.

Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.

#readings #thoughts #ai
🤣12😱32👍2