К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
❤4✍3⚡2
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
🤣12😱3❤2👍2