Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Инструменты для цифровых архивистов. Определение типа файлов

При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.

Цифровые архивисты используют и создают инструменты для решения этой задачи .

- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.

Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.

#tools #digitalpreservation #fileidentification