Forwarded from Weekly Charts
Реестр иностранных агентов в CSV
По мотивам поста Ивана Бегтина. Минюст публикует единый реестр иностранных агентов в виде PDF файла (на момент написания поста 18 страниц и 559 записей). При этом сам реестр, судя по метаданным, ведется в MS Excel 2013, но сохраняется в формате PDF. Написал на R скрипт для скачивания PDF файл с сайта Минюста и извлечения данных с помощью пакета
• Физлицо (1 – да, 0 – нет)
• Возраст ФЛ на дату обновления данных
• Возраст ФЛ на дату включения
• Возраст ФЛ на дату исключения
• Дней в реестре
• Исключен (1 – да, 0 – нет)
• Год включения
• Год исключения
#opendata #dataset #R
По мотивам поста Ивана Бегтина. Минюст публикует единый реестр иностранных агентов в виде PDF файла (на момент написания поста 18 страниц и 559 записей). При этом сам реестр, судя по метаданным, ведется в MS Excel 2013, но сохраняется в формате PDF. Написал на R скрипт для скачивания PDF файл с сайта Минюста и извлечения данных с помощью пакета
tabulizer. Результат сохраняется в csv и google-таблицы. Скрипт выполняется по расписанию на моем сервере. Автоматическое обновление – каждую пятницу в 20.00 МСК. В google-таблицах размещается исходная таблица реестра, а также дополнительные поля:
• Физлицо (1 – да, 0 – нет)
• Возраст ФЛ на дату обновления данных
• Возраст ФЛ на дату включения
• Возраст ФЛ на дату исключения
• Дней в реестре
• Исключен (1 – да, 0 – нет)
• Год включения
• Год исключения
#opendata #dataset #R