Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Я ранее публиковал базу получателей средств от Фонда содействия инновациям (известный также как Фонд Бортника) [1]
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко

Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.

Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск

Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.

В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:

- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.

Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)

Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx

#opendata #data #helpneeded
Как можно помочь в цифровой архивации если Вы программист?

Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?

Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.

2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки

3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.

4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.


#tools #archives #webarchives #helpneeded