Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я, наконец-то, доделал то о чём думал лет 10 - выложил в открытый код алгоритм по извлечению новостей из веб-страниц. Он упакован в библиотеку newsworker [1] для Python и её также можно установить через PyPi "pip install newsworker" и увидеть там в общем числе пакетов [2]

В репозитории на Github'е много примеров того как библиотека используется, кроме того у неё есть дополнительные методы позволяющие находить RSS ленты на сайтах. Документация только на английском, но там довольно всё очевидно.

Библиотека применима для всех сайтов из которых надо извлекать новости, но которые не отдают RSS. Писать парсер под каждый очень трудоёмко, поэтому ещё 2008 году я сделал этот инструмент для подписки на новости которые надо было отслеживать.

Эта библиотека лежит в основе моего бота в Telegram'е @FeedRetranslatorBot [3] который создаёт поток новостей из RSS лент и веб-страниц в выбранный телеграм канал.

С помощью этой библиотеки бот собирает новости с таких сайтов как:
- Московский финансовый форум http://www.mff.minfin.ru/news/
- ГАС Управление http://gasu.gov.ru/news
- Издательство Московской патриархии https://www.rop.ru/novosti
- GovInsider https://govinsider.asia/
- ЦСР https://www.csr.ru/
- Пресс-центр Счетной Палаты http://audit.gov.ru/press_center/
- Портал аудиторской деятельности http://rar.gov.ru/news/allnews

и многие другие. Я могу сказать что на 2018 год до сих пор не более чем у половины сайтов есть RSS/ATOM ленты. Некоторые платформы вроде Яндекс.Дзен не делают экспорт в RSS осознанно, стараясь удержать пользователей.

Сейчас нет коммерческого или некоммерческого проекта кроме этого бота где я мог бы этот алгоритм применять. Кроме того в моём понимании он несколько устарел и я его воспринимаю как маленький кусочек по автоматическому преобразованию сайтов в базы данных/API. Задача которой я, увы, уже совершенно не могу себя посвятить. Работа данными у меня уже много лет более актуальна, чем работа над новостной агрегацией.

Ссылки:
[1] https://github.com/ivbeg/newsworker
[2] https://pypi.org/project/newsworker/
[3] https://t.me/@FeedRetranslatorBot

#news #opensource #scrapers