ALL About RSS
10.4K subscribers
884 photos
1 file
1.42K links
关于 #RSS 技术的 #应用 #周边 #介绍 #方法 #教程 #指南 #讨论 #观点 #技巧

RSS = Really Simple Syndication / Rich Site Summary

推特:https://twitter.com/aboutrss
频道 RSS Feed:https://feeds.feedburner.com/ALLAboutRSS
频道 bot:@channelmcbot
群组:@allaboutrss (福利:推特账号的 Retweet 会自动发至群组)
Download Telegram
基于RSS Feed的 #搜索引擎 #介绍

我始终忘不了被这些月经贴支配的恐惧:「你必读的RSS源有哪些」、「求推荐优质的RSS Feed」。即便在信息搜整能力Top Level的RSS玩家中,Feed的发现依然那么困难。因此个人打理的 #聚合 应运而出,却又各自独立为战、疲于维护,特别是体量渐大之后。我已有两次(12)提及过,这事没法靠个人完成。

有一种办法是举全RSS玩家之力。比如公开大家的订阅列表,就像此前提到的 #FeedsPub#FeedBase。可看榜单,可找长尾。接着,还可以在此基础上搞搜索,就像 Feedly、Feedspot和 Inoreader 等RSS阅读器做的那样。可惜的是被阅读器当成了高端功能,目前只有付费用户才能享受。

还有一种就是举爬虫之力了。试想,当人们想找到需要的网页时,人们发明了「搜索引擎」;那当人们想找到需要的Feed时,人们自然去发明了基于RSS Feed的「搜索引擎」。当然,这绝不是新鲜事情了,上古时期这领域的选手还挺多的(特别是 Google Feed API 还在的时候),只是坚持下来的寥寥无几。以前的事就不提了,那么现在能用的搜索 Feed 的引擎有哪些呢?

1️⃣ DatoRSS
#开源,基于 feedi #API 。经与作者咨询,其Feed的评分来源于 OpenRank

2️⃣ The Ukora News Search Service
至少从14年就存在了。有榜单。注册后,可以订阅搜索出来的Feed(例:少数派),并生成一个看板。但不能直接通过Feed地址来订阅。官方简介了所用到的技术或架构。

2.5 RSS Micro
为什么是“2.5”呢?因为这个站历史悠久,但目前处于半死不活的状态。能不能用有点看人品,经常报受限于API。有榜单。

感谢它们为「发现优质Feed」迈出了一大步。不过,目前来说还有些「小步」也可以迈。以个人为例,在找到Feed后我还会继续去关注下这些指标:全文与否、平均文章字数、更新频度、主题分类(可基于RSS <category> element实现)、条目数、建站时间。这些暂时都未集成在上述搜索引擎中,使得它们离“好用”的搜索引擎还有段距离,但未来可期。

注:上述引擎对中文内容的索引和检索中文关键词的能力都十分有限。
#FeedSpider

我们之前聊过基于Feed的 #搜索引擎 ,利用 #爬虫 是其中一种思路。Feed Compass 和 Feed Curator 的作者 Maurice Parker 打算这么干了,他的项目名叫「Feed Spider」。简单来说,爬取RSS Feed后,基于机器学习对Feed所含的文本进行分类;把Feed归入各个类别后基于这个Feed库制作搜索应用。Maurice Parker把他的动机、思路和数据流框图都发在了他的博客上请读者提意见:

https://vincode.io/2020/05/14/feed-spider-part.html
https://vincode.io/2020/05/15/feed-spider-part.html
Feedle: A Search Engine for Blogs and Podcasts

本频道此前聊过基于 RSS Feed 的 #搜索引擎,但相关应用在实用和美观方面都不尽人意。最近 NetNewsWire 官博推荐的 Feedle 却让人眼前一亮:
https://nnw.ranchero.com/2022/11/17/feedle-blog-search.html

用户可自行提交 RSS Feed,站方会把关以保证搜索结果的信噪比较高,美观和响应速度都不错:

https://feedle.world/
OpenOrb: 一个开源的 RSS 内容搜索引擎

#开源 的 RSS 内容 #搜索引擎 还是不多的。 OpenOrb 自架时需要自定义搜索哪些 RSS Feeds 的内容,有些类似于阅读器中的搜索,也是面向感兴趣的 Feeds。作者说场景可以是个人用作对 #Blogroll 中的 Feeds 进行内容搜索,也可以是给社区使用来对某领域、话题 Feeds 进行搜索。

实例:https://openorb.idiot.sh/
作者写的介绍:https://raphaelkabo.com/blog/openorb-curated-search-engine/