维基主动向AI开发者提供数据以抵御爬虫
维基百科正在通过发布一个专为训练人工智能模型优化的数据集,来劝阻开发者从该平台抓取内容。维基媒体基金会周三宣布已与Kaggle合作发布了一个包含 “英文和法文结构化维基百科内容”的测试版数据集。维基媒体表示,托管的数据集“在设计时考虑了机器学习工作流程”,使AI开发者更容易访问机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。数据集内容采用开放许可协议,截至 4月15日,包含研究摘要、简短描述、图片链接、信息框数据及文章章节。
—— Theverge
维基百科正在通过发布一个专为训练人工智能模型优化的数据集,来劝阻开发者从该平台抓取内容。维基媒体基金会周三宣布已与Kaggle合作发布了一个包含 “英文和法文结构化维基百科内容”的测试版数据集。维基媒体表示,托管的数据集“在设计时考虑了机器学习工作流程”,使AI开发者更容易访问机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。数据集内容采用开放许可协议,截至 4月15日,包含研究摘要、简短描述、图片链接、信息框数据及文章章节。
—— Theverge
The Verge
Wikipedia is giving AI developers its data to fend off bot scrapers
The dataset is even pre-formatted for machine learning.
#目录 (完整内容点击右边箭头展开)
☛中超浙江队加蓬外援布彭扎赛前坠楼身亡
☛ 情况有点复杂|连云港,扛起了中国魔幻现实主义的大旗
☛ 旧闻评论|三河改色风波或是一场权力游戏
☛ 中国纺织业大佬28楼跃下身亡
☛ 又爆大瓜 马斯克邀请这位华裔网红生娃
☛ 传深圳高中已婚教师与多名女生发生关係 校方:已开除
☛ 深圳华强北业者忙涨价囤货 盼成“首批在关税战中致富的人”
☛ 浙江知名纺织企业董事长毕光钧跳楼身亡
☛ 广西持续干旱 鱼被晒干 农田龟裂如拳头大
☛ 【一线采访】订单断崖式下滑 老板们焦头烂额
☛如何像苏格拉底一样认识自己
☛总统变得更加冲动、更加报复、更加无政府主义。
☛ 69岁郎咸平当网红 疯狂吐槽老妈、娇妻和儿子
#短讯 (完整内容点击右边箭头展开)
1.台积电:没有与任何公司讨论合资 第一季净利润增60.3%
2.习近平走访东南亚盼联手抗美 学者:东盟难脚踏两条船
3.特朗普现将矛头指向DeepSeek:美中争夺AI霸权新战线
4.纽约退休警官因参与“猎狐行动”被判囚18个月
5.英特尔通知中国客户其对华出口AI芯片开始需要许可证
6.特朗普抨击联准会主席鲍尔的不降息,称解雇越快越好
7.特朗普挥舞贸易大棒 芯片厂商瑟瑟发抖
8.美议员促摩根大通和美国银行放弃承销宁德时代赴港上市
9.成本上升 Temu和Shein下周五起调高美国货品价格
10.美众院指DeepSeek拥6万英伟达芯片 要求解释
11.美众院:问DeepSeek"赖清德是谁" 它回:聊聊数学吧
12.中共国家广电总局前副局长杨小伟落马
13.中共农业部前部长唐仁健被公诉 曾推农管执法
14.挖泥船在菲律宾海域翻覆 4人死含一中国人
15.经济学人:川普支持率正迅速下滑 比上个任期快
16.泽连斯基:中国正向俄罗斯供应火炮和火药
17.中媒:旅游博主被带到"小黑屋" 被迫接受间谍任务!
❤2👍1