😱4
维基主动向AI开发者提供数据以抵御爬虫
维基百科正在通过发布一个专为训练人工智能模型优化的数据集,来劝阻开发者从该平台抓取内容。维基媒体基金会周三宣布已与Kaggle合作发布了一个包含 “英文和法文结构化维基百科内容”的测试版数据集。维基媒体表示,托管的数据集“在设计时考虑了机器学习工作流程”,使AI开发者更容易访问机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。数据集内容采用开放许可协议,截至 4月15日,包含研究摘要、简短描述、图片链接、信息框数据及文章章节。
—— Theverge
维基百科正在通过发布一个专为训练人工智能模型优化的数据集,来劝阻开发者从该平台抓取内容。维基媒体基金会周三宣布已与Kaggle合作发布了一个包含 “英文和法文结构化维基百科内容”的测试版数据集。维基媒体表示,托管的数据集“在设计时考虑了机器学习工作流程”,使AI开发者更容易访问机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。数据集内容采用开放许可协议,截至 4月15日,包含研究摘要、简短描述、图片链接、信息框数据及文章章节。
—— Theverge
The Verge
Wikipedia is giving AI developers its data to fend off bot scrapers
The dataset is even pre-formatted for machine learning.
#目录 (完整内容点击右边箭头展开)
☛中超浙江队加蓬外援布彭扎赛前坠楼身亡
☛ 情况有点复杂|连云港,扛起了中国魔幻现实主义的大旗
☛ 旧闻评论|三河改色风波或是一场权力游戏
☛ 中国纺织业大佬28楼跃下身亡
☛ 又爆大瓜 马斯克邀请这位华裔网红生娃
☛ 传深圳高中已婚教师与多名女生发生关係 校方:已开除
☛ 深圳华强北业者忙涨价囤货 盼成“首批在关税战中致富的人”
☛ 浙江知名纺织企业董事长毕光钧跳楼身亡
☛ 广西持续干旱 鱼被晒干 农田龟裂如拳头大
☛ 【一线采访】订单断崖式下滑 老板们焦头烂额
☛如何像苏格拉底一样认识自己
☛总统变得更加冲动、更加报复、更加无政府主义。
☛ 69岁郎咸平当网红 疯狂吐槽老妈、娇妻和儿子