OpenAI员工公开指责Grok3的基准测试结果具有误导性
近日,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此,xAI的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。
xAI的图表显示,Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在X平台上指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME 2025得分。
巴布什金在X平台上辩称,OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。
金十数据
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
近日,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此,xAI的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。
xAI的图表显示,Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在X平台上指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME 2025得分。
巴布什金在X平台上辩称,OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。
金十数据
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
😁181🤣50👍28🔥6❤4👎3👏2🤔2
清华大学张亚勤院士:10年后,每个人身边都会有10个机器人
在中国科学技术大学墨子论坛上,清华大学智能科学讲席教授、清华大学智能产业研究院(AIR)院长张亚勤院士表示,“10年后,机器人会比人都多,每个人身边都会有10个机器人,包括物理或者虚拟的。”
张亚勤指出,“未来机器人会陆续进入工厂、社会,最终形态是进入家庭,每个人、每个家庭都有机器人,机器人能交流,能做家务琐事,能陪你聊天,是你的管家和朋友。”
科学网
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
在中国科学技术大学墨子论坛上,清华大学智能科学讲席教授、清华大学智能产业研究院(AIR)院长张亚勤院士表示,“10年后,机器人会比人都多,每个人身边都会有10个机器人,包括物理或者虚拟的。”
张亚勤指出,“未来机器人会陆续进入工厂、社会,最终形态是进入家庭,每个人、每个家庭都有机器人,机器人能交流,能做家务琐事,能陪你聊天,是你的管家和朋友。”
全文其他内容:对于3-5年哪些行业是最被AI影响的?张亚勤认为,“影响最大的受益者是IT行业本身,如英伟达、微软、亚马逊、谷歌meta、苹果,一大批芯片云计算公司等,是大受益者,他们提供技术和基础设施。”电力行业也会受益,目前电不够,中国电网前瞻性好,但美国电网遇到很大瓶颈,变压器一般是25年就要换,美国变压器70%超过30年,而且大部分美国地区电不是正弦波,目前微波炉冰箱有问题。此外,机器人和无人驾驶,未来3-5年变得越来越快。医院、制药、出行、制造等行业也会都会有很多变化。
“我想强调最重要的要有自己的观点,观点是人才、学生以后最重要的,以往填鸭式习题没有出路,AI记的人类无法比拟。”张亚勤建议课堂学习大量使用AI工具,而不是限制使用,未来AI就是我们手机一样,是人类延伸。本能的延伸。他指出,“应试教育体系需要大的变化,我们对学生,从幼儿园到拿到博士,整个体系都要变,要打造更有个性,不同的人,而不是打造一样的人。上课学习,要用AI,老师学校不要限制。
科学网
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
🤣339🤔60👍52👎29❤11🔥9😁2👌2
Grok 3 出世后影响最大的是同人文章定制产业
在 Musk 发布 Grok 3 以后,同人产业圈的作者们发现自己的工作受到很大冲击。因为其他优秀模型普遍具有较强的审核,但是 Grok 可以说无视所有关于情色与版权的限制,其生成、续写一些带有不适合公众传播的 AI 文本内容时表现出极强的能力。
从业者表示虽然当前 Grok 3 生成的文章存在前文情节对话重复、人物塑造不明朗的情景,但是其单次文本长度极佳,并且毫无限制的特性快速收获了一批人的关注。部分人类写手表示甚至考虑大纲完成后提交给 Grok生成内容后精修以交稿。
编者提示:请注意自己账户安全,采用小号注册等方式验证,避免秋后算账导致账户被封禁。
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
在 Musk 发布 Grok 3 以后,同人产业圈的作者们发现自己的工作受到很大冲击。因为其他优秀模型普遍具有较强的审核,但是 Grok 可以说无视所有关于情色与版权的限制,其生成、续写一些带有不适合公众传播的 AI 文本内容时表现出极强的能力。
从业者表示虽然当前 Grok 3 生成的文章存在前文情节对话重复、人物塑造不明朗的情景,但是其单次文本长度极佳,并且毫无限制的特性快速收获了一批人的关注。部分人类写手表示甚至考虑大纲完成后提交给 Grok生成内容后精修以交稿。
编者提示:请注意自己账户安全,采用小号注册等方式验证,避免秋后算账导致账户被封禁。
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
😁288🤣89👍22🐳14❤12🥰4👎3🫡3
人造甜味剂阿斯巴甜会对心血管健康产生潜在负面影响
一项由心血管健康专家团队进行的研究发现,阿斯巴甜这种常见的人造甜味剂可能对血管健康产生负面影响。研究表明,阿斯巴甜会引发动物体内胰岛素水平的升高,导致动脉粥样硬化的发生,这种情况增加了心脏病和中风的风险。
这项研究的灵感来源于一次项目会议期间的一罐无糖汽水。曹义海院士回忆说:我的一个学生当时正在喝这种无糖饮料,我说,为什么不研究一下这个?
研究人员发现,阿斯巴甜能够激活甜味感受器,导致胰岛素的过度释放,进而促进动脉内脂肪斑块的生长。进一步分析表明,名为CX3CL1的免疫信号在这一过程中起着关键作用,诱发血管炎症并加剧斑块的积聚。研究揭示了阿斯巴甜与动脉粥样硬化之间的潜在机制,为治疗心脑血管疾病提供了新的治疗靶点。此次研究强调了人造甜味剂可能对心血管健康的长远影响,呼吁进一步关注其使用的安全性。
Cell Metabolism | Science Direct
相关消息:最新研究:无糖饮料中的代糖赤藓糖醇或使人罹患心血管疾病风险增加
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
一项由心血管健康专家团队进行的研究发现,阿斯巴甜这种常见的人造甜味剂可能对血管健康产生负面影响。研究表明,阿斯巴甜会引发动物体内胰岛素水平的升高,导致动脉粥样硬化的发生,这种情况增加了心脏病和中风的风险。
这项研究的灵感来源于一次项目会议期间的一罐无糖汽水。曹义海院士回忆说:我的一个学生当时正在喝这种无糖饮料,我说,为什么不研究一下这个?
研究人员发现,阿斯巴甜能够激活甜味感受器,导致胰岛素的过度释放,进而促进动脉内脂肪斑块的生长。进一步分析表明,名为CX3CL1的免疫信号在这一过程中起着关键作用,诱发血管炎症并加剧斑块的积聚。研究揭示了阿斯巴甜与动脉粥样硬化之间的潜在机制,为治疗心脑血管疾病提供了新的治疗靶点。此次研究强调了人造甜味剂可能对心血管健康的长远影响,呼吁进一步关注其使用的安全性。
Cell Metabolism | Science Direct
相关消息:最新研究:无糖饮料中的代糖赤藓糖醇或使人罹患心血管疾病风险增加
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
😇244😨113👍26🤣14❤6😱6😭6🥴3
苹果计划将自研基带芯片整合进主芯片组
苹果正计划将未来的自研基带芯片整合到设备的主芯片组中,这意味着未来iPhone将不再需要独立的基带芯片。
据彭博社记者Mark Gurman报道,苹果将分阶段推进这一计划。公司已在iPhone 16e中首次搭载自研C1基带芯片,明年将在高端iPhone上使用C2基带,后续的C3基带有望在性能上超越高通。最终目标是在2028年前将基带功能整合进主芯片组,这样做有利于降低成本并提升效率。目前C1基带在某些方面仍逊于高通产品,但在能效表现上已帮助iPhone 16e实现了6.1英寸iPhone最佳续航。
9to5Mac
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
苹果正计划将未来的自研基带芯片整合到设备的主芯片组中,这意味着未来iPhone将不再需要独立的基带芯片。
据彭博社记者Mark Gurman报道,苹果将分阶段推进这一计划。公司已在iPhone 16e中首次搭载自研C1基带芯片,明年将在高端iPhone上使用C2基带,后续的C3基带有望在性能上超越高通。最终目标是在2028年前将基带功能整合进主芯片组,这样做有利于降低成本并提升效率。目前C1基带在某些方面仍逊于高通产品,但在能效表现上已帮助iPhone 16e实现了6.1英寸iPhone最佳续航。
9to5Mac
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
👍244😁31❤11👎9🔥7🤨5🤣4🤝2
Deepseek开源FlashMLA:高效MLA解码内核,专为Hopper GPU优化
Deepseek今日开源FlashMLA,这是一款专为Hopper GPU设计的高效MLA(多头潜在注意力)解码内核。FlashMLA针对变长序列进行了优化,支持BF16数据类型,并采用分页KV缓存(块大小为64),显著提升了计算效率。
在H800 GPU上,FlashMLA实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能,适用于大规模语言模型推理任务。这一创新技术将加速AI推理过程,为自然语言处理等领域带来更高效的解决方案。
DeepSeek | GitHub
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
Deepseek今日开源FlashMLA,这是一款专为Hopper GPU设计的高效MLA(多头潜在注意力)解码内核。FlashMLA针对变长序列进行了优化,支持BF16数据类型,并采用分页KV缓存(块大小为64),显著提升了计算效率。
在H800 GPU上,FlashMLA实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能,适用于大规模语言模型推理任务。这一创新技术将加速AI推理过程,为自然语言处理等领域带来更高效的解决方案。
DeepSeek | GitHub
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
👍408❤23👏7😁4👎3🌭2🔥1🗿1
RTX 5080首曝渲染输出单元数量减少
英伟达RTX 50系列显卡品控问题持续发酵,继官方确认RTX 5090与5070 Ti存在生产异常导致渲染输出单元(ROP)数量缩减后,Reddit用户最新曝光的RTX 5080 Founders Edition公版显卡同样存在同类缺陷。
TechPowerUP开发的GPU-Z 2.59.0检测显示,该卡实际ROP单元为104个,较标称的112个短缺8个单元。经用户提供验证文件证实,该缺陷在重新安装驱动后依然存在,排除软件误读可能。
相关新闻:Nvidia确认部分RTX 5090及5070 Ti显卡缺失渲染单元,提供更换服务
VideoCardZ | Reddit
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
英伟达RTX 50系列显卡品控问题持续发酵,继官方确认RTX 5090与5070 Ti存在生产异常导致渲染输出单元(ROP)数量缩减后,Reddit用户最新曝光的RTX 5080 Founders Edition公版显卡同样存在同类缺陷。
TechPowerUP开发的GPU-Z 2.59.0检测显示,该卡实际ROP单元为104个,较标称的112个短缺8个单元。经用户提供验证文件证实,该缺陷在重新安装驱动后依然存在,排除软件误读可能。
相关新闻:Nvidia确认部分RTX 5090及5070 Ti显卡缺失渲染单元,提供更换服务
VideoCardZ | Reddit
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
🤣261😁30👎17❤11🔥5🤬4🤝3🙈1
Telegram因延迟报告反制恐怖主义的措施被澳大利亚罚款近100万澳元
澳大利亚在线安全监管机构对Telegram罚款近100万澳元,原因是其未能及时回应关于平台如何处理恐怖主义和儿童虐待材料的方式。Telegram延迟了160天才提供相关信息,阻碍了监管机构履行职责。
Telegram有28天时间决定是否请求撤销罚款、支付罚款或申请延期支付。Telegram发言人认为罚款“不公平且不成比例”,并计划上诉。如果Telegram不支付罚款,监管机构可能采取进一步行动,包括向联邦法院申请民事处罚。
2024年Telegram满足了澳大利亚执法机构的14项IP地址或电话号码信息请求,涉及23名用户。
The Guardian
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
澳大利亚在线安全监管机构对Telegram罚款近100万澳元,原因是其未能及时回应关于平台如何处理恐怖主义和儿童虐待材料的方式。Telegram延迟了160天才提供相关信息,阻碍了监管机构履行职责。
Telegram有28天时间决定是否请求撤销罚款、支付罚款或申请延期支付。Telegram发言人认为罚款“不公平且不成比例”,并计划上诉。如果Telegram不支付罚款,监管机构可能采取进一步行动,包括向联邦法院申请民事处罚。
2024年Telegram满足了澳大利亚执法机构的14项IP地址或电话号码信息请求,涉及23名用户。
The Guardian
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
🤣254👍24🔥14👏9👎7😁6🤔2🎉1