https://sakana.ai/ab-mcts/
Sakana AI 发布 AB-MCTS (Adaptive Branching Monte Carlo Tree Search) - 让 o4-mini / Gemini 2.5 Pro / Deepseek R1 协作,有点 mixture of mixture of experts 那味了😎
Sakana AI 发布 AB-MCTS (Adaptive Branching Monte Carlo Tree Search) - 让 o4-mini / Gemini 2.5 Pro / Deepseek R1 协作,有点 mixture of mixture of experts 那味了
Please open Telegram to view this post
VIEW IN TELEGRAM
sakana.ai
Sakana AI
Inference-Time Scaling and Collective Intelligence for Frontier AI
❤🔥1
https://huggingface.co/blog/smollm3
Hugging Face 发布 SmolLM3,一个 3B 小模型。他们非常慷慨地提供了完整的技术细节,从 model architecture 和 data mixture 到 pre/mid/post training 的多个 recipe 🫡
Hugging Face 发布 SmolLM3,一个 3B 小模型。他们非常慷慨地提供了完整的技术细节,从 model architecture 和 data mixture 到 pre/mid/post training 的多个 recipe 🫡
huggingface.co
SmolLM3: smol, multilingual, long-context reasoner
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
忘了发,上个月两篇关于 multi agent 的经验谈,值得一看
https://www.anthropic.com/engineering/built-multi-agent-research-system
https://cognition.ai/blog/dont-build-multi-agents
https://www.anthropic.com/engineering/built-multi-agent-research-system
https://cognition.ai/blog/dont-build-multi-agents
Anthropic
How we built our multi-agent research system
On the the engineering challenges and lessons learned from building Claude's Research system
❤1
https://store.steampowered.com/app/3743220/A_Solitaire_Mystery/
Baba Is You 作者 Hempuli 新作,20 个脑洞大开的空当接龙魔改版😆
FYI: 昨天玩了几个小时遇到一些很明显的 game breaking bug,可以考虑过一阵子再入。
Baba Is You 作者 Hempuli 新作,20 个脑洞大开的空当接龙魔改版
FYI: 昨天玩了几个小时遇到一些很明显的 game breaking bug,可以考虑过一阵子再入。
Please open Telegram to view this post
VIEW IN TELEGRAM
Steampowered
A Solitaire Mystery on Steam
A collection of mysterious solitaires. The solitaires included vary from fairly standard cardgames to funky reimplementations of other games in solitaire form.
这篇是我读过最醍醐灌顶的对现代理论物理的全面“科普”。打引号是因为大部分内容其实并没有解释到门外汉也能看懂的程度…… 虽说如此,我读完以后还是对最小作用量原理和各种对称性等有了稍微不那么模糊的理解,突然感觉以后读科幻又能带着新的视角去看了!
现代数学和理论物理已经发展到怎样一个令人震惊的水平了? - 酱紫君的回答 - 知乎
https://www.zhihu.com/question/304611853/answer/1928827087810192602
现代数学和理论物理已经发展到怎样一个令人震惊的水平了? - 酱紫君的回答 - 知乎
https://www.zhihu.com/question/304611853/answer/1928827087810192602
❤4🤔1
https://store.steampowered.com/app/2475490/Mouthwashing/
随手打开一个游戏没想到是非线性叙事神作;延续制作组之前作品的诡异美术风格,让人感叹 indie 的无数种可能:只要有出色的点,不需要画面精良或是海量内容也可以做出好游戏。
流程不长,我甚至在 steam 退款时限内就打完了。
通关以后发现,故事其实非常简单,没有任何多余的要素,但你会开始深思故事的主旨…
随手打开一个游戏没想到是非线性叙事神作;延续制作组之前作品的诡异美术风格,让人感叹 indie 的无数种可能:只要有出色的点,不需要画面精良或是海量内容也可以做出好游戏。
流程不长,我甚至在 steam 退款时限内就打完了。
通关以后发现,故事其实非常简单,没有任何多余的要素,但你会开始深思故事的主旨…
Steampowered
Save 30% on Mouthwashing on Steam
The five crew members of the Tulpar are stranded in the empty reaches of space, shrouded in perpetual sunset. God is not watching.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Shiro Sagisu - Swinging A1 (Jazz)
Track 2 of Shiro Sagisu's The world! EVAngelion JAZZ night = The Tokyo III Jazz club = album
Kaggle 推出 Game Arena,明天中午来看第一个比赛,八个 model 下国际象棋 👀
https://www.youtube.com/watch?v=En_NJJsbuus
https://www.youtube.com/watch?v=En_NJJsbuus
YouTube
AI Chess Exhibition Tournament August 5th
Follow Hikaru Nakamura's livestream here NOW: https://www.youtube.com/@UCweCc7bSMX5J4jEH7HFImng
We’re inaugurating Kaggle Game Arena with a 3-day AI chess exhibition tournament featuring 8 frontier models.
We’re inaugurating Kaggle Game Arena with a 3-day AI chess exhibition tournament featuring 8 frontier models.
https://store.steampowered.com/app/2754380/The_Roottrees_are_Dead/
90 年代风非线性解谜游戏,真的好玩,her story 升级版 🎮
90 年代风非线性解谜游戏,真的好玩,her story 升级版 🎮
Steampowered
The Roottrees are Dead on Steam
A genealogical mystery straight out of 1998. Scour the early Internet for clues, uncover hidden connections, and piece together the family tree behind the secretive Roottree Corporation.
❤3
https://www.youtube.com/watch?v=-HzgcbRXUK8
ICYMI: 来听 Demis 独特的成长经历和对 AI 以及科技发展的深刻思考。
(这一期两个多小时的采访感觉喂饱了无数自媒体 😂
ICYMI: 来听 Demis 独特的成长经历和对 AI 以及科技发展的深刻思考。
(这一期两个多小时的采访感觉喂饱了无数自媒体 😂
YouTube
Demis Hassabis: Future of AI, Simulating Reality, Physics and Video Games | Lex Fridman Podcast #475
Demis Hassabis is the CEO of Google DeepMind and Nobel Prize winner for his groundbreaking work in protein structure prediction using AI.
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep475-sb
See below for timestamps,…
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/ep475-sb
See below for timestamps,…
👍4
https://stratechery.com/2025/paradigm-shifts-and-the-winners-curse/
这期蛮有意思,讨论 Apple 和 Amazon 在 AI 战略上的异同以及跟上一次 paradigm shift (desktop -> mobile) 时进行对比
这期蛮有意思,讨论 Apple 和 Amazon 在 AI 战略上的异同以及跟上一次 paradigm shift (desktop -> mobile) 时进行对比
Stratechery by Ben Thompson
Paradigm Shifts and the Winner’s Curse
When paradigms change, previous winners have the hardest time adjusting; that is why AI might be a challenge for Apple and Amazon
https://william-rous.itch.io/type-help
最近风很大的变格推理游戏,纯文字+暴风雪山庄模式,真的很好玩!
而且它正在由 The Roottrees are Dead 的团队重制成 https://store.steampowered.com/app/3641000/The_Incident_at_Galley_House/ 预计明年发布 🤩
最近风很大的变格推理游戏,纯文字+暴风雪山庄模式,真的很好玩!
而且它正在由 The Roottrees are Dead 的团队重制成 https://store.steampowered.com/app/3641000/The_Incident_at_Galley_House/ 预计明年发布 🤩
itch.io
Type Help by William Rous
The Unsolvable Mystery. Play in your browser
🤩3
Please open Telegram to view this post
VIEW IN TELEGRAM
Synthesist in the Shell — A blog by Linghao Zhang
Hotel California
十年,从一份十八美元的牛排,到一座未来主义的建筑。这里是硅谷,一座巨大的旅馆,我们都被同一种理想主义的火焰吸引而来,相信自己能优化一切。然而,当代码世界的黑白分明被现实生活的混沌复杂所取代,我才发现自己像个迟到的学生,刚刚开始补修关于生活的必修课。这是一趟在加州阳光下的回溯,一个关于被「旅馆」重塑的故事。欢迎光临,你随时可以结账,但你永远无法离开。
🔥8❤1🤔1
https://minusx.ai/blog/decoding-claude-code/
Claude Code 为什么这么好用?这篇文章总结了以下几点:
1. 保持架构简单:不使用 multi-agent,只有一个 main loop,最多只 branch 出一个 sub agent 来处理复杂问题,避免了多 agent 之间 context handoff 的复杂性和 failure pattern。
2. 教科书级别的 prompt / context engineering:这点直接读 Claude Code 的 system prompt 就可以体会。
3. 巧妙的工具设计:提供三类不同抽象层级的工具;另外很重要的一点就是不使用 RAG 而是让 agent 用 find 和 grep 等低层级的工具去直接阅读代码
4. 对于比较复杂的 task,直接在 prompt 里面把算法一步一步列出来并辅以例子;避免使用一大堆 Dos and Don'ts。
此外还有很多文章里没有单独拿出来作为一类的各种小 tricks,比如让 agent 显式地管理一个 todo list 并时不时地在 main loop 里面以 system reminder 的形式提醒自己当前的 todo 是什么。
Claude Code 为什么这么好用?这篇文章总结了以下几点:
1. 保持架构简单:不使用 multi-agent,只有一个 main loop,最多只 branch 出一个 sub agent 来处理复杂问题,避免了多 agent 之间 context handoff 的复杂性和 failure pattern。
2. 教科书级别的 prompt / context engineering:这点直接读 Claude Code 的 system prompt 就可以体会。
3. 巧妙的工具设计:提供三类不同抽象层级的工具;另外很重要的一点就是不使用 RAG 而是让 agent 用 find 和 grep 等低层级的工具去直接阅读代码
4. 对于比较复杂的 task,直接在 prompt 里面把算法一步一步列出来并辅以例子;避免使用一大堆 Dos and Don'ts。
此外还有很多文章里没有单独拿出来作为一类的各种小 tricks,比如让 agent 显式地管理一个 todo list 并时不时地在 main loop 里面以 system reminder 的形式提醒自己当前的 todo 是什么。
minusx.ai
What makes Claude Code so damn good (and how to recreate that magic in your agent)!?
Claude Code is the most delightful AI agent/workflow I have used so far. Not only does it make targeted edits or vibe coding throwaway tools less annoying, ...
👍10❤1
又一篇来自这个大神的深度好文:https://www.aleksagordic.com/blog/vllm
之前推荐过他解析 flash attention 的文章:https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
之前推荐过他解析 flash attention 的文章:https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
Aleksagordic
Inside vLLM: Anatomy of a High-Throughput LLM Inference System - Aleksa Gordić
From paged attention, continuous batching, prefix caching, specdec, etc. to multi-GPU, multi-node dynamic serving at scale.
❤1
Thinking Machines finally broke silence and published their first blog post: https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/ which was a great read 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
❤3
Thinking Machines 最近连珠炮般发布了一系列文章,都是高质量的好研究。令人感叹最优秀的团队往往能够溯其本源,从 first principle 出发对一个问题进行全面而又深度的挖掘。我在这里按自己的节奏发一点学习笔记。
首先是这篇关于 LoRA 的:https://thinkingmachines.ai/blog/lora/
一些有意思的结论:
- 在比较理想的条件下,LoRA 可以获得跟 full parameter fine tuning 同样的效果。这里的理想条件主要是训练数据包含的信息量不能超过 LoRA 参数的 capacity。
- LoRA apply 到所有 layer(尤其是 MLP)的效果要比只 apply 到 attention layer 要好。而且这一点甚至不是因为 apply 到所有层会自然导致总参数量变大。比如实验发现 rank 256 attention only 的 LoRA 表现依然不如 rank 128 MLP only,即使两者参数量差不多。
- LoRA 非常适合用来做 RL 训练,哪怕是最低的 rank 1 也能匹配 full parameter RL tuning 的效果。文章给出的解释是,从信息论的角度来说,一个基于 policy gradient 的 RL 训练算法,每步只从训练数据中“吸收”O(1) bits 的信息。所以这就不像 SFT 那样对 LoRA 参数总能够储存多少信息提出比较高的要求。
- LoRA tolerate 大 batch size 的能力更差。实验发现这个观察跟 rank 无关,所以猜测是跟 LoRA 本质有关,可能是因为两个低秩矩阵相乘这种形式相比于单独一个矩阵来说,optimization dynamics 更差一点。
文章后面还有一些关于 LoRA 调参的实验结论,就不赘述了。
P.S. 以 LoRA 问世之早、应用之广,现在才有这样的研究反而是令我惊讶的……
首先是这篇关于 LoRA 的:https://thinkingmachines.ai/blog/lora/
一些有意思的结论:
- 在比较理想的条件下,LoRA 可以获得跟 full parameter fine tuning 同样的效果。这里的理想条件主要是训练数据包含的信息量不能超过 LoRA 参数的 capacity。
- LoRA apply 到所有 layer(尤其是 MLP)的效果要比只 apply 到 attention layer 要好。而且这一点甚至不是因为 apply 到所有层会自然导致总参数量变大。比如实验发现 rank 256 attention only 的 LoRA 表现依然不如 rank 128 MLP only,即使两者参数量差不多。
- LoRA 非常适合用来做 RL 训练,哪怕是最低的 rank 1 也能匹配 full parameter RL tuning 的效果。文章给出的解释是,从信息论的角度来说,一个基于 policy gradient 的 RL 训练算法,每步只从训练数据中“吸收”O(1) bits 的信息。所以这就不像 SFT 那样对 LoRA 参数总能够储存多少信息提出比较高的要求。
- LoRA tolerate 大 batch size 的能力更差。实验发现这个观察跟 rank 无关,所以猜测是跟 LoRA 本质有关,可能是因为两个低秩矩阵相乘这种形式相比于单独一个矩阵来说,optimization dynamics 更差一点。
文章后面还有一些关于 LoRA 调参的实验结论,就不赘述了。
P.S. 以 LoRA 问世之早、应用之广,现在才有这样的研究反而是令我惊讶的……
Thinking Machines Lab
LoRA Without Regret
How LoRA matches full training performance more broadly than expected.
👍6❤1
https://gregorygundersen.com/blog/2025/10/01/large-language-models/
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
Gregorygundersen
A History of Large Language Models
❤7
https://www.imdb.com/title/tt32376165/
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
IMDb
A House of Dynamite (2025) ⭐ 6.8 | Drama, Thriller
1h 52m | R
❤2