又一篇来自这个大神的深度好文:https://www.aleksagordic.com/blog/vllm
之前推荐过他解析 flash attention 的文章:https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
之前推荐过他解析 flash attention 的文章:https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
Aleksagordic
Inside vLLM: Anatomy of a High-Throughput LLM Inference System - Aleksa Gordić
From paged attention, continuous batching, prefix caching, specdec, etc. to multi-GPU, multi-node dynamic serving at scale.
❤1
Thinking Machines finally broke silence and published their first blog post: https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/ which was a great read 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
❤3
Thinking Machines 最近连珠炮般发布了一系列文章,都是高质量的好研究。令人感叹最优秀的团队往往能够溯其本源,从 first principle 出发对一个问题进行全面而又深度的挖掘。我在这里按自己的节奏发一点学习笔记。
首先是这篇关于 LoRA 的:https://thinkingmachines.ai/blog/lora/
一些有意思的结论:
- 在比较理想的条件下,LoRA 可以获得跟 full parameter fine tuning 同样的效果。这里的理想条件主要是训练数据包含的信息量不能超过 LoRA 参数的 capacity。
- LoRA apply 到所有 layer(尤其是 MLP)的效果要比只 apply 到 attention layer 要好。而且这一点甚至不是因为 apply 到所有层会自然导致总参数量变大。比如实验发现 rank 256 attention only 的 LoRA 表现依然不如 rank 128 MLP only,即使两者参数量差不多。
- LoRA 非常适合用来做 RL 训练,哪怕是最低的 rank 1 也能匹配 full parameter RL tuning 的效果。文章给出的解释是,从信息论的角度来说,一个基于 policy gradient 的 RL 训练算法,每步只从训练数据中“吸收”O(1) bits 的信息。所以这就不像 SFT 那样对 LoRA 参数总能够储存多少信息提出比较高的要求。
- LoRA tolerate 大 batch size 的能力更差。实验发现这个观察跟 rank 无关,所以猜测是跟 LoRA 本质有关,可能是因为两个低秩矩阵相乘这种形式相比于单独一个矩阵来说,optimization dynamics 更差一点。
文章后面还有一些关于 LoRA 调参的实验结论,就不赘述了。
P.S. 以 LoRA 问世之早、应用之广,现在才有这样的研究反而是令我惊讶的……
首先是这篇关于 LoRA 的:https://thinkingmachines.ai/blog/lora/
一些有意思的结论:
- 在比较理想的条件下,LoRA 可以获得跟 full parameter fine tuning 同样的效果。这里的理想条件主要是训练数据包含的信息量不能超过 LoRA 参数的 capacity。
- LoRA apply 到所有 layer(尤其是 MLP)的效果要比只 apply 到 attention layer 要好。而且这一点甚至不是因为 apply 到所有层会自然导致总参数量变大。比如实验发现 rank 256 attention only 的 LoRA 表现依然不如 rank 128 MLP only,即使两者参数量差不多。
- LoRA 非常适合用来做 RL 训练,哪怕是最低的 rank 1 也能匹配 full parameter RL tuning 的效果。文章给出的解释是,从信息论的角度来说,一个基于 policy gradient 的 RL 训练算法,每步只从训练数据中“吸收”O(1) bits 的信息。所以这就不像 SFT 那样对 LoRA 参数总能够储存多少信息提出比较高的要求。
- LoRA tolerate 大 batch size 的能力更差。实验发现这个观察跟 rank 无关,所以猜测是跟 LoRA 本质有关,可能是因为两个低秩矩阵相乘这种形式相比于单独一个矩阵来说,optimization dynamics 更差一点。
文章后面还有一些关于 LoRA 调参的实验结论,就不赘述了。
P.S. 以 LoRA 问世之早、应用之广,现在才有这样的研究反而是令我惊讶的……
Thinking Machines Lab
LoRA Without Regret
How LoRA matches full training performance more broadly than expected.
👍7❤1
https://gregorygundersen.com/blog/2025/10/01/large-language-models/
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
Gregorygundersen
A History of Large Language Models
❤10
https://www.imdb.com/title/tt32376165/
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
IMDb
A House of Dynamite (2025) ⭐ 6.4 | Drama, Thriller
1h 52m | R
❤3
朋友 C 帮忙 vibe coding 重写了一下博客,抄了一下 Shu 的设计 😂 先发一篇短文试试水。
https://linghao.io/posts/ai-assisted-system-design-interview-prep
https://linghao.io/posts/ai-assisted-system-design-interview-prep
linghao.io
AI Assisted System Design Interview Prep - Linghao Zhang
Level up your system design interview prep using AI. Learn a simple method to turn LLMs into a personal coach for interactive practice and detailed feedback.
❤6
最近放了个长假,积压了很多东西没看,有些 fomo,尤其是 AI 领域这一天一个新进展…… 不过换个角度看,这样的好处在于时间能够帮你筛掉一些过了当下并不太值得看的东西 😄
之前我就称赞过 HuggingFace 团队发布的小模型训练分享既接轨最新进展又提供足够多细节,没想到这次他们更是直接发布了一篇预计阅读时间 2-4 天的模型训练全攻略。
虽说从开源模型百花齐放的结果来看我们已经知道模型训练没有太多 rocket science,但是这么完整和细节的分享还是令人惊叹👍
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
之前我就称赞过 HuggingFace 团队发布的小模型训练分享既接轨最新进展又提供足够多细节,没想到这次他们更是直接发布了一篇预计阅读时间 2-4 天的模型训练全攻略。
虽说从开源模型百花齐放的结果来看我们已经知道模型训练没有太多 rocket science,但是这么完整和细节的分享还是令人惊叹👍
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
huggingface.co
The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB
Read through "The Smol Training Playbook" to learn the secrets and best practices for building world-class Large Language Models. The playbook includes detailed insights and visualizations to guide...
🔥8❤1🐳1🗿1
https://store.steampowered.com/app/3255860/Hymer_2000/
两三个小时就能走完全流程;喜欢这个娓娓道来的叙事。
两三个小时就能走完全流程;喜欢这个娓娓道来的叙事。
Steampowered
Hymer 2000 on Steam
Hymer 2000 is an interactive text puzzle game, where players freely converse with the "Hymer" and use an open "Search" function to retrieve past conversations. By discovering keywords, gathering clues, and collecting "Faces", players uncover Hymer's secrets…
❤2
https://dosaygo-studio.github.io/hn-front-page-2035/news
最近看到最搞笑的 AI 笑话:让 Gemini 幻想 10 年以后的 HackerNews 首页长啥样
太典了,尤其是 Google kills Gemini 那一条😆
最近看到最搞笑的 AI 笑话:让 Gemini 幻想 10 年以后的 HackerNews 首页长啥样
太典了,尤其是 Google kills Gemini 那一条
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣5❤1🥰1🤩1🗿1
https://store.steampowered.com/app/3275880/Chronoquartz/
这个游戏有点像 Minit + Outer Wilds,完成度很高,作为小团队小体量游戏很令人惊喜。
这个游戏有点像 Minit + Outer Wilds,完成度很高,作为小团队小体量游戏很令人惊喜。
Steampowered
Chronoquartz on Steam
In Chronoquartz, every move matters! You have 10 turns per loop: explore, solve puzzles, and use your past knowledge to progress. Strategy, critical thinking, and time management will be your allies in this unique temporal adventure. Will you succeed in saving…
❤1