这几天围绕 DeepSeek 发生的种种非常有趣。我自己凑巧在去年年底 V3 刚发布时就开始关注,陆陆续续读了一些他们的 paper,在过去一个月内看着西方大部分非从业人士从漠不关心和怀疑到去了解和赞美;直到这两天 R1 发布,somehow 导致 NVDA 市值一天蒸发 $600 billion,这中间观察到许多不同的 perspective 和人性的体现,实在精彩。
喧嚣过后想分享几点 takeaway:
1. V3 和 R1 的 technical report 读起来最大的感受是,里面轻描淡写地放了很多需要大量实验才能探明和得出的结论;而这些探索基本都需要大量硬核的 research engineering。这背后必然是一个人才密度极高的团队,而那才是在大模型几乎注定迟早要成为 commodity 的前景下一个公司真正的 moat。如梁文锋自己在采访中所说,「在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。」
2. Gemini 初期灾难性的 PR 至今依然在拖后腿。We don't get a second chance at first impressions. 时至今日大家还是言及 LLM 必提 ChatGPT 和 Claude,在开源语境下可能还会提到 Llama,当然现在得多个 DeepSeek。而 Gemini 很多时候甚至都不配出现在比较对象中…… 要知道最近几个发布比如 Gemini 2.0 Flash Thinking 的表现和成本都非常亮眼(见题图,出处 https://x.com/swyx/status/1882933368444309723)。
3. Stratechery 的解读一如既往地到位。如果没有订阅,这篇 [DeepSeek FAQ](https://stratechery.com/2025/deepseek-faq/) 是免费阅读的,推荐;如果订阅了,最近的几篇分析里对 OpenAI 的批评我认为说得很在点上。尤其关于 OpenAI (或者说 Sam 本人)对通过 regulation 巩固地位的渴望以及 o1 选择隐藏 chain of thought 的失误。
4. Reasoning 看起来潜力无限,相关从业者需要好好 reflect 自己的 research/product roadmap;而对 user 来说,一个或许有用的 tip 是从常规 model 换到 reasoning model 时,prompt 写得越像论文,得到的回答质量越好。In other words, reasoning models are not necessarily good chat models; and you might be disappointed if you use them like chat models.
Disclaimer: I work at Google and opinions are my own. #llm
喧嚣过后想分享几点 takeaway:
1. V3 和 R1 的 technical report 读起来最大的感受是,里面轻描淡写地放了很多需要大量实验才能探明和得出的结论;而这些探索基本都需要大量硬核的 research engineering。这背后必然是一个人才密度极高的团队,而那才是在大模型几乎注定迟早要成为 commodity 的前景下一个公司真正的 moat。如梁文锋自己在采访中所说,「在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。」
2. Gemini 初期灾难性的 PR 至今依然在拖后腿。We don't get a second chance at first impressions. 时至今日大家还是言及 LLM 必提 ChatGPT 和 Claude,在开源语境下可能还会提到 Llama,当然现在得多个 DeepSeek。而 Gemini 很多时候甚至都不配出现在比较对象中…… 要知道最近几个发布比如 Gemini 2.0 Flash Thinking 的表现和成本都非常亮眼(见题图,出处 https://x.com/swyx/status/1882933368444309723)。
3. Stratechery 的解读一如既往地到位。如果没有订阅,这篇 [DeepSeek FAQ](https://stratechery.com/2025/deepseek-faq/) 是免费阅读的,推荐;如果订阅了,最近的几篇分析里对 OpenAI 的批评我认为说得很在点上。尤其关于 OpenAI (或者说 Sam 本人)对通过 regulation 巩固地位的渴望以及 o1 选择隐藏 chain of thought 的失误。
4. Reasoning 看起来潜力无限,相关从业者需要好好 reflect 自己的 research/product roadmap;而对 user 来说,一个或许有用的 tip 是从常规 model 换到 reasoning model 时,prompt 写得越像论文,得到的回答质量越好。In other words, reasoning models are not necessarily good chat models; and you might be disappointed if you use them like chat models.
Disclaimer: I work at Google and opinions are my own. #llm
How many of you don't understand Chinese and only follow this channel for English content?
Anonymous Poll
6%
Yes, I can only read English.
94%
No, I can read Chinese.
https://jax-ml.github.io/scaling-book/
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
jax-ml.github.io
How To Scale Your Model
Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models on TPUs: how TPUs work and how they communicate with each other, how…
用两天在路上开车的时间听完了 Latent Space 这期跟传奇 Bret Taylor 一个半小时的访谈,收获颇多! #podcast #ai
https://www.latent.space/p/bret
https://www.latent.space/p/bret
www.latent.space
The AI Architect — Bret Taylor
The legendary CEO of Sierra, Chairman of OpenAI, and creator of Google Maps/Facebook Likes on the future of Software Engineering, and building great products and teams at the break of the dawn of AGI.
Parallel Experiments
https://jax-ml.github.io/scaling-book/ 非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏 #llm
https://huggingface.co/spaces/nanotron/ultrascale-playbook
Hugging Face 发布了 Scaling LLM Training on GPU 的 playbook,应该会比 DeepMind 那本侧重 TPU 的 scaling book 更普适一些。 #llm
Hugging Face 发布了 Scaling LLM Training on GPU 的 playbook,应该会比 DeepMind 那本侧重 TPU 的 scaling book 更普适一些。 #llm
huggingface.co
The Ultra-Scale Playbook - a Hugging Face Space by nanotron
The ultimate guide to training LLM on large GPU Clusters
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Anyma - Hypnotized (feat. Ellie Goulding) [Live from Sphere Las Vegas]
Ellie Goulding and Anyma perform “Hypnotized” live from Sphere Las Vegas.
Listen to “Hypnotized (feat. Ellie Goulding)” now: https://anyma-ellie.lnk.to/hypnotized
Follow Ellie:
Instagram: https://www.instagram.com/elliegoulding
TikTok: https://www.ti…
Listen to “Hypnotized (feat. Ellie Goulding)” now: https://anyma-ellie.lnk.to/hypnotized
Follow Ellie:
Instagram: https://www.instagram.com/elliegoulding
TikTok: https://www.ti…
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
去 Netflix campus 听了个 ClickHouse 的 meetup,他们 CTO 为了 showcase,拿 ADS-B 数据做了一个炫酷的航天器轨迹可视化网站。细节很多,包括有意思的 pattern 以及实现细节,值得一看。
https://github.com/ClickHouse/adsb.exposed
https://github.com/ClickHouse/adsb.exposed
GitHub
GitHub - ClickHouse/adsb.exposed: Interactive visualization and analytics on ADS-B data with ClickHouse
Interactive visualization and analytics on ADS-B data with ClickHouse - ClickHouse/adsb.exposed
Please open Telegram to view this post
VIEW IN TELEGRAM
Pretty entertaining classical murder mystery set in the White House
https://www.imdb.com/title/tt8740614/
https://www.imdb.com/title/tt8740614/
IMDb
The Residence (TV Mini Series 2025) ⭐ 7.8 | Comedy, Crime, Drama
50m | TV-MA
https://store.steampowered.com/app/2394650/Crypt_Custodian/
🎮 Yet another metroidvania. 手感蛮好的而且游戏很可爱。 #game
🎮 Yet another metroidvania. 手感蛮好的而且游戏很可爱。 #game
Steampowered
Crypt Custodian on Steam
Crypt Custodian is a charming metroidvania about cleaning up the afterlife. Play as Pluto - a mischievous cat who has died, and is sentenced to be the afterworld's janitor... FOREVER! Hang out with other doomed ghosts, battle beasts, and explore a vastly…
Please open Telegram to view this post
VIEW IN TELEGRAM
A easy-to-follow intro to Zero Knowledge Proof: https://youtu.be/Otvcbw6k4eo
YouTube
I can prove I’ve solved this Sudoku without revealing it
Support us on Patreon: http://patreon.com/polylog
I can convince you that I’ve solved a sudoku without giving you any information about my solution. We discuss how to do this using what cryptographers call a zero-knowledge proof, and how the same tricks…
I can convince you that I’ve solved a sudoku without giving you any information about my solution. We discuss how to do this using what cryptographers call a zero-knowledge proof, and how the same tricks…
Forwarded from C’s Random Collection
https://ai-2027.com “We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.” 不管怎样,这个页面的 interaction 很棒 #ai
Ai-2027
AI 2027
A research-backed AI scenario forecast.
发现一个非常好用的 Obsidian 插件:https://github.com/RyotaUshio/obsidian-pdf-plus
通过 backlink 实现不出 Obsidian 就能给 PDF 做标注和笔记,并且笔记还可以分散在多个文件中,设计得相当 Obsidian native。
#obsidian
通过 backlink 实现不出 Obsidian 就能给 PDF 做标注和笔记,并且笔记还可以分散在多个文件中,设计得相当 Obsidian native。
#obsidian