https://gregorygundersen.com/blog/2025/10/01/large-language-models/
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
预感这篇会是 LLM Researcher 必读:作者把跨越数十年的语言模型研究梳理成了一条清晰的时间线,讲述我们是怎么一步一步得到今天的 transformer based LLM 的。文章的思路非常 from first principles,并且用前后一致的符号串起了 N 篇不同的论文的要点。
非常喜欢文尾的一段话:
> If you feel that it’s a bit perverse that next-word prediction is a sufficient objective to solve elite math problems, if this feels like a stochastic parrot outsmarting you, then you might feel some of the discomfort early linguists felt at statistical language modeling. This is the visceral feeling of the bitter lesson. Our specialized knowledge feels expendable and our intuitions about understanding seem irrelevant in the face of raw computation and speed.
Gregorygundersen
A History of Large Language Models
❤10
https://www.imdb.com/title/tt32376165/
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
第一时间看了拆弹部队导演 Kathryn Bigelow 的新片 A House of Dynamite。不打算剧透所以在这里不说太多,但可以简单评价一下:
这可能是迄今对于美国现代核威慑和核反击预案最充满戏剧冲突、用了最多篇幅去描绘的荧幕呈现。在这之前可能是 Madam Secretary S04E22 Night Watch 那一集。
这个片子更像是一种陈列和观点表达,所以故事性上可能不如像是我个人心目中核战片 Top 1 的 The Sum of All Fears,但那毕竟已经是 20 多年前的片子了,视觉上有些脱节了。
总的来说非常值得一看,个人觉得片子最大的几个亮点我这里都刻意没有提到。
IMDb
A House of Dynamite (2025) ⭐ 6.4 | Drama, Thriller
1h 52m | R
❤3
朋友 C 帮忙 vibe coding 重写了一下博客,抄了一下 Shu 的设计 😂 先发一篇短文试试水。
https://linghao.io/posts/ai-assisted-system-design-interview-prep
https://linghao.io/posts/ai-assisted-system-design-interview-prep
linghao.io
AI Assisted System Design Interview Prep - Linghao Zhang
Level up your system design interview prep using AI. Learn a simple method to turn LLMs into a personal coach for interactive practice and detailed feedback.
❤6
最近放了个长假,积压了很多东西没看,有些 fomo,尤其是 AI 领域这一天一个新进展…… 不过换个角度看,这样的好处在于时间能够帮你筛掉一些过了当下并不太值得看的东西 😄
之前我就称赞过 HuggingFace 团队发布的小模型训练分享既接轨最新进展又提供足够多细节,没想到这次他们更是直接发布了一篇预计阅读时间 2-4 天的模型训练全攻略。
虽说从开源模型百花齐放的结果来看我们已经知道模型训练没有太多 rocket science,但是这么完整和细节的分享还是令人惊叹👍
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
之前我就称赞过 HuggingFace 团队发布的小模型训练分享既接轨最新进展又提供足够多细节,没想到这次他们更是直接发布了一篇预计阅读时间 2-4 天的模型训练全攻略。
虽说从开源模型百花齐放的结果来看我们已经知道模型训练没有太多 rocket science,但是这么完整和细节的分享还是令人惊叹👍
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
huggingface.co
The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB
Read through "The Smol Training Playbook" to learn the secrets and best practices for building world-class Large Language Models. The playbook includes detailed insights and visualizations to guide...
🔥8❤1🐳1🗿1
https://store.steampowered.com/app/3255860/Hymer_2000/
两三个小时就能走完全流程;喜欢这个娓娓道来的叙事。
两三个小时就能走完全流程;喜欢这个娓娓道来的叙事。
Steampowered
Hymer 2000 on Steam
Hymer 2000 is an interactive text puzzle game, where players freely converse with the "Hymer" and use an open "Search" function to retrieve past conversations. By discovering keywords, gathering clues, and collecting "Faces", players uncover Hymer's secrets…
❤2
https://dosaygo-studio.github.io/hn-front-page-2035/news
最近看到最搞笑的 AI 笑话:让 Gemini 幻想 10 年以后的 HackerNews 首页长啥样
太典了,尤其是 Google kills Gemini 那一条😆
最近看到最搞笑的 AI 笑话:让 Gemini 幻想 10 年以后的 HackerNews 首页长啥样
太典了,尤其是 Google kills Gemini 那一条
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣5❤1🥰1🤩1🗿1