一年一度用豆坟备份豆瓣数据的时候发现一个 bug 导致备份书影音时遇到被封禁的条目会导致无法备份任何之后的条目。本地简单加了两行 skip 修好了,也不知道开发者还有没有空看 PR…
https://github.com/doufen-org/tofu/pull/101
https://github.com/doufen-org/tofu/pull/101
GitHub
Skip malformed interests (presumbly due to banned entries) by dnc1994 · Pull Request #101 · doufen-org/tofu
修复备份影/音/书/游/剧时遇到空 json 对象(应该是被封禁的条目)会导致整个备份失败的问题 #98 #99 #100
已本地测试可行
已本地测试可行
朋友在加拿大业余学 Private Pilot License 的干货分享和心路历程
https://blog.ye11ow.me/posts/ppl_retro/
https://blog.ye11ow.me/posts/ppl_retro/
blog.ye11ow.me
PPL: 回顾总结 - ye11ow
全文约10000字,阅读时间~15分钟
目录
学习成本 时间 金钱 精力 收获 我是一位飞行员 莫名其妙平时用不上的知识 做成一件困难的事情 大家常爱问的问题 你是怎么想到去学这个的? 你可以载我飞到西雅图/多伦多/上海吗 开/坐飞机危险吗? 如果我也想学(for fun),有什么建议呢 What’s next? 从2021年5月15号第一节课,到2023年6月23号通过最后考试,中间一共经历了2年1个月零7天。本来是想考完趁热乎写一篇总结,结果你懂的,一拖就到现在。不管怎么样,better…
目录
学习成本 时间 金钱 精力 收获 我是一位飞行员 莫名其妙平时用不上的知识 做成一件困难的事情 大家常爱问的问题 你是怎么想到去学这个的? 你可以载我飞到西雅图/多伦多/上海吗 开/坐飞机危险吗? 如果我也想学(for fun),有什么建议呢 What’s next? 从2021年5月15号第一节课,到2023年6月23号通过最后考试,中间一共经历了2年1个月零7天。本来是想考完趁热乎写一篇总结,结果你懂的,一拖就到现在。不管怎么样,better…
https://www.anthropic.com/research/building-effective-agents
非常欣赏 Anthropic 的技术分享风格,实事求是不 hype。这篇关于 agents 的文章上来就明确定义区分了 workflow 和 agents,并且推荐 1) 能用简单 workflow 解决的就不要上 agents;2) 没有必要上来就用 LangChain 之类的 agents framework,因为核心逻辑其实不复杂,很多 wrapper 反而隐藏太多细节阻碍开发和调试。我之前做了几个月 agents 相关的工作,也非常认同这两点。文中总结的几类常见 workflow 也非常典型,并且解释得很简明扼要。
#llm
非常欣赏 Anthropic 的技术分享风格,实事求是不 hype。这篇关于 agents 的文章上来就明确定义区分了 workflow 和 agents,并且推荐 1) 能用简单 workflow 解决的就不要上 agents;2) 没有必要上来就用 LangChain 之类的 agents framework,因为核心逻辑其实不复杂,很多 wrapper 反而隐藏太多细节阻碍开发和调试。我之前做了几个月 agents 相关的工作,也非常认同这两点。文中总结的几类常见 workflow 也非常典型,并且解释得很简明扼要。
#llm
Anthropic
Building effective agents
A post for developers with advice and workflows for building effective AI agents
The best explanation of Flash Attention I’ve read. #llm
https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad
Medium
ELI5: FlashAttention
Step by step explanation of how one of the most important MLSys breakthroughs work — in gory detail.
https://gmtk.substack.com/p/the-most-innovative-games-of-2024 #年货 #game
列表上的大半已经在别处被推荐多次了。mark 了几个第一次看到的:
https://store.steampowered.com/app/986130/Shadows_of_Doubt/
https://store.steampowered.com/app/1632490/Shashingo_Learn_Japanese_with_Photography/
https://store.steampowered.com/app/1425350/Botany_Manor/
列表上的大半已经在别处被推荐多次了。mark 了几个第一次看到的:
https://store.steampowered.com/app/986130/Shadows_of_Doubt/
https://store.steampowered.com/app/1632490/Shashingo_Learn_Japanese_with_Photography/
https://store.steampowered.com/app/1425350/Botany_Manor/
Substack
The most innovative games of 2024
Making up for lost videos
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Harder, Better, Faster, Stronger
Provided to YouTube by Daft Life Ltd./ADA France
Harder, Better, Faster, Stronger · Daft Punk
Discovery
℗ 2001 Daft Life Ltd.
Producer: Guy-Manuel de Homem-Cristo
Producer: Guy Manuel De Homem-Cristo
Producer: Guy-Manuel de Homem-Christo
All Instruments:…
Harder, Better, Faster, Stronger · Daft Punk
Discovery
℗ 2001 Daft Life Ltd.
Producer: Guy-Manuel de Homem-Cristo
Producer: Guy Manuel De Homem-Cristo
Producer: Guy-Manuel de Homem-Christo
All Instruments:…
这几天围绕 DeepSeek 发生的种种非常有趣。我自己凑巧在去年年底 V3 刚发布时就开始关注,陆陆续续读了一些他们的 paper,在过去一个月内看着西方大部分非从业人士从漠不关心和怀疑到去了解和赞美;直到这两天 R1 发布,somehow 导致 NVDA 市值一天蒸发 $600 billion,这中间观察到许多不同的 perspective 和人性的体现,实在精彩。
喧嚣过后想分享几点 takeaway:
1. V3 和 R1 的 technical report 读起来最大的感受是,里面轻描淡写地放了很多需要大量实验才能探明和得出的结论;而这些探索基本都需要大量硬核的 research engineering。这背后必然是一个人才密度极高的团队,而那才是在大模型几乎注定迟早要成为 commodity 的前景下一个公司真正的 moat。如梁文锋自己在采访中所说,「在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。」
2. Gemini 初期灾难性的 PR 至今依然在拖后腿。We don't get a second chance at first impressions. 时至今日大家还是言及 LLM 必提 ChatGPT 和 Claude,在开源语境下可能还会提到 Llama,当然现在得多个 DeepSeek。而 Gemini 很多时候甚至都不配出现在比较对象中…… 要知道最近几个发布比如 Gemini 2.0 Flash Thinking 的表现和成本都非常亮眼(见题图,出处 https://x.com/swyx/status/1882933368444309723)。
3. Stratechery 的解读一如既往地到位。如果没有订阅,这篇 [DeepSeek FAQ](https://stratechery.com/2025/deepseek-faq/) 是免费阅读的,推荐;如果订阅了,最近的几篇分析里对 OpenAI 的批评我认为说得很在点上。尤其关于 OpenAI (或者说 Sam 本人)对通过 regulation 巩固地位的渴望以及 o1 选择隐藏 chain of thought 的失误。
4. Reasoning 看起来潜力无限,相关从业者需要好好 reflect 自己的 research/product roadmap;而对 user 来说,一个或许有用的 tip 是从常规 model 换到 reasoning model 时,prompt 写得越像论文,得到的回答质量越好。In other words, reasoning models are not necessarily good chat models; and you might be disappointed if you use them like chat models.
Disclaimer: I work at Google and opinions are my own. #llm
喧嚣过后想分享几点 takeaway:
1. V3 和 R1 的 technical report 读起来最大的感受是,里面轻描淡写地放了很多需要大量实验才能探明和得出的结论;而这些探索基本都需要大量硬核的 research engineering。这背后必然是一个人才密度极高的团队,而那才是在大模型几乎注定迟早要成为 commodity 的前景下一个公司真正的 moat。如梁文锋自己在采访中所说,「在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。」
2. Gemini 初期灾难性的 PR 至今依然在拖后腿。We don't get a second chance at first impressions. 时至今日大家还是言及 LLM 必提 ChatGPT 和 Claude,在开源语境下可能还会提到 Llama,当然现在得多个 DeepSeek。而 Gemini 很多时候甚至都不配出现在比较对象中…… 要知道最近几个发布比如 Gemini 2.0 Flash Thinking 的表现和成本都非常亮眼(见题图,出处 https://x.com/swyx/status/1882933368444309723)。
3. Stratechery 的解读一如既往地到位。如果没有订阅,这篇 [DeepSeek FAQ](https://stratechery.com/2025/deepseek-faq/) 是免费阅读的,推荐;如果订阅了,最近的几篇分析里对 OpenAI 的批评我认为说得很在点上。尤其关于 OpenAI (或者说 Sam 本人)对通过 regulation 巩固地位的渴望以及 o1 选择隐藏 chain of thought 的失误。
4. Reasoning 看起来潜力无限,相关从业者需要好好 reflect 自己的 research/product roadmap;而对 user 来说,一个或许有用的 tip 是从常规 model 换到 reasoning model 时,prompt 写得越像论文,得到的回答质量越好。In other words, reasoning models are not necessarily good chat models; and you might be disappointed if you use them like chat models.
Disclaimer: I work at Google and opinions are my own. #llm
How many of you don't understand Chinese and only follow this channel for English content?
Anonymous Poll
7%
Yes, I can only read English.
93%
No, I can read Chinese.
https://jax-ml.github.io/scaling-book/
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
jax-ml.github.io
How To Scale Your Model
Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models on TPUs: how TPUs work and how they communicate with each other, how…
用两天在路上开车的时间听完了 Latent Space 这期跟传奇 Bret Taylor 一个半小时的访谈,收获颇多! #podcast #ai
https://www.latent.space/p/bret
https://www.latent.space/p/bret
www.latent.space
The AI Architect — Bret Taylor
The legendary CEO of Sierra, Chairman of OpenAI, and creator of Google Maps/Facebook Likes on the future of Software Engineering, and building great products and teams at the break of the dawn of AGI.
Parallel Experiments
https://jax-ml.github.io/scaling-book/ 非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏 #llm
https://huggingface.co/spaces/nanotron/ultrascale-playbook
Hugging Face 发布了 Scaling LLM Training on GPU 的 playbook,应该会比 DeepMind 那本侧重 TPU 的 scaling book 更普适一些。 #llm
Hugging Face 发布了 Scaling LLM Training on GPU 的 playbook,应该会比 DeepMind 那本侧重 TPU 的 scaling book 更普适一些。 #llm
huggingface.co
The Ultra-Scale Playbook - a Hugging Face Space by nanotron
The ultimate guide to training LLM on large GPU Clusters