Parallel Experiments

每次通勤经过 Tottenham Court rd 地铁站，看到不同的表演，都会想着要有合适的工具来记录就好了。我的想象中不是录像，因为举起手机录像，对自己来说是一个很打断的体验，对对方来说则是有侵入性的。
很自然，给自己最近vibe的声音记录App加上了分享功能。终于，它解放了我的双手和双耳：打开App，记录声音，随手一拍，记录图像，然后全身心地享受此时此刻，最后一个链接分享给远方的朋友们。
App 仍在打磨中，stay tuned，不过欢迎点开听听，体验一下我今日3分钟的，生命中的盐。

https://yuho.io/s/T7eiDjAQ7r?token=048f0480ee68e892d9e7fedc4fd6e896d01697cf3bf1c780d8b44e8d6047f7d8

yuho.io

Don't Look Back in Anger @ Elizabeth st.🚇 — Yuho

3:22 · Tottenham Court Road · Feb 15, 2026

👏3❤1

792 viewsLinghao Zhang, 22:59

Parallel Experiments

https://linghao.io/posts/ai-memory-negative-space
关于 AI 记忆的一些思考：如何挖掘和利用用户没有说/没有做的事情？

linghao.io

The Negative Space of AI Memory

AI memory shouldn't just remember what you said—it needs to notice what you forgot to do. Discover how "Shadow Profiling" the negative space of user behavior can transform AI from a reactive tool into a proactive coach.

702 viewsLinghao Zhang, 03:32

Parallel Experiments

关于 OpenClaw 的一些想法：

1. OpenClaw 的成功自然有它的原因，vision 的完成度和 pmf 都是重要的因素。这波浪潮大概率也会写进 AI 发展的历史书。但不可否认它依然存在非常多的问题，这也反映了 agent 实用化的道路上还有很多挑战。

2. 主要问题包括默认配置下 token 消耗量过于巨大，安全性要画一个巨大的问号，容易陷入 config hell 等等。尤其在算力依然具有稀缺性的今天，token 消耗巨大意味着普通用户可能不愿意为这种性价比买单。

3. 能通过 telegram / whatsapp 等 IM 来跟 agent 交互是非常聪明的选择。我一直觉得 IM 是被严重低估的交互入口。

4. 模型能力依然是关键的，如果 base model 做不了最核心的任务，用 OpenClaw 这类 24/7 agent 只会大概率花了钱做不成事。今天的 agent 能力虽然已经很强，但一个 session 进行越久、context window 越长，产出质量还是会不可避免地下滑，哪怕有 compaction 支持。使用 OpenClaw 这类大量使用 token 的 agent 时要尤其小心陷入 garbage in garbage out 的陷阱。

5. 不过这里 tiered compute 就会有用，简单的 task 可以分发给更便宜的 model 甚至本地的开源小 model。

6. 如果愿意折腾，OpenClaw 的主要功能基本都可以通过 Claude Code 的生态来实现。

7. 短期内如果要自己部署类似的 24/7 agent，我比较偏好 https://github.com/qwibitai/nanoclaw 这样的 project：依托于最强的 model、成熟的 harness、良好的社区生态。

8. OpenClaw 背后的 agent harness 核心库值得学习：https://github.com/badlogic/pi-mono

9. 安全性来说，给 agent 完全独立的一套 credentials 而不让他用你个人的账号可能是更好的做法。

GitHub

GitHub - qwibitai/nanoclaw: A lightweight alternative to OpenClaw that runs in containers for security. Connects to WhatsApp, Telegram…

A lightweight alternative to OpenClaw that runs in containers for security. Connects to WhatsApp, Telegram, Slack, Discord, Gmail and other messaging apps,, has memory, scheduled jobs, and runs dir...

👍10🏆1

796 viewsLinghao Zhang, 19:52

Parallel Experiments

https://si.inc/posts/fdm1/

这个新的 computer use model 有点厉害，号称解决了两个难点：

1. 高质量的有监督视频数据是稀缺的，scale 上不去。

解决方案：先用少量有监督数据训练一个 inverse dynamics model（根据视频帧数据预测键鼠输入是什么），再用它去标注了 1100 万个小时的视频数据。

2. video encoder 效率不高，vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。

解决方案：注意到为 computer use model 所做的视频标注本就是 non causal 的（你得看到视频上打出字来才能知道键盘按了什么），于是基于 masked diffusion 架构去训练 video encoder，最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。

解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。

blog

The First Fully General Computer Action Model

We trained a model on our 11-million-hour video dataset. Our model can explore complex websites, complete multi-action CAD modeling sequences, and drive a car in the real world, all at 30 FPS.

560 viewsLinghao Zhang, 09:28

Parallel Experiments

🌟🌟🌟🌟🌟 一开始觉得是个很诡异的片子，但真的好看！
https://www.imdb.com/title/tt18382850/

IMDb

If I Had Legs I'd Kick You (2025) ⭐ 6.6 | Drama, Thriller

1h 53m | R

🤔3

554 viewsLinghao Zhang, 03:46

Parallel Experiments

掐指一算写博客十年了。第一篇文章是 learning how to learn 的课程笔记，发布于 2016 年 2 月 27 日。

世界变化得太快。十年前入门深度学习、手搓反向传播的时候，模型能生成一些不那么离谱的图片，感觉挺好玩的但也就那样。
一年前的这个时候，AI 界热度最高的新闻大概是 deepseek 证明了训练出一线模型不是御三家的专利。
而今天，agents 从 coding 开始降维打击所有的行业。Claude 永远的神。

赶着这个日子发一篇文章，记录一下我认为已经到来的拐点：我们已经踏入了一个生产一次性、高度专门化的软件等成本几乎为零的新时代。数据飞轮会越转越快，而最终极的个性化也已经在地平线上了。

https://linghao.io/posts/bespoke-flywheel

linghao.io

The Bespoke Flywheel

The era of The Bespoke Flywheel is here: agentic coding has pushed the cost of disposable, one-off software to zero. Stop settling for generic tools and start automating away niche friction to keep your focus entirely on high-signal thinking.

❤10

592 viewsLinghao Zhang, 05:54

Parallel Experiments

https://github.com/petergpt/bullshit-benchmark

这个 Bullshit Benchmark 挺好玩的，测试模型是否能够意识到人类提供的问题是无稽之谈。Claude 又屠榜了 🔥

GitHub

GitHub - petergpt/bullshit-benchmark: BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently…

BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev. - petergpt/bullshit-benchmark

849 viewsLinghao Zhang, 21:49

Parallel Experiments