Parallel Experiments
1.74K subscribers
64 photos
1 video
3 files
835 links
Stay informed. Stay authentic.

Welcome to the public part of my brain. Here I share curations and thoughts.

Created with ❤️ by @linghao.
Download Telegram
Forwarded from C’s Random Collection
每次通勤经过 Tottenham Court rd 地铁站,看到不同的表演,都会想着要有合适的工具来记录就好了。我的想象中不是录像,因为举起手机录像,对自己来说是一个很打断的体验,对对方来说则是有侵入性的。
很自然,给自己最近vibe的声音记录App加上了分享功能。终于,它解放了我的双手和双耳:打开App,记录声音,随手一拍,记录图像,然后全身心地享受此时此刻,最后一个链接分享给远方的朋友们。
App 仍在打磨中,stay tuned,不过欢迎点开听听,体验一下我今日3分钟的,生命中的盐。

https://yuho.io/s/T7eiDjAQ7r?token=048f0480ee68e892d9e7fedc4fd6e896d01697cf3bf1c780d8b44e8d6047f7d8
👏31
关于 OpenClaw 的一些想法:

1. OpenClaw 的成功自然有它的原因,vision 的完成度和 pmf 都是重要的因素。这波浪潮大概率也会写进 AI 发展的历史书。但不可否认它依然存在非常多的问题,这也反映了 agent 实用化的道路上还有很多挑战。

2. 主要问题包括默认配置下 token 消耗量过于巨大,安全性要画一个巨大的问号,容易陷入 config hell 等等。尤其在算力依然具有稀缺性的今天,token 消耗巨大意味着普通用户可能不愿意为这种性价比买单。

3. 能通过 telegram / whatsapp 等 IM 来跟 agent 交互是非常聪明的选择。我一直觉得 IM 是被严重低估的交互入口。

4. 模型能力依然是关键的,如果 base model 做不了最核心的任务,用 OpenClaw 这类 24/7 agent 只会大概率花了钱做不成事。今天的 agent 能力虽然已经很强,但一个 session 进行越久、context window 越长,产出质量还是会不可避免地下滑,哪怕有 compaction 支持。使用 OpenClaw 这类大量使用 token 的 agent 时要尤其小心陷入 garbage in garbage out 的陷阱。

5. 不过这里 tiered compute 就会有用,简单的 task 可以分发给更便宜的 model 甚至本地的开源小 model。

6. 如果愿意折腾,OpenClaw 的主要功能基本都可以通过 Claude Code 的生态来实现。

7. 短期内如果要自己部署类似的 24/7 agent,我比较偏好 https://github.com/qwibitai/nanoclaw 这样的 project:依托于最强的 model、成熟的 harness、良好的社区生态。

8. OpenClaw 背后的 agent harness 核心库值得学习:https://github.com/badlogic/pi-mono

9. 安全性来说,给 agent 完全独立的一套 credentials 而不让他用你个人的账号可能是更好的做法。
👍10🏆1
https://si.inc/posts/fdm1/

这个新的 computer use model 有点厉害,号称解决了两个难点:

1. 高质量的有监督视频数据是稀缺的,scale 上不去。

解决方案:先用少量有监督数据训练一个 inverse dynamics model(根据视频帧数据预测键鼠输入是什么),再用它去标注了 1100 万个小时的视频数据。

2. video encoder 效率不高,vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。

解决方案:注意到为 computer use model 所做的视频标注本就是 non causal 的(你得看到视频上打出字来才能知道键盘按了什么),于是基于 masked diffusion 架构去训练 video encoder,最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。

解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。
🌟🌟🌟🌟🌟 一开始觉得是个很诡异的片子,但真的好看!
https://www.imdb.com/title/tt18382850/
🤔3
掐指一算写博客十年了。第一篇文章是 learning how to learn 的课程笔记,发布于 2016 年 2 月 27 日。

世界变化得太快。十年前入门深度学习、手搓反向传播的时候,模型能生成一些不那么离谱的图片,感觉挺好玩的但也就那样。
一年前的这个时候,AI 界热度最高的新闻大概是 deepseek 证明了训练出一线模型不是御三家的专利。
而今天,agents 从 coding 开始降维打击所有的行业。Claude 永远的神。

赶着这个日子发一篇文章,记录一下我认为已经到来的拐点:我们已经踏入了一个生产一次性、高度专门化的软件等成本几乎为零的新时代。数据飞轮会越转越快,而最终极的个性化也已经在地平线上了。

https://linghao.io/posts/bespoke-flywheel
10