Parallel Experiments
1.75K subscribers
65 photos
1 video
3 files
838 links
Stay informed. Stay authentic.

Welcome to the public part of my brain. Here I share curations and thoughts.

Created with ❤️ by @linghao.
Download Telegram
https://laike9m.com/blog/avoid-mini-frameworks,171/

laike9m 这篇文章特别准确地指出了大公司 promo driven 的工程文化经常导致的一种病态。我深有共鸣,而且想补充一点:很多工程师在造这些 mini framework 轮子的时候同时也违反了不要 premature optimization 的准则。我在 Google 7 年,好几次看到有人试图做一个非常 generic 的系统,但他们最初却只能 onboard 个位数的用户。这种尝试基本上每次都以失败告终,因为你很难在没有太多有代表性的用户的参与的前提下设计和搭建有着足够好抽象的系统。而那些过早的抽象和优化只会妨碍最初那批用户的 onboarding。
👍6🥰1
新年快乐!感谢关注🙏
👏11
A few days late but I'm so proud to share what I've been working on for the past 3 months with an amazing team: Gemini Personal Intelligence 🚀
https://blog.google/innovation-and-ai/products/gemini-app/personal-intelligence/

You can now connect Gemini with other beloved Google products (starting with Search, YouTube, Photos, Gmail and other Workspace tools) in one click. Combined with retrieval of past conversations, Gemini is able to intelligently fetch relevant context and provide deeply personalized responses. And all of this is built with privacy and user control in mind.

This is one of the first steps toward a universal assistant that is personal, proactive and powerful. No doubt there will be some issues, but even in the early days of developing the MVP we've had so many users experience a wow moment when Gemini really "gets" them with a great personalized response.

Personal context is messy and mistakes are unavoidable. My focus has been about memory and correctability -- making sure that users can course correct when that happens. It's been a very challenging but interesting problem space with many open questions. I feel very lucky to have the opportunity to work on frontier applications at a company that is truly battle ready at the every layer of the AI stack.

Any feedback is highly appreciated as we continue to perfect the feature and envision the future!
🔥18👍2
https://github.com/dnc1994/post_summarizer_bot

总是有数不清的文章想读,于是让 gemini vibe code 了一个 telegram bot 自动总结存起来的 link,从立项到完成所有基本功能就花了半小时

之后有时间会试图做个 eval set 用来调 prompt
🔥5
Forwarded from C’s Random Collection
每次通勤经过 Tottenham Court rd 地铁站,看到不同的表演,都会想着要有合适的工具来记录就好了。我的想象中不是录像,因为举起手机录像,对自己来说是一个很打断的体验,对对方来说则是有侵入性的。
很自然,给自己最近vibe的声音记录App加上了分享功能。终于,它解放了我的双手和双耳:打开App,记录声音,随手一拍,记录图像,然后全身心地享受此时此刻,最后一个链接分享给远方的朋友们。
App 仍在打磨中,stay tuned,不过欢迎点开听听,体验一下我今日3分钟的,生命中的盐。

https://yuho.io/s/T7eiDjAQ7r?token=048f0480ee68e892d9e7fedc4fd6e896d01697cf3bf1c780d8b44e8d6047f7d8
👏31
关于 OpenClaw 的一些想法:

1. OpenClaw 的成功自然有它的原因,vision 的完成度和 pmf 都是重要的因素。这波浪潮大概率也会写进 AI 发展的历史书。但不可否认它依然存在非常多的问题,这也反映了 agent 实用化的道路上还有很多挑战。

2. 主要问题包括默认配置下 token 消耗量过于巨大,安全性要画一个巨大的问号,容易陷入 config hell 等等。尤其在算力依然具有稀缺性的今天,token 消耗巨大意味着普通用户可能不愿意为这种性价比买单。

3. 能通过 telegram / whatsapp 等 IM 来跟 agent 交互是非常聪明的选择。我一直觉得 IM 是被严重低估的交互入口。

4. 模型能力依然是关键的,如果 base model 做不了最核心的任务,用 OpenClaw 这类 24/7 agent 只会大概率花了钱做不成事。今天的 agent 能力虽然已经很强,但一个 session 进行越久、context window 越长,产出质量还是会不可避免地下滑,哪怕有 compaction 支持。使用 OpenClaw 这类大量使用 token 的 agent 时要尤其小心陷入 garbage in garbage out 的陷阱。

5. 不过这里 tiered compute 就会有用,简单的 task 可以分发给更便宜的 model 甚至本地的开源小 model。

6. 如果愿意折腾,OpenClaw 的主要功能基本都可以通过 Claude Code 的生态来实现。

7. 短期内如果要自己部署类似的 24/7 agent,我比较偏好 https://github.com/qwibitai/nanoclaw 这样的 project:依托于最强的 model、成熟的 harness、良好的社区生态。

8. OpenClaw 背后的 agent harness 核心库值得学习:https://github.com/badlogic/pi-mono

9. 安全性来说,给 agent 完全独立的一套 credentials 而不让他用你个人的账号可能是更好的做法。
👍10🏆1
https://si.inc/posts/fdm1/

这个新的 computer use model 有点厉害,号称解决了两个难点:

1. 高质量的有监督视频数据是稀缺的,scale 上不去。

解决方案:先用少量有监督数据训练一个 inverse dynamics model(根据视频帧数据预测键鼠输入是什么),再用它去标注了 1100 万个小时的视频数据。

2. video encoder 效率不高,vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。

解决方案:注意到为 computer use model 所做的视频标注本就是 non causal 的(你得看到视频上打出字来才能知道键盘按了什么),于是基于 masked diffusion 架构去训练 video encoder,最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。

解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。
🌟🌟🌟🌟🌟 一开始觉得是个很诡异的片子,但真的好看!
https://www.imdb.com/title/tt18382850/
🤔3
掐指一算写博客十年了。第一篇文章是 learning how to learn 的课程笔记,发布于 2016 年 2 月 27 日。

世界变化得太快。十年前入门深度学习、手搓反向传播的时候,模型能生成一些不那么离谱的图片,感觉挺好玩的但也就那样。
一年前的这个时候,AI 界热度最高的新闻大概是 deepseek 证明了训练出一线模型不是御三家的专利。
而今天,agents 从 coding 开始降维打击所有的行业。Claude 永远的神。

赶着这个日子发一篇文章,记录一下我认为已经到来的拐点:我们已经踏入了一个生产一次性、高度专门化的软件等成本几乎为零的新时代。数据飞轮会越转越快,而最终极的个性化也已经在地平线上了。

https://linghao.io/posts/bespoke-flywheel
11
其实纯个人使用的话 memory 系统不需要很复杂。非常认同这篇文章的大道至简:https://x.com/koylanai/status/2025286163641118915

每次跟 AI 开新对话都要重新介绍自己、粘贴风格指南、解释目标,作者烦了,于是造了个"Personal Brain OS"。

系统本质是一个 Git 仓库,80+ 个 Markdown/YAML/JSONL 文件,不用数据库也不用 API Key。在任何地方只要把仓库拉下来,直接用 Cursor 或 Claude Code 打开就能跑。

架构上分成 11 个隔离模块,用三级渐进加载:第一级是路由文件,决定该加载哪个模块;第二级是模块指令;第三级才是具体数据。这样做是为了避免无关内容占用上下文窗口,模型注意力是有限的,塞太多反而变差。

文件格式也是刻意设计的。JSONL 存日志,因为它只能追加不能覆写,防止 agent 一不小心把历史数据全干掉(他真的因为这个丢过三个月数据);YAML 存配置;Markdown 写内容。

Skill 系统分两种:一种是参考性的(比如写作风格、禁用词),自动加载,不用手动触发;另一种是任务型的(比如 /write-blog),必须手动敲命令,一条命令会自动把声音指南、禁用词、模板全部组装好。

踩过的坑:Schema 字段别超过 10 个,字段太多 agent 会乱填;像个人风格指南这种最重要的规则一定要放在最开头,放中间会被模型忘掉;模块边界划错了会多加载没用的 token,他把 identity 和 brand 拆开之后节省了 40%。

最后结论就是,关键不在于怎么写提示词,而在于怎么设计信息架构,让模型打开对话就知道你是谁、怎么写作、在做什么。
3
https://github.com/dnc1994/jarvis

我最近也做了相关的实践,目前 scope 比上面这位要小得多,只负责管理三类 todo:ad hoc、recurring、project based。一个需求是它会基于 obsidian,因为我本来就是重度用户。

配合 *claw,现在不管走到哪,在 telegram 里就可以按照符合自己设想的信息架构的方式去管理 todo

我甚至感觉开源也没什么意义,agents 的厉害之处就在于每个人都可以高度定制自己用的方案。