Newlearnerの自留地

#AI #Photos #Tools #Web #GitHub情报

🧠 ChatIMG.AI：对比 GPT-4o 与 Gemini 模型的图像生成能力，从创意提示词中获取灵感

🔗：GitHub | Web

🎉 GPT-4o 的文生图功能一经推出，网上就出现了很多 meme 图，也不乏有人在闲鱼靠着为别人定制图片收费。而后，Google 推出 Gemini 2.5 Flash Image (Nano Banana)，又让这股照片热持续了一阵子

💡 今天介绍的项目是由国人开发者搭建的在线文生图模型生成照对比网站，你可以在其中发掘不同提示词带来的最终出图效果，更可以将两种模型使用同一种提示词的效果放在一起对比。希望你在使用的过程中能够发掘自己喜爱的、灵光一现的好图片

👀 此外，网站还提供了「一键文生图」功能，提供了多种模型、多种艺术风格以便选择。你还可以通过提示词，或者上传对应风格的图片，让网站分析并自动生成

📘 关联阅读：

1️⃣ Learn Prompting：教你如何与 AI 对话的开源免费教程
2️⃣ OpenPromptStudio：开源 AIGC 提示词可视化编辑器
3️⃣ Image To Prompt：上传图片，自动生成 Prompt

频道：@NewlearnerChannel

👍6❤3

5.58K views 初学者 | Newlearner365, edited 03:59

Newlearnerの自留地

#Reading #APP #AI

📩 接读者来稿，TA 向我们推荐了自己开发的 AI 有声书软件

🎧 Readify：让 AI 为每个人朗读世界

🔗：Web | App Store | Google Play

Readify 是一款完全免费的 AI 听书应用，让你轻松把任何电子书变成自然流畅的有声书。无论你在通勤、休息，还是想在夜晚闭眼聆听故事，Readify 都能让阅读变得更自由。

✨ 核心功能亮点

📖 多格式文件支持
兼容 TXT、PDF、EPUB、MOBI、AZW3、DOCX 等主流电子书格式，上传即可自动转换为可听内容。

🎙️ AI 音色库
内置 100+ 种高保真AI音色，支持 40+ 种语言。我们的AI语音拥有顶级自然效果，语气丰富、有温度，媲美真人朗读。

🔍 AI 搜书
支持站内智能搜书，只需挂梯子即可免费下载书籍。
不知道看什么？在搜索栏描述你的喜好类型，AI 会为你推荐合适的作品。

💬 AI 问答助手
听书不止于听。任何书中人物、概念或情节疑问，都能即时提问，让 AI 帮你更深度理解书籍。

其他功能
- 定时关闭：睡前听书不怕忘记关。
- 自定义书库布局：列表/宫格模式随心切换。
- 纯净体验：无任何广告打扰，只专注于阅读与聆听。

🌍 无障碍优化，为视障用户发声

Readify 正在持续推进应用无障碍优化。
我们的社群就聚集了超过 100名视障用户，根据他们的实际反馈进行定向改进。
目前，iOS 端的 VoiceOver 旁白模式已可完整使用包括听书、搜书在内的全部功能。
并且还在持续优化中
我们相信 —— 阅读的权利，不应被视觉所限制。

👏 100%免费使用，欢迎大家体验！

频道：@NewlearnerChannel

❤11

4.96K views 初学者 | Newlearner365, 09:59

Newlearnerの自留地

#App #AI #Broswers

🌐 ChatGPT Atlas 体验小记

AI 浏览器赛道竞争的火热。Google 的核心产品接二连三的遭到挑战，从搜索到浏览器。AI 正在重新定义用户的信息获取以及交互方式，重新塑造互联网入口的产品。OpenAI 几乎在所有流量入口都有积极的部署，Sora 类似抖音，ChatGPT Search 类似 Google，ChatGPT Atlas 类似 Chrome。

我把 Comet 设置为我的默认浏览器很久了，最近也是用上了 ChatGPT Atlas

✨ Features

- ChatGPT 聊天侧边栏，包含网页信息，浏览记录
- AI 操作浏览器
- 框中页面上的文字，在悬浮菜单栏中调用 ChatGPT，更新文字
- 默认 ChatGPT 搜索，支持搜索文字，图片，视频等
- 更细致的权限控制。 ChatGPT 是否拥有权限使用你在各个网站的登录信息

那和 Comet 相比功能差在哪里呢？

+ 更细节的权限控制
+ 悬浮栏调用 ChatGPT
+ 对于 ChatGPT 产品更多的集成，例如 Agens， Canvas，图片生成等功能
+ AI 点击页面元素的展现更加自然
- 自动选择模式

🫡

体验

AI 产品不能只看功能，更关键的是实际体验。以搜索功能为例，我觉得 ChatGPT 的结果更精炼，阅读负担更小。在搜索公司网站时，它会根据用户的职业兴趣呈现合适的公司，避免重名误判。而 Perplexity 在信息搜索上的精准度更高，比如查询公司招聘信息时，它能准确提供该公司的域名；相比之下，ChatGPT 有时会匹配到错误的公司。

对于网页操作，我觉得 Comet 的精准度更高和完成度更高。比如我让两个浏览器都给一个 TG 联系人发消息，Comet会在发送消息之前让我确认一下，点一下确认按钮他就会发送消息。Atlas 则直接在把消息填入聊天框之后就停了下来，等待下一步的指示。

除此之外 Comet 更加注重安全。AI 做一些重要操作时，它会提示用户进行确认。整个操作的透明度也更好。展示了 AI 整个的思考过程。

Comet 可以自动识别用户需要进行网页操作还是只是单纯的搜索问题。Atlas 目前还需要人手工选择模式。

Atlas 的页面操作大部分都倾向于放在前台，Comet 会在后台做这些任务，不打扰用户忙其他事情。但是保证透明度。用户可以随时查看打断。

🎬 场景

讲完这些功能和体验上的区别，到底什么任务是适合让 AI 帮我们去完成的呢？

对于操作步骤比较繁琐，使用频率比较高的流程非常适合使用 AI 进行用户。如今很多产品做的越来越复杂和臃肿，完成一件事情可能要点5-7下，这种就适合把它保存为一个 Prompt 然后进行重复使用。举几个例子

1. 自动填写表单

我有一个收集有意思产品的表单，类似收藏夹。每次看到有意思的我就会填写表单，并提交。提交后，预先设置的 n8n 流程会分析这个产品，获取关键信息，记录在 Notion 上。我把这个功能做成了一个 Skil。给出产品链接，AI 会自动帮我提交。省去了我人工寻找表单网址，复制黏贴，提交的功夫。

2. 更新 Notion 数据库

我有一些项目在 Notion 上追踪，更新项目进展我让 AI 帮我去做。人工做的话这通常意味着，打开 Notion，找到数据库，寻找到需要修改的那一行，更新对应的值。

3. 合并日历数据

我朋友用 AI 来把他多个日历合并

最后，
虽然厂商都在宣传 AI 操作浏览器的功能，但是用户大部分时候都想不到用它。还有很多使用场景值得探索。

频道：@NewlearnerChannel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🥱2

5.39K viewsglaze YP, 10:04

Newlearnerの自留地

#Chrome #Browsers #AI

📩 接读者来稿，TA 向我们介绍了自己开发的 Chrome 扩展插件工具

📻 Tubenote：基于 Gemini 的免费 YouTube 视频总结插件

🔗：Web

我做了一个 YouTube 总结插件，通过 Google Gemini AI 为任何 YouTube 视频生成即时、全面的智能摘要。只要你有 Gemini 账号，完全免费，无需 API 密钥。

💡 核心功能

✅ 自定义提示词，控制摘要风格和详细程度。
✅ 智能时间戳，直接跳转到视频相关部分。
✅ 无缝跳转到 Gemini，深入探讨视频主题。

🧑🏻‍💻 开发者的话

AI 爆发，让我变成了 vibe coder，它让我有个幻觉，很多产品自己也可以实现，但事实并非如此。现在的 AI 并不会逆向，我想让 AI 帮我实现参考某个插件来实现，但它并不会。但最近我琢磨出了如何让 AI 去参考某个插件，于是做了这个尝试。

上述 YouTube 总结插件，就是我利用 Claude Code 来实现的。缘起是我经常使用 Gemini 来帮我总结 Youtube 视频，所以我想如果可以像插件 Kimi Copilot 那样，直接在 Youtube 视频页面看到总结内容，只需要 Gemini 账号即可，那应该非常棒。

所以，我让 AI 学习来梳理插件 Kimi Copilot 的实现思路，然后放在了我这个 YouTube 总结插件上，效果很棒。

利用我插件里默认的提示词，你可以得到视频的完整总结，并且总结里还有时间点标记出内容，你可以点击时间点跳转到相应的视频内容上，也可以自定义提示词。

频道：@NewlearnerChannel

👍14❤5

4.79K views 初学者 | Newlearner365, edited 03:59

Newlearnerの自留地

#APPLE #AI #GitHub情报 #macOS

🧠 enableAppleAI：更适合中国宝宝的国行 Mac 开启 Apple Intelligence 方案

🔗：GitHub

👉 Features

- 适配最新系统
- 无需长期运行后台服务，也无需长期禁用 SIP，稳定性好
- 提供两种方案可选
- 一键脚本与详细中文文档

💡 原理

和之前绕过 Xcode LLM 地区限制一样，本次依旧从合规文件 eligibility_util 入手。关闭 SIP 后，我们就可以将做好的合规文件替换掉目前的，从而解锁在国内使用 Apple Intelligence 的限制

之所以称为「更适合中国宝宝」，是因为项目提供了非常详细的中文文档，还有对应的一键脚本，省去你的一切烦恼

👀 iOS 26.1 更新为 AirPods 翻译正式引入中文后，大家对如何开启 Apple Intelligence 又有了新的关注。在这个过程中，我发现之前介绍的项目已经好久没有更新，而 enableAppleAI 一直与时俱进，于是推荐给大家

📱 相比来讲，macOS 还是有着更高的自由度。国行 iPhone 用户至今依然没有很好的在 iOS 26 下开通 Apple Intelligence 的方法，而且外版 iPhone + 人在国内，在 iOS 26.1 之后也会开始检测并且禁用 ChatGPT 模块，解决方案可参考或使用 iRingo

📘 关联阅读：

1️⃣ Apple Intelligence · 初体验
2️⃣ 巧用两个开源项目，让你的国行 Mac 使用 Apple Intelligence
3️⃣ 巧用开源项目 misakaX，让你的国行 iPhone 使用 Apple Intelligence

频道：@NewlearnerChannel

👍16❤2

5.16K views 初学者 | Newlearner365, 09:59

Newlearnerの自留地

#APP #iOS #AI

🎧 Huxe：会「听你反馈」的 AI 个性化电台

🔗：Web | App Store

🌟 Features

- 全时段个性化音频流
- AI 生成“每日简报”
- 支持打断和追问
- 按需即时生成，解答具体问题

Huxe 是一款 AI 驱动的个性化音频应用，它旨在将用户关心的所有信息源——从社区新闻、股票投资组合到喜爱的球队——聚合成一个 7x24 小时不间断的“个人电台”或一份“每日简报”，其目标是取代用户清晨在不同应用间跳转“末日刷屏”的低效行为。

Huxe 的核心特性是其“双向互动性”，不只是单向播放，允许用户在收听过程中随时打断 AI，并提出具体要求，例如“换个方式解释”、“提供更多技术细节”或“我们换个话题”。此外，它还能将用户的任何即时好奇心如“我每天路过的这栋建筑的历史是什么？”快速生成一期“个人播客”来解答。

🤔 Huxe 展现了 AI 时代音频消费的一种新形态：从被动的“内容灌输”转变为主动的“信息交互”。Huxe 的野心是成为所有信息的个性化音频入口，将“收听”从一种线性体验变为可探索的非线性对话。这种“可打断、可追问”的模式是其最大的亮点。当然，其挑战也显而易见：AI 能否在 24/7 的直播中持续提供高信噪比的信息？当一切信息都被 AI 过滤并“喂到耳边”时，用户是会变得更高效，还是会陷入一个更难察觉的信息茧房？

频道：@NewlearnerChannel

👍7❤3

4.78K views𝐏𝐫𝐢𝐧𝐜𝐞𝐭𝐨𝐧, edited 04:01

Newlearnerの自留地

#AI #Blog

📮 《用 AI 写什么，不写什么》

公众号文章> 博文>

与 AI 的合作，哪些应该交给 AI，哪些必须自己完成。

🧰 让 AI 写方案
✦ 先自己厘清 20% 的关键判断，然后用 AI 补全 80% 的结构
✦ 分章节逐段迭代，让 AI 找逻辑漏洞而非直接生成
✦ 通过格式化、检查清单与沉淀机制构成飞轮效应
✦ Notion AI 是目前最佳协作载体，可调取个人积累与外部上下文

💻 让 AI 写代码
✦ AI 是「软件 3D 打印机」，帮助从不能到能
✦ 先定义方案，再拆解任务
✦ 个人站点、浏览器扩展、 Docker 服务、专属应用都能快速落地

✒️ 不让 AI 写博文
✦ 博文是思考本身，是与自己对话的过程
✦ 完美答案不重要，思考的纹理与差异性更珍贵
✦ 写作是 refined thinking，不是效率竞赛

频道：@NewlearnerChannel

👍24❤3

4.57K viewsJoe, 10:05

Newlearnerの自留地

#macOS #APP #AI

🔬️️️️️️

Haye: ChatGPT Desktop 替代品

✨ Features

- 系统级集成：通过 Command+E 快捷键在 macOS 任何界面调用，无需切换应用。
- 多模型聚合：在单一应用内集成并访问 GPT-5, Claude Sonnet 4.5 等多种大型语言模型。
- 多模型对比：支持同时调用最多三种不同模型，并并排比较其回答，便于评估不同模型的优劣。
- 与 App 协作：通过智能截屏自动捕获当前应用窗口的上下文，实现跨应用提问，无需手动复制粘贴。
- 文档与文件交互：支持与 PDF 及本地文件进行对话式交互，用于提取信息、总结内容。
- 图像识别与分析：可对屏幕截图、图片内容进行 OCR 文本提取、问题解答和视觉分析。
- 集成网络搜索：内置 AI 辅助的网页搜索功能，提供带有来源链接的实时信息，无需额外订阅。
- 高度可定制化：支持创建自定义风格和规则以控制 AI 回复的语气、格式和行为。
- API Key：用户可配置自己的 API 密钥以优化成本

⚙️ 机制

- 技术栈：应用基于 Electron 构建，通过混合开发模式集成 macOS 原生组件以优化体验，确保了在 Apple Silicon 和 Inte 架构上的兼容性。
- 隐私与数据：官方承诺不使用用户对话数据进行模型训练。为产品优化和 Bug 修复，会收集匿名的软件使用日志。

👨🏻‍💻 使用场景

- 写作与内容创作：在任意编辑器中直接调用 AI 进行文本润色、翻译、续写，减少工作流中断。
- 开发与技术工作：用于代码解释、文档生成和技术方案探讨。利用多模型对比功能评估不同模型在代码或逻辑推理上的表现。

💵 收费

- 定价模式：提供 $19.99 的一次性买断版本和 $4.99/月的订阅服务。

🙋‍♂️ 感想

之前我使用的大部分 AI 聊天软件更注重 Agent 。 Haye 更注重带来本地 AI 助手的体验，他的功能和 ChatGPT 桌面版相似，但添加了很多便利功能，例如了很多自定义快捷按钮。可以方便的对每个回答做修改，长一些或者短一些。要求 AI 按照特定规则回答，只要重点等等。

频道：@NewlearnerChannel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔12❤8😐6🤬3

5.78K viewsglaze YP, 04:03

Newlearnerの自留地

#AI #Tools #Blog #years #Life

📮 《2025 玩物志：「灵活就业」的一年》

博文＞

盘点 2025 不再全职工作的一年，工具的意义从「提效」变成了：
在不确定性中，维持一套可持续运转的生活秩序。

🧰 软件盘点

✦ 滴答清单：不是管理任务，是对抗分心
✦ 个人站点：完全自定义的码字基地
✦ 多邻国：最适合破冰的语言学习伴侣
✦ 腾讯会议：不止于会议，工作之外的线上闲聊
✦ 语音输入法：不让信息输出的带宽限制堵塞交流
✦ Notion AI：为生活与复杂问题写 README
✦ Claude Code：AI 辅助编程，持续构建产品
✦ Strava：4＋2 骑行探索
✦ Roam FM：用声音漫游世界，不重复的背景音

💻 硬件盘点

✦ M4 MacBook Air：轻量且可靠的移动办公
✦ DJI Mini 5 Pro：4+2+1 的探索
✦ Anker 充电宝：移动办公的续航担当

🧩 一句话

✦ 工具带来的不是效率，而是秩序感

* 本文来自自留地伙伴

频道：@NewlearnerChannel

❤11

5.05K viewsJoe, 10:03

Newlearnerの自留地

#GitHub情报 #AI #Life #Health

💊 原研药查询助手：收录全面的进口原研药数据库，帮助您快速找到目标药品

🔗：GitHub | Web

👉 Features

• 超 400 种药品，实时更新的进口原研药数据库
• 自动关联百度百科，便于查询药品更多信息
• 详尽的标签分类，支持关键词或 AI 搜索

😷 开发者最近研究百万医疗和 DRG 医保改革时，发现现在很多原研药不好买了，于是想要制作一个好用的网页，为大家展示原研药相关信息。数据和灵感来源是 lvwzhen 之前的项目进口原研药目录

💡 开发者重构的同时，取消了原项目的图片展示，并做了一个能够展示更多信息的网页布局。值得一提的是，开发者全程使用 Google AI Studio 来进行编程。正如最近 X 上流行的说法那样，AI 的出现给设计师带来了重大利好，弥补了他们不能编程的短板

🔍 最后，你也可以借助 AI 来问询所需的药品信息。相信随着 AI 模型的飞速发展，未来用 AI 看病问药将成为普通人都能接受到的一项便利服务

📘 关联阅读：谈谈我的「数字化」健康管理

频道：@NewlearnerChannel

👍21❤8

5.17K views 初学者 | Newlearner365, 03:59

Newlearnerの自留地

#GitHub情报 #APP #AI #macOS

🎤

Chorus: 多模型 AI 对话的轻量级桌面应用

官网｜ Github

在一个界面同时对话多个 AI 模型，获取不同视角的答案

✨ 特点

• 多模型并行对话：同时向 Claude Sonnet 4、o3-mini、Gemini 2.5 Pro、DeepSeek R1 等多个模型提问，实时对比不同模型的回答
• Ambient Chat：可以从任何地方启动对话，Chorus 能看到你的屏幕，了解你正在做什么，无需额外解释
• MCP 支持：运行任何 MCP 服务器，支持网页搜索、终端命令执行、GitHub 集成等
• 本地和云端模型兼容：支持 OpenAI、Anthropic、Google、OpenRouter 以及通过 Ollama 运行的本地开源模型
• 文档处理：URL 自动提取、PDF/图片/文档上传、全文搜索
• Magic Projects：对话之间自动共享上下文
• BYOK：自带 API 密钥或使用代理服务
• 极速体验：毫秒级全文搜索、完整键盘快捷键支持、代码和 LaTeX 语法高亮

⚙️ 机制

• 前端：React 18.3 + Vite 5.4 + TypeScript 5.8
• 后端：Rust (Tauri 2.5) + SQLite
• UI 组件：Radix UI + Tailwind CSS 3.4
• 状态管理：Zustand + TanStack Query
• 桌面框架：Tauri 2（使用系统 WebView，不打包 Chromium）

主要依赖

- AI SDK：@anthropic-ai/sdk、@google/genai、openai、@modelcontextprotocol/sdk
- 实用工具：pdfjs-dist（PDF 处理）、cheerio（HTML 解析）、highlight.js（代码高亮）、katex（LaTeX 渲染）
- 开发工具：ESLint、Prettier、Vitest、Husky

数据存储

- 本地 SQLite 数据库存储所有数据
- 隐私优先：数据不离开设备
- 支持文件系统监控

👨🏻‍💻 使用场景

• 技术问题调试：同时询问多个模型，一个模型可能遗漏的错误，其他模型能发现
• 学术写作：避免单一模型的幻觉或道歉循环，通过多模型对比获得更可靠的答案
• 研究和学习：对比不同 AI 的观点和解释方式，获得更全面的理解
• 内容创作：利用不同模型的优势，Claude 擅长写作，GPT 擅长结构化，Gemini 擅长多语言
• 大文档分析：通过 URL 提取和 PDF 上传处理文档，配合全文搜索快速定位信息

🛣️ 路线图

根据 GitHub issues 和社区反馈，团队正在关注：

• RAG 模式：社区提出详细的大文档处理方案（40k+ tokens），可能采用云端 RAG 或本地向量数据库
• Ollama 优化：增强本地模型支持，自定义 API 地址配置
• 语音集成：类似 qspeak.app 的语音交互功能
• 本地爬虫：替代 Firecrawl 的本地网页抓取方案
• 成本追踪增强：已实现 OpenRouter 成本跟踪，未来可能支持更多提供商

💬 社区评价

Chorus 在 GitHub 上获得了 575+ 星标和 73 个 fork，开源仅两个月就积累了活跃的开发者社区。项目有 25+ 个 issues 讨论。

Garry Tan（Y Combinator 总裁兼 CEO）评价道：「这是关于 AI 如何改变个人计算的一个很酷的尝试。」

Hamel Husain（Answer.AI）称赞说：「Chorus 真的很酷。这是一个非常精致的应用，让你并排使用所有模型，'环境聊天'功能允许模型看到你电脑上正在做的一切。它就是好用。」

Alex Volkov（Thursd/AI）表示：「Chorus 对我来说已经成为不可或缺的 AI 工具！出色的键盘快捷键支持、对比模式、MCP、环境聊天、自带密钥支持、本地模型支持。它真的应有尽有！」

从社区反馈来看，用户最喜欢的是多模型并行对比功能和 Ambient Chat 的便利性，键盘快捷键和 MCP 集成也备受好评。不过也有改进空间：Windows 版本尚未发布（仅支持 Mac），MCP 服务器配置对新手有一定门槛，部分用户期待的 RAG 模式功能还在社区讨论阶段。总体而言，社区对产品持积极态度，维护者响应迅速，用户提出的成本追踪等功能已快速实现。

🖊️ 作者背景

Charlie Holtz - 联合创始人兼 CEO

• 教育：Brown University 计算认知神经科学学士（荣誉学位）
• 职业经历：
- Replicate 工程师（领导增长，构建数百万用户应用）
- Point72 量化研究员（最年轻的量化开发者，管理数十亿美元投资组合）
- Brown University Serre Lab 计算视觉研究助理
• 背景：结合技术专长和认知神经科学洞察，前飞盘运动员

Jackson de Campos - 联合创始人

• 教育：Brown University 计算机科学学士
• 职业经历：
- Netflix 机器学习软件工程师（扩展 Netflix 整个目录的视频理解模型推理）
- Amazon SDE 实习生
- Brown University 教学助理（逻辑系统课程）
• 背景：机器学习和大规模基础设施专家

公司：Melty Labs

- Y Combinator S24 批次
- 种子轮融资：50 万美元（2024）
- 团队规模：1-10 人
- 总部：旧金山，加州
- 产品线：Melty（AI 代码编辑器）→ Chorus（多模型 AI 对话应用）
- 哲学：开源优先、本地优先、隐私优先

团队特色

两位创始人在 Brown University 打飞盘时相识，共同的技术热情和互补的专业背景（认知神经科学 + 机器学习）为产品注入了独特视角。他们使用 Claude Code 构建产品，在博客中甚至把 Claude 称为「本月最佳员工」。

💰 定价

完全免费 + 开源

- MIT 许可证
- 自带 API 密钥（BYOK）：用户直接向 AI 提供商付费
- 可选代理服务：使用 Chorus 的代理
- 无订阅费用

🙋‍♂️ 感想

Chorus 刚发布时就吸引了我的注意力，相比其他套壳聊天软件，它的界面更精致，而且是首批支持 MCP 的产品之一。不过目前整体体验已经不如 Claude Desktop，因为 Claude 在桌面端提供了功能更强大的 Cowork 和 Code 模式。

但如果你需要对比不同模型的输出结果，或者当某个模型的答案不满意时希望能快速切换到另一个，Chorus 依然是个不错的选择——开源、免费、性能优秀，这三点在 AI 工具领域并不常见。

频道：@NewlearnerChannel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3

4.96K viewsglaze YP, edited 04:03

Newlearnerの自留地

#AI #Tools

🎙️ Typeless：用 AI 重新定义语音听写

🔗：Web

⭐️ Features:

- 实时过滤语气词与口语重复，智能纠偏
- 自动适配 App 文风语调
- 支持多语言混输及个性词库
- 语言润色，阅读者友好

🗣 Typeless 是一款异军突起 Speech to Text 的工具，借助 AI 时代革命性提升的语音识别能力和语义理解，Typeless 通过实时理解用户的自然语言，将其直接转化为如同经过精心编辑后的专业文档。与传统听写软件只是死板地记录发音不同，Typeless 具备极强的“语义纠偏”能力，它能像速记员一样过滤口语中的赘余，并根据语境智能匹配文风。Typeless 目前提供 macOS 和 Windows 客户端。对于需要处理大量文字输出的创作者或行政人员来说，这种“想即是写”的录入方式能显著提升效率。官方数据显示，其信息产出速度可比传统打字快 4 倍。

🤔 语音输入长期以来面临“高效率、低质量”的尴尬，如果直接识别而不加改动，最后输出的文字怕是只有讲话者自己能看懂。Typeless 这类工具的出现，本质上是将 AI 从“转录员”提升到了“编辑”的高度。它最核心的价值在于对“思考碎片”的实时整理能力 —— 我们说话时往往逻辑是跳跃且充满赘余的，而它能把这些碎片“熨平”成逻辑严密的文字。

💡 这类工具的竞争赛道已日益拥挤（如 Spokenly，以及国产的闪电说和智谱 AI 输入法等），Typeless 的优势在于更侧重于系统级的实时集成和细分的语调适配。当你发现“说出想法”比“敲打键盘”更能释放生产力时，它会成为一个极佳的交互入口。尽管 $30/月的定价在工具类软件中堪称奢侈，但对于追求极致“原生感”与“实时语义重构”的高频文字产出者来说，它确实提供了目前市面上最细腻的交互体验。

频道：@NewlearnerChannel

👍10❤5😁1

5.66K views𝐏𝐫𝐢𝐧𝐜𝐞𝐭𝐨𝐧, 04:03

Newlearnerの自留地

#Tools #macOS #Terminal #AI #GitHub情报

💡 Kaku：极速开箱即用的 AI 友好终端

🔗 https://github.com/tw93/Kaku

🌝 为啥要做

我一直想要一个自己用得爽的 Mac 终端，够快，默认顺手，还得支持多 Tab 和分屏。Alacritty 很轻快但没 Tab，Ghostty 字体渲染不合口味，Warp 需要登录我也不理解，Kitty 窗口管理我遇到过不少小问题。后来用上 WezTerm 发现可改性很强，就基于它做了深度魔改，删掉一堆我不用的兼容模块，重做加载和默认体验，做成 Kaku，当前已经发布 5 个大版本，差不多可以推荐给大伙使用了～

🥗 优点是啥

• 零配置默认体验，字体渲染主题常用 shell 组件都已打磨好
• AI Shell 修错，命令失败直接给修复建议，Cmd + Shift + E 一键应用
• kaku ai 统一管理 Claude Code Codex Gemini CLI 等工具配置
• 内置 yazi 与 lazygit，Cmd + Shift + Y 文件管理，Cmd + Shift + G Git 工作流
• 输入像文本编辑器，Cmd + A 全选，Shift 方向键扩选，输入直接替换选中
• 多分屏效率，Cmd + D 分屏，Cmd + Shift + S 切横竖分屏，Cmd + Opt + 方向键跳分屏
• 细节体验，选中自动复制并 Toast 提示，后台 Tab 闪点提醒，kaku doctor 一键诊断修复

🥂 我怎么用

Kaku 更像一个把工作流直接打包好的终端，不需要你先折腾半天配置才开始舒服。你可以把它当成面向 AI Coding 的日常终端环境来用：一边跑 Claude Code，一边做 review，再在底部看 diff，Tab 按项目拆开，靠快捷键在分屏里来回切，专注度会提升很多。

❤️ 欢迎使用

目前 Kaku 还在持续打磨中，功能会继续加，但方向很明确：更快、更顺手、更少折腾。欢迎来试用，遇到 bug 直接提 issue。

频道：@NewlearnerChannel

❤13🤔2

5.42K viewsTw93, 10:02

Newlearnerの自留地

#GitHub情报 #Music #APPLE #APP #AI #macOS

🎵 介绍两款针对 Apple Music 的东亚语言歌曲修复工具

Apple Music 分区众多，考虑到版权和曲库问题，许多人订阅了外区。但这带来了一系列问题，譬如非日区会将日语歌罗马音化，外区有时候还会将中文歌翻译成英文，造成了许多不便

今天介绍的两个工具，能够帮助你处理好 Apple Music 上东亚地区的语言显示问题。仅限 macOS（其他平台可通过 iCloud 同步），且针对资料库而非播放列表

1️⃣ JiBA：在 Apple Music 中恢复原始语言标题

🔗：官网 | 下载

👉 Features

- 自动将罗马音化的日语和翻译后的中 / 韩语曲目名修复回原始文字
- JiBA 在后台默默运行，随时为你整理新添加的音乐
- 通过安全的 AppleEvents 直接与音乐 app 协作，修改内容会通过 iCloud 音乐资料库同步到你的所有设备
- Enhanced Mode 引入全新的 v2 算法管线（AI），速度和准确度均有提升

Apple Music 经常将日语歌曲罗马音化，或将中韩歌曲名强行翻译成英文。JiBA 专为解决这一核心痛点而生，帮你找回原汁原味的元数据

2️⃣ Apple Music Metadata Fixer

🔗：GitHub

👉 Features

- 通过 AppleScript 一键导出 Apple Music 曲库
- 使用 Gemini AI 校正元数据
- 标注歌曲原始发行国家 / 地区
- 通过 AppleScript 将更正后的元数据写回 Music.app
- 集成 MusicBrainz / Spotify

同样为了解决上述问题，群友开发了 Apple Music Metadata Fixer。不同于 JiBA 的开箱即用，Apple Music Metadata Fixer 需要运行于终端，但提供了更为丰富的 API 集成，充分保证了纠错语料的正确性。大家可以根据需求选择使用

👀 当然了，由于没有早年使用 iPod 的习惯，我从一开始使用 Apple Music 就是以播放列表的形式，没有「我喜欢」，也没有使用「资料库」。这样的使用方式会让修复歌名这件事变得很难，因为不可以直接修改云端的数据。不过，如果你一直坚持使用资料库（Bug 真的很多），那么一定要试试这些工具

频道：@NewlearnerChannel

❤14

5.14K views 初学者 | Newlearner365, 03:59

Newlearnerの自留地

#iOS #APP #AI

💬 Open Minis: Your Private On-Device Agent

🔗：官网 | App Store | TestFlight | Telegram Group

👉 软件亮点

- 内置 iSH，提供完整Alpine Linux的 Shell 环境
- 内置浏览器和浏览器控制工具
- 系统原生能力集成：健康（HealthKit），闹钟（AlarmKit），家庭 (HomeKit)，天气等
- 支持 Skills和持久化记忆系统
- 内置ffmpegg等工具硬件加速

👀 大语言模型技术爆发的当下，电脑端的 AI Agent 工具早已变成一片红海，各大厂商和独立开发者都在争抢这块蛋糕。但在 iOS 端，由于系统的沙盒机制限制，一直没有找到能接近电脑体验的Agent工具。

💡 Open Minis 的作者走了一条全新的路。他将 iSH虚拟机内置到App中，提供完整的 Alpine Linux环境，让AI像在电脑环境一样直接执行Shell命令，也能自主的通过`apk add` 安装需要的软件。同时将健康、闹钟、家庭、天气等系统接口封装成命令行工具，让 AI 像调用普通命令一样就能调用系统的原生能力。

🌐 除了 Shell 能力，浏览器控制也是当前 AI Agent 的核心之一。受限于 iOS 沙盒，Open Minis 在 App 内自行实现了浏览器与控制工具，模拟人的操作方式进行网页交互，实现填写表单、点击按钮、提取内容，对于日常的网页信息获取和简单任务已经足够。

🤔 这条路走到极致，就是在 iOS 生态上构建了一个完整的 AI Agent 运行时：自己实现 Shell 环境、改造虚拟机、内置浏览器、封装所有 iOS 原生能力。这套系统，已经不像是在做一款 App，更像是打造一个平台。就在两天前软件已通过 App Store 审核上架，这大概是 iOS 生态下，开发者在系统权限和商店审核多方面限制下，夹缝生存故事的最好结局。

频道：@NewlearnerChannel

👍29❤3

4.63K viewsnb5p, edited 04:04

Newlearnerの自留地

#GitHub情报 #AI #Web

🦞 面对「龙虾大战」，你可以用到的几个工具网站

正如上周总结里面提到的，OpenClaw 前不久全面爆发，大厂纷纷下场、各种「轮子」让人眼花缭乱。普通人如何在碎片信息中快速整理有用信息？今天和大家分享近期看到的一些有帮助的（中文）网站

1️⃣ OpenClaw 橙皮书：从入门到精通

🔗：Web

颇有一种当年为 macOS 写白皮书的意味，其中覆盖了从认识 OpenClaw 到真正把它用起来的所有关键信息。从认识、部署、接入、技能、安全、生态多个角度，带领大家入门 OpenClaw

2️⃣ 虾塘 ClawCave

🔗：Web

本质上是一个 AI 时代的「导航站」，收集的对象是「国产龙虾」。作者观察到 OpenClaw 推出后，官方版太重且有安全隐患，大厂下场也导致了信息极度碎片化，因而制作网站帮助大家进行筛选

主要整理了市面上 20 多种「龙虾」变种，并从部署难度、运行环境、生态支持等维度做了矩阵对比，希望能够帮助新手快速了解不同大厂之间产品的差异，从而做出适合自己的选择

3️⃣ Claw 导航

🔗：Web

同样是一个 AI 导航，不同的是其收集的对象范围更加广泛，涵盖了国内外大厂出品、开源项目和一些小作坊轮子。此外，导航站还专门收集了和 OpenClaw 相关的生态工具，能够帮助你更好地使用「龙虾」及其变体

4️⃣ OpenClaw 卸载完全指南

🔗：Web

安装热潮过后，一定有许多人觉得 OpenClaw 不适合自己、暂时找不到用途以及有一些隐私担忧，那么如何正确地卸载呢？本 Vide Coding 网站根据官方文档 + 社区整理 + 安全研究，总结了一套合适的卸载方法

这不是「删个应用“那么简单：你需要处理后台 Gateway 服务、状态/配置目录、容器化部署残留，以及（强烈建议）撤销你授予过的第三方权限与密钥

👀 正如上周末聊到的那样，OpenClaw 成为了各大厂的香饽饽，连政府也下场推广。从长远来看，「龙虾」一定会有更本土化、更方便易用的落地形态，同时大厂之间将充分展开竞争：争夺流量入口、培养用户习惯、拓展 Token 卖金渠道

它大概率不是昙花一现的东西，而是将 AI Agent 这一形式通过大家更能接受的方式，成为你硬件上的一款 App。作为普通用户，我有一些思考和大家分享：

① 建博客的目的是写博客

很难想象从我熟悉的「全民博客」到「全民 AI」时代，只用了不到十年。当年博客火热的时候，许多人都热衷于买域名、建站、选主题、折腾插件，如此反复，但一直没有什么实质性的内容产出

对于 OpenClaw 我也想说，随着 AI 不断发展，安装、配置之类的事情只会越来越简单，无需跟风享受「折腾」带来的满足感，找准你的使用目标和需求才是最关键的

② 成为合格的饲养员

随着新技术革命的到来，编程、设计这类较为垂类、对专业性有相当要求的领域，开始被 AI 很好地完成。我们当然需要有人去不断探索前沿编程，但绝大多数人应该思考的，是身处「技术」不再是全部的今天，我们如何学习并做好「创意」和「管理」

这就好比，从一个程序员变成了产品经理，好点子和落地才是需要关心的事情。OpenClaw 本质上也可以理解成 IFTTT、快捷方式的 AI 加持版，且在前一两年就有了 AI Agent 的概念，但只有 OpenClaw 做对了且成功落地，才走进了大众视野

作为「龙虾」饲养员，我们要不断结合自身需求、发挥创意，去探索可能实用的场景，譬如：

• 定期抓取某网站内容，并翻译成中文以供阅读
• 维护一个电影上映日 / 演出开票日日历，并结合个人喜好进行提醒
• 结合我的交通订票、酒店住宿情况，为我安排当地行程
• 修改 / 维护较为复杂的配置文件和文档

我们要做的，是让「龙虾」充分吸取互联网养分，最终通过复杂的流程链，带着结果端到我们的餐桌上

最后，许多场景其实是 Apple 在 WWDC 中曾经提到过的。快两年过去了，Apple Intelligence 依然半死不活，让人十分意难平。硬件的「惯性」比我们想象中还要大，作为已经有些「路径依赖」的人，我还是希望苹果能够尽快将注重隐私、安全且实用的 Apple Intelligence 带给我们

📘 关联阅读：OpenClaw - 我见过最强的开源 Al Agent之一，也有很明确的边界

频道：@NewlearnerChannel

👍15❤9

4.78K views 初学者 | Newlearner365, 03:59

Newlearnerの自留地

#Blog #AI

🧑🏻‍💻 你不知道的 Claude Code：架构、治理与工程实践

🔗：X Article

今天这篇文章源于自己最近半年深度使用 Claude Code、两个账号每月 40 刀氪金换来的一些踩坑经验，希望能给大伙一些输入。

刚开始我也把它当 ChatBot 用，后来很快遇到这样的问题：上下文越来越乱、工具越来越多但效果越来越差、规则越写越长却越不遵守，折腾了一段时间，研究了 Claude Code 本身之后才意识到，这不是 Prompt 问题，而是这套系统的设计就是这样的。

这篇文章想和大伙聊清楚这几个点：Claude Code 底层怎么运作、上下文为什么会乱以及怎么治理、Skills 和 Hooks 应该怎么设计、Subagents 的正确用法、Prompt Caching 的架构影响，以及怎么写一个真正有用的 CLAUDE.md。

频道：@NewlearnerChannel

❤19🆒2👍1

4.94K viewsTw93, 10:00

Newlearnerの自留地

#Reading #APP #AI

📩 接读者来稿，TA 向我们推荐了自己开发的 AI 有声书软件

🎧 免费听书应用悦读 Readify 迎来重大更新，朗读功能更强大，并且新增音色克隆功能

🔗：官网链接 | 安卓下载 | 苹果下载

👓 基础功能

📚 多格式支持：TXT / PDF / EPUB / MOBI / AZW3 / DOCX；
🔊 100+ AI 音色：自研模型，40+ 语言，高保真自然发音，秒杀微信读书和番茄小说；
🔍 AI 搜书：内置搜书功能（需梯子），免费下载所有你想要的图书；
🤖 AI问答：专属读书搭子，帮你深层了解书籍内容；
💻 多端同步：同一账号，书库自动同步多个设备（平板，网页，手机）。

⭐️重磅新功能

- 🎙 音色克隆
只需录一段话或上传音频，即可马上生成你的专属音色来听书。

- 📄 TXT AI 排版
自动清理 TXT 里的乱码和广告，
生成清晰目录与书籍封面，阅读体验大幅提升。

- 📖 听读分离
一键进入纯阅读模式，
隐藏播放器，页面可自定义，看书更专注。

- 👓首页改版+添加公版书库
首页全新改版，视觉与体验全面升级；
智能公版书推荐，打开就能读，不再依赖手动导入。

👏 100%免费使用，欢迎大家体验！

📘 关联阅读：Readify - 让 AI 为每个人朗读世界

频道：@NewlearnerChannel

❤9👍4

4.4K views 初学者 | Newlearner365, 09:59

Newlearnerの自留地

#GitHub情报 #macOS #AI

☠️

ANE — 逆向工程解锁 Apple Neural Engine 训练能力

首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证，证明 ANE 硬件本身具备训练能力，软件封锁才是真正壁垒。

✨

特点

• 私有 API 直连：通过逆向工程 _ANEClient、_ANECompiler 等私有接口，完全绕过 CoreML，实现对 ANE 硬件的直接控制，吞吐提升 2–4x。
• 完整前向 + 反向传播：在 ANE 上运行 Transformer 的前向与 dx 梯度计算，权重梯度 dW 由 CPU（Accelerate cblas）并发处理，支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道：将权重打包进空间维度，实现权重更新无需重新编译，突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化：利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值，M4 上实测 1.88x 吞吐提升（35.1 TOPS vs 18.6 TOPS）。
• GPU↔ANE 零拷贝流水线：基于 IOSurface 共享内存，GPU 负责 prefill，ANE 负责 decode，Stories110M 总延迟仅 8.8ms。
• 硬件基准体系：系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行，真实峰值为 19 TFLOPS FP16，并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。

⚙️

机制

ANE 是一个图执行引擎，接受编译好的 MIL（Model Intermediate Language）计算图后原子执行，本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类，构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成，权重梯度 dW 由 CPU cblas 并行执行，Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖，仅使用系统框架。

主要依赖：Objective-C + Foundation + IOSurface + Accelerate（纯系统框架，零第三方依赖），Python 仅用于训练监控 Dashboard（blessed 库）。

🧑‍💻

使用场景

• NPU 编译器研究者：希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为，可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具，无需从零逆向工程。
• 边缘 AI 推理优化工程师：gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线（Stories110M 总延迟 8.8ms、功耗 2.8W），可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者：需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时，可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者：验证 38 TOPS 虚高发现，或研究 Apple Silicon ANE 与 SME（Scalable Matrix Extension）在不同工作负载下的分工边界。
• 开源社区建设者：在本项目基础上构建更完整的运行时，如已涌现的 Orion（完整 ANE 训练 + 推理框架）、hybrid-ane-mlx-bench（Apple Silicon 推理策略系统评测）。

🛣 社区关注方向

• Mega-kernel 层融合：将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配：Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型：Qwen3-0.6B（596M 参数）GQA 支持已合并，社区在探索 1B+ 参数范围的可行性
• 模型加载支持：目前只能从随机初始化训练，无法加载预训练权重

💭

感想

ANE 项目最有价值的地方，不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚，这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实：Apple Neural Engine 的硬件本身具备训练能力，6.6 TFLOPS/W 的功效比（约为 A100 的 80 倍）让人想知道，若 Apple 开放训练 API，边缘端持续学习会走向哪里。

技术完成度上，最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析，都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX（GPU 路线，开箱即用）和 CoreML（推理受限但稳定），ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师，不适合期望开箱即用的应用开发者。

项目的另一面是方法论本身：逆向工程、基准分析、训练代码，全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明

频道：@NewlearnerChannel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍1

4.91K viewsglaze YP, 04:04

Newlearnerの自留地

#Blog #AI

🧑🏻‍💻 你不知道的 Agent：原理、架构与工程实践

🔗：X Article

今天这篇文章源于写完「你不知道的 Claude Code」之后，发现自己对 Agent 底层的理解还差一截，加上团队在 Agent 方向已经有不少业务落地，一直缺一份系统梳理，所以又把资料、开源实现和自己写的代码重新过了一遍。

刚开始我也觉得 Agent 效果不稳是模型能力不够，换更贵的模型就能解决。后来发现提升往往没有想象中那么大，反而是 Harness 搭得好不好、工具描述准不准、上下文有没有分层管理，才是决定成功率的真正变量。

这篇文章想和大伙聊清楚这几个点：Agent Loop 的控制流怎么运转、Harness 为什么比模型更关键、上下文工程为什么决定稳定性、工具设计的核心原则、记忆系统怎么分层、多 Agent如何协作组织，以及评测和追踪体系怎么搭。

频道：@NewlearnerChannel

❤11🐳2

3.91K viewsTw93, 10:03

About

Blog

Apps

Platform