Newlearnerの自留地

#APP #iOS #macOS

🌊 Current：一个不把 RSS 变成待办清单的阅读器

🔗：Web | App Store

⭐️ Features:

• 呈现全部订阅内容，隐藏未读数
• 可设置内容半衰期
• 丰富的手势、颜色、动效和触感反馈
• 支持 Feedbin、Miniflux 和 iCloud 同步

在这几年新的 RSS 阅读器中，我很喜欢 Feeeed 这种个性鲜明的作品。Current 也是一个新的 RSS 阅读器，但和其他的阅读器不同，Current 质疑传统阅读器默认接受的那套前提：未读数、清零、归档、处理。这些传统设计当然高效，但也很容易把“读东西”慢慢变成一种心理负担甚至焦虑，结果就是再也不读了。

为此，Current 使用了 River 的概念。River 可以理解成一个会自然衰减的时间流：内容来了，会停留一阵子，然后慢慢变暗、消失，不需要手动一篇篇清账。这里面最关键的是 velocity / half-life 这套设计，不同来源可以设置不同的停留时长。突发新闻几小时后就该退场，长文和博客则可以在河面上多停几天。

Current 另外一个让我很喜欢的地方，是它几乎把整套交互语言都围绕同一个隐喻重写了一遍。Current 将 mark as read 改成了 release；feed 改成了 voices。包括卡片划走的物理效果、文章读完后从底部浮出的 release 按钮、以及针对来源泛滥或长期跳过内容的安静提示卡，都能看出开发者在努力让软件真的服务那套设计哲学。再加上本地运行的主题识别、相当克制的视觉系统和对 iPad / Mac 场景的认真适配，Current 确实有一种如今不太多见的完整感。

🤔 当然，这种产品也天然更挑用户。它并不适合那种把 RSS 当作情报收集系统、需要精确管理每条未读状态的人；如果强依赖 Inbox Zero 式的控制感，Current 反而可能会让用户觉得不适应。并且这种高度依赖隐喻一致性的产品，最后能不能长期成立，也要看日常使用几个月后新鲜感退去是否依旧顺手。

💰 当然了，Current 这种情怀也是需要花钱的，目前在 AppStore 的售价是 9.99 USD。

频道：@NewlearnerChannel

👍8❤5

6.78K views𝐏𝐫𝐢𝐧𝐜𝐞𝐭𝐨𝐧, 04:02

Newlearnerの自留地

#GitHub情报 #macOS #AI

☠️

ANE — 逆向工程解锁 Apple Neural Engine 训练能力

首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证，证明 ANE 硬件本身具备训练能力，软件封锁才是真正壁垒。

✨

特点

• 私有 API 直连：通过逆向工程 _ANEClient、_ANECompiler 等私有接口，完全绕过 CoreML，实现对 ANE 硬件的直接控制，吞吐提升 2–4x。
• 完整前向 + 反向传播：在 ANE 上运行 Transformer 的前向与 dx 梯度计算，权重梯度 dW 由 CPU（Accelerate cblas）并发处理，支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道：将权重打包进空间维度，实现权重更新无需重新编译，突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化：利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值，M4 上实测 1.88x 吞吐提升（35.1 TOPS vs 18.6 TOPS）。
• GPU↔ANE 零拷贝流水线：基于 IOSurface 共享内存，GPU 负责 prefill，ANE 负责 decode，Stories110M 总延迟仅 8.8ms。
• 硬件基准体系：系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行，真实峰值为 19 TFLOPS FP16，并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。

⚙️

机制

ANE 是一个图执行引擎，接受编译好的 MIL（Model Intermediate Language）计算图后原子执行，本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类，构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成，权重梯度 dW 由 CPU cblas 并行执行，Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖，仅使用系统框架。

主要依赖：Objective-C + Foundation + IOSurface + Accelerate（纯系统框架，零第三方依赖），Python 仅用于训练监控 Dashboard（blessed 库）。

🧑‍💻

使用场景

• NPU 编译器研究者：希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为，可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具，无需从零逆向工程。
• 边缘 AI 推理优化工程师：gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线（Stories110M 总延迟 8.8ms、功耗 2.8W），可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者：需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时，可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者：验证 38 TOPS 虚高发现，或研究 Apple Silicon ANE 与 SME（Scalable Matrix Extension）在不同工作负载下的分工边界。
• 开源社区建设者：在本项目基础上构建更完整的运行时，如已涌现的 Orion（完整 ANE 训练 + 推理框架）、hybrid-ane-mlx-bench（Apple Silicon 推理策略系统评测）。

🛣 社区关注方向

• Mega-kernel 层融合：将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配：Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型：Qwen3-0.6B（596M 参数）GQA 支持已合并，社区在探索 1B+ 参数范围的可行性
• 模型加载支持：目前只能从随机初始化训练，无法加载预训练权重

💭

感想

ANE 项目最有价值的地方，不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚，这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实：Apple Neural Engine 的硬件本身具备训练能力，6.6 TFLOPS/W 的功效比（约为 A100 的 80 倍）让人想知道，若 Apple 开放训练 API，边缘端持续学习会走向哪里。

技术完成度上，最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析，都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX（GPU 路线，开箱即用）和 CoreML（推理受限但稳定），ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师，不适合期望开箱即用的应用开发者。

项目的另一面是方法论本身：逆向工程、基准分析、训练代码，全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明

频道：@NewlearnerChannel

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍2

6.56K viewsglaze YP, 04:04

About

Blog

Apps

Platform