#APP #iOS #macOS
🌊 Current:一个不把 RSS 变成待办清单的阅读器
🔗:Web | App Store
⭐️ Features:
• 呈现全部订阅内容,隐藏未读数
• 可设置内容半衰期
• 丰富的手势、颜色、动效和触感反馈
• 支持 Feedbin、Miniflux 和 iCloud 同步
在这几年新的 RSS 阅读器中,我很喜欢 Feeeed 这种个性鲜明的作品。Current 也是一个新的 RSS 阅读器,但和其他的阅读器不同,Current 质疑传统阅读器默认接受的那套前提:未读数、清零、归档、处理。这些传统设计当然高效,但也很容易把“读东西”慢慢变成一种心理负担甚至焦虑,结果就是再也不读了。
为此,Current 使用了 River 的概念。River 可以理解成一个会自然衰减的时间流:内容来了,会停留一阵子,然后慢慢变暗、消失,不需要手动一篇篇清账。这里面最关键的是 velocity / half-life 这套设计,不同来源可以设置不同的停留时长。突发新闻几小时后就该退场,长文和博客则可以在河面上多停几天。
Current 另外一个让我很喜欢的地方,是它几乎把整套交互语言都围绕同一个隐喻重写了一遍。Current 将 mark as read 改成了 release;feed 改成了 voices。包括卡片划走的物理效果、文章读完后从底部浮出的 release 按钮、以及针对来源泛滥或长期跳过内容的安静提示卡,都能看出开发者在努力让软件真的服务那套设计哲学。再加上本地运行的主题识别、相当克制的视觉系统和对 iPad / Mac 场景的认真适配,Current 确实有一种如今不太多见的完整感。
🤔 当然,这种产品也天然更挑用户。它并不适合那种把 RSS 当作情报收集系统、需要精确管理每条未读状态的人;如果强依赖 Inbox Zero 式的控制感,Current 反而可能会让用户觉得不适应。并且这种高度依赖隐喻一致性的产品,最后能不能长期成立,也要看日常使用几个月后新鲜感退去是否依旧顺手。
💰 当然了,Current 这种情怀也是需要花钱的,目前在 AppStore 的售价是 9.99 USD。
频道:@NewlearnerChannel
🌊 Current:一个不把 RSS 变成待办清单的阅读器
🔗:Web | App Store
⭐️ Features:
• 呈现全部订阅内容,隐藏未读数
• 可设置内容半衰期
• 丰富的手势、颜色、动效和触感反馈
• 支持 Feedbin、Miniflux 和 iCloud 同步
在这几年新的 RSS 阅读器中,我很喜欢 Feeeed 这种个性鲜明的作品。Current 也是一个新的 RSS 阅读器,但和其他的阅读器不同,Current 质疑传统阅读器默认接受的那套前提:未读数、清零、归档、处理。这些传统设计当然高效,但也很容易把“读东西”慢慢变成一种心理负担甚至焦虑,结果就是再也不读了。
为此,Current 使用了 River 的概念。River 可以理解成一个会自然衰减的时间流:内容来了,会停留一阵子,然后慢慢变暗、消失,不需要手动一篇篇清账。这里面最关键的是 velocity / half-life 这套设计,不同来源可以设置不同的停留时长。突发新闻几小时后就该退场,长文和博客则可以在河面上多停几天。
Current 另外一个让我很喜欢的地方,是它几乎把整套交互语言都围绕同一个隐喻重写了一遍。Current 将 mark as read 改成了 release;feed 改成了 voices。包括卡片划走的物理效果、文章读完后从底部浮出的 release 按钮、以及针对来源泛滥或长期跳过内容的安静提示卡,都能看出开发者在努力让软件真的服务那套设计哲学。再加上本地运行的主题识别、相当克制的视觉系统和对 iPad / Mac 场景的认真适配,Current 确实有一种如今不太多见的完整感。
🤔 当然,这种产品也天然更挑用户。它并不适合那种把 RSS 当作情报收集系统、需要精确管理每条未读状态的人;如果强依赖 Inbox Zero 式的控制感,Current 反而可能会让用户觉得不适应。并且这种高度依赖隐喻一致性的产品,最后能不能长期成立,也要看日常使用几个月后新鲜感退去是否依旧顺手。
💰 当然了,Current 这种情怀也是需要花钱的,目前在 AppStore 的售价是 9.99 USD。
频道:@NewlearnerChannel
👍8❤5
#GitHub情报 #macOS #AI
☠️ ANE — 逆向工程解锁 Apple Neural Engine 训练能力
首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证,证明 ANE 硬件本身具备训练能力,软件封锁才是真正壁垒。
✨ 特点
• 私有 API 直连:通过逆向工程 _ANEClient、_ANECompiler 等私有接口,完全绕过 CoreML,实现对 ANE 硬件的直接控制,吞吐提升 2–4x。
• 完整前向 + 反向传播:在 ANE 上运行 Transformer 的前向与 dx 梯度计算,权重梯度 dW 由 CPU(Accelerate cblas)并发处理,支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道:将权重打包进空间维度,实现权重更新无需重新编译,突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化:利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值,M4 上实测 1.88x 吞吐提升(35.1 TOPS vs 18.6 TOPS)。
• GPU↔ANE 零拷贝流水线:基于 IOSurface 共享内存,GPU 负责 prefill,ANE 负责 decode,Stories110M 总延迟仅 8.8ms。
• 硬件基准体系:系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行,真实峰值为 19 TFLOPS FP16,并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。
⚙️ 机制
ANE 是一个图执行引擎,接受编译好的 MIL(Model Intermediate Language)计算图后原子执行,本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类,构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成,权重梯度 dW 由 CPU cblas 并行执行,Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖,仅使用系统框架。
主要依赖:Objective-C + Foundation + IOSurface + Accelerate(纯系统框架,零第三方依赖),Python 仅用于训练监控 Dashboard(blessed 库)。
🧑💻 使用场景
• NPU 编译器研究者:希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为,可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具,无需从零逆向工程。
• 边缘 AI 推理优化工程师:gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线(Stories110M 总延迟 8.8ms、功耗 2.8W),可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者:需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时,可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者:验证 38 TOPS 虚高发现,或研究 Apple Silicon ANE 与 SME(Scalable Matrix Extension)在不同工作负载下的分工边界。
• 开源社区建设者:在本项目基础上构建更完整的运行时,如已涌现的 Orion(完整 ANE 训练 + 推理框架)、hybrid-ane-mlx-bench(Apple Silicon 推理策略系统评测)。
🛣 社区关注方向
• Mega-kernel 层融合:将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配:Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型:Qwen3-0.6B(596M 参数)GQA 支持已合并,社区在探索 1B+ 参数范围的可行性
• 模型加载支持:目前只能从随机初始化训练,无法加载预训练权重
💭 感想
ANE 项目最有价值的地方,不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚,这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实:Apple Neural Engine 的硬件本身具备训练能力,6.6 TFLOPS/W 的功效比(约为 A100 的 80 倍)让人想知道,若 Apple 开放训练 API,边缘端持续学习会走向哪里。
技术完成度上,最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析,都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX(GPU 路线,开箱即用)和 CoreML(推理受限但稳定),ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师,不适合期望开箱即用的应用开发者。
项目的另一面是方法论本身:逆向工程、基准分析、训练代码,全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明
频道:@NewlearnerChannel
首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证,证明 ANE 硬件本身具备训练能力,软件封锁才是真正壁垒。
• 私有 API 直连:通过逆向工程 _ANEClient、_ANECompiler 等私有接口,完全绕过 CoreML,实现对 ANE 硬件的直接控制,吞吐提升 2–4x。
• 完整前向 + 反向传播:在 ANE 上运行 Transformer 的前向与 dx 梯度计算,权重梯度 dW 由 CPU(Accelerate cblas)并发处理,支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道:将权重打包进空间维度,实现权重更新无需重新编译,突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化:利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值,M4 上实测 1.88x 吞吐提升(35.1 TOPS vs 18.6 TOPS)。
• GPU↔ANE 零拷贝流水线:基于 IOSurface 共享内存,GPU 负责 prefill,ANE 负责 decode,Stories110M 总延迟仅 8.8ms。
• 硬件基准体系:系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行,真实峰值为 19 TFLOPS FP16,并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。
ANE 是一个图执行引擎,接受编译好的 MIL(Model Intermediate Language)计算图后原子执行,本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类,构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成,权重梯度 dW 由 CPU cblas 并行执行,Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖,仅使用系统框架。
主要依赖:Objective-C + Foundation + IOSurface + Accelerate(纯系统框架,零第三方依赖),Python 仅用于训练监控 Dashboard(blessed 库)。
• NPU 编译器研究者:希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为,可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具,无需从零逆向工程。
• 边缘 AI 推理优化工程师:gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线(Stories110M 总延迟 8.8ms、功耗 2.8W),可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者:需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时,可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者:验证 38 TOPS 虚高发现,或研究 Apple Silicon ANE 与 SME(Scalable Matrix Extension)在不同工作负载下的分工边界。
• 开源社区建设者:在本项目基础上构建更完整的运行时,如已涌现的 Orion(完整 ANE 训练 + 推理框架)、hybrid-ane-mlx-bench(Apple Silicon 推理策略系统评测)。
🛣 社区关注方向
• Mega-kernel 层融合:将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配:Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型:Qwen3-0.6B(596M 参数)GQA 支持已合并,社区在探索 1B+ 参数范围的可行性
• 模型加载支持:目前只能从随机初始化训练,无法加载预训练权重
ANE 项目最有价值的地方,不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚,这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实:Apple Neural Engine 的硬件本身具备训练能力,6.6 TFLOPS/W 的功效比(约为 A100 的 80 倍)让人想知道,若 Apple 开放训练 API,边缘端持续学习会走向哪里。
技术完成度上,最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析,都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX(GPU 路线,开箱即用)和 CoreML(推理受限但稳定),ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师,不适合期望开箱即用的应用开发者。
项目的另一面是方法论本身:逆向工程、基准分析、训练代码,全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明
频道:@NewlearnerChannel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍2