iPhone的AI时刻不远了？苹果Ferret多模态大模型登场原创

作者：刘文轩

iOS接下来的变化更值得期待了！

今年10月，作为苹果公司与哥伦比亚大学的研究成果，Ferret就已经发布过一次，只是当时仅供研究使用而非商业许可，所以并未引起多大关注。如今情况发生了转变，随着各大科技公司你追我赶地公布研发成果，关于本地模型为小型设备提供智能体验的讨论也越来越多。

12月以来，苹果也陆续公布它在AI领域的研发进展。12月初苹果公布Apple Silicon平台专用AI框架MLX、以及能在设备端执行大语言模型的方法，后者能在边缘设备上执行DRAM两倍大的模型，可节省执行大模型所需的运算资源，也更能确保隐私安全。

上周，苹果再次公布全新成果——Ferret大语言模型以及相关标竿测试工具与数据集。

作为一款多模态模型，Ferret可以接受文字、声音、影像或数据的输入。根据苹果10月公布Ferret的研究论文，Ferret能理解任何形状或任何图片颗粒（granularity），并且可以准确定位（ground）开放词汇的描述。为了把引用（refer）和定位能力整合到模型中，Ferret采用一种混合区域表征（hybrid region representation）技术，整合个别方位和连续性的特征，以表示图片中的某一区域。为提取出区域中的连续特征，苹果研究人员提出一种空间感知的视觉采样器，它能处理不同形状多种稀疏性。这也使Ferret可以接受多样化区域输入，像是点、边界框、自由形式的形状。

为提升Ferret的能力，苹果团队使用了GRIT数据集（Ground-and-Refer Instruction-Tuning），后者为是一个广大的refer-and-ground指令微调数据集，包含110万个样本，内有丰富的阶层化空间知识，以及9.5万个负样本，以提升模型的判断力。

与Kosmos-2、GPT4-ROI、LLaVA、Shikra等多模态大语言模型比较，最后苹果得到的模型Ferret-13B，在传统引用及定位任务具有优异效能，此外，在区域为基础、需要本地化的多模态对话、细节描述，以及复杂推理等任务上，Ferret-13B的表现同样优于其他模型。在视觉化比较任务，苹果说它的模型展现优异的空间理解及常识推理能力。此外，苹果宣称其物件幻觉也较Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT及 mPLUG-Owl等知名模型少很多。

苹果公布了Ferret7B、130B二模型的代码、GRIT数据集、标竿测试工具Ferret-Bench，上周也公布了Ferret 70B及130B检查点（checkpoint）。

有趣的是，在人工智能社区中，很多人都是到最近才发现苹果的大模型，Bart de Witte也在X上感叹自己居然错过了这个消息，同时也表示：“期待着有一天，本地大型语言模型能作为重新设计的iOS的集成服务，运行在我的iPhone上。”

随着苹果大模型的开发有了新的进展，Anthropic和OpenAI据称也在为其专有大语言模型的开发工作谈判新的巨额融资。路透社报道称，Anthropic正在讨论从Menlo Ventures募集7.5亿美元，而根据彭博社的报道，OpenAI“正在早期讨论以 1000 亿美元或以上的估值进行新一轮融资”。

来源：至顶网商用办公频道

0赞

好文章，需要你的鼓励

iPhone的AI时刻不远了？苹果Ferret多模态大模型登场 原创

来源：至顶网商用办公频道

2023

12/25

12:15

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

终端侧AI，如何从DeepSeek的连锁反应中受益？

当大家都在期待苹果的机器人时，苹果却先造了个“台灯”

专访DeepMind CEO：我们距离实现AGI只需5-10年

尽管AI军备竞赛激烈，但多模型共存的未来已成定局

Temu 荣登苹果2024年度下载量榜首

苹果最强AI PC登场！首搭M4 Max芯片，续航飙到24小时，满血版6万

蚂蚁数科 CTO 王维：更好的通用 AGI 仍在路上，AI 亟待提升专业性和可信性

为什么iPhone 16普通版比Pro版更值得购买？

iPhone的RCS尚未加密，但情况很快就会改变

有了Apple智能，你的iPhone 16能做些什么？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

iPhone的AI时刻不远了？苹果Ferret多模态大模型登场原创