今年10月,作为苹果公司与哥伦比亚大学的研究成果,Ferret就已经发布过一次,只是当时仅供研究使用而非商业许可,所以并未引起多大关注。如今情况发生了转变,随着各大科技公司你追我赶地公布研发成果,关于本地模型为小型设备提供智能体验的讨论也越来越多。
12月以来,苹果也陆续公布它在AI领域的研发进展。12月初苹果公布Apple Silicon平台专用AI框架MLX、以及能在设备端执行大语言模型的方法,后者能在边缘设备上执行DRAM两倍大的模型,可节省执行大模型所需的运算资源,也更能确保隐私安全。
上周,苹果再次公布全新成果——Ferret大语言模型以及相关标竿测试工具与数据集。
作为一款多模态模型,Ferret可以接受文字、声音、影像或数据的输入。根据苹果10月公布Ferret的研究论文,Ferret能理解任何形状或任何图片颗粒(granularity),并且可以准确定位(ground)开放词汇的描述。为了把引用(refer)和定位能力整合到模型中,Ferret采用一种混合区域表征(hybrid region representation)技术,整合个别方位和连续性的特征,以表示图片中的某一区域。为提取出区域中的连续特征,苹果研究人员提出一种空间感知的视觉采样器,它能处理不同形状多种稀疏性。这也使Ferret可以接受多样化区域输入,像是点、边界框、自由形式的形状。
为提升Ferret的能力,苹果团队使用了GRIT数据集(Ground-and-Refer Instruction-Tuning),后者为是一个广大的refer-and-ground指令微调数据集,包含110万个样本,内有丰富的阶层化空间知识,以及9.5万个负样本,以提升模型的判断力。
与Kosmos-2、GPT4-ROI、LLaVA、Shikra等多模态大语言模型比较,最后苹果得到的模型Ferret-13B,在传统引用及定位任务具有优异效能,此外,在区域为基础、需要本地化的多模态对话、细节描述,以及复杂推理等任务上,Ferret-13B的表现同样优于其他模型。在视觉化比较任务,苹果说它的模型展现优异的空间理解及常识推理能力。此外,苹果宣称其物件幻觉也较Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT及 mPLUG-Owl等知名模型少很多。
苹果公布了Ferret7B、130B二模型的 代码、GRIT数据集、标竿测试工具Ferret-Bench,上周也公布了Ferret 70B及130B检查点(checkpoint)。
有趣的是,在人工智能社区中,很多人都是到最近才发现苹果的大模型,Bart de Witte也在X上感叹自己居然错过了这个消息,同时也表示:“期待着有一天,本地大型语言模型能作为重新设计的iOS的集成服务,运行在我的iPhone上。”
随着苹果大模型的开发有了新的进展,Anthropic和OpenAI据称也在为其专有大语言模型的开发工作谈判新的巨额融资。路透社报道称,Anthropic正在讨论从Menlo Ventures募集7.5亿美元,而根据彭博社的报道,OpenAI“正在早期讨论以 1000 亿美元或以上的估值进行新一轮融资”。
好文章,需要你的鼓励
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
通用汽车宣布计划于2028年推出自动驾驶系统,允许驾驶员双眼离开道路、双手离开方向盘,首先应用于凯迪拉克Escalade IQ。该系统基于现有Super Cruise技术,采用激光雷达、雷达和摄像头感知技术,初期在高速公路使用。通用整合了已关闭的Cruise子公司的技术栈,包括基于500万英里无人驾驶数据训练的AI模型。目前美国仅奔驰拥有商用L3级自动驾驶系统。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。