Meta AI:方便但不够亮眼的虚拟助手

Meta AI易于使用,提供的图像生成器也相当酷炫。但幻觉问题和乏善可陈的改进效果使其仍处于市场中游水平。

如果Meta AI能抢在ChatGPT发布之前就抢先亮相,那我可能会对Meta打造的这款虚拟助手留下更深刻的印象。又或者,如果还没有Microsoft Copilot,Meta AI接入开放互联网并使用实时信息生成响应的能力倒也算惊艳。或者是Perplexity那对接Reddit数据库的设计。哪怕是Meta AI最具决定性的差异化因素——Imagine图像生成器,跟Dall-E 3以及Adobe Firefly相比也没什么过人之处。虽然它比“幻觉聚合体”谷歌Gemini表现稍好,但还肯定比不上目前的卫冕冠军Anthropic Claude,这还是在Claude没有接入开放互联网的情况下。

Meta AI的beta版发布于2023年9月,这是一款开发自“大语言模型Meta AI”,也就是Llama的成熟会话型助手。我认为Meta行动稍慢倒也不是大问题,毕竟只要能充分用好这段时间、拿出更出色的成果,后发先至其实是招妙棋。但遗憾的是,Meta AI在我眼中有着种种缺憾,所以并没能从一众竞争对手中脱颖而出。

也就是说,我的确相信Meta AI将在用户的数字生活中占据一席之地,毕竟它已经切实落地、融入应用场景。在Instagram、Facebook、Messenger、WhatsApp 甚至Meta的Ray-Ban 智能眼镜上,Meta公司已经将聊天机器人广泛集成至自家产品和平台当中。现如今,Meta希望在此基础之上更进一步。

这对于你我这样的普通用户肯定是个好消息,因为虽然Meta AI不够完美,但的确便捷易用。下面来看由Llama 3大模型提供支持的最新Meta AI在购物辅助、菜谱设计、研究工具和图像生成等场景下的实际表现。

我们的AI聊天机器人测试方法

我们选择以重实践的方式评测AI聊天机器人,希望确定目标方案相较于竞争对手有多出色,以及最擅长处理哪些任务。为此,我们根据现实世界的用例向AI输入提示词,例如查找并修改食谱、研究旅行路线以及撰写电子邮件。我们按照10分制对聊天机器人进行评分,其中会考虑到准确性、响应结果的创造性、幻觉数量及响应速度等因素。

Meta在其AI服务条款中写道,该公司可以“保留并使用”用户提交至其生成式AI聊天机器人的任何信息,包括提示词内容。Meta还特别提醒用户:“不要分享您不希望AI保留和使用的信息。”条款指出,Meta可以根据第三方搜索引擎的隐私政策,与“帮助我们为您提供相关度更高、实用性更强的响应”的第三方共享用户信息。大家可以通过输入提示符/reset-ai 从 Meta AI 的历史记录中删除之前的信息,这样可以删除Meta服务器上的AI对话副本。但用户仍可在客户端查看聊天内容。

使用Imagine生成图像

使用Meta AI的Imagine功能来创建AI生成图像确实是种酷炫的体验,但结果仍然不够稳定和完美。Meta的图像生成速度很快,普遍在1分钟以内。而更有趣的是,在开始撰写第一条提示词时Meta就会开始生成图像,并在持续输入的过程中不断更新其内容。

Meta AI:方便但不够亮眼的虚拟助手

这种迭代过程能帮助大家理解Meta的思路,并根据需要进行调整。例如,以下视频也展示了我自己在编写提示词时经历的过程,包括如何引导AI生成特定的画面。相较于Meta擅长的卡通风格,我更想要比较写实的图像,而实时预览能帮我在输入过程中直接实现这一点。

在完成提示词并按下回车键后,Imagine功能会给出四张图像。所有图像的左下角都有一个小水印,写着“Imagined with AI”。我生成的很多图像乍看之下似乎没什么问题,但放大后就会发现很多AI图像生成器的常见瑕疵。比如我生成了几张狗追飞盘的图像,其中没有一只狗能达到以假乱真的程度,而且问题在写实风格图像中更明显。不过总体而言,Imagine的表现还算让人满意。

如果大家不喜欢Meta生成的内容,也可以继续发送后续信息来完善画面内容。另外,只需单击每批图像下方的“Animate”动画按钮,就能将图像制作成GIF等格式的动图。

购物场景

在进行购物决策时(比如选择新的智能手机或者电视),我们往往会因为信息量过大而感到不知所措。整理官方评论、规格表、各家零售平台价格差异,甚至是好友和TikTok评测视频可能需要花费大量时间。在这方面,AI能够发挥良好作用,帮助我们快速缩小搜索范围。

最近我一直在浏览新款手机,所以很好奇Meta AI会给出怎样的推荐。我告诉Meta自己目前在使用一部旧的iPhone 11,对新机的要求是拍摄质量出色、存储空间充裕,另外价格不要太高。Meta列出了2024年最佳智能手机名单,不出所料其中都是些手机大厂的最新型号,包括iPhone 15 Pro Max和三星Galaxy S24 Ultra。

我承认自己可能有点老派、或者是抠门,但我一直不觉得新的就一定更好。所以我又提出了很多问题:拍照质量最好的手机是哪款?哪款iPhone相较于11代实现了重大升级?如果我想从苹果生态转向Android,需要注意哪些问题?苹果会推出折叠屏iPhone吗?Meta AI很好地解决了这些问题,不仅引用了比较权威的消息来源,还指出了一些我之前没考虑到的情况。

总而言之,Meta AI确实是款很棒的购物决策工具,能够从不同机型之间提取规格,并在交流中准确理解和分析技术术语。它还帮助我比较了手中的iPhone 11与预期购买机型之间的主要区别。我不确定是为什么,但在测试购物查询时,发现Meta AI出现的幻觉和瑕疵要比其他测试场景更少。

Meta的表现跟Perplexity和Gemini基本相当。当然,在创意模式下,Claude和Copilot也是很好的AI购物助手。但这里提醒大家,千万不要在缺少最新信息的情况下用聊天机器人辅助购物,比如ChatGPT 3.5,因为这会错过最新的评测和产品。

设计菜谱

不知道大家是不是跟我一样,我这人最喜欢在美食博客上学做菜了。对于这类需求,AI食谱同样会带来出乎意料的助益。

跟其他聊天机器人一样,Meta会剔除掉菜谱和美食博客上的一切废话,仅以易于理解的形式提供配料与说明。我请Meta AI为我最近最喜欢的一餐——Gigi Hadid的爆款超辣伏特加意面整理食谱。Meta成功了,很快调出了我在社交媒体上看到的确切食谱。我还要求Meta生成更通用的食谱,比如提供多种配料选择的意面沙拉,它同样顺利完成了任务。Meta的表现与Perplexity、Copilot 和 ChatGPT 3.5 等竞争对手类似,但这项测试中的最终赢家是谷歌Gemini,能够提供更可靠的配料列表和更具体的操作步骤。

顺带一提,我们也可以要求Meta将每种配料的量化数值添加到说明当中,这样就不用在配料和说明之间来回滚动了。这能节约大量时间,也解决了我在烹饪中最头痛的问题。

研究和准确性

用过谷歌搜索的朋友们都知道,研究工作中最重要的两大要素,就是信息及时性与来源可信度。换句话说,就是要判断信息是不是最新的、是不是真实可信的。Meta与Google和Bing的实时集成,以及对确切来源的引用能力,理论上足以造就一款优秀的研究工具。但在实践测试之后,我发现它的水平还不够。

我请Meta为我查寻关于美洲原住民社区中性别角色与权力结构间关系的优秀学术期刊论文,特别是经过同行评审的论文以及近期新发表的文章。在回复中,Meta提供一份包含五个来源的清单,涉及一份小学课程计划,发表于1989年、2000年和2002年的论文,以及一篇未注明日期的法律期刊文章。在谷歌上简单搜索后,我得知这篇文章可能发表于2006年。其中只有两篇出自美洲本土学者之手,这也是判断文章是否权威的关键因素。相比之下,使用同样的搜索词直接求助于谷歌反而能获得更多更新的信源。

而在我要求Meta总结这些信源时,它生成了一份全面且细致的报告。但考虑到这些信源同样缺乏针对性,所以我暂时对其内容持保留态度。而后我要求Meta整理一份美洲本土学者名单,它确实提供了一份发表过相关文章和书籍的真实人员名单,但其中部分专业游离于我的要求范围以外。

Meta AI可能是个不错的研究起点,我们可以用它提出关键搜索术语、查找特定领域学者的姓名,以及初步熟悉某个专业主题。尽管如此,大量幻觉和误解导致我们仍不能完全信任于它。它类似于一个低质版的AI维基百科——拿来入门可以,但请务必认真检查其信息来源。

Calude和Copilot是目前性能最强的研究工具,能通过链接的来源生成可用的结果。Perplexity也不会像Meta那样产生大量幻觉,但在聚合信息方面似乎力有不逮。ChatGPT 3.5(未联网)与Gemini(已联网)则在幻觉方面与Meta处于同一水平。

总结能力

我要求Meta总结一下我今年早些时候撰写的一篇,解释“联邦宇宙”概念的文章。我将文章 URL复制并粘贴到了提示词内,Meta也顺利对内容做出了总结。Meta生成的初步摘要虽然简单,但质量还算不错。而在要求它扩展解释后,我得到了更多关键细节,不过Meta AI仍然活力了我在原文中列出的大量重要上下文。

Meta可以分析大量文本,因此我将文章的完整内容复制并粘贴到Meta AI中并要求它进行总结,由此得到的响应质量更高。例如,在之前仅提供URL的总结中,Meta告诉“联邦宇宙”是由能够相互交流的社交媒体平台组成的集合,这话没错。但在分析完整文章文本之后,它指出这是一套去中心化的社交平台系统,这才把握住了“联邦宇宙”概念的核心。它还提到我调整Threads账户设置以启用“联邦宇宙”共享的相关说明,这是此前摘要中缺少的另一个重要组成部分。

Meta的总结跟Gemini一样,在给出完整文章文本时都能做出很好的总结,而仅通过URL链接的总结也说得过去。ChatGPT 3.5这边则有一些问题,而且由于存在字符数限制,我们很难用它来总结长文档。Claude和Perplexity则未能给出充分的总结结论。

出行规划

有些用户可能喜欢规划旅行、整理评论、制定出行指南,并通过TikTok及各主要度假目的地的资讯网站设计路线。我本人不是旅行爱好者,所以用AI享受一把虚拟出行就可以了。为了测试Meta AI,我让它创建几条行程和计划,指向的是一处风景宜人但却不太出名的目的地:加拿大阿尔伯塔省班夫镇。

由于Meta AI能够使用来自谷歌和Bing的实时信息,因此与未接入互联网的聊天机器人相比,我当然对其抱有更高的期待。然而,Meta推荐的地点已经永久关闭,它还编造了几家餐饮的名称并宣称所有设施都在山体同侧、“步行即可到达”。说实话,我对这样的表现相当失望。哪怕是在真实存在的选项当中,Meta也在整个旅程中多次推荐了相同的地点,这跟我所期待的探索之旅显然相去甚远。

可以肯定地说,我绝不会使用Meta为自己的未来出行规划行程。Meta更擅长的是帮我找到特定的餐饮、酒店和远足路径。即使如此,其中仍然充斥着问题和幻觉。但我发现,指导Meta收窄每项活动的最佳选项数量,其实有助于避免一些问题。以旅行规划助理来看,Copilot的表现最好,其次是Claude和ChatGPT 3.5,Gemini则和Meta一样喜欢信口胡说。

另外值得指出的是,我觉得Meta并没有充分权衡它所推荐活动及出行方式的安全性。Meta会在计划末尾添加注释,提醒我检查天气预报和当地交通时间表,并负责任地安排饮酒,但这样的免责声明实在有些敷衍。对于一段旅程,安全肯定是首要任务,特别是对我这种独自出行情况。考虑到Meta离谱的幻觉问题,我绝对不敢轻易采用Meta AI提供的任何旅行计划。

撰写电子邮件

Meta的邮件写作能力一般。而且我对Meta AI撰写邮件的最大担忧,就是它的常规证据特别单调——可以说是机械感极强。而且只要不特别要求,它就绝不会模仿人类的证据。当我要求Meta对我已经写好的电子邮件做点润色时,它的表现马上就好起来了。之后我又要求它生成一封基础邮件,内容是安排一场会面,并要求它调整证据(更专业、更友好等),Meta也做出了相应的改变。

我还给聊天机器人布置了一项更艰巨的任务,就是撰写一封关于在大学环境中使用AI技术的道德考虑因素的推介性邮件。从结果中涵盖的不同用途以及潜在道德影响角度来看,Meta的表现相当不错。虽然看起来有点不完全是原创——感觉Meta就像是在将相关主题安插进固定的模板当中,但这封邮件的内容还是相当全面的。如果要严肃使用,我会再做一点润色并添加自己的文字风格让它不那么单调。

作为对话能力最强的聊天机器人,Cluade在这项任务上表现出色。Meta则与谷歌Gemini、ChatGPT 3.5和Perplexity等竞争对手并驾齐驱。微软Copilot拒绝根据我提供的素材撰写这类内容,称主题过于敏感。虽然Meta跟其他聊天机器人的表现相当,但我注意到Grammarly的生成式AI撰写的电子邮件更加顺畅自然。

Meta AI:蓦然回首,它在灯火阑珊处

Meta AI最大的亮点之一,就是总在你需要它的地方守候。无论大家如何理解,Meta确实掌握着运营着全球最大的多种社交媒体平台。通过将其AI成果整合进这些平台当中,Meta已经在竞争当中脱颖而出,并创造出最易于访问的AI产品之一。

但能够轻松访问Meta AI,并不意味着它就真值得我强烈推荐给大家。Meta一直饱受幻觉、错误及各类误导性响应的困扰——对于一款接入开放互联网的聊天机器人来说,这确实令人感到失望。Meta在购物辅助和食谱设计方面表现出色,其中的Imagine图像生成器也堪称一个亮点。但它的旅行规划简直糟糕透顶,在学习和研究方面的表现充其量也只能算是普普通通。

那么,Meta AI跟ChatGPT 3.5、Copilot、Perplexity、Gemini和Claude几位对手相比,究竟孰优孰劣?总的来看,它的表现绝对优于Gemini,而且在我的个人排名中,Meta AI也要好于缺乏最新数据加持的ChatGPT 3.5。而Claude、Perplexity和Copilot则可算作Meta AI旗鼓相当的竞争对手,并在某些任务中有着更好的表现。但必须承认,如果我在浏览Instagram动态时想要快速解决某些问题,那么使用Meta AI的优先级已经高于谷歌搜索或者转去打开其他聊天机器人了。便捷性当然不能说明一切,但在适当的场景下,方便的确很重要。

来源:CNet

0赞

好文章,需要你的鼓励

2024

05/10

13:10

分享

点赞

邮件订阅