GPT-4：GPT的一小步，多模态AI的一大步原创

作者：刘文轩

除了能更好的完成ChatGPT的工作，它还能读懂图片的深层含义。

在ChatGPT风靡全球数月后，OpenAI终于发布了它的大型多模态模型（large multimodal model）GPT-4，它不仅能与用户一起生成、编辑，完成创意的迭代和技术写作任务，更重要的是，它还能读懂图片。

GPT-4：GPT的一小步，多模态AI的一大步

OpenAI称，GPT-4“比以往任何时候都更有创造性”，可以“更准确地解决问题”。官方在这次的发布过程中也提到一些合作方，包括Duolingo、Stripe、Khan Academy等。其中，引入GPT-4之后，改变最为明显的就是一款叫“Be My Eyes”的应用。

Be My Eyes在全世界拥有600多万名志愿者和视障与盲人用户，志愿者可以帮助用户介绍摄像头拍摄的画面。GPT-4成为这个平台上的第一个虚拟志愿者，用户可以向这个虚拟志愿者传送图像，提供即时识别、解释，并且以对话的形式提供协助。

GPT-4：GPT的一小步，多模态AI的一大步

以往的GPT-3.5无法将上述操作变成现实，因为它不具备识别图片的能力。这也是GPT-4作为一个大型多模态模型，与ChatGPT的GPT-3.5最大的不同之处。

简单来说，GPT-3.5能够在一定程度上理解并使用人类的语言，而GPT-4则是具备以人类的视角理解图像的能力。

官方给出的一些案例也令人惊艳，它可以帮你解释一些迷因梗图，或指出图片中不自然的地方，或是根据简单的几幅图片给出说明，甚至可以看图总结论文、回答试卷中的问题。

GPT-4：GPT的一小步，多模态AI的一大步
GPT-4清楚解释了上面这幅梗图的含义

GPT-4：GPT的一小步，多模态AI的一大步
GPT-4指出了图中不自然的地方

GPT-4：GPT的一小步，多模态AI的一大步
GPT-4分别解释了图中每一格的画面内容

GPT-4：GPT的一小步，多模态AI的一大步
GPT-4分别回答了图片中的问题

多模态对GPT-4这样的生成式AI来说意义重大，除了Be My Eyes的例子，未来还可望应用到一些设计工具和图像处理产品上，连OCR（光学字符识别）技术也要甘拜下风了。

视频翻译产品Targum Video的创办人Altryne也表示，GPT-4的图像理解能力已经甩开现有模型数里地。

GPT-4：GPT的一小步，多模态AI的一大步

不过遗憾的是，OpenAI还没有把图像输入能力开放给公众体验，目前我们可以通过付费订阅ChatGPT Plus或Quora Poe来尝鲜。那么不会“看图说话”的GPT-4比GPT-3.5强在哪里呢？我们也通过Quora的Poe询问了一下GPT-4“本人”：

GPT-4：GPT的一小步，多模态AI的一大步

总的来说，相比GPT-3.5，GPT-4拥有更丰富的知识，对人类语言的理解能力也更准确，可以更好的理解整体对话的主题，不像以前那样一不小心就“歪楼”，非英语的语言理解能力也有所增强，生成的文本也会更连贯，可读性更高。

根据官方公布的数据，GPT-4不仅具备理解图片的能力，语言处理能力也有很大进步，GPT-4的中文能力已经超越GPT-3.5的英文能力了。

GPT-4：GPT的一小步，多模态AI的一大步

不过OpenAI CEO Sam Altman在Twitter上表示，GPT-4“仍然有局限性”，而且“第一次使用时似乎比你花更多时间使用它时更令人印象深刻”。

GPT-4：GPT的一小步，多模态AI的一大步

也就是说，仅从使用体验出发，GPT-4在语言能力上的改变更多体现在一些细微之处，不会像ChatGPT刚出现时那样惊为天人，不过对于多模态AI的实现来说，GPT-4的出现确也让人类再次迈出具有历史意义的一大步。

来源：至顶网商用办公频道

0赞

好文章，需要你的鼓励

GPT-4：GPT的一小步，多模态AI的一大步 原创

来源：至顶网商用办公频道

2023

03/15

16:10

分享

点赞

Hot Chips｜NVIDIA的下一块“未来版图” Spectrum-XGS 定义“行星级”AI超级工厂

英特尔携手亚马逊云科技，以至强6处理器驱动云服务创新

LibreOffice 25.8发布：性能提升并支持PDF 2.0

微软AI高管称研究AI意识问题是"危险的"

谷歌AI搜索模式全球扩展推出智能体预订功能

PCIe 7.0和8.0标准即将到来，超高速连接2028年实现

基于事件驱动的智能体AI重塑企业资源规划系统

微软研究院推出革命性提示词语言POML：普通开发者也能轻松驾驭大模型

从AI崛起到智算中心腾飞，电力保障如何重新定义未来

机器人软件创企FieldAI获4.05亿美元融资

Epic发布医疗智能体系统重新定义健康产业生态

量子即服务(QaaS)正在改变企业获取量子计算能力的方式

当超1/4美国高中生用ChatGPT学习：一场静默的教育革命正在发生

Sam Altman最新博文《反思》：有信心构建AGI，2025年首批AI智能体将“加入劳动力大军”

惊喜！Sam Altman确定OpenAI新产品，AGI、Agents、成人模式

2024，AI这一年

ChatGPT可视频通话，距离“Her”越来越近 (Day 6/12)

突破性功能！OpenAI发布ChatGPT Projects，万能工具箱上线！

谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

OpenAI精心打造的Sora视频生成工具疑遭泄露

王者归来！Greg重返OpenAI，主抓重大技术创新

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

GPT-4：GPT的一小步，多模态AI的一大步原创