智能手机品牌的竞争,以往都围绕性能、参数、拍摄能力、轻薄程度等方面展开,伴随着2023年AI大模型的火热,手机上的“百模大战”终于也要来了,而“蓝厂”vivo在今天的开发者大会上,一口气就亮出5款大模型。
在今天的开发者大会上,vivo正式发布了旗下的自研通用AI大模型矩阵——蓝心大模型(BlueLM)。vivo认为,真正好的自研大模型有5个特点——大而全、算法强、真安全、自进化、广开源。蓝心大模型包含十亿、百亿、千亿三个参数量级共5款,全面覆盖核心场景。
十亿级别大模型中,70亿级别的蓝心大模型7B是面向手机打造的端云两用模型,vivo称在语言理解、文本创作等场景下表现十分优秀。
蓝心大模型1B则是面向端侧场景打造的专业文本大模型,具备本地化的文本总结、摘要等能力,强调处理的准确与安全。
百亿级别大模型,700亿的蓝心大模型70B是面向云端服务的一款模型,在角色扮演、知识问答等场景下表现优异。vivo介绍称,截至10月,在SuperCLUE、C-Eval、CMMLU三大榜单中,它的综合能力国内排名第一。
千亿级别的包含两款千亿参数模型——1300亿的蓝心大模型130B和1750亿的蓝心大模型175B ,能以更丰富的知识量带来更加专业的智能体验。
从现场的演示与说明来看,vivo自研的AI大模型能够做到流利的对话和问答,还能够以文字生成图片、总结提炼文章内容还有生成思维导图。除此之外,还可以应用到教育、法律等领域,包括1万多个K12知识点、2300多万的K12试题、2亿以上的大学考试题目、2万多件国家法律法规、10万多条法律相关知识、1000多万条法律相关案例等。
为了让开发者更方便地使用这些大模型,vivo还推出蓝心大模型开发套件BlueKit,帮助开发者专注于创新产品体验,而无需考虑使用成本。
其实早在2018年,vivo就已经组成300人规模的图谱研究院,专门从事知识图谱的建设到2023年落地,自研大模型足足经历了八年。目前也依旧保持千人规模的AI专家团队,不断在AI领域研究和探索。
成立至今,研究院维持着千人规模的研发团队。到2021年,vivo专注研发大模型的团队已经超过600人。2018年以来,vivo累计在顶级期刊发表高水平论文70余篇,并持续将顶尖学术成果转化为算法和工程应用,vivo图谱研究院目前已累计2800TB数据。
基于蓝心大模型,vivo推出AI对话机器人“蓝心千询”,可以进行知识信息的快速问答和文学创作,也能生成图片和编写程序。未来,蓝心千询将在各大手机应用商店上架,所有手机用户都可以下载使用。
对于vivo自家操作系统OriginOS 4,vivo则推出专属的“蓝心小V”,由vivo AI技术加持。作为内置于OriginOS 4的虚拟助理,能够与系统功能很好地结合使用,具备的能力自然也比蓝心千询多一些,包括文案写作、AI修图、图像识别、语音识别、翻译等。
用户可以通过语音、文字、拖拽的方式与蓝心小V互动,同时还有小巧的悬浮态,不用时最小化挂起,需要时点击打开。蓝心小V可以将现有知识进行系统化的归类呈现,以思维导图的形式梳理逻辑,给用户灵感启发。在搜索文件时,用户可以像聊天一样查询,无需精确输入指令,即便描述得很模糊,它也能很好地理解并提供结果。
发布会上,vivo还宣布了蓝河操作系统(BlueOS),采用全新智慧架构,号称是全球首款用Rust语言编写系统框架的操作系统,支持大模型、多模态交互,应用程序运行速度提升61%,响应速度提升18%。
蓝河操作系统对硬件配置的要求也很低,据称连200MHz CPU、32MB内存的设备都可以运行。
在大模型能力的加持下,蓝河操作系统扩展了输入能力,能够支持声音、图片、文字、视频、手势、手语、脑波等的识别。支持通过自然语言描述来生成专属的壁纸主题,甚至可以帮你自动写代码。
蓝河操作系统支持BlueXlink连接协议,采用分布式设计理念,兼容行业标准协议,让数据可以在多设备间完成自由、安全的流转和访问,能够服务于智能家居、智慧出行、智慧办公等多种场景。不过首款搭载蓝河操作系统的设备不是手机,而将是vivo WATCH 3智能手表。
在今年这场开发者大会上,vivo全面展示了它在AI大模型领域的成果。对于用户来说,蓝心大模型可能只是一个让传统虚拟助理好用一些的新技术,但对于vivo自身来说,这背后是多年来的潜心研发。
然而这还只能算是一个开始,伴随着更多手机厂商入局,想真正了解蓝心大模型的竞争力如何,接下来的优化、升级和迭代才更加重要。不过颇为遗憾的是,在今天上午的发布过程中,vivo并没有特别演示端侧大模型在无网络环境下的具体表现如何,不然一定会惊艳全场。
好文章,需要你的鼓励
科技专家Sungjoo Yoon在TED演讲中提出"偏好原理",认为了解用户喜好信息越多,就能创造更强大的技术。他将市场变化比作"地壳运动",从1969年命令行界面到80年代GUI,再到90年代网络界面,技术发展都遵循这一规律。自然语言处理能建立信任,而AI智能体时代的到来意味着非人类参与者将在人类主导的世界中发挥作用。
德国图宾根大学研究团队发现现代AI视觉模型具备强大的图像排序能力,能够理解年龄、美观程度等连续属性并进行准确排序。研究测试了7种AI模型在9个数据集上的表现,发现CLIP模型表现最佳,且仅需极少样本就能学会排序。这一突破为照片管理、电商展示、社交媒体等领域提供了新的技术方案。
微软推出了Copilot Vision AI新功能,该技术能够扫描和分析用户屏幕上的所有内容。这项AI视觉技术可以实时理解用户正在查看的信息,包括文本、图像和应用程序界面,为用户提供更加智能化的交互体验和个性化建议。此功能的推出标志着AI助手向更深层次的用户体验集成迈进。
KAUST团队开发UnMix-NeRF技术,首次实现3D场景重建与材料识别的同步。该系统利用光谱成像技术,能够识别物体的材料特性,不仅重建逼真3D场景,还可自动分离不同材料区域。技术在多个数据集上表现优异,为机器人、增强现实、工业检测等领域带来新突破。