今年很多话题都绕不开人工智能,已经成为日常生活一部分的智能手机更是如此。
许多家厂商已经发布了搭载生成式AI的智能手机,可以通过本地算力支撑一些生成式AI模型的使用。
不过,对于“生成式AI手机”的定义,业内长期没有定论,MediaTek近期举办的天玑开发者大会2024(MDDC 2024)上,深入研讨了生成式AI技术为移动生态带来的变革与全新机遇,同时联合业界生态伙伴发布《生成式AI手机产业白皮书》,共同定义生成式AI手机。
《生成式AI手机产业白皮书》提出“生成式AI手机”的概念:生成式AI手机是利用大规模、预训练的生成式AI模型,实现多模态内容生成、情境感知,并具备不断增强的类人能力。生成式AI手机开启了智能手机发展的新周期,长远看,智能手机将会发展为移动智能体。
白皮书认为,生成式AI手机需要具备这些特征:
《生成式AI手机产业白皮书》详细地阐述了生成式AI与智能手机深度融合的趋势,深入探讨了生成式AI手机生态中芯片厂商、手机厂商、大模型厂商、开发者的AI战略,以及生成式AI手机的软硬件科技全景,并给出了Counterpoint对生成式AI手机发展的预测。受益于强大的移动计算平台,丰富的不同体量的模型矩阵,完整的配套工具链,以及产业各方积极的应用探索,生成式AI手机将在未来几年保持高速成长,生成式AI手机的存量规模将在2027年突破10亿大关,帮助实现生成式AI技术的普惠。
与此同时,MediaTek延续天玑旗舰的突破精神,还在会上发布了天玑9300+旗舰5G生成式AI移动芯片,以先进的全大核架构设计和生成式AI引擎带来更优异的旗舰体验。
MediaTek天玑9300+ 采用全大核CPU架构,八核CPU包含4个 Cortex-X4 超大核,最高频率可达3.4 GHz,以及 4 个主频为 2.0GHz 的 Cortex-A720 大核,为高端手机用户和游戏玩家提供卓越体验。此外,天玑9300+ 拥有强大的生成式AI能力,率先在端侧支持AI推测解码加速技术,同时支持天玑AI LoRA Fusion 2.0技术,提供更高效和个性化的生成式AI体验。此外,天玑9300+支持前沿主流的生成式AI大模型,可为用户提供文字、图像、音乐等端侧生成式 AI 多模态创新体验。同时,还支持AI框架ExecuTorch,可加速端侧生成式AI应用的开发进程。
天玑9300+搭载星速引擎自适应技术,显著降低游戏在高画质运行时的功耗表现,让满帧畅玩更持久。MediaTek星速引擎网络质量监测系统可实时监控游戏网络的连接质量,支持游戏更高效运用Wi-Fi、蜂窝网络并发技术,为在线游戏提供持久流畅的网络连接体验。
自 “天玑”品牌诞生以来,MediaTek持续通过大力投资技术与开放合作,构建了蓬勃向上的天玑移动生态。今天,先进的生成式AI正在改变移动产业,MediaTek始终坚信科技能够改善人类生活,并致力于以技术创新驱动产业共融、共创、共赢,将携手更多生态伙伴构建基于生成式AI应用的新时代。
会上,MediaTek联动天玑平台合作伙伴,共启“天玑AI先锋计划”;分享了生成式AI端侧部署的解决方案“天玑AI开发套件”以及全场景的创新应用。大会还展示了基于MediaTek星速引擎技术所构建的丰富游戏生态和先进体验。MediaTek天玑9300+旗舰5G生成式AI移动芯片也在大会上公布,以卓越的全大核架构设计和生成式AI能力,助力终端设备旗舰体验再升级。
MediaTek董事、总经理暨营运长陈冠州表示:“生成式AI彻底革新了终端应用的使用价值,智能终端是生成式AI普及的关键载体。MediaTek凭借在边缘计算领域的深厚功底和丰富经验,每年赋能20亿智能终端设备,在人机交互、生产力、娱乐体验等方面带来了前所未有的创新。通过天玑平台的优势,以及‘天玑AI先锋计划’,MediaTek将融合产业生态伙伴的力量,高效地赋能开发者,加速建构从云端到终端的AI新生态,推动生成式AI技术在智能终端上的应用普及,让更多用户享受到全新的高端生成式AI体验,加速万物AI时代的到来。”
好文章,需要你的鼓励
首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。
SridBench是首个评估人工智能模型科研插图绘制能力的基准测试,由中国科学技术大学等机构研究团队创建。该测试包含1,120个来自自然科学和计算机科学13个学科的高质量样本,并设计了六维评估标准。实验结果显示,即使是目前表现最佳的GPT-4o-image模型也仅达到基本合格水平,文本信息缺失、视觉元素不完整和科学错误是主要瓶颈。这项研究揭示了AI科研绘图能力的现状,为未来技术发展提供了方向。
ChartLens是马里兰大学与Adobe研究院合作开发的创新技术,专门解决多模态大型语言模型在图表理解中的"幻觉"问题。这项研究提出了"后验细粒度视觉归因"方法,能够将AI对图表的分析结果与图表中的具体视觉元素(如特定柱形或数据点)精确关联起来,使AI的回答变得可验证。研究团队还创建了ChartVA-Eval基准测试集,并证明他们的方法比现有技术提高了26-66%的归因准确率,为金融分析、政策制定和科学研究等领域提供了更可靠的图表理解工具。
这篇论文介绍了一个名为"CrEval"的创新框架,用于跨领域评估文本创造力。研究团队构建了"CreataSet"数据集,包含超过10万条人类水平和100多万条合成创意文本,涵盖87个领域。基于此训练的CrEval评估器在与人类判断的一致性上显著优于现有方法,包括GPT-4o。研究发现,结合人类创建的数据和合成数据对训练有效评估器至关重要,且CrEval不仅能评估创造力,还能提升AI模型生成更有创意内容的能力,为创造力评估和提升开辟了新方向。