11月16日晚10点,AMD正式发布了首款基于全新CDNA架构的Instinct MI100加速显卡,以及配套的ROCm 4.0生态系统。
首次正式亮相的CDNA架构专门为高性能计算所打造,而基于该架构的AMD Instinct MI100加速显卡将进一步逼近百亿亿次级计算时代,同时也是AMD向前方开拓新发展路径的新旗舰产品。
AMD高级副总裁兼服务器业务总经理Dan McNamara表示,在高性能计算方面,整个行业发展十分迅速。我们看到的趋势是,工作负载的多样性在不断增加,高性能计算已经进入到很多领域,包括从传统科研,气象研究,生命科学,电子设计自动化到商业应用,从AI、机器学习到算法培训等等,如何通过CPU和GPU方面的组合更好地服务于客户、为客户带来更多单位成本性能和减少总体拥有成本,将是AMD极其重要的战略之一。
不过最令用户之间关心的,相信还是本次发布的新品加速显卡。AMD平台解决方案工程研发全球副总裁Brad Mccredie对此进行了全面解读。
在整个过去20年里,整个高性能计算经历了三个阶段,分别是TERASCALE、PETASCALE和现在的EXASCALE。在这个过程中我们需要一系列技术来支持EXASCALE这样一个百亿亿次级计算。
作为一款针对高性能计算而专门设计的行业领先GPU产品,AMD Instinct MI100旨在为推动百亿亿次级计算时代到来,能够实现10TF(十万亿次双精度计算速度),具备Matrix核心技术。与AMD上一代产品相比有着巨大的性能提升,能够实现高达70%的AI计算加强;而与竞争对手相比,在每单位性能上也是对方的两倍。特别是在搭配第二代AMD EPYC处理器使用时,还可为系统提供更强的加速性能。
20年前ASCI White超级计算机进入超算领域,并率先突破10TF关卡。20年之后,现在单个GPU仅在6兆瓦的性能上就可实现这样一个性能水平,这就是AMD Instinct MI100加速显卡,可以说这就是20年后非常巨大的成就之一。
目前市面上的大部分GPU采用的都是通用架构,这意味着这个架构既用于游戏图形处理,也用于复杂数学方面的处理,实际上很大的制约了向百亿亿次级计算的发展。而AMD选择将这两部分分离,为我们已经所熟知的针对游戏行业的RDNA架构,以及针对超算计算的CDNA架构。这样的分离可以帮助相关人员进一步针对领域内的工作负载进行优化。
以AMD Instinct MI100为例,CDNA架构可在同一晶片上放入了两倍数量的计算单元,并可以嵌入微架构以更好的适应AI和高性能计算的工作负载。同时在16位浮点计算和混合精度计算方面也能实现7倍以上的性能提升,另外通过Infinity架构还可以将GPU的带宽提升4倍、通过HBM2内存来实现20%的位宽提升。
上文中多次提到的AMD Instinct MI100加速显卡正在进一步逼近百亿亿次级计算时代,而AMD Instinct MI100的双精度计算性能可以达到11.5TF的水平,单精度计算水平会更高。
据介绍,橡树岭国家实验室就通过使用MI100来进行相关工作负载,在分子动力学负载中,与v100加速显卡相比速度提升3倍。而在Fluid Turbulence的工作负载中,也比v100加速显卡有2.6倍的速度优势。作为早期客户使用的效果来看,这一数据十分具有说服力。
另外,AMD还强调既要有世界级硬件,也需要世界级生态来做配套。为此,还推出搭配使用的开源软件站ROCm 4.0,为百亿亿次级计算提供了新基础。
该平台不仅相较上两代产品,可实现MI100高达5-8倍的性能提升,还可为开发者们提供简单快捷的代码迁移功能,甚至最短1天就可完成某些代码的迁移工作。
自代号为“罗马”的第二代霄龙处理器发布以来,AMD在服务器市场便收获了不俗的成绩,时至今日它仍是市面上行业领先的x86服务器。根据Intersect360此前的调查显示,从16年至今,用户对霄龙处理器的前瞻性印象和好感度增加了两倍之多。
如今,AMD在MI100加速显卡和ROCm 4.0开源平台的推出后,除了进一步完善AMD在服务器市场的产品布局外,相信也定将会为客户们带来更为优越的HPC工作基础,推动百亿亿次级时代抢先到来!
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。