11月16日晚10点,AMD正式发布了首款基于全新CDNA架构的Instinct MI100加速显卡,以及配套的ROCm 4.0生态系统。
首次正式亮相的CDNA架构专门为高性能计算所打造,而基于该架构的AMD Instinct MI100加速显卡将进一步逼近百亿亿次级计算时代,同时也是AMD向前方开拓新发展路径的新旗舰产品。
AMD高级副总裁兼服务器业务总经理Dan McNamara表示,在高性能计算方面,整个行业发展十分迅速。我们看到的趋势是,工作负载的多样性在不断增加,高性能计算已经进入到很多领域,包括从传统科研,气象研究,生命科学,电子设计自动化到商业应用,从AI、机器学习到算法培训等等,如何通过CPU和GPU方面的组合更好地服务于客户、为客户带来更多单位成本性能和减少总体拥有成本,将是AMD极其重要的战略之一。
不过最令用户之间关心的,相信还是本次发布的新品加速显卡。AMD平台解决方案工程研发全球副总裁Brad Mccredie对此进行了全面解读。
在整个过去20年里,整个高性能计算经历了三个阶段,分别是TERASCALE、PETASCALE和现在的EXASCALE。在这个过程中我们需要一系列技术来支持EXASCALE这样一个百亿亿次级计算。
作为一款针对高性能计算而专门设计的行业领先GPU产品,AMD Instinct MI100旨在为推动百亿亿次级计算时代到来,能够实现10TF(十万亿次双精度计算速度),具备Matrix核心技术。与AMD上一代产品相比有着巨大的性能提升,能够实现高达70%的AI计算加强;而与竞争对手相比,在每单位性能上也是对方的两倍。特别是在搭配第二代AMD EPYC处理器使用时,还可为系统提供更强的加速性能。
20年前ASCI White超级计算机进入超算领域,并率先突破10TF关卡。20年之后,现在单个GPU仅在6兆瓦的性能上就可实现这样一个性能水平,这就是AMD Instinct MI100加速显卡,可以说这就是20年后非常巨大的成就之一。
目前市面上的大部分GPU采用的都是通用架构,这意味着这个架构既用于游戏图形处理,也用于复杂数学方面的处理,实际上很大的制约了向百亿亿次级计算的发展。而AMD选择将这两部分分离,为我们已经所熟知的针对游戏行业的RDNA架构,以及针对超算计算的CDNA架构。这样的分离可以帮助相关人员进一步针对领域内的工作负载进行优化。
以AMD Instinct MI100为例,CDNA架构可在同一晶片上放入了两倍数量的计算单元,并可以嵌入微架构以更好的适应AI和高性能计算的工作负载。同时在16位浮点计算和混合精度计算方面也能实现7倍以上的性能提升,另外通过Infinity架构还可以将GPU的带宽提升4倍、通过HBM2内存来实现20%的位宽提升。
上文中多次提到的AMD Instinct MI100加速显卡正在进一步逼近百亿亿次级计算时代,而AMD Instinct MI100的双精度计算性能可以达到11.5TF的水平,单精度计算水平会更高。
据介绍,橡树岭国家实验室就通过使用MI100来进行相关工作负载,在分子动力学负载中,与v100加速显卡相比速度提升3倍。而在Fluid Turbulence的工作负载中,也比v100加速显卡有2.6倍的速度优势。作为早期客户使用的效果来看,这一数据十分具有说服力。
另外,AMD还强调既要有世界级硬件,也需要世界级生态来做配套。为此,还推出搭配使用的开源软件站ROCm 4.0,为百亿亿次级计算提供了新基础。
该平台不仅相较上两代产品,可实现MI100高达5-8倍的性能提升,还可为开发者们提供简单快捷的代码迁移功能,甚至最短1天就可完成某些代码的迁移工作。
自代号为“罗马”的第二代霄龙处理器发布以来,AMD在服务器市场便收获了不俗的成绩,时至今日它仍是市面上行业领先的x86服务器。根据Intersect360此前的调查显示,从16年至今,用户对霄龙处理器的前瞻性印象和好感度增加了两倍之多。
如今,AMD在MI100加速显卡和ROCm 4.0开源平台的推出后,除了进一步完善AMD在服务器市场的产品布局外,相信也定将会为客户们带来更为优越的HPC工作基础,推动百亿亿次级时代抢先到来!
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。