快科技6月13日美国圣何塞现场报道——
AMD今天正式发布了新一代AI加速卡Instinct MI350系列,硬件能力再次取得飞跃,进一步强化了面对NVIDIA的竞争力。
但是我们知道,硬件性能和技术要想完全释放潜力,尤其是在AI加速系统中,强大的软件开发平台是必不可少的。NVIDIA能在AI行业有如今的地位,最大的功臣和护城河就是CUDA。
AMD也有自己的一套ROCm开发平台,一直和NVIDIA CUDA都存在一定的差距,好在最近的进步幅度也是非常喜人的,包括对众多AI大模型、框架的即时支持,全方位的开源。
现在,我们又迎来了全新的ROCm 7版本,在最新模型与算法支持、高级AI特性、新硬件支持、集群管理、企业级特性等各方面,都再次有了长足的进步。
训练方面,ROCm 7支持一系列新特性,包括多个AMD开源模型、增强的AI框架、增强的内核与算法、新的数据类型(BF16/FP8)等等。
官方声称对比ROCm 6,实测在Llama 2/3.1、千问1.5等多个模型中,性能提升普遍达到了3倍乃至更高。
推理方面,新的变化同样不少,包括增强框架、Serving优化、内核与算法改进、高级数据类型(FP8/FP6/FP4/混合)等。
性能提升同样喜人,Llama 3.1、千问2、DeepSeek R1等模型实测平均达3.5倍,最高更是可达3.8倍。
有了ROCm 7的加持,MI355X面对NVIDIA B200也是丝毫不弱,比如DeepSeek R1 FP8吞吐量可以领先达30%。
当然这只是一个例子,AMD并未更多地对比自家新品和友商竞品。
除了数据中心、企业端,ROCm 7在消费端也有全面改进,新增原生支持Red Hat EPEL、Ubuntu、OpenSUSE等更多的Linux系统发行版,其中前两者下半年实现。
Windows平台上,也新增支持PyTorch、ONNX-EP两大框架,分别在三季度和7月份开放预览。
AMD还顺带介绍了下全线的消费级AI解决方案,比如移动端的锐龙AI 300系列最高可以本地端侧运行240亿参数大模型,锐龙AI Max 300系列更是能跑到700亿参数,而新一代线程撕裂者处理器、Radeon AI显卡组合最高可以搞定1280亿参数。