AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

快科技6月13日美国圣何塞现场报道——

AMD今天正式发布了新一代AI加速卡Instinct MI350系列，硬件能力再次取得飞跃，进一步强化了面对NVIDIA的竞争力。

但是我们知道，硬件性能和技术要想完全释放潜力，尤其是在AI加速系统中，强大的软件开发平台是必不可少的。NVIDIA能在AI行业有如今的地位，最大的功臣和护城河就是CUDA。

AMD也有自己的一套ROCm开发平台，一直和NVIDIA CUDA都存在一定的差距，好在最近的进步幅度也是非常喜人的，包括对众多AI大模型、框架的即时支持，全方位的开源。

现在，我们又迎来了全新的ROCm 7版本，在最新模型与算法支持、高级AI特性、新硬件支持、集群管理、企业级特性等各方面，都再次有了长足的进步。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

训练方面，ROCm 7支持一系列新特性，包括多个AMD开源模型、增强的AI框架、增强的内核与算法、新的数据类型(BF16/FP8)等等。

官方声称对比ROCm 6，实测在Llama 2/3.1、千问1.5等多个模型中，性能提升普遍达到了3倍乃至更高。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

推理方面，新的变化同样不少，包括增强框架、Serving优化、内核与算法改进、高级数据类型(FP8/FP6/FP4/混合)等。

性能提升同样喜人，Llama 3.1、千问2、DeepSeek R1等模型实测平均达3.5倍，最高更是可达3.8倍。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

有了ROCm 7的加持，MI355X面对NVIDIA B200也是丝毫不弱，比如DeepSeek R1 FP8吞吐量可以领先达30％。

当然这只是一个例子，AMD并未更多地对比自家新品和友商竞品。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

除了数据中心、企业端，ROCm 7在消费端也有全面改进，新增原生支持Red Hat EPEL、Ubuntu、OpenSUSE等更多的Linux系统发行版，其中前两者下半年实现。

Windows平台上，也新增支持PyTorch、ONNX-EP两大框架，分别在三季度和7月份开放预览。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍

AMD还顺带介绍了下全线的消费级AI解决方案，比如移动端的锐龙AI 300系列最高可以本地端侧运行240亿参数大模型，锐龙AI Max 300系列更是能跑到700亿参数，而新一代线程撕裂者处理器、Radeon AI显卡组合最高可以搞定1280亿参数。

AMD正式发布ROCm 7开发平台：AI训练、推理性能暴涨至高3.8倍