谷歌推出 DiffusionGemma 文本扩散模型:本地 AI 推理速度提升 4 倍

我爱分享  ·  2026-06-11

谷歌推出 DiffusionGemma,本地 AI 推理速度提升4倍

IT之家 6 月 11 日消息,谷歌今天正式宣布推出 DiffusionGemma,这是一款基于文本扩散机制的开放 AI 模型,相比较自回归模型在本地推理速度上提升了 4 倍

什么是 DiffusionGemma?

自回归模型(Autoregressive Model)是当前主流的大语言模型架构(如 GPT、Gemini),按照从左到右的顺序逐个生成 Tokens。该架构在云端批处理场景下效率较高,但在本地推理时受限于内存带宽,存在计算资源浪费问题。

而扩散模型(Diffusion Model)通过从噪声中逐步去噪的方式生成输出。与自回归模型逐个生成 token 不同,扩散模型并行处理所有 token,逐步优化整体输出质量,在本地低带宽计算环境下具有显著的推理速度优势。

性能表现

在代码生成方面,LiveCodeBench 达 30.9%,BigCodeBench 达 45.4%,HumanEval 达 89.6%,与 Gemini 2.0 Flash-Lite 互有胜负。

数学能力表现亮眼,AIME 2025 取得 23.3%,超越对比模型的 20.0%,展现出扩散架构在推理任务上的潜力。

速度优势

英伟达在官方博文中指出,该模型的扩散设计能充分发挥 GPU 的 Tensor Core 并行计算能力:

  • 单块 H100 GPU:每秒 1000 个 token
  • DGX Spark:每秒 150 个 token
  • DGX Station:每秒 2000 个 token,约为同等条件下自回归模型的 4 倍

开源信息

该模型采用 Apache 2.0 许可证开源,用户可从 Hugging Face 下载模型权重。

来源:IT之家

 科技
评论
混沌伯乐. All Rights Reserved. Theme Jasmine by Kent Liao.