MoE大模型推理加速技术

核心导读

提出基于热门专家预取与多 Batch 计算图重排技术,极致压缩计算气泡。在昇腾 910B 上实现吞吐量最高提升 85.12 倍,显存需求降低超 90%,成果发表于系统顶会 ASPLOS 2025

企业专属 AI 架构闭门会诊

本月开放 5 个限额席位,由资深教授领衔,携手核心博士专家团队出具专属蓝图。扫码填写业务场景,获取定制化可行性评估。

滚动至顶部