MoE大模型推理加速技术

核心导读

提出基于热门专家预取与多 Batch 计算图重排技术，极致压缩计算气泡。在昇腾 910B 上实现吞吐量最高提升 85.12 倍，显存需求降低超 90%，成果发表于系统顶会 ASPLOS 2025

本月开放 5 个限额席位，由资深教授领衔，携手核心博士专家团队出具专属蓝图。扫码填写业务场景，获取定制化可行性评估。