• 首页
  • 关于我们
  • 新闻公告
  • 推理入门成本直降90%!昆仑技术实现鲲鹏+单张昇腾卡跑DeepSeek满血版

    推理入门成本直降90%!昆仑技术实现鲲鹏+单张昇腾卡跑DeepSeek满血版

    推理入门成本直降90%!昆仑技术实现鲲鹏+单张昇腾卡跑DeepSeek满血版

    2025年03月20日 阅读 4

    打破算力壁垒,国产化大模型推理迎来里程碑

    在全球AI竞赛白热化的今天,KTransformers是当前最火热的最低成本的Deepseek满血版推理方案。KunLun AI Space大模型加速引擎在此基础上完成两项重大技术突破:移植KTransformers到鲲鹏+昇腾全国产生态,同时使用自研算子替代Marlin算子,实现单张昇腾300I DUO推理卡高效运行满血版DeepSeek大模型。这标志着中国AI产业首次构建起“国产硬件替代+国产软件加速”双轨并行的大模型推理体系,进一步完善了鲲鹏和昇腾产业生态,为千行百业提供高性价比、自主创新的算力选择。

    技术突破一:深度适配优化支持鲲鹏920 CPU指令加速,极致性价比方案刷新行业记录

    通过深度适配优化ARM架构上的KTransformer推理框架,使单张昇腾加速卡也能驾驭千亿级大模型:

    • 显存瓶颈突破:采用CPU-NPU异构协同调度技术,将稀疏矩阵计算动态卸载至鲲鹏920的DDR4内存池,配合4bit量化压缩,单张昇腾加速卡可承载DeepSeek 671B全参数推理,显存占用从700GB锐减至仅需12GB。

    • 算力极致释放:利用2*鲲鹏920的128核并行计算能力,实现NUMA架构下的零拷贝数据传输,将算力利用率提升至98%(126核/128核)。

    • 极致性价比:对比业界常规推理方案,基于“鲲鹏920 CPU+300I Duo推理卡”的推理方案成本最多能够降低90%。

    技术突破二:昇腾 300I DUO+自研算子,国产化全栈方案弯道超车

    为进一步完善国产化DeepSeek推理方案,昆仑技术针对昇腾300I Duo推理卡重构软件技术底座:

    • Marlin算子替代:自主研发基于昇腾300I Duo推理卡深度优化的INT4*BP16反量化矩阵乘算子,大幅减小显存占用与NPU带宽压力,充分激发昇腾300I Duo 推理卡的澎湃算力。

    • 注意力计算引擎适配 :集成昇腾NPU原生加速库,利用npu_fusion_attention 算子,实现KV Cache复用率和上下文窗口的大幅提升,显著提升长序列任务的计算密度与推理效率。

    • 显存分配与卸载策略优化 :针对昇腾300I Duo推理卡更细致的显存分配与卸载策略。

    昆仑技术此次在大模型推理领域的突破,不仅显著降低了推理成本,更通过创新技术方案提升了AI算力的可及性与效率,推动AI技术在更多行业和场景中的深度应用。未来,随着技术的持续迭代和生态系统的完善,昆仑技术将推出更多创新解决方案,推动全球AI产业向更高效、更普惠的方向发展。

    分享至