NPU 开发指南

瑞莎 Dragon 系列产品 SoC 搭载 Qualcomm® Hexagon™ Processor (NPU) 是专门用来做 AI 推理的硬件加速器。要使用 NPU 进行模型推理需要使用 QAIRT (Qualcomm® AI Runtime) SDK 对预训练好的模型进行模型移植。 Qualcomm® 为 NPU 开发者提供一系列 SDK 方便用户可以对自己的 AI 模型进行 NPU 移植工作。

模型量化库：AIMET
模型移植 SDK： QAIRT
模型应用库：QAI-APP-BUILDER

Qualcomm® NPU 软件栈

QAIRT

QAIRT (Qualcomm® AI Runtime) SDK 是一个集成了 Qualcomm® AI 软件产品的软件包，包括 Qualcomm® AI Engine Direct、Qualcomm® Neural Processing SDK 和 Qualcomm® Genie。 QAIRT 为开发者提供了在 Qualcomm® 硬件加速器上移植和部署 AI 模型所需的所有工具，以及在 CPU、GPU 和 NPU 上运行模型的 runtime。

支持推理后端

QAIRT SDK 架构

QAIRT 模型格式

QAIRT 基于不同的系统与不同的推理后端，有以下 3 种模型文件格式

格式	后端	跨系统	跨芯片
Library	CPU / GPU / NPU	No	Yes
DLC	CPU / GPU / NPU	Yes	Yes
Context Binary	NPU	Yes	No

提示

文档仅讲述基于 NPU 进行模型移植与部署，只讲述内存与性能最优的 Context-Binary 格式模型的转换与推理方法，有关其他格式模型的转换与不同后端的推理方法，请参考 QAIRT SDK 文档

SoC 架构对照表

SoC	dsp_arch	soc_id
QCS6490	v68	35

使用文档

AIMET

AIMET（AI Model Efficiency Toolkit）是一款面向深度学习模型（如 PyTorch 和 ONNX）的量化工具。AIMET 通过降低模型计算负载和内存占用，提升深度学习模型的运行性能。借助 AIMET，开发者可以快速迭代，找到最佳量化配置，以在精度和延迟之间达到最优平衡。开发者可以将 AIMET 导出的量化模型使用 QAIRT 编译并部署在 Qualcomm NPU 上，或直接使用 ONNX-Runtime 运行。

AIMET OVERVIEW

使用文档

QAI-APPBUILDER

Quick AI Application Builder (QAI AppBuilder) 可帮助开发者轻松使用基于 Qualcomm® AI Runtime SDK 在搭载 Qualcomm® Hexagon™ Processor (NPU) 的 Qualcomm® SoC 平台上部署 AI 模型和设计 AI 应用。它将模型部署 API 封装成一组简化的接口，用于将模型加载到 NPU 并执行推理。QAI AppBuilder 大大降低了开发者部署模型的复杂性并且提供多个 demo 让开发者参考设计自己的 AI 应用。

QAI-APPBUILDER 架构

Qualcomm® NPU 软件栈​

QAIRT​

支持推理后端​

QAIRT 模型格式​

SoC 架构对照表​

使用文档​

AIMET​

使用文档​

QAI-APPBUILDER​

使用文档​

Qualcomm® NPU 软件栈

QAIRT

支持推理后端

QAIRT 模型格式

SoC 架构对照表

使用文档

AIMET

使用文档

QAI-APPBUILDER

使用文档