跳到主要内容

Qwen3-VL-2B-Instruct

本文档演示如何在瑞莎 AX-M1 上运行 Qwen3-VL-2B-Instruct 模型:

模型参数量量化方式Hugging Face 仓库
Qwen3-VL-2B-Instruct2BGPTQ-Int4AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4

安装 axllm 工具

axllm 是 AXERA 提供的 LLM 推理工具,支持命令行交互和 OpenAI 兼容 API。

方式一:克隆仓库后执行安装脚本

git clone -b axllm https://github.com/AXERA-TECH/ax-llm.git
cd ax-llm
./install.sh

方式二:一行命令安装(默认分支 axllm

curl -fsSL https://raw.githubusercontent.com/AXERA-TECH/ax-llm/axllm/install.sh | bash

方式三:下载 GitHub Actions CI 导出的可执行程序

如果没有编译环境,请到 ax-llm Actions 下载最新 CI 导出的可执行程序:

chmod +x axllm
sudo mv axllm /usr/bin/axllm

下载模型

创建虚拟环境并安装 huggingface_hub

python3 -m venv .venv
source .venv/bin/activate
pip install huggingface_hub

下载模型

hf download AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4 --local-dir ./Qwen3-VL-2B

运行模型

命令行交互模式

axllm run Qwen3-VL-2B/

VLM 使用说明:

  • 每轮输入 prompt 后,会提示 image >>
    • 直接回车:本轮仅文本对话
    • 输入图片路径:图文对话
    • 输入 video:<frames_dir>:视频/多帧对话
使用提示

如果在输入图片路径时打错字再删掉,可能无法正确识别图片路径。遇到这种情况时,请输入 /reset 重置 kvcache 后重新输入。

Qwen3-VL-2B 示例图片

$ axllm run Qwen3-VL-2B/
...
Commands:
/q, /exit 退出 /reset 重置 kvcache
/dd 删除一轮对话 /pp 打印历史对话
Ctrl+C: 停止当前生成VLM enabled: after each prompt, input image path (empty = text-only). Use "video:<frames_dir>" for video.
----------------------------------------
prompt >> 这是一张什么图片?
image >> ./image.png
18:53:42.571 INF Run:1023 | ttft: 740.26 ms
这是一张描绘太空人(宇航员)在丛林中探险的图片。他们穿着白色宇航服,站在茂密的绿色植物中,背景是深色的,整体色调偏冷,营造出一种神秘、科幻的氛围。

18:57:35.909 NTC Run:1145 | hit eos,avg 4.65 token/s

OpenAI 兼容 API 服务模式

axllm serve Qwen3-VL-2B/

服务启动后,可通过 HTTP 请求调用:

from openai import OpenAI

API_URL = "http://127.0.0.1:8000/v1"
MODEL = "Qwen3-VL-2B"

messages = [
{"role": "system", "content": [{"type": "text", "text": "你是一个乐于助人的AI助手。"}]},
{"role": "user", "content": "你好"},
]

client = OpenAI(api_key="not-needed", base_url=API_URL)
completion = client.chat.completions.create(
model=MODEL,
messages=messages,
)

print(completion.choices[0].message.content)

性能

模型输入尺寸图片数量TTFT生成速度CMM 内存
Qwen3-VL-2B-Instruct384×3841740.26 ms4.65 token/s2384 MB
信息
  • TTFT (Time To First Token):首 token 延迟
  • 生成速度:单位为 tokens/second
  • 测试平台:Rock 5B Plus + AX-M1

    您需要登录 GitHub 才能发表评论。如果您已登录,请忽略此消息。

    Radxa-docs © 2026 by Radxa Computer (Shenzhen) Co.,Ltd. is licensed under CC BY 4.0