性能基准测试
Benchmark 是了解硬件平台网络模型运行速度的最佳途径。
信息
基准测试结果可能因具体应用场景和模型优化程度而有所不同,仅供参考
测试说明
- 测试工具:axcl_run_model
- Batch Size:1 or 8
- 单位:FPS(Frame/Second)
信息
由于不同 Host 其 memcopy、pcie 性能差异,因此 axcl_run_model 只统计网络模型在 Device 上的推理耗时
视觉模型
| 视觉模型 | 输入尺寸 | 单张推理 (次/秒) | 八张并行推理 (次/秒) |
|---|---|---|---|
| Inceptionv1 | 224 | 1073 | 2494 |
| Inceptionv3 | 224 | 478 | 702 |
| MobileNetv1 | 224 | 1508 | 4854 |
| MobileNetv2 | 224 | 1366 | 5073 |
| ResNet18 | 224 | 1066 | 2254 |
| ResNet50 | 224 | 576 | 1045 |
| SqueezeNet11 | 224 | 1560 | 5961 |
| Swin-T | 224 | 342 | 507 |
| ViT-B/16 | 224 | 162 | 207 |
| YOLOv5s | 640 | 326 | 394 |
| YOLOv6s | 640 | 282 | 322 |
| YOLOv8s | 640 | 248 | 279 |
| YOLOv9s | 640 | 237 | |
| YOLOv10s | 640 | 298 | |
| YOLOv11n | 640 | 860 | |
| YOLOv11s | 640 | 305 | |
| YOLOv11m | 640 | 114 | |
| YOLOv11l | 640 | 87 | |
| YOLOv11x | 640 | 41 |
音频模型
| 音频模型 | 实时因子 |
|---|---|
| Whisper-Tiny | 0.03 |
| Whisper-Small | 0.18 |
| MeloTTS | 0.04 |
大语言模型
| 大语言模型 | 提示长度(词元数) | 首字延迟 (毫秒) | 生成速度 (词元数/秒) |
|---|---|---|---|
| Qwen2.5-0.5B | 128 | 188 | 28 |
视觉语言模型
| 视觉语言模型 | 输入尺寸 | 图像编码器耗时 (毫秒) | 提示长度(词元数) | 首字延迟 (毫秒) | 生成速度 (词元数/秒) |
|---|---|---|---|---|---|
| InternVL2-1B | 448*448 | 4200 | 320 | 425 | 29 |