跳到主要内容

音频分类

gst-ai-audio-classification 对音频流执行音频事件分类,识别声音类型(如人声、音乐、环境噪声等)。

使用 YAMNet 模型,默认配置为 CPU 推理。

前提条件

步骤

1. 确认模型和标签

radxa@airbox$
ls -l /etc/models/yamnet.tflite
ls -l /etc/labels/yamnet.json

2. 查看配置

radxa@airbox$
cat /etc/configs/config-audio-classification.json

关键字段:

字段默认值说明
file-path/etc/media/video-mp3.mp4输入音频/视频文件(MP3 编码)
model/etc/models/yamnet.tflite模型文件
labels/etc/labels/yamnet.json标签文件
threshold10置信度阈值
codecmp3音频编码格式
runtimecpu推理硬件

默认使用 CPU 推理。如需 DSP 推理,将 runtime 改为 dsp 并添加 ml-framework: "tflite"

3. 运行

radxa@airbox$
gst-ai-audio-classification --config-file=/etc/configs/config-audio-classification.json

Ctrl + C 停止。

预期输出

终端输出:

Running app with model: /etc/models/yamnet.tflite and labels: /etc/labels/yamnet.json
Pipeline state changed from PAUSED to PLAYING

显示器上播放测试视频,音频分类结果叠加显示。

验证

  • Pipeline 进入 PLAYING 状态
  • 终端持续输出音频分类结果
  • 显示器显示分类标签

工作原理

YAMNet 是基于 AudioSet 数据集训练的音频事件分类模型,支持 521 种音频类别。Pipeline 流程:

filesrc → qtdemux → (音频解码) → qtimlaudioconverter

qtimltflite (推理)

qtimlaclassification

(分类标签叠加显示)

    您需要登录 GitHub 才能发表评论。如果您已登录,请忽略此消息。

    Radxa-docs © 2026 by Radxa Computer (Shenzhen) Co.,Ltd. is licensed under CC BY 4.0