Stable Diffusion 3 Medium TPU

Stable Diffusion 3 Medium 是一种多模态扩散变换器 (MMDiT) 文本到图像模型，在图像质量、排版、复杂提示理解和资源效率方面具有显著提升的性能。目前使用 Stable Diffusion 3 Medium 开源模型通过 sophon SDK 移植到 SG2300X 芯片系列产品上进行本地 TPU 硬件加速推理，实现快速推理生成特色风格带文本的图片，并使用 Gradio 实现用户交互。

有关 Stable Diffusion 3 Medium 更多技术细节，请参阅官方网站和研究论文。

应用部署

TPU 推荐内存设置：NPU->7615MB, VPU->2360MB, VPP->2360MB

克隆仓库

git clone https://github.com/zifeng-radxa/SD3-Medium-TPU.git

下载 radxa 提供的 Stable Diffusion 3 Medium models 压缩包

用户也可通过参考模型转换编译 Stable Diffusion 3 Medium 模型
```
cd SD3-Medium-TPU/python_demo/
bash tar_downloader.sh
```
当前路径解压模型
```
tar -xvf models.tar.gz
```
配置环境

必须创建虚拟环境，否则可能会影响其他应用的正常运行，虚拟环境使用请参考这里
```
cd SD3-Medium-TPU/python_demo/
python3 -m virtualenv .venv
source .venv/bin/activate
```

安装依赖

pip3 install --upgrade pip
pip3 install -r requirements.txt

启动 Web 服务
```
python3 gr.py
```
浏览器访问 Airbox ip 地址的 8999 端口

应用展示

Text-to-Image

Prompt: A cat with a sign text Welcome to radxa!

模型转换

TODO

License 许可

社区许可：免费用于研究、非商业和商业用途。只有当您的年收入超过 100 万美元并在商业产品或服务中使用 Stability AI 模型时，才需要付费的企业许可证。更多信息：https://stability.ai/license

对于超过此收入门槛的公司：请联系： https://stability.ai/enterprise

应用部署​

应用展示​

Text-to-Image​

模型转换​

License 许可​

应用部署

应用展示

Text-to-Image

模型转换

License 许可