ChatGLM2 Chatbot-TPU
ChatBot-TPU 是使用 Sophon SDK 将清华大学 KEG 实验室开源 ChatGLM2 模型移植到 SG2300X 芯片系列产品上, 使其能利用本地 TPU 进行硬件加速推理,并使用 Gradio 设计成聊天机器人, 用户可以向其询问一些实际问题
-
克隆仓库
git clone https://github.com/zifeng-radxa/chatbot
-
下载 chatglm2 模型,本案例提供三种 chatglm2 模型,分别是 int8-2048,int8-1024,int4-512
假设我们使用int4-512模型(采用int4的量化,最大token长度为512)
# chatglm-int4-512
wget https://github.com/radxa-edge/TPU-Edge-AI/releases/download/chatglm-int4-512/tar_downloader.sh
bash tar_downloader.sh
tar -xvf chatglm-int4-512.tar.gz
# chatglem-int8-1024
# wget https://github.com/radxa-edge/TPU-Edge-AI/releases/download/chatglm-int8-1024/tar_downloader.sh
# bash tar_downloader.sh
# tar -xvf chatglm-int8-1024.tar.gz
# chatglm-int8-2048
# wget https://github.com/radxa-edge/TPU-Edge-AI/releases/download/chatglm-int8-2048/tar_downloader.sh
# bash tar_downloader.sh
# tar -xvf chatglm-int8-2048.tar.gz得到文件树架构如下
.
├── chatbot
└── chatglm-int4-512