北京网站建设公司华网,郑州室内设计工作室,湖北做网站公司,网站ui设计给用户提交什么CPU运行智谱大模型ChatGLM-6B
说明
我的服务器配置是16C32G#xff0c;跑大模型最好内存要大一些才行#xff0c;不然跑不起来。
下载
git clone https://github.com/THUDM/ChatGLM-6B.git
安装依赖包
pip install -r requirements.txt
下载模型文件
在huggingface上…CPU运行智谱大模型ChatGLM-6B
说明
我的服务器配置是16C32G跑大模型最好内存要大一些才行不然跑不起来。
下载
git clone https://github.com/THUDM/ChatGLM-6B.git
安装依赖包
pip install -r requirements.txt
下载模型文件
在huggingface上需要翻墙有条件的可以直接下载不行可以使用国内的镜像。需要一个个文件下载
https://huggingface.co/THUDM/chatglm2-6b
*** 国内推荐国内推荐国内推荐-1 *** https://aifasthub.com/models/THUDM
*** 国内推荐-2 *** https://hf-mirror.com/THUDM/chatglm2-6b
下载后我把模型文件保存到/opt/models/chatglm2-6b目录下。
修改代码把GPU改成CPU
打开ChatGLM-6B-main目录的cli_demo.py文件修改源代码
import os
import platform
import signal
from transformers import AutoTokenizer, AutoModel
import readlineMODEL_PATH/opt/models/chatglm2-6btokenizer AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_codeTrue)
# 把这一行复制一下并注释掉
#model AutoModel.from_pretrained(MODEL_PATH, trust_remote_codeTrue).half().cuda()
# 把上面的一行改成以下一行
#model AutoModel.from_pretrained(MODEL_PATH, trust_remote_codeTrue).half().cpu()
# 或则去掉cpu()改成以下这样也可以
model AutoModel.from_pretrained(MODEL_PATH, trust_remote_codeTrue).half()
model model.eval()运行cli_demo.py
运行客户端代码后会出现命令行的输入交付方式
$ python cli_demo.py 欢迎使用 ChatGLM-6B 模型输入内容即可进行对话clear 清空对话历史stop 终止程序用户你是谁?ChatGLM-6B我是一个名为 ChatGLM2-6B 的人工智能助手是基于清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练的语言模型开发的。我的任务是针对用户的问题和要求提供适当的答复和支持。
注意此时可以观察以下CPU的使用状况。可以看到其中有一个CPU的使用率达到100%其他的其实没有用起来。 另外还有其他几个demo比如web_demo.py等还是同样的修改方式由于我这里是登录到服务器上去运行大模型所以暂时没有运行web_demo.py的前端代码。
待改进的问题
目前我的机器是16C32GCPU配置虽然能够把ChatGLM-6B跑起来而且能够正常的回答问题但运行速度非常慢几个字几个字的往外跳出来。 而跑其他的大模型也是同样的效果哪怕是最小的llama-chinese也很慢。这个后续需要想办法优化。