wordpress主题 站长,成都住建局官网住建智慧建管,个人博客网页制作,适合用于网站开发的工具chatglm-6b很强#xff0c;很多同学都想自己试一试#xff0c;但不是每个人都有GPU、高端显卡的环境#xff0c;大多数同学都是一台普通的笔记本。
笔者这里分享一下在自己的8G内存#xff0c;intel i3笔记本上安装部署chatglm-6b的实际经验。有很多网站都分享了一些经验很多同学都想自己试一试但不是每个人都有GPU、高端显卡的环境大多数同学都是一台普通的笔记本。
笔者这里分享一下在自己的8G内存intel i3笔记本上安装部署chatglm-6b的实际经验。有很多网站都分享了一些经验但不知道是不是环境的问题笔者自己发现按照网上的文章很多都走不通也是自己综合各个文章多次尝试才勉强算是成功运行了虽然运行特别慢但也算是个小成果废话不说了走起
第一大步 首先下载安装python依赖库这些呢没什么特别的事务性列举如下就不多说了在windows/linux下安装python什么的就不多说了笔者用的Python 3.10.6版本不能太低
1下载官方代码安装Python依赖的库
下载地址GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型 然后找到文件requirements.txt并运行 pip install -r requirements.txt 注意装完了后不一定够用反正缺啥装啥就完了也不啰嗦了
2下载INT4量化后的预训练结果文件
注意CPU上反正笔者用的INT4建议就用这个吧
INT4量化的预训练文件下载地址THUDM/chatglm-6b-int4 at main
完了在上面github下载的chatglm-6b-main新建个目录model把上面下载的一大堆文件包括模型binpy的一堆都拷贝进去
第二大步这一步是最重要的了大家可要注意了最好需要先安装CPU版本的torch
1需要安装GCC并配置环境变量 网上有很多材料有的说安装TDM-GCC有的又说安装mingw64有的又说安装win64devkit反正笔者自己的经验是win64devkit注意可以多装几个因为编译.so文件时和运行时要求的可能有时候要用不同的gcc如果不行就换一个反正win64devkit编译下面的.so是没问题的
2编译quantization_kernels.so与quantization_kernels_parallel.so 进行上面int4模型存放的目录即chatglm-6b-main/model运行如下命令
gcc -fPIC -pthread -fopenmp -stdc99 quantization_kernels.c -shared -o quantization_kernels.sogcc -fPIC -pthread -fopenmp -stdc99 quantization_kernels_parallel.c -shared -o quantization_kernels_parallel.so 注有可能只编译上面一个就够了哈哈
3修改cli_demo.py或者web_demo.py看你想运行哪一个 找到如下代码改成如下样子
tokenizer AutoTokenizer.from_pretrained(自己的目录\\ChatGLM-6B-main\\model, trust_remote_codeTrue)
model AutoModel.from_pretrained(自己的目录\\ChatGLM-6B-main\\model, trust_remote_codeTrue).float()
model model.quantize(bits4, kernel_file自己的目录\\ChatGLM-6B-main\\model\\quantization_kernels.so)
model model.eval()
其实主要就是GPU版本后面是.half().cuda()而这里是float()另外加载quantization_kernels.so
4运行python cli_demo.py应该就可以对话了 祝成功