当前位置：首页 > news >正文

知名商城网站建设报价深圳做网站公司华

news 2025/12/20 14:14:58

知名商城网站建设报价,深圳做网站公司华,汽车之家官网网页版入口,东莞网页设计制作公司前言最近一直在炼丹#xff08;搞AIGC这块#xff09;#xff0c;突然发现业务代码都索然无味了… 上次发了篇AI画图的文章#xff0c;ChatGPT虽然没法自己部署#xff0c;但现在开源的LLM还是不少的#xff0c;只要有一块差不多的显卡#xff0c;要搞个LLM本地部署还…前言最近一直在炼丹搞AIGC这块突然发现业务代码都索然无味了… 上次发了篇AI画图的文章ChatGPT虽然没法自己部署但现在开源的LLM还是不少的只要有一块差不多的显卡要搞个LLM本地部署还是没问题的。本文将介绍这以下两个国产开源LLM的本地部署 ChatGLM-6BMOSS 本文先简单的把模型跑起来后续将继续我近期在LLM方向的一些探索记录~ 概念开始之前先来看看一些基础概念。 AIGC 引用以下 mbalib 的内容 AIGCAI Generated Content 即人工智能生成内容又称“生成式AI”Generative AI被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。互联网内容生产方式经历了PGC——UGC——AIGC的过程。PGCProfessionally Generated Content是专业生产内容如Web1.0和广电行业中专业人员生产的文字和视频其特点是专业、内容质量有保证。UGCUser Generated Content是用户生产内容伴随Web2.0概念而产生特点是用户可以自由上传内容内容丰富。**AIGCAI Generated Content**是由AI生成的内容其特点是自动化生产、高效。随着自然语言生成技术NLG和AI模型的成熟AIGC逐渐受到大家的关注目前已经可以自动生成文字、图片、音频、视频甚至3D模型和代码。最近很多的ChatGPT、AI画图就都属于这个领域。 LLM 引用以下 wikipedia 的内容 A large language model (LLM) is a language model consisting of a neural network with many parameters (typically billions of weights or more), trained on large quantities of unlabeled text using self-supervised learning or semi-supervised learning. LLMs emerged around 2018 and perform well at a wide variety of tasks. This has shifted the focus of natural language processing research away from the previous paradigm of training specialized supervised models for specific tasks. 中文也就是「大语言模型」现在很火的ChatGPT就是这个LLM的代表大模型有一个关键的属性参数量参数量的大小决定了大模型的能力不能说是绝对的但肯定是正相关。以下是常见LLM的参数量 LLM名称参数量ChatGPT 3.5175BChatGLM6BMOSS16BLLaMA7B/13B/33B/65B 篇幅关系只列举这几个更多的可以看文后的参考资料。搭建环境硬件首先要有一台搭载了NVIDIA显卡的Linux系统服务器/电脑。显存需要达到8G及以上不然跑不动~ 系统推荐使用最新的Ubuntu(22.04)或者其衍生版以下是我在测试过程中使用的两台服务器配置。服务器1 CPU Intel® Core™ i9-10940X CPU 3.30GHz内存64G显卡NVIDIA GeForce RTX 2080 Ti 服务器2 CPUIntel® Xeon® Gold 5318Y CPU 2.10GHz x2内存128G显卡 Tesla T4 x4 软件说完了硬件再看看软件。驱动首先需要显卡驱动Ubuntu系的发行版安装显卡驱动比喝水还容易这就是为啥推荐炼丹用Ubuntu的理由。 PS完全可以一键完成不需要再去网上查什么复制了几百遍的博客然后下载一堆东西又是编译又是卸载nouveau啥的了~ Ubuntu桌面版可以直接用「软件更新」App一键安装显卡驱动。 Ubuntu服务器版本使用 nvidia-detector 命令检测需要安装的驱动版本示例 $ nvidia-detector nvidia-driver-530 使用 ubuntu-drivers list 获取可安装的驱动列表示例 $ ubuntu-drivers list nvidia-driver-418-server, (kernel modules provided by nvidia-dkms-418-server) nvidia-driver-530, (kernel modules provided by linux-modules-nvidia-530-generic-hwe-22.04) nvidia-driver-450-server, (kernel modules provided by linux-modules-nvidia-450-server-generic-hwe-22.04) nvidia-driver-515, (kernel modules provided by linux-modules-nvidia-515-generic-hwe-22.04) nvidia-driver-470-server, (kernel modules provided by linux-modules-nvidia-470-server-generic-hwe-22.04) nvidia-driver-525-server, (kernel modules provided by linux-modules-nvidia-525-server-generic-hwe-22.04) nvidia-driver-515-server, (kernel modules provided by linux-modules-nvidia-515-server-generic-hwe-22.04) nvidia-driver-510, (kernel modules provided by linux-modules-nvidia-510-generic-hwe-22.04) nvidia-driver-525, (kernel modules provided by linux-modules-nvidia-525-generic-hwe-22.04) nvidia-driver-470, (kernel modules provided by linux-modules-nvidia-470-generic-hwe-22.04) 然后使用 ubuntu-drivers install nvidia-driver-530 来安装驱动示例 $ ubuntu-drivers install nvidia-driver-530All the available drivers are already installed. 就这么简单 PS当然非要自己去NVIDIA官网下载也可以具体可以看看参考资料。 Python 搞AIPython是必备的但我们不直接使用系统的Python环境而是使用conda来管理。推荐使用 miniconda3 比 anaconda 轻量。按照官网说明按照 miniconda3 之后只需要使用以下命令即可创建指定版本的python环境 conda create -n 环境名称 python3.10 如果遇到网络环境问题可以参考我之前这篇文章配置一下国内镜像配置pip国内镜像加快python第三方库安装速度~ ChatGLM-6B 介绍这是清华和智谱公司搞的开源LLM截止本文撰写时其在国产开源LLM里面算是天花板的存在了~ ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型基于 General Language Model (GLM) 架构具有 62 亿参数。结合模型量化技术用户可以在消费级的显卡上进行本地部署INT4 量化级别下最低只需 6GB 显存。 ChatGLM-6B 使用了和 ChatGPT 相似的技术针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练辅以监督微调、反馈自助、人类反馈强化学习等技术的加持62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。硬件需求量化等级最低 GPU 显存推理最低 GPU 显存高效参数微调FP16无量化13 GB14 GBINT88 GB9 GBINT46 GB7 GB 本地部署下载项目代码 git clone https://github.com/THUDM/ChatGLM-6B.git PS也可以使用我 fork 魔改的版本主要做了以下修改部署和模型微调默认开启多卡加速重写API接口更直观换成以下命令即可 git clone https://github.com/Deali-Axy/ChatGLM-6B.git 创建虚拟环境建议使用 conda 管理 conda create -n chatglm python3.8 安装依赖 cd ChatGLM-6B conda activate chatglm pip install -r requirements.txt conda install cudatoolkit11.7 -c nvidia PS没有安装 cudatoolkit 的话会报 RuntimeError: Library cudart is not initialized 错误但 issues 里也有人说可以通过使用CPU输出量化模型后直接调用的方式解决暂未尝试。 issues 地址: github.com/THUDM/ChatG… 下载模型和启动项目代码里有命令行和web界面两种demo任意选一个运行程序会自动从 huggingface 下载预训练模型。 PS: huggingface 的模型理论上是可以直接下载的如果遇到网络问题请自行使用代理或者从官方提供的某云盘下载模型。 # 命令行 demo python cli_demo.py # 使用 Gradio 实现的简单Web界面 python web_demo.py Gradio 的默认端口是7860可以通过在 launch() 方法里传入 server_port 参数自定义端口。使用量化模型如果显存没有13G以上则无法运行FP16精度模型只能运行量化后的模型需要修改一下代码。打开上述的 cli_demo.py 或 web_demo.py 代码找到以下加载模型的代码修改一下参数 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().cuda() 将上面的代码修改为下面这样以使用量化模型 # 按需修改目前只支持 4/8 bit 量化 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).quantize(4).half().cuda() 运行效果多卡加速如果显卡多可以使用多卡运行以加速推理。依然是打开上述的 cli_demo.py 或 web_demo.py 代码。找到以下加载模型的代码 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().cuda() 修改为 from utils import load_model_on_gpus model load_model_on_gpus(THUDM/chatglm-6b, num_gpus4) num_gpus 参数为要使用的显卡数量我看了 load_model_on_gpus 这个方法的代码它是通过 auto_configure_device_map 方法把 transformer分成30层然后再分配到指定数量的显卡上没法像 CUDA_VISIBLE_DEVICES 环境变量一样通过显卡编号来指定只能按顺序来分配。如果机器上同时要运行其他模型可以考虑先运行这个ChatGLM再运行其他的或者重写 auto_configure_device_map 方法让其可以灵活指定显卡。授权模型不可以直接商用据说商用需要购买一年180w的许可证。 MOSS 介绍这个是复旦开源的大模型使用下来和ChatGLM最大的区别是推理速度特别慢 MOSS是一个支持中英双语和多种插件的开源对话语言模型moss-moon系列模型具有160亿参数在FP16精度下可在单张A100/A800或两张3090显卡运行在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。硬件需求量化等级加载模型完成一轮对话估计值达到最大对话长度2048FP1631GB42GB81GBInt816GB24GB46GBInt47.8GB12GB26GB 本地部署下载代码 git clone https://github.com/OpenLMLab/MOSS.git 创建虚拟环境建议使用 conda 管理 conda create -n moss python3.8 安装依赖 cd MOSS conda activate moss pip install -r requirements.txt conda install cudatoolkit11.7 -c nvidia 下载模型和启动项目代码里有命令行和web界面两种demo任意选一个运行程序会自动从 huggingface 下载预训练模型。 # 命令行 demo python moss_cli_demo.py # 使用 Gradio 实现的简单Web界面 python moss_web_demo_gradio.py 修改默认模型和多卡加速因为MOSS对显存的要求比较高因此默认用的是4位量化的模型这里我使用一台4块T4的服务器来部署所以直接使用FP16模型。修改 moss_web_demo_gradio.py找到以下代码 parser.add_argument(--model_name, defaultfnlp/moss-moon-003-sft-int4,...) 把 default 参数改为 fnlp/moss-moon-003-sft 然后再设置一下多卡加速把GPU参数设置为四个显卡的编号 parser.add_argument(--gpu, default0,1,2,3, typestr) 然后启动就可以看到四张显卡都吃满了使用下来最大的感受就是慢往往要一两分钟才能生成一个回答。我看了下GitHub issues有很多人也提出了同样的问题。两张A100还需要10s起步100s左右的生成时间看来短时间内是无解了只能等官方优化了~ 详见 github.com/OpenLMLab/M… 授权模型采用 GNU AFFERO GENERAL PUBLIC LICENSE 许可证可以免费商用。如何学习大模型现在社会上大模型越来越普及了已经有很多人都想往这里面扎但是却找不到适合的方法去学习。作为一名资深码农初入大模型时也吃了很多亏踩了无数坑。现在我想把我的经验和知识分享给你们帮助你们学习AI大模型能够解决你们学习中的困难。我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习等录播视频免费分享出来需要的小伙伴可以扫取。一、AGI大模型系统学习路线很多人学习大模型的时候没有方向东学一点西学一点像只无头苍蝇乱撞我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。二、AI大模型视频教程三、AI大模型各大学习书籍四、AI大模型各大场景实战案例五、结束语学习AI大模型是当前科技发展的趋势它不仅能够为我们提供更多的机会和挑战还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型我们可以深入了解深度学习、神经网络等核心概念并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时掌握AI大模型还能够为我们的职业发展增添竞争力成为未来技术领域的领导者。再者学习AI大模型也能为我们自己创造更多的价值提供更多的岗位以及副业创收让自己的生活更上一层楼。因此学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

查看全文

http://www.pierceye.com/news/336500/