当前位置: 首页 > news >正文

企业网站建设可行性分析wordpress是可视化编辑

企业网站建设可行性分析,wordpress是可视化编辑,信息技术八年级上册网站建设,网站建设副业llama.cpp是当前最火热的大模型开源推理框架之一#xff0c;支持了非常多的LLM的量化推理#xff0c;生态比较完善#xff0c;是个人学习和使用的首选。最近阿里开源了通义千问大语言模型#xff0c;在众多榜单上刷榜了#xff0c;是当前最炙手可热的开源中文大语言模型。…llama.cpp是当前最火热的大模型开源推理框架之一支持了非常多的LLM的量化推理生态比较完善是个人学习和使用的首选。最近阿里开源了通义千问大语言模型在众多榜单上刷榜了是当前最炙手可热的开源中文大语言模型。今天在github上看到前几天llama.cpp已经支持Qwen的推理了但是由于是近期才开源的网上还没有太多使用llama.cpp来推理通义千问的实例。本着学习的目的今天就来实操一下作为记录也给需要的同学一些参考。由于最大的Qwen-72B太大了下载需要较久时间这里我们使用的是次一级的Qwen-14B的版本。 前提条件 已正确安装llama.cpp 能够访问HuggingFace原始模型下载 通义千问模型在https://huggingface.co/Qwen/Qwen-14B-Chat/tree/main下载。 模型和相关代码配置文件 需要下载的文件包括 模型文件 model-00001-of-00015 , … , model-00001-of-00015等 代码文件configuration_qwen.pymodeling_qwen.pytokenization_qwen.py 配置文件config.jsontokenizer_config.jsonmodel.safetensors.index.json 将上述文件下载到llama.cpp项目的models目录下这里我放到了models/Qwen/14B/目录下。 需要魔法上网不然国内无法顺利下载。 代码和配置都需要下载完全不然llama.cpp转换的时候会报错。 模型格式转换 下载下来的模型是HuggingFace的格式需要将HuggingFace的safetensors格式的模型文件转换成gguf格式才能使用llama.cpp推理。在llama.cpp项目根木目录执行转换脚本 python convert-hf-to-gguf.py --model /workspace/Codes/llama.cpp/models/Qwen/14B得到输出为 Loading model: 14B gguf: This GGUF file is for Little Endian only Set model parameters Set model tokenizer gguf: Adding 151387 merge(s). gguf: Setting special token type bos to 151643 ... ... blk.39.ffn_gate.weight, n_dims 2, torch.bfloat16 -- float16 output_norm.weight, n_dims 1, torch.bfloat16 -- float32 output.weight, n_dims 2, torch.bfloat16 -- float16 Model successfully exported to /workspace/Codes/llama.cpp/models/Qwen/14B/ggml-model-f16.gguf提示将模型格式转换成fp16的gguf格式即为转换成功。转换成功后models/Qwen/14B/就会得到ggml-model-f16.gguf模型文件。 若在转换过程中报错提示缺少transformers和tiktoken等库按提示pip install即可。 模型量化 格式转换后得到的是模型参数是fp16的推理所需的资源还是比较多速度相对较慢。想要进一步降低推理所需计算资源需要对fp16的gguf模型进行量化。llama.cpp提供了多种量化方式包括INT4,INT8量化及其各种变体。这里以INT4为例来进行量化执行如下命令 ./quantize models/Qwen/14B/ggml-model-f16.gguf q4_0 # q4_0代表进行INT4量化得到输出为 ggml_init_cublas: GGML_CUDA_FORCE_MMQ: no ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes ggml_init_cublas: found 1 CUDA devices:Device 0: NVIDIA GeForce RTX 4070, compute capability 8.9 main: build 1601 (5a7d312) ... ... [ 321/ 323] blk.39.ffn_gate.weight - [ 5120, 13696, 1, 1], type f16, quantizing to q4_0 .. size 133.75 MiB - 37.62 MiB | hist: 0.036 0.016 0.025 0.039 0.057 0.077 0.096 0.111 0.117 0.111 0.097 0.077 0.057 0.039 0.025 0.021 [ 322/ 323] output_norm.weight - [ 5120, 1, 1, 1], type f32, size 0.020 MB [ 323/ 323] output.weight - [ 5120, 152064, 1, 1], type f16, quantizing to q6_K .. size 1485.00 MiB - 609.08 MiB | hist: llama_model_quantize_internal: model size 27023.93 MB llama_model_quantize_internal: quant size 7794.73 MB llama_model_quantize_internal: hist: 0.036 0.016 0.025 0.039 0.056 0.077 0.096 0.112 0.118 0.112 0.096 0.077 0.056 0.039 0.025 0.021 main: quantize time 41580.08 ms main: total time 41580.08 ms执行完成之后会在models/Qwen/14B/目录下生成ggml-model-Q4_0.gguf文件 ggml-model-Q4_0.gguf 部署推理量化模型 得到我们想要的INT4量化的模型后就可以部署推理了。llama.cpp项目编译生成的main可执行文件是推理的入口可以直接在命令行运行main文件执行推理。同时llama.cpp也提供了多个执行脚本能够更方便进行推理。这里以examples/chat.sh为例将chat.sh脚本内的./main的参数修改为如下指定使用我们生成的量化模型的路径 ./main -m ./models/Qwen/14B/ggml-model-Q4_0.gguf -c 512 -b 1024 -n 256 --keep 48 \--repeat_penalty 1.0 --color -i \-r User: -f prompts/chat-with-bob.txt然后在项目根目录命令行执行 sh examples/chat.sh回车执行后即可进入到聊天界面现在可以和千问14B聊天了。 可以看出千问的回答还是挺现实的哈哈哈。这里还有更多的聊天玩法还可以部署成server形式通过web界面来聊天在这里不展开。 简单精度评测 光会聊天还不行害得客观验证一下模型回答的质量。llama.cpp提供了perplexity可执行文件来验证模型的PPL精度这里以wikitext语料来简单测试一下千问14B的性能通义千问可能更偏向于中文wikitext-2多数都是英文语料。需要先下载解压wikitext-2到本地这里解压到了llama.cpp/wikitext-2-raw/目录下运行一下命令 ./perplexity -m models/Qwen/14B/ggml-model-Q4_0.gguf -f wikitext-2-raw/wiki.test.raw在本地的4070上跑完测试大概需要26min左右PPL为7.8242 /- 0.05521作为对比llama2-7B INT4量化版本的PPL大概为PPL 7.8803 /- 0.05373左右千问14B并没有比llama2-7B提升太多猜测可能是千问的训练数据英文较少的缘故还是我测试不当希望知道的大佬指正。当然PPL只能作为一个参考并不能全面地衡量模型的真正性能。 Qwen-14B-q4_0精度PPL 最后再增加一个INT8量化的对比结果: Model / PPLINT4INT8Qwen-14B7.8242 /- 0.055217.6019 /- 0.05281llama7.8803 /- 0.053737.6350 /- 0.05166 到此llama.cpp部署通义千问模型算是初步完成了希望能帮助到需要的同学。后续还有很多可以做的需要更深度的学习探索。
http://www.pierceye.com/news/479221/

相关文章:

  • 哪家网站建设比较好海拉尔建网站
  • 丹东网站推广海南行指专业网站开发
  • 网站如何调用手机淘宝做淘宝客中国企业网站查询
  • 淄博建设工程学校官方网站专门做商标的网站有哪些
  • 私人免费网站怎么下载企业网站设计方案
  • 做阿里巴巴网站找谁互联网推广公司
  • 网站如何做微信支付宝支付宝支付网页传奇发布网
  • 网站建设语录谷歌浏览器官网下载
  • 互动营销网站免费学高中课程的软件
  • 沈阳网站建设活动方案公司网站建设攻略
  • 建网站 方法喜来健cms系统
  • 甘肃 网站备案关于网站开发费用的入账
  • 南昌建网站的公司个人博客模板网站
  • 银川建设局网站丹江口网站制作
  • 做化工的 有那些网站自动的东莞网站制作公司
  • 做网站要求高吗中国建设教育网
  • 支付宝 手机网站开发seo优化在哪里学
  • 建筑工人找活的平台郑州网站优化托管
  • 微网站 下载网站建设找刘贺稳营销专家
  • 网站建设的需求文档视频直播网站开发
  • 高州网站设计鄂尔多斯建设招投标网站
  • 建立网站看病的经济问题菜单设计制作图片
  • 网站推广优化招聘seo整站优化托管
  • 企业网站建设方案百度文库北京正邦品牌设计公司
  • 新乡个人网站建设国际婚恋网站排名
  • 昆明网站建设哪家seo内部优化具体做什么
  • 网站架构设计师浙江省建设厅网站证件
  • 服务器和网站维护安康网站建设公司报价
  • 网站搭建课程标准asp.net做购物网站
  • 网站代码怎么放seo怎么做