浙江省永康市建设局网站进不去,互联网创业项目创意,企业品牌推广渠道,做兼职打字员的网站目录配置文件的详细说明#xff08;后续持续完善#xff09;openai_api_server配置控制器(controller)配置模型(worker)配置模型配置大语言模型 示例#xff1a;QwenEmbedding模型 示例#xff1a;Conan-embedding-v1TTS文本转语音模型 示例: Spark-TTST2I 文生图模型示例:…
目录配置文件的详细说明后续持续完善openai_api_server配置控制器(controller)配置模型(worker)配置模型配置大语言模型 示例QwenEmbedding模型 示例Conan-embedding-v1TTS文本转语音模型 示例: Spark-TTST2I 文生图模型示例: fluxIE 图片编辑模型 示例: Qwen-Image-EditASE 语音转文字模型 示例: SenseVoiceSmallGPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
项目地址https://github.com/shell-nlp/gpt_server
配置文件的详细说明后续持续完善
openai_api_server配置
serve_args:enable: true host: 0.0.0.0port: 8082controller_address: http://localhost:21001功能OpenAI API服务的主入口配置参数说明 enable服务开关true/falsehost监听地址port服务暴露端口controller_address下游控制器服务地址api_keys用来设置 openai 密钥 控制器(controller)配置
controller_args:enable: true host: 0.0.0.0port: 21001dispatch_method: shortest_queue核心功能请求调度中心参数说明 enable服务开关true/falsehost监听地址port服务暴露端口dispatch_method支持两种策略 lottery随机分配shortest_queue推荐选择负载最低的Worker 设计建议生产环境建议保持shortest_queue以实现负载均衡 模型(worker)配置
model_worker_args:host: 0.0.0.0controller_address: http://localhost:21001log_level: WARNINGlimit_worker_concurrency: 1024参数说明 host监听地址controller_address下游控制器服务地址log_level日志级别DEBUG/INFO/WARNING/ERRORlimit_worker_concurrency单个Worker最大并发请求数 端口说明Worker端口由系统自动分配并注册到控制器 模型配置
大语言模型 示例Qwen
models:
- qwen: # 模型的自定义名称alias: gpt-4,gpt-3.5-turbo,gpt-3.5-turbo-16k # 模型的别名enable: false # 模型开关true/falsemodel_config:model_name_or_path: /home/dev/model/qwen/Qwen2___5-7B-Instruct/ # 模型的路径max_model_len: 65536 gpu_memory_utilization: 0.8enable_prefix_caching: true dtype: auto # 类型kv_cache_quant_policy: 0lora: # lora 模型的路径test_lora: /home/dev/project/LLaMA-Factory/saves/Qwen1.5-14B-Chat/lora/train_2024-03-22-09-01-32/checkpoint-100model_type: qwenwork_mode: lmdeploy-turbomind device: gpuport: 8084 # 手动指定worker端口workers:- gpus:- 1参数说明 alias模型的别名用逗号分隔。例如 gpt4,gpt3可以在不修改模型名称的情况下使用替换为其它模型 enable模型开关true/false model_config模型参数配置 model_name_or_path模型的路径max_model_len模型最大token 长度gpu_memory_utilization显存的占用率提前为模型的KV Cache占用显存的百分比enable_prefix_caching是否启用前缀缓存true/falsekv_cache_quant_policyKV Cache 的量化策略0 表示不量化loralora模型的路径其值 key 为 lora 模型的命名value 为 lora 的路径 model_type:模型类型 work_mode工作模式即推理后端现支持的类型有 [vllm,sglang, lmdeploy-turbomind, lmdeploy-pytorch,hf ] device设备类型暂时只支持 gpu port可手动指定worker端口不设置表示自动获取。 workers这里控制每个模型使用的gpu编号以及启动几份模型。worker的含义就是一个进程每个进程负责启动一个模型服务
workers样例:
启动一份该模型该模型使用编号为1和2的gpu 同时也启动了张量并行TP2
workers:- gpus:- 1- 2启动两份该模型模型副本1加载到 gpu 1 模型副本2 加载到 gpu2 ,相当于 数据并行 DP2 workers:- gpus:- 1- gpus:- 2Embedding模型 示例Conan-embedding-v1
models:
- Conan-embedding-v1:alias: text-embedding-ada-002enable: truemodel_config:model_name_or_path: /home/dev/model/TencentBAC/Conan-embedding-v1/task_type: auto # auto 、embedding 、 reranker 或者 classify 不设置这个参数默认为 auto,自动识别可能会识别错误model_type: embeddingwork_mode: infinitydevice: gpuworkers:- gpus:- 4参数说明(大部分配置 同 大语言模型示例Qwen ,重复不再描述 ) model_config模型参数配置 task_type该模型的任务类型包括auto、embedding 、 reranker 或者 classify, 默认为 auto,自动识别可能会识别错误 model_type模型类型仅支持 embeddingwork_mode工作模式即推理后端现支持的类型有 [vllm, infinity, sentence_transformers]但并不是所有后端都支持
TTS文本转语音模型 示例: Spark-TTS
- tts:alias: nullenable: truemodel_config:model_name_or_path: /home/dev/model/SparkAudio/Spark-TTS-0___5B/model_type: spark_ttswork_mode: vllmdevice: gpuworkers:- gpus:- 6参数说明(大部分配置 同 大语言模型示例Qwen ,重复不再描述 ) model_type模型类型仅支持 spark_ttswork_mode工作模式即推理后端现支持的类型有 [vllm, sglang, torch]
T2I 文生图模型示例: flux
- flux:alias: nullenable: truemodel_config:model_name_or_path: /home/dev/model/MusePublic/489_ckpt_FLUX_1/model_type: fluxwork_mode: hf # 不使用这个参数所以随便填都可以device: gpuworkers:- gpus:- 7参数说明(大部分配置 同 大语言模型示例Qwen ,重复不再描述 ) model_type模型类型仅支持 flux
IE 图片编辑模型 示例: Qwen-Image-Edit
- image-edit: alias: nullenable: truemodel_config:model_name_or_path: /home/dev/model/Qwen/Qwen-Image-Edit/model_type: qwen_image_editwork_mode: hf # 不使用这个参数所以随便填都可以device: gpuworkers:- gpus:- 7参数说明(大部分配置 同 大语言模型示例Qwen ,重复不再描述 ) model_type模型类型仅支持 qwen_image_edit
ASE 语音转文字模型 示例: SenseVoiceSmall
- SenseVoiceSmall:alias: nullenable: truemodel_config:model_name_or_path: /home/dev/model/iic/SenseVoiceSmall # VAD模型可以不设置vad_model: /home/dev/model/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/model_type: funasr # 类型只能是 funasrwork_mode: hf # 不使用这个参数所以随便填都可以device: gpuworkers:- gpus:- 2参数说明(大部分配置 同 大语言模型示例Qwen ,重复不再描述 ) model_config模型参数配置 vad_model: VAD模型 model_type模型类型仅支持 funasr