当前位置: 首页 > news >正文

做花酒的网站手机网站知识

做花酒的网站,手机网站知识,怎么注册域名邮箱,北京王府井附近的酒店【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战 1. 引言2. 推理后端的选择与对比3. 部署 API 推理服务3.1 创建 API 配置文件3.2 启动 API 服务3.3 探索交互式 API 文档 4. 编写 Python 脚本进行批量调用4.1 准备工作4.2 批量调用脚本4.3 运行脚本并查看结… 【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战 1. 引言2. 推理后端的选择与对比3. 部署 API 推理服务3.1 创建 API 配置文件3.2 启动 API 服务3.3 探索交互式 API 文档 4. 编写 Python 脚本进行批量调用4.1 准备工作4.2 批量调用脚本4.3 运行脚本并查看结果 5. 总结 1. 引言 在前几篇教程中我们已经掌握了如何使用 LLaMA-Factory 的 WebUI 和命令行成功对 Qwen2.5-VL 多模态模型进行了 LoRA 微调与评估。现在是时候将我们精心训练的模型投入实际应用了将模型部署为标准化的 API 服务是实现程序化调用、集成到现有业务流或构建交互式应用如聊天机器人、自动化分析工具的必经之路。 本教程将详细指导您如何使用 llamafactory-cli 将微调后的模型一键部署为兼容 OpenAI 格式的 API 服务。我们将深入探讨不同推理后端huggingface, vllm, sglang的优劣与选择并提供一个完整的 Python 脚本演示如何批量处理一个文件夹中的所有图片实现自动化图文识别与描述。 2. 推理后端的选择与对比 在启动 API 服务之前最关键的决策之一是选择合适的推理后端。LLaMA-Factory 在配置文件中通过 infer_backend 参数支持多种选项它们在性能、易用性和资源消耗上各有侧重。 infer_backend 可选值huggingface, vllm, sglang 下面是这三个主流后端的详细对比 后端核心特点优点缺点安装命令huggingface默认选项简单易用- 无需额外安装开箱即用。- 兼容性最好支持几乎所有模型。- 适合调试或低并发场景。- 性能较低尤其在处理批量请求时吞吐量不高。- 显存利用效率一般。pip install -e .[torch]已包含vllm高吞吐量推理引擎- 极高的吞吐量通过 PagedAttention 等技术能将 GPU 性能压榨到极致。- 动态批处理显著提升并发处理效率。- 生产环境首选是目前业界部署 LLM 的主流方案。- 需要额外安装可能存在兼容性问题。- 对部分新模型的支持可能稍有延迟。pip install vllmsglang超高速度与复杂提示- 极快的推理速度通过 RadixAttention 进一步优化。- 原生支持复杂提示如循环、条件判断非常适合 Agent 等高级应用。- 吞吐量与 vLLM 相当或更高。- 相对较新社区和生态仍在发展中。- 同样需要额外安装且可能对环境有特定要求。pip install sglang[srt_model] 选择建议 初学者/快速验证直接使用默认的 huggingface。生产部署/高并发场景强烈推荐 vllm它能最大化您的硬件投资回报。追求极致速度/Agent应用可以尝试 sglang它代表了推理引擎的前沿方向。 本教程将首先使用 huggingface 进行演示因为其最为便捷。 3. 部署 API 推理服务 3.1 创建 API 配置文件 与训练类似我们先在 my_configs/ 目录下创建一个 API 服务的配置文件。 my_configs/api_pokemon.yaml: # model adapter model_name_or_path: Qwen/Qwen2.5-VL-3B-Instruct adapter_name_or_path: saves/qwen2.5vl-3b-lora-pokemon/sft-cli# template template: qwen2_vl# backend infer_backend: huggingface # 更改为 vllm 或 sglang 以使用不同后端# serving trust_remote_code: true说明 model_name_or_path: 基础模型。adapter_name_or_path: 关键指向我们第三篇教程中训练好的 LoRA 适配器路径。template: 必须与模型匹配。infer_backend: 我们在此选择 huggingface 作为开始。 3.2 启动 API 服务 在 LLaMA-Factory 根目录下执行以下命令 # 激活环境 conda activate llama_factory# 启动 API 服务指定端口为 8000 API_PORT8000 llamafactory-cli api my_configs/api_pokemon.yaml如果一切顺利您将看到类似以下的输出表明 API 服务已在 8000 端口成功启动 INFO: Started server process [xxxxx] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit)3.3 探索交互式 API 文档 服务启动后在浏览器中打开 http://0.0.0.0:8000/docs。 您会看到一个由 FastAPI 自动生成的交互式 API 文档Swagger UI。这里列出了所有可用的 API 端点。我们最关心的是 /v1/chat/completions它完全兼容 OpenAI 的 API 格式极大地便利了客户端的开发。 4. 编写 Python 脚本进行批量调用 4.1 准备工作 在 LLaMA-Factory 根目录下创建一个名为 batch_test_images 的文件夹。向该文件夹中放入几张宝可梦的图片例如 pikachu.png, bulbasaur.jpg 等。 4.2 批量调用脚本 创建一个名为 batch_inference.py 的 Python 文件并填入以下内容 import os import requests import base64 import json from tqdm import tqdm# --- 配置 --- API_URL http://0.0.0.0:8000/v1/chat/completions IMAGE_FOLDER batch_test_images PROMPT Please describe this Pokémons appearance, attributes, and characteristics in detail. OUTPUT_FILE batch_results.jsondef encode_image_to_base64(image_path):try:with open(image_path, rb) as image_file:return base64.b64encode(image_file.read()).decode(utf-8)except IOError as e:print(fError opening or reading image file {image_path}: {e})return Nonedef call_inference_api(prompt, base64_image):headers {Content-Type: application/json}payload {model: qwen,messages: [{role: user,content: [{type: text,text: prompt},{type: image_url,image_url: {url: fdata:image/jpeg;base64,{base64_image}}}]}],max_tokens: 1024,temperature: 0.7,stream: False}try:response requests.post(API_URL, headersheaders, jsonpayload, timeout60)response.raise_for_status()return response.json()except requests.exceptions.RequestException as e:print(fAPI call failed: {e})return Nonedef main():if not os.path.isdir(IMAGE_FOLDER):print(fError: Image folder {IMAGE_FOLDER} not found.)returnall_results []image_files [f for f in os.listdir(IMAGE_FOLDER) if f.lower().endswith((.png, .jpg, .jpeg))]if not image_files:print(fNo images found in {IMAGE_FOLDER}.)returnprint(fFound {len(image_files)} images. Starting batch inference...)for image_name in tqdm(image_files, descProcessing Images):image_path os.path.join(IMAGE_FOLDER, image_name)base64_image encode_image_to_base64(image_path)if not base64_image:continueresult call_inference_api(PROMPT, base64_image)if result and choices in result and len(result[choices]) 0:content result[choices][0][message][content]print(f\n--- Result for {image_name} ---)print(content)all_results.append({image: image_name,prompt: PROMPT,response: content})else:print(f\nFailed to get a valid response for {image_name}.)all_results.append({image: image_name,prompt: PROMPT,response: Error or empty response from API.})with open(OUTPUT_FILE, w, encodingutf-8) as f:json.dump(all_results, f, ensure_asciiFalse, indent4)print(f\nBatch processing complete. All results saved to {OUTPUT_FILE}.)if __name__ __main__:main()4.3 运行脚本并查看结果 确保 API 服务仍在运行。在终端中执行脚本 python batch_inference.py脚本会显示一个进度条并逐一打印出每张图片的处理结果。执行完毕后项目根目录下会生成一个 batch_results.json 文件其中包含了所有图片的识别结果。 5. 总结 通过本教程您已学会 将微调模型部署为 API 服务使用 OpenAI 风格 API 调用模型实现图像批量推理与结果存储 核心要点 API 是桥梁连接模型与实际应用。后端定性能合理选择 huggingface/vllm/sglang。格式很重要OpenAI 兼容格式开发无缝衔接。批量处理显神威脚本驱动效率爆表。
http://www.pierceye.com/news/859476/

相关文章:

  • 重庆市做网站的公司有哪些苏州网站建设设计公司
  • 网站制作计算机域名解析到网站
  • 自己做的电影网站打开很慢wordpress 防采集
  • 西安专业网站建设公司排名做网站编写
  • 做电影网站还能赚钱云南网站建设哪家公司好
  • 重庆定制网站开发什么是网络营销战略
  • 网站建设硬件方案精准客源app
  • 网站视觉优化怎么做电子商务网站建设参考文献2018
  • 服务器可以吧网站做跳转吗wordpress 远程图片本地化
  • 网站在线访谈栏目建设个人网站可以备案了吗
  • 汉口北做网站搜索广告是什么
  • 电商网站可以用dw做嘉兴网站建设平台
  • 做网站是数据库应该放在哪里建筑工程水平防护网
  • vps网站无法通过ip访问网站怎么做的支付宝接口
  • 怎么创建一个博客网站网站的c4d动画是怎么做的
  • 西安做企业网站科技论文发表网
  • html 手机网站开发企业做网站的合同
  • 建立wordpress网站吗全州建设完小网站
  • 网站域名注册证书是什么制作WordPress友情链接
  • 如何在解决方案中新建网站html网页制作的软件下载
  • 企业网站怎么做优化开小加工厂去哪接单子
  • 网站建设推广费怎么做账域名和网站绑定
  • 商丘网站建设想象力网络中国流量最大的网站排行
  • 网站是否有备案网站集约化建设建议
  • 浏览器收录网站网上做图赚钱的网站
  • 网站建设优化过程中的优化策略相关文章 wordpress
  • 泉州网站深圳航空公司官网首页
  • 百度推广整体优化网站整体软装设计公司
  • 太原搜索引擎优化招聘信息服务好的镇江网站优化
  • 自己做网站下载怎么网站基础知识域名5个点