当前位置：首页 > news >正文

网站开发发送短信搜索引擎收录查询工具

news 2025/11/23 3:32:05

网站开发发送短信,搜索引擎收录查询工具,建设工程合同民法典,360建筑网的内容百度可以查到吗引言在最近的微软Build大会上#xff0c;微软宣布了许多新内容#xff0c;其中包括新款Copilot PC和围绕Copilot生态系统的一系列功能。其中最引人注目的是发布了一些新的Phi模型#xff0c;特别是Phi-3 Vision模型。本文将详细探讨Phi-3 Vision模型的特性#xff0c;并提…引言在最近的微软Build大会上微软宣布了许多新内容其中包括新款Copilot PC和围绕Copilot生态系统的一系列功能。其中最引人注目的是发布了一些新的Phi模型特别是Phi-3 Vision模型。本文将详细探讨Phi-3 Vision模型的特性并提供相关Python代码示例帮助您了解该模型的使用方法和潜力。 Phi-3 Vision模型介绍模型参数和特点 Phi-3 Vision是Phi-3模型家族中的一员具有4.2亿参数。微软对这些模型进行了优化使其能够在边缘设备上运行并支持多模态输入即文本和图像。Phi-3 Vision模型特别适合处理图像理解和视觉问答任务。训练与数据该模型在5,000亿个视觉和文本tokens上进行了训练使用了512个H100 GPU进行了1.5天的训练。模型的训练方法包括预训练、监督微调和对齐调整等步骤使用了合成数据以提高训练效果。代码示例与分析下面是使用Phi-3 Vision模型的Python代码示例该代码展示了如何加载模型并执行图像理解和视觉问答任务。环境配置首先需要安装必要的Python库。建议使用Hugging Face的Transformers库来加载和运行模型。 pip install transformers pip install torch pip install datasets加载模型和处理器接下来我们将加载Phi-3 Vision模型和处理器。 from transformers import AutoProcessor, AutoModelForVision2Seq import torch# 加载处理器和模型 processor AutoProcessor.from_pretrained(microsoft/phi-3-vision) model AutoModelForVision2Seq.from_pretrained(microsoft/phi-3-vision)# 设定设备 device cuda if torch.cuda.is_available() else cpu model.to(device)定义输入图像和文本我们需要准备输入的图像和文本并将它们进行处理。 from PIL import Image import requests# 加载示例图像 url https://example.com/sample_image.jpg image Image.open(requests.get(url, streamTrue).raw)# 定义文本输入 text What is shown in this image?预处理输入并生成输出使用处理器预处理图像和文本然后生成模型的输出。 # 预处理输入 inputs processor(imagesimage, texttext, return_tensorspt).to(device)# 生成输出 outputs model.generate(**inputs)# 解码输出 decoded_output processor.batch_decode(outputs, skip_special_tokensTrue)[0] print(Model Output:, decoded_output)示例运行结果假设输入图像是一张包含花朵的图片模型的输出可能如下 Model Output: The image shows a variety of flowers, including large pink flowers with a bee on it.代码详解模型加载与处理器初始化代码首先加载了处理器和模型并设定了计算设备。这里使用了Hugging Face的Transformers库来加载预训练的Phi-3 Vision模型。 processor AutoProcessor.from_pretrained(microsoft/phi-3-vision) model AutoModelForVision2Seq.from_pretrained(microsoft/phi-3-vision)图像和文本的预处理处理器将图像和文本转换为模型可接受的输入格式并将其移动到指定的设备上。 inputs processor(imagesimage, texttext, return_tensorspt).to(device)输出生成与解码模型生成的输出为token序列需要使用处理器将其解码为可读文本。 outputs model.generate(**inputs) decoded_output processor.batch_decode(outputs, skip_special_tokensTrue)[0]总结通过本文的介绍和代码示例我们详细了解了微软新发布的Phi-3 Vision模型及其在多模态任务中的应用。该模型在图像理解和视觉问答等任务中表现出色具有广泛的应用前景。希望本文能够帮助您更好地理解和使用Phi-3 Vision模型。如果您对该模型有任何问题或想法欢迎在评论区留言。如果您觉得本文有帮助请点赞并关注我们的频道我们将在未来带来更多精彩内容。

查看全文

http://www.pierceye.com/news/456985/