深圳网站建设类公司,最大的网站开发公司,网络营销外包,长沙市教育局官网在NPU上做深度学习算法 场景和功能说明系统信息查询1、场景一#xff1a;非NPU上训练的模型推理1.1 执行方案学习案例 1.2 CPU/GPU训练的模型转.ONNX模型1.3 onnx转om1.4 om推理 昇腾社区链接#xff1a;
昇腾社区-官网丨昇腾万里 让智能无所不及 场景和功能说明
第一种非NPU上训练的模型推理1.1 执行方案学习案例 1.2 CPU/GPU训练的模型转.ONNX模型1.3 onnx转om1.4 om推理 昇腾社区链接
昇腾社区-官网丨昇腾万里 让智能无所不及 场景和功能说明
第一种在cpu或gpu上训练的模型但要在NPU上执行模型推理第二种在NPU上同步训练、推理。
系统信息查询
中括号里的为查询结果示例。 – 查看系统架构uname -a [aarch64也称arm64] – 查看操作系统版本lsb_release -a [Ubuntu 22.04.3 LTS] – 查看npu芯片型号npu-smi info [Ascend310B4] – 查看npu idnpu-smi info -l – 查看Atlas产品型号npu-smi info -t product -i npu id [Atlas 200I A2]
1、场景一非NPU上训练的模型推理
此种使用场景下cpu或gpu上训练的模型无法直接在nup上执行推理需要先把训练好的模型转换成.om离线模型才可以在NPU上执行后续的推理。
1.1 执行方案 step1在已安装CANN开发环境的机器上把cpu或gpu上训练的模型转换成.onnx格式 或 pd格式 step2在安装CANN运行环境的机器上把onnx格式转om格式。 对应CANN开发环境、运行环境的区别、安装方法见官方文档CANN软件安装 学习案例 ① 官方gitee项目-支持tensorflow、pytorch的模型转换 这里已经集成了多种开源模型从初始模型 — onnx模型 — om模型的转换操作步骤和对应代码。 第一阶段模型转onnx需要写代码完成第二阶段.onnx转.om使用atc命令完成无须写代码。 ② 仅onnx模型 — om模型的转换案例昇腾社区简单ATC转换案例 ③ om模型的推理应用案例 这里的快速链接是昇腾社区下pytorch的应用案例昇腾社区也集成了其他训练框架的应用案例可自行查看。 ④ 其他网友的分享[推理部署]ONNX推理加速技术文档-杂记 1.2 CPU/GPU训练的模型转.ONNX模型
以下是基于 bert_base_chinese预训练模型转onnx 改写的转换代码
源文件基于bert_base_chinese模型微调后的.pt模型文件目标把.pt转换成.onnx
import torch
import onnx
import numpy as np
import onnxruntime
from init.init_config import ModelConfig
1、pth文件转onnxpytorch框架中集成了onnx模块属于官方支持onnx也覆盖了pytorch框架中的大部分算子。因此将pth模型文件转换为onnx文件非常简单。参考https://zhuanlan.zhihu.com/p/524023964?utm_id0
2、.pth转.onnx可以在任意机器上执行只要有python并安装了对应依赖包即可既可以是普通windows x86_64 gpu/cpu也可以是linux Ascend310B4(昇腾 310B4 npu卡)
3、本文件中
① 使用的是“基于bert-base-chinese微调的模型”微调时的输入样本只有一个序列所以训练时把token_type_ids也省略了
② 和原始bert-base-chinese预训练模型input_shape(batch_size,max_len)不同微调训练使用的input_shape(src_len,batch_size), attention_mask_shape(batch_size,src_len), src_len是固定的512。
注意Atlas 200/500 A2推理产品不支持动态Shape输入设置Shape范围。 详见官方文档 https://www.hiascend.com/document/detail/zh/canncommercial/70RC1/inferapplicationdev/aclpythondevg/aclpythondevg_0060.html
model_path E:\\opencode\\13-02-BertWithPretrained-main\\cache1\\ner_model_epoch1_steps1000.pt # 微调后的模型文件
onnx_path ./ner_model_bert.onnx # 定义onnx模型保存地址。固定max_len512
# 注意token_id的shapesrc_len, batch_size
input_shape (512, 1)# todo 这里和原始模型在CPU或GPU上的加载方式保持一样。这里代码省略。。。。
model_config ModelConfig()def load_torch_model():invoice_model model_config.model# 在导出模型之前必须调用 model.eval() 或 model.train(False)因为这会将模型设置为“推理模式”。 这是必需的因为 dropout 或 batchnorm 等运算符在推理和训练模式下的行为有所不同。invoice_model.eval()return invoice_modeldef onnx_model_predict(onnx_path, dummy_input):# 创建会话用于推理这里 onnxruntime.InferenceSession(model_path) 就是加载模型的步骤ONNX Runtime 会在内部执行模型的验证。如果模型有问题ONNX Runtime 将在加载过程中引发异常。因此在使用 ONNX Runtime 进行推理时你通常不需要显式地调用 onnx.load(onnx_path) 和 onnx.checker.check_model(onnx_model)。 # 模型加载onnx_model onnx.load(onnx_path)onnx.checker.check_model(onnx_model)ort_session onnxruntime.InferenceSession(onnx_path)# 获取模型的输入inputinputs ort_session.get_inputs()# bert基础模型设置:定义模型的输入{input:numpys数组-不是tensor}和输出 [output]padding_mask np.transpose((dummy_input 0))# 省略token_type_ids的写法和源模型转onnx时的input保持一致ort_inputs {inputs[0].name: dummy_input,inputs[1].name: padding_mask}outputs ort_session.get_outputs()output_name [outputs[0].name]# 模型推理ort_outs ort_session.run(output_name, ort_inputs)return ort_outsdef export_config(token_ids, padding_mask, keepTrue):使用的是bert-base-chinese模型常规输入包含input_ids、attention_mask、token_type_ids:param token_ids: 句子输入编码:param padding_mask: 掩码:param keep: 是否保留token_type_ids:return:output_names [out]if keep:input_data (token_ids,padding_mask,token_ids)input_names [input_ids, attention_mask, token_type_ids]dynamic_axes {input_ids: {0: B},attention_mask: {0: B},token_type_ids: {0: B},out: {0: B}}else:input_data (token_ids,padding_mask)input_names [input_ids, attention_mask]dynamic_axes {input_ids: {0: B},attention_mask: {0: B},out: {0: B}}return input_data, input_names, output_names, dynamic_axesdef torch2onnx(dummy_input):torch_model load_torch_model(model_path)token_ids torch.from_numpy(dummy_input) # numpy.ndarray转torch.tensor# bert基础模型设置padding_mask (token_ids 0).transpose(0, 1)# build data# 因为这里使用的是“基于bert-base-chinese微调的模型”微调时的输入样本只有一个序列所以token_type_ids可省略input_data, input_names, output_names, dynamic_axes export_config(token_ids, padding_mask, keepFalse)# onnx模型导出verbose--是否打印日志torch.onnx.export(torch_model, input_data, onnx_path,verboseTrue,opset_version11,dynamic_axesdynamic_axes,input_namesinput_names,output_namesoutput_names)# 测试模型是否合理# 模型加载onnx_model onnx.load(onnx_path)# 检查onnx模型转换是否合理onnx.checker.check_model(onnx_model)def onnx_predict(dummy_input, onnx_path):# 1、原始torch模型加载和推理origin_model load_torch_model(model_path)input_sample_tensor dummy_inputif isinstance(dummy_input, np.ndarray):input_sample_tensor torch.from_numpy(dummy_input).to(device)torch_out origin_model(input_sample_tensor).detach().numpy()# 2、onnx模型加载和推理ort_outs onnx_model_predict(onnx_path, dummy_input)# 3、结果对比# todo 使用numpy的测试工具检查两个数组是否在给定的相对和绝对误差范围内相等。np.testing.assert_allclose是一个测试断言语句如果检查失败即输出不在指定误差范围内将引发 AssertionError从而提示测试失败。# 1检查形状确保 torch_out 和 ort_outs[0] 的形状相同。 2检查数值相等性 对每个对应的元素检查其数值是否在相对误差 (rtol) 和绝对误差 (atol) 允许的范围内。np.testing.assert_allclose(torch_out, ort_outs[0], rtol1e-01, atol1e-5)print(torch_out[:10])print(ort_outs[0][:10])print(convert success)if __name__ __main__:# #方案1随机型在测试转换前后的误差时需要传递同一输入值# input_sample np.random.randn(*input_shape).astype(np.float32)# # 方案2固定值型device torch.device(cuda if torch.cuda.is_available() else cpu)dummy_input np.ones(input_shape).astype(np.long)# 普通模型转onnxtorch2onnx(dummy_input)# 简单测试转换前后的精度差异onnx_predict(dummy_input, onnx_path)1.3 onnx转om
具体指令参考 昇腾社区简单ATC转换案例
1.4 om推理