注册网站怎么注册不了,潍坊百度快速排名优化,网站主题页,马鞍山市重点工程建设管理局网站cudaMemcpy与cudaMemcpyAsync的区别与问题 cudaMemcpy与cudaMemcpyAsync的区别一、认识stream流二、tensorRT推理的常规流程三、遇到的问题四、引用与参考文献 cudaMemcpy与cudaMemcpyAsync的区别
一、认识stream流
在cuda中#xff0c;一个stream是由主机代码发布的一系列在… cudaMemcpy与cudaMemcpyAsync的区别与问题 cudaMemcpy与cudaMemcpyAsync的区别一、认识stream流二、tensorRT推理的常规流程三、遇到的问题四、引用与参考文献 cudaMemcpy与cudaMemcpyAsync的区别
一、认识stream流
在cuda中一个stream是由主机代码发布的一系列在设备上执行的操作是严格保序执行的。不同streams里面的操作可以交叉执行或者并发执行。 如果我们有多个核函数并且我们创建了一个stream那么这些核函数在stream中都是串行执行的但是如果我们需要并发执行可以开启多个stream。多个stream之间是并发执行的每个stream中是串行执行的。
二、tensorRT推理的常规流程
创建一个cuda stream流 将我们的主机所定义的运算操作下放给cuda中的stream进行执行读取模型创建可以执行的上下文context将输入传给主机指针host_ptr然后将主机指针copy到cuda上的指针HostToDevice定义好输入输出节点的指针并初始化一个bindings[]存放输入输出节点的指针device然后执行推理device会自动将推理结果保存在我们定义好的device输出节点指针将输出节点的指针指向的内容拷贝给主机上定义好的输出指针DeviceToHost然后将指针指向的内容通过mat然后经过后处理可视化在不做特殊处理和不使用cudaMemcpyAsync来进行拷贝的情况下CUDA会默认只使用一个stream在这种情况下以上的推理步骤将串行处理。
三、遇到的问题
使用tensorRT推理MaskRCNN时在执行推理完毕后将device的指针指向的内容拷贝给host的指针时如果此时使用cudaMemcpyAsync来进行拷贝会随机的出现推理结果错乱的问题观察后发现即上一张推理的结果会在第二张的输入上呈现。此时我们使用cudaMemcpy来进行同步拷贝该问题解决。
四、引用与参考文献
引用 [1]: cudaMemcpy与cudaMemcpyAsync的区别 [2]: 测试命题 cuda kernel 和 cudaMemcpy 是异步执行