东莞做网站优化,多少钱能运营一个网站,h5动态页面怎么做的,如何在大网站做外链随着大模型和人工智能的爆火#xff0c;大家对GPU的关注持续上升#xff0c;本文简单简述下GPU经常用的概念。
GPU#xff08;图形处理器#xff09;#xff0c;又称显示核心、视觉处理器、显示芯片#xff0c;是一种专门在个人电脑、工作站、游戏机和一些移动设备…随着大模型和人工智能的爆火大家对GPU的关注持续上升本文简单简述下GPU经常用的概念。
GPU图形处理器又称显示核心、视觉处理器、显示芯片是一种专门在个人电脑、工作站、游戏机和一些移动设备如平板电脑、智能手机等上图像运算工作的微处理器。
用途是将计算机系统所需要的显示信息进行转换驱动并向显示器提供行扫描信号控制显示器的正确显示是连接显示器和个人电脑主板的重要元件也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分承担输出显示图形的任务对于从事专业图形设计的人来说显卡非常重要。
一、CUDA
CUDACompute Unified Device Architecture是显卡厂商英伟达NVIDIA推出的运算平台。 CUDA™是一种通用并行计算架构该架构使GPU能够解决复杂的计算问题。 CUDA核心数量决定了GPU并行处理的能力在深度学习、机器学习等并行计算类业务下CUDA核心多意味着性能好一些。
二、Tensor(张量) 内核
CUDA是NVIDIA推出的统一计算架构NVIDIA过去的几乎每款GPU都有CUDA Core而Tensor Core是最近几年才有的Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。
三、 TFLOPS浮点运算
FLOPS即每秒浮点运算次数亦称每秒峰值速度是每秒所执行的浮点运算次数英文Floating-point operations per second缩写FLOPS的简称被用来评估电脑效能尤其是在使用到大量浮点运算的科学计算领域中。
四、 显存容量
显存容量其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。在显存已经可以满足客户业务的情况下提升显存不会对业务性能带来大的提升。在深度学习、机器学习的训练场景显存的大小决定了一次能够加载训练数据的量在大规模训练时显存会显得比较重要。
五、显存位宽
显存位宽显存在一个时钟周期内所能传送数据的位数位数越大则瞬间所能传输的数据量越大这是显存的重要参数之一。
六、NVIDIA常见的三大型号
Quadro类型: Quadro系列显卡一般用于特定行业比如设计、建筑等图像处理专业显卡比如CAD、Maya等软件。
GeForce类型: 这个系列显卡官方定位是消费级常用来打游戏。但是它在深度学习上的表现也非常不错很多人用来做推理、训练单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多但是性价比却高很多。
Tesla类型: Tesla系列显卡定位并行计算一般用于数据中心具体点比如用于深度学习做训练、推理等。Tesla系列显卡针对GPU集群做了优化像那种4卡、8卡、甚至16卡服务器Tesla多块显卡合起来的性能不会受很大影响但是Geforce这种游戏卡性能损失严重这也是Tesla主推并行计算的优势之一。
6.1 Quadro类型
NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000
Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000
6.2 GeForce类型
Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti
Geforce 16系列GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti
Geforce 20系列RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti
Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti
6.3 Tesla类型
A-Series系列: A10、A16、A30、A40、A100
T-Series系列: T4
V-Series系列: V100
P-Series系列: P4、P6、P40、P100
K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
七、选择指标
显存:
显存即显卡内存显存主要用于存放数据模型决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数)是对深度学习研究人员来说很重要的指标简述来讲显存越大越好。
架构
在显卡流处理器、核心频率等条件相同的情况下不同款的GPU可能采用不同设计架构不同的设计架构间的性能差距还是不小的显卡架构性能排序为Ampere Turing Volta Pascal Maxwell Kepler Fermi Tesla
CUDA核心数量
CUDA是NVIDIA推出的统一计算架构NVIDIA几乎每款GPU都有CUDA核心CUDA核心是每一个GPU始终执行一次值乘法运算一般来说同等计算架构下CUDA核心数越高计算能力会递增。
Tensor(张量)核心数量
Tensor 核心是专为执行张量或矩阵运算而设计的专用执行单元而这些运算正是深度学习所采用的核心计算函数它能够大幅加速处于深度学习神经网络训练和推理运算核心的矩阵计算。Tensor Core使用的计算能力要比Cuda Core高得多这就是为什么Tensor Core能加速处于深度学习神经网络训练和推理运算核心的矩阵计算能够在维持超低精度损失的同时大幅加速推理吞吐效率。
半精度
如果对运算的精度要求不高那么就可以尝试使用半精度浮点数进行运算。这个时候Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法其中两个44 FP16矩阵相乘然后将结果添加到44 FP16或FP32矩阵中最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学因为输入矩阵的精度为半精度但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。
单精度:
Float32 是在深度学习中最常用的数值类型称为单精度浮点数每一个单精度浮点数占用4Byte的显存。
双精度
双精度适合要求非常高的专业人士例如医学图像CAD。
常用选择原则
卷积网络和Transformer
Tensor核心数单精度浮点性能显存带宽半精度浮点性能
循环神经网络
显存带宽半精度浮点性能Tensor核心数单精度浮点性能