当前位置: 首页 > news >正文

织梦网站档目管理空白源码编辑器下载

织梦网站档目管理空白,源码编辑器下载,网站搭建培训学校,易旅游网站建设三十年前#xff0c;CPU 和其他专用处理器几乎处理所有计算任务。那个时代的显卡有助于加快 Windows 和应用程序中 2D 形状的绘制速度#xff0c;但没有其他用途。 快进到今天#xff0c;GPU 已经成为业界最具主导地位的芯片之一。 但具有讽刺意味的是#xff0c;图形芯片…三十年前CPU 和其他专用处理器几乎处理所有计算任务。那个时代的显卡有助于加快 Windows 和应用程序中 2D 形状的绘制速度但没有其他用途。 快进到今天GPU 已经成为业界最具主导地位的芯片之一。 但具有讽刺意味的是图形芯片的唯一功能是图形的日子已经一去不复返了机器学习和高性能计算严重依赖于不起眼的 GPU 的处理能力。与我们一起探索这款单芯片如何从一个不起眼的像素推动器演变成一个强大的浮点计算引擎。 一开始CPU统治一切 让我们回到 20 世纪 90 年代末。高性能计算领域包括超级计算机的科学工作、标准服务器上的数据处理以及工作站上的工程和设计任务完全依赖于两种类型的 CPU1专为单一目的而设计的专用处理器2来自AMD、IBM 或 Intel 的现成芯片。 ASCI Red 超级计算机是 1997 年左右最强大的超级计算机之一由 9,632 个 Intel Pentium II Overdrive CPU 组成如下图所示。每个单元的运行频率为 333 MHz该系统的理论峰值计算性能略高于 3.2 TFLOPS每秒万亿次浮点运算。 由于我们将在本文中经常提到 TFLOPS因此值得花点时间来解释它的含义。在计算机科学中浮点数或简称floats 是表示非整数值的数据值例如 6.2815 或 0.0044。整数值称为整数经常用于控制计算机及其上运行的任何软件所需的计算。 浮点数对于精度至关重要的情况至关重要特别是与科学或工程相关的任何事情。即使是简单的计算例如确定圆的周长也至少涉及一个浮点值。 几十年来CPU 一直拥有单独的电路来对整数和浮点数执行逻辑运算。在上述 Pentium II Overdrive 的情况下它可以在每个时钟周期执行一次基本浮点运算乘法或加法。理论上这就是为什么 ASCI Red 的峰值浮点性能为 9,632 个 CPU x 3.33 亿个时钟周期 x 1 次操作/周期 3,207,456 百万次 FLOPS。 这些数字基于理想条件例如对适合缓存的数据使用最简单的指令并且在现实生活中很少可以实现。然而它们很好地表明了系统的潜在能力。 其他超级计算机也拥有类似数量的标准处理器——劳伦斯利弗莫尔国家实验室的Blue Pacific使用 5808 个 IBM PowerPC 604e芯片洛斯阿拉莫斯国家实验室的Blue Mountain上图则使用 6144 个MIPS Technologies R1000。 为了达到万亿次浮点运算级别的处理能力需要数千个 CPU所有这些都需要大量 RAM 和硬盘存储的支持。这过去是现在仍然是由于机器的数学要求。 当我们在学校第一次接触物理、化学和其他学科的方程时一切都是一维的。换句话说我们使用一个数字来表示距离、速度、质量、时间等。然而为了准确地建模和模拟现象需要更多的维度并且数学上升到向量、矩阵和张量的领域。 它们在数学中被视为单个实体但包含多个值这意味着任何进行计算的计算机都需要同时处理大量数字。鉴于当时的 CPU 每个周期只能处理一到两个浮点数因此需要数千个浮点数。 SIMD 加入竞争MMX、3DNow和上交所 1997 年Intel 通过名为MMX 的技术扩展更新了 Pentium CPU 系列这是一组利用内核内部八个附加寄存器的指令。每个都被设计为存储一到四个整数值。该系统允许处理器同时执行跨多个数字的一条指令这种方法被称为 SIMDSingle Instruction, Multiple Data。 一年后AMD 推出了自己的版本名为3DNow。它的性能尤其优越因为寄存器可以存储浮点值。又过了一年英特尔才在 MMX 中解决这个问题并在 Pentium III 中引入了SSE Streaming SIMD Extensions。 随着日历进入新千年高性能计算机的设计者可以使用能够有效处理矢量数学的标准处理器。 一旦扩展到数千个这些处理器就可以同样出色地管理矩阵和张量。尽管取得了这一进步超级计算机世界仍然青睐旧的或专用的芯片因为这些新的扩展并不是专门为此类任务而设计的。对于另一种快速普及的处理器来说GPU 也是如此它比 AMD 或 Intel 的任何 CPU 都更擅长 SIMD 工作。 在图形处理器的早期CPU 处理构成场景的三角形的计算因此 AMD 用于执行 SIMD 的名称为 3DNow。然而像素的着色和纹理完全由 GPU 处理并且这项工作的许多方面都涉及矢量数学。 20 多年前最好的消费级显卡例如 3dfx Voodoo5 5500和 Nvidia GeForce 2 Ultra都是出色的 SIMD 设备。然而它们的创建目的是为游戏生成 3D 图形而不是其他任何东西。即使是专业市场的显卡也只专注于渲染。 ATI 售价 2,000 美元的 ATI FireGL 3 配备了两个 IBM 芯片一个 GT1000 几何引擎和一个 RC1000 光栅器、一个巨大的 128 MB DDR-SDRAM 以及据称 30 GFLOPS 的处理能力。但这一切都是为了使用 OpenGL 渲染 API 加速 3D Studio Max 和 AutoCAD 等程序中的图形。 那个时代的 GPU 无法用于其他用途因为转换 3D 对象并将其转换为监视器图像的过程并不涉及大量的浮点数学。事实上其中很大一部分是在整数级别并且图形卡需要几年的时间才开始在整个管道中大量使用浮点值。 第一个是ATI 的 R300 处理器它有 8 个独立的像素管道以 24 位浮点精度处理所有数学运算。不幸的是除了图形之外没有其他方法可以利用这种能力——硬件和相关软件完全以图像为中心。 计算机工程师并没有忘记 GPU 拥有大量 SIMD 功能但缺乏将其应用到其他领域的方法这一事实。令人惊讶的是这是一个游戏机展示了如何解决这个棘手的问题。 统一的新时代 微软的Xbox 360于2005年11月上市其CPU由IBM设计和制造基于PowerPC架构GPU由ATI设计、台积电制造。 这款代号为 Xenos 的图形芯片很特别因为它的布局完全避开了单独的顶点和像素管道的经典方法。 取而代之的是一个三路 SIMD 阵列集群。具体来说每个集群由 16 个向量处理器组成每个向量处理器包含 5 个数学单元。这种布局使每个阵列能够在每个周期对 80 个浮点数据值同时执行来自线程的两条顺序指令。 被称为统一着色器架构unified shader architecture每个阵列可以处理任何类型的着色器。尽管 Xenos 使芯片的其他方面变得更加复杂但它引发了一种至今仍在使用的设计范例。在时钟速度为 500 MHz 的情况下整个集群理论上可以为乘法加法命令的三个线程实现 240 GFLOPS (500 x 16 x 80 x 2) 的处理速率。 为了让这个数字有一定的规模感十年前的一些世界顶级超级计算机无法匹敌这个速度。例如桑迪亚国家实验室的aragon XP/S140凭借 3,680 个 Intel i860 CPU 在 1994 年名列世界超级计算机榜首峰值速度为 184 GFLOPS。芯片开发的速度很快就超过了这台机器但 GPU 也是如此。 CPU 多年来一直在整合自己的 SIMD 阵列例如英特尔最初的 Pentium MMX 有一个专用单元用于在向量上执行指令最多包含 8 个 8 位整数。当 Xbox 的 Xenos 在全球家庭中使用时此类设备的尺寸至少增加了一倍但与 Xenos 相比它们仍然很小。 当消费级显卡开始采用具有统一着色器架构的 GPU 时它们已经拥有比 Xbox 360 的图形芯片明显更高的处理速率。 GeForce 8800 GTX (2006 ) 中使用的 Nvidia G80上图的理论峰值为 346 GLFOPS而Radeon HD 2900 XT (2007) 中的 ATI R600 则拥有 476 GLFOPS。 两家图形芯片制造商很快就在其专业模型中利用了这种计算能力。虽然价格过高但 ATI FireGL V8650 和 Nvidia Tesla C870 非常适合高端科学计算机。然而在最高级别上全世界的超级计算机仍然依赖标准 CPU。事实上几年后 GPU 才开始出现在最强大的系统中。 超级计算机和类似系统的设计、建造和操作都极其昂贵。多年来它们都是围绕大量 CPU 阵列构建的因此集成另一个处理器并不是一朝一夕的事。此类系统在增加芯片数量之前需要进行彻底的规划和初始小规模测试。 其次让所有这些组件协调运行尤其是软件方面绝非易事这也是当时 GPU 的一个重大弱点。虽然它们已经变得高度可编程但以前可供它们使用的软件相当有限。 Microsoft 的 HLSLHigher Level Shader Language、Nvidia 的Cg 库和 OpenGL 的 GLSL 使访问图形芯片的处理能力变得简单尽管纯粹是为了渲染。 统一着色器架构 GPU 改变了这一切。 2006 年当时已成为AMD 子公司的ATI和 Nvidia 发布了软件工具包旨在将这种能力不仅仅用于图形其 API 分别称为 CTMClose To Metal和CUDACompute Unified Device Architecture。 然而科学和数据处理社区真正需要的是一个全面的软件包它将大量的 CPU 和 GPU通常称为异构平台视为由众多计算设备组成的单个实体。 他们的需求在 2009 年得到满足。OpenCL 最初由 Apple 开发由 Khronos Group 发布该集团几年前吸收了 OpenGL成为在日常图形之外或当时该领域使用 GPU 的事实上的软件平台GPGPU 指的是 GPU 上的通用计算该术语由Mark Harris创造。 GPU 进入计算竞赛 与广阔的技术评论世界不同全球范围内并没有数百名评论者测试超级计算机的性能主张。然而德国曼海姆大学于 20 世纪 90 年代初启动的一个正在进行的项目正是致力于实现这一目标。 该组织被称为“TOP500”每年两次发布全球最强大的 10 台超级计算机排行榜。 第一个夸耀 GPU 的条目出现在 2010 年中国有两个系统——Nebulae 和Tianhe-1。它们分别依赖于 Nvidia 的Tesla C2050本质上是 GeForce GTX 470如下图所示和 AMD 的Radeon HD 4870芯片前者的理论峰值为 2,984 TFLOPS。 在高端 GPGPU 的早期阶段Nvidia 是为计算巨头配备的首选供应商不是因为性能因为 AMD 的 Radeon 卡通常提供更高程度的处理性能而是因为软件支持。CUDA经历了快速发展几年后 AMD 才找到合适的替代方案鼓励用户改用 OpenCL。 然而英伟达并没有完全主导市场英特尔的至强融核处理器试图占据一席之地。这些大型芯片源自一个名为 Larrabee 的已中止的 GPU 项目是一种特殊的 CPU-GPU 混合体由多个类似奔腾的核心CPU 部分与大型浮点单元GPU 部分配对组成。 对 Nvidia Tesla C2050 内部结构的检查揭示了 14 个称为流式多处理器 (SM) 的块由缓存和中央控制器划分。每一个都包含 32 组两个逻辑电路Nvidia 称之为 CUDA 核心用于执行所有数学运算——一组用于整数值另一组用于浮点数。在后一种情况下内核可以在每个时钟周期以单32 位精度管理一次 FMA融合乘加操作双精度64 位运算至少需要两个时钟周期。 Xeon Phi 芯片如下所示中的浮点单元看起来有些相似只是每个内核处理的数据值是 C2050 中 SM 的一半。尽管如此由于与 Tesla 的 14 个重复核心相比有 32 个重复核心单个 Xeon Phi 处理器总体上每个时钟周期可以处理更多的值。然而英特尔首次发布的该芯片更多的是一个原型并不能完全发挥其潜力——英伟达的产品运行速度更快功耗更低并被证明最终是优越的。 这将成为 AMD、英特尔和 Nvidia 之间三路 GPGPU 之争中反复出现的主题。一种型号可能拥有数量较多的处理核心而另一种型号可能具有更快的时钟速度或更强大的缓存系统。 CPU 对于所有类型的计算仍然至关重要许多超级计算机和高端计算系统仍然由 AMD 或英特尔处理器组成。虽然单个 CPU 无法与普通 GPU 的 SIMD 性能竞争但当数千个 CPU 连接在一起时它们就证明足够了。然而此类系统缺乏功效。 例如在天河一号超级计算机使用Radeon HD 4870 GPU的同时AMD最大的服务器CPU12核Opteron 6176 SE也开始流行。对于大约 140 W 的功耗CPU 理论上可以达到 220 GFLOPS而 GPU 只需额外 10 W 即可提供 1,200 GFLOPS 的峰值而且成本仅为其一小部分。 一个可以做更多事情的小显卡 几年后不仅仅是世界上的超级计算机在利用 GPU 来集体进行并行计算。Nvidia 正在积极推广其GRID 平台这是一种用于科学和其他应用的 GPU 虚拟化服务。最初是作为托管基于云的游戏的系统而推出的对大规模、经济实惠的 GPGPU 不断增长的需求使得这一转变不可避免。在其年度技术会议上GRID 被认为是各领域工程师的重要工具。 在同一事件中GPU 制造商展示了代号为 Volta 的未来架构。公布的细节很少普遍的假设是这将是另一款服务于英伟达所有市场的芯片。 与此同时AMD 也在做类似的事情在其专注于游戏的 Radeon 系列以及 FirePro 和 Radeon Sky 服务器卡中利用定期更新的 Graphics Core Next (GCN) 设计。那时性能数据已经令人震惊——FirePro W9100 的峰值 FP32 吞吐量为 5.2 TFLOPS32 位浮点这个数字对于不到二十年前的超级计算机来说是不可想象的。 GPU 仍然主要是为 3D 图形设计的但渲染技术的进步意味着这些芯片必须越来越熟练地处理一般计算工作负载。唯一的问题是它们执行高精度浮点数学即 FP64 或更高的能力有限。 纵观2015 年顶级超级计算机与完全基于 CPU 的超级计算机相比使用 GPU英特尔的 Xeon Phi 或 Nvidia 的 Tesla的数量相对较少。 当 Nvidia 在 2016 年推出Pascal 架构时这一切都发生了变化。这是该公司首次尝试专门为高性能计算市场设计 GPU其他 GPU 则用于多个领域。前者只生产过一款GP100并且只产生了 5 种产品但之前所有架构都只配备少数 FP64 内核而这款芯片却容纳了近 2,000 个内核。 Tesla P100 提供超过 9 TFLOPS 的 FP32 处理能力和 FP64 处理能力的一半它的功能非常强大。AMD 的 Radeon Pro W9100 使用 Vega 10 芯片在 FP32 下速度快了 30%但在 FP64 下慢了 800%。此时英特尔因销售不佳而濒临停产 Xeon Phi。 一年后Nvidia 终于发布了 Volta这表明该公司不仅仅有兴趣将其 GPU 引入 HPC 和数据处理市场它还瞄准了另一个市场。 神经元、网络 深度学习是机器学习这一更广泛学科中的一个领域而机器学习又是人工智能的一个子集。它涉及使用复杂的数学模型称为神经网络从给定数据中提取信息。 一个例子是确定所呈现的图像描绘特定动物的概率。为此模型需要进行“训练”——在本例中显示了数百万张该动物的图像以及数百万张不显示该动物的图像。所涉及的数学植根于矩阵和张量计算。 几十年来此类工作负载只适合基于 CPU 的大型超级计算机。然而早在 2000 年代GPU 就显然非常适合此类任务。 尽管如此英伟达还是押注于深度学习市场的大幅扩张并在其 Volta 架构中添加了额外的功能使其在该领域脱颖而出。这些是作为张量核心销售的 FP16 逻辑单元组作为一个大型阵列一起运行但功能非常有限。 事实上它们的功能非常有限只能执行一个功能将两个 FP16 4x4 矩阵相乘然后将另一个 FP16 或 FP32 4x4 矩阵添加到结果中这一过程称为 GEMM 运算。Nvidia 之前的 GPU 以及竞争对手的 GPU 也能够执行此类计算但速度远不及 Volta。使用该架构的唯一 GPU GV100 总共容纳了 512 个张量核心每个核心能够在每个时钟周期执行 64 个 GEMM。 根据数据集中矩阵的大小以及所使用的浮点大小Tesla V100 卡在这些张量计算中理论上可以达到 125 TFLOPS。Volta 显然是为小众市场设计的但 GP100 在超级计算机领域的进展有限而新的 Tesla 型号则迅速被采用。 PC 爱好者会知道Nvidia 随后在图灵架构的通用消费产品中添加了张量核心并开发了一种名为DLSSDeep Learning Super Sampling的升级技术该技术使用 GPU 中的核心在计算机上运行神经网络。放大图像纠正帧中的任何伪影。 在短时间内Nvidia 独占了 GPU 加速的深度学习市场其数据中心部门的收入大幅增长——2017 财年增长率为 145%2018 财年增长率为 133%2019 财年增长率为 52%。截至 2019 财年末HPC、深度学习等领域的销售额总计 29 亿美元这是一个非常积极的结果。 但随后市场真的爆发了。该公司 2023 年第四季度的总收入为 221 亿美元同比增长 265%。其中大部分增长来自该公司的人工智能计划该计划创造了 184 亿美元的收入。 然而只要有钱竞争就不可避免尽管 Nvidia 仍然是迄今为止最大的 GPU 提供商但其他大型科技公司也没有坐以待毙。 2018 年谷歌开始通过云服务提供对其内部开发的张量处理芯片的访问。亚马逊很快也紧随其后推出了专用 CPU AWS Graviton。与此同时AMD 正在重组其 GPU 部门形成两条不同的产品线一条主要用于游戏 (RDNA)另一条专门用于计算 (CDNA)。 虽然 RDNA 与其前身明显不同但 CDNA 在很大程度上是 GCN 的自然演变尽管规模扩大到了一个巨大的水平。看看当今用于超级计算机、数据服务器和人工智能机器的 GPU一切都非常巨大。 AMD 的 CDNA 2 驱动的MI250X拥有 220 个计算单元提供略低于 48 TFLOPS 的双精度 FP64 吞吐量和 128 GB 的高带宽内存 (HBM2e)这两个方面在 HPC 应用中都备受追捧。Nvidia 的 GH100 芯片采用Hopper 架构和 576 个 Tensor Core在 AI 矩阵计算中采用低精度 INT8 数字格式有可能达到 4000 TOPS。 英特尔的Ponte Vecchio GPU 同样庞大拥有 1000 亿个晶体管AMD 的 MI300 拥有 460 亿个晶体管包括多个 CPU、图形和内存小芯片。 然而它们共有的一件事是它们绝对不是 GPU它们不是 GPU。早在英伟达将该术语用作营销工具之前该缩写词就代表图形处理单元。AMD 的 MI250X 没有任何渲染输出单元 (ROPrender output units)甚至 GH100 也仅拥有类似于 GeForce GTX 1050 的Direct3D 性能使得 GPU 中的“G”变得无关紧要。 那么我们可以称呼它们什么呢 “GPGPU”并不理想因为它是一个笨拙的短语指的是在通用计算中使用 GPU而不是设备本身。“HPCU”高性能计算单元也好不了多少。但也许这并不重要。 毕竟“CPU”一词非常广泛涵盖了各种不同的处理器和用途。 GPU 接下来要征服什么 Nvidia、AMD、Apple、Intel 和其他数十家公司在 GPU 研发上投入了数十亿美元当今的图形处理器不会很快被任何截然不同的产品所取代。 对于渲染最新的 API 和使用它们的软件包例如游戏引擎和 CAD 应用程序通常与运行代码的硬件无关因此从理论上讲它们可以适应全新的东西。 然而GPU 中专门用于图形的组件相对较少三角形设置引擎和 ROP 是最明显的组件并且最近版本中的光线追踪单元也高度专业化。然而其余部分本质上是大规模并行 SIMD 芯片由强大而复杂的内存/缓存系统支持。 基本设计与以往一样好未来的任何改进都与半导体制造技术的进步紧密相关。换句话说它们只能通过容纳更多逻辑单元、以更高的时钟速度运行或两者的组合来改进。 当然它们可以合并新功能使其能够在更广泛的场景中发挥作用。在 GPU 的历史上这种情况已经发生过多次但向统一着色器架构的过渡尤为重要。虽然最好拥有专用硬件来处理张量或光线追踪计算但现代 GPU 的核心能够管理这一切尽管速度较慢。 这就是为什么 AMD MI250 和 Nvidia GH100 等产品与台式电脑的同类产品非常相似未来用于 HPC 和 AI 的设计很可能会遵循这一趋势。那么如果芯片本身不会发生重大变化那么它们的应用又如何呢 鉴于与 AI 相关的任何事物本质上都是计算的一个分支因此只要需要执行大量 SIMD 计算就可能会使用 GPU。虽然科学和工程领域没有多少领域尚未使用此类处理器但我们可能会看到 GPU 衍生产品的使用激增。 目前人们可以购买配备微型芯片的手机其唯一功能是加速张量计算。随着ChatGPT等工具的功能和普及度不断增强我们将看到更多配备此类硬件的设备。 不起眼的 GPU 已经从仅仅比 CPU 更快地运行游戏的设备发展成为通用加速器为全球的工作站、服务器和超级计算机提供动力。 全球数百万人每天都在使用它——不仅在我们的计算机、电话、电视和流媒体设备中而且在我们使用包含语音和图像识别或提供音乐和视频推荐的服务时也是如此。 GPU 真正的下一步可能是一个未知的领域但有一点是肯定的图形处理单元将在未来几十年内继续成为计算和人工智能的主要工具。
http://www.pierceye.com/news/867152/

相关文章:

  • 网站建设举措网站免费建站方法
  • 遵义市双控体系建设网站wamp wordpress安装
  • 厦门的网站建设公司龙岗网站-建设深圳信科
  • 上海网站建设q.479185700強成都上界品牌设计事务所
  • 产品设计优秀网站做网站申请多少类商标
  • 中国行业网站贵州网站建设seo优化
  • 网站部兼容ie6没有防盗链的网站
  • google网站推广网站自助平台
  • 外贸自建站多久能出单wordpress的pdf阅读
  • 深圳东莞的网站建设公司网店代运营哪里好
  • 做费网站wordpress折叠代码
  • 分析海报的网站企业网站服务费怎么做记账凭证
  • 海南建设大厅网站888网创
  • aspnet网站开发实例项目河南网站建设推广
  • ppt免费模板大全网站微网站建设网站
  • 郑州网站建设七彩科技网络服务器配置设计
  • 专业企专业企业网站设计洛阳青峰网络
  • 网站开发需要多少钱如何销售管理系统需求分析
  • 西安网站建设查派9861云南网站建设
  • 做微商网站制作网站曝光率
  • 平价网站平价网站建设建设百度电话号码
  • 有哪些做拎包入住的网站中国建设银行网站会员用户名
  • 用模板搭建的网站备案吗wordpress热门文章调用
  • 有哪些电商网站中山视角做网站的公司
  • 做网站 点击跳转html菜鸟教程下载
  • 苏州做公司网站设计的公司嘉盛建设集团官方网站
  • 建设银行e路护航官方网站登陆医疗网站做药品是干嘛
  • 十堰h5响应式网站西安网站制作厂家
  • 建设银行官方网站企业网银手机网站怎么dw做
  • 简单自适应网站wordpress联系表格