当前位置：首页 > news >正文

网站评价网站建设的公司上海

news 2025/11/19 5:08:07

网站评价,网站建设的公司上海,wordpress缓存命中率,淘宝网页设计培训班来源#xff1a;北京物联网智能技术应用协会人工智能的崛起#xff0c;对内存系统提出了一些新要求。今天的内存技术能够满足AI时代下的新应用吗#xff1f;从长远来看#xff0c;新兴内存技术对边缘 AI有什么前景?首先要意识到的是“边缘AI”应用没有特定标准;“边缘”在… 来源北京物联网智能技术应用协会　　人工智能的崛起对内存系统提出了一些新要求。今天的内存技术能够满足AI时代下的新应用吗从长远来看新兴内存技术对边缘 AI有什么前景?　　首先要意识到的是“边缘AI”应用没有特定标准;“边缘”在其最广泛的解释中涵盖了云以外所有支持人工智能的电子系统。这可能包括“基于端Near edge”通常涵盖企业数据中心和本地服务器。　　自动驾驶计算机视觉、制造网关设备执行AI推理、检查生产线上产品的缺陷、公用电线杆上的5G“边缘盒”、为交通管理等智能城市应用分析视频流以及5G基础设施在复杂但高效的波束成形算法的边缘使用人工智能这些都是最典型的应用。　　内存技术的进步反映了数据爆炸和越来越需要将处理移到更接近数据的地方。内存和存储技术处于并行的轨道上更多的工作负载在内存中处理。　　在“基于5G MECFar edge”上人工智能被支持在手机(比如Snapchat过滤器)、设备的语音控制和工厂物联网传感器节点上在将结果发送到另一个网关设备之前进行传感器融合。　　内存在边缘AI系统中的作用指的是存储神经网络权重、模型代码、输入数据和中间激活——对于大多数AI应用来说是一样的。为了保持效率必须加快工作负载以最大限度地提高AI算力因此对容量和带宽的需求通常很高。然而具体应用的要求是多种多样的可能包括尺寸、功耗、低电压运行、可靠性、热/冷却考虑和成本。边缘数据中心　　边缘数据中心是一个关键的边缘市场。用例包括医疗成像、研究金融算法在这些领域由于隐私问题我们无法将数据上传到云上。自动驾驶亦是如此因为等待时间不能过长。　　这些系统使用的内存与其他应用程序中的服务器相同。　　智能模块化技术的解决方案架构师Pekon Gupta表示“在人工智能算法正在开发的训练应用中使用低延迟DRAM用于快速的字节级作为主要内存是很重要的大数据集需要高容量RDIMM或LRDIMM。NVDIMM是系统加速所需要-我们使用它们来写缓存而不是较慢的SSD。　　将计算节点定位到接近终端用户的位置是电信运营商所采用的方法。　　Gupta:“我们看到了一种趋势那就是让这些电信公司边缘服务器更有能力运行复杂的算法。”因此“服务提供商使用RDIMM、LRDIMM等设备和NVDIMM等高可用持久内存为这些边缘服务器添加更多内存和处理能力。”　　Gupta认为英特尔的3D-Xpoint非易失性内存Optane它的性能介于DRAM和Flash之间是服务器AI应用的一个很好的解决方案。　　“傲腾Optane DIMM和NVDIMM都被用作人工智能加速器” NVDIMM提供了非常低的延迟分层缓存写入缓冲和元数据存储能力的AI应用程序加速。傲腾数据中心DIMM可用于内存中的数据库加速其中数百GB到TB的持久性内存与DRAM结合使用。尽管它们都是AI/ML加速应用程序的持久内存解决方案但它们有不同且独立的用例。”　　英特尔傲腾的产品营销总监Kristie Mann介绍, 傲腾正在尝试获得在服务器AI领域的应用。　　Mann:“我们的客户现在已经在使用傲腾persistent memory来为他们的人工智能应用提供能量。”“它们成功推动了电子商务、视频推荐引擎和实时财务分析应用。由于可用容量的增加我们看到了向内存应用的转变。”　　自2012年以来英特尔便一直在开发这项技术——也就是如今我们所熟知的英特尔傲腾傲腾技术。傲腾技术在多个方面实现了技术进步并最终成为了一种“非易失性内存”并实现了几乎与易失性工作内存(动态随机存取存储器DRAM)一样快的速度且同时能在断电时保留数据。相比之下DRAM只能在通电状态下保持“正常运转”。　　DRAM的高价格正使得傲腾成为一个更有吸引力的替代品。一台服务器配有两个Intel Xeon可伸缩处理器加上傲腾持久内存可以为需要数据的应用程序提供高达6TB的内存。尽管傲腾在速度上无法完全与DRAM匹敌但它具有“持久性”的优势。也就是说傲腾在无需通电的情况下即可保持数据的存续状态。持久性一般与磁性相关硬盘驱动器和磁带利用磁场将位置设置为1或0。　　Mann“DRAM仍是最受欢迎的但从成本和容量的角度来看它有其局限性”“由于成本、容量和性能优势如Optane persistent memory和Optane SSD这些新内存和存储技术正在占领DRAM的市场。”Optane SSD是特别强大的缓存HDD和NAND SSD数据可以持续提供人工智能应用数据。　　她补充说与目前还不完全成熟或可扩展的其他新兴存储器相比Optane也有一定优势。　　英特尔Optane 200系列模块Optane现在已经被用来为人工智能应用提供持续动力。GPU提速　　对于高端的边缘数据中心和边缘服务器应用程序像GPU这样的人工智能计算加速器正在获得市场青睐。和DRAM一样这里的内存包括GDDR和DDR SDRAM提供高带宽GPUHBM以及一种全新的堆叠技术它将多个内存模放在与GPU本身的封装中。　　两者都是为人工智能应用程序所需的极高的内存带宽而设计。　　HBM2E和GDDR6助力新一轮人工智能应用浪潮　　鉴于AI/ML的需求分流的特性内存的选择取决于应用训练还是推理。HBM2E和GDDR6这两种高带宽内存都可以起到至关重要的作用。　　相比GDDRHBM技术的显存在带宽、性能及能效上遥遥领先 JEDEC近期推出了HBM2e规范三星抢先推出容量可达96GB的HBM2e显存。根据规范HBM2存储标准JESD235C将针脚带宽提高到3.2Gbps之前的两版HBMe分别是2Gbps、2.4Gbps速率相比之下HBM2e速率提升25%到60%。　　对于要求最高的AI模型训练HBM2E提供3.6 Gbps和460 GB/s的内存带宽(两个HBM2E堆栈提供接近1 TB/s的内存带宽)。这是可用的性能最高的内存之一功耗最低。相比GDDR显存HBM技术的显存在带宽、性能及能效上遥遥领先前不久JEDEC又推出了HBM2e规范三星抢先推出容量可达96GB的HBM2e显存。GPU领导者Nvidia在其所有数据中心产品中都使用了HBM。　　Rambus IP核产品营销高级总监Frank Ferro表示GDDR6也被用于AI推理。GDDR6能够满足边缘 AI推理系统在速度、成本和功率方面的要求。例如GDDR6可以提供18 Gbps和72 GB/s的带宽。拥有4个GDDR6 DRAM可以提供接近300GB/s的内存带宽。此外GDDR6亦可用于ADAS应用。　　Nvidia将GDDR6与LPDDR进行比较对于Jetson AGX Xavier和Jetson Nano等大多数非数据中心边缘解决方案的方法 LPDDR更适用于边缘或端点的低成本AI推断。　　“LPDDR的带宽对于LPDDR4被限制在4.2 Gbps对于LPDDR5被限制在6.4 Gbps。”“随着内存带宽需求的增加我们将看到越来越多的设计使用GDDR6。这种内存带宽的差距有助于推动GDDR6的需求。”　　尽管这是为了配合GPU而设计但其他处理加速器可以利用GDDR的带宽。Ferro着重介绍了Achronix Speedster7t这是一款基于FPGA的人工智能加速器用于推理和一些低端训练。　　Ferro“在边缘人工智能应用中HBM和GDDR内存都有空间”“HBM”将继续在边缘应用中使用。HBM虽然拥有所有优势但由于3D技术和2.5D制造成本仍然很高。考虑到这一点GDDR6是成本和性能之间的一个很好的平衡特别是对于网络中的人工智能推理。”　　总的来说训练和推理有其独特的应用需求可以通过定制内存解决方案来支持。HBM2E是AI训练的理想选择GDDR6是AI推理的理想选择。设计师可以通过与Rambus合作来克服这些架构中固有的设计挑战从而实现这些高性能内存的长处。　　HBM则用于Graphcore IPU等高性能数据中心AI专用集成电路中。虽然它的性能一流但在某些应用程序中它的价格可能过高。　　但问题是处理器算力提高了10倍内存怎样提高10倍的性能呢如果用传统的DDR4、DDR5、HBM、HBM1、HBM2、HBM3内存等基本上每代只能约有30%、40%的提升这是远远不够的。　　高通是使用DRAM来解决高数据中心内存方案的公司之一。其Cloud AI 100的目标是在边缘数据中心、5G“边缘盒”、ADAS/自动驾驶和5G基础设施方面加速AI推理。　　Cloud AI 100采用7nm工艺性能比目前业界最先进的 AI 推理解决方案高出 10 倍以上。Cloud AI 100 集成了一系列开发工具包括编译器、调试器、分析器、监视器、服务、芯片调试器和数字转换器。　　高通计算和边缘云部门总经理Keith Kressin表示:“使用标准DRAM而不是HBM之类的东西对我们来说很重要因为我们希望降低材料成本。”“我们的客户想要做所有的芯片还要交叉卡。但他们都希望保持合理的成本而不是购买HBM甚至更新的内存。”　　“在训练中”你会有跨越(多个芯片)的大型模型但为了推理很多模型都更加本地化。”Far Edge[1]　　在数据中心之外边缘AI系统通常侧重于推理但也有一些例外比如联邦学习和其他增量式训练技术。　　一些对功率敏感的应用程序人工智能加速器使用内存来进行人工智能处理。推理是基于多维矩阵乘法的它有助于使用用于执行计算的存储单元阵列的模拟计算技术。利用这种技术Syntiant的设备被设计为消费类电子产品的语音控制而Gyrfalcon的设备被设计成智能手机用于处理相机效果的推断。　　除了内存中的计算设备专用集成电路在特定的边缘领域也很流行特别是在低功耗和超低功耗系统。专用集成电路的内存系统使用几种内存类型的组合。分布式本地SRAM是最快最节能的但不是非常节能。单片SRAM在芯片上运行效率更高但会带来性能瓶颈。芯片外DRAM更便宜但耗电更大。　　简单来讲SRAM比DRAM更快但也贵很多。SRAM用来作为高速缓存存储器既可以在CPU上也可以不在CPU上。DRAM用来作为主存以及图形系统的帧缓冲区。一个桌面系统的SRAM不会超过几兆字节但是DRAM却有几百兆字节或几千兆字节。只要有电SRAM就是持续的与DRAM不同它不需要持续刷新。SRAM的存取比DRAM快。SRAM对诸如光和电噪音这样的干扰不敏感代价是SRAM单元比DRAM单元使用更多的晶体管因而没那么密集而且更贵功耗更大。　　Flex Logix首席执行官Geoff Tate表示要在SRAM和芯片外DRAM之间找到合适的平衡需要一系列的性能模拟。其目的是最大限度地提高每美元的推理吞吐量——模具尺寸、包装成本和使用的DRAM数量的函数。　　Geoff Tate“最佳点是单个x32 LPDDR4 DRAM;4K MAC(最高7.5台933MHz);大约10MB的SRAM”“SRAM速度很快但与DRAM相比价格昂贵。我们使用台积电的16nm制程技术1MB的SRAM大约需要1.1mm2。“我们的InferX X1只有54mm2得益于我们的架构DRAM访问在很大程度上与计算重叠所以没有性能组成。”对于大型模型来说拥有一个DRAM是一个合适的权衡至少对我们的架构来说是这样。　　Flex Logix芯片将用于实时操作的边缘 AI推理应用包括分析低延迟的流媒体视频、ADAS系统、安全镜头分析、医疗成像和质量保证/检查应用。　　在这些应用程序中什么样的DRAM会和InferX X1一起出现?　　“我们认为LPDDR将最受欢迎一个DRAM提供超过10GB/秒的带宽……但仍有足够的比特存储权重/中间激活”“任何其他DRAM都需要更多的芯片和接口需要购买更多未使用的比特。”新兴内存技术能否崛起?　　他补充说:“使用任何新兴内存时晶圆成本都大幅上升而SRAM是‘免费’的除了硅区域。”“随着经济形势的变化临界点也可能发生变化但它将在更远处发生。”　　其他内存类型仍然为人工智能应用提供了未来的可能性。　　磁阻存储器(MRAM)通过施加的电压控制磁体的方向来存储每一位数据。如果电压低于反转位所需的电压则只有一个位将反转的可能。由于MRAM的随机性是不需要的因此MRAM是用更高的电压驱动的以防止其发生。不过一些人工智能应用程序可以利用这种固有的随机性(可以认为是随机选择或生成数据的过程)。　　通过实验我们已经将MRAM的随机能力应用到Gyrfalcon的设备上这项技术可以将所有重量和激活的精度降低到1位。这是用来大大减少计算和功率要求的远边缘应用。可能会在精确度上做出取舍这取决于网络如何被重新训练。一般来说尽管精度降低了神经网络仍能可靠地工作。　　Spin Memory的产品副总裁Andy Walker:“二值化神经网络BNN[2]的独特之处在于即使数字是-1或1的确定性降低了它们也能可靠地工作。”“我们发现这样的BNN仍然可以在高精确度下运行因为这种确定性是通过引入被错误写入的内存位的‘误码率’而降低的。”　　在低电压水平下MRAM可以自然地以可控的方式引入误码率在进一步降低功率要求的同时保持准确性。关键是在最低的电压和最短的时间内确定最佳的准确度这意味着最高的能源效率。　　虽然这项技术也适用于更高精度的神经网络但它特别适用于BNN因为MRAM细胞有两种状态与BNN中的二进制状态相匹配。　　Walker表示在边缘使用MRAM是另一个潜在的应用。　　“对于边缘 AI来说MRAM能够在不需要高性能精度的应用中在较低的电压下运行但是提高能源效率和内存耐久性是非常重要的。”此外MRAM固有的非易变性允许在不通电的情况下进行数据保存。　　“其中这种新兴存储器可以同时作为嵌入式闪存和SRAM的替换节省了芯片上的面积并避免了SRAM固有的静态功耗。”　　虽然Spin Memory的MRAM即将被商用但BNN的具体实现将在基本MRAM单元的变体上表现良好。因此目前还处于研究阶段。神经拟态ReRAM　　边缘 AI应用程序的另一个新兴内存是可变电阻式随机存取存储器ReRAM。ReRAM能够仿真大脑为人工智能(AI)应用创建神经网络因此激发了人们对新兴内存的浓厚兴趣。实际上人们讨论神经图(neural map)已经很长时间了但是还没人真正实现它并将其投入生产。　　米兰理工大学最近使用Weebit Nano的氧化硅(SiOx) ReRAM技术进行的研究显示了神经形态计算的前景。ReRAM为神经网络硬件增加了一个维度的可塑性;也就是说它可以随着条件的变化而进化——这在神经拟态计算中是一种关键的特性。　　目前的神经网络无法在不忘记它们已经训练过的任务的情况下学习而大脑却可以很容易做到这一点。用人工智能的术语来说这是“无监督学习”算法在没有标签的数据集上进行推理在数据中寻找自己的模式。最终的结果可能是重新启用的边缘人工智能系统它们可以就地学习新的任务并适应周围的环境。　　总的来说内存制造商正在引入能够提供人工智能应用所需的速度和带宽的技术。各种各样的存储器无论是在同一芯片上的AI计算在同一封装里还是在单独的模块可用于众多边缘AI应用。　　虽然边缘 AI的内存系统的确切性质取决于应用程序但GDDR、HBM和Optane在数据中心很受欢迎而LPDDR在端点应用程序上与片上SRAM将会继续竞争。　　“新兴存数技术”将其新颖的特性用于研究旨在推动神经网络超越目前硬件的能力这些都有助于实现未来节能、ML系统的发展。　　延伸阅读——服务器UDIMM、LRDIMM、RDIMM三种内存区别　　在服务器领域目前使用的内存条类型DIMM主要有三种UDIMM、RDIMM和LRDIMM。UDIMM　　UDIMM全称Unbuffered DIMM即无缓冲双列直插内存模块指地址和控制信号不经缓冲器无需做任何时序调整直接到达DIMM上的DRAM芯片。UDIMM由于在CPU和内存之间没有任何缓存因此同频率下延迟较小。　　数据从CPU传到每个内存颗粒时UDIMM需保证CPU到每个内存颗粒之间的传输距离相等这样并行传输才有效而这需要较高的制造工艺因此UDIMM在容量和频率上都较低。服务器内存UDIMM与RDIMM的差别RDIMM　　RDIMM全称Registered DIMM带寄存器的双列直插内存模块。RDIMM在内存条上加了一个寄存器进行传输其位于CPU和内存颗粒之间既减少了并行传输的距离又保证并行传输的有效性。由于寄存器效率很高因此相比UDIMMRDIMM的容量和频率更容易提高。LRDIMM　　LRDIMM全称Load Reduced DIMM低负载双列直插内存模块。相比RDIMMLRDIMM并未使用复杂寄存器只是简单缓冲缓冲降低了下层主板上的电力负载但对内存性能几乎无影响。　　此外LRDIMM内存将RDIMM内存上的Register芯片改为iMBisolation Memory Buffer内存隔离缓冲芯片直接好处就是降低了内存总线负载进一步提升内存支持容量。服务器内存UDIMM与RDIMM的差别　　[1] 不同行业推出的边缘计算在与用户的位置距离上也有区别根据距离用户的远近Gartner将边缘计算分为基于端Near Edge和基于5G MECFar Edge两种。电信运营商需要在移动基站附近接入无线网络。从电信核心网角度看基站在最远位置所以无线接入网络RAN这层称作远边缘Far Edge。两种模式采用不同的开源框架有着不同的底层实现架构从商业视角考虑Far Edge能够实现更深刻的边缘赋能更具发展潜力。　　[2] 二值化神经网络将权重和激活函数转化为二值比如1或者-1。显著的区别就是在全精度神经网络中输入和权重是点乘(dot product)操作而二值神经网络中用按位异或非(bitwise XNOR)来实现的。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/129566/