温州建设工程监理管理学会网站,东莞免费网页制作模板,蚌埠网站制作,产品策划推广方案点击关注 文#xff5c;姚悦
编#xff5c;王一粟
一进入部署了液冷服务器的数据中心#xff0c;不仅没有嘈杂的风扇声#xff0c;甚至在不开空调的夏日也完全没有闷热感。
在大模型引发“暴力计算”的热潮下#xff0c;数据中心的上下游#xff0c;正在加紧推进液冷“…点击关注 文姚悦
编王一粟
一进入部署了液冷服务器的数据中心不仅没有嘈杂的风扇声甚至在不开空调的夏日也完全没有闷热感。
在大模型引发“暴力计算”的热潮下数据中心的上下游正在加紧推进液冷“降温”。
半年来服务器厂商在液冷产品上纷纷推出新的解决方案。比如中兴通讯的新G5系列服务器支持不同的冷板式液冷方案从CPU液冷到内存条散热VR液冷联想升级海神温水水冷系统可实现服务器全水冷无风扇设计新华三也发布全栈液冷解决方案包含G6系列服务器、核心路由器、接入交换机中科曙光子公司曙光数创8月发布了“冷平衡”战略是特别针对数据中心算力、成本、能耗三元平衡问题推出的全栈液冷数据中心技术与全生命周期一站式服务去年年底华为推出全场景液冷“天成”多样性算力平台。今年华为昇腾再推集成天成液冷的算力集群可以支持万卡规模。 “在‘东数西算’‘双碳’大背景下不断提升的功率密度和PUE能效指标越接近1越优设计要求已成为行业面临的主要问题液冷技术具有高密低碳等优势已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。
而就在去年面对液冷当上游设备厂商活跃时中游的数据中心还顾虑重重保持观望。但现在像企商在线这样的中游企业也已经积极规划液冷设施足见液冷已经成为行业共识。
企商在线IDC能力中心售前经理徐涛对光锥智能表示公司已经在接管客户的一些AI业务AI服务器的功耗是通用服务器功耗的十倍左右风冷的局限性日渐明显必须尝试液冷。 服务器厂商的积极布局很大程度上来源于客户的需求逐渐明朗。
数据中心占有半壁江山的三大电信运营商在6月亲自下场联合发布《白皮书》提出“三年景愿”即2023年开展液冷技术验证2024年开展规模测试新建数据中心项目10%规模试点应用液冷技术推进产业生态成熟2025年及以后开展规模应用50%以上数据中心项目应用液冷技术。
“现在液冷基本上所有内容已经通过验证进入一个规模扩张的阶段。”近期工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。
其实液冷并不是新技术其早已被应用于工业、航空领域。一说阿波罗登月计划就将液冷用于宇航员体温控制。在数据中心领域液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌又被“冷落”。
从被“冷落”到“翻红”液冷经历了什么又将面对什么新挑战
01 “暴力计算”亟需液冷降温
风冷是过去很长时间内数据中心的主流温控方案以空气为冷却媒介。液冷和风冷最大的区别就是冷却媒介不同“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液单位体积价格堪比茅台、五粮液。
液冷之所以被数据中心重新重视根本原因是后摩尔定律时代芯片、服务器的功耗再呈上升趋势随之产生更高的温度。
“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题“客户规划的服务器功耗100多瓦实际装的300多瓦而且单机柜实际密度也比规划高结果测出服务器温度到了六七十度直接导致故障率是原来的10倍。” 图源曙光数创招股书
针对数据中心高温问题头部设备厂商更加大力推进液冷目的大多集中在降低PUE具体则从技术、方案等不同角度着力。
据媒体此前报道中兴通讯建设的全液冷数据中心项目中液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术采用冷板式液冷散热可实现数据中心PUE降至1.1冷板管路高可靠连接全管路智能监控漏液秒级告警。 联想则从液体温度着眼首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术联想通过数据分析认为进水50摄氏度、出水60摄氏度可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计支持多类型GPU散热效率达98%甚至可以支持数据中心PUE降至1.1以下。
后摩尔定律时代芯片的功率越来越高。尤其是大模型带来的“暴力计算”例如用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前传统的服务器功率400W左右已经算很高。
与此同时AI产业快速发展致使算力需求飙升。但受制于建设面积等客观因素增加单机柜功率密度成为调和快速的算力需求与有限数据中心承载力的共识方案。
服务器功耗越来越大温度越来越高所占空间越来越小。可以想象一下一堆爱出汗的人挤在狭小的屋子。
越来越高的温度对于服务器来说是非常大的隐患。
“芯片温度每升高10度故障率就会翻倍寿命也会减半。”徐涛说所以散热已经是当前智算面临的最大问题之一。
但是风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限仅勉强扛得住2-4个NVIDIA A100。
华为集群计算业务副总裁王振华表示当芯片的典型功耗超过300W每平方厘米的功耗超过90W的时候风冷难以为继。而当前业界的主流芯片产品功耗已经超过这个阈值。
“机柜密度不断提升会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示“甚至单机柜的功率密度达到一定程度继续增加投资都不能满足数据中心的散热需求。”
另一方面随着“碳达峰”、“碳中和”等战略落地国家到地方对于PUE明确的“红线”成为刺激液冷产业加速更为直接的原因。
4月多部门发文2023年6月起数据中心PUE不高于1.42025年起数据中心不高于1.3当前行业平均PUE为1.5。更多的地方政策则对数据中心提出了更加严格的要求。
相比之下液冷的单位体积的比热容足有风冷的1000倍以上。比热容越大的物质温度每上升1摄氏度所吸收的热量越多液冷PUE普遍在1.1甚至不断逼近1.0。
新华三已经设计了PUE1.1更节能的数据中心并获得了金融业数据中心UptimeT4认证。2022年5月新华三推出UniServer R4900LC G5液冷服务器支持NVIDIA A100 80GB PCIe液冷式GPU相比于传统风冷机型整机功耗可降低21.3%全年PUE均值为1.042。
新华三集团液冷服务器产品经理何伟宇认为随着产品的快速迭代单机柜功率密度的持续演进对于数据中心的散热系统提出了更高的要求像北上广深等一线城市对于空间和散热的需求则更为严苛普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进这在一定程度上也推动了液冷技术在数据中心的发展和普及。
液冷作为更有效解决数据中心高密度散热的新兴技术已经成为了行业的共识和确定趋势。
“去年被业内称作是数据中心液冷元年今年已经有越来越多的客户开始接受液冷方案液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。
行业格局来看海外液冷厂商具有先发优势中国厂商后来居上实现突围。2015-2018年中科曙光、华为、联想、阿里巴巴等一众国产厂商先后实现了液冷服务器大规模商业应用项目的落地实现弯道超车。
据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究基于产品营收、市占率、客户反馈等指标中科曙光为市场的绝对领导者华为、阿里巴巴、联想紧随其后。 02 液冷的“成本账”
“三年前接到调研任务时液冷还是黑科技但现在已经进入了应用拓展阶段。”袁钰近期表示。
液冷“杀回”数据中心进入拓展期重要原因之一就是能算得来成本账。
液冷技术按照液体与发热器件的接触方式可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术直接接触型主要有浸没式液冷和喷淋式液冷两种技术浸没式液冷最为典型。通俗讲对应就像人降温措施冷敷、冷水淋浴或直接泡冷水澡一样。
浸没式和喷淋式液冷技术冷却效果更好但由于冷板式的服务器芯片等发热器件不用直接接触液体所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小可操作性更强、目前成熟度最高、应用最广泛最重要的是成本更低。
翁建刚表示测算来看功率密度到达一定程度液冷方案相比风冷已具备经济优势3年左右能够实现投资收益平衡。不仅如此随着液冷市场规模的扩大相关基础设施成本也将进一步降低。
曙光数创副总裁张鹏近期也表示服务器把散热器去掉换上冷板可能成本会有一些上升但不需要冷机、空调以及工程上的一些东西初投资的时候已经省钱。
据招商研报数据中心TCO总成本在不计算服务器折旧与服务器运营成本的情况下当单机柜功率15kW时冷板式液冷TCO优势明显当单机柜功率30kW时浸没式液冷开始出现优势。 此外无论任何一种液冷路线相较风冷都已经在节省电和空间上具备成本优势。
根据开源证券研究所的统计结果一个数据中心的能耗分布中散热系统的占比高达40%。也就是说数据中心每耗费一度电只有一半用在了“计算”上其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈计算量越大散热消耗的电量越大。
华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电昇腾采用了直接把冷夜注入每块芯片的精准供给方式相比浸没式可以降低日常运维的成本。
“精准供给取决于芯片板卡上都设置传感器、电控阀门再加上中央控制可以实现为不同芯片在不同的负荷下提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。 华为昇腾门头沟数据中心拍摄光锥智能
阿里云技术专家王鹏曾表示如果全国的数据中心都采用浸没液冷技术预计到2025年一年可节省上千亿度电。
液冷散热效果强大数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说液冷的空间成本更突出。
徐涛透露他们有数据中心因为接了一些AI业务原来规划246个机柜但现在GPU服务器增多为了避免数据中心温度过高只能进行疏密所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升同时可以降低数据中心的PUE降低能耗水平。
“二三线城市的建筑成本为数千元北京的建筑成本为数万元空间成本可以说非常高。”徐涛表示虽然目前液冷单千瓦成本较风冷高但考虑到空间利用率以及节省的电费液冷制冷方案还是值得投入的。
03 规模扩张还需跨越“百标大战”
虽然已经初步跨过降本这道栏接下来液冷扩张却还要面临新的问题——“百标大战”。
以冷板式液冷为例主要包括机柜与服务器交付方式分为两种一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范机柜与服务器解耦可由不同厂商交付一体化交付是液冷整机柜包括机柜和服务器由厂商自定标准进行集成设计开发整机柜由同一厂商一体化交付。
液冷产业链尚不成熟当前业内尚无服务器统一接口标准各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。
对于厂商来说一体化解决方案的成本一定是更低开发和交付周期大幅缩短。更重要的是为了形成客户壁垒厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。
不过数据中心用户会对一体化交付充满顾虑。
一方面用户会有迁移需求比如达成新战略合作或者原本就是临时租用机柜以及后续机柜需要扩容等。如果液冷的设施绑定迁移成本会增加。另一方面设备与设施绑定可能会让用户失去议价权。一次性批量采购设备更新速度快大概率只能保持固定供应商如果选择其他产品还需要对基础设施进行改造。
因此考虑到用户需求数据中心不愿意接受一体化方案就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段厂商也就不得不解耦交付。 当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。
不过解耦是能解解耦也可带来供应商多样化有助于控制成本能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接过程就会非常耗时耗力。“每一个环节都得多方密切沟通也得紧盯落实一旦出现一点差错就导致系统性问题。”徐涛说相对于一体化交付没有行业标准解耦就会变成项目制。
各方拉锯中首当其冲的就会是设备厂商。
曙光数创是国内最早布局液冷的企业液冷基础设施市占率接近6成。但曙光数创今年年中报显示冷板液冷数据中心基础设施产品营收收入同比减少42.55%营收成本同比减少33.63%毛利率同比减少11.14%。年报中解释收入波动的原因是公司产品是非标准产品但目前数据中心建设标准各异。
继而下游会因为种种问题犹豫尝试液冷方案导致液冷推广遇阻。
曙光数创也呼吁行业统一标准。张鹏表示首先如果行业标准对于供水的温度、温差、压力等能够统一对液冷成本进一步下降是非常有意义的也是他们在实际落地中遇到的问题。
不过行业的标准形成并不会一蹴而就。而徐涛认为各方博弈的滚动过程行业的发展难免会有波折很有可能“进三步退一步”。当然这也是新兴技术必然经历的过程。
华为昇腾已经宣布将会发布业界首个万卡级的集群也将配套液冷方案使用天成平台采用的“液冷电源网络”三条总线的设计思路。
企商在线石景山公共算力中心预计明年8月就交付虽然还没有行业标准落实企商在线则选择部分高功耗算力采用液冷方式一体化建设然后直接租算力给客户。
徐涛表示后续随着行业发展一定会有新的方案考虑到芯片功耗越来越高风冷能力有限同时“碳达峰”“碳中和”的要求液冷作为确定趋势当前先做起来比较重要。 欢迎关注光锥智能获取更多科技前沿知识