英特尔中国2.0时代:打破数据中心的算力困局与节能壁垒

数字经济时代,算力已然成为新的生产力。

而“东数西算”作为未来新基建的重要基石,上至云计算、下至主干网基建等环节,都匍匐着一大批玩家,如阿里云、腾讯云、百度云、华为云等云计算厂商,或是浪潮、新华三、联想等服务器龙头,都加足马力布局市场,想要从中分一杯羹。

但市场竞争之外,数据中心的标准化、普及化发展,才是支撑数字经济蓬勃爆发,走向成熟的重要基础。这亦是大势所趋。

据中国电子信息产业发展研究院数据,2022年第一季度,全球及中国市场服务器销售额分别同比增长29.3%、34.2%。我国在用数据中心机架总规模达到520万架,近4年年均增速为33%,在用数据中心服务器规模达1900万台,存储容量达800EB,算力总规模超过140 EFlops。

与机架数量及算力规模同样快速增长的,还有数据中心的耗电量。国家最新数据显示,2020年我国数据中心年耗电量为2045亿千瓦时,占全社会用电量的2.7%。不可否认,面对不断增长的能源消耗,如何提高数据中心的高效、节能、绿色化发展,系统化减少碳足迹,是全数据中心行业必须解决的课题。

对数据中心来说,IT和空调制冷设备是数据中心的主要能耗来源,通常占数据中心总能耗的85%。

其中,服务器作为数据中心的重要设备,其用电量约占IT设备的50%。从技术角度看,服务器系统的不同散热设计功耗(Thermal Design Power,TDP)、业务需求和功能承接,都对数据中心环境、服务器各硬件和功率有着巨大差异。

为了找到解决问题的答案,我们将目光追溯到产业链上游的核心玩家之一——英特尔。

自从步入英特尔中国2.0时代,英特尔围绕数据中心,通过提高能效与功率密度、先进的制冷技术等支撑性的关键技术,在硬件、软件和生态领域加大投入,并加快推进产品路线图迭代,协同生态伙伴和终端用户一同推动着绿色数据中心的建设进程,以及数据中心的相关标准化工作。

近期,36氪在与其他媒体一同专访英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立,以及英特尔市场营销集团副总裁,中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰的过程中,我们既探讨了当前“东数西算”工程在算力、绿色化上所面临的挑战,同时也对英特尔数据中心业在中国的特色化发展做了进一步了解。

以下为36氪等媒体与英特尔专访的对话,经编辑:

Q:“东数西算”会涉及到一个长距离传输成本的问题,以及数据量并不是越多越好,而是以够用为原则,因此也会牵扯到警惕产能过剩或者算力过剩的问题。英特尔是如何看待这两个问题的?

庄秉翰:“东数西算”上大概有8个节点,分布在全国比较广泛的面积。如果把“东数西算”或是整个网用起来的话,如何节约节点和节点之间的传输延迟是非常重要的。运营商在这8个节点上,以前会通过省级,再到国家骨干网一级一级地传输,现在会在节点间建立骨干网级别的光纤,可以大大缩短传输的延迟。这个延迟越缩短,其实“东数西算”的优点就会更明显。

之前大家其实并不是“东数西算”,而是“东数西存”、“东数西训”、“东数西宣”,当我们把节点间延迟通过高速光纤骨干网络级的传输设备联合在一起时,就可以使“东数西算”在西边处理的数据或者是负载就会越来越丰富。

至于传输带宽是不是要一直增加,还是够用就行,其实这也是一个很有趣的问题。比如日常家里的宽带100M、200M、500M、1G,虽然升级到1G,有的时候处理一些业务,或者是看一些媒体时还是会出现卡顿现象。这个时候就不是家里带宽的问题,而是要整个系统去看。

比如虽然从小区节点到家里是非常宽的宽带,但是数据源头传输上有瓶颈的话,从用户感受来看,不管带宽升得多高,依然感受不到这个带宽带来的效应。所以从系统级别看待这个事情是非常重要的。也就是基于不同的工作负载,选定处理这个负载的算力,而且也要知道这个算力的分布,还有对延迟的要求,这样才能够提升整体用户的感受。

关于这一部分英特尔在与合作伙伴做不同的研究,比如通过英特尔不同的异构架构产品,有一些通过通用计算,或是我们的GPU、FPGA等来做各个不同负载的加速。

现在我们也跟运营商在算力网络上取得了合作,希望通过这些创新能够把“东数西算”或者是算力网络的价值更多地显现出来。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰

Q:发改委提出了“东数西算”的三个发力点,一是算力的分布式,二是算力的交付方式,三是算力的安全问题,这三个问题非常关键。请问英特尔是如何围绕这些问题去发力布局的?

庄秉翰:这和算力网络有直接关系。算力网络是一个崭新的说法,世界上目前也只有中国可以推动这种算力网络的进行。比如运营商从当初的网到现在的云,云网融合也只有在中国,通过中国运营商,他们是这一块的领导者。

通过云网融合和算力网络,我们可以对工作负载进行感知,基于这个工作负载对性能、延迟、安全的需求,选择最合适的算力以及最合理的节点,来处理负载所需要的业务。

还有一个很重要的是,如何确保工作负载和处理这个负载之间的延迟,怎么样减少这个延迟,让用户有更好的体验。怎么样减少在路径上的跳点,跳点越多对延迟影响越大,这些都是算力网络需要解决的问题。

因此,我们提到智能对算力的感知、编排、调度甚至交易,比如在一个网上,它可能没有处理那个负载的能力,另外一张网有,这时候通过网和网之间的交易,你可以想象成算力漫游。以手机为例,你是移动手机,但是某一个地方只有电信的讯号,那网和网之间会进行交易,以后算力也会进行这种所谓的算力漫游,这样就可以解决很多问题,也可以解决重复建设、资源浪费的问题。

Q:针对液冷技术的模块化趋势,英特尔对其应用覆盖是否有大概的预测?会打造什么样的一个生态?

陈葆立:有行业预测指出,大概在两三年前之后,液冷会有两种,一种是冷板式,一种是浸没式液冷。冷板是一个比较成熟的技术,这是今天我们可以拉到许多行业合作伙伴的重要原因,因为我们有行业标准,冷板的标准定了,大家就开始照这个执行,更快是一个铺开的动作。

浸没式液冷还在很早期,国内只有一两家用户用过,大家还在摸索过程中,没有那么快可以铺开,所以我们做的模式是与生态伙伴合作、学习,比如阿里。当你把整个服务器都塞到液体里,到底两三年之后会出现什么问题,什么东西会坏掉,有没有更多的测试数据能够让我们建议其他客户用这个东西。所以这两个技术发展的节奏有点不一样。

但未来还有待进一步探索,这取决于当时的技术成熟度,可能最终客户还要综合考虑多重因素,因此这个技术路线还没有完全明晰,双方都在做技术努力和探讨。

Q:围绕数据中心的绿色节能(液冷技术),英特尔与不同类型厂商的合作重点有何差异?如何帮助合作伙伴打出差异化优势?

陈葆立:我们在跟合作伙伴讲液冷时,主要是两块,其中一个是推标准。液冷中的冷板液冷技术已经比较成熟了,浸没式液冷还需要时间。但现在冷板液冷技术应用范围并不是很大,因为它成本比较高。大家不采用或是每家都做自己的设计,造成应用规模不大的现状。

因此我们发现一个机会,英特尔来做标准化,就是把所有的接口、长宽高、大小定一个标准,所有厂商都可以按照这个标准去做,就可以把规模做大,成本也就相应下降,就会有更多人用这个产品,更加普及化,让最终用户更快看到冷板液冷的效果。

这当中确实有很多伙伴彼此之间是竞争关系,但他们也知道如果不去做这个事情,这个技术就没有办法普及,所以英特尔能把这件事促成。

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立

庄秉翰:这不光是一个产业的事情,现在连国家部委都介入了,我们最近跟伙伴一起在中国电子工业标准组织里立项,希望在年底之前成为一个标准。所以这个不仅是产业,也是政府很看重的事情。

提到液冷技术未来的市场驱动,我们觉得目前这一代的产品大概是350W,下一代产品就会有380W,风冷还是能够应对功耗级别。但到2024年,可能就到500W了,GPU已经上1000W了,从这个趋势来看,一定需要走到液冷技术,风冷会碰到瓶颈。

还有“东数西算”,我们觉得“东数西算”有几个重要的技术点,一个是算力的提升,二是云和网之间的算力网络,三是绿色可持续的数据中心建设。所以未来在“东数西算”下的数据中心,发改委的标准是1.3以下,甚至是1.2、1.1,所以液冷技术,以及基于国家对PUE的要求,还有半导体,当我们把越多的核集成到芯片之后,功耗就会增加。尤其是到了2024年之后,这就会变成一个必需的方式。

Q:Habana产品线与原来英特尔的GPU产品线该如何更好地做配合?随着大环境变化和新政策的出台,这条产品线的路径规划是否会有调整?

陈葆立:我们看AI更多不是把它作为一个产品,而是把AI作为一个应用。AI这个应用可以发生在很多不同的产品上,从至强到酷睿到Habana。我们的Habana下一代产品也要在亚马逊上应用了,亚马逊是全世界最大的云运营商,它对于整个AI的需求是非常严谨的。所以亚马逊是经过和我们的长期合作,决定继续用我们的Habana AI加速芯片作为它的云服务产品之一。

其实从芯片设计逻辑来看,在专属芯片和通用芯片之间,效率最高的肯定是只做一件事情的专属芯片,但它的缺点是没有办法做其他事情。国内AI芯片公司众多,Habana确实做到在AI训练上跑分数据比现在的GPU更好。

既然有客户的需求,基于客户至上的原则我们会继续供应。当然我们对新发布的GPU也抱有厚望。当然通用GPU也是一个很大的市场,我们希望通过推出自己的产品,为市场提供第二个选择。所以这两者并不冲突。

Q:英特尔的数据中心业务有哪些是针对中国市场环境和特点去推动的?

庄秉翰:其实我们对中国市场是非常投入的,尤其是我们有庞大的研发的资源,甚至制造方面,我们也在中国布了很多分工厂。所以在产品的研发、认证,包括平台的软件开发,到最后的制造,我们各个部门都在投入。

以CPU为例,我们会基于中国客户的需求提供一些功能。在CPU以外的整个生态环境上,以软件为例,虽然CPU是英特尔的产品,或者是非中国生产的产品,但它上层的软件几乎都是中国的产品,这一块我们需要做很多适配。尤其在OS上,现在大部分在中国的客户,比如应用了阿里的操作系统,或者是欧拉的操作系统,我们在上面做很多适配验证的工作。除此之外,我们也会确保合作伙伴的开发软件在我们最新的CPU产品上能够做到优化。

在硬件方面,中国其实有很多的元器件厂商,我们会去认证这些厂商的产品。一个是帮助生态合作伙伴,降低整个服务器在中国制造的成本。当全球供应紧张的时候,我们通过中国的元器件厂商,其实可以帮助我们很大程度缓解在供应链上的压力。

陈葆立:其实过去一年,英特尔内部做了一些重心的调整,简单来说原来更多是全球技术、全球产品拿来给中国客户使用,现在英特尔不仅将中国所有的资产合而为一,而且也利用自身在行业中的经验积累,助力中国本地产业伙伴和行业的全面的发展。

现在我们想要更加深一步,就是更贴近中国市场。我们现在也在看是否有更多的机会,未来可能打造更符合中国本土的产品。

针对技术要求,每个国家都不太一样。可能不一定要动到CPU本身,但我们在应用时有不同的环境和需求要去适应。我们是不是可以通过本土的团队可以更好地赋能,比如说冷板或者是液冷,中国需要加速,因为中国所有客户都愿意,只要能够达到更好的PUE,拿出更好的技术,我们一起来参考,中国这里是不是能够加速或者领先的动作。

这是一个例子,相信接下来会有更多的需求被发现,我们希望调动更多中国的团队来解决这些我们看到的市场需求。现在英特尔中国有1.2万余人,研发团队也在上海,整个研发中心硬件、软件都有,我们相信可以为中国的需求做更多的事情。

Q:英特尔在整个生态中发挥的作用是什么?

陈葆立:这是一个比较广义的问题,英特尔没有办法做所有的事情,这就要看接下来的技术发展上有什么问题需要解决。

为什么今天大家花了很多时间讲液冷,这不仅是国家强调节能减碳、绿能等等,也确实是因为当算力提升时,我们整个服务器里面的功耗确是在增加的,这上面就需要一些技术的突破。

在这个时候,我们就会花时间去找业界所有的液冷专家,不管是硬件厂商还是提供液体的厂商,可能就会花很多时间去找,到底中国谁能做这个液体,谁可以做得好,有没有其他人愿意做,能不能做到更好……有很多不同的领域可以去钻研,到最后提供一个完整的,更好的方案给到我们客户。

现在我们在看更远的问题,2023年我们可以做到液冷,2024年能解决什么问题呢?我们看到的是内存。因为我们可以看到算力在一两年之后核数会发展非常快,可能不只是20个、30个核,可能是100个、200个核。那需要配多少的内存?可能需要2T的内存,到哪里去买2T的内存呢?答案还需要探索。

因此我们要去研究整个产业,当算力提升之后,系统的哪一块遇到瓶颈和问题,我们就要想办法。虽然我们不做液冷的液体,但我们需要先一步和他们探讨如何解决这个问题。否则两年之后,当我们推出一个很强的CPU时,发现系统跑不起来,因为没有相应的部件能够用,也是不能落地的。

所以我们做了很多超前部署,做提早的规划,不只是看我们自己的产品,而是看整个系统当中所有部件,更早伸出我们的手,看我们能做什么,跟人家做双向的交流和调整,这是我们一直以来做的事情。

发表评论