首页 > 头条 > 正文

在这个困扰全球50年的科技难题上,谷歌与阿里背道而驰

2017年04月25日    来源:科技茱比莉Jubilee     
1124
[导读]马云的愿景是:“未来20年中,阿里成为世界第五大经济体,服务全球20亿消费者,创造1亿个就业机会,帮助1000万家企业盈利。”拥有这样的格局,阿里的“麒麟计划”必然会对产业链公开参考,共同演进。

  什么样的问题可以称得上是困扰全球长达50年的科技难题呢?

  摩尔定律。

  “芯片上的晶体管数量每18-24个月增加一倍。”自1965年摩尔定律问世起,就有人担心芯片的制程工艺不可能无限缩减,甚至从25年前开始,每隔一段时间就会传来摩尔定律即将失效的种种言论。因为,更强大的计算能力就需要性能更快的CPU,性能更快的CPU则需要单位面积更小尺寸的集成电路。这种“更快更小”带来的却就是能耗瓶颈,摩尔定律难题从这个角度看也就是能耗问题:

  小到CPU集成电路,大到整体数据中心,能耗不仅制约了摩尔定律的发展,还是基础设施最大的运营支出,供电系统也越发捉襟见肘。

  为摩尔定律续命,这两年成为整个产业界的聚焦话题。

1逆向思维的第三方向

  如果量子计算、新型材料等颠覆性科技暂且不提,单就目前可行的产业方向上看,多数企业都在以下两大方向上努力:

  一,CPU芯片持续改进:增大芯片核心面积die size,增加更多内核来分担计算能力,16、24、32核都相继出现;增加多路CPU计算能力,让更多的芯片以更高带宽互联分担计算能力。但是,制程的演进,更多的内核,更高的互联带宽、更多路CPU尽管都是为了为摩尔定律续命,但都需要加大电压,也同时带来更高能耗。

  二,研制异构计算芯片:用专用芯片来卸载通用计算的压力,例如最近热炒的谷歌TPU,英伟达的GPU,赛灵思和英特尔的FPGA。但它们在数据中心中同样也是发热大户,随着数据量和计算量的增加,能耗仍然是难题。

  据英伟达公开数据显示,单颗GPU的功耗为200w~300w,比如Tesla P100的散热设计功耗(TDP)为300w。虽然谷歌的TPU具备最低功耗——每颗芯片总计118w,但能量平衡最差:在10%的负载下,TPU应用了100%负载下功耗的88%。

  由此可见,散热技术的突破也就水到渠成的成为为摩尔定律续命的第三大方向。如果说前两种方式都是正向思考,那么第三种则是逆向思维。

  三,浸没液冷技术:浸没液冷业界并不陌生,作为最近几年备受关注的新型散热技术,尤其在SC14全球超级计算大会上,来自国内外的多家服务器企业均展示了在浸没液冷散热上的产品,大幅提高了业界对液冷的关注度。

  但是在这一方向上做得最彻底的,不是服务器架构企业,也不是谷歌微软等国外超大规模数据中心的拥有者,而是中国的阿里巴巴。

  4月阿里刚刚公布了“麒麟计划”成果——浸没液冷服务器集群技术。据悉它可将数据中心PUE值大幅降低到接近于理论理想值1.0,处于全球领先水平。也因此被看作马云在首届阿里技术大会上号召技术“变道超车”的第一案例,阿里“NASA”计划的第一回应。

  NASA计划对于阿里的重要性在于,从商业驱动到技术驱动的双轮转换。如今,云计算、人工智能、量子通信与计算,生物识别等都已经成为阿里的黑科技。既然未来所有企业都会是科技企业,阿里为什么不一马当先?

2液冷是否“雷声大雨点小”?

  浸没液冷技术广受关注,但在“麒麟计划”之前为什么没有被全球大型数据中心大规模采纳呢?

  微软建立海下数据中心,但服务器计算单元仍采用风冷技术,只是将基础设施密闭在箱体后放入海中以达到数据中心级的液冷。

  Facebook则将数据中心建立在了北极圈内,期望依靠寒冷天气解决散热问题,这仍处于整体数据中心的寻址散热阶段。

  IBM服务器最早采用液冷技术,但是风冷+液冷的组合;

  而其他参与浸没液冷服务器设计的企业,对浸没液冷的应用也仅局限于单机测试、单机展示阶段,从目前公开的信息看,并无服务器集群部署先例……

  究其原因,还是受限于液冷技术实现的难度:浸没液冷解决方案相比风冷是一种全新的变革,需要具备从服务器到数据中心整套解决方案的架构创新和重构设计的能力。

  这对于长期习惯于参考英特尔架构的服务器架构企业来说,确实有些认知的跨界。而对于拥有超大规模数据中心的企业,则是水到渠成。从早期中国数据中心独有的“天蝎计划”开始,它们就已经超越了用户的“权限”,毕竟应用特殊,规模庞大,痛点突出,价值显著。

  那么谷歌呢?这个在数据中心技术上屡屡创新的企业,难道会让阿里捷足先登?

3谷歌的正向思考vs阿里的逆向思维

  谷歌作为全球科技界在数据中心基础设施技术上一直拔得头筹:11年前,云计算的概念就是谷歌最先提出;11年后,最热门的AI异构芯片TPU,以及最新的48V直级POL(负载点电源)架构,从摩尔定律角度看都堪称技术里程碑似的产品。

  不过谷歌在摩尔定律问题上的研究方向重点在于前文所提的前两大方向,CPU芯片技术的电源改进,以及异构计算芯片的研制。前者由于采用48v直级负载点,打破了传统48V-12V-负载点电源设计的能耗损失,3月一经宣布就成为数据中心技术设施领域的突破技术。后者则是4月初对外披露的细节,谷歌TPU和英伟达GPU的AI指标对比,现在还处于热门的讨论阶段。

  不过这些都无法避免能耗持续增高的宿命。从单位计算性能的功耗来看,异构计算有能力低于x86,但伴随着数据量和总体计算量的增加,功耗和如影相随的散热问题仍令人头痛。

  如果说,谷歌将研发重点聚焦正向思考,那么阿里却将研发重点聚焦逆向思维。

  阿里认为,谷歌的TPU异构计算架构+48V单级PoL电源方案,只可以有效解决单机架20kw-30kw的供电效率问题,虽然足以应对3~5年的“近忧”,但对无法解决5年之后的“远虑”——基于计算量增长预测,5年后单机架的功耗将达到100kw以上。

  从这个角度来看,谷歌今年公布的两大最新研究成果在能耗问题上只能算是权宜之计。

  阿里选择了以散热与制冷为突破口的浸没液冷作为“变道超车”的赛道。”麒麟计划“的成果在于:采用新型3M氟化液液体,全环境无风扇无振动设计,实现了单机架功耗200Kw-300Kw的负载,已经解决了5年之后的“远虑”。

  此外,浸没式液冷对CPU芯片厂商也是一个利好消息。在不需要顾虑散热能否充分的前提下,留给芯片厂商设计高密度机型的发挥空间扩展了许多,让它们可以放心大胆地施展拳脚。以每个水箱的散热能力可达200~300kw来考虑,如果其内部的服务器只需要散热100kw,就是对水箱散热能力的浪费,即计算密度增加高才能充分发挥水箱的散热能力。

  在这个困扰全球长达50年的科技难题上,谷歌的正向思考和阿里的逆向思维,谷歌的权益之计和阿里的变道超车,殊途同归都是为了解决超大规模数据中心的现实问题。

  不过,商业环境下不少企业的黑科技只在自身数据中心应用,也就无法带来更广泛的社会效益。而马云的愿景是:“未来20年中,阿里成为世界第五大经济体,服务全球20亿消费者,创造1亿个就业机会,帮助1000万家企业盈利。”拥有这样的格局,阿里的“麒麟计划”必然会对产业链公开参考,共同演进。

[责任编辑:yxl]
转载申明:中国智能化产业与产品网独家专稿,转载请注明出处,违者必究!
关键词: 科技  麒麟计划

官方微信

联系我们

010-57188978
投稿:zgznhcy@ciiip.com
地址:北京市朝阳区劲松南路1号
网址:www.ciiip.com
关于我们
加为微信好友