阿里云CPU破局之战

1天前 (11-13 01:29)阅读2回复0
yk
yk
  • 管理员
  • 注册排名3
  • 经验值51165
  • 级别管理员
  • 主题10233
  • 回复0
楼主

2015年1月,在业界一片议论纷繁却又摸不着思维的猜忌声中,亚马逊公司以3.7亿美圆的惊人价格买下了一家以色列芯片设想公司——Annapurna Labs。

其时,Annapurna Labs成立仅4年,尚未对外发布任何一款芯片产物,以至对本身的研发历程也不断讳莫如深。业界只晓得它们正在试图研发一种新型芯片,试图让低功率的计算办事器和存储办事器快速地运行数据。

没人晓得那家公司事实要干什么,也没人晓得亚马逊为什么要买它。

两年之后的亚马逊年度大会re:invent 2017上,当亚马逊初次正式向世界推出自研云办事器芯片项目Nitro、当那片印有Annapurna logo的芯片呈现在世人面前时,人们才恍然大悟。

把视野拉回到国内,中国云计算公司在自研芯片那条路上已走进世界前列。在2022云栖大会上,阿里云公布自研芯片倚天710已大规模利用,算力性价比大幅提拔超30%,将来两年阿里云20%的新增算力将利用自研CPU。

自研芯片,已是云厂商的必由之路。

一、从价格战到手艺战

2015年,海外云计算市场的“价格战”已经近白热形态。

在云计算开展初期,各家所能供给的大多都是基于上游硬件资本的IaaS办事,差别云厂商之间的产物不同不大。

治理经济学告诉我们,当产物呈现同量化,价格战无可制止。

在海外,亚马逊(AWS)、谷歌、微软纷繁进局,以价格战赛马圈地,夺夺更高的市场份额。AWS更是一度以每年降价12次的惊人节拍敏捷扩张,市场合作日益猛烈。

国内也不破例,自2015年起,阿里、腾讯等国内巨头纷繁加速扩张,市场多番酣战。

但企业想要安康开展,最末只能回回手艺,回回研发,以性能更强,体验更好的差别化产物感动用户。

2018年,阿里公布全资收买中国大陆独一的自主嵌进式CPU IP Core公司——中天微,并在随后公布将达摩院芯片研发团队与中天微团队合并,成立平头哥半导体。

2019年,阿里云首款自研办事器AI芯片含光800正式面世。

汗青老是类似的。

近年间,以AI机器进修、大规模视频处置、大规模数据处置等为首的高负载云计算利用日益增加,其场景运算强度大、高并发、利用复杂,对云计算厂商的办事量量提出了史无前例的极高要求,并倒逼办事器芯片加速开展。

出格是在“云原生”的概念提出后——传统IT时代的云计算更多是为了适配当前的IT架构,进而适配各类利用。可在云原生时代里,多款利用自己就是“长在云上”的——若何按照那些云原生利用的需求打造更适宜其生长的土壤,成了云厂商手艺变化的头等大事。

“云土壤”的革新既涉及软件、架构、操做系统,又涉及收集、办事器、计算板卡,更会涉及最为核心的算力来源——芯片。

第三方芯片公司当然也在跟从手艺前进不竭推出新产物,然而,做为最熟悉本身营业的人,云计算厂商最晓得本身的营业有什么差别化的需求,什么样的芯片才气做到特定性能效率的更大化。

正如阿里云弹性计算产物线负责人张献涛所言,“云计算做到必然规模的时候,你发现(自研芯片)非做不成。”

当然,云计算中涉及的芯片品种繁多,各家偏重点也有所差别。

好比,阿里的含光800、谷歌的TPU、以及芯片厂商英特尔的Habana Gaudi 2、英伟达的H100等,都是偏重于人工智能利用的计算芯片。此外,近年间还有DPU、IPU、CIPU等新型数据中心处置器。

云计算芯片市场的老玩家——CPU天然也不会缺席。

近20年来,云办事器CPU市场长年被英特尔的x86架构统治,其市场份额以至一度超越90%。

CPU架构设想难度大、生态壁垒高,不断是芯片财产的集大成之做。

然而,哪里有垄断,哪里就有挑战者。从2008年起头,ARM就持续对办事器芯片市场策动了进攻,惠普、AMD、博通、高通等芯片设想公司都曾陆续推出相关产物,可惜大多折戟。

然而,市场并未因一时的失利而失往自信心。2018年,ARM发布ARM Neoverse计算平台,对准了云计算办事器、HPC、AI与机器进修加速那几大场景。

随后几年里,AWS推出Graviton系列办事器CPU;Ampere Computing推出80核Ampere Altra和128核Ampere Altra Max办事器CPU;国内厂商飞扬推出多款办事器CPU。

做为国内云计算财产的领头玩家,阿里云也在2021年的云栖大会上推出了首款自研云原生处置器CPU——倚天710。

那是阿里第一颗“为云而生”的CPU,包容了高达600亿个晶体管。它基于ARM v9架构打造,拥有128核,并在全球权势巨子CPU基准测试集SPECint 2017上拿到了440分的超高成就,超出业界标杆20%。

而在本年的2022云栖大会现场,阿里云智能总裁张建锋更是进一步公布,颠末一年的营业验证后,倚天710已经完成大规模摆设,不只支持了阿里巴巴内部核心电贸易务,还起头对汇量科技等科学研究、智妙手机和互联网等多家企业供给办事。

据张建锋介绍,基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提拔30%以上,单元算力功耗(耗电量)降低了60%以上。

二、拿双11“练手”:“豪华”的生长史

倚天710往年完成流片,本年就已完成大规模摆设,并可以对外供给办事,其速度之快,在动辄以3-5年为迭代周期的芯片行业可谓惊人。

那是所有云厂商自研芯片都具备的优势——不消期待漫长的反应周期。

据张献涛介绍,在传统的云计算厂商与第三方芯片供应商合做的过程中,一个新的性能需求不只要颠末两边的多番沟通验证,还要少则三四年、多则六七年才气酿成现实。

“高端范畴的手艺日新月异,四年可能已经天崩地裂翻天覆地了。”张献涛感慨道。

因为英特尔等第三方芯片供应商的产物往往是通用的,需要适用于差别的用户的差别场景,其因而需要在差别的前提下频频测试。

但关于云厂商自研的芯片来说,只要确保那块芯片在自家数据中心里不变运行即可,无须让它适配市道上的其他企业。

并且,自家研发的芯片还有一项令人艳羡不已的“豪华”享受。

据张献涛回忆,倚天710在往年流片回来后不久,就迎来了阿里一年一度的“双11”大促。

“双11”那场全民购物狂欢,也是阿里IT一年一度的攻坚之战,其流量、强度、并发度都是全球顶尖级此外难度。

刚刚从襁褓中降生的倚天710,就如许被硬生生地推到了“双11”前线,由芯片工程师团队操纵“双11”丰富的数据库、存储、AI计算等高强度场景停止全面“天堂级”压力测试,有如武侠小说里七八个不世出的绝顶高手将终生所学全数教授给一个刚刚会走路的小孩,那小孩的生长速度绝不成与常人同日而语。

传统来说,客户对芯片样片停止摆设、测试、搜集、反应的周期长达半年以至一年,芯片厂需要再按照客户反应停止从头的设想与改版。

而关于既是客户,又是供应商的云计算厂商而言,那往往就是倡议一个跨部分会议的工作。

当前,阿里云上已经有百万台办事器,支持了各行各业差别的利用场景,其复杂、丰富水平成为倚天710的绝佳养料,可以让芯片团队在最短时间内得到最全面的反应数据。

“我们在本年春节前就已经晓得那颗芯片是靠谱的。前期的场景压测给了我们很大的自信心。”张献涛说。

三、从1到100,生态破局之战

正如上文所言,CPU设想难度大、生态壁垒高,不断是芯片财产的集大成之做。

“设想难度大”比力好理解,但现实上,“生态壁垒高”才是困住CPU的实正障碍。

通俗来讲,就是做一个CPU出来,没有那么难;让各人都能用好那个CPU,很难。

就像安卓的软件不克不及在iOS平台运行,不断以来,利用、操做系统、芯片架构都是高度绑定的。在电脑、手机等消费电子范畴,改换芯片架构是“伤筋动骨”的大手术,需要芯片厂商、系统厂商、利用开发者的多方面慎密协做,难度很高。

然而在云计算范畴,自研芯片让问题变得简单了一些。

早在2007年,阿里就起头启动了“飞天”云操做系统的自研。随后,阿里云又陆续推出领会决虚拟化性能损耗问题的“神龙”架构办事器、“盘古”散布式存储系统、基于软硬一体的“洛神”云收集系统、“磐久”液冷集拆箱、开源办事器操做系统“龙蜥”、云原生数据库PolarDB、AI同一平台灵杰……

而在芯片范畴,阿里云也陆续推出了云根底设备处置器CIPU、云计算AI推理芯片“含光”系列、RISC-V处置器“玄铁”系列、RFID芯片“羽阵”系列、办事器CPU“倚天”系列……

那些阿里的自研手艺产物,从软件到硬件,几乎笼盖了云计算的整个链路环节,让阿里将改换芯片架构的“伤筋动骨”环节所碰着的阻力尽可能最小化。

关于用户而言,从通俗实例迁徙到倚天710云实例上的利用,则更是做到了“零代码”迁徙。用户仅需要做简单的从头摆设/编译,便能轻松实现近乎无感的光滑迁徙。

但是,用户为什么要破费那些时间和精神往迁徙到一个全新的架构里呢?

因为自研芯片所带来的性能提拔与成本下降极其显著。

张建锋透露,当前,倚天710云实例已在多家互联网科技公司大规模利用,笼盖了质料研发、告白推理、语音推理、电商交易等多个范畴。

其视频编码利用性能提拔80%、数据库性能提拔30%、AI推理性能进步了70%。最宝贵的是,其算力性价比提拔了超越超30%,单元算力功耗降低了60%——实可谓“加量不加价”了。

好比,汇量科技的告白推理精排营业性能和内网带宽上均实现了提拔,综合性价比提拔40%以上。

汇量科技首席人工智能官墨小强就曾暗示,跟着在线推理模子的不竭晋级,汇量科技对CPU性能和内网带宽要求更高,倚天710实例很好地满足了公司营业晋级的新需求,做到了降本增效。

在2022云栖大会上,张建锋进一步公布,将来两年,阿里云有20%的新增算力未来自阿里云的自研芯片。

四、一云多芯,重塑云计算财产

早在往年,阿里云就公布了其“一云多芯”的核心战术——以飞天操做系统为核心,全面向下兼容x86、ARM、RISC-V等多种芯片架构,以及倚天、AMD、Ampere等多种CPU,并将其封拆成间接面向用户的尺度算力,既处理了CPU不兼容招致的云和软件开提问题,又让更多品种的芯片进进云计算生态。

本年6月,阿里云正式发布了CIPU(Cloud infrastructure Processing Units)。那是一套阿里云历时7年所打造的云数据中心公用处置器,将来将替代CPU成为云计算的治理、加速计算、存储和收集资本中心。

在本次云栖大会上,阿里云初次展示了“飞天+CIPU+CPU”的组合功效。据阿里透露,那一组合性能表示遍及优于业内同类产物,性价比可提拔30%以上。

那不只是阿里在CIPU、倚天710等芯片上获得的功效,更是过往十几年间年,阿里云在自研操做系统、数据库、存储、收集和芯片等软硬件手艺上获得的协同功效。

冰冻三尺,非一日之冷。阿里巴巴集团CFO武卫曾在全球投资者大会上透露,那几年,阿里在手艺和研发上的投进每年都超越1000亿人民币。

当前,从软件到硬件,从操做系统到计算架构,从上层利用到底层架构,以人工智能、虚拟现实等为代表的新兴行业利用正倒逼云计算厂商不竭加大手艺自研力度,力求在现在的重要节点,挠住新一代云计算手艺尺度定义,得到重塑云计算财产的话语权。

现在,阿里云的野心已不单单是推出一款芯片、一个架构,更是承袭着“一云多芯”的战术批示,彻底变革传统的以CPU为中心的云计算系统,凭仗着“飞天+CIPU+丰富算力来源”的新架构,将云计算财产推向新时代,从云效率更大化动身,重构数据中心,构建软硬一体的“新一代云计算系统”。

张建锋在云栖大会上暗示,当前以云计算为核心的新型计算系统,正在带来三大变化:

1、云重构了整个IT硬件系统,数据中心、芯片、办事器等财产链发作深入变革;

2、软件研发范式发作深入变化,Serverless、低代码、AI大模子开源等趋向,大幅提拔软件消费效率;

3、云和端加速交融,算力从端转移上云,将来万物皆是计算机。

在那个全新的云计算时代里,芯片、操做系统、上层利用的原生交融已是大势所趋。倚天710的推出与胜利大规模摆设利用,既是那条手艺变化道路之上的里程碑,又仅仅只是万里长征的一个起头。

0
回帖

阿里云CPU破局之战 期待您的回复!

取消