亞馬遜云科技自研硬件加速數(shù)字化升級，助企業(yè)實現(xiàn)高質(zhì)量發(fā)展

亞馬遜云科技

2023-03-16 12:36 4837

北京2023年3月16日 /美通社/ -- 延續(xù)長達半個世紀的"摩爾定律"，讓不少人難免產(chǎn)生這樣的錯覺：同樣的成本，總能不斷獲得更強的計算資源。事實上，摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經(jīng)驗之談，并非自然定律。隨著企業(yè)數(shù)字化轉(zhuǎn)型的提速，企業(yè)對算力性能需求的高漲致使芯片制程不斷逼近物理極限，通用型芯片日益高漲的成本讓摩爾定律舉步維艱。

因此，那些提前預(yù)見到"后摩爾時代"的企業(yè)紛紛探索可行的技術(shù)路線，在確保高質(zhì)量發(fā)展的前提下，維系能促進數(shù)字化轉(zhuǎn)型的性能與成本關(guān)系。早在十多年前，亞馬遜云科技就開始意識到通用芯片在云基礎(chǔ)設(shè)施中的無效性能和能源損耗等問題，并將注意力轉(zhuǎn)向?qū)樵朴嬎愣ㄖ频男酒陀布??；趯υ骗h(huán)境復雜性的深刻理解以及底層技術(shù)對上層應(yīng)用影響的深刻洞見，亞馬遜云科技走上了自研芯片的創(chuàng)"芯"之路。

"足夠好，還遠遠不夠好"

關(guān)于開發(fā)云計算自研芯片的意義，亞馬遜云科技首席技術(shù)官Werner Vogels在2022 re:Invent全球大會上表示："足夠好，還遠遠不夠好。"比如，當開發(fā)者使用參數(shù)強大的GPU來執(zhí)行機器學習模型從構(gòu)建到訓練、推理的全過程時，由于GPU并未進行過針對不同任務(wù)的優(yōu)化，因此性能損耗往往超出想象，并且開發(fā)者還要負擔高昂的硬件和能耗成本。

云計算用戶必然不斷追求更強的算力，但沒有用戶愿意看到"量價齊升"。為此，亞馬遜云科技在本世紀初就開始進行云計算定制硬件的開發(fā)，并在2006年推出第一個Amazon Elastic Compute Cloud（Amazon EC2）實例。此后，隨著云端業(yè)務(wù)多樣性與復雜性加劇，以及用戶對降本增效的需求提升，亞馬遜云科技意識到底層技術(shù)的定制化創(chuàng)新必然成為云計算高速發(fā)展不可或缺的一塊拼圖。

2013年，亞馬遜云科技推出云服務(wù)器虛擬化引擎Amazon Nitro系統(tǒng)，由此開始了在云計算底層技術(shù)賽道上領(lǐng)跑行業(yè)的十年。2015年在收購Annapurna Labs之后，亞馬遜云科技自研芯片駛?cè)肟燔嚨?，?017年就已開發(fā)了多個自研芯片，包括虛擬化系統(tǒng)、云原生處理器和機器學習訓練及推理芯片。亞馬遜云科技自研芯片助推了Amazon EC2實例數(shù)量的快速增長，現(xiàn)在Amazon EC2實例已多達600余種，幾乎覆蓋了全部操作系統(tǒng)和應(yīng)用，讓數(shù)百萬客戶都能在亞馬遜云科技上找到最合適的方案，應(yīng)對極端的業(yè)務(wù)需求。

抹平虛擬化的性能損耗

Nitro系列虛擬化定制芯片是亞馬遜云科技自主創(chuàng)"芯"的起點。虛擬化作為云計算的"基石"，所占用的計算資源曾一度高達30%，即是說用戶所購買算力中有近三分之一成了"門票"而并未獲得實質(zhì)性算力回報。

Nitro誕生的重要目標之一，就是從底層技術(shù)上解決虛擬化性能損耗難題。通過定制芯片和獨立的模塊化設(shè)計，讓Nitro專門承擔云計算系統(tǒng)的所有虛擬化功能，將虛擬化帶來的性能損耗控制在1%以下，幾乎可以忽略不計，讓用戶所購買的實例算力能夠近乎100%地服務(wù)于業(yè)務(wù)。同時，Nitro的安全芯片為用戶提供了硬件級別的安全機制，不但實現(xiàn)了網(wǎng)絡(luò)、存儲隔離的獨立安全通道，還在數(shù)據(jù)傳輸?shù)乃协h(huán)節(jié)都可以實現(xiàn)硬件級別加密，用戶可獲得更強的數(shù)據(jù)安全性。

從2013年到2020年，亞馬遜云科技已陸續(xù)將Nitro更新至第四代，而且Nitro的升級仍在持續(xù)。在去年2022 re:Invent全球大會上，亞馬遜云科技又推出了全新的第五代Nitro，進一步提升了數(shù)據(jù)處理能力并降低延遲。如果將性能上的提升換算成能耗比，第五代 Nitro將每瓦性能提高了40%，從另一個維度給用戶帶去更高的性價比。

相應(yīng)地，由第五代 Nitro 支持的新實例Amazon EC2 C7gn也一同發(fā)布。在最新一代Nitro的加持下，C7gn與當前一代C6gn相比，具有更強的網(wǎng)絡(luò)處理能力，這也讓C7gn成為所有Amazon EC2網(wǎng)絡(luò)優(yōu)化型實例中，能提供最高網(wǎng)絡(luò)帶寬和數(shù)據(jù)包轉(zhuǎn)發(fā)性能的實例。C7gn實例還提高了多達25%的計算性能及多達2倍的加密性能，為用戶優(yōu)化在Amazon EC2上要求最嚴苛的網(wǎng)絡(luò)密集型工作負載的成本，并提供更強大的擴展性能。

Amazon EC2 C7gn實例

自研芯片持續(xù)升級及規(guī)?；瘧?yīng)用為用戶帶來更高性價比

Nitro幫助用戶告別了算力損耗，那么用戶已到手的這部分算力，又該如何跑贏摩爾定律？

亞馬遜云科技首席執(zhí)行官 Adam Selipsky 曾表示："如果希望針對所有可能的工作負載徹底變革計算的性價比，還需要徹底重新思考實例。為了實現(xiàn)這個目標，我們需要深入底層技術(shù)直達芯片。"最終亞馬遜云科技交出的答卷，是基于ARM架構(gòu)的通用型云原生處理器Graviton。

相比X86架構(gòu)，Graviton低成本和高核心密度的特性在高計算密度領(lǐng)域更具優(yōu)勢，能耗表現(xiàn)也更佳，但在當時ARM架構(gòu)并未在基于云計算的企業(yè)級應(yīng)用領(lǐng)域取得突破。采用ARM架構(gòu)，意味著亞馬遜云科技要開拓一個幾乎沒有用戶基礎(chǔ)的賽道。

亞馬遜云科技在2018年推出首代Graviton處理器，隨后在2020年推出Graviton 2并實現(xiàn)規(guī)?；瘧?yīng)用，開創(chuàng)了ARM處理器企業(yè)級應(yīng)用的標桿。同時，每一代Graviton都保持著大幅度的性能提升，其中2021年宣布推出的Graviton 3相比上一代單核性能提升25％，浮點性能提升2倍，并且由于采用ARM架構(gòu)，還實現(xiàn)相比x86實例多達60%的能耗下降。

近年來，隨著人工智能和自動駕駛等新興應(yīng)用對高性能計算優(yōu)化實例的負載與性價比需求出現(xiàn)倍數(shù)級提升，亞馬遜云科技在2022 re:Invent全球大會上發(fā)布了專門對浮點和向量指令運算進行了優(yōu)化的Graviton 3E，以及由其提供支持的高性能計算優(yōu)化實例Hpc7g。Hpc7g相比當前一代Hpc6a實例性能提升達20%，讓用戶能夠在多達數(shù)萬個內(nèi)核的高性能計算集群中進行復雜計算，為計算流體動力學、天氣模擬、基因組學和分子動力學等高性能計算工作負載提供超高的性價比，進一步解決難度系數(shù)持續(xù)增加的問題并降低高性能計算工作負載的成本。

為了讓用戶獲得更高性價比，方便用戶采用Graviton實例，亞馬遜云科技已將20多種托管服務(wù)運行在Graviton之上，并且這一數(shù)字還在持續(xù)增加。這些服務(wù)包括用戶經(jīng)常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服務(wù)大幅降低了客戶將應(yīng)用遷移到 Graviton的復雜度，時間可以從幾天降低到幾分鐘，而且轉(zhuǎn)移到Graviton實例上即可實現(xiàn)高達40%的性價比提升。

專"芯"應(yīng)對機器學習各環(huán)節(jié)

隨著機器學習逐漸步入超大模型時代，十億級參數(shù)模型比比皆是，已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業(yè)不堪重負。

雖然被廣泛應(yīng)用于機器學習的通用芯片差不多每兩年就能實現(xiàn)性能翻倍，但仍然難以跟上訓練模型復雜度的提升速度。亞馬遜云科技認為，未專門針對機器學習優(yōu)化的GPU將難以長期勝任云上機器學習任務(wù)，唯一的解決方法是通過分布式多處理器，將一個模型通過網(wǎng)絡(luò)協(xié)同計算處理。為此，亞馬遜云科技針對機器學習的兩個環(huán)節(jié)，分別推出了用于訓練的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。

2022年10月，亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實例，專為云中高性能模型搭建，最多可搭載16顆Trainium芯片，擁有512GB高帶寬內(nèi)存和800Gbps網(wǎng)絡(luò)帶寬。亞馬遜云科技在2022 re:Invent全球大會上，發(fā)布了增強的Trn1n實例，網(wǎng)絡(luò)帶寬躍升至1.6Tbps，可將萬余個Trainium芯片構(gòu)建在一個超大規(guī)模集群上，實現(xiàn)對超大模型進行并行訓練。

亞馬遜云科技針對推理的Inferentia芯片則在2018年發(fā)布，并在次年推出對應(yīng)的Amazon EC2 Inf1實例，能夠幫助用戶實現(xiàn)低延時低成本的推理。亞馬遜云科技在2022 re:Invent全球大會上，又發(fā)布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2實例，以應(yīng)對深度學習模型規(guī)模和復雜度的指數(shù)級增長。Inf2實例是唯一一個專為大型Transformer模型的分布式推理所構(gòu)建的實例。與Inf1實例相比，Inf2實例吞吐量提升4倍，延時只有1/10，每瓦性能提升45%。Inf2實例可以運行高達1,750億參數(shù)的大模型，足以勝任諸如GPT-3、Mask R-CNN、ViT等超大型復雜模型。

十年領(lǐng)跑，硬件創(chuàng)新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經(jīng)說過："真正認真對待軟件的人應(yīng)該制造自己的硬件。"亞馬遜云科技十年創(chuàng)"芯"與這一論斷不謀而合，通過長年深耕自研芯片和硬件，在底層技術(shù)層面建立起顯著的差異化優(yōu)勢。

近年來，定制硬件創(chuàng)新對于云計算的重要性已得到越來越多企業(yè)的關(guān)注和認可。亞馬遜云科技首席技術(shù)官Werner Vogels預(yù)測"2023年，專用芯片的使用將迅速增加，工作負載利用硬件優(yōu)化帶來最大化性能，同時降低能耗和成本。"這也意味著定制硬件將成為云端算力最可靠的增長引擎之一，幫助用戶以更優(yōu)的成本和性能回報，獲得支持企業(yè)高質(zhì)量發(fā)展的數(shù)字化能力。

消息來源：亞馬遜云科技