北京2024年3月21日 /美通社/ -- 只要計(jì)算機(jī)依然遵循馮?諾依曼體系結(jié)構(gòu)所定義的形態(tài),那么關(guān)于計(jì)算的發(fā)展創(chuàng)新,大多都將圍繞著"存"與"算"的協(xié)作。不過(guò)有趣的是,從古文明到計(jì)算機(jī)時(shí)代,千年以來(lái)人類(lèi)對(duì)"存"的需求似乎總是優(yōu)先于"算"——只要條件允許,人們就傾向于災(zāi)備性地保留盡可能多的數(shù)據(jù),即便它們可能再也不會(huì)被用于計(jì)算;現(xiàn)在的電子產(chǎn)品也喜歡讓用戶(hù)在計(jì)算硬件相同但存儲(chǔ)空間不同的產(chǎn)品中進(jìn)行選擇。
當(dāng)然,在計(jì)算的世界中"存"和"算"只是在不同場(chǎng)景中有所側(cè)重,缺一不可。只不過(guò)由于技術(shù)、成本等限制,人們?cè)谫?gòu)買(mǎi)算力時(shí)往往精心算計(jì),但對(duì)存儲(chǔ)則傾向預(yù)留充足冗余。這也解釋了為何在計(jì)算機(jī)領(lǐng)域的一些重大發(fā)展中,存儲(chǔ)或是發(fā)揮重要作用,或是在第一時(shí)間享受到創(chuàng)新的增益。
如果將2006年亞馬遜云科技成立,看作是拉開(kāi)了云計(jì)算時(shí)代的帷幕,那么Amazon Simple Storage Service(Amazon S3)對(duì)象存儲(chǔ)服務(wù)就是拉開(kāi)帷幕的那只無(wú)形的手。作為亞馬遜云科技的推出的第一個(gè)云服務(wù),Amazon S3的到來(lái),與那些隱約感受到數(shù)據(jù)膨脹壓力的用戶(hù)形成了一場(chǎng)雙向奔赴。
現(xiàn)在,誕生已18年的Amazon S3已是最受歡迎的亞馬遜云科技服務(wù)之一。隨著云計(jì)算生態(tài)日益繁榮,計(jì)算場(chǎng)景來(lái)到機(jī)器推理、生成式人工智能等高階應(yīng)用,Amazon S3也在一路發(fā)展成長(zhǎng),成為云計(jì)算中基礎(chǔ)但又從不缺席的環(huán)節(jié)。
首個(gè)云對(duì)象存儲(chǔ),Amazon S3揭開(kāi)云計(jì)算時(shí)代的大幕
作為亞馬遜云科技的"元老"級(jí)服務(wù),Amazon S3目前為全球數(shù)百萬(wàn)各行各業(yè)的客戶(hù)提供可靠、便捷的云存儲(chǔ)?,F(xiàn)在,Amazon S3 存儲(chǔ)了超過(guò) 350 萬(wàn)億個(gè)對(duì)象,平均每秒處理超過(guò)1億次請(qǐng)求,能夠勝任幾乎所有工作負(fù)載。
Amazon S3能擁有持續(xù)18年的旺盛生命力,來(lái)自云計(jì)算所開(kāi)創(chuàng)的顛覆性存儲(chǔ)范式。云計(jì)算通過(guò)功能和服務(wù)取代了本地存儲(chǔ),上至無(wú)限的彈性容量、按用量付費(fèi)……云計(jì)算使存儲(chǔ)擁有了與業(yè)務(wù)同步成長(zhǎng)的可能。
而且Amazon S3還提供了遠(yuǎn)超本地存儲(chǔ)的可靠性,具有的11個(gè)9(99.999999999%)的持久性,意味著一萬(wàn)年時(shí)間跨度中1000萬(wàn)個(gè)對(duì)象才可能會(huì)丟一個(gè),用戶(hù)使用Amazon S3不需要在本地構(gòu)建數(shù)據(jù)中心,無(wú)需操心數(shù)據(jù)存放位置,不用擔(dān)心擴(kuò)容問(wèn)題,也幾乎不用擔(dān)心數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
豐富的存儲(chǔ)級(jí)別,Amazon S3以更經(jīng)濟(jì)的方式承載更多數(shù)據(jù)與應(yīng)用
隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐步推進(jìn),以及云計(jì)算技術(shù)對(duì)企業(yè)IT技術(shù)的重塑,企業(yè)在云上存放了數(shù)量眾多、類(lèi)型多樣的數(shù)據(jù),并在云上構(gòu)建了越來(lái)越多的應(yīng)用。企業(yè)一方面要解決存儲(chǔ)成本持續(xù)增加的挑戰(zhàn);另一方面還需要滿(mǎn)足不同應(yīng)用的數(shù)據(jù)不同訪問(wèn)模式,比如,有的數(shù)據(jù)訪問(wèn)頻次不同,需要的檢索時(shí)效不同,有的需要即時(shí)檢索,有的在幾十個(gè)小時(shí)檢索。
針對(duì)客戶(hù)的這些需求,亞馬遜云科技持續(xù)針對(duì)Amazon S3持續(xù)開(kāi)展創(chuàng)新,如今Amazon S3提供了9個(gè)存儲(chǔ)層級(jí),不同層級(jí)有不同的訪問(wèn)特性和成本水平。2012年是云計(jì)算方興未艾的年代,亞馬遜云科技在標(biāo)準(zhǔn)Amazon S3的基礎(chǔ)上又發(fā)布了Amazon S3 Glacier(現(xiàn)已更名為Amazon S3 Glacier Flexible Retrieval ),它為需要長(zhǎng)期存儲(chǔ),且低訪問(wèn)頻次的數(shù)據(jù)提供了低成本的數(shù)據(jù)存儲(chǔ)方案,也成了云上存儲(chǔ)多樣化的一個(gè)重要開(kāi)端。
此后,為了提供更加靈活的數(shù)據(jù)存取速度和成本效率,滿(mǎn)足更多應(yīng)用需求。亞馬遜云科技先后推出了成本最低的深度歸檔存儲(chǔ)Amazon S3 Glacier Deep Archive,支持快速檢索的歸檔存儲(chǔ)Amazon S3 Glacier Instant Retrieval,以及不常訪問(wèn)、但在需要時(shí)要能快速訪問(wèn)的Amazon S3 Standard-IA和Amazon S3 One Zone-IA等。
金山辦公是國(guó)內(nèi)領(lǐng)先的辦公軟件和服務(wù)提供商,其旗艦產(chǎn)品 WPS Office是全球主流辦公軟件產(chǎn)品之一。WPS Office 對(duì)數(shù)據(jù)的存儲(chǔ)和管理有極為嚴(yán)苛的要求:WPS Office 存儲(chǔ)了 PB 級(jí)海量數(shù)據(jù),帶來(lái)了巨大的存儲(chǔ)成本壓力;同時(shí),由于 WPS Office 為用戶(hù)提供對(duì) "冷" 文檔的及時(shí)訪問(wèn),因此對(duì)歸檔存儲(chǔ)(Archive Storage)的數(shù)據(jù)提取時(shí)間也有更高的標(biāo)準(zhǔn)。為了降低最終用戶(hù)的延遲和存儲(chǔ)成本,WPS Office 在亞馬遜云科技的協(xié)助下,最終通過(guò) Amazon S3 完成了自動(dòng)化生命周期管理流程的建立。其中,針對(duì)很少訪問(wèn)且需要毫秒級(jí)檢索的長(zhǎng)期數(shù)據(jù),將其歸檔在更具有成本效益的 Amazon S3 Glacier Instant Retrieval 中。最終,WPS Office 有近一半的存儲(chǔ)進(jìn)入到了 Amazon S3 Glacier Instant Retrieval 中,達(dá)成了數(shù)據(jù)訪問(wèn)速度提升和存儲(chǔ)成本大幅優(yōu)化的雙重效果。
此外,針對(duì)用戶(hù)訪問(wèn)模式不明確以及數(shù)據(jù)訪問(wèn)模式不斷改變的情況,亞馬遜云科技還推出了Amazon S3新的存儲(chǔ)層級(jí)——Amazon S3 Intelligent-Tiering。該服務(wù)可以根據(jù)訪問(wèn)頻率自動(dòng)將數(shù)據(jù)移至成本最低的存儲(chǔ)層,在對(duì)象級(jí)別降低存儲(chǔ)成本,并且不會(huì)影響性能表現(xiàn)。自 2018 年Amazon S3 Intelligent-Tiering 推出以來(lái),與 Amazon S3 Standard 相比,客戶(hù)通過(guò)采用 S3 Intelligent-Tiering 節(jié)省了 20 億美元。
迎接人工智能技術(shù)發(fā)展,Amazon S3性能實(shí)現(xiàn)突破性提升
隨著新的使用場(chǎng)景的出現(xiàn),如機(jī)器學(xué)習(xí)訓(xùn)練和推理、交互式分析、金融模型模擬、實(shí)時(shí)廣告和媒體內(nèi)容創(chuàng)建,這類(lèi)工作負(fù)載可能每分鐘寫(xiě)入和訪問(wèn)數(shù)據(jù)達(dá)百萬(wàn)次,并需要一致的、毫秒級(jí)的響應(yīng)時(shí)間以滿(mǎn)足性能需求。例如,人工智能(AI)和機(jī)器學(xué)習(xí)模型訓(xùn)練通常需要在幾分鐘內(nèi)處理數(shù)百萬(wàn)張圖片和文本行,因此數(shù)據(jù)訪問(wèn)速度對(duì)于實(shí)現(xiàn)最高的計(jì)算效率至關(guān)重要。
Amazon S3上存儲(chǔ)著各種不同類(lèi)型的大量非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)通常是直接從真實(shí)世界中獲取的,因此它能更真實(shí)地反映現(xiàn)實(shí)世界的復(fù)雜性和多維度信息,利用這些數(shù)據(jù)做訓(xùn)練能提高模型的實(shí)用價(jià)值,更好地滿(mǎn)足企業(yè)用戶(hù)需求。去年底,亞馬遜云科技在2023年re:Invent全球大會(huì)上,發(fā)布Amazon S3 Express One Zone,這是Amazon S3在性能方面的一次突破性提升。它采用了單可用區(qū)的架構(gòu)設(shè)計(jì),擁有個(gè)位數(shù)毫秒級(jí)響應(yīng)時(shí)間,性能比標(biāo)準(zhǔn)版Amazon S3快了10倍,每分鐘可處理數(shù)百萬(wàn)次請(qǐng)求。
對(duì)于計(jì)算密集型負(fù)載,Amazon S3 Express One Zone延遲的降低對(duì)用戶(hù)有顯而易見(jiàn)的價(jià)值。用ImageNet數(shù)據(jù)集進(jìn)行為期15天訓(xùn)練時(shí),GPU經(jīng)常需要等候標(biāo)準(zhǔn)版Amazon S3加載數(shù)據(jù),而在換成S3 Express One Zone之后,GPU利用率持續(xù)穩(wěn)定在高水平,最終提早完成任務(wù),釋放了GPU資源并節(jié)省成本。
Colorfront 致力于為電影行業(yè)開(kāi)發(fā)高性能數(shù)字處理技術(shù)。"Colorfront 將高性能 GPU 架構(gòu)與 Amazon S3 Express One Zone 集成,實(shí)現(xiàn)對(duì)文件進(jìn)行轉(zhuǎn)碼、解碼、轉(zhuǎn)換和封裝到各種格式的加速處理。" Colorfront 解決方案工程總監(jiān) Brandon Heaslip 表示,"借助 Amazon S3 Express One Zone 個(gè)位數(shù)毫秒級(jí)的數(shù)據(jù)訪問(wèn)速度,Colorfront的客戶(hù)可以將數(shù)字視頻處理速度提高70%,滿(mǎn)足了流媒體傳輸中多樣化的媒體和娛樂(lè)需求,并保持?jǐn)?shù)字視頻的標(biāo)準(zhǔn)。"
除了Amazon S3 Express One Zone以外,亞馬遜云科技還發(fā)布了多個(gè)新特性,讓Amazon S3更好地支撐人工智能/機(jī)器學(xué)習(xí)工作負(fù)載。亞馬遜云科技在Amazon Common Runtime (CRT)中封裝訪問(wèn)Amazon S3的性能最佳實(shí)踐,從而提高S3的傳輸性能和傳輸穩(wěn)定性。而且,CRT已經(jīng)集成到包括AWS Python SDK、AWS CLI、Mountpoint以及PyTorch中,在CRT的幫助下,Mountpoint for Amazon S3和Amazon S3 Connector for PyTorch都可以提高存儲(chǔ)的性能表現(xiàn),為機(jī)器學(xué)習(xí)負(fù)載中的數(shù)據(jù)存儲(chǔ)提供加速,使其更快完成訓(xùn)練任務(wù),進(jìn)而幫助企業(yè)節(jié)省成本。
結(jié)束語(yǔ)
在過(guò)去的18年里,Amazon S3成為眾多用戶(hù)上云的第一步,從存儲(chǔ)開(kāi)始步入云計(jì)算驅(qū)動(dòng)的數(shù)字化轉(zhuǎn)型。如今,Amazon S3還在持續(xù)創(chuàng)新,全球數(shù)百萬(wàn)客戶(hù)正使用Amazon S3存儲(chǔ)各種類(lèi)型的數(shù)據(jù),并將Amazon S3的數(shù)據(jù)對(duì)接到亞馬遜云科技各種計(jì)算引擎、數(shù)據(jù)庫(kù)引擎,與人工智能/機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析等服務(wù)高度集成,為其業(yè)務(wù)創(chuàng)新帶來(lái)了更廣泛的可能性。