omniture

深圳大學(xué)巧解AI算力資源難題,人工智能教學(xué)科研駛上快車(chē)道

2020-12-10 08:00 5956
深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院借助浪潮人工智能資源平臺(tái)AIStation巧妙地解決了AI算力資源調(diào)配和管理難題,將GPGPU資源利用率提升至60%以上,整體開(kāi)發(fā)工作效率提升75%,AI科研和教學(xué)工作駛?cè)肟燔?chē)道。

北京2020年12月10日 /美通社/ -- 深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院(以下簡(jiǎn)稱(chēng)“深大計(jì)軟學(xué)院”)借助浪潮人工智能資源平臺(tái)AIStation巧妙地解決了AI算力資源調(diào)配和管理難題,將GPGPU資源利用率提升至60%以上,整體開(kāi)發(fā)工作效率提升75%,AI科研和教學(xué)工作駛?cè)肟燔?chē)道。

深圳大學(xué)是廣東省高水平大學(xué)重點(diǎn)建設(shè)高校,培養(yǎng)了馬化騰、張志東、史玉柱等杰出校友。依托國(guó)家戰(zhàn)略、地緣優(yōu)勢(shì)和校友資源,深大計(jì)軟學(xué)院于2012年率先開(kāi)啟AI科學(xué)研究與人才培養(yǎng)。在人工智能領(lǐng)域取得了多項(xiàng)科研成果,承擔(dān)多個(gè)國(guó)家級(jí)自然科學(xué)基金項(xiàng)目。在芯片、算法、比賽以及論文等方面,也獲得了令人矚目的成績(jī)。在全球院校計(jì)算機(jī)科學(xué)排行榜CSRankings 2017-2019區(qū)間中,深圳大學(xué)計(jì)算機(jī)圖形學(xué)名列亞洲高校第一,進(jìn)入世界領(lǐng)先水平。近年來(lái),學(xué)院大力推進(jìn)產(chǎn)學(xué)融合,積極開(kāi)展人工智能教學(xué)探索與實(shí)踐,與騰訊等領(lǐng)先AI企業(yè)合作制定了人工智能人才培養(yǎng)方案,在課程體系、資源銜接、師資培訓(xùn)、課程內(nèi)容建設(shè)等方面進(jìn)行了深度合作,成立了廣東省首個(gè)人工智能學(xué)院。

為了支持人工智能教學(xué)科研工作,深大計(jì)軟學(xué)院大力投入AI計(jì)算平臺(tái)建設(shè),然而隨著AI應(yīng)用場(chǎng)景的增加和使用人數(shù)的上升,AI算力資源調(diào)度管理問(wèn)題逐漸凸顯。

AI算力資源管理拖累教學(xué)科研進(jìn)度

2018年以前,深大計(jì)軟學(xué)院在AI計(jì)算資源獲得方面主要由各研究所/研究團(tuán)隊(duì)自行解決。相關(guān)科研人員自行購(gòu)買(mǎi)了大量的不同品牌的AI服務(wù)器,新舊不一、型號(hào)各異,性能表現(xiàn)參差不齊,操作系統(tǒng)版本繁多。這些服務(wù)器均托管于學(xué)院公用服務(wù)器機(jī)房?jī)?nèi),但由各個(gè)團(tuán)隊(duì)自行進(jìn)行維護(hù),故障停機(jī)、維護(hù)停機(jī)是家常便飯,大多數(shù)AI服務(wù)器的MTBF(平均故障間隔時(shí)間)低于150小時(shí)。同時(shí)相關(guān)服務(wù)器僅在團(tuán)隊(duì)內(nèi)部共享,利用率低,而對(duì)機(jī)房制冷量、供電等資源的消耗卻很高。至2018年底,托管于學(xué)院公用服務(wù)器機(jī)房?jī)?nèi)的各型AI服務(wù)器已有近90臺(tái),機(jī)房業(yè)務(wù)負(fù)荷(三相交流電)供電總電流高峰時(shí)超過(guò)110A,服務(wù)器機(jī)房開(kāi)通僅1年半即已超過(guò)接入線(xiàn)路設(shè)計(jì)最大供電能力的50%,而各研究團(tuán)隊(duì)的采購(gòu)和托管申請(qǐng)仍紛至沓來(lái),機(jī)房管理人員苦惱不堪。

2018年起,深大計(jì)軟學(xué)院下決心建設(shè)統(tǒng)一的學(xué)院公共AI計(jì)算平臺(tái),同時(shí)收緊研究團(tuán)隊(duì)自行購(gòu)買(mǎi)與托管AI服務(wù)器,以期通過(guò)提升資源利用率來(lái)解決科研人員對(duì)AI計(jì)算資源的需求與機(jī)房動(dòng)力系統(tǒng)約束之間的矛盾。學(xué)院統(tǒng)一采購(gòu)了16臺(tái)8卡AI服務(wù)器組成服務(wù)器機(jī)群,安裝虛擬化軟件進(jìn)行服務(wù)器虛擬化,分配給學(xué)院師生使用。同時(shí)在另外6臺(tái)AI服務(wù)器上安裝PBS系統(tǒng),供研究各團(tuán)隊(duì)按需申請(qǐng),用于長(zhǎng)時(shí)間模型訓(xùn)練、調(diào)優(yōu)等短期使用需求。然而,傳統(tǒng)虛擬化軟件對(duì)GPU資源的虛擬化支持較差,只能通過(guò)PCIe設(shè)備直通的方式手動(dòng)分配給虛擬機(jī)使用,無(wú)法根據(jù)用戶(hù)的計(jì)算需求對(duì)GPU資源進(jìn)行動(dòng)態(tài)調(diào)度。而PBS等傳統(tǒng)并行計(jì)算機(jī)群管理系統(tǒng),對(duì)GPU加速卡等異構(gòu)計(jì)算資源的監(jiān)控和調(diào)度能力也遠(yuǎn)遠(yuǎn)不能滿(mǎn)足公共AI計(jì)算平臺(tái)的需要,同時(shí)在多人共享使用時(shí),運(yùn)行環(huán)境、任務(wù)相互之間干擾較大。

“當(dāng)時(shí)在建這套AI計(jì)算平臺(tái)時(shí),我們花了不少的精力,投入了很大的成本,但是卻沒(méi)有達(dá)到我們對(duì)提升人工智能科研和教學(xué)效率的預(yù)期,這讓我們非??鄲??!?span id="spanHghlt1041">深大計(jì)軟學(xué)院AI計(jì)算平臺(tái)負(fù)責(zé)人提到。

巧解難題,AI教研駛上快車(chē)道

浪潮AIStation是面向企業(yè)級(jí)用戶(hù)提供的一體化人工智能開(kāi)發(fā)資源平臺(tái),可支持?jǐn)?shù)據(jù)處理、AI算法開(kāi)發(fā)、模型訓(xùn)練、模型管理、模型部署等AI全鏈條操作管理。浪潮AIStation可以支持大規(guī)模計(jì)算集群擴(kuò)展,支持CPU、GPU、FPGA等多種系統(tǒng)架構(gòu),在業(yè)內(nèi)首先可以達(dá)到“管資源”、“管人”、“管調(diào)度”三管齊下。深大的AI算力資源管理難題在部署了浪潮AIStation之后已經(jīng)迎刃而解,目前深大計(jì)軟學(xué)院AI計(jì)算平臺(tái)的GPGPU資源利用率,在高峰時(shí)期已提升至60%以上,而開(kāi)發(fā)效率也大幅度提升,人工智能教學(xué)科研步入快車(chē)道。


通過(guò)AIStation平臺(tái),集群管理員可以清晰地了解到每個(gè)使用者對(duì)資源使用和提交訓(xùn)練任務(wù)的狀況,將閑置的計(jì)算資源進(jìn)行有效的管理,并靈活配置用戶(hù)的資源配額,防止資源過(guò)多占用和浪費(fèi)。

深大師生通過(guò)AIStation可以自行按需申請(qǐng)資源,AIStation自動(dòng)分配GPU資源給用戶(hù)使用。其GPU共享策略可實(shí)現(xiàn)實(shí)現(xiàn)多人共用一臺(tái)機(jī)器、多人共用一張GPU卡,開(kāi)發(fā)環(huán)境相互隔離互不影響,大大縮短了以往的排隊(duì)等待時(shí)間,大幅降低了因任務(wù)相互干擾而造成的故障停機(jī)和數(shù)據(jù)丟失的風(fēng)險(xiǎn)。

此外,AIStation還支持任務(wù)排隊(duì)托管、定義任務(wù)優(yōu)先級(jí)。深大師生們現(xiàn)在可以同時(shí)提交多個(gè)訓(xùn)練任務(wù),資源不足時(shí)排隊(duì)等待,一個(gè)任務(wù)訓(xùn)練結(jié)束后自動(dòng)釋放資源給排隊(duì)等待的任務(wù),從而可以更好地利用夜間、假期執(zhí)行訓(xùn)練任務(wù),同時(shí)可設(shè)置優(yōu)先級(jí),讓重要任務(wù)優(yōu)先執(zhí)行。

AIStation還提供基于Web的用戶(hù)界面,師生們無(wú)需安裝任何插件,通過(guò)瀏覽器即可快速接入實(shí)驗(yàn)平臺(tái)。疫情期間,借助AIstation進(jìn)行遠(yuǎn)程教學(xué)和科研實(shí)驗(yàn),深大計(jì)軟學(xué)院迅速恢復(fù)了正常的教學(xué)和科研工作,更好地應(yīng)對(duì)了疫情帶來(lái)的挑戰(zhàn)。

“在AIStation的幫助下,我們可以把精力更多地投入到教學(xué)與科研中去,不用再苦苦尋找計(jì)算資源了。”深大計(jì)軟學(xué)院一名教師說(shuō),“同時(shí),AIStation采用圖形化界面,內(nèi)置多種主流深度學(xué)習(xí)框架和開(kāi)發(fā)組件,能夠快速部署開(kāi)發(fā)環(huán)境,大大降低了學(xué)生們的學(xué)習(xí)難度和使用門(mén)檻,提高了學(xué)生們的實(shí)驗(yàn)效率,也為AI開(kāi)發(fā)和教學(xué)提供了極大的便利,將我們的開(kāi)發(fā)工作效率整體提升了近一倍?!?/p>

深大計(jì)軟學(xué)院借力浪潮AIStation擺脫了AI算力資源難題,將繼續(xù)堅(jiān)守“視野寬廣、素質(zhì)優(yōu)良、注重實(shí)踐、創(chuàng)新創(chuàng)業(yè)”的人才培養(yǎng)原則,加速推進(jìn)AI科研創(chuàng)新與人才培養(yǎng),打造人工智能教研標(biāo)桿高校。

消息來(lái)源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection