omniture

云計(jì)算到底怎么玩?天云軟件攜伙伴帶你玩轉(zhuǎn)技術(shù)到實(shí)踐

近日,天云軟件技術(shù)開(kāi)放日在北京聯(lián)合創(chuàng)業(yè)辦公社舉行,來(lái)自天云軟件、阿里云、亞信三大企業(yè)級(jí)云系統(tǒng)的專家,以及關(guān)注云計(jì)算的開(kāi)發(fā)者們齊聚一堂,展開(kāi)了一場(chǎng)圍繞云系統(tǒng)技術(shù)與實(shí)踐的探討。

北京2017年5月2日電 /美通社/ -- 技術(shù)的發(fā)展迅猛而多變,近幾年,移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈等新一代計(jì)算技術(shù)高速發(fā)展,各領(lǐng)域的細(xì)分技術(shù)層出不窮。然而,新技術(shù)往往都是在云計(jì)算的基礎(chǔ)上,回看云計(jì)算的發(fā)展,同樣充斥著充滿著變化與創(chuàng)新,IaaS、PaaS、SaaS、CaaS,Openstack、Docker、OpenLava,云管理、彈性計(jì)算、高性能計(jì)算等等,企業(yè)級(jí)云計(jì)算正熱火朝天。

近日,天云軟件技術(shù)開(kāi)放日在北京聯(lián)合創(chuàng)業(yè)辦公社舉行,來(lái)自天云軟件、阿里云、亞信三大企業(yè)級(jí)云系統(tǒng)的專家,以及關(guān)注云計(jì)算的開(kāi)發(fā)者們齊聚一堂,從IaaS到CaaS,從Openstack到Openlava,從云管理到高性能計(jì)算,展開(kāi)了一場(chǎng)圍繞云系統(tǒng)技術(shù)與實(shí)踐的探討。

世界的變化,由技術(shù)推動(dòng)

天云軟件CEO張福波博士在開(kāi)場(chǎng)白中表示,作為一個(gè)IT老兵,他見(jiàn)證了海龍大廈從車水馬龍到一片哀鴻,這代表著世界在發(fā)生著快速的變化,科技的發(fā)展同樣如此。從云計(jì)算到大數(shù)據(jù),從大數(shù)據(jù)到人工智能、機(jī)器學(xué)習(xí),新技術(shù)不斷涌現(xiàn)。在上世紀(jì)80年代便有了人工智能的概念,然而之所以未能形成規(guī)?;陌l(fā)展,其主要原因便是計(jì)算能力的受限。

而分布式計(jì)算的發(fā)展才讓人工智能有了現(xiàn)在的發(fā)展。因此可以說(shuō)從技術(shù)的角度來(lái)看,分布式計(jì)算是IT發(fā)展的根本,有了分布式計(jì)算,云計(jì)算、大數(shù)據(jù)、人工智能等才有了發(fā)展和改進(jìn)的空間。

然而無(wú)論是云計(jì)算、大數(shù)據(jù),還是人工智能、機(jī)器學(xué)習(xí),其重要的目的便是技術(shù)推動(dòng)事物的發(fā)展,用新技術(shù)解決存在的問(wèn)題,天云軟件便是秉持著這樣的理念成立的。天云軟件認(rèn)為,底層技術(shù)發(fā)展很快,作為創(chuàng)業(yè)公司應(yīng)當(dāng)接近客戶真實(shí)應(yīng)用,以解決客戶問(wèn)題為基礎(chǔ),因此從2011年進(jìn)入云計(jì)算領(lǐng)域開(kāi)始,天云軟件不僅追求技術(shù)先進(jìn)性,更追求技術(shù)的應(yīng)用與落地。

以人工智能為例,人工智能不是一個(gè)獨(dú)立的應(yīng)用,其更大的作用是催化劑或者改進(jìn)的工具,所以人工智能一定要跟運(yùn)維結(jié)合,比如自動(dòng)駕駛便是基于人工智能的機(jī)器學(xué)習(xí)實(shí)現(xiàn)的。

人工智能的發(fā)展一是計(jì)算,二是算法,在上世紀(jì)八十年代受限于計(jì)算能力,發(fā)展很慢,當(dāng)前隨著計(jì)算基礎(chǔ)的成熟,它迎來(lái)了快速的發(fā)展。在當(dāng)前,人工智能有一個(gè)很重要的分支不是基于專家經(jīng)驗(yàn),而是基于現(xiàn)象,基于行為,這種人工智能的發(fā)展,使得人工智能技術(shù)解決問(wèn)題的門檻大大降低,因?yàn)闄C(jī)器基于行為是可以自己學(xué)習(xí)的。未來(lái)幾年,人工智能一定會(huì)擁有很大的應(yīng)用場(chǎng)景,隨著人工智能的發(fā)展,對(duì)于高性能計(jì)算、應(yīng)用的要求也會(huì)再上更高的臺(tái)階。

天云軟件CEO張福波博士開(kāi)場(chǎng)白
天云軟件CEO張福波博士開(kāi)場(chǎng)白

企業(yè)級(jí)云管理平臺(tái)的架構(gòu)實(shí)現(xiàn)與落地實(shí)踐、趨勢(shì)分析

天云軟件產(chǎn)品總監(jiān)馬俊以“企業(yè)級(jí)云管理平臺(tái)的架構(gòu)實(shí)現(xiàn)與落地實(shí)踐、趨勢(shì)分析”為主題,從IaaS層解析了云管理平臺(tái)的架構(gòu)實(shí)現(xiàn)、落地實(shí)踐和未來(lái)發(fā)展趨勢(shì)分析。馬俊介紹,云管理分為三層,分別是云管理平臺(tái)層、云計(jì)算技術(shù)架構(gòu)層、虛擬化層。

虛擬化層提供虛擬化功能,對(duì)計(jì)算資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源提供虛擬化支持和虛擬化管理功能;云計(jì)算技術(shù)架構(gòu)層通過(guò)虛擬化層提供的特性構(gòu)建云計(jì)算的技術(shù)架構(gòu),包括構(gòu)建計(jì)算資源技術(shù)架構(gòu)、構(gòu)建存儲(chǔ)資源技術(shù)架構(gòu)、構(gòu)建網(wǎng)絡(luò)資源技術(shù)架構(gòu);云管理平臺(tái)層提供業(yè)務(wù)支撐管理功能、提供異構(gòu)混合云管理功能,對(duì)虛擬化層、技術(shù)架構(gòu)層進(jìn)行統(tǒng)一的管理;

當(dāng)前隨著云計(jì)算技術(shù)架構(gòu)層從vCenter向Openstack、Cloudstack轉(zhuǎn)變,云管理平臺(tái)即CMP,也正在發(fā)生著巨大轉(zhuǎn)變。

天云軟件的SkyForm CMP是一個(gè)開(kāi)放、中立的企業(yè)級(jí)云管理平臺(tái),向下對(duì)接企業(yè)傳統(tǒng) IT 資源和云資源池,向上為系統(tǒng)管理員提供all-in-one的IT資源管理能力,實(shí)現(xiàn)面向最終用戶的云服務(wù)交付。

SkyForm CMP的核心是CMDB,強(qiáng)調(diào)異構(gòu)管理。而此CMDB的核心是調(diào)度,也是企業(yè)客戶怎么把資源管理好的核心。之所以如此,主要取決于當(dāng)前企業(yè)客戶的需求,企業(yè)要求云管理平臺(tái)對(duì)多個(gè)數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理:統(tǒng)一資源池管理,統(tǒng)一監(jiān)控視圖,統(tǒng)一資源配置管理,統(tǒng)一資源模板管理,統(tǒng)一資源申請(qǐng)、審批、開(kāi)通管理,統(tǒng)一資源實(shí)例管理。

SkyForm CMP是一個(gè)完全開(kāi)放的平臺(tái),提供對(duì)外的用戶管理API和資源管理API,以及監(jiān)控告警數(shù)據(jù),客戶可以根據(jù)API和數(shù)據(jù)可以重新開(kāi)發(fā)界面UI,從而很方便的與OA集成、網(wǎng)管集成以及和PaaS平臺(tái)集成。

下一步,SkyForm CMP將向四個(gè)方向發(fā)展,第一是進(jìn)行服務(wù)解耦,即微服務(wù)化改造,將大服務(wù)拆分出多個(gè)原子服務(wù),各個(gè)服務(wù)的關(guān)系是平級(jí)、獨(dú)立部署,支持分布式,已達(dá)到更為編輯的集成、開(kāi)發(fā)測(cè)試和上線。第二是基于機(jī)器學(xué)習(xí)的業(yè)務(wù)系統(tǒng)擴(kuò)容建議,基于CMP的系統(tǒng)數(shù)據(jù),進(jìn)行分析,實(shí)現(xiàn)更好的客戶投資收益。第三是基于機(jī)器學(xué)習(xí)的資源池優(yōu)化建議,以便將客戶的虛擬化資源池、Openstack使用率調(diào)到較大。四是雙模IT管理,將IaaS、PaaS一起管理,形成一個(gè)大的IT管理平臺(tái)。

目前,SkyForm CMP已大規(guī)模成功應(yīng)用于運(yùn)營(yíng)商公有云,服務(wù)于運(yùn)營(yíng)商政企客戶;運(yùn)營(yíng)商私有云,針對(duì)運(yùn)營(yíng)商B域、O域、M域的IT資源進(jìn)行云化改造。同時(shí),SkyFrom CMP已成功應(yīng)用于電子政務(wù)云、教育云、航空制造云、金融云、園區(qū)云、動(dòng)漫渲染云等。中國(guó)移動(dòng)、中國(guó)聯(lián)通等均是SkyForm CMP的客戶,其中較大的是聯(lián)通沃云,去年年底已經(jīng)達(dá)到25萬(wàn)CPU的規(guī)模。

基于Kubernetes打造輕量級(jí)PaaS平臺(tái)

天云軟件CTO牛繼賓從PaaS層面,分享了如何基于K8S打造輕量級(jí)PaaS平臺(tái)。當(dāng)前,行業(yè)內(nèi)對(duì)PaaS的理解有多種版本,然而無(wú)論是哪種方向,PaaS通用的定位是提供一種環(huán)境,從而支撐開(kāi)發(fā)者快速進(jìn)行開(kāi)發(fā)和應(yīng)用,同時(shí)支撐應(yīng)用進(jìn)行彈性計(jì)算或者靈活調(diào)整。因此。他將構(gòu)建輕量級(jí)PaaS平臺(tái)叫做ECP,即彈性計(jì)算平臺(tái)。

ECP的有四大建設(shè)目標(biāo):一是系統(tǒng)高可用,用了PaaS平臺(tái)后,不需要再去關(guān)心底層IaaS資源,只需要關(guān)心平臺(tái)能否從技術(shù)架構(gòu)、平臺(tái)服務(wù)和物理資源三個(gè)層面提高系統(tǒng)的穩(wěn)定性、可靠性;二是資源共享和動(dòng)態(tài)調(diào)度,打破資源靜態(tài)分配瓶頸,支持服務(wù)的彈性伸縮,提高資源利用效率,比如淘寶雙十一,更多是打造消息中間件和應(yīng)用軟件可彈性的中間件環(huán)境,從而支撐應(yīng)用做彈性拓展;三是DevOps,研發(fā)測(cè)試到運(yùn)維一體化,改變開(kāi)發(fā)、測(cè)試、運(yùn)維割裂的現(xiàn)狀,簡(jiǎn)化應(yīng)用開(kāi)發(fā)、部署和運(yùn)維的難度;四是自動(dòng)化運(yùn)維:將事件與流程相關(guān)聯(lián),發(fā)生問(wèn)題時(shí)自動(dòng)出發(fā)處理流程,提高運(yùn)維效率。

基于ECP的建設(shè)目標(biāo),為什么要基于Kubernetes去構(gòu)建輕量級(jí)平臺(tái)?實(shí)際上,是因?yàn)?Kubernetes提供了一套應(yīng)用發(fā)布運(yùn)行的彈性框架。一個(gè)應(yīng)用,其實(shí)就是一個(gè)負(fù)載均衡加上后端的幾個(gè)計(jì)算單點(diǎn),Kubernetes主要提供一套機(jī)制,保證應(yīng)用能夠快速的發(fā)布和服務(wù)的快速發(fā)現(xiàn)。Kubernetes的體系比較完整,體系架構(gòu)比較統(tǒng)一,開(kāi)發(fā)語(yǔ)言也比較統(tǒng)一、完整,目前國(guó)內(nèi)基于容器打造輕量級(jí)PaaS的服務(wù)商,基本也都已經(jīng)切換到Kubernetes,這也證明了其高可用性。

既然可以基于Kubernetes發(fā)現(xiàn)應(yīng)用、發(fā)現(xiàn)服務(wù),為什么天云軟件還要基于Kubemetes再去打造一個(gè)新平臺(tái)?牛繼賓指出,這首先是因?yàn)镵ubernetes本身的UI不是很友好,不符合國(guó)內(nèi)應(yīng)用習(xí)慣。其次是使用Kubernetes的時(shí)候,通過(guò)service找到后面掛了幾個(gè)pod,但如果從pod反向找service時(shí),就找不到了。其三是因?yàn)镻AAS是一個(gè)云的概念,要求多租戶,目前Kubernetes對(duì)租戶的支持不是很好。其四是基礎(chǔ)設(shè)施的管理、日志與監(jiān)控等,也不是那么友好。

基于Kubernetes鏡像倉(cāng)庫(kù)、存儲(chǔ)集群、Elastic Search、Kubernetes Cluster核心組件,加上Etcd Cluster,構(gòu)建基礎(chǔ)服務(wù),在外圍構(gòu)建主機(jī)管理、網(wǎng)絡(luò)管理、存儲(chǔ)管理、應(yīng)用管理、服務(wù)管理、健康管理、日志管理、用戶管理、UI、鏡像管理、CI/CD等服務(wù),并進(jìn)行鏡像封裝,再用Pod的形式集起來(lái),只需從UI抽取相關(guān)API,就可以形成一套PaaS平臺(tái),用戶可以基于PaaS平臺(tái)構(gòu)建Docker的能力。

構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu),大平臺(tái)+輕架構(gòu)+小應(yīng)用

在應(yīng)用層,亞信軟件高級(jí)架構(gòu)師李春林以“構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu),大平臺(tái)+輕架構(gòu)+小應(yīng)用的較佳實(shí)踐,能力集成與開(kāi)放平臺(tái)的實(shí)現(xiàn)思路”為主題,分享了亞信AIF在應(yīng)用方面的理念和實(shí)踐。

亞信AIF是一個(gè)微服務(wù)架構(gòu)的平臺(tái)。我們都知道,架構(gòu)的作用是為了更好地適應(yīng)需求的變化,當(dāng)前應(yīng)用架構(gòu)經(jīng)歷了MVC架構(gòu)、RPC架構(gòu)、SOA架構(gòu)到微服務(wù)架構(gòu)的演變。MVC架構(gòu)是為了解決前后端、界面、控制邏輯和業(yè)務(wù)邏輯分層問(wèn)題。隨著業(yè)務(wù)擴(kuò)大、模塊化成為趨勢(shì),RPC架構(gòu)解決模塊間跨進(jìn)程通信,幫助業(yè)務(wù)屏蔽通信細(xì)節(jié),但其缺點(diǎn)是不負(fù)責(zé)服務(wù)治理,包括服務(wù)的自動(dòng)發(fā)現(xiàn)、發(fā)布、運(yùn)維等。而SOA架構(gòu)則注重標(biāo)準(zhǔn)化服務(wù)的提供,企業(yè)資產(chǎn)復(fù)用、異構(gòu)系統(tǒng)集成,具備服務(wù)治理。SOA架構(gòu)對(duì)于傳統(tǒng)企業(yè),主要解決異構(gòu)系統(tǒng)互通和粗粒度的標(biāo)準(zhǔn)化(WebService);在互聯(lián)網(wǎng)領(lǐng)域,提供一套高效支撐應(yīng)用快速開(kāi)發(fā)迭代的服務(wù)化架構(gòu)。

那么亞信AIF所采用的微服務(wù)架構(gòu)則是注重服務(wù)的構(gòu)建方式,將服務(wù)拆開(kāi),拆成微、小的應(yīng)用,應(yīng)用之間獨(dú)立部署、生命周期管理,實(shí)現(xiàn)了松耦合、模塊職責(zé)單一,以及輕量級(jí)通訊,對(duì)內(nèi)高性能RPC、對(duì)外HTTP Restful風(fēng)格,從而更好地實(shí)現(xiàn)運(yùn)維體系支撐,服務(wù)治理、監(jiān)控中心、日志中心、配置中心等。

微服務(wù)架構(gòu)實(shí)質(zhì)上打破了系統(tǒng)建設(shè)中的“無(wú)形的煙囪”。過(guò)去集群模式下,服務(wù)規(guī)模較大,需要使用多個(gè)服務(wù)器的資源,并且是靜態(tài)資源分配。而AIF則是多個(gè)服務(wù)細(xì)粒度地共享一組服務(wù)器提供的資源,并且應(yīng)用框架一致,通過(guò)技術(shù)平臺(tái)對(duì)應(yīng)用進(jìn)行管控,促進(jìn)應(yīng)用軟件的標(biāo)準(zhǔn)化。

亞信AIF秉承“大平臺(tái) 小架構(gòu) 輕應(yīng)用”的原則,實(shí)現(xiàn)組件解耦和開(kāi)放,具體來(lái)講,AIF有以下八大特性:

應(yīng)用標(biāo)準(zhǔn)化:統(tǒng)一技術(shù)架構(gòu),促進(jìn)應(yīng)用標(biāo)準(zhǔn)化;

服務(wù)透明化:服務(wù)接入的規(guī)范化,實(shí)現(xiàn)服務(wù)的可見(jiàn),可管,可控,支持對(duì)服務(wù)的持續(xù)治理;

應(yīng)用與技術(shù)解耦:通過(guò)對(duì)開(kāi)源軟件的封裝,降低開(kāi)發(fā)門檻和TCO的同時(shí),實(shí)現(xiàn)應(yīng)用與技術(shù)組件的解耦;

應(yīng)用與數(shù)據(jù)分離:屏蔽底層數(shù)據(jù)存儲(chǔ)對(duì)應(yīng)用邏輯的影響,實(shí)現(xiàn)底層數(shù)據(jù)的訪問(wèn)對(duì)應(yīng)用透明化,使用者無(wú)需關(guān)心如何跨越多個(gè)分區(qū)查詢數(shù)據(jù)、如何平衡各個(gè)分區(qū)負(fù)載、如何訪問(wèn)異構(gòu)數(shù)據(jù)庫(kù)等問(wèn)題;

運(yùn)維有形化:多維度實(shí)時(shí)監(jiān)控到系統(tǒng)調(diào)用鏈路的每個(gè)環(huán)節(jié),包含性能、健康度等,進(jìn)而對(duì)系統(tǒng)進(jìn)行實(shí)時(shí)干預(yù);

運(yùn)維智能化:熔斷機(jī)制,及時(shí)自動(dòng)隔離集群中隱患節(jié)點(diǎn);

億級(jí)消息處理:消息處理框架實(shí)現(xiàn)高效異步服務(wù)協(xié)同,支持億級(jí)消息處理;

應(yīng)用云化:協(xié)同DCOS平臺(tái)實(shí)現(xiàn)服務(wù)自動(dòng)彈性伸縮。

亞信AIF未來(lái)的發(fā)展方向?qū)⑹菢?gòu)建基礎(chǔ)平臺(tái),從Ability Integration Framework到 Asiainfo Infrastructure Foundations,開(kāi)放、聯(lián)合,上下游共同努力構(gòu)建可靠、穩(wěn)定、易維護(hù)的一站式云化技術(shù)大平臺(tái)。

深度學(xué)習(xí)簡(jiǎn)介及支撐深度學(xué)習(xí)的解決方案

一如張福波博士所言,天云軟件是一家注重應(yīng)用、注重技術(shù)落地的云計(jì)算服務(wù)商,天云軟件CTO牛繼賓在分享PaaS之后再一次從應(yīng)用層,展開(kāi)深度學(xué)習(xí)簡(jiǎn)介及支撐深度學(xué)習(xí)的解決方案的分享。

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

深度學(xué)習(xí)采用的模型為深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型,即包含多個(gè)隱藏層(Hidden Layer,也稱隱含層)的神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)。深度學(xué)習(xí)利用模型中的隱藏層,通過(guò)特征組合的方式,逐層將原始輸入轉(zhuǎn)化為淺層特征,中層特征,高層特征直至最終的任務(wù)目標(biāo)。

復(fù)雜的人工智能算法訓(xùn)練與計(jì)算經(jīng)常涉及上億的參數(shù),這些參數(shù)的計(jì)算需要大量的計(jì)算能力,目前在深度學(xué)習(xí)領(lǐng)域,GPU計(jì)算已經(jīng)成為主流,使用GPU運(yùn)算的優(yōu)勢(shì)是當(dāng)前主流的GPU具有強(qiáng)大的計(jì)算能力和內(nèi)存帶寬,無(wú)論性能還是內(nèi)存帶寬,均遠(yuǎn)大于同代的CPU。 同時(shí),GPU的thousands of cores的并行計(jì)算能力也是一大優(yōu)勢(shì)。

GPU的并行計(jì)算原理包含單CPU并行計(jì)算,多GPU并行計(jì)算之?dāng)?shù)據(jù)并行,多GPU并行計(jì)算之模型并行,以及GPU集群并行模式。

單CPU并行計(jì)算是指針對(duì)每次訓(xùn)練數(shù)據(jù),模型內(nèi)計(jì)算通過(guò)多次GPU內(nèi)核的調(diào)用完成計(jì)算。權(quán)重W值一直存在GPU內(nèi)存中,直到所有訓(xùn)練數(shù)據(jù)計(jì)算完畢 之后回傳到系統(tǒng)內(nèi)存中。

多GPU并行計(jì)算之?dāng)?shù)據(jù)并行是指對(duì)訓(xùn)練數(shù)據(jù)做切分,同時(shí)采用多個(gè)模型實(shí)例,對(duì)多個(gè)分片的數(shù)據(jù)并行訓(xùn)練。其缺點(diǎn)是當(dāng)模型較大時(shí),GPU內(nèi)存無(wú)法滿足存儲(chǔ)要求,無(wú)法完成計(jì)算。

多GPU并行計(jì)算之模型并行將模型拆分成幾個(gè)分片,由幾個(gè)訓(xùn)練單元分別持有,共同協(xié)作完成訓(xùn)練。當(dāng)一個(gè)神經(jīng)元的輸入來(lái)自另一個(gè)訓(xùn)練單元上的神經(jīng)元的輸出時(shí),產(chǎn)生通信開(kāi)銷。其缺點(diǎn)是需要更頻繁的通信,增加通信壓力,且實(shí)現(xiàn)難度較大。

GPU集群并行模式即為多GPU并行中各種并行模式的擴(kuò)展。節(jié)點(diǎn)間采用InfiniBand通信,節(jié)點(diǎn)間的GPU通過(guò)RMDA通信,節(jié)點(diǎn)內(nèi)多GPU之間采用基于InfiniBand的通信。

整個(gè)深度學(xué)習(xí)集群(包括軟硬件),可能是公司內(nèi)部的共享資產(chǎn),每個(gè)項(xiàng)目組都需要使用,那么,采取上述方式部署便會(huì)帶來(lái)三大問(wèn)題:

一,要求項(xiàng)目組必須使用統(tǒng)一的深度學(xué)習(xí)框架,統(tǒng)一的深度學(xué)習(xí)框架的版本,否則不同項(xiàng)目組完成的訓(xùn)練代碼有可能不工作,如果每次為了適應(yīng)某個(gè)項(xiàng)目組的要求去重新部署框架,工作量巨大,而且耗時(shí)耗力;

二,其中一個(gè)項(xiàng)目組在使用集群時(shí),其他項(xiàng)目組往往需要等待,即使集群的資源使用率較低;

三,服務(wù)器集群中任何一臺(tái)硬件出現(xiàn)問(wèn)題,都會(huì)影響整個(gè)集群的使用。

因此,分布式機(jī)器學(xué)習(xí)集群共享調(diào)度成為解決之道。分布式機(jī)器學(xué)習(xí)集群共享調(diào)度的實(shí)現(xiàn)方式之一是基于Kubernetes容器的調(diào)度,Kubernetes能夠提供應(yīng)用部署、維護(hù)、擴(kuò)展機(jī)制等功能,利用Kubernetes能方便地管理跨機(jī)器運(yùn)行容器化的應(yīng)用,其主要功能如下:

1) 使用Docker對(duì)應(yīng)用程序包裝(package)、實(shí)例化(instantiate)、運(yùn)行(run)。

2) 以集群的方式運(yùn)行、管理跨機(jī)器的容器。

3) 解決Docker跨機(jī)器容器之間的通訊問(wèn)題。

4) Kubernetes的自我修復(fù)機(jī)制使得容器集群總是運(yùn)行在用戶期望的狀態(tài)。

二是通過(guò)MPI作業(yè)調(diào)度。MPI是高性能計(jì)算(HPC)應(yīng)用中廣泛使用的編程接口,用于并行化大規(guī)模問(wèn)題的執(zhí)行,在大多數(shù)情況下,需要通過(guò)集群作業(yè)調(diào)度管理軟件來(lái)啟動(dòng)和監(jiān)視在集群主機(jī)上執(zhí)行的MPI任務(wù)。此方法的主要目標(biāo)是使集群作業(yè)調(diào)度管理軟件能夠跟蹤和控制組成MPI作業(yè)的進(jìn)程。一些集群作業(yè)調(diào)度管理軟件,如天云軟件SkyForm OpenLava等,可以跟蹤MPI任務(wù)的CPU、內(nèi)存、GPU的使用。我們把每個(gè)深度學(xué)習(xí)的計(jì)算作為MPI作業(yè),通過(guò)天云軟件OpenLava作業(yè)調(diào)度管理軟件進(jìn)行集群統(tǒng)一的資源管理與分配,無(wú)論性能還是內(nèi)存帶寬,均遠(yuǎn)大于同代的CPU。 同時(shí),GPU的thousands of cores的并行計(jì)算能力也是一大優(yōu)勢(shì)。

這兩種調(diào)度方式的好處是,能夠分享集群的資源,實(shí)現(xiàn)多租戶、多用戶、不同任務(wù)框架的并行計(jì)算,如果集群出現(xiàn)了問(wèn)題還可以摒棄作業(yè)出現(xiàn)的任務(wù)。

其實(shí)整個(gè)人工智能產(chǎn)業(yè)鏈包含技術(shù)支撐層、基礎(chǔ)應(yīng)用層、和方案集成層,我國(guó)人工智能產(chǎn)業(yè)發(fā)展更多集中在技術(shù)支撐層,提供集群計(jì)算、深度學(xué)習(xí)框架、CPU、GPU、NPU、路徑規(guī)劃等能力,天云軟件則是聚焦在集群計(jì)算方面,并取得了一定突破。

而如果從人工智能發(fā)展的基礎(chǔ)來(lái)看,算法、數(shù)據(jù)、計(jì)算平臺(tái)是人工智能爆發(fā)的三大基礎(chǔ),只有三者都達(dá)到臨界值,人工智能才能真正發(fā)展起來(lái)。在人工智能方面,天云軟件聚焦點(diǎn)是集群和高性能計(jì)算平臺(tái),支撐深度學(xué)習(xí)的深入應(yīng)用。

現(xiàn)場(chǎng)火爆提問(wèn)及互動(dòng)環(huán)節(jié)
現(xiàn)場(chǎng)火爆提問(wèn)及互動(dòng)環(huán)節(jié)

“天云軟件技術(shù)開(kāi)放日”是天云軟件對(duì)外展示技術(shù)實(shí)力、分享技術(shù)實(shí)踐、交流技術(shù)熱點(diǎn)的活動(dòng),是天云軟件與用戶、產(chǎn)業(yè)鏈伙伴、業(yè)界同仁充分溝通、增進(jìn)了解、彼此學(xué)習(xí)、促進(jìn)合作的平臺(tái)。

張福波表示,天云軟件是一家技術(shù)公司,希望通過(guò)分享的方式,讓更多的技術(shù)人員以彼此的臂膀?yàn)橐劳谢ハ鄬W(xué)習(xí)進(jìn)步,從而也推動(dòng)整個(gè)行業(yè)的發(fā)展。

消息來(lái)源:北京天云融創(chuàng)軟件技術(shù)有限公司
China-PRNewsire-300-300.png
相關(guān)鏈接:
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection