云計算到底怎么玩？天云軟件攜伙伴帶你玩轉(zhuǎn)技術(shù)到實踐

2017-05-02 17:37 10626

近日，天云軟件技術(shù)開放日在北京聯(lián)合創(chuàng)業(yè)辦公社舉行，來自天云軟件、阿里云、亞信三大企業(yè)級云系統(tǒng)的專家，以及關(guān)注云計算的開發(fā)者們齊聚一堂，展開了一場圍繞云系統(tǒng)技術(shù)與實踐的探討。

北京2017年5月2日電 /美通社/ -- 技術(shù)的發(fā)展迅猛而多變，近幾年，移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈等新一代計算技術(shù)高速發(fā)展，各領(lǐng)域的細(xì)分技術(shù)層出不窮。然而，新技術(shù)往往都是在云計算的基礎(chǔ)上，回看云計算的發(fā)展，同樣充斥著充滿著變化與創(chuàng)新，IaaS、PaaS、SaaS、CaaS，Openstack、Docker、OpenLava，云管理、彈性計算、高性能計算等等，企業(yè)級云計算正熱火朝天。

近日，天云軟件技術(shù)開放日在北京聯(lián)合創(chuàng)業(yè)辦公社舉行，來自天云軟件、阿里云、亞信三大企業(yè)級云系統(tǒng)的專家，以及關(guān)注云計算的開發(fā)者們齊聚一堂，從IaaS到CaaS，從Openstack到Openlava，從云管理到高性能計算，展開了一場圍繞云系統(tǒng)技術(shù)與實踐的探討。

世界的變化，由技術(shù)推動

天云軟件CEO張福波博士在開場白中表示，作為一個IT老兵，他見證了海龍大廈從車水馬龍到一片哀鴻，這代表著世界在發(fā)生著快速的變化，科技的發(fā)展同樣如此。從云計算到大數(shù)據(jù)，從大數(shù)據(jù)到人工智能、機器學(xué)習(xí)，新技術(shù)不斷涌現(xiàn)。在上世紀(jì)80年代便有了人工智能的概念，然而之所以未能形成規(guī)?；陌l(fā)展，其主要原因便是計算能力的受限。

而分布式計算的發(fā)展才讓人工智能有了現(xiàn)在的發(fā)展。因此可以說從技術(shù)的角度來看，分布式計算是IT發(fā)展的根本，有了分布式計算，云計算、大數(shù)據(jù)、人工智能等才有了發(fā)展和改進(jìn)的空間。

然而無論是云計算、大數(shù)據(jù)，還是人工智能、機器學(xué)習(xí)，其重要的目的便是技術(shù)推動事物的發(fā)展，用新技術(shù)解決存在的問題，天云軟件便是秉持著這樣的理念成立的。天云軟件認(rèn)為，底層技術(shù)發(fā)展很快，作為創(chuàng)業(yè)公司應(yīng)當(dāng)接近客戶真實應(yīng)用，以解決客戶問題為基礎(chǔ)，因此從2011年進(jìn)入云計算領(lǐng)域開始，天云軟件不僅追求技術(shù)先進(jìn)性，更追求技術(shù)的應(yīng)用與落地。

以人工智能為例，人工智能不是一個獨立的應(yīng)用，其更大的作用是催化劑或者改進(jìn)的工具，所以人工智能一定要跟運維結(jié)合，比如自動駕駛便是基于人工智能的機器學(xué)習(xí)實現(xiàn)的。

人工智能的發(fā)展一是計算，二是算法，在上世紀(jì)八十年代受限于計算能力，發(fā)展很慢，當(dāng)前隨著計算基礎(chǔ)的成熟，它迎來了快速的發(fā)展。在當(dāng)前，人工智能有一個很重要的分支不是基于專家經(jīng)驗，而是基于現(xiàn)象，基于行為，這種人工智能的發(fā)展，使得人工智能技術(shù)解決問題的門檻大大降低，因為機器基于行為是可以自己學(xué)習(xí)的。未來幾年，人工智能一定會擁有很大的應(yīng)用場景，隨著人工智能的發(fā)展，對于高性能計算、應(yīng)用的要求也會再上更高的臺階。

天云軟件CEO張福波博士開場白

企業(yè)級云管理平臺的架構(gòu)實現(xiàn)與落地實踐、趨勢分析

天云軟件產(chǎn)品總監(jiān)馬俊以“企業(yè)級云管理平臺的架構(gòu)實現(xiàn)與落地實踐、趨勢分析”為主題，從IaaS層解析了云管理平臺的架構(gòu)實現(xiàn)、落地實踐和未來發(fā)展趨勢分析。馬俊介紹，云管理分為三層，分別是云管理平臺層、云計算技術(shù)架構(gòu)層、虛擬化層。

虛擬化層提供虛擬化功能，對計算資源、網(wǎng)絡(luò)資源和存儲資源提供虛擬化支持和虛擬化管理功能；云計算技術(shù)架構(gòu)層通過虛擬化層提供的特性構(gòu)建云計算的技術(shù)架構(gòu)，包括構(gòu)建計算資源技術(shù)架構(gòu)、構(gòu)建存儲資源技術(shù)架構(gòu)、構(gòu)建網(wǎng)絡(luò)資源技術(shù)架構(gòu)；云管理平臺層提供業(yè)務(wù)支撐管理功能、提供異構(gòu)混合云管理功能，對虛擬化層、技術(shù)架構(gòu)層進(jìn)行統(tǒng)一的管理；

當(dāng)前隨著云計算技術(shù)架構(gòu)層從vCenter向Openstack、Cloudstack轉(zhuǎn)變，云管理平臺即CMP，也正在發(fā)生著巨大轉(zhuǎn)變。

天云軟件的SkyForm CMP是一個開放、中立的企業(yè)級云管理平臺，向下對接企業(yè)傳統(tǒng) IT 資源和云資源池，向上為系統(tǒng)管理員提供all-in-one的IT資源管理能力，實現(xiàn)面向最終用戶的云服務(wù)交付。

SkyForm CMP的核心是CMDB，強調(diào)異構(gòu)管理。而此CMDB的核心是調(diào)度，也是企業(yè)客戶怎么把資源管理好的核心。之所以如此，主要取決于當(dāng)前企業(yè)客戶的需求，企業(yè)要求云管理平臺對多個數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理：統(tǒng)一資源池管理，統(tǒng)一監(jiān)控視圖，統(tǒng)一資源配置管理，統(tǒng)一資源模板管理，統(tǒng)一資源申請、審批、開通管理，統(tǒng)一資源實例管理。

SkyForm CMP是一個完全開放的平臺，提供對外的用戶管理API和資源管理API，以及監(jiān)控告警數(shù)據(jù)，客戶可以根據(jù)API和數(shù)據(jù)可以重新開發(fā)界面UI，從而很方便的與OA集成、網(wǎng)管集成以及和PaaS平臺集成。

下一步，SkyForm CMP將向四個方向發(fā)展，第一是進(jìn)行服務(wù)解耦，即微服務(wù)化改造，將大服務(wù)拆分出多個原子服務(wù)，各個服務(wù)的關(guān)系是平級、獨立部署，支持分布式，已達(dá)到更為編輯的集成、開發(fā)測試和上線。第二是基于機器學(xué)習(xí)的業(yè)務(wù)系統(tǒng)擴容建議，基于CMP的系統(tǒng)數(shù)據(jù)，進(jìn)行分析，實現(xiàn)更好的客戶投資收益。第三是基于機器學(xué)習(xí)的資源池優(yōu)化建議，以便將客戶的虛擬化資源池、Openstack使用率調(diào)到較大。四是雙模IT管理，將IaaS、PaaS一起管理，形成一個大的IT管理平臺。

目前，SkyForm CMP已大規(guī)模成功應(yīng)用于運營商公有云，服務(wù)于運營商政企客戶；運營商私有云，針對運營商B域、O域、M域的IT資源進(jìn)行云化改造。同時，SkyFrom CMP已成功應(yīng)用于電子政務(wù)云、教育云、航空制造云、金融云、園區(qū)云、動漫渲染云等。中國移動、中國聯(lián)通等均是SkyForm CMP的客戶，其中較大的是聯(lián)通沃云，去年年底已經(jīng)達(dá)到25萬CPU的規(guī)模。

基于Kubernetes打造輕量級PaaS平臺

天云軟件CTO牛繼賓從PaaS層面，分享了如何基于K8S打造輕量級PaaS平臺。當(dāng)前，行業(yè)內(nèi)對PaaS的理解有多種版本，然而無論是哪種方向，PaaS通用的定位是提供一種環(huán)境，從而支撐開發(fā)者快速進(jìn)行開發(fā)和應(yīng)用，同時支撐應(yīng)用進(jìn)行彈性計算或者靈活調(diào)整。因此。他將構(gòu)建輕量級PaaS平臺叫做ECP，即彈性計算平臺。

ECP的有四大建設(shè)目標(biāo)：一是系統(tǒng)高可用，用了PaaS平臺后，不需要再去關(guān)心底層IaaS資源，只需要關(guān)心平臺能否從技術(shù)架構(gòu)、平臺服務(wù)和物理資源三個層面提高系統(tǒng)的穩(wěn)定性、可靠性；二是資源共享和動態(tài)調(diào)度，打破資源靜態(tài)分配瓶頸，支持服務(wù)的彈性伸縮，提高資源利用效率，比如淘寶雙十一，更多是打造消息中間件和應(yīng)用軟件可彈性的中間件環(huán)境，從而支撐應(yīng)用做彈性拓展；三是DevOps，研發(fā)測試到運維一體化，改變開發(fā)、測試、運維割裂的現(xiàn)狀，簡化應(yīng)用開發(fā)、部署和運維的難度；四是自動化運維：將事件與流程相關(guān)聯(lián)，發(fā)生問題時自動出發(fā)處理流程，提高運維效率。

基于ECP的建設(shè)目標(biāo)，為什么要基于Kubernetes去構(gòu)建輕量級平臺？實際上，是因為 Kubernetes提供了一套應(yīng)用發(fā)布運行的彈性框架。一個應(yīng)用，其實就是一個負(fù)載均衡加上后端的幾個計算單點，Kubernetes主要提供一套機制，保證應(yīng)用能夠快速的發(fā)布和服務(wù)的快速發(fā)現(xiàn)。Kubernetes的體系比較完整，體系架構(gòu)比較統(tǒng)一，開發(fā)語言也比較統(tǒng)一、完整，目前國內(nèi)基于容器打造輕量級PaaS的服務(wù)商，基本也都已經(jīng)切換到Kubernetes，這也證明了其高可用性。

既然可以基于Kubernetes發(fā)現(xiàn)應(yīng)用、發(fā)現(xiàn)服務(wù)，為什么天云軟件還要基于Kubemetes再去打造一個新平臺？牛繼賓指出，這首先是因為Kubernetes本身的UI不是很友好，不符合國內(nèi)應(yīng)用習(xí)慣。其次是使用Kubernetes的時候，通過service找到后面掛了幾個pod，但如果從pod反向找service時，就找不到了。其三是因為PAAS是一個云的概念，要求多租戶，目前Kubernetes對租戶的支持不是很好。其四是基礎(chǔ)設(shè)施的管理、日志與監(jiān)控等，也不是那么友好。

基于Kubernetes鏡像倉庫、存儲集群、Elastic Search、Kubernetes Cluster核心組件，加上Etcd Cluster，構(gòu)建基礎(chǔ)服務(wù)，在外圍構(gòu)建主機管理、網(wǎng)絡(luò)管理、存儲管理、應(yīng)用管理、服務(wù)管理、健康管理、日志管理、用戶管理、UI、鏡像管理、CI/CD等服務(wù)，并進(jìn)行鏡像封裝，再用Pod的形式集起來，只需從UI抽取相關(guān)API，就可以形成一套PaaS平臺，用戶可以基于PaaS平臺構(gòu)建Docker的能力。

構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu)，大平臺＋輕架構(gòu)＋小應(yīng)用

在應(yīng)用層，亞信軟件高級架構(gòu)師李春林以“構(gòu)建企業(yè)及互聯(lián)網(wǎng)架構(gòu)，大平臺＋輕架構(gòu)＋小應(yīng)用的較佳實踐，能力集成與開放平臺的實現(xiàn)思路”為主題，分享了亞信AIF在應(yīng)用方面的理念和實踐。

亞信AIF是一個微服務(wù)架構(gòu)的平臺。我們都知道，架構(gòu)的作用是為了更好地適應(yīng)需求的變化，當(dāng)前應(yīng)用架構(gòu)經(jīng)歷了MVC架構(gòu)、RPC架構(gòu)、SOA架構(gòu)到微服務(wù)架構(gòu)的演變。MVC架構(gòu)是為了解決前后端、界面、控制邏輯和業(yè)務(wù)邏輯分層問題。隨著業(yè)務(wù)擴大、模塊化成為趨勢，RPC架構(gòu)解決模塊間跨進(jìn)程通信，幫助業(yè)務(wù)屏蔽通信細(xì)節(jié)，但其缺點是不負(fù)責(zé)服務(wù)治理，包括服務(wù)的自動發(fā)現(xiàn)、發(fā)布、運維等。而SOA架構(gòu)則注重標(biāo)準(zhǔn)化服務(wù)的提供，企業(yè)資產(chǎn)復(fù)用、異構(gòu)系統(tǒng)集成，具備服務(wù)治理。SOA架構(gòu)對于傳統(tǒng)企業(yè)，主要解決異構(gòu)系統(tǒng)互通和粗粒度的標(biāo)準(zhǔn)化（WebService）；在互聯(lián)網(wǎng)領(lǐng)域，提供一套高效支撐應(yīng)用快速開發(fā)迭代的服務(wù)化架構(gòu)。

那么亞信AIF所采用的微服務(wù)架構(gòu)則是注重服務(wù)的構(gòu)建方式，將服務(wù)拆開，拆成微、小的應(yīng)用，應(yīng)用之間獨立部署、生命周期管理，實現(xiàn)了松耦合、模塊職責(zé)單一，以及輕量級通訊，對內(nèi)高性能RPC、對外HTTP Restful風(fēng)格，從而更好地實現(xiàn)運維體系支撐，服務(wù)治理、監(jiān)控中心、日志中心、配置中心等。

微服務(wù)架構(gòu)實質(zhì)上打破了系統(tǒng)建設(shè)中的“無形的煙囪”。過去集群模式下，服務(wù)規(guī)模較大，需要使用多個服務(wù)器的資源，并且是靜態(tài)資源分配。而AIF則是多個服務(wù)細(xì)粒度地共享一組服務(wù)器提供的資源，并且應(yīng)用框架一致，通過技術(shù)平臺對應(yīng)用進(jìn)行管控，促進(jìn)應(yīng)用軟件的標(biāo)準(zhǔn)化。

亞信AIF秉承“大平臺小架構(gòu) 輕應(yīng)用”的原則，實現(xiàn)組件解耦和開放，具體來講，AIF有以下八大特性：

應(yīng)用標(biāo)準(zhǔn)化：統(tǒng)一技術(shù)架構(gòu)，促進(jìn)應(yīng)用標(biāo)準(zhǔn)化；

服務(wù)透明化：服務(wù)接入的規(guī)范化，實現(xiàn)服務(wù)的可見，可管，可控，支持對服務(wù)的持續(xù)治理；

應(yīng)用與技術(shù)解耦：通過對開源軟件的封裝，降低開發(fā)門檻和TCO的同時，實現(xiàn)應(yīng)用與技術(shù)組件的解耦；

應(yīng)用與數(shù)據(jù)分離：屏蔽底層數(shù)據(jù)存儲對應(yīng)用邏輯的影響，實現(xiàn)底層數(shù)據(jù)的訪問對應(yīng)用透明化，使用者無需關(guān)心如何跨越多個分區(qū)查詢數(shù)據(jù)、如何平衡各個分區(qū)負(fù)載、如何訪問異構(gòu)數(shù)據(jù)庫等問題；

運維有形化：多維度實時監(jiān)控到系統(tǒng)調(diào)用鏈路的每個環(huán)節(jié)，包含性能、健康度等，進(jìn)而對系統(tǒng)進(jìn)行實時干預(yù)；

運維智能化：熔斷機制，及時自動隔離集群中隱患節(jié)點；

億級消息處理：消息處理框架實現(xiàn)高效異步服務(wù)協(xié)同，支持億級消息處理；

應(yīng)用云化：協(xié)同DCOS平臺實現(xiàn)服務(wù)自動彈性伸縮。

亞信AIF未來的發(fā)展方向?qū)⑹菢?gòu)建基礎(chǔ)平臺，從Ability Integration Framework到 Asiainfo Infrastructure Foundations，開放、聯(lián)合，上下游共同努力構(gòu)建可靠、穩(wěn)定、易維護(hù)的一站式云化技術(shù)大平臺。

深度學(xué)習(xí)簡介及支撐深度學(xué)習(xí)的解決方案

一如張福波博士所言，天云軟件是一家注重應(yīng)用、注重技術(shù)落地的云計算服務(wù)商，天云軟件CTO牛繼賓在分享PaaS之后再一次從應(yīng)用層，展開深度學(xué)習(xí)簡介及支撐深度學(xué)習(xí)的解決方案的分享。

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

深度學(xué)習(xí)采用的模型為深層神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN）模型，即包含多個隱藏層（Hidden Layer，也稱隱含層）的神經(jīng)網(wǎng)絡(luò)（Neural Networks，NN）。深度學(xué)習(xí)利用模型中的隱藏層，通過特征組合的方式，逐層將原始輸入轉(zhuǎn)化為淺層特征，中層特征，高層特征直至最終的任務(wù)目標(biāo)。

復(fù)雜的人工智能算法訓(xùn)練與計算經(jīng)常涉及上億的參數(shù)，這些參數(shù)的計算需要大量的計算能力，目前在深度學(xué)習(xí)領(lǐng)域，GPU計算已經(jīng)成為主流，使用GPU運算的優(yōu)勢是當(dāng)前主流的GPU具有強大的計算能力和內(nèi)存帶寬，無論性能還是內(nèi)存帶寬，均遠(yuǎn)大于同代的CPU。同時，GPU的thousands of cores的并行計算能力也是一大優(yōu)勢。

GPU的并行計算原理包含單CPU并行計算，多GPU并行計算之?dāng)?shù)據(jù)并行，多GPU并行計算之模型并行，以及GPU集群并行模式。

單CPU并行計算是指針對每次訓(xùn)練數(shù)據(jù)，模型內(nèi)計算通過多次GPU內(nèi)核的調(diào)用完成計算。權(quán)重W值一直存在GPU內(nèi)存中，直到所有訓(xùn)練數(shù)據(jù)計算完畢之后回傳到系統(tǒng)內(nèi)存中。

多GPU并行計算之?dāng)?shù)據(jù)并行是指對訓(xùn)練數(shù)據(jù)做切分，同時采用多個模型實例，對多個分片的數(shù)據(jù)并行訓(xùn)練。其缺點是當(dāng)模型較大時，GPU內(nèi)存無法滿足存儲要求，無法完成計算。

多GPU并行計算之模型并行將模型拆分成幾個分片，由幾個訓(xùn)練單元分別持有，共同協(xié)作完成訓(xùn)練。當(dāng)一個神經(jīng)元的輸入來自另一個訓(xùn)練單元上的神經(jīng)元的輸出時，產(chǎn)生通信開銷。其缺點是需要更頻繁的通信，增加通信壓力，且實現(xiàn)難度較大。

GPU集群并行模式即為多GPU并行中各種并行模式的擴展。節(jié)點間采用InfiniBand通信，節(jié)點間的GPU通過RMDA通信，節(jié)點內(nèi)多GPU之間采用基于InfiniBand的通信。

整個深度學(xué)習(xí)集群（包括軟硬件），可能是公司內(nèi)部的共享資產(chǎn)，每個項目組都需要使用，那么，采取上述方式部署便會帶來三大問題：

一，要求項目組必須使用統(tǒng)一的深度學(xué)習(xí)框架，統(tǒng)一的深度學(xué)習(xí)框架的版本，否則不同項目組完成的訓(xùn)練代碼有可能不工作，如果每次為了適應(yīng)某個項目組的要求去重新部署框架，工作量巨大，而且耗時耗力；

二，其中一個項目組在使用集群時，其他項目組往往需要等待，即使集群的資源使用率較低；

三，服務(wù)器集群中任何一臺硬件出現(xiàn)問題，都會影響整個集群的使用。

因此，分布式機器學(xué)習(xí)集群共享調(diào)度成為解決之道。分布式機器學(xué)習(xí)集群共享調(diào)度的實現(xiàn)方式之一是基于Kubernetes容器的調(diào)度，Kubernetes能夠提供應(yīng)用部署、維護(hù)、擴展機制等功能，利用Kubernetes能方便地管理跨機器運行容器化的應(yīng)用，其主要功能如下：

1) 使用Docker對應(yīng)用程序包裝(package)、實例化(instantiate)、運行(run)。

2) 以集群的方式運行、管理跨機器的容器。

3) 解決Docker跨機器容器之間的通訊問題。

4) Kubernetes的自我修復(fù)機制使得容器集群總是運行在用戶期望的狀態(tài)。

二是通過MPI作業(yè)調(diào)度。MPI是高性能計算（HPC）應(yīng)用中廣泛使用的編程接口，用于并行化大規(guī)模問題的執(zhí)行，在大多數(shù)情況下，需要通過集群作業(yè)調(diào)度管理軟件來啟動和監(jiān)視在集群主機上執(zhí)行的MPI任務(wù)。此方法的主要目標(biāo)是使集群作業(yè)調(diào)度管理軟件能夠跟蹤和控制組成MPI作業(yè)的進(jìn)程。一些集群作業(yè)調(diào)度管理軟件，如天云軟件SkyForm OpenLava等，可以跟蹤MPI任務(wù)的CPU、內(nèi)存、GPU的使用。我們把每個深度學(xué)習(xí)的計算作為MPI作業(yè)，通過天云軟件OpenLava作業(yè)調(diào)度管理軟件進(jìn)行集群統(tǒng)一的資源管理與分配，無論性能還是內(nèi)存帶寬，均遠(yuǎn)大于同代的CPU。同時，GPU的thousands of cores的并行計算能力也是一大優(yōu)勢。

這兩種調(diào)度方式的好處是，能夠分享集群的資源，實現(xiàn)多租戶、多用戶、不同任務(wù)框架的并行計算，如果集群出現(xiàn)了問題還可以摒棄作業(yè)出現(xiàn)的任務(wù)。

其實整個人工智能產(chǎn)業(yè)鏈包含技術(shù)支撐層、基礎(chǔ)應(yīng)用層、和方案集成層，我國人工智能產(chǎn)業(yè)發(fā)展更多集中在技術(shù)支撐層，提供集群計算、深度學(xué)習(xí)框架、CPU、GPU、NPU、路徑規(guī)劃等能力，天云軟件則是聚焦在集群計算方面，并取得了一定突破。

而如果從人工智能發(fā)展的基礎(chǔ)來看，算法、數(shù)據(jù)、計算平臺是人工智能爆發(fā)的三大基礎(chǔ)，只有三者都達(dá)到臨界值，人工智能才能真正發(fā)展起來。在人工智能方面，天云軟件聚焦點是集群和高性能計算平臺，支撐深度學(xué)習(xí)的深入應(yīng)用。