omniture

重郵張清華:發(fā)展數據科學需要大數據試驗場

2020-10-15 14:32 5806
近日,“浪潮云數智中國行-重慶站”現(xiàn)場,重慶郵電大學計算機學院/人工智能學院執(zhí)行院長張清華做了題為《人工智能發(fā)展的內驅動力》的主題演講。

北京2020年10月15日 /美通社/ -- 近日,“浪潮云數智中國行-重慶站”現(xiàn)場,重慶郵電大學計算機學院/人工智能學院執(zhí)行院長張清華做了題為《人工智能發(fā)展的內驅動力》的主題演講。張清華院長分享了人工智能時代下數據、算法和算力的發(fā)展,尤其對人工智能時代下的“數據科學”做了精彩的解讀。

隨著計算機、互聯(lián)網、移動互聯(lián)網與物聯(lián)網的發(fā)展,我們已經進入了以數據為主體的數字化進程中,科學研究也已經走向“數據科學”第四范式。數據是數字世界的基本要素,也是人工智能的生產資料。然而,目前我們對數據的挖掘與探索仍然停留在表層,并未發(fā)現(xiàn)數據本身的新規(guī)律、新知識,并由此創(chuàng)造新的價值。面對數據的挑戰(zhàn),深化人工智能發(fā)展,重大的科學基礎設施建設必不可少。

將重慶郵電大學建設為“重慶市大數據智能化的一個實驗場所、人才高地、科技高地”,是重慶市的重要戰(zhàn)略部署。目前,重慶郵電大學正加緊籌劃建設“大數據試驗場”,推動科學基礎設施的建設,為重慶市以大數據智能化為引領的創(chuàng)新驅動發(fā)展戰(zhàn)略提供強有力的基礎設施支撐。2020年7月,重慶郵電大學與浪潮攜手打造了計算性能達每秒千萬億次規(guī)模的人工智能創(chuàng)新平臺,作為重郵的核心算力底座,支撐起重郵的大數據智能化研究,切實推動重慶市的智慧新基建發(fā)展與國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設。

以下為張清華院長演講實錄(節(jié)選):

數字世界來臨,數據成為生產資料

人工智能的三大要素是算法、算力和數據。其中,數據是人工智能時代的生產資料。那么我們?yōu)槭裁催M入數字世界,被數據包圍?首先要提到的是計算機的發(fā)展,計算機令一切數字化成為可能,也讓高效計算成為可能,我們已經身處數字化進程中,是抵擋不住的潮流。第二,網絡的發(fā)明讓機器的互聯(lián)互通成為可能,讓信息高效匯聚成為可能。第三,移動互聯(lián)網的發(fā)展使得我們的數據從固定終端轉移到移動終端,變?yōu)槲覀兊氖謾C、iPad。第四,物聯(lián)網通過傳感器,使人與人之間、人與物之間、物與物之間構建起萬物互聯(lián)的數據世界,讓現(xiàn)實世界精確映射到數字世界成為可能。實際上我們每個人都是數字世界的最基本要素和數據生產者,每個人都在數字世界上對自己進行畫像,最后匯聚成一個數字海洋,也就是我們今天所說的“數字世界”。

在人類社會誕生前,世界上我只有一維空間,即物理空間。有人類社會后,我們說形成了包含社會空間在內的二維空間,現(xiàn)在我們給自己構造了一個第三空間,就叫數字空間。在三維空間里,除了物理空間、社會空間,還有虛擬的數字空間。數字世界現(xiàn)在正在逐漸形成,其基本要素就是數據,數字世界就是我們現(xiàn)實世界的基本映射,有人提出是孿生世界。我個人認為,這個映射空間目前還不是孿生,未來可能構建從物理世界到數字世界的雙生,可能那時候提“數字人”會更為準確。


數據科學作為第四范式

2013年被稱為大數據元年,后來國家每年都在制定計劃推動大數據發(fā)展,我們如何治理數據世界,如何應用數據世界?對應的就需要處理數據的科學,因此,大數據戰(zhàn)略推出后,“數據科學”應運而生。

什么是數據科學,我查了很多資料,但是沒有很準確的定義。有人這樣說過,要成為一門科學,背后一定要有基礎理論支撐。我們的人工智能發(fā)展得非常繁榮,然而,繁榮主要是在應用端??梢哉f,治理數據的模型、方法都還在路上。現(xiàn)在,應用實踐已經倒逼我們做理論研究、基礎理論分析。

科學研究的第一范式是實驗科學,第二范式是理論科學,第三范式是計算科學,第四范式就是數據密集型科學,也即“數據科學”,它以數據挖掘為依據,也就是數據世界形成后我們希望從數據當中獲取其本身蘊含的規(guī)律和價值。然而,目前我們在數字世界中能還原現(xiàn)實世界的規(guī)律,但是還沒有發(fā)現(xiàn),數據世界本身的新規(guī)律。

“數據科學”的特征我主要說三個。第一是不在意數據的雜亂,而在意數據的量;第二是不要求數據精準,而強調數據面面俱到。面面俱到的含義不是涵蓋所有數據,而是各個方面都要有代表性數據,這就離不開概率論支持。第三是不追求因果關系,但重視統(tǒng)計規(guī)律。這意味著不只追求因果關系,更多在于追求關聯(lián)關系。

科學研究的前三種范式都屬于知識范式,它們的重要特征就是從數據特征里面挖掘出能夠被我們理解的知識。數據科學范式下,有一個不一樣的思維方式:我們是否可以挖掘出客觀存在但人類無法理解的知識呢?數據科學的內涵知識,是否可以通過數字世界的特殊方式直接解決問題?我認為數據科學范式下挖掘出來知識,可能我們理解不了,但是機器能理解,這種規(guī)律應該是數據范式下我們去探索和思考的。

建設大數據試驗場驅動數據科學發(fā)展

要探索數據世界、治理數據世界,就必須發(fā)展“數據科學”,這是一個重要前提。每一個科學都需要探索,在探索過程中都需要做試驗或者實驗。試驗是探索,實驗是驗證。我想,最重要的事情就是做“大數據試驗場”。大數據試驗場想做的就是驅動數據科學發(fā)展,探索數字世界的奧秘,換一個角度看世界。

為什么要建大數據試驗場呢?因為數據孤島的存在,我們現(xiàn)在的一些數據挖掘方法,只能挖到一些很低端的淺層次的數據,更深層次的怎樣進行挖掘,需要新的挖掘方法和新的理論,就需要建設試驗場。做一個比較淺顯易懂的對比方式,試驗場跟礦場是類似的。


目前,重郵正在建設“大數據試驗場”,我們建設大數據試驗場的目的是探索數據科學本身的內涵、探究數據科學本身規(guī)律,然后引導產業(yè)創(chuàng)新,引導行業(yè)的發(fā)展。我們在浪潮等一些知名企業(yè)的指導下,構建了千萬元級的算力,但長期目標是打造示范性算力基礎設施,構建大數據試驗場基礎設施,在高校中打造算力平臺的典范,為重慶市實施大數據智能化發(fā)展作出貢獻。

最后,歡迎大家到重郵來,也對本次2020浪潮云數智峰會的召開表示祝賀,謝謝大家!

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection