北京2018年2月5日電 /美通社/ -- 1月30日,由亞洲超算協(xié)會和浪潮集團(tuán)聯(lián)合發(fā)起的ASC世界大學(xué)生超級計算機競賽在京正式啟動18賽季(ASC18)。參加ASC18超算競賽的全球300多支隊伍,將在接下來的幾個月里,挑戰(zhàn)一項由微軟出具的極具挑戰(zhàn)性的人工智能賽題——機器閱讀理解。ASC18各參賽隊將使用CNTK深度學(xué)習(xí)框架,獨立開發(fā)機器閱讀理解和問答的算法模型,使用最新超算技術(shù)結(jié)合MS MARCO數(shù)據(jù)集進(jìn)行訓(xùn)練,以試圖讓機器更準(zhǔn)確地回答問題。
讓機器具備自然語言的閱讀理解與問答能力,是人工智能的核心難題之一,也是目前智能語音交互和人機對話的核心難題。一般來說,人們在讀完一篇文章之后能夠很輕而易舉地歸納出文章中的重點內(nèi)容,例如這篇文章講的是什么人、在什么地點、做了什么事情等。機器閱讀理解的研究就是賦予計算機與人類同等的閱讀能力,即讓計算機閱讀一篇文章,隨后讓計算機解答與文中信息相關(guān)的問題。這種對人類而言輕而易舉的能力,對計算機來說卻并非如此。很長一段時間以來,自然語言處理的研究都是基于句子級別的閱讀理解。例如給計算機一句話,理解句子中的主謂賓、定狀補,誰做了何事等,但長文本的理解問題一直是研究的一個難點,因為這涉及到句子之間的連貫、上下文和推理等更高維的研究內(nèi)容。
現(xiàn)在,包括微軟、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)在內(nèi)的頂級人工智能專家和學(xué)者們正在研究這項復(fù)雜的任務(wù),這一目標(biāo)若能實現(xiàn),將意味著當(dāng)前的弱人工智能向強人工智能邁進(jìn)了一大步。在前不久的由斯坦福大學(xué)發(fā)起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽的最新榜單上,微軟亞洲研究院自然語言計算組于2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示預(yù)測答案和真實答案完全匹配)上以82.650的較高分領(lǐng)先,并率先超越人類分?jǐn)?shù)82.304。
而從ASC世界大學(xué)生超級計算機競賽已經(jīng)發(fā)布的ASC18賽題可以看到,此次比賽采用的是一個更具難度的機器閱讀理解與問答數(shù)據(jù)集——微軟MS MARCO。這個數(shù)據(jù)集是基于Bing和Cortana上收集的真實數(shù)據(jù)構(gòu)建的,包括10萬個問題,100萬個段落,以及超過20萬個文件的鏈接。此次ASC18競賽的初賽階段,微軟將提供該數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)供訓(xùn)練模型使用。而在決賽階段,微軟將提供一個全新的測試集來供選手們挑戰(zhàn)。同時為了更好的讓大學(xué)生入手和了解該賽題,微軟也同時提供基于CNTK的基準(zhǔn)代碼和相關(guān)論文作為參考。
此次ASC18人工智能賽題評判標(biāo)準(zhǔn)是基于各參賽隊訓(xùn)練模型的機器閱讀理解回答預(yù)測的準(zhǔn)確率,這就要求隊員們盡快學(xué)習(xí)掌握機器閱讀理解與問答的算法特點,并熟練應(yīng)用CNTK深度學(xué)習(xí)框架。由于賽題的數(shù)據(jù)集規(guī)模較大,如何充分發(fā)掘利用超算硬件的計算潛力也成為贏得比賽的關(guān)鍵。這次ASC18的人工智能賽題要求參賽隊伍自己動手開發(fā)機器閱讀理解的算法模型,運用最新超算技術(shù)來加速訓(xùn)練速度及提高精度,更要用真實的問題數(shù)據(jù)集來驗證模型訓(xùn)練的成果,這對處于本科階段的大學(xué)生參賽選手來說,無疑是一次“超級挑戰(zhàn)”。
ASC世界大學(xué)生超級計算機競賽(ASC Student Supercomputer Challenge)是由亞洲超算協(xié)會和浪潮集團(tuán)聯(lián)合發(fā)起的世界較大規(guī)模的大學(xué)生超算競賽,發(fā)韌于2012年,經(jīng)過7年發(fā)展,影響力不斷攀升。迄今為止,ASC 競賽已吸引到全球超過 5500 名年輕人才參與,參賽隊伍總數(shù)超過1100支。