青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

人工智能是否能具有像人類一樣的理解能力?

對人工智能來說,理解數(shù)據(jù)很簡單,但要設(shè)計一個真正能夠檢驗機器理解能力的測試卻很困難。對人工智能來說,理解數(shù)據(jù)很簡單,但要設(shè)計一個真正能夠檢驗機器理解能力的測試卻很困難。

  還記得IBM的人工智能程序“沃森”(Watson)嗎?2010年的一條宣傳語稱,“沃森能夠理解自然語言的模糊性和復(fù)雜性?!比欢?,正如我們所看到的,沃森后來在“運用人工智能的醫(yī)學(xué)革命”探索中遭遇慘敗,表面上的語言能力并不等同于真正理解人類語言。

  理解自然語言一直是人工智能研究的主要目標(biāo)之一。起初,研究人員試圖手動編程機器所需的一切,使其理解新聞故事、小說或其他人類可能編寫的東西。正如沃森所展示的那樣,這種方法是徒勞的,研究人員不可能將理解文本所需的所有不成文的事實、規(guī)則和假設(shè)都寫下來。最近,一種新的范式已經(jīng)建立起來:與其構(gòu)建明確的知識,不如讓機器自己學(xué)習(xí)理解語言,它所要做的,就是吸收大量的書面文本并學(xué)會預(yù)測單詞。研究人員將此稱為語言模型。2020年,美國舊金山的人工智能公司OpenAI訓(xùn)練并開發(fā)了一個自回歸語言模型,稱為“生成型已訓(xùn)練變換模型3”(Generative Pre-trained Transformer 3,簡稱 GPT-3)。當(dāng)基于像GPT-3這樣的大型神經(jīng)網(wǎng)絡(luò)時,這些模型可以產(chǎn)出令人難以置信的,可與人類散文(和詩歌?。╂敲赖摹白髌贰?,并似乎能執(zhí)行復(fù)雜的語言推理。

  GPT-3是用成千上萬的網(wǎng)站、書籍和百科全書的文本訓(xùn)練出來的,那我們能否說,它已經(jīng)超越了沃森的“表面功夫”?它真的理解它產(chǎn)生的語言和表面上的推理?在人工智能研究領(lǐng)域,這個話題存在著嚴重的分歧。在過去,這樣的討論是哲學(xué)家的研究范疇,但在過去十年間,人工智能已經(jīng)沖破了學(xué)術(shù)圈層,進入了現(xiàn)實世界;有人認為,人工智能對現(xiàn)實世界的缺乏理解可能會產(chǎn)生真實的、甚至是毀滅性的后果。在一項研究中,沃森提出了“許多不安全和不正確的治療建議”。另一項研究表明,谷歌的機器翻譯系統(tǒng)在為非英語患者翻譯醫(yī)療說明時,出現(xiàn)了一些重大錯誤。

  那么,我們?nèi)绾卧趯嵺`中確定機器真的具有理解能力?1950年,計算機先驅(qū)阿蘭·圖靈試圖用他著名的“模仿游戲”來回答這個問題,這個游戲現(xiàn)在被稱為“圖靈測試”。一個機器如果能和一個人展開對話(通過電傳設(shè)備),而不被辨別出誰是人類,誰是機器,那么我們就應(yīng)該認為這臺機器具有智能,即它是能思考的,具有理解能力。

  不幸的是,圖靈低估了人類被機器愚弄的傾向。即使是簡單的聊天機器人,比如德裔美國計算機科學(xué)家約瑟夫·魏森鮑姆在20世紀60年代發(fā)明的人工智能心理治療師“Eliza”,也會欺騙人們,讓他們相信自己是在和一個善解人意的人交談,即使知道他們的談話對象是一臺機器。

  在2012年的一篇論文中,計算機科學(xué)家赫克托·萊韋斯克、歐內(nèi)斯特·戴維斯和萊奧拉·摩根斯坦提出了一個更客觀的機器智能測試,他們稱之為“威諾格拉德模式挑戰(zhàn)”(Winograd schema challenge,簡稱WSC)。這項測試已經(jīng)被人工智能語言社區(qū)采用,作為評估機器理解能力的一種方式,也許是最好的方式——盡管目前來看還尚不完美。該測試以斯坦福大學(xué)語言研究者和計算機科學(xué)家特里·威諾格拉德的名字命名,由兩個句子組成,二者僅有一個單詞不同,然后緊接著一個問題。機器需要識別問題中的前指關(guān)系,即指出問題中某一代詞的先行詞。為了正確回答問題,機器需要擁有常識推理的能力。以下是兩個例子:

  句子1:我把水從瓶子里倒進杯子里,直到它滿為止。

  問題:什么滿了,瓶子還是杯子?

  句子2:我把瓶子里的水倒進杯子里,直到它空為止。

  問題:什么空了,瓶子還是杯子?

  句子1:喬的叔叔打網(wǎng)球仍然能贏他,盡管他大了30歲。

  問題:誰更年長,喬還是喬的叔叔?

  句子2:喬的叔叔打網(wǎng)球仍然能贏他,盡管他年輕了30歲。

  問題:誰更年輕,喬還是喬的叔叔?

  對于特定的威諾格拉德模式集,神經(jīng)網(wǎng)絡(luò)語言模型達到了約97%的準確率。這大致可以和人類的表現(xiàn)相媲美。

  在每一對句子中,一個詞的差異可以改變代詞指的是什么東西或什么人。正確回答這些問題需要一定的常識推理能力。威諾格拉德模式的設(shè)計正是為了測試這種理解能力,減輕了圖靈測試在不可靠的人類判斷或聊天機器人技巧下的弱點。特別是,該挑戰(zhàn)的作者設(shè)計了幾百種他們認為是“無法搜索”的模式:機器不應(yīng)該使用谷歌搜索(或類似的任何東西)來獲得正確的問題答案。

  威諾格拉德模式是2016年舉行的一場比賽的主題,在比賽中獲勝的程序只理解對了58%的句子——很難說比瞎猜的結(jié)果好多少。人工智能研究專家奧倫·埃齊奧尼打趣道:“當(dāng)人工智能無法確定一個句子中的‘它’指的是什么時,很難相信它會接管世界?!?/p>

  然而,由于大型神經(jīng)網(wǎng)絡(luò)語言模型的出現(xiàn),人工智能程序解決威諾格拉德模式挑戰(zhàn)的能力正迅速提升。OpenAI公司在2020年的一篇論文報告稱,在威諾格拉德模式的基準測試集中,GPT-3在近90%的句子上是正確的。其他的語言模型在經(jīng)過這些任務(wù)的專門訓(xùn)練后,表現(xiàn)得甚至更好。在撰寫本文時,神經(jīng)網(wǎng)絡(luò)語言模型在一組特定的威諾格拉德模式——SuperGLUE基準測試數(shù)據(jù)集的一部分——上達到了約97%的準確率。如此高的準確性已經(jīng)大致相當(dāng)于人類的表現(xiàn)。那么,這是否意味著神經(jīng)網(wǎng)絡(luò)語言模型已經(jīng)獲得了類似人類的理解能力?

  不一定。盡管創(chuàng)建者盡了最大的努力,但這些威諾格拉德模式實際上并不能“免于谷歌搜索”。這些挑戰(zhàn),就像目前許多其他人工智能語言理解測試一樣,有時會允許神經(jīng)網(wǎng)絡(luò)在沒有理解的情況下也能很好地運行。例如,考慮以下句子,“跑車超過了郵車,因為它行駛得更快”和“跑車超過了郵車,因為它行駛得更慢”。一個在大量英語句子語料庫上訓(xùn)練的語言模型會歸納“跑車”和“快”、“郵車”和“慢”之間的相關(guān)性,從而可以僅基于這些相關(guān)性而不是利用任何理解能力來做出正確回答。結(jié)果是,在SuperGLUE測試中,許多威諾格拉德模式允許使用這種類型的統(tǒng)計相關(guān)性。

  艾倫人工智能研究所的一組研究人員沒有放棄將威諾格拉德模式作為機器智能理解能力的測試,而是嘗試解決其存在的一些問題。2019年,他們創(chuàng)建了“WinoGrande”,一個更大的威諾格拉德模式集。WinoGrande包含了多達44000個語句,而不是僅有數(shù)百個例子。為了獲得如此大量的語句,研究人員求助于流行的眾包工作平臺“亞馬遜土耳其機器人”(Amazon Mechanical Turk)。在這個平臺上,每個(人類)工作者被要求寫下幾對句子,并加上一些約束,以確保集合中包含不同的主題。不過,現(xiàn)在每對句子中可能會有不止一個單詞的差異。

  然后,研究人員試圖將一種相對簡單的人工智能方法應(yīng)用到每個句子上,剔除那些過于容易回答的句子,從而消除可能出現(xiàn)的統(tǒng)計捷徑。正如預(yù)期的那樣,對機器來說,剩下的句子比最初的威諾格拉德模式集要困難得多。人類的得分仍然很高,但與人類表現(xiàn)相匹配的神經(jīng)網(wǎng)絡(luò)語言模型在WinoGrande集合中的得分要低得多。這個新的挑戰(zhàn)似乎彌補了威諾格拉德模式作為常識理解測試的缺陷——只要句子經(jīng)過仔細篩選,就能確保它們不受“谷歌搜索”的影響。

  然而,一個新的驚喜正在醞釀。在WinoGrande模式集發(fā)布后的近兩年時間里,神經(jīng)網(wǎng)絡(luò)語言模型變得越來越大,它們在這個新挑戰(zhàn)中的得分似乎也越來越高。在撰寫本文時,目前最好的程序——已經(jīng)在太字節(jié)(TB)級別的文本上進行了訓(xùn)練,然后在數(shù)以千計的WinoGrande示例上進行了進一步的訓(xùn)練——準確率接近90%(人類的準確率約為94%)。這種表現(xiàn)的提升幾乎完全歸功于神經(jīng)網(wǎng)絡(luò)語言模型及其訓(xùn)練數(shù)據(jù)規(guī)模的增加。

  那么,這些規(guī)模越來越大的神經(jīng)網(wǎng)絡(luò)最終能獲得像人類一樣的常識理解能力嗎?答案同樣是否定的。WinoGrande的研究結(jié)果有一些重要的警示。例如,由于句子依賴于“亞馬遜土耳其機器人”的工作者,寫作的質(zhì)量和連貫性相當(dāng)不均衡。同時,在清除“不能免于谷歌搜索”的句子時,“不夠成熟”的人工智能方法可能過于簡單,不僅找出了所有可能用于大型神經(jīng)網(wǎng)絡(luò)的統(tǒng)計捷徑,而且可能只應(yīng)用在個別句子上,導(dǎo)致一些余下的句子最終失去了“孿生語句”。一項后續(xù)研究表明,當(dāng)神經(jīng)網(wǎng)絡(luò)語言模型只對兩個“孿生”句子進行測試——并且要求兩個句子都正確——的時候,其準確率要比人類低得多。這意味著,早先準確率接近90%的結(jié)果并沒有看上去的那么顯著。

  那么,我們應(yīng)該如何看待威諾格拉德模式挑戰(zhàn)?主要的教訓(xùn)是,我們通常很難從人工智能系統(tǒng)在特定挑戰(zhàn)中的表現(xiàn)來判斷它們是否真正理解其所處理的語言(或其他數(shù)據(jù))。我們現(xiàn)在知道,神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計捷徑——而不是實際類似于人類的理解能力——以在威諾格拉德模式以及許多最流行的“通用語言理解”基準測試中獲得上佳表現(xiàn)。


  問題的關(guān)鍵在于,理解語言的前提是理解世界,而只接觸語言的機器無法獲得這樣的理解。例如,讓我們理解一下“跑車超過了郵車,因為它行駛得更快”這句話是什么意思。首先,你需要知道跑車和郵車分別是什么,而兩種車之間可以互相“超車”;此外,在更基本的層面上,車輛存在于這個世界上,能與其他事物產(chǎn)生互動,而且由人類駕駛,有著各自的用途。

  在我們?nèi)祟惖恼J知中,所有這些都是理所當(dāng)然的知識,但它們并沒有內(nèi)置在機器當(dāng)中,也不可能明確地記錄在任何語言模型的訓(xùn)練文本中。一些認知科學(xué)家認為,人類依靠先天的、非語言的核心知識來學(xué)習(xí)和理解語言,這些核心知識包含了空間、時間和其他許多關(guān)于世界的基本屬性。如果我們想讓機器同樣掌握人類語言,首先就需要賦予它們?nèi)祟惻c生俱來的基本原則。在評估機器的理解能力時,我們應(yīng)該從評估它們對這些原則的理解開始,這或許可以稱為“嬰兒形而上學(xué)”。

  與沃森和GPT-3等人工智能系統(tǒng)的驚人成就相比,訓(xùn)練和評估嬰兒水平的機器智能似乎是一個巨大的倒退。但如果我們的目標(biāo)是讓人工智能擁有真實可信的理解能力,這可能是唯一的途徑;只有這樣,機器才能真正理解句子中的“它”指的是什么,同時也理解與“它”有關(guān)的其他所有一切。


相關(guān)內(nèi)容