亚洲欧美精品中文三区|亚洲精品美女AV在线|性生潮久久久不久久久久|免费 无码 国产在现看|亚洲欧美国产精品专区久久|少妇的丰满3中文字幕免费|欧美成人怡红院在线观看视频|亚洲国产中文精品看片在线观看

世界速訊:AI大模型出現(xiàn)了人們不可預(yù)測(cè)的能力

這些表情符號(hào)描述的是什么電影?

該提示是 2022 年選擇用于測(cè)試各種大型語(yǔ)言模型(LLMs)能力的 204 個(gè)任務(wù)之一——ChatGPT 等 AI 聊天機(jī)器人背后的計(jì)算引擎。最簡(jiǎn)單的 LLMs 產(chǎn)生了超現(xiàn)實(shí)的反應(yīng)。


(資料圖片僅供參考)

「這部電影是一部關(guān)于一個(gè)男人的電影?!挂粋€(gè)簡(jiǎn)單模型開始說(shuō)道。中等復(fù)雜度的模型的答案接近了,猜測(cè)表情符號(hào)電影。但最復(fù)雜的模型在一次猜測(cè)中就成功了:《海底總動(dòng)員》。

「盡管試圖期待驚喜,但我對(duì)這些模型可以做的事情感到驚訝?!箮椭M織測(cè)試的谷歌研究院計(jì)算機(jī)科學(xué)家 Ethan Dyer 說(shuō)。令人驚訝的是,這些模型應(yīng)該有一個(gè)指令:接受一串文本作為輸入,并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,一遍又一遍,完全基于統(tǒng)計(jì)數(shù)據(jù)。計(jì)算機(jī)科學(xué)家預(yù)計(jì),擴(kuò)大規(guī)模會(huì)提高已知任務(wù)的性能,但他們沒(méi)想到這些模型會(huì)突然處理這么多新的、不可預(yù)測(cè)的任務(wù)。

Dyer 所做的一項(xiàng)近期調(diào)查表明,LLMs 可以產(chǎn)生數(shù)百種「涌現(xiàn)」能力——大型模型可以完成而小型模型無(wú)法完成的任務(wù),其中許多似乎與文本分析無(wú)關(guān)。它們的范圍從乘法到生成可執(zhí)行的計(jì)算機(jī)代碼,再到顯然是基于表情符號(hào)解碼電影。

新的分析表明,對(duì)于某些任務(wù)和某些模型,存在一個(gè)復(fù)雜性閾值,超過(guò)該閾值,模型的功能就會(huì)猛增。(他們還提出了一個(gè)黑暗的反面:隨著復(fù)雜性的增加,一些模型在他們的反應(yīng)中揭示了新的偏見(jiàn)和不準(zhǔn)確之處。)

斯坦福大學(xué)計(jì)算機(jī)科學(xué)家 Rishi Bommasani 說(shuō):「在我所知道的任何文獻(xiàn)中,從未討論過(guò)語(yǔ)言模型可以做這些事情?!谷ツ?,他幫助編制了一份包含數(shù)十種突發(fā)行為的清單,其中包括 Dyer 項(xiàng)目中確定的幾種行為。該列表繼續(xù)增長(zhǎng)。

現(xiàn)在,研究人員不僅競(jìng)相確定額外的突發(fā)能力,而且還想弄清楚它們發(fā)生的原因和方式——本質(zhì)上是試圖預(yù)測(cè)不可預(yù)測(cè)性。理解涌現(xiàn)可以揭示圍繞人工智能和機(jī)器學(xué)習(xí)的深層問(wèn)題的答案,比如復(fù)雜模型是否真的在做一些新的事情,或者只是變得非常擅長(zhǎng)統(tǒng)計(jì)。它還可以幫助研究人員利用潛在的好處并減少緊急風(fēng)險(xiǎn)。

AI 初創(chuàng)公司 Anthropic 的計(jì)算機(jī)科學(xué)家 Deep Ganguli 說(shuō):「我們不知道如何判斷哪種應(yīng)用程序會(huì)產(chǎn)生危害,是順利發(fā)生還是不可預(yù)測(cè)?!?/p>

The Emergence of Emergence

生物學(xué)家、物理學(xué)家、生態(tài)學(xué)家以及其他科學(xué)家使用「涌現(xiàn)(Emergence)」一詞來(lái)描述當(dāng)大量事物作為一個(gè)整體行動(dòng)時(shí)出現(xiàn)的自組織集體行為。無(wú)生命原子的組合產(chǎn)生了活細(xì)胞;水分子產(chǎn)生波浪;八哥的低語(yǔ)以不斷變化但可識(shí)別的模式掠過(guò)天空;細(xì)胞使肌肉運(yùn)動(dòng)和心臟跳動(dòng)。

至關(guān)重要的是,涌現(xiàn)能力出現(xiàn)在涉及許多獨(dú)立部分的系統(tǒng)中。但研究人員直到最近才能夠在 LLMs 中記錄這些能力,因?yàn)檫@些模型已經(jīng)發(fā)展到巨大的規(guī)模。

語(yǔ)言模型已經(jīng)存在了幾十年。直到大約五年前,最強(qiáng)大的還是基于所謂的循環(huán)神經(jīng)網(wǎng)絡(luò)。這些基本上采用一串文本并預(yù)測(cè)下一個(gè)單詞是什么。使模型「循環(huán)」的原因在于它從自己的輸出中學(xué)習(xí):它的預(yù)測(cè)反饋到網(wǎng)絡(luò)中以提高未來(lái)的性能。

2017 年,Google Brain 的研究人員推出了一種稱為 Transformer 的新型架構(gòu)。當(dāng)循環(huán)網(wǎng)絡(luò)逐字分析句子時(shí),Transformer 會(huì)同時(shí)處理所有單詞。這意味著 Transformer 可以并行處理大量文本。

通過(guò)增加模型中的參數(shù)數(shù)量以及其他因素,Transformers 能夠快速擴(kuò)大語(yǔ)言模型的復(fù)雜性。這些參數(shù)可以被認(rèn)為是單詞之間的連接,并且模型通過(guò)在訓(xùn)練期間通過(guò)文本攪動(dòng)時(shí)調(diào)整這些連接來(lái)改進(jìn)。模型中的參數(shù)越多,它就能越準(zhǔn)確地建立聯(lián)系,它就越接近于模仿人類語(yǔ)言。正如預(yù)期的那樣,OpenAI 研究人員在 2020 年進(jìn)行的一項(xiàng)分析發(fā)現(xiàn),模型隨著規(guī)模的擴(kuò)大而提高了準(zhǔn)確性和能力。

但 LLMs 的首次亮相也帶來(lái)了一些真正意想不到的東西。隨著具有 1750 億個(gè)參數(shù)的 GPT-3 或可擴(kuò)展到 5400 億個(gè)參數(shù)的 Google PaLM 等模型的出現(xiàn),用戶開始描述越來(lái)越多的緊急行為。一位 DeepMind 工程師甚至報(bào)告說(shuō)能夠說(shuō)服 ChatGPT 它是一個(gè) Linux 終端,并讓它運(yùn)行一些簡(jiǎn)單的數(shù)學(xué)代碼來(lái)計(jì)算前 10 個(gè)素?cái)?shù)。值得注意的是,它可以比在真正的 Linux 機(jī)器上運(yùn)行相同的代碼更快地完成任務(wù)。

與電影表情符號(hào)任務(wù)一樣,研究人員沒(méi)有理由認(rèn)為為預(yù)測(cè)文本而構(gòu)建的語(yǔ)言模型會(huì)令人信服地模仿計(jì)算機(jī)終端。這些突發(fā)行為中的許多都說(shuō)明了「零樣本」或「少量樣本」學(xué)習(xí),這描述了 LLMs 解決以前從未(或很少)遇到的問(wèn)題的能力。Ganguli 說(shuō),這一直是人工智能研究的長(zhǎng)期目標(biāo)。他說(shuō),證明 GPT-3 可以在零樣本設(shè)置中無(wú)需任何明確訓(xùn)練數(shù)據(jù)的情況下解決問(wèn)題,「這讓我放棄了我正在做的事情,更多地參與其中?!?/p>

他并不孤單。大量研究人員發(fā)現(xiàn)了 LLMs 可以超越其訓(xùn)練數(shù)據(jù)限制的第一個(gè)跡象,他們正在努力更好地了解涌現(xiàn)是什么樣子以及它是如何發(fā)生的。第一步是徹底記錄它。

超越模仿

2020 年,Dyer 和谷歌研究院的其他人預(yù)測(cè) LLMs 將產(chǎn)生變革性影響——但這些影響是什么仍然是一個(gè)懸而未決的問(wèn)題。因此,他們要求研究界提供困難和多樣化任務(wù)的示例,以繪制 LLMs 可以做什么的外部限制。這項(xiàng)工作被稱為 Beyond the Imitation Game Benchmark (BIG-bench) 項(xiàng)目,借用了 Alan Turing 的「模仿游戲」的名稱,測(cè)試計(jì)算機(jī)是否能夠以令人信服的人類方式回答問(wèn)題。(這后來(lái)被稱為圖靈測(cè)試。)該小組對(duì) LLMs 突然獲得以前完全沒(méi)有的新能力的例子特別感興趣。

「我們?nèi)绾卫斫膺@些急劇轉(zhuǎn)變是一個(gè)重要的研究問(wèn)題?!笵yer說(shuō)。

正如人們所預(yù)料的那樣,在某些任務(wù)中,隨著復(fù)雜性的增加,模型的性能會(huì)平穩(wěn)且可預(yù)測(cè)地提高。而在其他任務(wù)上,擴(kuò)大參數(shù)數(shù)量并沒(méi)有產(chǎn)生任何改善。但對(duì)于大約 5% 的任務(wù),研究人員發(fā)現(xiàn)了他們所謂的「突破」——在某個(gè)閾值范圍內(nèi),性能出現(xiàn)了快速、戲劇性的跳躍。該閾值因任務(wù)和模型而異。

例如,參數(shù)相對(duì)較少(只有幾百萬(wàn))的模型無(wú)法成功完成三位數(shù)的加法或兩位數(shù)的乘法問(wèn)題,但對(duì)于數(shù)百億參數(shù),某些模型的準(zhǔn)確性會(huì)飆升。其他任務(wù)也發(fā)生了類似的跳躍,包括解碼國(guó)際音標(biāo)、解讀單詞的字母、識(shí)別印地語(yǔ)(印地語(yǔ)和英語(yǔ)的組合)段落中的冒犯性內(nèi)容,以及生成與斯瓦希里語(yǔ)諺語(yǔ)類似的英語(yǔ)等價(jià)物。

但研究人員很快意識(shí)到,模型的復(fù)雜性并不是唯一的驅(qū)動(dòng)因素。如果數(shù)據(jù)質(zhì)量足夠高,一些意想不到的能力可以從參數(shù)較少的較小模型中獲得——或者在較小的數(shù)據(jù)集上訓(xùn)練。此外,查詢的措辭方式會(huì)影響模型響應(yīng)的準(zhǔn)確性。例如,當(dāng) Dyer 和他的同事使用多項(xiàng)選擇格式來(lái)安排電影表情符號(hào)任務(wù)時(shí),準(zhǔn)確性的提高不是突然的跳躍,而是隨著復(fù)雜性的增加而逐漸增加。2022 年,在該領(lǐng)域的旗艦會(huì)議 NeurIPS 上發(fā)表的一篇論文中,Google Brain 的研究人員展示了一個(gè)模型提示自我解釋(一種稱為鏈?zhǔn)剿季S推理的能力)如何正確解決數(shù)學(xué)單詞問(wèn)題,而沒(méi)有提示的相同模型則不能。

Google Brain 的科學(xué)家 Yi Tay 致力于突破的系統(tǒng)研究,他指出最近的研究表明,思維鏈提示改變了縮放曲線,從而改變了出現(xiàn)的點(diǎn)。在他們的 NeurIPS 論文中,谷歌研究人員表明,使用思維鏈提示可以引發(fā) BIG-bench 研究中未發(fā)現(xiàn)的緊急行為。此類要求模型解釋其推理的提示可能有助于研究人員開始調(diào)查出現(xiàn)的原因。

布朗大學(xué)研究語(yǔ)言計(jì)算模型的計(jì)算機(jī)科學(xué)家 Ellie Pavlick 說(shuō),最近的這些發(fā)現(xiàn)至少表明了出現(xiàn)出現(xiàn)的兩種可能性。一是,正如與生物系統(tǒng)的比較所表明的那樣,更大的模型確實(shí)會(huì)自發(fā)地獲得新的能力。「很可能是該模型學(xué)到了一些根本上新的和不同的東西,而這些東西在較小的尺寸上是沒(méi)有的?!顾f(shuō),「這就是我們都希望的情況,當(dāng)模型按比例放大時(shí)會(huì)發(fā)生一些根本性的轉(zhuǎn)變?!?/p>

她說(shuō),另一種不那么聳人聽(tīng)聞的可能性是,看似突發(fā)的事情可能反而是內(nèi)部統(tǒng)計(jì)驅(qū)動(dòng)過(guò)程的頂點(diǎn),該過(guò)程通過(guò)思維鏈?zhǔn)酵评砥鹱饔?。大?LLMs 可能只是在學(xué)習(xí)啟發(fā)式方法,而這些啟發(fā)式方法對(duì)于那些參數(shù)較少或數(shù)據(jù)質(zhì)量較低的人來(lái)說(shuō)是遙不可及的。

但是,她說(shuō),找出這些解釋中的哪一個(gè)更有可能取決于更好地理解 LLMs 的工作原理。「由于我們不知道它們?cè)谝嫔w下是如何工作的,所以我們無(wú)法說(shuō)出其中發(fā)生了哪些事情?!?/p>

不可預(yù)測(cè)的能力和陷阱

要求這些模型自我解釋存在一個(gè)明顯的問(wèn)題:他們是臭名昭著的騙子。「我們?cè)絹?lái)越依賴這些模型來(lái)完成基礎(chǔ)工作?!笹anguli 說(shuō),「但我不僅僅相信這些。我檢查他們的工作?!?作為許多有趣的例子之一,谷歌在二月份推出了它的人工智能聊天機(jī)器人 Bard。宣布新工具的博客文章顯示 Bard 犯了一個(gè)事實(shí)錯(cuò)誤。

出現(xiàn)導(dǎo)致不可預(yù)測(cè)性,而不可預(yù)測(cè)性——似乎隨著規(guī)模擴(kuò)大而增加——使研究人員難以預(yù)測(cè)廣泛使用的后果。

「很難提前知道這些模型將如何使用或部署。」Ganguli 說(shuō),「要研究突發(fā)現(xiàn)象,你必須考慮一個(gè)案例,在研究規(guī)模的影響之前,你不會(huì)知道可能會(huì)出現(xiàn)什么能力或限制?!?/p>

在 2022 年 6 月發(fā)布的 LLMs 分析中,Anthropic 的研究人員研究了這些模型是否會(huì)表現(xiàn)出某些類型的種族或社會(huì)偏見(jiàn),與之前在非基于 LLMs 的算法中報(bào)告的那些不同,這些算法用于預(yù)測(cè)哪些前罪犯可能會(huì)再次犯罪。該研究的靈感來(lái)自一個(gè)與涌現(xiàn)直接相關(guān)的明顯悖論:隨著模型在擴(kuò)大規(guī)模時(shí)提高性能,它們也可能增加不可預(yù)測(cè)現(xiàn)象的可能性,包括那些可能導(dǎo)致偏見(jiàn)或傷害的現(xiàn)象。

「某些有害行為會(huì)在某些模型中突然出現(xiàn)?!笹anguli 說(shuō)。他指出了最近對(duì) LLMs 的分析,稱為 BBQ 基準(zhǔn),該分析表明社會(huì)偏見(jiàn)隨著大量參數(shù)的出現(xiàn)而出現(xiàn)?!父蟮哪P屯蝗蛔兊酶衅?jiàn)。」他說(shuō),如果不能解決這一風(fēng)險(xiǎn),可能會(huì)危及這些模型的主題。

但他提出了一個(gè)相反的觀點(diǎn):當(dāng)研究人員簡(jiǎn)單地告訴模型不要依賴刻板印象或社會(huì)偏見(jiàn)時(shí)——實(shí)際上是通過(guò)輸入這些指令——模型在其預(yù)測(cè)和反應(yīng)中的偏見(jiàn)較小。這表明一些涌現(xiàn)的特性也可用于減少偏差。在今年 2 月份發(fā)布的一篇論文中,Anthropic 團(tuán)隊(duì)報(bào)告了一種新的「道德自我修正」模式,在這種模式下,用戶提示程序是有幫助的、誠(chéng)實(shí)的和無(wú)害的。

Ganguli 說(shuō),出現(xiàn)既揭示了驚人的潛力,也揭示了不可預(yù)測(cè)的風(fēng)險(xiǎn)。這些大型 LLMs 的應(yīng)用已經(jīng)激增,因此更好地理解這種相互作用將有助于利用語(yǔ)言模型能力的多樣性。

「我們正在研究人們實(shí)際上是如何使用這些系統(tǒng)的?!笹anguli 說(shuō), 但這些用戶也在不斷地修補(bǔ),「我們花了很多時(shí)間與我們的模型聊天。這實(shí)際上是你開始獲得關(guān)于信任或缺乏信任的良好直覺(jué)的地方?!?/p>

作者:人工智能學(xué)家,來(lái)源:人工智能學(xué)家,原文標(biāo)題:《AI大模型出現(xiàn)了人們不可預(yù)測(cè)的能力》

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: