世界熱訊:規(guī)模性能雙殺OpenAI,Meta語(yǔ)音達(dá)LLaMA級(jí)里程碑!開源MMS模型可識(shí)別1100+語(yǔ)言
在語(yǔ)音方面,Meta又達(dá)到了另一個(gè)LLaMA級(jí)的里程碑。
今天,Meta推出了一個(gè)名為MMS的大規(guī)模多語(yǔ)言語(yǔ)音項(xiàng)目,它將徹底改變語(yǔ)音技術(shù)。
MMS支持1000多種語(yǔ)言,用圣經(jīng)訓(xùn)練,錯(cuò)誤率僅為Whisper數(shù)據(jù)集的一半。
(資料圖)
只憑一個(gè)模型,Meta就建起了一座巴別塔。
并且,Meta選擇將所有模型和代碼開源,希望為保護(hù)世界語(yǔ)種的多樣性做出貢獻(xiàn)。
在此之前的模型可以覆蓋大約100種語(yǔ)言,而這次,MMS直接把這個(gè)數(shù)字增加了10-40倍!
具體來(lái)說(shuō),Meta開放了1100多種語(yǔ)言的多語(yǔ)種語(yǔ)音識(shí)別/合成模型,以及4000多種語(yǔ)言的語(yǔ)音識(shí)別模型。
與OpenAI Whisper相比,多語(yǔ)言ASR模型支持11倍以上的語(yǔ)言,但在54種語(yǔ)言上的平均錯(cuò)誤率還不到FLEURS的一半。
而且,將ASR擴(kuò)展到如此多語(yǔ)言之后,只造成了非常小的性能下降。
論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
保護(hù)消失語(yǔ)種,MMS把語(yǔ)音識(shí)別增加40倍
然而,為這些任務(wù)生成高質(zhì)量的機(jī)器學(xué)習(xí)模型,就需要大量的標(biāo)記數(shù)據(jù),比如數(shù)千小時(shí)的音頻以及轉(zhuǎn)錄——對(duì)于大多數(shù)語(yǔ)言來(lái)說(shuō),這種數(shù)據(jù)根本就不存在。
現(xiàn)有的語(yǔ)音識(shí)別模型,只涵蓋了大約100種語(yǔ)言,在地球上的7000多種已知語(yǔ)言中,這只占很小一部分。令人擔(dān)憂的是,在我們有生之年,這些語(yǔ)言中有一半都面臨著消失的危險(xiǎn)。
在Massively Multilingual Speech(MMS)項(xiàng)目中,研究者通過(guò)結(jié)合wav2vec 2.0(Meta在自監(jiān)督學(xué)習(xí)方面的開創(chuàng)性工作)和一個(gè)新的數(shù)據(jù)集來(lái)克服了一些挑戰(zhàn)。
這個(gè)數(shù)據(jù)集提供了超過(guò)1100種語(yǔ)言的標(biāo)記數(shù)據(jù),和近4000種語(yǔ)言的未標(biāo)記數(shù)據(jù)。
通過(guò)跨語(yǔ)言訓(xùn)練,wav2vec 2.0學(xué)習(xí)了多種語(yǔ)言中使用的語(yǔ)音單元
其中一些語(yǔ)言,如Tatuyo語(yǔ),只有幾百個(gè)使用者,而數(shù)據(jù)集中的大多數(shù)語(yǔ)言,以前根本就不存在語(yǔ)音技術(shù)。
而結(jié)果顯示,MMS模型的性能優(yōu)于現(xiàn)有的模型,覆蓋語(yǔ)言的數(shù)量是現(xiàn)有模型的10倍。
Meta一向?qū)W⒂诙嗾Z(yǔ)言工作:在文本上,Meta的NLLB項(xiàng)目將多語(yǔ)言翻譯擴(kuò)展到了200種語(yǔ)言,而MMS項(xiàng)目,則將語(yǔ)音技術(shù)擴(kuò)展到更多語(yǔ)言。
MMS支持1,107種語(yǔ)言的語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音,支持4,000多種語(yǔ)言的識(shí)別
圣經(jīng)解決語(yǔ)音數(shù)據(jù)集難題
要知道,現(xiàn)有的最大語(yǔ)音數(shù)據(jù)集最多也只涵蓋了100種語(yǔ)言。為了克服這個(gè)問(wèn)題,研究人員轉(zhuǎn)向了宗教文本,如《圣經(jīng)》。
這類文本已經(jīng)被翻譯成許多不同的語(yǔ)言,被用于廣泛的研究,還有各種公開的錄音。
為此,Meta的研究者專門創(chuàng)建了一個(gè)超過(guò)1100種語(yǔ)言的《新約》閱讀數(shù)據(jù)集,平均每種語(yǔ)言提供32小時(shí)的數(shù)據(jù)。
再加上其他各種宗教讀物的無(wú)標(biāo)簽錄音,研究者將可用的語(yǔ)言數(shù)量增加到了4000多種。
在MMS數(shù)據(jù)上訓(xùn)練的自動(dòng)語(yǔ)音識(shí)別模型,在FLEURS基準(zhǔn)測(cè)試中,對(duì)男性和女性說(shuō)話者具有相似的錯(cuò)誤率
這些數(shù)據(jù)通常是由男性朗讀的,但模型對(duì)男性和女性的聲音表現(xiàn)得同樣好。
并且,雖然錄音的內(nèi)容是宗教性的,但這并沒有使模型過(guò)度偏向于產(chǎn)生更多的宗教語(yǔ)言。
研究人員分析認(rèn)為,這是因?yàn)樗麄兪褂昧诉B接主義時(shí)間分類方法,與用于語(yǔ)音識(shí)別的大語(yǔ)言模型或序列對(duì)序列模型相比,它的約束性要大得多。
模型越大,越能打?
為此,研究人員在100多種語(yǔ)言的現(xiàn)有數(shù)據(jù)上訓(xùn)練了一個(gè)對(duì)齊模型,并將這個(gè)模型與一個(gè)高效的強(qiáng)制對(duì)齊算法一起使用,而該算法可以處理大約20分鐘或更長(zhǎng)時(shí)間的錄音。
研究人員多次重復(fù)了這個(gè)過(guò)程,并根據(jù)模型的準(zhǔn)確性進(jìn)行了最后的交叉驗(yàn)證過(guò)濾步驟,為的是去除潛在的錯(cuò)誤對(duì)齊數(shù)據(jù)。
為了使其他研究人員能夠創(chuàng)建新的語(yǔ)音數(shù)據(jù)集,研究人員將對(duì)齊算法添加到了PyTorch中并發(fā)布了對(duì)齊模型。
目前,每種語(yǔ)言都有32小時(shí)的數(shù)據(jù),但這并不足以訓(xùn)練傳統(tǒng)的監(jiān)督式語(yǔ)音識(shí)別模型。
這也就是為什么研究人員在wav2vec 2.0上訓(xùn)練模型,這樣可以大大減少訓(xùn)練一個(gè)模型所需的標(biāo)注數(shù)據(jù)量。
具體來(lái)說(shuō),研究人員在超過(guò)1400種語(yǔ)言的約50萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)上訓(xùn)練了自監(jiān)督模型——這個(gè)量比過(guò)去多了近5倍。
然后針對(duì)特定的語(yǔ)音任務(wù),如多語(yǔ)言語(yǔ)音識(shí)別或語(yǔ)言識(shí)別,研究人員再對(duì)模型進(jìn)行微調(diào)即可。
為了更好地了解在大規(guī)模多語(yǔ)言語(yǔ)音數(shù)據(jù)上訓(xùn)練的模型的表現(xiàn),研究人員在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上對(duì)它們進(jìn)行了評(píng)估。
研究人員使用一個(gè)1B參數(shù)的wav2vec 2.0模型對(duì)超過(guò)1100種語(yǔ)言進(jìn)行多語(yǔ)言語(yǔ)音識(shí)別模型的訓(xùn)練。
隨著語(yǔ)言數(shù)量的增加,性能確實(shí)有所下降,但這種下降比較輕微——從61種語(yǔ)言到1107種語(yǔ)言,字符錯(cuò)誤率只增加了約0.4%,但語(yǔ)言覆蓋率卻增加了18倍以上。
將每個(gè)系統(tǒng)支持的語(yǔ)言數(shù)量從61增加到1,107 時(shí),使用MMS數(shù)據(jù)訓(xùn)練的多語(yǔ)言識(shí)別系統(tǒng)的61種FLEURS語(yǔ)言的錯(cuò)誤率。錯(cuò)誤率越高表示性能越低
在與OpenAI的Whisper進(jìn)行同類比較時(shí),研究人員發(fā)現(xiàn),在Massively Multilingual Speech數(shù)據(jù)上訓(xùn)練的模型有將近一半的單詞錯(cuò)誤率,但Massively Multilingual Speech涵蓋的語(yǔ)言是Whisper的11倍。
從數(shù)據(jù)中我們可以看出,與目前最好的語(yǔ)音模型相比,Meta的模型表現(xiàn)的真的非常不錯(cuò)。
OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語(yǔ)言上的單詞錯(cuò)誤率對(duì)比
接下來(lái),研究人員使用自己的以及現(xiàn)有的數(shù)據(jù)集,如FLEURS和CommonVoice,為超過(guò)4000種語(yǔ)言訓(xùn)練了一個(gè)語(yǔ)言識(shí)別(LID)模型,并在FLEURS LID任務(wù)上對(duì)其進(jìn)行了評(píng)估。
事實(shí)證明,哪怕支持了將近40倍的語(yǔ)言數(shù)量,性能依然很能打。
在現(xiàn)有工作的VoxLingua-107基準(zhǔn)上的語(yǔ)言識(shí)別準(zhǔn)確性,支持的語(yǔ)言剛剛超過(guò)100種,而MMS則支持超過(guò)4000種語(yǔ)言
研究人員還為超過(guò)1100種語(yǔ)言建立了文本轉(zhuǎn)語(yǔ)音的系統(tǒng)。
大規(guī)模多語(yǔ)種語(yǔ)音數(shù)據(jù)有一個(gè)局限性,那就是對(duì)于許多語(yǔ)言來(lái)說(shuō),它包含的不同說(shuō)話者數(shù)量相對(duì)較少,通常只有一個(gè)說(shuō)話者。
然而,這個(gè)特點(diǎn)對(duì)于建立文本到語(yǔ)音系統(tǒng)來(lái)說(shuō)是一個(gè)優(yōu)勢(shì),因此研究人員為超過(guò)1100種語(yǔ)言訓(xùn)練了類似系統(tǒng)。
結(jié)果表明,這些系統(tǒng)產(chǎn)生的語(yǔ)音質(zhì)量還算不錯(cuò)。
未來(lái)屬于單一模型
比方說(shuō),語(yǔ)音到文本模型可能會(huì)誤寫選定的單詞或短語(yǔ),可能會(huì)導(dǎo)致冒犯性的或者不準(zhǔn)確的輸出結(jié)果。
同時(shí),Meta認(rèn)為,AI巨頭的合作對(duì)于負(fù)責(zé)任的AI技術(shù)的發(fā)展至關(guān)重要。
世界上的許多語(yǔ)言都有消失的危險(xiǎn),而目前語(yǔ)音識(shí)別和語(yǔ)音生成技術(shù)的局限性只會(huì)加速這一趨勢(shì)。
研究人員設(shè)想一個(gè)技術(shù)產(chǎn)生相反效果的世界,鼓勵(lì)人們保持其語(yǔ)言的活力,因?yàn)樗麄兛梢酝ㄟ^(guò)說(shuō)自己喜歡的語(yǔ)言來(lái)獲取信息和使用技術(shù)。
大規(guī)模多語(yǔ)言語(yǔ)音項(xiàng)目是朝著這個(gè)方向邁出的重要一步。
在未來(lái),研究人員希望進(jìn)一步增加語(yǔ)言的覆蓋面,支持更多的語(yǔ)言,甚至還會(huì)想辦法搞定方言。要知道,方言對(duì)現(xiàn)有的語(yǔ)音技術(shù)來(lái)說(shuō)可不簡(jiǎn)單。
Meta的最終目標(biāo)是讓人們能更容易地用自己喜歡的語(yǔ)言獲取信息、使用設(shè)備。
最后,Meta的研究人員還設(shè)想了這樣一個(gè)未來(lái)場(chǎng)景——靠一個(gè)單一的模型就可以解決所有語(yǔ)言的幾個(gè)語(yǔ)音任務(wù)。
目前雖然Meta為語(yǔ)音識(shí)別、語(yǔ)音合成和語(yǔ)言識(shí)別訓(xùn)練了單獨(dú)的模型,但研究人員相信,在未來(lái),只需一個(gè)模型就能完成所有這些任務(wù),甚至不止。
本文來(lái)源:新智元,原文標(biāo)題:《規(guī)模性能雙殺OpenAI,Meta語(yǔ)音達(dá)LLaMA級(jí)里程碑!開源MMS模型可識(shí)別1100+語(yǔ)言》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: