亚洲欧美精品中文三区|亚洲精品美女AV在线|性生潮久久久不久久久久|免费 无码 国产在现看|亚洲欧美国产精品专区久久|少妇的丰满3中文字幕免费|欧美成人怡红院在线观看视频|亚洲国产中文精品看片在线观看

Transformer全新里程碑!誕生6年,開山之作被引近8萬,沒奪下NeurIPS最佳論文,卻徹底改變AI界

2017年6月12日,Attention is All You Need,一聲炸雷,大名鼎鼎的Transformer橫空出世。

它的出現(xiàn),不僅讓NLP變了天,成為自然語言領域的主流模型,還成功跨界CV,給AI界帶來了意外的驚喜。


(資料圖片僅供參考)

到今天為止,Transformer誕生6周年。而這篇論文被引數(shù)高達77926。

英偉達科學家Jim Fan對這篇蓋世之作做了深度總結:

1. Transformer并沒有發(fā)明注意力,而是將其推向極致。

第一篇注意力論文是在3年前(2014年)發(fā)表的。

這篇論文來自Yoshua Bengio的實驗室,而標題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN+上下文向量」(即注意力)的組合。

或許很多人都沒有聽說過這篇論文,但它是NLP中最偉大的里程碑之一,已經(jīng)被引用了29K次(相比之下,Transformer為77K)。

2. Transformer和最初的注意力論文,都沒有談到通用序列計算機。

相反,兩者都為了解決一個狹隘而具體的問題:機器翻譯。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻譯。

3. Transformer發(fā)表在2017年的NeurIPS上,這是全球頂級的人工智能會議之一。然而,它甚至沒有獲得Oral演講,更不用說獲獎了。

那一年的NeurIPS上有3篇最佳論文。截止到今天,它們加起來有529次引用。

Transformer這一經(jīng)典之作卻在NeurIPS 2017沒有引起很多人的關注。

對此,Jim Fan認為,在一項出色的工作變得有影響力之前,很難讓人們認可它。

我不會責怪NeurIPS委員會——獲獎論文仍然是一流的,但影響力沒有那么大。一個反例是ResNet。

何凱明等人在CVPR 2016年獲得了最佳論文。這篇論文當之無愧,得到了正確的認可。

2017年,該領域聰明的人中,很少有人能夠預測到今天LLM革命性的規(guī)模。就像20世紀80年代一樣,很少有人能預見自2012年以來深度學習的海嘯。

OpenAI科學家Andrej Karpathy對Jim Fan第2點總結頗感興趣,并表示,

介紹注意力的論文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的論文受到的關注要少1000倍。而且從歷史上看,這兩篇論文都非常普通,但有趣的是恰好都是為機器翻譯而開發(fā)的。

你只需要注意力!

Transformer誕生之前,AI圈的人在自然語言處理中大都采用基于RNN(循環(huán)神經(jīng)網(wǎng)絡)的編碼器-解碼器(Encoder-Decoder)結構來完成序列翻譯。

然而,RNN及其衍生的網(wǎng)絡最致命的缺點就是慢。關鍵問題就在于前后隱藏狀態(tài)的依賴性,無法實現(xiàn)并行。

Transformer的現(xiàn)世可謂是如日中天,讓許多研究人員開啟了追星之旅。

2017年,8位谷歌研究人員發(fā)表了Attention is All You Need??梢哉f,這篇論文是NLP領域的顛覆者。

論文地址:https://arxiv.org/pdf/1706.03762.pdf

它完全摒棄了遞歸結構,依賴注意力機制,挖掘輸入和輸出之間的關系,進而實現(xiàn)了并行計算。

甚至,有人發(fā)問「有了Transformer框架后是不是RNN完全可以廢棄了?」

JimFan所稱Transformer當初的設計是為了解決翻譯問題,毋庸置疑。

谷歌當年發(fā)的博客,便闡述了Transformer是一種語言理解的新型神經(jīng)網(wǎng)絡架構。

文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

具體來講,Transformer由四部分組成:輸入、編碼器、解碼器,以及輸出。

輸入字符首先通過Embedding轉為向量,并加入位置編碼(Positional Encoding)來添加位置信息。

然后,通過使用多頭自注意力和前饋神經(jīng)網(wǎng)絡的「編碼器」和「解碼器」來提取特征,最后輸出結果。

如下圖所示,谷歌給出了Transformer如何用在機器翻譯中的例子。

機器翻譯的神經(jīng)網(wǎng)絡通常包含一個編碼器,在讀取完句子后生成一個表征??招膱A代表著Transformer為每個單詞生成的初始表征。

然后,利用自注意力,從所有其他的詞中聚合信息,在整個上下文中為每個詞產(chǎn)生一個新表征,由實心圓表示。

接著,將這個步驟對所有單詞并行重復多次,依次生成新的表征。

同樣,解碼器的過程與之類似,但每次從左到右生成一個詞。它不僅關注其他先前生成的單詞,還關注編碼器生成的最終表征。

2019年,谷歌還專門為其申請了專利。

自此,在自然語言處理中,Transformer逆襲之路頗有王者之風。

歸宗溯源,現(xiàn)在各類層出不窮的GPT(Generative Pre-trained Transformer),都起源于這篇17年的論文。

然而,Transformer燃爆的不僅是NLP學術圈。

萬能Transformer:從NLP跨到CV

2017年的谷歌博客中,研究人員曾對Transformer未來應用潛力進行了暢享:

不僅涉及自然語言,還涉及非常不同的輸入和輸出,如圖像和視頻。

沒錯,在NLP領域掀起巨浪后,Transformer又來「踢館」計算機視覺領域。甚至,當時許多人狂呼Transformer又攻下一城。

自2012年以來,CNN已經(jīng)成為視覺任務的首選架構。

隨著越來越高效的結構出現(xiàn),使用Transformer來完成CV任務成為了一個新的研究方向,能夠降低結構的復雜性,探索可擴展性和訓練效率。

2020年10月,谷歌提出的Vision Transformer (ViT),不用卷積神經(jīng)網(wǎng)絡(CNN),可以直接用Transformer對圖像進行分類。

值得一提的是,ViT性能表現(xiàn)出色,在計算資源減少4倍的情況下,超過最先進的CNN。

緊接著,2021年,OpenAI連仍兩顆炸彈,發(fā)布了基于Transformer打造的DALL-E,還有CLIP。

這兩個模型借助Transformer實現(xiàn)了很好的效果。DALL-E能夠根據(jù)文字輸出穩(wěn)定的圖像。而CLIP能夠實現(xiàn)圖像與文本的分類。

再到后來的DALL-E進化版DALL-E 2,還有Stable Diffusion,同樣基于Transformer架構,再次顛覆了AI繪畫。

以下,便是基于Transformer誕生的模型的整條時間線。

由此可見,Transformer是有多么地能打。

2021年,當時就連谷歌的研究人員David Ha表示,Transformers是新的LSTMs。

而他曾在Transformer誕生之前,還稱LSTM就像神經(jīng)網(wǎng)絡中的AK 47。無論我們如何努力用新的東西來取代它,它仍然會在50年后被使用。

Transformer僅用4年的時間,打破了這一預言。

新硅谷「七叛徒」

如今,6年過去了,曾經(jīng)聯(lián)手打造出谷歌最強Transformer的「變形金剛們」怎么樣了?

Jakob Uszkoreit被公認是Transformer架構的主要貢獻者。

他在2021年中離開了Google,并共同創(chuàng)立了Inceptive Labs,致力于使用神經(jīng)網(wǎng)絡設計mRNA。

到目前為止,他們已經(jīng)籌集了2000萬美元,并且團隊規(guī)模也超過了20人。

Ashish Vaswani在2021年底離開Google,創(chuàng)立了AdeptAILabs。

可以說,AdeptAILabs正處在高速發(fā)展的階段。

目前,公司不僅已經(jīng)籌集了4.15億美元,而且也估值超過了10億美元。

此外,團隊規(guī)模也剛剛超過了40人。

然而,Ashish卻在幾個月前離開了Adept。

在Transformers論文中,Niki Parmar是唯一的女性作者。

她在2021年底離開Google,并和剛剛提到的Ashish Vaswani一起,創(chuàng)立了AdeptAILabs。

不過,Niki在幾個月前也離開了Adept。

Noam Shazeer在Google工作了20年后,于2021年底離開了Google。

隨后,他便立刻與自己的朋友Dan Abitbol一起,創(chuàng)立了Character AI。

雖然公司只有大約20名員工,但效率卻相當之高。

目前,他們已經(jīng)籌集了近2億美元,并即將躋身獨角獸的行列。

Aidan Gomez在2019年9月離開了Google Brain,創(chuàng)立了CohereAI。

經(jīng)過3年的穩(wěn)定發(fā)展后,公司依然正在擴大規(guī)?!狢ohere的員工數(shù)量最近超過了180名。

與此同時,公司籌集到的資金也即將突破4億美元大關。

Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中離開了Google,加入了OpenAI。

Illia Polosukhin在2017年2月離開了Google,于2017年6月創(chuàng)立了NEAR Protocol。

目前,NEAR估值約為20億美元。

與此同時,公司已經(jīng)籌集了約3.75億美元,并進行了大量的二次融資。

現(xiàn)在,只有Llion Jones還在谷歌工作。

在論文的貢獻方面,他風趣地調侃道:「自己最大的意義在于——起標題?!?/p>

網(wǎng)友熱評

走到現(xiàn)在,回看Transformer,還是會引發(fā)不少網(wǎng)友的思考。

AI中的開創(chuàng)性論文。

馬庫斯表示,這有點像波特蘭開拓者隊對邁克爾·喬丹的放棄。

這件事說明了,即使在這樣的一級研究水平上,也很難預測哪篇論文會在該領域產(chǎn)生何種程度的影響。

這個故事告訴我們,一篇研究文章的真正價值是以一種長期的方式體現(xiàn)出來的。

哇,時間過得真快!令人驚訝的是,這個模型突破了注意力的極限,徹底改變了NLP。

在我攻讀博士期間,我的導師 @WenmeiHwu 總是教育我們,最有影響力的論文永遠不會獲得最佳論文獎或任何認可,但隨著時間的推移,它們最終會改變世界。我們不應該為獎項而奮斗,而應該專注于有影響力的研究!

本文作者:桃子、好困,來源:新智元,原文標題:《Transformer全新里程碑!誕生6年,開山之作被引近8萬,沒奪下NeurIPS最佳論文,卻徹底改變AI界》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據(jù)此投資,責任自負。

關鍵詞: