午夜福利理论片在线观看,十八禁视频网站在线观看,色播亚洲视频在线观看,少妇愉情理伦片丰满丰满午夜,天堂国产一区二区三区

歡迎來到 范文詞典網(wǎng) , 一個(gè)優(yōu)秀的范文鑒賞學(xué)習(xí)網(wǎng)站!

加入收藏

您所在的位置:首頁 > 資訊 > 最新資訊

最新資訊

黃仁勛對(duì)話Transformer八子:大模型的起源、現(xiàn)在和未來

分類: 最新資訊 范文詞典 編輯 : 范文大全 發(fā)布 : 03-22

閱讀 :240

GTC 第三天,英偉達(dá)創(chuàng)始人與 Transformer 模型的提出者們進(jìn)行了一場(chǎng)圍爐夜話。作者 | 鄭玥編輯| 鄭玄隨著新一波 AI 浪潮席卷而來,英偉達(dá)突破 2 萬億美元市值成為最炙手可熱的科技公司,今年 GTC 大會(huì)儼然成為年度最受關(guān)注的科技行業(yè)盛會(huì)。四天的數(shù)百場(chǎng)主題分享中,英偉達(dá)創(chuàng)始人黃仁勛和 Transformer 八子的對(duì)談,無疑是最受關(guān)注的場(chǎng)次之一。因?yàn)槟撤N意義上,雙方正是這波 AI 浪潮的奠基人。谷歌大腦團(tuán)隊(duì) 2017 年發(fā)表了一篇名為《注意力就是你所需要的一切(Attention is all you need)》的論文,主要目的是解決自然語言處理領(lǐng)域,使用傳統(tǒng)的 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型不能解決并行計(jì)算,從而導(dǎo)致算法效率低下的問題。這篇文章提出的新的處理架構(gòu)就是 Transformer 模型,也是今天大模型的基石,而當(dāng)時(shí)這篇文章的八位聯(lián)名作者今天也被稱為 Transformer 八子。幾年后八子陸續(xù)離開谷歌,今天已經(jīng)成為 Essential AI、Character.AI 等硅谷重要 AI 公司的創(chuàng)始人或技術(shù)核心。Transformer 八子Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEONoam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官Lukasz Kaiser,OpenAI 技術(shù)人員Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人Niki Parmar,EssentialAI 聯(lián)合創(chuàng)始人(因家庭原因未出席)八子在文章中提出了可以解決并行計(jì)算問題的新架構(gòu),并預(yù)言了隨著訓(xùn)練規(guī)模的提升 AI 會(huì)展現(xiàn)出更強(qiáng)大的智能。但這一切需要更龐大的算力支持,而過去十年一直投入研發(fā) GPU 和加速計(jì)算的英偉達(dá),則為八子的構(gòu)想提供了算力這個(gè)最關(guān)鍵的燃料。于是,就有了 GPT 的誕生以及今天日新月異加速發(fā)展的 AGI 浪潮。而在這樣的一個(gè)時(shí)間節(jié)點(diǎn)上,黃仁勛和八子這些時(shí)代開拓者再次對(duì)話,也就有了更多看點(diǎn)。以下是黃仁勛的開場(chǎng)獨(dú)白和他與八子的對(duì)話原文,由極客公園整理編譯。01黃仁勛開場(chǎng)計(jì)算機(jī)處理器誕生于我出生的第一年(與我出生無關(guān))。IBM System 360 定義了現(xiàn)代計(jì)算機(jī)的范疇,包括中央處理單元、I/O 子系統(tǒng)、多任務(wù)處理、硬件與軟件的分離、整個(gè)系列的兼容性以及向后兼容性,以保護(hù)軟件工程師的投資。這個(gè)描述到 80 年代末、90 年代初,個(gè)人電腦革命將計(jì)算機(jī)推向了高速發(fā)展,使計(jì)算機(jī)變成了我們所熟知的形態(tài)。每年性能的邊際成本下降,每 10 年計(jì)算成本降低約 10 倍。在過去的 20 年里,PC 革命使計(jì)算成本降低了 10,000 倍,比歷史上任何其他商品都要多。你能想象 20 年后,生活中的一切都變得更加便宜,汽車的價(jià)格從 2 萬美元降至 1 美元嗎,也許是 Uber。英偉達(dá)創(chuàng)始人黃仁勛 | 圖片來源:NVIDIA GTC但計(jì)算成本的大幅下降停止了,雖然每年仍有略微的改進(jìn),但變化的速度已經(jīng)放緩。我們開始追求加速計(jì)算,這并不容易,因?yàn)樾枰獙栴}公式化,轉(zhuǎn)化為并行算法,這是一個(gè)非常困難的科學(xué)領(lǐng)域。我們相信,如果能夠加速代表 99% 運(yùn)行時(shí)間的 1% 代碼,那么將獲得巨大的好處,可以實(shí)現(xiàn)一些之前認(rèn)為不可能的事情,或者將需要大量金錢或能量的事情變得更加成本效益和節(jié)能。在公司歷史的整個(gè)過程中,我們一直在研究加速計(jì)算,不斷地加速應(yīng)用領(lǐng)域。盡管人們認(rèn)為我們是一家電腦游戲公司,但我們也在追求其他領(lǐng)域的加速計(jì)算。我們最初在計(jì)算機(jī)圖形和游戲中找到了這種情況,這推動(dòng)了技術(shù)的創(chuàng)新和市場(chǎng)的發(fā)展。2012 年,我們首次意識(shí)到人工智能與 Nvidia GPU 的潛力,引發(fā)了我們對(duì)這個(gè)領(lǐng)域的興趣。我們堅(jiān)信,如果我們能夠加速代表 99% 運(yùn)行時(shí)間的 1% 代碼,那么在某些應(yīng)用領(lǐng)域,我們將獲得巨大的好處,實(shí)現(xiàn)巨大的差異。我們可以將一些不可能的事情變?yōu)榭赡?,將需要花費(fèi)大量金錢的事情變得具有成本效益,或者將需要消耗大量能量的事情變得更加節(jié)能。因此,我們將這一概念稱為加速計(jì)算,并在公司歷史的整個(gè)持續(xù)時(shí)間內(nèi)不斷進(jìn)行研究。我們可以在一個(gè)接一個(gè)的應(yīng)用領(lǐng)域加速發(fā)展。盡管人們認(rèn)為我們是一家電腦游戲公司,但我們也在其他領(lǐng)域不斷追求進(jìn)步。我們認(rèn)識(shí)到計(jì)算機(jī)圖形和游戲的價(jià)值,因?yàn)樗鼈儾粌H是龐大的市場(chǎng),還推動(dòng)了技術(shù)創(chuàng)新。這種罕見的情況是由從未被滿足的龐大市場(chǎng)與技術(shù)革命的潛力交匯而成。我們最初在計(jì)算機(jī)圖形和游戲中找到了這種情況,引發(fā)了我們對(duì)這個(gè)領(lǐng)域的興趣。幾年后,一些驚人的事情發(fā)生了,導(dǎo)致了今天的局面。我將馬上告訴你那件事。這一切導(dǎo)致了生成式人工智能的出現(xiàn)?,F(xiàn)在,當(dāng)你聽到生成式人工智能時(shí),當(dāng)然會(huì)感到不可思議。事實(shí)上,軟件不僅可以識(shí)別一張貓的圖片并保存貓,還可以根據(jù)「貓」這個(gè)詞生成一張貓的圖片。它可以根據(jù)一些條件提示,如在毛伊島的陽光明媚的海岸上,站在沖浪板上,喝著麥芬酒,戴著滑雪帽,無論你添加什么樣的提示,生成式人工智能都能夠生成出來。我們已經(jīng)開發(fā)出一種軟件程序,能夠理解像素的含義,識(shí)別像素,并從像素的含義中生成內(nèi)容。這種能力具有深遠(yuǎn)的變革意義,促使了今天的局面。這是新的工業(yè)革命的開端,我有充分的理由。在這個(gè)新的工業(yè)革命中,我們正在創(chuàng)造一些以前從未存在過的東西。就像以前的工業(yè)革命一樣,最后一次,水進(jìn)入工廠,能量被應(yīng)用到水上。那個(gè)被稱為發(fā)電機(jī)的裝置開始運(yùn)轉(zhuǎn),并創(chuàng)造出了我們今天所依賴的那些看不見但價(jià)值非凡的東西。水進(jìn)入建筑物,基本上是將其轉(zhuǎn)化為能量,將其燒開,那么你會(huì)得到什么?你會(huì)得到電。這種電的魔力無處不在,它創(chuàng)造了我們所熟知的工業(yè)革命。一種新的設(shè)施創(chuàng)造了一種新的、具有巨大價(jià)值的產(chǎn)品。雖然生成式人工智能是一種全新類型的軟件,軟件本質(zhì)上也是需要被創(chuàng)造的。令人驚奇的計(jì)算機(jī)科學(xué)必須去塑造它。但在那之后,它就可以進(jìn)行大規(guī)模生產(chǎn)了。一個(gè)裝有我們稱之為 GPU 的機(jī)器設(shè)備的建筑,本質(zhì)上就是一個(gè)發(fā)電機(jī),一個(gè)內(nèi)部裝有機(jī)器設(shè)備的大型建筑。你給它原材料數(shù)據(jù),你給它能量,然后這個(gè)驚人的東西就出現(xiàn)了。數(shù)字進(jìn)去,數(shù)字出來,而出來的數(shù)字能夠做出令人驚奇、難以置信的事情。當(dāng)然,它們可以被應(yīng)用。它們可以用于醫(yī)療保健和藥物設(shè)計(jì),用于交通和降低汽車成本,以及用于制造業(yè)和工業(yè),我們所熟知的每一個(gè)行業(yè)都將受益于這種新產(chǎn)品、這種新的生產(chǎn)物。因此,這是一個(gè)行業(yè)從未見過的全新產(chǎn)品。它將在世界上從未見過的 AI 工廠和設(shè)施中進(jìn)行生產(chǎn),并且 AI 將被每個(gè)行業(yè)使用。你會(huì)怎么稱呼這種情況呢?一個(gè)新的工業(yè)革命?這一切在此之前都不存在,但我們正在親眼見證著未來十年的發(fā)展。你絕對(duì)不能錯(cuò)過接下來的這十年,會(huì)誕生令人難以置信的能力。這一切始于一些研究人員的努力。所以今天我們邀請(qǐng)了機(jī)器語言模型「Transformer」的發(fā)明者、創(chuàng)造者們,是那篇名為《注意力就是一切(Attention is All you need)》的論文的作者。好的,現(xiàn)在讓我們歡迎 Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEO;Noam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人;Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官;Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Lukasz Kaiser,OpenAI 技術(shù)人員;Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人,我們還有一位同事和朋友 Niki Parmar,EssentialAI 聯(lián)合創(chuàng)始人,因?yàn)榧彝ゾo急情況無法出席,我們的心和思緒都與她在一起。首先,我要說他們實(shí)際上從未同時(shí)出現(xiàn)在同一個(gè)房間里。我知道在家工作這件事有點(diǎn)失控了。但顯然,這并沒有阻止創(chuàng)新和發(fā)明。我們將會(huì)討論 Transformer 的重要性和意義,以及它不可思議的變革能力,對(duì)行業(yè)的影響。我們今天享受的一切都可以追溯到那一刻。我們能夠從數(shù)據(jù)中學(xué)習(xí),從龐大的數(shù)據(jù)序列中學(xué)習(xí),以及空間數(shù)據(jù),但是能夠從大量數(shù)據(jù)中學(xué)習(xí),找到關(guān)系和模式。創(chuàng)建這些龐大的模型真的是非常具有變革性的。我們都同意,互相打斷、互相反駁甚至站起來進(jìn)行白板討論并非不禮貌。我們需要一個(gè)白板,今天沒有禁區(qū)?;氐狡瘘c(diǎn),工程師們,我們需要問題來激發(fā)靈感。黃仁勛和 Transformer 八子 | 圖片來源:NVIDIA GTC02回顧當(dāng)年,Transformer是怎么被創(chuàng)造的?黃仁勛:你們當(dāng)時(shí)面臨的問題或挑戰(zhàn)是什么,導(dǎo)致了這個(gè)想法的產(chǎn)生?Illia Polosukhin:因?yàn)槟莻€(gè)時(shí)候,模型在處理時(shí)間方面是不夠的。黃仁勛:當(dāng)時(shí)存在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和具有注意力機(jī)制的 RNNs,但在一次讀取一個(gè)詞和一次讀取一個(gè)詞之間存在差異。Jakob Uszkoreit:我們生成的訓(xùn)練數(shù)據(jù)比我們能夠訓(xùn)練的最先進(jìn)的架構(gòu)要快得多。因此,實(shí)際上有相似的架構(gòu),只是使用了一些 n-grams 或其他特征,因?yàn)樗鼈冊(cè)谟?xùn)練上更快,這是規(guī)模的問題。大量的訓(xùn)練數(shù)據(jù)基本上總是超過了當(dāng)時(shí)更先進(jìn)、更強(qiáng)大的網(wǎng)絡(luò)。我們意識(shí)到了這一點(diǎn)。因此,修復(fù)這個(gè)問題似乎是有價(jià)值的。Noam Shazeer:早在 2015 年,我們就已經(jīng)看到了這些縮放定律。你可以看到,讓模型變得更大,它就變得更聰明。這個(gè)問題就像世界歷史上最好的問題一樣簡(jiǎn)單。你只需要預(yù)測(cè)下一個(gè) token,而模型將會(huì)變得越來越聰明,能夠執(zhí)行數(shù)百萬種不同的任務(wù)。我們的目標(biāo)只是擴(kuò)展它并使其更強(qiáng)大。Illia Polosukhin:對(duì)于電力行業(yè)的人們來說,現(xiàn)在我們只需要等待它擴(kuò)展。Ashish Vaswani:在攻讀研究生期間,特別是在 Transformer 出現(xiàn)時(shí),我不斷被提醒兩個(gè)教訓(xùn)。第一個(gè)是當(dāng)時(shí)我在進(jìn)行機(jī)器翻譯方面的工作時(shí),我意識(shí)到學(xué)習(xí)語言規(guī)則并不重要,因?yàn)樘荻认陆祵?duì)于模型來說是一個(gè)更好的老師。第二個(gè)是我從苦澀的教訓(xùn)中明白,通用架構(gòu)的可擴(kuò)展性最終會(huì)獲得成功。今天的 token 是明天計(jì)算機(jī)行動(dòng)的體現(xiàn),它們開始模仿我們的活動(dòng),并自動(dòng)化我們的工作。Transformer 自我注意,并使梯度下降變得更快。這是一種重復(fù)的主題,每次我們創(chuàng)建規(guī)則樣本時(shí)都會(huì)體現(xiàn)。Noam Shazeer:沒錯(cuò),這就是我們正在做的事情。所有的深度學(xué)習(xí)都是如此,我們正在構(gòu)建一個(gè)形狀類似 GPU 的 AI 模型,它的形狀類似于超級(jí)計(jì)算機(jī)。在這里,這就像是世界歷史上最好的問題。它是如此簡(jiǎn)單。你只是在預(yù)測(cè)下一個(gè) tokens,它將變得如此聰明,能夠做出數(shù)百萬種不同的事情,而你只是想要擴(kuò)展它并使其變得更好。黃仁勛:現(xiàn)在,你們?cè)诮鉀Q什么問題?Lukasz Kaiser:機(jī)器翻譯。八年前,它看起來是如此困難,就像你不得不收集數(shù)據(jù),也許會(huì)翻譯,也許會(huì)有點(diǎn)錯(cuò)誤。當(dāng)時(shí)這是非?;A(chǔ)的水平。現(xiàn)在這些模型,你根本不需要任何數(shù)據(jù)。所以你只需學(xué)會(huì)翻譯這種語言,那種語言。模型就能翻譯了。黃仁勛:什么樣的靈感讓你們想到了「AttentionIs All You Need」?Llion Jones:酷,是我想出了這個(gè)標(biāo)題。我們當(dāng)時(shí)嘗試做切除,扔掉模型的一部分,只是為了看看會(huì)變得多糟糕。令我們驚訝的是,它開始變得更好,甚至包括扔掉所有的卷積。那時(shí)我腦海中的想法是,我就是和我的腦子在一起工作。這就是標(biāo)題的來源。Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官 | 圖片來源:NVIDIA GTC黃仁勛:誰想出了 Transformer 這個(gè)名字?為什么叫做 Transformer 呢?Jakob Uszkoreit:但它確實(shí)符合模型的功能,它實(shí)際上改變了它所操作的整個(gè)信號(hào),而不是去處理邏輯。Llion Jones:我認(rèn)為它成為一個(gè)如此通用的名稱的原因是,在論文中,我們集中討論了翻譯,但我們絕對(duì)意識(shí)到我們實(shí)際上正在嘗試創(chuàng)建一種非常通用的東西,它確實(shí)可以將任何東西轉(zhuǎn)化為其他任何東西。我不認(rèn)為我們預(yù)測(cè)到這將會(huì)有多么成功。黃仁勛:當(dāng) Transformer 被用于圖像時(shí),這是一個(gè)相當(dāng)令人驚訝的嘗試。事實(shí)上,你們可以將圖像分塊并標(biāo)記化每一部分。我認(rèn)為這在架構(gòu)上早就存在了。所以當(dāng)我們構(gòu)建張量到張量庫時(shí),我們發(fā)現(xiàn)這不僅僅是針對(duì)語言的。其中包含了圖像、音頻、文本的組件,以及輸入和輸出方面的內(nèi)容。所以 Lukasz Kaiser 說他正在處理這些事情,我們現(xiàn)在開始看到的這些模態(tài)正在匯聚在一起,其實(shí)自始至終都是如此。Aidan Gomez:這些想法在很早之前就已經(jīng)存在了,這些想法一直在醞釀,花了一些時(shí)間。我們的目標(biāo)是我們有所有這些學(xué)術(shù)數(shù)據(jù)集,它們從圖像到文本,再從文本到圖像,從音頻到文本,從文本到文本。我們應(yīng)該對(duì)所有內(nèi)容進(jìn)行訓(xùn)練。這個(gè)想法真正推動(dòng)了模型進(jìn)行擴(kuò)展,以模擬網(wǎng)絡(luò)。現(xiàn)在我們?cè)S多人都在做類似的事情。所以我認(rèn)為北極星第一天就存在,所以看到這一切正在發(fā)生,是非常令人興奮滿足的。黃仁勛:在這么多不同知識(shí)中,有翻譯的想法是普遍的。你們正在將它用于生物學(xué)?Jakob Uszkoreit:我們可以將其稱為生物軟件,類似于計(jì)算機(jī)軟件,它起初是一個(gè)程序,然后編譯成可以在 GPU 上運(yùn)行的形式?;旧?,生物軟件的生命始于對(duì)特定行為規(guī)范的需求,比如在細(xì)胞中生成大量特定蛋白質(zhì),然后通過深度學(xué)習(xí)將其轉(zhuǎn)譯成 RNA 分子。但實(shí)際上,一旦它們進(jìn)入細(xì)胞,它們就會(huì)表現(xiàn)出這些行為。所以,這個(gè)概念不僅僅是將安全的英語翻譯成計(jì)算機(jī)代碼,而且涉及到藥物的規(guī)范,即完全轉(zhuǎn)化為實(shí)際的分子藥物。黃仁勛:你們是否創(chuàng)建了一個(gè)生產(chǎn)所有這些的大型網(wǎng)絡(luò)實(shí)驗(yàn)室?Jakob Uszkoreit:如果你必須對(duì)自然進(jìn)行實(shí)驗(yàn),你必須驗(yàn)證。有大量極其有價(jià)值的基因組數(shù)據(jù)可以下載,主要是因?yàn)樗旧先匀皇枪_的,是公共資助的。但實(shí)際上,你仍然需要數(shù)據(jù),這些數(shù)據(jù)明確地解釋了你試圖模擬的現(xiàn)象。例如,針對(duì)某種產(chǎn)品,比如 mRNA 疫苗中的蛋白質(zhì)表達(dá),這確實(shí)是相當(dāng)大的傳輸。在帕洛阿爾托,我們有一群機(jī)器人和網(wǎng)絡(luò)公司的人員以及實(shí)驗(yàn)室的研究人員,他們以前是生物學(xué)家?,F(xiàn)在我們把自己看作是一種新事物的先驅(qū)者,努力工作并實(shí)際創(chuàng)建數(shù)據(jù),并驗(yàn)證設(shè)計(jì)這些數(shù)據(jù)的模型。黃仁勛 :所以你說一開始就有一些關(guān)于普遍 Transformer 的早期想法。但你們所有人在這條路上都看到了一些重大的、你們認(rèn)為是基于基本 Transformer 設(shè)計(jì)的,真正偉大的額外貢獻(xiàn),主要是架構(gòu)性的修復(fù)、增強(qiáng)和突破。Aidan Gomez:我覺得在推理方面,已經(jīng)有很多工作來加速這些模型,使它們更高效。但我仍然覺得有點(diǎn)不安,因?yàn)樗c我們以前的形式非常相似。我認(rèn)為世界需要比 Transformer 更好的東西。我想問一下在座的每個(gè)人,你認(rèn)為接下來會(huì)發(fā)生什么?是令人興奮的一步嗎?因?yàn)槲矣X得現(xiàn)在與 6、7 年前的情況相似。Llion Jones:人們可能會(huì)感到驚訝。但我認(rèn)為重要的是要明顯、顯而易見地變得更好。因?yàn)槿绻皇巧晕⒏倪M(jìn),那還不足以讓整個(gè)人工智能行業(yè)轉(zhuǎn)向新事物。所以盡管原始模型可能不是我們現(xiàn)在擁有的最強(qiáng)大的東西,但我們?nèi)匀还淌卦谠瓉淼哪P蜕?。黃仁勛:但是每個(gè)人的工具集都是不同的,但你們想要改進(jìn)的屬性是什么呢?是我想要改進(jìn)生成能力,還是想要更快。Jakob Uszkoreit:我不確定你是否喜歡這個(gè)答案,但他們現(xiàn)在使用的計(jì)算量太大了。我覺得他們浪費(fèi)了很多計(jì)算資源。黃仁勛:我們正在努力提高效率。謝謝你。Jakob Uszkoreit 等人:但實(shí)際上,這是關(guān)于分配,而不是關(guān)于總量。我同意你的觀點(diǎn)。實(shí)際上,這真的是關(guān)于在問題上投入適量的努力和能量。你不想在一個(gè)容易的問題上投入太多,或者在一個(gè)困難的問題上投入太少,然后無法提供適當(dāng)?shù)慕鉀Q方案。Illia Polosukhin:所以現(xiàn)在一個(gè)真實(shí)的例子就是 2 加 2。如果你輸入這個(gè)模型,它會(huì)使用 1 萬億個(gè)參數(shù)。用戶群體完全自己有能力做到這一點(diǎn)。我認(rèn)為自適應(yīng)計(jì)算是接下來必須解決的問題之一,這樣我們就知道在特定問題上要花費(fèi)多少計(jì)算資源。Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人 | 圖片來源:NVIDIA GTCAidan Gomez:我們中一些作者已經(jīng)發(fā)布了跟進(jìn)通用 Transformer 的論文,在解決了這個(gè)問題。Lukasz Kaiser:這些想法在一年前就存在了,但現(xiàn)在已經(jīng)普及到各個(gè)領(lǐng)域,甚至在 Transformer 出現(xiàn)之前就已經(jīng)展開了。Ashish Vaswani:我們最初的目標(biāo)是模擬 token 的演變,實(shí)現(xiàn)線性生成?,F(xiàn)在這個(gè)過程也適用于圖像,擴(kuò)散模型會(huì)迭代地進(jìn)行改進(jìn)和完善。根本的問題是,哪些知識(shí)應(yīng)該存在于模型內(nèi)部,哪些應(yīng)該存在于模型外部?例如,推理應(yīng)該在外部使用符號(hào)系統(tǒng)進(jìn)行,這是一個(gè)效率的論點(diǎn)。Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEO | 圖片來源:NVIDIA GTCNoam Shazeer:擁有 5000 億參數(shù)的模型每個(gè) tokens 仍然只相當(dāng)于一美元的百萬分之一。這是非常便宜的。我們可以利用這個(gè)來提升模型的智能。我們有一些應(yīng)用程序的價(jià)值是計(jì)算巨型神經(jīng)網(wǎng)絡(luò)的效率的百萬倍以上。比如治愈癌癥之類的,當(dāng)然很重要,但即使只是與任何人交談,與你的醫(yī)生、律師、程序員交談,你也需要支付 1 美元一個(gè) tokens,或者更多。我們有一百萬個(gè) tokens 來使用,我們可以用它來讓模型變得更聰明。有時(shí)候,恰到好處的詞語就能改變世界。Ashish Vaswani:獲取正確的反饋對(duì)于提升模型智能至關(guān)重要。我們需要將任務(wù)分解為人類可以干預(yù)的步驟,并構(gòu)建能夠通過觀察我們學(xué)習(xí)的模型。03現(xiàn)在「散是滿天星」,都在做什么?黃仁勛 :你們能不能快速地談?wù)劕F(xiàn)在的公司以及為什么決定創(chuàng)辦它?Ashish Vaswani:我們非常興奮地致力于構(gòu)建模型,這些模型最終可以以與人類相同的效率水平學(xué)習(xí)解決新任務(wù)。它們觀察我們的行為,理解我們的意圖和目標(biāo),并開始模仿我們的行為。這將徹底改變我們與計(jì)算機(jī)的互動(dòng)方式和工作方式。這是在 2021 年的目標(biāo)。我離開的一個(gè)重要原因是,要使這些模型變得更智能,不能僅在實(shí)驗(yàn)室的真空中培養(yǎng)它們。實(shí)際上,你必須把它們放到人們手中,因?yàn)槟阈枰澜鐏碜⑨?。確切地說,你希望世界與這些模型互動(dòng),從中獲得反饋,并使這些模型變得更智能。做到這一點(diǎn)的方法就是走出去,建立一些有用的東西。Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 | 圖片來源:NVIDIA GTC黃仁勛 :學(xué)習(xí)確實(shí)需要絕對(duì)變量飛輪。Noam Shazeer:當(dāng)我在 2021 年發(fā)現(xiàn)這一切時(shí),我當(dāng)時(shí)最大的挫敗感是,這項(xiàng)令人難以置信的技術(shù)沒有普及到每個(gè)人手中。因?yàn)樗刑嗟挠猛?,而且使用起來非常?jiǎn)單。作為一個(gè)心急的人,我希望這項(xiàng)技術(shù)能夠被十億人使用,讓他們能夠開展各種各樣的活動(dòng)。讓我們盡可能快地建造一些東西,把它推廣出去,讓數(shù)十億人能夠使用它。首先,很多人只是為了娛樂、情感支持、陪伴或類似的東西而使用它等等。Noam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 | 圖片來源:NVIDIA GTCJakob Uszkoreit:我已經(jīng)稍微談到了生物軟件的一些內(nèi)容,對(duì)我個(gè)人而言,在 2021 年,我共同創(chuàng)立了 Inceptive,主要是因?yàn)橐庾R(shí)到這項(xiàng)技術(shù)可以對(duì)商業(yè)生活產(chǎn)生更直接的影響,甚至比之前的廣泛應(yīng)用更為直接。在疫情期間,我的第一個(gè)孩子出生了,這無疑讓我對(duì)生命的脆弱有了新的認(rèn)識(shí)。然后,在 AlphaFold 2 發(fā)布蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)結(jié)果幾周后,我對(duì)這一技術(shù)產(chǎn)生了濃厚的興趣。而 AlphaFold 2 與 AlphaFold 1 之間的一個(gè)重大區(qū)別在于,他們開始使用了 Transformer,并用它替換了模型或架構(gòu)的其余部分。因此,很明顯,這些技術(shù)已經(jīng)可以在分子生物學(xué)領(lǐng)域發(fā)揮作用。幾周后,mRNA 新冠疫苗的有效性結(jié)果出來了,很明顯,mRNA 和 RNA 在一般情況下可以特別生存,你可以使用 RNA 做生命的任何事情。很長(zhǎng)一段時(shí)間以來,RNA 在某種程度上一直被視為分子生物學(xué)的被忽視的親生子女。所以這似乎幾乎是一種道德義務(wù),這必須發(fā)生。黃仁勛 :我一直認(rèn)為它是藥物設(shè)計(jì)。但我喜歡你把它看作蛋白質(zhì)編程。Llion Jones:我去年剛剛開始了一項(xiàng)新項(xiàng)目,現(xiàn)在還處于非常早期的階段,但我可以告訴你到目前為止我們都取得了哪些進(jìn)展。我是 Sakana AI 公司的共同創(chuàng)始人之一。Sakana 在日語中意為魚,日本人似乎很喜歡這個(gè)名字,我們選擇這個(gè)名稱是因?yàn)槲覀兿Mぐl(fā)人們對(duì)魚群的聯(lián)想。我們的目標(biāo)是實(shí)現(xiàn)自然啟發(fā)的人工智能。就像一群小魚一樣簡(jiǎn)單,但當(dāng)將許多簡(jiǎn)單的元素聚集在一起時(shí),它們就會(huì)變得相當(dāng)復(fù)雜。然而,人們對(duì)我們所說的自然啟發(fā)并不完全理解。我試圖向加入我們的研究人員傳達(dá)的核心思想是,只要不斷學(xué)習(xí),就會(huì)取得成功。每當(dāng)我們?cè)噲D手工操作某事時(shí),嘗試自己工程化,但最終轉(zhuǎn)向使用計(jì)算機(jī)搜索空間時(shí),我們總是會(huì)取得成功。深度學(xué)習(xí)革命就是一個(gè)例子,我們從手工工程化特征轉(zhuǎn)向?qū)W習(xí)它們,結(jié)果效果要好得多。我想提醒大家,除了梯度下降,我們還可以利用 Nvidia 提供的大量計(jì)算資源來進(jìn)行其他工作。今天或明天我們準(zhǔn)備做一些公告。我很驚訝我們這么早就有東西要宣布,但我們即將開源一些研究成果。這與我們的品牌形象非常契合,因?yàn)槟壳傲餍械内厔?shì)是模型融合,但這通常需要手工完成。我們并不是手工制作合并這些模型的算法。相反,我們利用了大量的計(jì)算資源,使用進(jìn)化計(jì)算來搜索如何合并和堆疊層。結(jié)果非常令人滿意。Aidan Gomez:我創(chuàng)建 Coherer 的原因與 Jones 非常相似。我看到了一項(xiàng)我認(rèn)為能改變世界的技術(shù)。計(jì)算機(jī)開始向我們回應(yīng)。它們獲得了一種新的模態(tài)。因此,我認(rèn)為這應(yīng)該改變一切,每一個(gè)產(chǎn)品,我們工作的方式,以及我們與所有建立在計(jì)算機(jī)之上的東西互動(dòng)的方式。有一種停滯感,以及我們這些了解情況的人所面對(duì)的技術(shù)與外界實(shí)際運(yùn)用的情況之間存在的不一致。因此,我想要彌合這種差距。我與諾姆的做法有些不同,因?yàn)?Coherer 是為企業(yè)建造的。因此,我們?yōu)槊考移髽I(yè)創(chuàng)建平臺(tái),使其能夠?qū)⑵浼傻疆a(chǎn)品中,而不是直接面向消費(fèi)者。但這正是我們想要推動(dòng)這項(xiàng)技術(shù)的方式,使其更加普及,更加便宜,并幫助企業(yè)采用它。Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 | 圖片來源:NVIDIA GTCLukasz Kaiser:我沒有找到適合我的……黃仁勛:我知道,但你繼續(xù)改變著世界,繼續(xù)吧。Lukasz Kaiser:是的,我最終決定再次加入 OpenAI??ㄆ占{被問到為什么會(huì)回來,他說那里有錢,有時(shí)間。我加入的地方是 AI 最好的地方。公司里非常有趣。我們知道你可以利用大量數(shù)據(jù)和計(jì)算資源創(chuàng)建出優(yōu)秀的東西,我仍然希望能夠招募更多的人,以及更多的計(jì)算資源。Illia Polosukhin :我實(shí)際上是第一個(gè)中途離開的人。因?yàn)榕c阿什利的觀點(diǎn)相似,我堅(jiān)信我們向著實(shí)現(xiàn)幾乎所有世界中的軟件化進(jìn)步,而機(jī)器學(xué)習(xí)就是軟件的一部分。因此,最直接的方法是教會(huì)機(jī)器編碼,這樣你就能夠生成軟件并改變所有人的訪問方式?,F(xiàn)在這是在 2017 年。當(dāng)時(shí)還有點(diǎn)早。我們的計(jì)算能力還不夠好。因此,我們?cè)噲D協(xié)調(diào)人們來生成更多的數(shù)據(jù)。作為一家初創(chuàng)公司,你實(shí)際上有能力將產(chǎn)品放在用戶面前,并激勵(lì)他們。我們最終意識(shí)到我們需要一種新的基本原語,那就是可編程貨幣,因?yàn)榭删幊特泿攀亲屛覀兡軌蛟谝?guī)模上協(xié)調(diào)人們的工具。因此,我們最終建立了一個(gè)協(xié)議,這是一個(gè)區(qū)塊鏈,自 2020 年以來一直在運(yùn)行。這個(gè)協(xié)議擁有世界上最多的用戶。在區(qū)塊鏈空間中,每天有數(shù)百萬用戶使用它,甚至他們自己都不知道他們?cè)谑褂脜^(qū)塊鏈,但他們與可編程貨幣、可編程價(jià)值進(jìn)行交互?,F(xiàn)在我們開始利用這一點(diǎn),實(shí)際上將一些工具帶回來,以生成更多的數(shù)據(jù)。我認(rèn)為從根本上來說,在這個(gè)群體中是毫無爭(zhēng)議的,但在其他地方可能會(huì)有爭(zhēng)議,那就是從 18 世紀(jì)起的版權(quán)技術(shù)需要改變。我們正處于一個(gè)新的敘事時(shí)代,我們現(xiàn)在所獎(jiǎng)勵(lì)創(chuàng)作者的方式已經(jīng)失效。唯一的方法是利用可編程貨幣和區(qū)塊鏈來創(chuàng)建價(jià)值。因此,我們正在致力于創(chuàng)建一種新穎的方式,讓人們可以貢獻(xiàn)數(shù)據(jù),以使用那些超級(jí)酷的模型。Lukasz Kaiser,OpenAI 技術(shù)人員 | 圖片來源:NVIDIA GTC黃仁勛 :這確實(shí)非???。然后你們將建立一個(gè)全新的正反饋系統(tǒng),完全符合我們正在做的一切。在此之上還有一個(gè)偉大的新經(jīng)濟(jì)。我們有可編程的人類,有可編程的蛋白質(zhì),有可編程的貨幣。我喜歡這個(gè)想法。當(dāng)前一代的 GPT 模型擁有巨大的訓(xùn)練數(shù)據(jù)集,大約有 10 萬億個(gè) tokens,與互聯(lián)網(wǎng)上可自由抓取的內(nèi)容相當(dāng)。那么接下來呢?下一步需要探索哪些新的模型技術(shù),比如推理、知識(shí)等等,你們有討論過嗎?Illia Polosukhin:數(shù)據(jù)需要來自用戶的交互,這需要大規(guī)模的平臺(tái)來建立并跟蹤。人們需要從中獲得經(jīng)濟(jì)價(jià)值來進(jìn)行這些交互。在后臺(tái),你可以將數(shù)據(jù)導(dǎo)入到所有這些模型中,以使它們變得更智能,并且可以更智能地處理它,使模型變得更好。黃仁勛:你可以通過強(qiáng)化學(xué)習(xí)讓模型相互交互,從而逐步優(yōu)化出一個(gè)令人想要與之互動(dòng)的、令人滿意的預(yù)訓(xùn)練模型。此外,你還可以利用合成數(shù)據(jù)生成技術(shù)來豐富數(shù)據(jù)集,從而幫助模型更好地學(xué)習(xí)和泛化。Llion Jones:推理是下一個(gè)重要的發(fā)展方向。很多人已經(jīng)意識(shí)到了這一點(diǎn),并且正在致力于研究。但是目前很多工作都是手工設(shè)計(jì)的,我們?cè)谑止ぞ帉懱崾拘畔?,然后嘗試讓它們以我們認(rèn)為合適的方式進(jìn)行交互。當(dāng)然,我們實(shí)際上應(yīng)該搜索這個(gè)領(lǐng)域,學(xué)習(xí)如何將它們連接起來,打造出我們想要的功能強(qiáng)大的模型。Jakob Uszkoreit:這是一個(gè)很好的思路。我們希望模型生成的內(nèi)容能夠符合人類的消費(fèi)需求,因此這些模型應(yīng)該接受我們喜歡或可以接受的所有刺激作為訓(xùn)練數(shù)據(jù)。因此,任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息,包括時(shí)序信息,都應(yīng)該被納入到訓(xùn)練數(shù)據(jù)中。Lukasz Kaiser :是的,推理和學(xué)習(xí)之間的關(guān)系確實(shí)非常密切。如果你有一個(gè)能夠進(jìn)行推理的模型,然后你只需要一點(diǎn)點(diǎn)數(shù)據(jù)。它就會(huì)進(jìn)行一系列的推理,從中產(chǎn)生結(jié)果。為什么這個(gè)事物會(huì)如此發(fā)展?但是它可以投入大量計(jì)算來進(jìn)行這樣的推理。然后,結(jié)果就出來了,它能夠從更少的數(shù)據(jù)中進(jìn)行泛化,因?yàn)樗谕评磉^程中進(jìn)行了大量計(jì)算。這就像是一個(gè)思考的系統(tǒng),就像人類一樣。Illia Polosukhin:是的,然后你可以讓它自行發(fā)展,嘗試將它設(shè)計(jì)的東西融入其中,這樣它就能夠在繼續(xù)搜索推理時(shí)構(gòu)建出最具影響力的數(shù)據(jù)。Lukasz Kaiser:當(dāng)我們弄清楚了之后,這將極大地減少數(shù)量。但數(shù)據(jù)的質(zhì)量將變得更加重要,這就是人們與現(xiàn)實(shí)世界互動(dòng)的地方。因此,我認(rèn)為會(huì)出現(xiàn)一個(gè)新時(shí)代,仍然會(huì)有一些免費(fèi)的預(yù)訓(xùn)練模型,但重要的事情可能會(huì)是大型、高質(zhì)量的事情。這可能會(huì)更容易讓人們接受。Ashish Vaswani:我也認(rèn)為,領(lǐng)域取得了很大進(jìn)展,這就好比是將大規(guī)模的現(xiàn)實(shí)世界任務(wù)分解為更簡(jiǎn)單的任務(wù),這種逐步漸進(jìn)的過程也很重要,因?yàn)槲覀兊哪P涂赡芸梢酝瓿善渲械囊恍┤蝿?wù),然后部署并獲取更多數(shù)據(jù)。一旦這個(gè)循環(huán)閉合了,它們就有權(quán)利去處理更復(fù)雜的任務(wù),因?yàn)樗鼈円部赡茉谟^察它們正在做什么。確實(shí),這是一個(gè)很好的觀點(diǎn)。建立衡量進(jìn)展和取得進(jìn)步需要拆解或創(chuàng)建類似我們對(duì)某些電子郵件所做的,即自動(dòng)化或交互的科學(xué),與代碼生成的科學(xué)相比,這些都是不同的領(lǐng)域。成功的工程學(xué)需要良好的測(cè)量。黃仁勛:你們想問對(duì)方的三個(gè)問題是什么?Llion Jones :是的,你提到的這些早期模型在當(dāng)時(shí)的研究領(lǐng)域確實(shí)起到了一定作用,但由于 Transformer 模型的出現(xiàn),人們可能忘記了它們的存在。然而,這些早期模型所面臨的問題可能在一定程度上也存在于當(dāng)前的模型中。因此,我同意你的觀點(diǎn),未來可能會(huì)出現(xiàn)混合模型,結(jié)合了 Transformer 模型和早期模型的優(yōu)勢(shì)。Illia Polosukhin :Transformer 模型中的自注意力機(jī)制可以視為一種「遞歸步驟」,在每個(gè)步驟中,模型都會(huì)根據(jù)輸入中的不同部分來更新信息。這種遞歸性質(zhì)使得模型能夠在每個(gè)步驟中對(duì)輸入進(jìn)行增強(qiáng)和推理。然而,有趣的是,目前很少有人探索通過連接不同數(shù)量的遞歸步驟來訓(xùn)練模型,這可能是一個(gè)值得研究的方向。通過探索遞歸性質(zhì),我們可能能夠擴(kuò)展模型的推理能力,并使其能夠處理更復(fù)雜的任務(wù)。確實(shí),有時(shí)候并不需要固定數(shù)量的步驟,而是需要根據(jù)輸入的復(fù)雜程度來動(dòng)態(tài)調(diào)整遞歸步驟的數(shù)量。這種動(dòng)態(tài)調(diào)整可能會(huì)使模型更加靈活,能夠更好地處理不同類型的輸入和任務(wù)。另外,關(guān)于如何擺脫 tokens,這也是一個(gè)非常值得探索的問題。Lukasz Kaiser:我個(gè)人認(rèn)為,對(duì)于如何使用梯度下降來完全學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的訓(xùn)練,我們尚未完全掌握。或許這很簡(jiǎn)單。我是說,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)有一些誤差操作符,這使得早期的情況能夠工作。那么,SSMs(Structured Self-Attentive Models)工作得更好,對(duì)嗎?這是因?yàn)樗鼈兊慕Y(jié)構(gòu)可能需要用不同的方式訓(xùn)練,而不是用梯度下降。也許我們需要像人類一樣在一些服務(wù)中進(jìn)行遞歸訓(xùn)練,我們生活在時(shí)間中。我們會(huì)帶來一些生活時(shí)間,但這并不那么清楚。我們是否通過傳播進(jìn)行訓(xùn)練,可能不是。因此,也許有一種方法只是我們還沒有找到。Illia Polosukhin :以及下降,為什么很難做到這一點(diǎn)。黃仁勛:好的,伙計(jì)們,和你們共度時(shí)光真是太棒了。我真的希望你們偶爾能聚在一起。下次你們的互動(dòng)會(huì)帶來多么驚人的魔力。所以我們有一個(gè)整個(gè)行業(yè)都感激你們所做的工作。大家:同樣。謝謝。*頭圖來源:極客公園本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO極客一問你對(duì)黃仁勛和 Transformer 八子討論的哪些話題印象最深刻?