黃仁勛:華為是英偉達(dá)在AI芯片領(lǐng)域“非常強(qiáng)大”的競爭對手
分類: 最新資訊
范文詞典
編輯 : 范文大全
發(fā)布 : 12-06
閱讀 :341
12月6日消息,英偉達(dá)首席執(zhí)行官黃仁勛今日表示,在生產(chǎn)最好的人工智能芯片的競爭中,華為是英偉達(dá)“非常強(qiáng)大”(very formidable)的競爭對手之一。周三,黃仁勛在新加坡接受采訪時表示,華為、英特爾和不斷壯大的半導(dǎo)體初創(chuàng)公司對英偉達(dá)在人工智能加速器市場的主導(dǎo)地位構(gòu)成了嚴(yán)峻挑戰(zhàn)?!拔覀冊谥袊蛧舛加泻芏喔偁帉κ郑秉S仁勛說?!拔覀兇蠖鄶?shù)競爭對手并不關(guān)心我們在哪里,無論我們走到哪里,他們都想與我們競爭?!庇ミ_(dá)的芯片已成為人工智能熱潮中最受追捧的商品,因?yàn)樗鼈優(yōu)橛?xùn)練大數(shù)據(jù)模型(例如支持ChatGPT的模型)提供了最有效的方法。黃仁勛今日早間還表示,英偉達(dá)正考慮在新加坡進(jìn)行重大投資。12月5日,黃仁勛宣布,英偉達(dá)將在日本建立一個人工智能(AI)研究實(shí)驗(yàn)室,并在當(dāng)?shù)卮蛟煲粋€AI工廠網(wǎng)絡(luò)。(易句)延伸閱讀:英偉達(dá)CEO黃仁勛:將為中國市場提供符合美國規(guī)定的新產(chǎn)品澎湃新聞記者 方曉美國芯片企業(yè)英偉達(dá)公司的首席執(zhí)行官黃仁勛12月6日表示,在生產(chǎn)“最好的”人工智能芯片的競賽中,華為是英偉達(dá)“非常強(qiáng)大”的競爭對手之一。他透露,英偉達(dá)正在與美國政府密切合作,確保面向中國市場的新芯片符合出口限制。正在新加坡訪問的黃仁勛在記者會上表示,華為、英特爾和不斷壯大的半導(dǎo)體初創(chuàng)公司對英偉達(dá)在人工智能芯片市場的主導(dǎo)地位構(gòu)成了嚴(yán)峻挑戰(zhàn)?!拔覀冊谥袊鴥?nèi)外都有很多競爭對手。”他說。英偉達(dá)的芯片已成為人工智能熱潮中最熱門的商品,因?yàn)樗鼈優(yōu)橛?xùn)練大語言模型提供了最有效的方法。但美國政府對英偉達(dá)的芯片銷售設(shè)置了壁壘,今年10月中旬更是進(jìn)一步收緊了英偉達(dá)芯片對中國的出口。美國商務(wù)部長吉娜·雷蒙多12月2日稱:“我們不能讓中國獲得這些芯片?!贬槍酌啥嗟倪@一言論,中國外交部發(fā)言人汪文斌12月4日在例行記者會上回應(yīng)稱,美方應(yīng)當(dāng)樹立正確的對華認(rèn)知,同中方一道切實(shí)落實(shí)中美元首舊金山會晤達(dá)成的重要共識,停止將中國視為“假想敵”,糾正打著競爭的幌子搞大國對抗的錯誤行徑。黃仁勛表示,中國市場占英偉達(dá)銷售額的20%左右,該公司將繼續(xù)“完美”遵守貿(mào)易法規(guī),并為中國市場提供一套符合美國政府最新規(guī)定的新產(chǎn)品。他補(bǔ)充說,英偉達(dá)需要尋求市場的建議,這一過程正在進(jìn)行中。英偉達(dá)11月在財報中警告稱,美國新規(guī)實(shí)施后,預(yù)計第四季度在中國的銷售額將大幅下降。在訪問新加坡期間,黃仁勛與新加坡總理李顯龍舉行了會晤。12月4日,新加坡發(fā)布國家人工智能策略2.0,提出把該國人工智能從業(yè)者的隊伍擴(kuò)大到1.5萬人。黃仁勛表示,此行將與李顯龍深入探討英偉達(dá)如何幫助、支持和參與該策略。新加坡資訊通信媒體發(fā)展局(IMDA)4日宣布斥資7000萬元推出國家多模態(tài)大型語言模型計劃,計劃開發(fā)東南亞首個具有區(qū)域特點(diǎn)的基礎(chǔ)語言模型。黃仁勛表示,目前英偉達(dá)正在與資訊通信媒體發(fā)展局合作創(chuàng)建由11種語言訓(xùn)練的大模型SEA-LION。該模型旨在更好地理解和代表東南亞的不同背景、語言和文化。今年第三季度,英偉達(dá)來自新加坡市場的營收達(dá)到27億美元,占其總營收的約15%。黃仁勛表示,英偉達(dá)在新加坡?lián)碛袃深愔匾蛻?。一類是新加坡本地的云服?wù)提供商,該國有1100家人工智能初創(chuàng)公司,它們正推動新加坡云端GPU消費(fèi)的需求。第二類客戶則是將產(chǎn)品部署到中國的公司,這類公司在新加坡交易,但將產(chǎn)品和服務(wù)用于中國市場。新加坡?lián)碛杏筛裥荆℅lobalFoundries)等全球企業(yè)運(yùn)營的非尖端芯片的制造工廠。英偉達(dá)的人工智能芯片首選制造商臺積電和恩智浦半導(dǎo)體也在新加坡經(jīng)營著一家合資企業(yè)。貓鼠游戲中的英偉達(dá)來源: 硅星人自步入人工智能時代以來,中國一直是英偉達(dá)的大客戶。2022年,英偉達(dá)銷售數(shù)據(jù)中,25%來自中國客戶,尤其是一些互聯(lián)網(wǎng)大廠,他們對英偉達(dá)的算力產(chǎn)品,比如H800,可以說是瘋狂買買買。但是隨著美國在2023年10月更新了先進(jìn)半導(dǎo)體和計算設(shè)備的出口管制,英偉達(dá)中國特供版GPU A800和H800都將在11月17號后禁止出口中國。而且更難處理的是,華盛頓新的出口管制下,幾乎絕大多數(shù)高算力產(chǎn)品都不再能出口中國了。不過英偉達(dá)有他們的小心思,25%的巨大收入來源不可能說斷就斷,所以英偉達(dá)決定要和美國政府來一場貓鼠游戲,要在這只貓的眼皮底下,偷走奶酪。于是英偉達(dá)開始布局一款新的產(chǎn)品——H20。注意,這個H20是“H”和“二十”,不是水分子的化學(xué)式。H20這款產(chǎn)品的浮點(diǎn)運(yùn)算能力僅有296TFLOPs,性能密度只有2.9。這意味著它從紙面上看已經(jīng)是一款超低性能產(chǎn)品,然而有意思的事情來了,如此低性能的產(chǎn)品,依然有公司會買,而且它繼續(xù)引發(fā)美國的監(jiān)管部門以及英偉達(dá)競爭對手的恐慌。在硅星人此前的文章《》中已經(jīng)提到,英偉達(dá)的美國對手批評它不夠美國,而英偉達(dá)認(rèn)為這些批評不合邏輯;而最近的消息是,美國商務(wù)部長Gina Raimondo又點(diǎn)名英偉達(dá),警告它停止為中國設(shè)計繞過出口管控的AI芯片。所以,這個貓鼠游戲里,英偉達(dá)到底是如何做的?3A090里的文字游戲3A090,是華盛頓出口管制中的ECCN編碼物項。3A090特指特定高性能集成電路,當(dāng)一顆芯片輸入輸出雙向傳輸速率超過每秒600GB,或算力超過4800TOPS時就屬于3A090,也就意味著禁止向中國出口。上一次美國規(guī)定先進(jìn)半導(dǎo)體出口措施的時候,英偉達(dá)旗艦產(chǎn)品A100和H100都被劃在了禁止向中國出口的列表當(dāng)中。英偉達(dá)當(dāng)時采取的措施是推出低配版、但是同架構(gòu)、且同樣配備高帶寬插槽版本(也就是SXM版本)的A800和H800。這兩塊產(chǎn)品在性能上和原版的A100、H100幾乎完全一致,甚至連內(nèi)存芯片用的也都是HBM2e和HBM3這種當(dāng)時的頂級內(nèi)存芯片。頗有種孫悟空和六耳獼猴的感覺。在上一次禁令發(fā)布的時候,美國只是對產(chǎn)品的具體型號做出了禁止出口的規(guī)定,這才有了H800和A800這種李逵李鬼的情況。所以這次新規(guī)就加入了更為嚴(yán)格的限制,規(guī)定了算力總和以及性能密度,所有人工智能產(chǎn)業(yè)能用到的高端張量計算GPU全都被劃進(jìn)了限制。說得更直白一點(diǎn),高性能的GPU不讓賣,低性能的GPU買了也沒用。然而有意思的事情來了,禁令所限制的兩個詞匯“性能密度”和“總算力”,其實(shí)是一個文字游戲。什么是性能密度?國際上有兩個說法,第一個是人工智能公司常用的,浮點(diǎn)計算能力FLOPs,也就是每秒浮點(diǎn)操作數(shù)除以單位面積內(nèi)的晶體管數(shù)量得來的。第二個是MIPS,也就是每秒百萬指令數(shù)除以單位面積內(nèi)的晶體管數(shù)量得來的。我們都清楚一個道理,那就是“大人時代變了”。就拿英偉達(dá)剛推出的新品H200所搭載的HBM3e來說,這顆芯片采用了一種3D技術(shù),通過立體空間堆疊的方式增加內(nèi)存。如果只按面積來說,那這顆芯片的性能密度就很高,但是要按體積算,這顆芯片的性能密度也挺高,只是沒有按面積算那么高而已。所以如果想要性能密度這個數(shù)字越小,算的時候以體積為單位就可以了。畢竟除法嘛,分母越大結(jié)果越小。另外MIPS通常比FLOPs大,因?yàn)樵谟嬎氵^程中除了浮點(diǎn),還有整數(shù)類型(INT)的運(yùn)算。而且浮點(diǎn)自己還囊括了單精度(32位)、雙精度(64位)等以所需存儲空間來劃分的類型。因?yàn)閭鹘y(tǒng)FLOPs計算方式,往往只會統(tǒng)計單精度和雙精度,因此一顆張量計算用的GPU,在數(shù)據(jù)測試的時候,也可以只報單精度、雙精度的浮點(diǎn),這樣無論是它的MIPS還是FLOPs都會很低。畢竟除法嘛,分子越小結(jié)果越小??偹懔@塊能玩的花活就更多了。總算力,這個詞指的是每個核心的時鐘速度總和。英偉達(dá)H20,或者說整個H系列所采用的Hooper架構(gòu),它都是有多種核心的,比如專門用來做張量計算的TensorFloat32核心,還有腦浮點(diǎn)(BF16)核心。那剛才咱們聊了,計算FLOPs時,可以只計算單精度,雙精度,也就意味著它在算力總和的測試中,就可以只計算單精度和雙精度核心,而不再啟用上述的這些張量計算核心。畢竟自然數(shù)加法嘛,加數(shù)越少結(jié)果越小。綜上,作為一個算力芯片廠商,他們可以很簡單地把芯片數(shù)據(jù)弄得很低。這只是一種可能的假說,因?yàn)橛ミ_(dá)的最終目的不是通過3A090的限制,他是要把產(chǎn)品賣出去,賺取利潤。一個性能極低的產(chǎn)品根本沒有市場銷路,就算設(shè)計出來了也沒有實(shí)際的價值。H20背后的真正秘密區(qū)區(qū)是一張中上游的游戲顯卡RTX 4080,它的浮點(diǎn)運(yùn)算能力都能達(dá)到320TFLOPs,同時RTX 4080的性能密度有6.8。H20尊為一個張量計算用的GPU,296的浮點(diǎn)和2.9的性能密度,就好像是一個超級富二代獨(dú)生子,從出生開始就享受世界上最優(yōu)質(zhì)的資源,頓頓早餐吃的煎餅果子都能加倆雞蛋,喝酸奶從來用不著舔蓋,結(jié)果到頭來算個10以內(nèi)加減法都能把CPU干冒煙了。可我要是說H20的Die足足有814平方毫米,和H100完全相同,閣下應(yīng)該如何應(yīng)對?這并不是好鋼用在刀背上,相反這正是H20的隱藏屬性。也正因此,才讓我更加相信,英偉達(dá)在H20的數(shù)據(jù)上,存在一些貓膩。Die指的是芯片的裸晶,一般來說,越是性能優(yōu)越的芯片,Die尺寸就會越大。比如RTX 4080的Die尺寸是379,而目前性能最好的游戲顯卡RTX 4090的Die尺寸是609。因此,H20實(shí)際上并不是低端芯片,至少從芯片的制程來講,H20是站在第一梯隊的。老鼠沒有貓力氣大,速度上也不占優(yōu)勢,如果老鼠不想被貓抓住,那就要想方設(shè)法地躲起來,不暴露自己。誠然,H20的浮點(diǎn)運(yùn)算能力很低,可是H20 SXM的內(nèi)存足足有96GB,更恐怖的是它的帶寬來到了4Tbps。相較之下,1979TFLOPs浮點(diǎn)運(yùn)算能力的H100 SXM只有80GB的內(nèi)存和3.4Tbps的帶寬。在人工智能領(lǐng)域,尤其是現(xiàn)在火熱的大語言模型中。內(nèi)存是影響模型運(yùn)行的關(guān)鍵,每10億參數(shù)就要消耗3到5GB的內(nèi)存,如果內(nèi)存溢出則會嚴(yán)重影響模型的質(zhì)量,產(chǎn)生不可預(yù)估的后果。那也就是說,在面對實(shí)際應(yīng)用的時候,H20能比H100承擔(dān)更大規(guī)模的大語言模型。可能你會問了,H20的浮點(diǎn)運(yùn)算能力不行啊,光有內(nèi)存沒用,跑的速度會慢。如果是2022年,那這的確是個大問題,畢竟沒有人工智能公司會考慮低效率的GPU,這樣做會拖垮整個訓(xùn)練過程??墒?023年,英偉達(dá)的TensorRT-LLM已經(jīng)問世,并且擁有TensorRT-LLM功能的H200即將要在2024年發(fā)售了。TensorRT-LLM是一個幫助GPU快速解決復(fù)雜計算的優(yōu)化軟件,搭載在GPU內(nèi)部,類似于游戲顯卡驅(qū)動一樣。以H100為例,使用TensorRT-LLM后的H100,在對一些媒體網(wǎng)站進(jìn)行文章摘要時的工作效率,比使用前快出整整1倍。而在700億參數(shù)的Llama2上,前者比后者快77%。目前流通在市面上的A800也好,H800也好,都沒有搭載TensorRT-LLM功能。H20很有可能,或者說板上釘釘?shù)臅钶dTensorRT-LLM。英偉達(dá)雖然一直以硬件銷售為主,然而其軟件能力非同小可。比如DLSS,這是一種專門用來“欺騙”軟件。不過DLSS所騙的目標(biāo)并不是用戶,而是顯卡。當(dāng)計算機(jī)需要大量圖形計算時,DLSS會把圖形以極低分辨率的形式交給顯卡,它去騙顯卡說:“你干這么點(diǎn)活就得了,剩下的不用你操心”,再通過DLSS技術(shù)還原成高分辨率的圖形,這會大幅減輕顯卡的壓力,進(jìn)而提升畫面效果。回到現(xiàn)在,TensorRT-LLM也是一個給GPU減壓減負(fù)的軟件技術(shù),這就讓GPU能夠表現(xiàn)出本不該屬于它的性能。此外,如果英偉達(dá)真的隱藏了H20的真實(shí)數(shù)據(jù),實(shí)際上H20的表現(xiàn)力很有可能會超過H100。你以為英偉達(dá)是壁虎,斷尾求生。實(shí)際上英偉達(dá)壓根不打算“閹割”,他們想的是換一種方式,繞過監(jiān)管,達(dá)到目的。畢竟,如果H20算力很低,就算可以出口中國,也沒有買家愿意購買這樣的產(chǎn)品。當(dāng)貓堵住了一個老鼠洞,老鼠還是能有辦法溜出來,因?yàn)椴豢赡苤挥幸粋€出口。不只是英偉達(dá)自己的貓鼠游戲英偉達(dá)有個好朋友叫做SK海力士,英偉達(dá)最新旗艦產(chǎn)品H200 SXM上的內(nèi)存芯片HBM3e,就是SK海力士的。目前他們正聯(lián)手開發(fā)HBM4,以顛覆整個產(chǎn)業(yè)。英偉達(dá)也是SK海力士最大的客戶之一,如果英偉達(dá)失去了中國市場,那么SK海力士的損失也會是巨大的。最重要的是,GPU是一個橫跨軟硬件兩個領(lǐng)域的事情,造就了一個附加值極高的交易體系。比如英偉達(dá)的Hooper架構(gòu),也就是H100、H200、H800、H20所采用的架構(gòu),多種同架構(gòu)的GPU并聯(lián)在一起,能夠更好地分配計算資源。一般來說,人工智能企業(yè)都是買很多塊GPU,而不是就買一塊。所以當(dāng)人工智能公司進(jìn)行算力擴(kuò)展的時候,GPU的第一個附加價值就體現(xiàn)出來了,它會要求人工智能公司只能接著購買該公司的GPU產(chǎn)品。第二個附加價值在于算法的開發(fā),不同的GPU產(chǎn)品,比如AMD的MI,英特爾的Gaudi,他們的差別不只有浮點(diǎn)運(yùn)算能力、性能密度這些,還有指令集、邏輯芯片、底層語言上的差異等等。一個能在H100上運(yùn)行的算法,不一定就完美適配MI300X。換言之,如果開發(fā)伊始就是基于某公司產(chǎn)品的話,后續(xù)的開發(fā)大概率也只能基于同公司,甚至是同架構(gòu)的產(chǎn)品。第三個附加價值是反向的,由人工智能公司給予GPU公司。在算法的開發(fā)過程中總是會遇到各種各樣的難題,當(dāng)這些難題反饋給GPU公司時,GPU就會清楚下一代產(chǎn)品應(yīng)該做怎樣的改進(jìn)。就比如上文說的HBM4,英偉達(dá)和SK海力士要非常清楚目前GPU在當(dāng)前場景下還有哪些不足,才能做出足以顛覆產(chǎn)業(yè)的產(chǎn)品。正是這些附加價值,綁定了GPU公司和人工智能公司,形成了復(fù)雜的裙帶關(guān)系。所以英偉達(dá)不能失去中國市場,不單單是為了25%的銷售額,還有比銷售數(shù)字更重要的這些附加價值。中國的人工智能水平增長非常迅速,英偉達(dá)深知其中的利害。在貓鼠游戲中,老鼠之間也會互相打配合,有些負(fù)責(zé)吸引貓的注意力,有些負(fù)責(zé)搬運(yùn)奶酪。還有一點(diǎn),貓和老鼠都明白兩者雖然對立,但是存在著一個用來維持雙方平衡的灰色空間,既不黑也不白,兩者都能生存。貓不能一下子將老鼠全抓死,那樣貓就失去了作用,老鼠也不能太猖狂,那樣會壓縮貓的生活空間。