①通過發(fā)布Rubin CPX,英偉達(dá)將推理計(jì)算過程拆分為上下文與生成兩個(gè)階段,分別由兩塊GPU運(yùn)算,效率最高可達(dá)現(xiàn)有旗艦機(jī)架的6.5倍; ②英偉達(dá)預(yù)計(jì),客戶部署1億美元的新設(shè)備可帶來高達(dá)50億美元收入。
財(cái)聯(lián)社9月10日訊(編輯 史正丞)全球人工智能算力芯片龍頭英偉達(dá)周二宣布,推出專為長(zhǎng)上下文工作負(fù)載設(shè)計(jì)的專用GPU Rubin CPX,用于翻倍提升當(dāng)前AI推理運(yùn)算的工作效率,特別是編程、視頻生成等需要超長(zhǎng)上下文窗口的應(yīng)用。
英偉達(dá)CEO黃仁勛表示,CPX是首款專為需要一次性處理大量知識(shí)(數(shù)百萬級(jí)別tokens),并進(jìn)行人工智能推理的模型而構(gòu)建的芯片。
需要說明的是,Rubin就是英偉達(dá)將在明年發(fā)售的下一代頂級(jí)算力芯片,所以基于Rubin的CPX預(yù)計(jì)也要到2026年底出貨。下一代英偉達(dá)旗艦AI服務(wù)器的全稱叫做NVIDIA Vera Rubin NVL144 CPX——集成36個(gè)Vera CPU、144塊Rubin GPU和144塊Rubin CPX GPU。
英偉達(dá)透露,搭載Rubin CPX的Rubin機(jī)架在處理大上下文窗口時(shí)的性能,能比當(dāng)前旗艦機(jī)架GB300 NVL72高出最多6.5倍。
據(jù)悉,下一代旗艦機(jī)架將提供8exaFLOPs的NVFP4算力,比GB300 NVL72高出7.5倍。同時(shí)單個(gè)機(jī)架就能提供100TB的高速內(nèi)存和1.7PB/s的內(nèi)存帶寬。
言歸正傳,英偉達(dá)之所以要在Rubin GPU邊上再配一塊Rubin CPX GPU,自然是為了顯著提升數(shù)據(jù)中心的算力效率——用戶購(gòu)買英偉達(dá)的芯片將能賺到更多的錢。英偉達(dá)表示,部署價(jià)值1億美元的新芯片,將能為客戶帶來50億美元的收入。
為何需要不同的GPU?
作為行業(yè)首創(chuàng)之舉,英偉達(dá)的新品在硬件層面上分拆了人工智能推理的計(jì)算負(fù)載。
英偉達(dá)介紹稱,推理過程包括兩個(gè)截然不同的階段:上下文階段與生成階段,兩者對(duì)基礎(chǔ)設(shè)施的要求本質(zhì)上完全不同。
上下文階段屬于計(jì)算受限(compute-bound),需要高吞吐量的處理能力來攝取并分析大量輸入數(shù)據(jù),從而生成首個(gè)輸出token。相反,生成階段則屬于內(nèi)存帶寬受限(memory bandwidth-bound),依賴高速的內(nèi)存?zhèn)鬏敽透邘捇ヂ?lián)(如 NVLink),以維持逐個(gè)token的輸出性能。
當(dāng)前頂級(jí)的GPU都是為了內(nèi)存和網(wǎng)絡(luò)限制的生成階段設(shè)計(jì),配備昂貴的HBM內(nèi)存,然而在解碼階段并不需要這些內(nèi)存。因此,通過分離式處理這兩個(gè)階段,并針對(duì)性地優(yōu)化計(jì)算與內(nèi)存資源,將顯著提升算力的利用率。
據(jù)悉,Rubin CPX專門針對(duì)“數(shù)百萬tokens”級(jí)別的長(zhǎng)上下文性能進(jìn)行優(yōu)化,具備30petaFLOPs的NVFP4算力、128GB GDDR7內(nèi)存。
英偉達(dá)估計(jì),大約有20%的AI應(yīng)用會(huì)“坐等”首個(gè)token出現(xiàn)。例如解碼10萬行代碼可能需要5-10分鐘。而多幀、多秒的視頻,預(yù)處理和逐幀嵌入會(huì)迅速增加延遲,這也是為什么當(dāng)前的視頻大模型通常僅用于制作短片。
英偉達(dá)計(jì)劃以兩種形式提供Rubin CPX,一種是與Vera Rubin裝在同一個(gè)托盤上。對(duì)于已經(jīng)下單NVL144的用戶,英偉達(dá)也會(huì)單獨(dú)出售一整個(gè)機(jī)架的CPX芯片,數(shù)量正好匹配Rubin機(jī)架。