成人色综合综合网站,99精品国产丝袜在线拍国语

英偉達(dá)發(fā)布超長(zhǎng)上下文推理芯片Rubin CPX 算力效率拉爆當(dāng)前旗艦

原創(chuàng)

2025-09-10 00:48 星期三

財(cái)聯(lián)社史正丞

①通過發(fā)布Rubin CPX，英偉達(dá)將推理計(jì)算過程拆分為上下文與生成兩個(gè)階段，分別由兩塊GPU運(yùn)算，效率最高可達(dá)現(xiàn)有旗艦機(jī)架的6.5倍；
②英偉達(dá)預(yù)計(jì)，客戶部署1億美元的新設(shè)備可帶來高達(dá)50億美元收入。

財(cái)聯(lián)社9月10日訊（編輯史正丞）全球人工智能算力芯片龍頭英偉達(dá)周二宣布，推出專為長(zhǎng)上下文工作負(fù)載設(shè)計(jì)的專用GPU Rubin CPX，用于翻倍提升當(dāng)前AI推理運(yùn)算的工作效率，特別是編程、視頻生成等需要超長(zhǎng)上下文窗口的應(yīng)用。

英偉達(dá)CEO黃仁勛表示，CPX是首款專為需要一次性處理大量知識(shí)（數(shù)百萬級(jí)別tokens），并進(jìn)行人工智能推理的模型而構(gòu)建的芯片。

需要說明的是，Rubin就是英偉達(dá)將在明年發(fā)售的下一代頂級(jí)算力芯片，所以基于Rubin的CPX預(yù)計(jì)也要到2026年底出貨。下一代英偉達(dá)旗艦AI服務(wù)器的全稱叫做NVIDIA Vera Rubin NVL144 CPX——集成36個(gè)Vera CPU、144塊Rubin GPU和144塊Rubin CPX GPU。

（NVIDIA Vera Rubin NVL144 CPX機(jī)架與托盤，來源：公司博客）

英偉達(dá)透露，搭載Rubin CPX的Rubin機(jī)架在處理大上下文窗口時(shí)的性能，能比當(dāng)前旗艦機(jī)架GB300 NVL72高出最多6.5倍。

據(jù)悉，下一代旗艦機(jī)架將提供8exaFLOPs的NVFP4算力，比GB300 NVL72高出7.5倍。同時(shí)單個(gè)機(jī)架就能提供100TB的高速內(nèi)存和1.7PB/s的內(nèi)存帶寬。

言歸正傳，英偉達(dá)之所以要在Rubin GPU邊上再配一塊Rubin CPX GPU，自然是為了顯著提升數(shù)據(jù)中心的算力效率——用戶購(gòu)買英偉達(dá)的芯片將能賺到更多的錢。英偉達(dá)表示，部署價(jià)值1億美元的新芯片，將能為客戶帶來50億美元的收入。

為何需要不同的GPU？

作為行業(yè)首創(chuàng)之舉，英偉達(dá)的新品在硬件層面上分拆了人工智能推理的計(jì)算負(fù)載。

英偉達(dá)介紹稱，推理過程包括兩個(gè)截然不同的階段：上下文階段與生成階段，兩者對(duì)基礎(chǔ)設(shè)施的要求本質(zhì)上完全不同。

上下文階段屬于計(jì)算受限（compute-bound），需要高吞吐量的處理能力來攝取并分析大量輸入數(shù)據(jù)，從而生成首個(gè)輸出token。相反，生成階段則屬于內(nèi)存帶寬受限（memory bandwidth-bound），依賴高速的內(nèi)存?zhèn)鬏敽透邘捇ヂ?lián)（如 NVLink），以維持逐個(gè)token的輸出性能。

當(dāng)前頂級(jí)的GPU都是為了內(nèi)存和網(wǎng)絡(luò)限制的生成階段設(shè)計(jì)，配備昂貴的HBM內(nèi)存，然而在解碼階段并不需要這些內(nèi)存。因此，通過分離式處理這兩個(gè)階段，并針對(duì)性地優(yōu)化計(jì)算與內(nèi)存資源，將顯著提升算力的利用率。

據(jù)悉，Rubin CPX專門針對(duì)“數(shù)百萬tokens”級(jí)別的長(zhǎng)上下文性能進(jìn)行優(yōu)化，具備30petaFLOPs的NVFP4算力、128GB GDDR7內(nèi)存。

英偉達(dá)估計(jì)，大約有20%的AI應(yīng)用會(huì)“坐等”首個(gè)token出現(xiàn)。例如解碼10萬行代碼可能需要5-10分鐘。而多幀、多秒的視頻，預(yù)處理和逐幀嵌入會(huì)迅速增加延遲，這也是為什么當(dāng)前的視頻大模型通常僅用于制作短片。

英偉達(dá)計(jì)劃以兩種形式提供Rubin CPX，一種是與Vera Rubin裝在同一個(gè)托盤上。對(duì)于已經(jīng)下單NVL144的用戶，英偉達(dá)也會(huì)單獨(dú)出售一整個(gè)機(jī)架的CPX芯片，數(shù)量正好匹配Rubin機(jī)架。