天堂中文在线观看视频,亚洲男人的天堂av,精东影业在线观看,亚洲成a人无码

│新東西市集│東西講座│影音頻道│出版中心│

元件次系統(tǒng) 自動控制

機(jī)器人駕到！最深度的機(jī)器人產(chǎn)業(yè)專題報(bào)導(dǎo)

產(chǎn)業(yè)快訊

AMPA展位熱烈報(bào)名｜移動新技術(shù)快來展出

CTIMES / 文章 /

生成式AI當(dāng)?shù)?GPU算力爭霸方興未艾

【作者：王岫晨】 2025年05月07日星期三

瀏覽人次：【3178】

生成式AI驅(qū)動的模型規(guī)模與複雜度急遽上升，正迫使晶片架構(gòu)以遠(yuǎn)超摩爾定律的速度進(jìn)化。在這場硬體競賽中，NVIDIA、AMD、Google等科技巨頭紛紛推出「算力核彈級」晶片，並在效能、功耗與生態(tài)系三大戰(zhàn)場上展開正面交鋒。

2023年，ChatGPT在短短五天內(nèi)突破億級用戶，徹底改寫科技與應(yīng)用場景的版圖。背後支撐其運(yùn)行的GPT-4模型，不僅需動用約1.7萬顆GPU，耗電量更高達(dá)50GWh，相當(dāng)於3.6萬戶家庭全年的用電需求。而最新的Sora影片生成模型，其單次訓(xùn)練成本更被傳已突破5億美元，堪稱「算力黑洞」的代表。

圖一 : ChatGPT需耗用大量的GPU運(yùn)算資源。

生成式AI驅(qū)動的模型規(guī)模與複雜度急遽上升，正迫使晶片架構(gòu)以遠(yuǎn)超摩爾定律的速度進(jìn)化。在這場硬體競賽中，NVIDIA、AMD、Google等科技巨頭紛紛推出「算力核彈級」晶片，並在效能、功耗與生態(tài)系三大戰(zhàn)場上展開正面交鋒。OpenAI執(zhí)行長Sam Altman更喊出募資7兆美元自建晶片廠，預(yù)示這場競賽不僅將改寫AI產(chǎn)業(yè)的格局，更可能重塑整個半導(dǎo)體生態(tài)。

AI模型推動硬體需求徹底重構(gòu)

從GPT-3的1,750億參數(shù)到GPT-4的1.8兆參數(shù)，參數(shù)量膨脹超過10倍，模型訓(xùn)練所需的算力也呈指數(shù)級上升。而最新的多模態(tài)模型，如OpenAI的Sora，更需同時處理文本、影像與物理模擬，Transformer架構(gòu)中的「注意力機(jī)制」（Attention）大幅推升記憶體頻寬需求，是純語言模型的3倍以上。

另一方面，即時生成需求也正在向邊緣裝置逼近。例如Stable Diffusion要求裝置能在1秒內(nèi)生成一張512×512解析度的圖片，這推動NPU（神經(jīng)網(wǎng)路處理單元）導(dǎo)入如動態(tài)電壓與頻率調(diào)整（DVFS）等技術(shù)來平衡性能與功耗。

三大技術(shù)關(guān)鍵指標(biāo)浮現(xiàn)

為因應(yīng)模型規(guī)模與即時需求並存的挑戰(zhàn)，三大硬體升級重點(diǎn)成為焦點(diǎn)：

? 記憶體頻寬：HBM3e（高頻寬記憶體）堆疊技術(shù)進(jìn)一步解放資料吞吐瓶頸。

? 稀疏計(jì)算支援：Google TPU v6強(qiáng)化稀疏矩陣運(yùn)算能力，大幅提升訓(xùn)練效率。

? 高速互連：AMD MI300X採用第三代Infinity Fabric技術(shù)，將CPU與GPU間延遲壓縮至35ns，強(qiáng)化即時推理場景的反應(yīng)速度。

三大巨頭硬體技術(shù)的競速戰(zhàn)

NVIDIA：CUDA帝國下的霸權(quán)延伸

作為AI晶片市場的霸主，NVIDIA以CUDA軟體平臺建立起無可撼動的技術(shù)護(hù)城河。其最新架構(gòu)在大型語言模型訓(xùn)練上表現(xiàn)卓越，加上CUDA 12支援動態(tài)並行運(yùn)算，使開發(fā)者能更靈活配置資源，提升訓(xùn)練效率。

目前NVIDIA已獨(dú)佔(zhàn)全球92%的AI訓(xùn)練市場，儘管單顆高階AI晶片售價高昂，卻反而催生出如CoreWeave等GPU雲(yún)端租賃服務(wù)，讓中小企業(yè)得以接觸尖端算力。

NVIDIA之所以能在生成式AI浪潮中脫穎而出，關(guān)鍵在於其GPU架構(gòu)針對深度學(xué)習(xí)工作負(fù)載進(jìn)行高度優(yōu)化。以H100為例，其內(nèi)建的Tensor Core第四代張量處理器專為矩陣運(yùn)算設(shè)計(jì)，支援FP8、BF16等混合精度格式，讓大型語言模型訓(xùn)練速度提升至前代的2倍以上，同時保持精度不墜。

此外，NVIDIA也針對大模型運(yùn)行瓶頸進(jìn)行記憶體創(chuàng)新，H100搭載的HBM3記憶體頻寬高達(dá)3 TB/s，遠(yuǎn)高於傳統(tǒng)GDDR6，顯著降低模型參數(shù)載入與中間層數(shù)據(jù)傳遞的延遲。再搭配NVLink互連技術(shù)，可將多張GPU組成高速集群，實(shí)現(xiàn)「多GPU如單GPU」的運(yùn)算體驗(yàn)，滿足如GPT-4、Sora等超大模型的分散式訓(xùn)練需求。

AMD異構(gòu)運(yùn)算的逆襲

AMD的MI300X以異構(gòu)整合架構(gòu)為亮點(diǎn)，將Zen 4 CPU、CDNA 3 GPU與HBM3記憶體整合為單一APU，記憶體容量高達(dá)192GB，並大幅減少資料搬移造成的瓶頸。其性價比策略也具競爭力：在同等算力下，MI300X價格比H100低30%，並支援ROCm開源軟體框架，已成功打入Meta的Llama 3訓(xùn)練系統(tǒng)。不過，相較於CUDA，其軟體生態(tài)仍有明顯落差，目前PyTorch對MI300X的運(yùn)算支援覆蓋率僅約78%。

AMD在AI晶片領(lǐng)域的突圍，建立於其長年經(jīng)營的異質(zhì)運(yùn)算（Heterogeneous Computing）技術(shù)基礎(chǔ)之上。MI300X採用APU（Accelerated Processing Unit）架構(gòu)，將高效能CPU核心（Zen 4）與GPU核心（CDNA 3）以及高頻寬記憶體（HBM3）整合於同一封裝中，透過統(tǒng)一記憶體架構(gòu)（Unified Memory Architecture），讓CPU與GPU可共享高達(dá)192GB的HBM3記憶體資源，大幅降低資料搬移造成的延遲與功耗。

這種設(shè)計(jì)特別適用於生成式AI推理階段，例如在需要快速回應(yīng)的即時應(yīng)用中，資料無需在CPU與GPU間頻繁複製，讓整體運(yùn)算流程更高效、連續(xù)。此外，CDNA 3架構(gòu)內(nèi)建對稀疏運(yùn)算（Sparse Compute）與混合精度計(jì)算（例如FP8、BF16）的原生支援，進(jìn)一步提升AI模型訓(xùn)練與推理的能源效率。

AMD的架構(gòu)策略，重點(diǎn)不在於單點(diǎn)性能的極致，而是以系統(tǒng)級協(xié)同與封裝創(chuàng)新爭取效能與成本的最佳平衡，這讓MI300X在資料中心與企業(yè)AI部署中，成為一項(xiàng)極具競爭力的選擇。

圖二 : NVIDIA與AMD在生成式AI應(yīng)用領(lǐng)域中的運(yùn)算優(yōu)勢比較。

Google封閉但高效的垂直整合

Google以TPU v6為核心推出的Hypercomputer平臺，是垂直整合的極致範(fàn)例，強(qiáng)調(diào)能效與協(xié)同運(yùn)作。透過優(yōu)化的硬體設(shè)計(jì)與軟體疊代，其整體運(yùn)行效率領(lǐng)先業(yè)界。

然而，這套系統(tǒng)僅供Google Cloud內(nèi)部與合作客戶使用，其封閉性成為限制其普及化的最大障礙。

算力的突破口

Meta的Llama 3與開源模式

Meta的Llama 3展示了開源模型在算力資源緊張情境下的可行性。訓(xùn)練一個參數(shù)量為700億的模型，需動用7,200顆H100運(yùn)行90天，光電費(fèi)就高達(dá)870萬美元，相當(dāng)於3,000臺特斯拉Model Y的售價。

為解決這一痛點(diǎn)，Meta導(dǎo)入PyTorch Fully Sharded Data Parallel（FSDP）技術(shù)，能將模型參數(shù)分散至512張GPU上，大幅提升訓(xùn)練效率達(dá)70%。

CoreWeave雲(yún)端算力

CoreWeave則以「算力即服務(wù)」模式出線，提供GPU分鐘級租賃服務(wù)，H100實(shí)例每小時費(fèi)用僅6.5美元。其與NVIDIA合作開發(fā)的液冷伺服器叢集，功率密度達(dá)傳統(tǒng)資料中心的8倍，支援千卡級高並行運(yùn)算，成為中小型AI開發(fā)者重要算力來源。

不過，其商業(yè)模式也受到外部市場影響。例如過去以太坊合併，從工作量證明 (PoW) 轉(zhuǎn)為持有量證明(PoS)後，GPU需求暴跌曾導(dǎo)致租金價格瞬間下修47%，揭示出其潛在風(fēng)險。

下一世代xPU技術(shù)的戰(zhàn)場

量子與光子：顛覆既有邏輯的潛力選項(xiàng)

IBM的量子優(yōu)勢實(shí)驗(yàn)展示出量子運(yùn)算處理特定優(yōu)化問題的潛力，速度比GPU快1,000倍，儘管目前錯誤率仍高，但前景令人矚目。

另一方面，新創(chuàng)公司Lightmatter的光子AI晶片利用光取代電子進(jìn)行傳輸與運(yùn)算，在矩陣乘法任務(wù)中能節(jié)省90%能源消耗，已獲Google Ventures等風(fēng)投資助。

OpenAI重塑晶片設(shè)計(jì)鏈

Sam Altman高喊7兆美元自建晶片廠的構(gòu)想，若以每片晶圓產(chǎn)出50顆AI晶片估算，足可建造1,750座晶圓廠，超越臺積電、三星與英特爾的總和。

此舉的戰(zhàn)略意涵明確：擺脫對NVIDIA的高度依賴，走蘋果M系列自研晶片的路線，實(shí)現(xiàn)演算法與硬體垂直整合。不過，半導(dǎo)體業(yè)界普遍質(zhì)疑其可行性，尤其在先進(jìn)製程與ASIC設(shè)計(jì)人才極度稀缺的當(dāng)下，該計(jì)畫恐淪為「資本黑洞」。

圖三 : NVIDIA高階AI晶片規(guī)格與應(yīng)用比較

結(jié)語

生成式AI正在從科技突破走向大規(guī)模應(yīng)用，而算力需求已成決定競爭力的關(guān)鍵要素。當(dāng)前這場硬體競賽，不再僅是晶片效能的比拼，更是生態(tài)系的全面戰(zhàn)爭。NVIDIA以CUDA鎖定開發(fā)者心智，Google透過雲(yún)端垂直整合降低總體運(yùn)算成本，AMD則以異構(gòu)架構(gòu)與性價比撬動市場。

然而，OpenAI晶片自研計(jì)畫、Meta的開源計(jì)算技術(shù)，以及RISC-V的潛在顛覆，都預(yù)示這場戰(zhàn)爭沒有絕對的贏家。在AI時代，誰能在每瓦電力中萃取出最多智慧，誰就將成為新世代科技霸權(quán)的締造者。

相關(guān)文章

?	揭開CPO與光互連的產(chǎn)業(yè)轉(zhuǎn)折
?	運(yùn)用AI提升BFSI產(chǎn)業(yè)經(jīng)營優(yōu)勢的關(guān)鍵策略
?	當(dāng)生成式AI遇上機(jī)器視覺
?	生成式AI 整合機(jī)器視覺檢測的崛起
?	形塑AOI產(chǎn)業(yè)創(chuàng)新生態(tài)

相關(guān)討論

相關(guān)新聞

»	達(dá)梭系統(tǒng)2025技術(shù)年會用模擬技術(shù)驅(qū)動AI創(chuàng)新研發(fā)
»	趨勢科技於AWS re:Invent發(fā)表首套「AI集中曝險管理方案」
»	TeamT5雙平臺奪下精品獎國際化創(chuàng)新能力再獲肯定
»	資策會×衛(wèi)福部啟動綠色醫(yī)療國際對話加速邁向永續(xù)與淨(jìng)零
»	HPE攜手合作夥伴成立量子擴(kuò)展聯(lián)盟加速量子技術(shù)主流化

｜

｜

｜

｜

｜

｜

	︱	Copyright ©1999-2025 遠(yuǎn)播資訊股份有限公司版權(quán)所有 Powered by O3 v3.20.2048.103.85.191.138
		地址:臺北數(shù)位產(chǎn)業(yè)園區(qū)（digiBlock Taipei） 103臺北市大同區(qū)承德路三段287-2號A棟204室電話 (02)2585-5526 #0 轉(zhuǎn)接至總機(jī) / E-Mail: webmaster@ctimes.com.tw