GPU有局限性了?英偉達反手就是一「巴掌」

GPU在人工智慧來臨的前夜火了,很多人的眼光也聚焦到了英偉達身上,隨之而來的,流言也就多了起來。有人認為,GPU在人工智慧的應用存在一定的局限性。但這些只同留在TESLA V100發布之前,這塊手掌大小的晶元凝聚了 Nvidia 7000 多名工程師超過 3 年的研發,投入資金 30 億美元。

據了解,TESLA V100 使用的 GPU 就是 Volta 架構的首款產品 GV100。這塊手掌大小的晶元凝聚了 Nvidia 7000 多名工程師超過 3 年的研發,投入資金 30 億美元。TESLA V100 集成了 210 億個晶體管、5120 個 CUBA 內核,雙精度浮點運算性能達到 7.5 TFLOP/s、顯存帶寬為 900GB/S。

Advertisements

我們看看TESLA V100具體從哪些方面讓流言不攻自破:

流言一、GPU應用過程中無法充分發揮并行計算優勢。深度學習包含訓練和應用兩個計算環節,GPU 在深度學習演算法訓練上非常高效,但在應用時一次性只能對於一張輸入圖像進行處理, 并行度的優勢不能完全發揮。

針對深度學習優化的流式多處理器(SM)架構。作為 GPU 處理器的核心組件,在 Volta 架構中 NVIDIA 重新設計了 SM,相比之前的 Pascal 架構而言,這一代 SM 提高了約 50% 的能效,在同樣的功率範圍內可以大幅提升 FP32(單精度浮點)和 FP64(雙精度浮點)的運算性能。專為深度學習設計的全新 Tensor Core 在模型訓練場景中,最高可以達到 12 倍速的 TFLOP(每秒萬億次浮點運算)。

Advertisements

另外,由於全新的 SM 架構對整型和浮點型數據採取了相互獨立且并行的數據通路,因此在一般計算和定址計算等混合場景下也能輸出不錯的效率。Volta 架構新的獨立線程調度功能還可以實現并行線程之間的細粒度同步和協作。最後,一個新組合的 L1 高速數據緩存和共享內存子系統也顯著提高了性能,同時大大簡化了開發者的編程步驟。

流言二, 硬體結構固定不具備可編程性。深度學習演算法還未完全穩定,若深度學習演算法發生大的變化,GPU 無法像FPGA 一樣可以靈活的配置硬體結構。

Tesla V100 的架構設計初衷即為了實現更高的可編程度,讓用戶能夠在更複雜多樣的應用程序中高效工作。Volta 是首款支持獨立線程調度的 GPU,可在程序中的并行線程之間實現更精細的同步與寫作。提高線程寫作的靈活性,最終實現更高效、更精細的并行演算法。

第三, 運行深度學習演算法能效遠低於FPGA。學術界和產業界研究已經證明,運行深度學習演算法中實現同樣的性能,GPU 所需功耗遠大於FPGA,例如國內初創企業深鑒科技基於FPGA 平台的人工智慧晶元在同樣開發周期內相對GPU 能效有一個數量級的提升。

全新的最大節能模式可允許數據中心在現有功耗預算內,每個機架最高提升 40% 的計算能力。在此模式下,Tesla V100 以最大處理效率運行時,可提供高達 80% 的性能,而只需一半的功耗。

當然,Tesla V100 並不是終點,但可以看到的是,不論英偉達還是GPU,都在隨著人工智慧的發展逐漸走向成熟。

Advertisements

你可能會喜歡