AI計算進入廉價時代!看谷歌開放TPU到底怎麼回事

谷歌於2018年2月12日以Beta測試的形式開放了一直只是自用的TPU,服務的名稱為Cloud TPUs(雲端TPUs),是用於雲端伺服器的晶元,有需要使用的客戶需要通過谷歌博客上的鏈接進行資料填寫申請使用,使用費用為6.5美元每TPU每小時。

一、Google博客內容

這篇博客介紹了谷歌推出的Cloud TPUs服務,開放提供用於雲端伺服器的TPU晶元,客戶可通過該服務使用谷歌的TPU,谷歌稱使用單個TPU訓練不到一天的時間就能讓ResNet-50達到ImageNet基準測試的精度,而整個花費將不到200美元。

雲端TPU機器學習加速器Beta測試版現已上市

作者:John Berrus(雲TPUs產品經理 )和Zak Stone(TensorFlow和雲TPUs產品經理)

Advertisements

從今天開始,Cloud TPU在Google雲平台(GCP)上以beta版形式推出,以幫助機器學習(ML)專家更快地訓練和運行ML模型。

雲端TPU是Google設計的一系列硬體加速器,經過優化,可加速和擴展使用TensorFlow編程的特定ML工作負載。每個雲端TPU由四個定製ASIC構成,可將高達180 teraflops( 萬億次浮點計算/秒)的浮點性能和64 GB高帶寬內存打包到單個主板上。

這些主板可以單獨使用,也可以通過快速專用網路連接在一起,形成我們稱之為「TPU pod」的多petaflop( 千萬億次浮點計算/秒)ML超級計算機。今年晚些時候,我們將在GCP上提供這些大型超級計算機。

Advertisements

我們設計了雲端TPU,針對TensorFlow工作負載提供差異性能,並使ML工程師和研究人員能夠更快地迭代。例如:

1、您可以通過您控制並可自定義的Google Compute Engine虛擬機,以互動方式獨佔訪問連接網路的雲端TPU,而無需在共享計算群集上等待任務排期。

2、與其等上幾天或幾周來訓練關鍵業務型ML模型,您可以在一系列雲端TPU上花一天訓練同一型號的多個變體,並在第二天在生產中部署最精確的訓練模型。

3、使用單個雲端TPU並遵循本教程,您可以在不到一天的時間內訓練ResNet-50以達到ImageNet基準測試挑戰的預期精度,所有這些的花費都遠低於200美元!

①ML模型訓練,輕鬆搞定

一般來說,為定製ASIC和超級計算機編寫程序需要深入專業的專業知識。相比之下,您可以使用高級TensorFlow API編程雲端TPU,並且我們已經開源了一套參考高性能雲端TPU模型實施,以幫助您立即開始使用:

1、ResNet-50和其他流行的圖像分類模型

2、用於機器翻譯和語言建模的變壓器

3、用於物體檢測的RetinaNet

為了節省您的時間和精力,我們不斷測試這些模型實現的性能和收斂性,以達到標準數據集上的預期精度。

隨著時間的推移,我們將開放源代碼模型實現。 大膽的ML專家可以使用我們提供的文檔和工具,自行優化其他TensorFlow雲端TPU模型。

如果現在開始使用雲端TPU,當我們在今年晚些時候推出TPU pods時,您將能夠從很大的精確度的改進中受益。正如我們在NIPS 2017上宣布的那樣,ResNet-50和Transformer訓練時間從的將近一天時間下降到在完整的TPU pod上只需要不到30分鐘,無需更改代碼。

領先的投資管理公司Two Sigma對Cloud TPU的性能和易用性印象深刻。

「我們決定將我們的深度學習研究集中在雲端的原因有很多,但主要是為了獲得最新的機器學習基礎設施,Google Cloud TPU是支持深度學習的創新且快速發展的技術的一個例子,我們發現將TensorFlow工作負荷移至TPU可大大降低編程新模型的複雜性以及訓練它們所需的時間,從而提高了我們的生產力。使用雲端TPU代替其他加速器集群,使我們能夠專註於構建我們的模型,而不會被集群通信模式的複雜性的管理而分散注意力。」

– Two Sigma首席技術官Alfred Spector

②可擴展的ML平台

雲端TPU還簡化了計算和管理ML計算資源:

您可以為您的團隊提供最先進的ML加速,並根據需求變化動態調整您的容量。

不需要在設計,安裝和維護現場ML計算(具有專門的電源,冷卻,網路和存儲要求)投入大量資金,時間和專業知識,而是可以從大規模,緊密集成的ML基礎架構多年來一直在Google上進行了大量優化。

不需要費力讓驅動在大量工作站和伺服器上保持最新狀態。雲端TPU已預先配置 – 無需安裝驅動程序!

保護所有Google Cloud服務的複雜的安全機制和做法,也同樣在保護您。

「自從使用Google Cloud TPU以來,我們對它們的速度印象深刻 – 通常需要幾天時間的情況現在可能只需要幾小時。深度學習正迅速成為運行自動駕駛汽車的軟體的中堅力量。隨著更多數據的出現,結果會變得更好,並且每周都有重大的突破。在這個世界上,雲端TPU通過整合來自我們車隊的最新導航相關數據以及來自研究界的最新演算法進展,幫助我們迅速行動。」

– Lyft的自動駕駛5級軟體主管Anantha Kancherla

在Google Cloud上,我們希望為客戶提供適合每個ML工作負載的最佳雲端,並將與雲端TPU一起提供各種高性能CPU(包括Intel Skylake)和GPU(包括NVIDIA Tesla V100)。

③Cloud TPUs入門

雲端TPUs的數量有限,現在的使用費用為6.50美元/TPU/小時。

二、Jeff Dean連發十條推特

谷歌大牛Jeff Dean在就此事連發十條推特,不過這些推特內容幾乎都是Google博客里的內容,但除此之外,Jeff還轉推了一篇Technology的文章,他說這篇文章說的比較全面。文章名字叫:谷歌開放自用AI晶元。該文章稱谷歌希望覆蓋儘可能多的人,並已經在慢慢改變晶元市場的買賣雙方的現狀。

文章內容如下:

幾年前,谷歌創造了一種新型計算機晶元來幫助其巨大的人工智慧系統。這些晶元旨在處理複雜的過程,一些人認為這將是計算機行業未來的關鍵。

這家互聯網巨頭周一表示,它將允許其他公司通過其雲計算服務購買這些晶元。谷歌希望圍繞晶元建立一個新的業務,稱為張量處理單元或TPU。

「我們試圖儘可能快地覆蓋儘可能多的人,」扎克·斯通(Zak Stone)表示,他與谷歌設計這些晶元的小型工程師團隊合作。

谷歌的舉動突出了現代技術建設和運營方式的幾個重大變化。谷歌正在設計專門為人工智慧設計晶元的運動,這是一場全球性的推動,包括幾十家初創公司以及英特爾,高通和Nvidia等熟悉的公司。

而現在,谷歌,亞馬遜和微軟等公司不僅僅是大型互聯網公司。他們是大型硬體製造商。

作為削減成本和提高數十億美元數據中心效率的一種方式,谷歌設計了這些龐大設施中的大部分硬體,從計算機伺服器到將這些機器連接在一起的網路設備。其他互聯網巨頭的情況也差不多。

除了TPU晶元,它們位於其數據中心內,該公司為其智能手機設計了一個AI晶元。

目前,Google的新服務專註於教計算機識別物體的方式,稱為計算機視覺技術。但隨著時間的推移,這款新晶元還將幫助企業建立更廣泛的服務,Stone先生說。

在去年年底,希望加快無人駕駛汽車的研發,Lyft開始測試Google的新晶元。

利用這些晶元,Lyft希望加速開發允許無人駕駛汽車識別路牌或行人的系統。對這些系統進行「訓練」可能需要數天時間,但是對於新晶元,訓練有望縮短到幾個小時。

「這裡有巨大的潛力,」負責Lyft無人駕駛汽車項目軟體的Anantha Kancherla說。

TPU晶元幫助加速了一切,從谷歌助手、安卓手機上的語音指令識別服務到谷歌翻譯(在線翻譯APP)。

他們也在降低Google對晶元製造商如Nvidia和Intel的依賴。在類似的舉措中,它設計了自己的伺服器和網路硬體,減少了對戴爾,惠普和思科等硬體製造商的依賴。

這可以降低成本,這在運行大型在線操作時至關重要,Casey Bisson(負責監督三星所擁有的名為Joyent的雲計算服務 )表示。有時,構建高效服務的唯一方法是構建自己的硬體。

「在功率預算範圍內,在熱量預算範圍內,在小範圍內打包至多的計算能力。」比森先生說。

包括谷歌助理等服務在內的新一波人工智慧由「神經網路」驅動,這是一種複雜的演算法,可通過分析大量數據自行學習任務。例如,通過分析老客戶電話的資料庫,神經網路可以學習識別智能手機中使用過的命令。但是這需要非常大的計算能力。

通常情況下,工程師會使用圖形處理單元或GPU來訓練這些演算法,這些晶元原本是專為渲染遊戲和其他圖形為主的軟體的圖像而設計的。大多數這些晶元都由Nvidia提供。

在設計自己的A.I.時。晶元方面,谷歌希望超越這些圖形處理為主的晶元的可能性,加快自己的A.I.研究進展並吸引更多企業加入到其雲服務中。

與此同時,谷歌已經從Nvidia獲得了一定的獨立性,並有能力與其晶元供應商談判要求降價。

「谷歌已經變得如此之大,投資晶元是有道理的,」Fred Weber說,他曾擔任晶元製造商AMD的首席技術官十年。 「這是他們的籌碼。他們可以砍掉中間人。」

這並不意味著谷歌將停止從Nvidia和其他晶元製造商購買晶元。但它正在改變市場。韋伯說: 買賣雙方的局勢已經發生了變化。

多年以來,Google一直拿自己可能自主設計晶元而不是從英特爾購買這件事開玩笑。

韋伯先生和其他內部人士質疑Google是否會這樣做,僅僅是因為C.P.U.是如此複雜,而且設計和維護其中一個晶元將會變得更加困難。但去年秋天在舊金山的一次私人活動中,加州大學伯克利分校的計算機科學教授戴維·帕特森,現在在谷歌從事晶元技術方面的工作,被問到谷歌是否會這麼做時,他表示:「這又不是什麼特別難的事」。

原文來自:Google Blog

Advertisements

你可能會喜歡