特斯拉自研發超高效能晶片D1,訓練人工智慧效率光速快!

特斯拉自研發超高效能晶片D1,訓練人工智慧效率光速快!
特斯拉自研發超高效能晶片D1,訓練人工智慧效率光速快!

你能想像訓練人工智慧的超高效能晶片D1,竟是出自特斯拉自行研發的嗎?

 

Vehicle Automobile Car Road Tesla Auto White Car

 

目錄

Dojo D1:超越以往自駕的晶片運算

 

電動車大廠特斯拉(Tesla)於上個月舉行的 AI 日(Tesla AI Day)上,發布 2 項重要產品:一是機器人「Tesla Bot」、另一個是由特斯拉自動駕駛硬體高級總監 Ganesh Venkataramanan 宣布自行研發的 AI 晶片「Dojo D1」,用來訓練資料中心,是特斯拉 Dojo 超級電腦晶片的一部分。

 

Dojo D1 晶片的研發讓特斯拉不僅是一間汽車公司、人工智慧的業者,還是一家晶片供應商!Tesla 和 Intel、Nvidia、Graphcore 等科技大廠,同為 AI 訓練模型的晶片供應者。

 

電動車大廠特斯拉(Tesla)於上個月的 AI 日(Tesla AI Day)上發布自行研發的 AI 晶片「Dojo D1」,可以用來訓練資料中心,是特斯拉 Dojo 超級電腦晶片的一部分。

 

Dojo 計畫負責人 Ganesh 說 「D1 晶片——從架構到封裝——完全是由特斯拉團隊所設計。其晶片就像 GPU,但是又有『CPU 等級』的靈活度,上下載頻寬還是網路晶片的兩倍⋯⋯」因此 D1 晶片已經超越了單純的 CPU 與GPU,而直接被稱為「Pure Learning Machine」(純學習機器)。

 

訓練人工智慧模型,需要大量的運算能力,而 D1 晶片的效能,對 AI 模型的訓練來說,可以說是是綽綽有餘的。像是車內攝影機所蒐集的各種影像,Dojo 晶片未來將協助自駕 AI 處理、應對處理路上的狀況。

 

特斯拉 CEO 馬斯克表示:特斯拉將在 2022 年投入 Dojo 的營運,目標是能夠實現真正的 100% 全自動駕駛。特斯拉稱 D1 晶片的頻寬是當前網絡中使用的晶片的兩倍。通過設計這樣一款高性能晶片,該公司希望保持低延遲和最大頻寬。

 

Dojo D1:超越以往自駕的晶片運算

D1 號稱由 500 億個電晶體構成,超越 AMD 的 EPYC Rome(395.4 億個電晶體),並略少於擁有多達 540 億個電晶體的 Nvidia GA100 Ampere SoC。D1 的大小約 645mm²,每 mm² 的整合高達 7750 萬個電晶體的有效電晶體密度,功率密度高於 Nvidia 的 A100 GPU 並略低於 Apple 的 M1 晶片。

 

一塊 D1 晶片由 354 個訓練節點組成,每個訓練節點內部都起碼有以下部分:

1. 64 位元 4 路多線程的CPU

2. 1.25MB SRAM 緩存

3. 低延遲數據交換結構;

4. SIMD 單指令多數據流的浮點/整數單元

 

D1 晶片訓練節點的一大特點,就在於「低延遲數據交換結構」:有一個叫做「 NOC Router」的結構,這是訓練節點之間交換數據的工具——特斯拉近乎苛求地給每一個小節點,都設計了上下左右各 64bit 的通道。

 

D1 晶片是 AI 訓練晶片,當然也有高效能的運算能力:單片 FP32 的運算能力高達每秒 22.6 兆次的浮點運算(單位為TOPs)、BF16 運算能力更是達到 262 TOPs——每秒 262 兆次。特斯拉展示:單顆 D1 晶片,其神經網路運算能力已超越一張顯示卡,也就是說性能比 Nvidia 的 GPU 或 Google 的 TPU 更強。

 

 

Tesla 一手打造的 D1 晶片是 AI 訓練晶片,有高效能的運算能力:單片 FP32 的運算能力高達每秒 22.6 兆次的浮點運算(單位為TOPs)、BF16 運算能力更是達到 262 TOPs——每秒 262 兆次。特斯拉展示:單顆 D1 晶片,其神經網路運算能力已超越一張顯示卡,也就是說性能比 Nvidia 的 GPU 或 Google 的 TPU 更強。

 

目前將每 25 個 D1 晶片組合成一個 Training Tile(訓練磚),而每個 Training Tile 的每秒浮點運算次數又為驚人的九千兆次(9 PFlots) ,每 12 個 Training Tile 又組成一個伺服器機櫃,每秒浮點運算次數總共為十億八千兆(108 PFlops);最後再將幾個伺服器機櫃搭配成擁有超高效運算能力的 Dojo 超級電腦,且擁有 50 多萬個訓練節點,超過 17 公里的內部電路連接,完整滿足其 AI 人工智慧的訓練需求。

 

 

Tesla 將每 25 個 D1 晶片組合成一個 Training Tile(訓練磚),每個 Training Tile 的每秒浮點運算次數又為驚人的九千兆次(9 PFlots)。

 

D1 將採用 7 奈米製程生產,可能將由台積電代工;但是三星也為特斯拉製造 HW3 晶片,所以由他們代工 D1 的可能性也很高。

 

 

 

 

 

推薦文章:
UI/UX 按鈕設計基本7個原則,優化電商轉換率


介面、體驗大不同!UI設計/UX設計工作內容完整剖析


使用 A/B 測試來改善網站 UI 設計的 30 個例子


落實「數位優先」的 UI 設計,Audi、福斯把 Logo 壓扁了?


AI技術導入東奧!7個黑科技你不能不知道!(一)


憂鬱症掰掰,人工智慧快速判別及早治療!


軟404讓你SEO成效不彰?放心,谷歌正著手處理中!