久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

微軟公司宣布不再支持你正在使用的 IE瀏覽器,這會(huì)嚴(yán)重影響瀏覽網(wǎng)頁(yè),請(qǐng)使用微軟最新的Edge瀏覽器
廠商專(zhuān)區(qū)
產(chǎn)品/技術(shù)
應(yīng)用分類(lèi)

破紀(jì)錄:史上最大芯片誕生!面積超過(guò)iPad

2019-08-21 10:34 來(lái)源:互聯(lián)網(wǎng) 編輯:Angelina

人類(lèi)對(duì)于算力的追求永無(wú)止境,就在近日,我們似乎前進(jìn)了一大步!位于美國(guó)加州的創(chuàng)業(yè)公司 Cerebras 發(fā)布了號(hào)稱全球最大的芯片,而且是專(zhuān)門(mén)為 AI 計(jì)算打造的。

這款名為 Wafer Scale Engine(WSE)的芯片擁有 1.2 萬(wàn)億個(gè)晶體管,其數(shù)量是英偉達(dá)最新一代旗艦 GPU Titan V 的 57 倍。它的尺寸已經(jīng)比一臺(tái) iPad 還要大。

WSE 使用臺(tái)積電 16 納米制程工藝打造,面積 46,225 平方毫米,包含 400,000 個(gè)核心,片上存儲(chǔ)高達(dá) 18G,功耗 1.5 萬(wàn)瓦(約等于 6 臺(tái)電磁爐的功率),內(nèi)存帶寬 9PB/秒,通信結(jié)構(gòu)帶寬 100PB/秒。該公司表示,僅用一塊這樣的芯片即可驅(qū)動(dòng)復(fù)雜的人工智能系統(tǒng),從無(wú)人駕駛汽車(chē)到監(jiān)控系統(tǒng)。

Cerebras 的「暴力美學(xué)」引來(lái)人們驚呼:WSE 的晶體管數(shù)量已經(jīng)超過(guò)人類(lèi)大腦中的神經(jīng)元了!

在此之前,其實(shí)三星也開(kāi)發(fā)過(guò)一款 2 萬(wàn)億個(gè)晶體管的閃存芯片(eUFS),但 Cerebras 的這款芯片是用來(lái)進(jìn)行處理工作的。此外,WSE 還實(shí)現(xiàn)了 3000 倍的速度提升以及 10000 倍的存儲(chǔ)帶寬擴(kuò)展。

這塊芯片面積達(dá)到了 46,225 平方毫米,而英偉達(dá) GPU Titan V 的核心面積也「僅有」815 平方毫米。

Cerebras 表示,WSE 可以把處理復(fù)雜數(shù)據(jù)所需的時(shí)間從幾個(gè)月縮短到幾分鐘。

「AI 模型訓(xùn)練時(shí)間的縮減將會(huì)消除這個(gè)行業(yè)進(jìn)步的主要瓶頸,」Cerebras 首席執(zhí)行官、創(chuàng)始人 Andrew Feldman 表示。他是一個(gè)芯片行業(yè)資深人士,此前曾將自創(chuàng)的一家公司以 3.34 億美元的價(jià)格出售給 AMD。

目前,Cerebras 已在向少量用戶提供這種芯片了,不過(guò)價(jià)格尚未透露。

今天的人工智能系統(tǒng)主要基于深度神經(jīng)網(wǎng)絡(luò),其高度依賴于強(qiáng)大的計(jì)算機(jī)算力——大多數(shù)公司使用圖形計(jì)算單元(GPU)處理 AI 模型訓(xùn)練的任務(wù)。然而顧名思義,GPU 是為了面向圖形計(jì)算而設(shè)計(jì)的,谷歌等公司近年來(lái)已經(jīng)設(shè)計(jì)出了 TPU 這樣的神經(jīng)網(wǎng)絡(luò)計(jì)算專(zhuān)用芯片。

大多數(shù)芯片實(shí)際上是在一個(gè) 12 英寸的硅晶片上集合許多芯片,并在芯片上進(jìn)行批量加工。但 Cerebras Systems 開(kāi)發(fā)的這款芯片是連接在一個(gè)晶片上的單個(gè)芯片?;ミB接的設(shè)計(jì)是為了讓所有的晶體管都能高速運(yùn)轉(zhuǎn),這樣 1.2 萬(wàn)億個(gè)晶體管就能像一個(gè)整體一樣運(yùn)行。

巨型 AI 芯片真的可行?

芯片的大小在 AI 計(jì)算中至關(guān)重要,因?yàn)樾酒酱?,處理信息的速度越快,得出答案的時(shí)間也就越短。如果可以減少訓(xùn)練時(shí)間,研究者就可以嘗試更多的想法、使用更多的數(shù)據(jù)去解決新問(wèn)題。谷歌、Facebook、OpenAI、騰訊、百度以及其他科技巨頭都表示,當(dāng)今 AI 最大的問(wèn)題是模型訓(xùn)練時(shí)間過(guò)長(zhǎng)。減少訓(xùn)練時(shí)間可以克服整個(gè)行業(yè)的一大瓶頸。

當(dāng)然,一般芯片廠商不會(huì)選擇把芯片造那么大,這是因?yàn)椋趩蝹€(gè)晶片上,制造過(guò)程中往往會(huì)產(chǎn)生一些瑕疵。如果說(shuō)一個(gè)瑕疵會(huì)導(dǎo)致芯片出現(xiàn)故障,那么幾個(gè)瑕疵就會(huì)導(dǎo)致芯片報(bào)廢。如果一個(gè)硅晶片上只有一個(gè)芯片,那么產(chǎn)生瑕疵的概率幾乎是百分之百,而瑕疵會(huì)導(dǎo)致芯片報(bào)廢。為了保證成品率,Cerebras 采用了冗余式的設(shè)計(jì):如果有的核心出了問(wèn)題,內(nèi)部鏈接可以跳過(guò)壞掉的核心。這種方法大大降低了芯片的制造成本。

Cerebras Systems 的 CEO Feldman 表示,WSE 芯片著眼于 AI 從頭進(jìn)行設(shè)計(jì),其中包含眾多根本上的創(chuàng)新,通過(guò)解決數(shù)十年來(lái)限制芯片尺寸的問(wèn)題(如 cross-reticle 連接、成品率、功率輸送、封裝)來(lái)提高性能?!该恳粋€(gè)架構(gòu)決策都是為了提高 AI 的性能。因此,WSE 芯片在有限的功耗和空間范圍內(nèi),基于工作負(fù)載實(shí)現(xiàn)了數(shù)百甚至數(shù)千倍的性能提升?!?

這些性能的提升是通過(guò)加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的每一部分來(lái)實(shí)現(xiàn)的。一個(gè)神經(jīng)網(wǎng)絡(luò)就是一個(gè)多級(jí)計(jì)算反饋回路。輸入在回路中傳遞越快,該回路學(xué)習(xí)(訓(xùn)練)的速度就越快。加快輸入傳遞速度可以通過(guò)加速回路中的計(jì)算和通信來(lái)實(shí)現(xiàn)。

WSE 的超大體積使其可以搭載更多用于計(jì)算的核以及更加接近核的內(nèi)存,從而核可以高效運(yùn)轉(zhuǎn)。由于這個(gè)龐大的核陣列和內(nèi)存都在一個(gè)芯片上,因此所有的通信都是在其上進(jìn)行的,這意味著它的低延遲通信帶寬是巨大的,所以核組的協(xié)作效率可以最大化。

這個(gè) 46225 平方毫米的硅芯片上有 40 萬(wàn)個(gè) AI 優(yōu)化的、無(wú)緩存、無(wú)開(kāi)銷(xiāo)的計(jì)算核以及 18GB 的本地、分布式、超高速 SRAM 內(nèi)存,作為內(nèi)存層次結(jié)構(gòu)的唯一層次。內(nèi)存帶寬為每秒 9PB。這些核通過(guò)一個(gè)細(xì)粒度的、全硬件的、片上網(wǎng)狀連接的通信網(wǎng)絡(luò)連接在一起,提供每秒 100 PB 的總帶寬。更多的核、更多的本地內(nèi)存和低延遲的高帶寬結(jié)構(gòu)一起構(gòu)成了加速 AI 工作的最佳架構(gòu)。

Tirias Research 創(chuàng)始人兼首席分析師 Jim McGregor 在一份聲明中表示:「雖然 AI 在一般意義上得到應(yīng)用,但沒(méi)有兩個(gè)數(shù)據(jù)集或兩項(xiàng) AI 任務(wù)是相同的。新的 AI 工作負(fù)載不斷涌現(xiàn),數(shù)據(jù)集也持續(xù)增大?!?

「隨著 AI 的發(fā)展,芯片和平臺(tái)解決方案也在不斷發(fā)展。Cerebras WSE 是半導(dǎo)體和平臺(tái)設(shè)計(jì)領(lǐng)域的一項(xiàng)驚人的工程成就,能夠在單晶片規(guī)模的解決方案中提供媲美超級(jí)計(jì)算機(jī)的計(jì)算能力、高性能內(nèi)存和寬帶?!?

破紀(jì)錄:史上最大芯片誕生!面積超過(guò)iPad

這種面積的芯片,供電和冷卻都是大問(wèn)題,看起來(lái)水冷是必須的了。

Cerebras 表示,如果沒(méi)有與臺(tái)積電多年來(lái)的緊密合作,公司就不會(huì)取得此次破紀(jì)錄的成就。

臺(tái)積電高級(jí)運(yùn)營(yíng)副總裁 J.K. Wang 表示:「我們與 Cerebras Systems 合作制造出了 Cerebras Wafer Scale Engine,這是 wafer scale 開(kāi)發(fā)的一個(gè)行業(yè)里程碑?!?

40 萬(wàn)個(gè) AI 優(yōu)化的計(jì)算核心

WSE 包含 40 萬(wàn)個(gè) AI 優(yōu)化的計(jì)算核心。該計(jì)算核心被稱為稀疏線性代數(shù)核(Sparse Linear Algebra Cores,SLAC),它們靈活可編程,并且為支撐所有神經(jīng)網(wǎng)絡(luò)計(jì)算的稀疏線性代數(shù)進(jìn)行優(yōu)化。SLAC 的可編程性確保核心能夠在不斷變化的機(jī)器學(xué)習(xí)領(lǐng)域運(yùn)行所有神經(jīng)網(wǎng)絡(luò)算法。

由于 SLAC 針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算原語(yǔ)(compute primitives)進(jìn)行優(yōu)化,因而實(shí)現(xiàn)了業(yè)界最佳利用率——通常是 GPU 的 3 至 4 倍。此外,WSE 包含 Cerebras 發(fā)明的稀疏捕獲技術(shù),以加速深度學(xué)習(xí)等稀疏工作負(fù)載(包含 0 的工作負(fù)載)上的計(jì)算性能。

零在深度學(xué)習(xí)計(jì)算中很常見(jiàn)。一般情況下,相乘向量和矩陣中的大多數(shù)元素都為零。但是,乘零運(yùn)算浪費(fèi)了硅、功率和時(shí)間,因?yàn)闆](méi)有生成任何新信息。

由于 GPU 和 TPU 都是密集型執(zhí)行引擎——這些引擎在設(shè)計(jì)時(shí)永遠(yuǎn)不會(huì)考慮零的情況——它們會(huì)乘以每個(gè)元素(即使元素為零)。當(dāng) 50-98% 的數(shù)據(jù)為零時(shí),就像深度學(xué)習(xí)中常出現(xiàn)的情況,大多數(shù)乘法運(yùn)算是浪費(fèi)行為。由于 Cerebras 的 SLAC 永遠(yuǎn)不會(huì)乘以零,因而所有零數(shù)據(jù)被過(guò)濾掉,并可以在硬件中跳過(guò),使得有用功適時(shí)適當(dāng)?shù)赝瓿伞?

Cerebras 在發(fā)布會(huì)上表示,使用這種芯片處理人工智能負(fù)載時(shí),單個(gè)芯片可以承載整個(gè)神經(jīng)網(wǎng)絡(luò)的運(yùn)算。

18GB 的片上內(nèi)存

破紀(jì)錄:史上最大芯片誕生!面積超過(guò)iPad

內(nèi)存是計(jì)算機(jī)架構(gòu)的關(guān)鍵組件。內(nèi)存越接近計(jì)算,計(jì)算速度越快,延遲越低,數(shù)據(jù)移動(dòng)的功率效率也越高。高性能深度學(xué)習(xí)需要大量計(jì)算和頻繁的數(shù)據(jù)訪問(wèn)。這就要求計(jì)算核心與內(nèi)存之間極為接近,但在 GPU 中卻并非如此,GPU 的絕大多數(shù)內(nèi)存運(yùn)行速度很慢,并且遠(yuǎn)離芯片。

WSE 包含了較迄今為止最多的內(nèi)核和本地內(nèi)存,并在一個(gè)時(shí)鐘周期內(nèi)擁有 18GB 的片上內(nèi)存。WSE 核心本地內(nèi)存的集合提供了每秒 9PB 的內(nèi)存寬帶——是當(dāng)前最好 GPU 的片上內(nèi)存的 3000 倍,內(nèi)存寬帶擴(kuò)展了 10000 倍。

高帶寬、低延遲的通信結(jié)構(gòu)

在芯片面積巨大的情況下,如何保證高速內(nèi)部通信也是一個(gè)巨大挑戰(zhàn)。WSE 上所使用的處理器間通信結(jié)構(gòu)被稱為 Swarm,與傳統(tǒng)通信技術(shù)相比,它以非常小的功耗實(shí)現(xiàn)了帶寬和延遲的突破。

Swarm 提供了一個(gè)低延遲、高寬帶的 2D 網(wǎng)格,它連接了 WSE 上的 40 萬(wàn)個(gè)核心,寬帶每秒達(dá) 100PB。此外,Swarm 支持單字節(jié)活躍消息,這些消息可以通過(guò)接收核心來(lái)處理,并且不需要任何軟件開(kāi)銷(xiāo)。

路由、可靠的消息傳遞以及同步均在硬件中處理。消息自動(dòng)激活每個(gè)到達(dá)消息的應(yīng)用處理程序。Swarm 為每個(gè)神經(jīng)網(wǎng)絡(luò)提供獨(dú)特和優(yōu)化的通信路徑?;谶\(yùn)行中特定用戶定義的神經(jīng)網(wǎng)絡(luò),軟件將通過(guò) 40 萬(wàn)個(gè)核心來(lái)配置最優(yōu)通信路徑,以連接處理器。

通常情況下,消息會(huì)遍歷一個(gè)具有納秒延遲的硬件鏈接。一個(gè) Cerebras WSE 的聚合寬帶為每秒 100PB。TCP/IP 和 MPI 等通信軟件則不再需要,因而可以避免性能損失。同時(shí),這種架構(gòu)的通信能量成本遠(yuǎn)低于 1 皮焦耳/比特,幾乎比 GPU 低了 2 個(gè)數(shù)量級(jí)。Swarm 通信架構(gòu)融合了極大的寬帶和極低的延遲,使得 Cerebras WSE 能夠以較當(dāng)前任何可用解決方案更快的速度學(xué)習(xí)。

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電源網(wǎng)。本網(wǎng)站原創(chuàng)內(nèi)容,如需轉(zhuǎn)載,請(qǐng)注明出處;本網(wǎng)站轉(zhuǎn)載的內(nèi)容(文章、圖片、視頻)等資料版權(quán)歸原作者所有。如我們采用了您不宜公開(kāi)的文章或圖片,未能及時(shí)和您確認(rèn),避免給雙方造成不必要的經(jīng)濟(jì)損失,請(qǐng)電郵聯(lián)系我們,以便迅速采取適當(dāng)處理措施;歡迎投稿,郵箱∶editor@netbroad.com。

微信關(guān)注
技術(shù)專(zhuān)題 更多>>
技術(shù)專(zhuān)題之EMC
技術(shù)專(zhuān)題之PCB

頭條推薦

電子行業(yè)原創(chuàng)技術(shù)內(nèi)容推薦
客服熱線
服務(wù)時(shí)間:周一至周五9:00-18:00
微信關(guān)注
獲取一手干貨分享
免費(fèi)技術(shù)研討會(huì)
editor@netbroad.com
400-003-2006