公司:深圳市創(chuàng)寶來科技有限公司
聯(lián)系人:蘇先生
聯(lián)系方式:18923859947QQ:3005367043
公司網(wǎng)址:www.szcblic.com
專做進(jìn)口原裝,誠信經(jīng)營,大量現(xiàn)貨庫存,歡迎您隨時咨詢
2019年AI芯片產(chǎn)業(yè)深度研究報告
一、人工智能芯片發(fā)展現(xiàn)狀及趨勢
1、深度學(xué)習(xí)算法對芯片要求更為苛刻,通用CPU性價比相對較差
經(jīng)歷了 60 多年的起起伏伏之后,人工智能終于迎來了第三次爆發(fā)。第三次爆發(fā)的核心引爆點是深度學(xué)習(xí)算法的出現(xiàn),但其背后的支撐是數(shù)據(jù)和算力。對整個AI行業(yè)來講,算法、數(shù)據(jù)和算力三大基本要素中,數(shù)據(jù)尤其是海量數(shù)據(jù)的獲取和處理難度在下降,算法也在深度學(xué)習(xí)模型的基礎(chǔ)上不斷優(yōu)化,而負(fù)責(zé)將數(shù)據(jù)和深度算法統(tǒng)一協(xié)調(diào)起來的芯片能否獲得大的飛躍,成為市場關(guān)注的焦點。
深度學(xué)習(xí)算法對芯片性能需求主要表現(xiàn)在三個方面:一、海量數(shù)據(jù)在計算和存儲單元之間的高速通信需求。這不但需要芯片具備強(qiáng)大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬。二、專用計算能力需求高。深度學(xué)習(xí)算法中有大量卷積、殘差網(wǎng)絡(luò)、全連接等特殊計算需要處理,還需要提升運算速度,降低功耗。三、海量數(shù)據(jù)自身處理同樣也對芯片提出了新的要求,尤其是非結(jié)構(gòu)化數(shù)據(jù)的增多,對傳統(tǒng)芯片結(jié)構(gòu)造成了較大的壓力。
通用 CPU 在深度學(xué)習(xí)中可用但效率較低。比如在圖像處理領(lǐng)域,主要用到的是 CNN(卷積神經(jīng)網(wǎng)絡(luò)),在自然語言識別、語音處理等領(lǐng)域,主要用到的是 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),雖然這兩種算法模型有著較大的區(qū)別,但本質(zhì)上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數(shù)運算。傳統(tǒng) CPU 可用于做上述運算,但是 CPU 還有大量的計算邏輯控制單元,這些單元在 AI 計算中是用不上的,造成了 CPU 在 AI 計算中的性價比較低。
2、GPU、FPGA以及ASIC各有優(yōu)劣,成為當(dāng)前 AI 芯片行業(yè)的主流
正因為 CPU 在 AI 計算上的弱點,給了可以實現(xiàn)海量并行計算且能夠?qū)M(jìn)行計算加速的 AI 芯片留下了市場空間。從廣義上講,面向 AI 計算的芯片都可以稱為 AI 芯片,包括基于傳統(tǒng)架構(gòu)的 GPU、FPGA以及 ASIC(專用芯片),也包括正在研究但離商用還有較大差距的類腦芯片、可重構(gòu) AI 芯片等。
云端訓(xùn)練芯片市場較為集中,而推理市場云、邊兩端均有大量企業(yè)參與
按照部署位置劃分,AI 芯片可以分為云端芯片和邊緣端芯片。云端芯片部署位置包括公有云、私有云或者混合云等基礎(chǔ)設(shè)施,主要用于處理海量數(shù)據(jù)和大規(guī)模計算,而且還要能夠支持語音、圖片、視頻等非結(jié)構(gòu)化應(yīng)用的計算和傳輸,一般情況下都是用多個處理器并行完成相關(guān)任務(wù);邊緣端 AI 芯片主要應(yīng)用于嵌入式、移動終端等領(lǐng)域,如攝像頭、智能手機(jī)、邊緣服務(wù)器、工控設(shè)備等,此類芯片一般體積小、耗電低,性能要求略低,一般只需具備一兩種 AI 能力。
按照承擔(dān)的任務(wù)分,AI 芯片可以劃分為訓(xùn)練芯片和推理芯片。訓(xùn)練是指通過大量標(biāo)記過的數(shù)據(jù)在平臺上進(jìn)行“學(xué)習(xí)”,并形成具備特定功能的神經(jīng)網(wǎng)絡(luò)模型;推理則是利用已經(jīng)訓(xùn)練好的模型輸入新數(shù)據(jù)通過計算得到各種結(jié)論。訓(xùn)練芯片對算力、精度要求非常之高,而且還需要具備一定的通用性,以適應(yīng)多種算法的訓(xùn)練;推理芯片更加注重綜合能力,包括算力能耗、時延、成本等因素。
綜合來看,訓(xùn)練芯片由于對算力的特殊要求,只適合在云端部署,而且多采用的是“CPU+加速芯片”類似的異構(gòu)模式,加速芯片可以是 GPU,也可以是 FPGA 或者是 ASIC 專用芯片。AI 訓(xùn)練芯片市場集中度高,英偉達(dá)和谷歌領(lǐng)先,英特爾和AMD正在積極切入。推理在云端和終端都可進(jìn)行,市場門檻相對較低,市場參與者較多。云端推理芯片除了傳統(tǒng)的英偉達(dá)、谷歌、賽靈思等芯片大廠外,Groq等國際新興力量也在加入競爭,國內(nèi)寒武紀(jì)、比特大陸也有不錯表現(xiàn);終端推理芯片市場較為分散,場景各異,參與者除了英偉達(dá)、英特爾、ARM和高通之外,國內(nèi)企業(yè)如寒武紀(jì)、地平線、云知聲、云天勵飛等在各自細(xì)分領(lǐng)域均有所建樹。
GPU 擅長云端訓(xùn)練,但需與 CPU 異構(gòu)、功耗高且推理效率一般
GPU(Graphics Processing Unit)是一種由大量核心組成的大規(guī)模并行計算架構(gòu),專為同時處理多重任務(wù)而設(shè)計的芯片。正是由于其具備良好的矩陣計算能力和并行計算優(yōu)勢,最早被用于 AI 計算,并在云端獲得大量應(yīng)用。GPU 中超過 80%部分為運算單元(ALU),而 CPU 僅有 20%,因此 GPU更擅長于大規(guī)模并行運算。以英偉達(dá)的 GPUTITAN X 為例,該產(chǎn)品在深度學(xué)習(xí)中所需訓(xùn)練時間只有CPU 的 1/10 不到。但 GPU 用于云端訓(xùn)練也有短板,GPU 需要同 CPU 進(jìn)行異構(gòu),通過 CPU 調(diào)用才能工作,而且本身功耗非常高。同時,GPU 在推理方面需要對單項輸入進(jìn)行處理時,并行計算的優(yōu)勢未必能夠得到很好的發(fā)揮,會出現(xiàn)較多的資源浪費。
▲CPU與GPU架構(gòu)對比
FPGA 芯片算力強(qiáng)、靈活度高,但技術(shù)難度大國內(nèi)差距較為明顯
FPGA(Field-Programmable Gate Array)即現(xiàn)場可編程門陣列,該芯片集成了大量的基本門電路以及存儲器,其靈活性介于 CPU、GPU 等通用處理器和專用集成電路ASIC 之間,在硬件固定之前,允許使用者靈活使用軟件進(jìn)行編程。FPGA 在出廠時是“萬能芯片”,用戶可根據(jù)自身需求,用硬件描述語言對 FPGA 的硬件電路進(jìn)行設(shè)計;每完成一次燒錄,F(xiàn)PGA 內(nèi)部的硬件電路就有了確定的連接方式,具有了一定的功能;輸入的數(shù)據(jù)只需要依次經(jīng)過各個門電路,就可以得到輸出結(jié)果。
FPGA 應(yīng)用于 AI 有以下優(yōu)勢:
(1)算力強(qiáng)勁。由于 FPGA 可以同時進(jìn)行數(shù)據(jù)并行和任務(wù)并行計算,在處理特定應(yīng)用時效果更加明顯,對于某一個特定的運算,F(xiàn)PGA 可以通過編輯重組電路,生成專用電路,大幅壓縮計算周期。從賽靈思推出的 FPGA 產(chǎn)品看,其吞吐量和時延指標(biāo)都好于 CPU 和 GPU 產(chǎn)品。
(2)功耗優(yōu)勢明顯。FPGA 能耗比是CPU的10倍以上、GPU的3倍。由于在 FPGA 中沒有取指令與指令譯碼操作,沒有這部分功耗;而在復(fù)雜指令集(X86)的 CPU 中僅僅譯碼就占整個芯片能耗的約 50%,在 GPU 里取指與譯碼也會消耗 10%至 20%的能耗。
(3)靈活性好。使用通用處理器或 ASIC 難以實現(xiàn)的下層硬件控制操作技術(shù),利用 FPGA 可以很方便的實現(xiàn),從而為算法的功能實現(xiàn)和優(yōu)化留出了更大空間。
(4)成本相對 ASIC 具備一定優(yōu)勢。FPGA 一次性成本(光刻掩模制作成本)遠(yuǎn)低于 ASIC,在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下,利用具備可重構(gòu)特性的FPGA 芯片來實現(xiàn)半定制的人工智能芯片是最佳選擇。
正因為存在上述優(yōu)勢,F(xiàn)PGA 被廣泛用于 AI 云端和終端的推理。國外包括亞馬遜、微軟都推出了基于 FPGA 的云計算服務(wù),而國內(nèi)包括騰訊云、阿里云均在 2017 年推出了基于 FPGA 的服務(wù),百度大腦也使用了 FPGA 芯片。
從市場格局上看,全球 FPGA 長期被 Xilinx(賽靈思)、Intel(英特爾)、Lattice(萊迪思)、Microsemi(美高森美)四大巨頭壟斷。其中,賽靈思和英特爾合計占到市場的 90%左右,賽靈思的市場份額超過 50%,國內(nèi)廠商剛剛起步,差距較大。
專用芯片(ASIC)深度學(xué)習(xí)算法加速應(yīng)用增多,可提供更高能效表現(xiàn)和計算效率
ASIC(Application Specific Integrated Circuits),即專用芯片,是一種為特定目的、面向特定用戶需求設(shè)計的定制芯片,具備性能更強(qiáng)、體積小、功耗低、可靠性更高等優(yōu)點。在大規(guī)模量產(chǎn)的情況下,還具備成本低的特點。
ASIC 與 GPU、FPGA 不同,GPU、FPGA 除了是一種技術(shù)路線之外,還是實實在在的確定產(chǎn)品,而 ASIC 只是一種技術(shù)路線或者方案,其呈現(xiàn)出的最終形態(tài)與功能也是多種多樣的。近年來,越來越多的公司開始采用 ASIC 芯片進(jìn)行深度學(xué)習(xí)算法加速,其中表現(xiàn)最為突出的 ASIC 就是 Google 的TPU(張量處理芯片)。
TPU 是谷歌為提升 AI 計算能力同時大幅降低功耗而專門設(shè)計的芯片。該芯片正式發(fā)布于 2016 年 5月。TPU 之所以稱為 AI 專用芯片,是因為它是專門針對TensorFlow等機(jī)器學(xué)習(xí)平臺而打造,該芯片可以在相同時間內(nèi)處理更復(fù)雜、更強(qiáng)大的機(jī)器學(xué)習(xí)模型。谷歌通過數(shù)據(jù)中心測試顯示,TPU 平均比當(dāng)時的 GPU 或 CPU 快 15-30 倍,性能功耗比(TFOPS/Watt)高出約 30-80 倍。
但是,ASIC 一旦制造完成以后就不能修改了,且研發(fā)周期較長、商業(yè)應(yīng)用風(fēng)險較大,目前只有大企業(yè)或背靠大企業(yè)的團(tuán)隊愿意投入到它的完整開發(fā)中。國外主要是谷歌在主導(dǎo),國內(nèi)企業(yè)寒武紀(jì)開發(fā)的 Cambricon 系列處理器也廣泛受到關(guān)注。其中,華為海思的麒麟 980 處理器所搭載的 NPU 就是寒武紀(jì)的處理器 IP。
3、短期內(nèi) GPU 仍將是 AI 芯片主導(dǎo),長期看三大技術(shù)路線將呈現(xiàn)并行態(tài)勢
短期內(nèi) GPU 仍將主導(dǎo) AI 芯片市場,F(xiàn)PGA 的使用將更為廣泛
GPU 短期將延續(xù) AI 芯片的領(lǐng)導(dǎo)地位。GPU 作為市場上 AI 計算最成熟、應(yīng)用最廣泛的通用型芯片,應(yīng)用潛力較大。憑借其強(qiáng)大的計算能力、較高的通用性,GPU 將繼續(xù)占領(lǐng) AI 芯片的主要市場份額。
當(dāng)前,兩大 GPU 廠商都還在不斷升級架構(gòu)并推出新品,深度學(xué)習(xí)性能提升明顯,未來應(yīng)用的場景將更為豐富。英偉達(dá)憑借著其在矩陣運算上的優(yōu)勢,率先推出了專為深度學(xué)習(xí)優(yōu)化的 Pascal GPU,而且針對 GPU 在深度學(xué)習(xí)上的短板,2018 年推出了 Volta 架構(gòu),正在完成加速-運算-AI 構(gòu)建的閉環(huán);AMD 針對深度學(xué)習(xí),2018 年推出 Radeon Instinct 系列,未來將應(yīng)用于數(shù)據(jù)中心、超算等 AI 基礎(chǔ)設(shè)施上。我們預(yù)計,在效率和場景應(yīng)用要求大幅提升之前,作為數(shù)據(jù)中心和大型計算力支撐的主力軍,GPU 仍具有很大的優(yōu)勢。
FPGA 是短期內(nèi) AI 芯片市場上的重要增長點,F(xiàn)PGA 的最大優(yōu)勢在于可編程帶來的配置靈活性,在當(dāng)前技術(shù)與運用都在快速更迭的時期,F(xiàn)PGA 具有明顯的實用性。企業(yè)通過 FPGA 可以有效降低研發(fā)調(diào)試成本,提高市場響應(yīng)能力,推出差異化產(chǎn)品。在專業(yè)芯片發(fā)展得足夠完善之前,F(xiàn)PGA 是最好的過渡產(chǎn)品,正因為如此,科技巨頭紛紛布局云計算+FPGA 的平臺。隨著 FPGA 的開發(fā)者生態(tài)逐漸豐富,適用的編程語言增加,F(xiàn)PGA 運用會更加廣泛。因此短期內(nèi),F(xiàn)PGA 作為兼顧效率和靈活性的硬件選擇仍將是熱點所在。
長期來看 GPU、FPGA 以及 ASIC 三大類技術(shù)路線將并存
GPU 主要方向是高級復(fù)雜算法和通用型人工智能平臺。(1)高端復(fù)雜算法實現(xiàn)方向。由于 GPU 本身就具備高性能計算優(yōu)勢,同時對于指令的邏輯控制上可以做的更復(fù)雜,在面向復(fù)雜 AI 計算的應(yīng)用方面具有較大優(yōu)勢。(2)通用型的人工智能平臺方向。GPU 由于通用性強(qiáng),性能較高,可以應(yīng)用于大型人工智能平臺夠高效地完成不同種類的調(diào)用需求。
FPGA 未來在垂直行業(yè)有著較大的空間。由于在靈活性方面的優(yōu)勢,F(xiàn)PGA 對于部分市場變化迅速的行業(yè)最為實用。同時,F(xiàn)PGA 的高端器件中也可以逐漸增加DSP、ARM 核等高級模塊,以實現(xiàn)較為復(fù)雜的算法。隨著 FPGA 應(yīng)用生態(tài)的逐步成熟,F(xiàn)PGA 的優(yōu)勢也會逐漸為更多用戶所認(rèn)可,并得以廣泛應(yīng)用。
ASIC 長遠(yuǎn)來看非常適用于人工智能,尤其是應(yīng)對未來爆發(fā)的面向應(yīng)用場景的定制化芯片需求。ASIC的潛力體現(xiàn)在,AI 算法廠商有望通過算法嵌入切入該領(lǐng)域,以進(jìn)入如安防、智能駕駛等場景。由于其具備高性能低消耗的特點,可以基于多個人工智能算法進(jìn)行定制,以應(yīng)對不同的場景,未來在訓(xùn)練和推理市場上都有較大空間。
4、國內(nèi)外 AI 芯片市場需求將保持較快增長勢頭,云端、邊緣均具備潛力
近年來,伴隨著全球 AI 產(chǎn)業(yè)的快速增長,AI 芯片需求大幅上升。按照 Gartner 最新數(shù)據(jù),2018 年全球 AI 芯片市場規(guī)模達(dá)到 42.7 億美元。未來幾年,全球各大芯片企業(yè)、互聯(lián)網(wǎng)巨頭、初創(chuàng)企業(yè)都將在該市場上進(jìn)行角逐,預(yù)計到 2023 年全球市場規(guī)模將達(dá)到 323 億美元。未來五年(2019-2023年)平均增速約為 50%,其中數(shù)據(jù)中心、個人終端、物聯(lián)網(wǎng)芯片均是增長的重點。
相比之下中金公司研究部公布的一組數(shù)據(jù)則更為樂觀,該數(shù)據(jù)顯示,2017年,整體AI芯片市場規(guī)模達(dá)到62.7億美元,其中云端訓(xùn)練AI芯片20.2億美元,云端推理芯片3.4億美元,邊緣計算AI芯片39.1億美元;到2022年,整體AI芯片市場規(guī)模將會達(dá)到596.2億美元,CAGR57%,其中云端訓(xùn)練AI芯片172.1億美元,CAGR 53.5%,云端推斷芯片71.9億美元,CAGR 84.1%,邊緣計算AI芯片352.2億美元,CAGR 55.2%。
國內(nèi)人工智能芯片行業(yè)發(fā)展仍處在起步階段。長期以來,我國在 CPU、GPU 和 DSP 設(shè)計上一直處于追趕狀態(tài),絕大多數(shù)芯片依靠國外的 IP 核進(jìn)行設(shè)計,自主創(chuàng)新能力不足。但我們也看到,國內(nèi)人工智能產(chǎn)業(yè)的快速發(fā)展,也為國內(nèi)芯片產(chǎn)業(yè)實現(xiàn)換道超車創(chuàng)造了機(jī)會。由于國內(nèi)外在芯片生態(tài)上并未形成壟斷,國內(nèi)芯片設(shè)計廠商尤其是專用芯片設(shè)計廠商,同國外競爭對手還處在同一起跑線上。
目前國內(nèi)人工智能芯片市場呈現(xiàn)出百花齊放的態(tài)勢。AI 芯片的應(yīng)用領(lǐng)域廣泛分布在金融證券、商品推薦、安防、消費機(jī)器人、智能駕駛、智能家居等眾多領(lǐng)域,催生了大量的人工智能創(chuàng)業(yè)企業(yè),如地平線、深鑒科技、寒武紀(jì)、云知聲、云天勵飛等。我們認(rèn)為,未來隨著國內(nèi)人工智能市場的快速發(fā)展,生態(tài)建設(shè)的完善,國內(nèi) AI 芯片企業(yè)將有著更大的發(fā)展空間,未來 5 年的市場規(guī)模增速將超過全球平均水平。