Artificial Intelligence,AI(芯片)未來發展趨勢
發布時間:2020/8/18 9:15:39 訪問次數:80491
芯片的概念:
(半導體元件產品的統稱)集成電路,縮寫作 ic;或稱微電路、微芯片、晶片/芯片,在電子學中是一種把電路(主要包括半導體設備,也包括被動組件等)小型化的方式,并時常制造在半導體晶圓表面上。
人工智能(artificial intelligence,ai)芯片的定義:從廣義上講只要能夠運行人工智能算法的芯片都叫作 ai 芯片。但是通常意義上的 ai 芯片指的是針對人工智能算法做了特殊加速設計的芯片,現階段,這些人工智能算法一般以深度學習算法為主,也可以包括其它機器學習算法。
ai芯片也被稱為ai加速器或計算卡,即專門用于處理人工智能應用中的大量計算任務的模塊(其他非計算任務仍由cpu負責)。當前,ai芯片主要分為gpu、fpga、asic。
ai芯片與普通芯片區別呢:
手機ai芯片對于各種ai算子能夠以30倍到50倍左右的速度處理。以拍照場景為例,ai芯片能夠做更好的一個圖像檢測,圖像分割和圖像語義理解。另外,對聲音可以聽清、聽懂,并根據所了解的客戶意圖提供客戶真正想要的服務。比如,內置獨立神經網絡單元npu的麒麟970的圖片處理速度可達到約2005張每分鐘,而在沒有npu的情況下每分鐘只能處理97張圖像。當然,其他應用場景在ai的加持下同樣變得高能。
人工智能芯片四大類:
1、通用芯片(gpu)。
gpu是單指令、多數據處理,采用數量眾多的計算單元和超長的流水線,主要處理圖像領域的運算加速。
gpu是不能單獨使用的,它只是處理大數據計算時的能手,必須由cpu進行調用,下達指令才能工作。
但cpu可單獨作用,處理復雜的邏輯運算和不同的數據類型,但當需要處理大數據計算時,則可調用gpu進行并行計算。
2、半定制化芯片(fpga)。
fpga適用于多指令,單數據流的分析,與gpu相反,因此常用于預測階段,如云端。fpga是用硬件實現軟件算法,因此在實現復雜算法方面有一定的難度,缺點是價格比較高。與 gpu 不同,fpga 同時擁有硬件流水線并行和數據并行處理能力,適用于以硬件流水線方式處理一條數據,且整數運算性能更高,因此常用于深度學習算法中的推斷階段。不過fpga 通過硬件的配置實現軟件算法,因此在實現復雜算法方面有一定的難度。將fpga 和 cpu 對比可以發現兩個特點,一是 fpga 沒有內存和控制所帶來的存儲和讀取部 分速度更快,二是 fpga 沒有讀取指令操作,所以功耗更低。劣勢是價格比較高、編程復雜、整體運算能力不是很高。目前國內的ai 芯片公司如深鑒科技就提供基于 fpga 的解決方案。
3、全定制化芯片(asic)。
asic是為實現特定場景應用要求時,而定制的專用ai芯片。除了不能擴展以外,在功耗、可靠性、體積方面都有優勢,尤其在高性能、低功耗的移動設備端。
定制的特性有助于提高 asic 的性能功耗比,缺點是電路設計需要定制,相對開發周期長,功能難以擴展。但在功耗、可靠性、集成度等方面都有優勢,尤其在要求高性能、低功耗的移動應用端體現明顯。谷歌的 tpu、 寒武紀的 gpu,地平線的 bpu都屬于 asic芯片。谷歌的 tpu比 cpu和 gpu的方案快 30 至 80 倍,與 cpu和 gpu相比,tpu把控制電路進行了簡化,因此減少了芯片的面積,降低了功耗。
4、類腦芯片。
類腦芯片架構是一款模擬人腦的神經網絡模型的新型芯片編程架構,這一系統可以模擬人腦功能進行感知方式、行為方式和思維方式。
有人說,asic是人工智能芯片的一個主要發展方向,但真正的人工智能芯片未來發展的方向是類腦芯片。
類腦芯片研究是非常艱難的,ibm、高通、英特爾等公司的芯片策略都是用硬件來模仿人腦的神經突觸。
我國ai芯片發展情況 :
目前,我國的人工智能芯片行業發展尚處于起步階段。
長期以來,中國在 cpu、gpu、dsp 處理器設計上一直處于追趕地位,絕大部分芯片設計企業依靠國外的 ip 核設計芯片,在自主創新上受到了極大的限制。然而,人工智能的興起,無疑為中國在處理器領域實現彎道超車提供了絕佳的機遇。人工智能領域的應用目前還處于面向行業應用階段,生態上尚未形成壟斷,國產處理器廠商與國外競爭對手在人工智能這一全新賽場上處在同一起跑線上,因此,基于新興技術和應用市場,中國在建立人工智能生態圈方面將大有可為。
由于我國特殊的環境和市場,國內 ai 芯片的發展目前呈現出百花齊放、百家爭鳴的態勢,ai 芯片的應用領域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智能芯片創業公司,如地平線、深鑒科技、中科寒武紀等。盡管如此,國內公司卻并未如國外大公司一樣形成市場規模,反而出現各自為政的散裂發展現狀。除了新興創業公司,國內研究機構如北京大學、清華大學、中國科學院等在ai芯片領域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發布。 可以預見,未來誰先在人工智能領域掌握了生態系統,誰就掌握住了這個產業的主動權。
未來:
目前主流 ai芯片的核心主要是利用 mac(multiplier and accumulation,乘加計算)加速陣列來實現對 cnn(卷積神經網絡)中最主要的卷積運算的加速。這一代 ai 芯片主要有如下 3個方面的問題。
(1)深度學習計算所需數據量巨大,造成內存帶寬成為整個系統的瓶頸,即所謂的“memory wall”問題。
(2)與第一個問題相關,內存大量訪問和mac陣列的大量運算,造成ai芯片整體功耗的增加。
(3)深度學習對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學習算法的發展也是日新月異,新的算法可能在已經固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。
下一代 ai芯片發展趨勢:
趨勢一:更高效的大卷積解構/復用
在標準 simd 的基礎上,cnn 由于其特殊的復用機制,可以進一步減少總線上的數據通信。而復用這一概念,在超大型神經網絡中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個值得研究的方向。
趨勢二:更低的 inference計算/存儲位寬
ai 芯片最大的演進方向之一可能就是神經網絡參數/計算位寬的迅速減少——從 32 位浮點到 16 位浮點/定點、8 位定點,甚至是 4 位定點。在理論計算領域,2 位甚至 1 位參數位寬,都已經逐漸進入實踐領域。
趨勢三:更多樣的存儲器定制設計
當計算部件不再成為神經網絡加速器的設計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節的成本也越高,同時容量也越受限,因此新型的存儲結構也將應運而生。
趨勢四:更稀疏的大規模向量實現
神經網絡雖然大,但是,實際上有很多以零為輸入的情況,此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優化的五級流水線結構, 在最后一級輸出了觸發信號。在activation層后對下一次計算的必要性進行預先判斷,如果發現這是一個稀疏節點,則觸發 skip信號,避免乘法運算的功耗,以達到減少無用功耗的目的。
趨勢五:計算和存儲一體化
計算和存儲一體化(process-in-memory)技術,其要點是通過使用新型非易失性存儲 (如reram)器件,在存儲陣列里面加上神經網絡計算功能,從而省去數據搬移操作,即實現了計算存儲一體化的神經網絡處理,在功耗性能方面可以獲得顯著提升。
『文章來自:知乎,天山老霸王。版權歸原作者所有,如有侵權請聯系刪除』
芯片的概念:
(半導體元件產品的統稱)集成電路,縮寫作 ic;或稱微電路、微芯片、晶片/芯片,在電子學中是一種把電路(主要包括半導體設備,也包括被動組件等)小型化的方式,并時常制造在半導體晶圓表面上。
人工智能(artificial intelligence,ai)芯片的定義:從廣義上講只要能夠運行人工智能算法的芯片都叫作 ai 芯片。但是通常意義上的 ai 芯片指的是針對人工智能算法做了特殊加速設計的芯片,現階段,這些人工智能算法一般以深度學習算法為主,也可以包括其它機器學習算法。
ai芯片也被稱為ai加速器或計算卡,即專門用于處理人工智能應用中的大量計算任務的模塊(其他非計算任務仍由cpu負責)。當前,ai芯片主要分為gpu、fpga、asic。
ai芯片與普通芯片區別呢:
手機ai芯片對于各種ai算子能夠以30倍到50倍左右的速度處理。以拍照場景為例,ai芯片能夠做更好的一個圖像檢測,圖像分割和圖像語義理解。另外,對聲音可以聽清、聽懂,并根據所了解的客戶意圖提供客戶真正想要的服務。比如,內置獨立神經網絡單元npu的麒麟970的圖片處理速度可達到約2005張每分鐘,而在沒有npu的情況下每分鐘只能處理97張圖像。當然,其他應用場景在ai的加持下同樣變得高能。
人工智能芯片四大類:
1、通用芯片(gpu)。
gpu是單指令、多數據處理,采用數量眾多的計算單元和超長的流水線,主要處理圖像領域的運算加速。
gpu是不能單獨使用的,它只是處理大數據計算時的能手,必須由cpu進行調用,下達指令才能工作。
但cpu可單獨作用,處理復雜的邏輯運算和不同的數據類型,但當需要處理大數據計算時,則可調用gpu進行并行計算。
2、半定制化芯片(fpga)。
fpga適用于多指令,單數據流的分析,與gpu相反,因此常用于預測階段,如云端。fpga是用硬件實現軟件算法,因此在實現復雜算法方面有一定的難度,缺點是價格比較高。與 gpu 不同,fpga 同時擁有硬件流水線并行和數據并行處理能力,適用于以硬件流水線方式處理一條數據,且整數運算性能更高,因此常用于深度學習算法中的推斷階段。不過fpga 通過硬件的配置實現軟件算法,因此在實現復雜算法方面有一定的難度。將fpga 和 cpu 對比可以發現兩個特點,一是 fpga 沒有內存和控制所帶來的存儲和讀取部 分速度更快,二是 fpga 沒有讀取指令操作,所以功耗更低。劣勢是價格比較高、編程復雜、整體運算能力不是很高。目前國內的ai 芯片公司如深鑒科技就提供基于 fpga 的解決方案。
3、全定制化芯片(asic)。
asic是為實現特定場景應用要求時,而定制的專用ai芯片。除了不能擴展以外,在功耗、可靠性、體積方面都有優勢,尤其在高性能、低功耗的移動設備端。
定制的特性有助于提高 asic 的性能功耗比,缺點是電路設計需要定制,相對開發周期長,功能難以擴展。但在功耗、可靠性、集成度等方面都有優勢,尤其在要求高性能、低功耗的移動應用端體現明顯。谷歌的 tpu、 寒武紀的 gpu,地平線的 bpu都屬于 asic芯片。谷歌的 tpu比 cpu和 gpu的方案快 30 至 80 倍,與 cpu和 gpu相比,tpu把控制電路進行了簡化,因此減少了芯片的面積,降低了功耗。
4、類腦芯片。
類腦芯片架構是一款模擬人腦的神經網絡模型的新型芯片編程架構,這一系統可以模擬人腦功能進行感知方式、行為方式和思維方式。
有人說,asic是人工智能芯片的一個主要發展方向,但真正的人工智能芯片未來發展的方向是類腦芯片。
類腦芯片研究是非常艱難的,ibm、高通、英特爾等公司的芯片策略都是用硬件來模仿人腦的神經突觸。
我國ai芯片發展情況 :
目前,我國的人工智能芯片行業發展尚處于起步階段。
長期以來,中國在 cpu、gpu、dsp 處理器設計上一直處于追趕地位,絕大部分芯片設計企業依靠國外的 ip 核設計芯片,在自主創新上受到了極大的限制。然而,人工智能的興起,無疑為中國在處理器領域實現彎道超車提供了絕佳的機遇。人工智能領域的應用目前還處于面向行業應用階段,生態上尚未形成壟斷,國產處理器廠商與國外競爭對手在人工智能這一全新賽場上處在同一起跑線上,因此,基于新興技術和應用市場,中國在建立人工智能生態圈方面將大有可為。
由于我國特殊的環境和市場,國內 ai 芯片的發展目前呈現出百花齊放、百家爭鳴的態勢,ai 芯片的應用領域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智能芯片創業公司,如地平線、深鑒科技、中科寒武紀等。盡管如此,國內公司卻并未如國外大公司一樣形成市場規模,反而出現各自為政的散裂發展現狀。除了新興創業公司,國內研究機構如北京大學、清華大學、中國科學院等在ai芯片領域都有深入研究;而其他公司如百度和比特大陸等,2017年也有一些成果發布。 可以預見,未來誰先在人工智能領域掌握了生態系統,誰就掌握住了這個產業的主動權。
未來:
目前主流 ai芯片的核心主要是利用 mac(multiplier and accumulation,乘加計算)加速陣列來實現對 cnn(卷積神經網絡)中最主要的卷積運算的加速。這一代 ai 芯片主要有如下 3個方面的問題。
(1)深度學習計算所需數據量巨大,造成內存帶寬成為整個系統的瓶頸,即所謂的“memory wall”問題。
(2)與第一個問題相關,內存大量訪問和mac陣列的大量運算,造成ai芯片整體功耗的增加。
(3)深度學習對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學習算法的發展也是日新月異,新的算法可能在已經固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。
下一代 ai芯片發展趨勢:
趨勢一:更高效的大卷積解構/復用
在標準 simd 的基礎上,cnn 由于其特殊的復用機制,可以進一步減少總線上的數據通信。而復用這一概念,在超大型神經網絡中就顯得格外重要。如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個值得研究的方向。
趨勢二:更低的 inference計算/存儲位寬
ai 芯片最大的演進方向之一可能就是神經網絡參數/計算位寬的迅速減少——從 32 位浮點到 16 位浮點/定點、8 位定點,甚至是 4 位定點。在理論計算領域,2 位甚至 1 位參數位寬,都已經逐漸進入實踐領域。
趨勢三:更多樣的存儲器定制設計
當計算部件不再成為神經網絡加速器的設計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節的成本也越高,同時容量也越受限,因此新型的存儲結構也將應運而生。
趨勢四:更稀疏的大規模向量實現
神經網絡雖然大,但是,實際上有很多以零為輸入的情況,此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優化的五級流水線結構, 在最后一級輸出了觸發信號。在activation層后對下一次計算的必要性進行預先判斷,如果發現這是一個稀疏節點,則觸發 skip信號,避免乘法運算的功耗,以達到減少無用功耗的目的。
趨勢五:計算和存儲一體化
計算和存儲一體化(process-in-memory)技術,其要點是通過使用新型非易失性存儲 (如reram)器件,在存儲陣列里面加上神經網絡計算功能,從而省去數據搬移操作,即實現了計算存儲一體化的神經網絡處理,在功耗性能方面可以獲得顯著提升。
『文章來自:知乎,天山老霸王。版權歸原作者所有,如有侵權請聯系刪除』