第二代人工智能芯片BM1682
發布時間:2018/8/22 10:13:57 訪問次數:1662
- 51電子網公益庫存:
- T1235H-6G
- T1500N12TOF
- T435-800W
- T515A
- T62M0001A-D
- T6816-TIQY
- T6A39FG
- T6M10F600B
- T810-600B-TR
- T830-800W
- 3.6864MHZ
- 30BQ060TR
- 30ETH06PBF
- 30G122
- 30WQ03FN
- 32.00MHZ
- 320.21E11BLK
- 330BZZG
- 3455RBV02840007
- 3LN02C-TB-E
2017年第4季度,比特大陸正式推出了其人工智能品牌算豐(sophon),發布了全球首款公開發售的tpu(tensor processing unit張量計算單元)芯片bm1680,專門用于人工智能中的深度學習加速。時隔不足一年,2018年3月,比特大陸又推出其第二款tpu芯片bm1682,根據初步披露的資料顯示,bm1682是一塊專門用于圖像/視頻處理方向的人工智能芯片。
bm1682與bm1680使用了相同的深度學習算法的硬件加速模塊,但相比bm1680而言,bm1682具有更強大的深度學習算法執行能力,此外bm1682還增加了視頻處理子模塊,以及適用于具體應用場景的諸多功能模塊。
頂層架構——bm1682定位更細分http://jiahongwei668.51dzw.com/
從頂層架構可以看出,bm1680和bm1682均集成了深度學習算法所用到的核心模塊npus。npu是比特大陸自行研發的深度學習算法硬件加速器,用于加速深度學習算法的執行速度。
從頂層架構圖上可以看到,bm1680比bm1682額外集成了高度定制的bmdnn chip link subsystem。該子模塊可以在高速serdes上提供穩定、靈活、低延遲的鏈路。用戶可以通過該鏈路將多個bm1680芯片連接成一個統一的整體,使其協同工作,大大提高系統的運算能力。bm1682并沒有集成此模塊,這大概是基于bm1682專一化的市場應用定位,以及處理速度足夠滿足用戶對圖像/視頻處理需求而考慮的。
從頂層架構圖上可以看到與bm1680相比,bm1682芯片的整體架構發生了不小的變化,其定位則更加細分明確。從右上角增加的video subsystem模塊可以明確看出,該款芯片定位于圖像/視頻處理方向。
模塊細節——bm1682設計更豐富
bm1682的深度學習加速的核心功能模塊與bm1680是相同的。兩款芯片均包含了深度學習的核心單元—硬件加速器npu subsystem。兩者的npu subsystem均各自集成了64個npu單元,統一由npu schedule engine進行調度(bm1682架構圖中未體現),最大化的提高了npus的效率,加快了深度學習算法inference (推演)與training (訓練)的速度。根據初步資料顯示,兩者在mcu的配置上是有些許差異的,但由于資料不全面,故無法評斷出兩者的mcu處理能力的差別。
除了深度學習算法硬件加速模塊(npus)、用于高速連接其余bm1680的chip link模塊之外,bm1680還提供了4個獨立的ddr4通道,最高支持16gb的ddr3 或 ddr4 dram拓展,用于高速數據緩存讀取,以提高系統的執行速度。bm1680還加入了global dma模塊。dma用于提供數據搬移功能,這可以在大塊數據進行讀寫搬移時不占用mcu的資源,如在ddr4 的ram中搬移數據時。對于大數據量的深度學習系統,dma可以極大的提高效率。bm1680的peripheral subsystem 提供了uart、spi、iic與gpio等接口,用于外接傳感器,或與外界進行通訊、記錄、控制等操作。這些接口都屬于通用接口,可見bm1680的定位就是通用深度學習芯片,在外設上沒有給與太多支持。http://zxsj.51dzw.com/
從架構圖看,bm1682明顯復雜了很多。其額外增加了ap (application processor) subsystem和video subsystem(視頻處理系統)。video subsystem(視頻子系統)則主要專注于視頻預處理的相關任務。
bm1682的video subsystem提供了2個h.264視頻解碼器,1個h.265解碼器。h.264 /h.265均為視頻編碼方式,也是比較流行的視頻編碼的兩種方式。相對而言,h.265視頻編碼比h.264具有更高的壓縮比、更強的網絡糾錯適應能力,但考慮到現階段在安防、智能家居和互聯網視頻領域中仍然還是以h.264編碼的視頻和視頻設備為主,兩者2:1的譯碼器數量在視頻支持類型和解碼帶寬做了一個合適的權衡。比較貼心的是,bm1682提供了video post-processing功能,該子模塊用于對采用h.264或h.265編碼的視頻進行渲染處理,這些渲染處理主要包括顏色空間轉換、視頻剪裁、縮放操作、仿射變換、多幀拼接等常規操作。經過video post-processing對外界進入的視頻數據進行硬件加速預處理后,video subsystem會將處理后數據通過總線傳輸給npus、dram、ap system或外接存儲設備,然后進行后續的深度學習處理等操作。
bm1682提供了豐富的外界交互接口,如高速接口pcie、以太網、sdio3.0、wifi等。bm1682將數據處理完畢后可以很方便的通過pcie接口、以太網接口、或者wifi接口將數據傳輸到總服務器。若是條件限制沒有網絡接入點,用戶可以選擇通過接入sdio3.0的emmc存儲器或是pcie式存儲器將數據存儲到本地存儲裝置。可見,bm1682對其可能的應用場景做了充分的考慮并給予了硬件支持,用戶可以根據需求,靈活方便的進行配置。
peripheral subsystem方面,bm1682比bm1680要豐富的多,這大大方便了用戶進行系統拓展,如添加額外傳感器等。bm1682的外設包括2個spi接口、4個uart接口、4個iic、4路pwm生成器、一塊內嵌式spi flash、wdg、timer、gpio、pvt sensor、top reg、efuse、rom。由給出的外設可以看到,bm1682的設計考慮了配置、存儲、對外界系統實時控制、以及加密保護等功能,極大提高了系統的靈活性、安全性,省卻了用戶額外添加相關功能的開發成本。
性能分析——bm1682極大提升
npu深度學習硬件加速器是人工智能的核心。兩者npus模塊集成了64個npus單元,通過npu schedule engine進行調度。bm1682中每個npu含有32個eus,bm1680未知。根據bm1680、bm1682數據手冊顯示,單片bm1680單精度運算速度為2tflops;單片bm1682單精度運算速度為3tflops。bm1682的單片運算速度高出bm1680 50%。
bm1680單片的運行速度低于bm1682,但bm1680支持級聯工作模式,數個bm1680可以通過高速的chip link subsystem組成一個集群式的系統,進行更高處理量的運算處理任務。bm1682不具備級聯功能。http://zxsj.51dzw.com/
電學方面,根據兩者的數據手冊顯示:滿載工作時bm1680的tpd(thermal design power熱設計功耗)為41w;:滿載工作時bm1682的tpd小于50w。從功耗角度分析,bm1680的2tflops的npus速度應該是有所保留的。
bm1680、bm1682均支持的主流的cnn/rnn/dnn深度學習架構,通過這兩款tpu芯片進行硬件加速,可以極大的提高深度學習算法的執行速度。當然,bm1680和bm1682也可以通過基礎的矩陣運算進行深度學習的模型、架構的搭建。
在開發生態方面,兩款芯片的支持也是很到位的。bm1680、bm1682均對后端用戶提供sdk;如果用戶需要進行深度優化以獲取算法最優性能,可以聯系廠家獲得相關教學支持。
由前述分析可知,bm1680為通用性人工智能芯片,其應用方向沒有偏向性,芯片內部主要集成了深度學習算法所需要的基本模塊,應用各種人工智能的深度學習算法,通過添加相應的外圍電路模塊,bm1680可以搭建成適用于任一個領域的深度學習系統——像圖片識別、自然語言處理、文本處理、金融、醫學等等大小領域均可選擇該芯片實現。bm1680更加具有靈活性。而且,bm1680可以進行級聯,所以對于需要處理巨大數據量的人工智能深度學習系統,bm1680尤為合適。像企業級應用、海量數據處理等方面,通過簡單的級聯bm1680就可以獲取相匹配的計算能力,靈活而強大。
bm1682則是一個升級版的bm1680并配備了專門用于視頻處理的集成系統,整個bm1682芯片搭載了視頻處理所需要的全部核心模塊,以及對其具體應用場景適應性的輔助模塊。bm1682對于需要進行圖像/視頻處理的市場應用可謂是十分便捷了。bm1682的輔助功能配置模塊自帶有線與無線網絡功能,對于視頻監控方向的市場應用十分方便,無線功能更是省略了網線布線的繁瑣施工,并且可用于實現遠程監控。對于一些沒有網絡的場合,如科研領域的野外視頻收集處理、閉路視頻監控等,bm1682可以輕松的添加外置存儲裝置進行數據備份收集。bm1682作為圖像/視頻方向深度學習的soc片上系統,市場前景很是廣闊,這款新品還是很值得期待的。http://jiahongwei668.51dzw.com/
近日,坊間傳聞許久的比特大陸第二代人工智能芯片bm1682,正式出現在其官網頁面。根據比特大陸一貫神秘務實的風格,相信基于bm1682的板卡、服務器也已經備好了。筆者在芯片行業浸淫十多年,嘗試根據比特大陸官網公布的產品白皮書,來分析一下這兩代人工智能芯片之間的異同,嘗試談一談比特大陸在人工智能領域的意圖和野心。來源:鎂客網
- 51電子網公益庫存:
- T1235H-6G
- T1500N12TOF
- T435-800W
- T515A
- T62M0001A-D
- T6816-TIQY
- T6A39FG
- T6M10F600B
- T810-600B-TR
- T830-800W
- 3.6864MHZ
- 30BQ060TR
- 30ETH06PBF
- 30G122
- 30WQ03FN
- 32.00MHZ
- 320.21E11BLK
- 330BZZG
- 3455RBV02840007
- 3LN02C-TB-E
2017年第4季度,比特大陸正式推出了其人工智能品牌算豐(sophon),發布了全球首款公開發售的tpu(tensor processing unit張量計算單元)芯片bm1680,專門用于人工智能中的深度學習加速。時隔不足一年,2018年3月,比特大陸又推出其第二款tpu芯片bm1682,根據初步披露的資料顯示,bm1682是一塊專門用于圖像/視頻處理方向的人工智能芯片。
bm1682與bm1680使用了相同的深度學習算法的硬件加速模塊,但相比bm1680而言,bm1682具有更強大的深度學習算法執行能力,此外bm1682還增加了視頻處理子模塊,以及適用于具體應用場景的諸多功能模塊。
頂層架構——bm1682定位更細分http://jiahongwei668.51dzw.com/
從頂層架構可以看出,bm1680和bm1682均集成了深度學習算法所用到的核心模塊npus。npu是比特大陸自行研發的深度學習算法硬件加速器,用于加速深度學習算法的執行速度。
從頂層架構圖上可以看到,bm1680比bm1682額外集成了高度定制的bmdnn chip link subsystem。該子模塊可以在高速serdes上提供穩定、靈活、低延遲的鏈路。用戶可以通過該鏈路將多個bm1680芯片連接成一個統一的整體,使其協同工作,大大提高系統的運算能力。bm1682并沒有集成此模塊,這大概是基于bm1682專一化的市場應用定位,以及處理速度足夠滿足用戶對圖像/視頻處理需求而考慮的。
從頂層架構圖上可以看到與bm1680相比,bm1682芯片的整體架構發生了不小的變化,其定位則更加細分明確。從右上角增加的video subsystem模塊可以明確看出,該款芯片定位于圖像/視頻處理方向。
模塊細節——bm1682設計更豐富
bm1682的深度學習加速的核心功能模塊與bm1680是相同的。兩款芯片均包含了深度學習的核心單元—硬件加速器npu subsystem。兩者的npu subsystem均各自集成了64個npu單元,統一由npu schedule engine進行調度(bm1682架構圖中未體現),最大化的提高了npus的效率,加快了深度學習算法inference (推演)與training (訓練)的速度。根據初步資料顯示,兩者在mcu的配置上是有些許差異的,但由于資料不全面,故無法評斷出兩者的mcu處理能力的差別。
除了深度學習算法硬件加速模塊(npus)、用于高速連接其余bm1680的chip link模塊之外,bm1680還提供了4個獨立的ddr4通道,最高支持16gb的ddr3 或 ddr4 dram拓展,用于高速數據緩存讀取,以提高系統的執行速度。bm1680還加入了global dma模塊。dma用于提供數據搬移功能,這可以在大塊數據進行讀寫搬移時不占用mcu的資源,如在ddr4 的ram中搬移數據時。對于大數據量的深度學習系統,dma可以極大的提高效率。bm1680的peripheral subsystem 提供了uart、spi、iic與gpio等接口,用于外接傳感器,或與外界進行通訊、記錄、控制等操作。這些接口都屬于通用接口,可見bm1680的定位就是通用深度學習芯片,在外設上沒有給與太多支持。http://zxsj.51dzw.com/
從架構圖看,bm1682明顯復雜了很多。其額外增加了ap (application processor) subsystem和video subsystem(視頻處理系統)。video subsystem(視頻子系統)則主要專注于視頻預處理的相關任務。
bm1682的video subsystem提供了2個h.264視頻解碼器,1個h.265解碼器。h.264 /h.265均為視頻編碼方式,也是比較流行的視頻編碼的兩種方式。相對而言,h.265視頻編碼比h.264具有更高的壓縮比、更強的網絡糾錯適應能力,但考慮到現階段在安防、智能家居和互聯網視頻領域中仍然還是以h.264編碼的視頻和視頻設備為主,兩者2:1的譯碼器數量在視頻支持類型和解碼帶寬做了一個合適的權衡。比較貼心的是,bm1682提供了video post-processing功能,該子模塊用于對采用h.264或h.265編碼的視頻進行渲染處理,這些渲染處理主要包括顏色空間轉換、視頻剪裁、縮放操作、仿射變換、多幀拼接等常規操作。經過video post-processing對外界進入的視頻數據進行硬件加速預處理后,video subsystem會將處理后數據通過總線傳輸給npus、dram、ap system或外接存儲設備,然后進行后續的深度學習處理等操作。
bm1682提供了豐富的外界交互接口,如高速接口pcie、以太網、sdio3.0、wifi等。bm1682將數據處理完畢后可以很方便的通過pcie接口、以太網接口、或者wifi接口將數據傳輸到總服務器。若是條件限制沒有網絡接入點,用戶可以選擇通過接入sdio3.0的emmc存儲器或是pcie式存儲器將數據存儲到本地存儲裝置。可見,bm1682對其可能的應用場景做了充分的考慮并給予了硬件支持,用戶可以根據需求,靈活方便的進行配置。
peripheral subsystem方面,bm1682比bm1680要豐富的多,這大大方便了用戶進行系統拓展,如添加額外傳感器等。bm1682的外設包括2個spi接口、4個uart接口、4個iic、4路pwm生成器、一塊內嵌式spi flash、wdg、timer、gpio、pvt sensor、top reg、efuse、rom。由給出的外設可以看到,bm1682的設計考慮了配置、存儲、對外界系統實時控制、以及加密保護等功能,極大提高了系統的靈活性、安全性,省卻了用戶額外添加相關功能的開發成本。
性能分析——bm1682極大提升
npu深度學習硬件加速器是人工智能的核心。兩者npus模塊集成了64個npus單元,通過npu schedule engine進行調度。bm1682中每個npu含有32個eus,bm1680未知。根據bm1680、bm1682數據手冊顯示,單片bm1680單精度運算速度為2tflops;單片bm1682單精度運算速度為3tflops。bm1682的單片運算速度高出bm1680 50%。
bm1680單片的運行速度低于bm1682,但bm1680支持級聯工作模式,數個bm1680可以通過高速的chip link subsystem組成一個集群式的系統,進行更高處理量的運算處理任務。bm1682不具備級聯功能。http://zxsj.51dzw.com/
電學方面,根據兩者的數據手冊顯示:滿載工作時bm1680的tpd(thermal design power熱設計功耗)為41w;:滿載工作時bm1682的tpd小于50w。從功耗角度分析,bm1680的2tflops的npus速度應該是有所保留的。
bm1680、bm1682均支持的主流的cnn/rnn/dnn深度學習架構,通過這兩款tpu芯片進行硬件加速,可以極大的提高深度學習算法的執行速度。當然,bm1680和bm1682也可以通過基礎的矩陣運算進行深度學習的模型、架構的搭建。
在開發生態方面,兩款芯片的支持也是很到位的。bm1680、bm1682均對后端用戶提供sdk;如果用戶需要進行深度優化以獲取算法最優性能,可以聯系廠家獲得相關教學支持。
由前述分析可知,bm1680為通用性人工智能芯片,其應用方向沒有偏向性,芯片內部主要集成了深度學習算法所需要的基本模塊,應用各種人工智能的深度學習算法,通過添加相應的外圍電路模塊,bm1680可以搭建成適用于任一個領域的深度學習系統——像圖片識別、自然語言處理、文本處理、金融、醫學等等大小領域均可選擇該芯片實現。bm1680更加具有靈活性。而且,bm1680可以進行級聯,所以對于需要處理巨大數據量的人工智能深度學習系統,bm1680尤為合適。像企業級應用、海量數據處理等方面,通過簡單的級聯bm1680就可以獲取相匹配的計算能力,靈活而強大。
bm1682則是一個升級版的bm1680并配備了專門用于視頻處理的集成系統,整個bm1682芯片搭載了視頻處理所需要的全部核心模塊,以及對其具體應用場景適應性的輔助模塊。bm1682對于需要進行圖像/視頻處理的市場應用可謂是十分便捷了。bm1682的輔助功能配置模塊自帶有線與無線網絡功能,對于視頻監控方向的市場應用十分方便,無線功能更是省略了網線布線的繁瑣施工,并且可用于實現遠程監控。對于一些沒有網絡的場合,如科研領域的野外視頻收集處理、閉路視頻監控等,bm1682可以輕松的添加外置存儲裝置進行數據備份收集。bm1682作為圖像/視頻方向深度學習的soc片上系統,市場前景很是廣闊,這款新品還是很值得期待的。http://jiahongwei668.51dzw.com/
近日,坊間傳聞許久的比特大陸第二代人工智能芯片bm1682,正式出現在其官網頁面。根據比特大陸一貫神秘務實的風格,相信基于bm1682的板卡、服務器也已經備好了。筆者在芯片行業浸淫十多年,嘗試根據比特大陸官網公布的產品白皮書,來分析一下這兩代人工智能芯片之間的異同,嘗試談一談比特大陸在人工智能領域的意圖和野心。來源:鎂客網上一篇:WaveSense技術