視頻流和下載通常會(huì)耗掉消費(fèi)者絕大部分互聯(lián)網(wǎng)流量,同時(shí)也是云計(jì)算技術(shù)發(fā)展的主要推動(dòng)力。對(duì)視頻流和下載需求的持續(xù)增長(zhǎng),正在驅(qū)動(dòng)視頻處理應(yīng)用邁出專業(yè)系統(tǒng)領(lǐng)域,步入數(shù)據(jù)中心。這一應(yīng)用模式的轉(zhuǎn)變需要具備快速擴(kuò)展能力的計(jì)算節(jié)點(diǎn)來(lái)滿足視頻內(nèi)容制作和分發(fā)的各個(gè)不同高計(jì)算強(qiáng)度階段的需求,如轉(zhuǎn)碼需求和水印需求。
我們近期使用賽靈思SDAccel™開(kāi)發(fā)環(huán)境來(lái)編譯和優(yōu)化專為FPGA加速卡采用OpenCLTM編寫的視頻水印應(yīng)用。視頻內(nèi)容提供商使用水印起到廣告和內(nèi)容保護(hù)的作用。我們的目的是設(shè)計(jì)一種能處理運(yùn)行在Alpha Data ADM-PCIE-7V3卡上,吞吐量為30fps,分辨率為1080p的高清(HD)視頻的水印應(yīng)用。
SDAccel開(kāi)發(fā)環(huán)境能讓設(shè)計(jì)人員先用OpenCL編寫應(yīng)用,然后在無(wú)需了解底層FPGA實(shí)現(xiàn)工具的情況下把應(yīng)用編譯到FPGA中?梢砸赃@種視頻水印應(yīng)用為例來(lái)介紹SDAccel中的主要優(yōu)化技巧。
帶標(biāo)識(shí)插入功能的視頻水印
該視頻水印算法的主要功能是在視頻流的特定位置覆蓋一個(gè)標(biāo)識(shí)。用于水印的標(biāo)識(shí)可以是活動(dòng)的,也可以是靜止的;顒(dòng)標(biāo)識(shí)一般采用簡(jiǎn)短的重復(fù)性視頻片段來(lái)實(shí)現(xiàn),靜止標(biāo)識(shí)則采用靜止圖像。
廣播企業(yè)宣傳自己視頻流最常用的方法是把企業(yè)標(biāo)識(shí)用作靜止水印,因此成為我們實(shí)例設(shè)計(jì)的目標(biāo)。該應(yīng)用根據(jù)下列等式,以逐像素粒度插入靜止標(biāo)識(shí)。
輸入和輸出幀為二維陣列,像素使用YCbCr色域表達(dá)。在該色域中,每個(gè)像素用三個(gè)分量表達(dá)。Y表示亮度分量,Cb表示色度藍(lán)色色差分量,Cr表示色度紅色色差分量。每個(gè)分量都用一個(gè)8位值表達(dá),因?yàn)槊總(gè)像素為24位。
該標(biāo)識(shí)是一個(gè)包含待插入內(nèi)容的二維圖像。掩膜也是一個(gè)圖像,但只包含標(biāo)識(shí)的輪廓圖。掩膜的像素可以是白色或黑色。掩膜的白色像素表示標(biāo)識(shí)的插入位置,黑色像素則表示原始像素未被觸及的地方。圖1所示的,就是這種視頻水印算法的運(yùn)算方式實(shí)例。
圖1 - 工作中的視頻水印算法
目標(biāo)系統(tǒng)和初始實(shí)現(xiàn)方案
我們運(yùn)行該應(yīng)用的系統(tǒng)如圖2所示。該系統(tǒng)由Alpha Data ADMPCIE-7V3卡組成,該卡通過(guò)PCIe®鏈路與x86處理器通信。在該系統(tǒng)中,主機(jī)處理器從磁盤提取輸入視頻流,將其傳輸?shù)皆O(shè)備全局內(nèi)存中。設(shè)備全局內(nèi)存位于FPGA卡上,可供FPGA直接訪問(wèn)。除把視頻幀存放到設(shè)備全局內(nèi)存中外,標(biāo)識(shí)和掩膜也從主機(jī)傳輸?shù)紽PGA加速器卡上并存入片上內(nèi)存中,以充分利用BRAM內(nèi)存的低時(shí)延優(yōu)勢(shì)。因?yàn)楸緫?yīng)用使用的是一個(gè)靜止標(biāo)識(shí),只需在片上內(nèi)存中存儲(chǔ)靜止圖像和布局位置數(shù)據(jù)。
圖2 - 視頻水印應(yīng)用系統(tǒng)總覽圖
創(chuàng)建數(shù)據(jù)后,主機(jī)處理器會(huì)給FPGA架構(gòu)中的水印內(nèi)核發(fā)送一個(gè)啟動(dòng)信號(hào)。該信號(hào)觸發(fā)內(nèi)核完成三件工作:開(kāi)始從設(shè)備全局內(nèi)存獲取輸入視頻幀;在掩膜定義的位置插入標(biāo)識(shí);將處理過(guò)的幀傳輸回設(shè)備全局處理器,等待處理器調(diào)用。
視頻流中每幀的數(shù)據(jù)傳輸與計(jì)算的協(xié)調(diào)工作使用圖3所示的代碼完成。
圖3 - 用于協(xié)調(diào)每幀數(shù)據(jù)傳輸和計(jì)算的代碼
該代碼運(yùn)行在主機(jī)處理器上,負(fù)責(zé)發(fā)送視頻幀到FPGA加速器卡,啟動(dòng)加速器,然后從FPGA加速器卡取回處理后的幀。
FPGA水印算法的首個(gè)實(shí)現(xiàn)方案如圖4所示。這是一個(gè)功能正確的應(yīng)用實(shí)現(xiàn)方案,但沒(méi)有進(jìn)行任何性能優(yōu)化或?yàn)槌浞掷肍PGA架構(gòu)的功能進(jìn)行考慮。因此該代碼在SDAccel中編譯完成后,在Alpha Data卡上運(yùn)行得到的最大吞吐量?jī)H為0.5fps。
從圖4的代碼中可以看到,這種水印算法不是一種高計(jì)算強(qiáng)度的設(shè)計(jì)。大多數(shù)時(shí)間花在訪問(wèn)內(nèi)存,讀取和寫入視頻幀上。因此我們?cè)趦?yōu)化實(shí)例設(shè)計(jì)時(shí),把重點(diǎn)放在優(yōu)化內(nèi)存帶寬上。
圖4 - 水印內(nèi)核的初始實(shí)現(xiàn)方案
使用矢量化優(yōu)化內(nèi)存訪問(wèn)
與其他軟件可編程架構(gòu)相比,F(xiàn)PGA架構(gòu)的優(yōu)勢(shì)之一在于靈活性強(qiáng),能配置連接內(nèi)存的總線。SDAccel能根據(jù)具體的應(yīng)用內(nèi)核創(chuàng)建用于連接內(nèi)存的定制化數(shù)據(jù)路徑和架構(gòu)。通過(guò)修改代碼,一次可以處理多個(gè)像素,從而能夠從內(nèi)核中調(diào)用更高的內(nèi)存帶寬。這個(gè)過(guò)程稱之為矢量化。
矢量化的程度是否合適,取決于具體應(yīng)用和所使用的FPGA加速器卡。以Alpha Data卡為例,設(shè)備全局內(nèi)存接口寬度為512位,這與SDAccel為內(nèi)核提供的最大AXI互聯(lián)寬度一致。鑒于最大帶寬為512位,該應(yīng)用調(diào)整為每次處理20個(gè)像素(24位/像素×20像素=504位)。SDAccel完全支持矢量數(shù)據(jù)類型。因此就本應(yīng)用而言,代碼的矢量化非常簡(jiǎn)單,就是把所有陣列的數(shù)據(jù)類型修改為char20(如圖5所示),這樣吞吐量就能達(dá)到12fps。
圖5 - 矢量化后的內(nèi)核代碼
使用突發(fā)模式優(yōu)化內(nèi)存訪問(wèn)
雖然矢量化能顯著改善應(yīng)用性能,但仍不足以實(shí)現(xiàn)30fps的吞吐量目標(biāo)。該應(yīng)用仍然受內(nèi)存局限,因?yàn)閮?nèi)核每次只能向內(nèi)存?zhèn)鬏?0個(gè)像素。為減輕內(nèi)存限制對(duì)應(yīng)用造成的影響,我們不得不修改內(nèi)核代碼,以生成到內(nèi)存的突發(fā)讀取/寫入操作,從而實(shí)現(xiàn)大于20個(gè)像素的數(shù)據(jù)集。修改后的內(nèi)核代碼見(jiàn)圖6。
圖6 - 針對(duì)突發(fā)數(shù)據(jù)傳輸優(yōu)化的內(nèi)核代碼
代碼內(nèi)核首先修改的是在內(nèi)核中定義片上存儲(chǔ),以便每次存儲(chǔ)像素塊。片上內(nèi)存用內(nèi)核代碼中聲明的陣列來(lái)定義。為啟動(dòng)到內(nèi)存的突發(fā)事務(wù)處理,該代碼實(shí)例化memcpy命令,以將數(shù)據(jù)塊從DDR移到內(nèi)核內(nèi)的BRAM存儲(chǔ)系統(tǒng)中。根據(jù)片上內(nèi)存資源的大小和待處理數(shù)據(jù)的量,一個(gè)視頻幀可分割成20個(gè)1920×54像素塊(如圖7所示)。
圖7 - 把視頻幀分區(qū)成數(shù)據(jù)塊
當(dāng)memcry命令把數(shù)據(jù)塊放置到內(nèi)核陣列中,該算法就會(huì)在數(shù)據(jù)塊上執(zhí)行水印算法,然后把結(jié)果放回內(nèi)核陣列。數(shù)據(jù)塊處理的結(jié)果隨后使用memcry命令傳送回DDR內(nèi)存。反復(fù)執(zhí)行這個(gè)操作20次,直至給定幀中所有的數(shù)據(jù)塊處理完畢。通過(guò)修改內(nèi)核代碼,系統(tǒng)性能達(dá)到了38fps,超過(guò)了既定的30fps目標(biāo)。
應(yīng)用前景廣泛
使用SDAccel開(kāi)發(fā)本文介紹的這類應(yīng)用時(shí)所進(jìn)行的必要優(yōu)化屬于軟件優(yōu)化。因此這些優(yōu)化工作與從其他處理架構(gòu)中(如GPU)獲取性能所開(kāi)展的優(yōu)化類似。使用SDAccel后,讓PCIe鏈路工作、驅(qū)動(dòng)程序、IP布局和互聯(lián)等細(xì)節(jié)都不是問(wèn)題,使我們就像設(shè)計(jì)人員一樣只需集中精力開(kāi)發(fā)目標(biāo)應(yīng)用。
我們?cè)谒?yīng)用中所做的優(yōu)化適用于使用SDAccel編譯過(guò)的所有應(yīng)用。事實(shí)上視頻水印應(yīng)用就是一個(gè)很棒的技巧講解案例,詳細(xì)介紹了賽靈思SDAccel中推出的優(yōu)化方法。
XC7VX415T-1FF1158I
XC7VX485T-1FF1158I
XC7VX415T-2FFG1157I
XC7VX485T-1FFG1158C
XC7VX415T-3FFG1158E
XC7VX415T-3FFG1157E
XC7VX485T-1FFG1158I
TMS320C6455BGTZA
XC7VX1140T-1FL1928I
XC7VX1140T-2FL1928C
XC7VX1140T-2FL1928I
XC7VX1140T-1FLG1928C
XC7VX1140T-2FLG1926C
XC7VX1140T-2FLG1928C
XC7VX1140T-1FLG1926C
XC7VX1140T-1FLG1928I
XC7VX1140T-L2FLG1926E
XC7VX1140T-L2FLG1928E