專利名稱:一種用dsp和fpga實現(xiàn)視頻結(jié)構(gòu)化描述的裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種實現(xiàn)視頻結(jié)構(gòu)化描述的裝置和方法,特別涉及一種用DSP和FPGA 實現(xiàn)對輸入視頻進行結(jié)構(gòu)化描述的裝置及方法。
背景技術(shù):
隨著視頻監(jiān)控資料在公共安防領(lǐng)域中的重要性越來越突出,目前的視頻監(jiān)控主要 以人工監(jiān)控和人工查閱錄像資料來查找證據(jù)和線索為主。隨著監(jiān)控網(wǎng)絡(luò)規(guī)模的不斷擴大、 視頻資料的急劇增長,人工監(jiān)控和查閱越來越難以滿足日益增長的城市安全監(jiān)控需求。另 外,現(xiàn)有的原始視頻圖像數(shù)據(jù)屬于一種難以進行檢索、查詢的非結(jié)構(gòu)化數(shù)據(jù),若需要通過視 頻錄像來查找某個線索或者細節(jié),必須采用人工調(diào)閱該錄像視頻片斷方法,對該視頻錄像 進行完整的分析。比如從一段監(jiān)控錄像中查找“一輛紅色的轎車”,必須人工從頭至尾觀看 該錄像片斷,才能找出所有相關(guān)的畫面或場景。如果給出更多、更長的監(jiān)控視頻錄像,人工 就很難完成分析和查找工作,因此如何對這些數(shù)據(jù)進行信息化管理和深度應(yīng)用是視頻智能 處理分析技術(shù)領(lǐng)域的一個前沿課題。嵌入式DSP和FPGA實時圖像處理技術(shù)是結(jié)合圖像處理、模式識別、高速多層電路 板設(shè)計、以及電磁兼容等多學(xué)科門類的一門前沿技術(shù)。在目前的電子技術(shù)條件下,DSP技術(shù) 和大規(guī)模高速邏輯處理芯片F(xiàn)PGA技術(shù)成為解決智能視頻處理系統(tǒng)問題的熱點方案。根據(jù)公開的文獻資料,市場上逐漸出現(xiàn)了一些智能監(jiān)控系統(tǒng)和智能視頻分析設(shè) 備。申請?zhí)?00810018859. X的發(fā)明專利公開了一種智能視頻監(jiān)控終端,該終端不僅可以在 監(jiān)控前端對視頻實現(xiàn)編碼,而且可以對監(jiān)控場所的運動目標進行檢測,將報警信息連同監(jiān) 控場所的視頻圖像一起進行網(wǎng)絡(luò)傳輸,實現(xiàn)智能化視頻監(jiān)控,對運動目標的檢測不僅快速 而且還提高了監(jiān)控的深度。申請?zhí)枮?00710046001. X的發(fā)明專利公開了一種基于嵌入式具有識別功能的智 能網(wǎng)絡(luò)攝像機,集圖像采集、壓縮、保存、特定內(nèi)容識別、傳輸、必要時的控制技術(shù)為一體,將 硬件設(shè)計與軟件設(shè)計相結(jié)合,達到應(yīng)用靈活、功能可預(yù)置、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)設(shè)置等目的。申請?zhí)枮?00710178409. 2的發(fā)明專利公開了一種運動檢測方法、裝置及一種智 能監(jiān)控系統(tǒng),通過將背景差分圖像和幀間差分圖像進行邏輯與處理獲得運動前景圖像。但 使用DSP和大規(guī)模FPGA芯片實現(xiàn)對輸入視頻根據(jù)圖象特征進行結(jié)構(gòu)化描述,便以視頻定 位、檢索和管理等高級應(yīng)用的專用嵌入式系統(tǒng)未見報道。綜上所述,現(xiàn)有的智能視頻分析技術(shù)和設(shè)備主要致力于運動目標檢測、跟蹤和一 些異常情況的判別報警,沒有提取視頻圖像特征并進行高級語義理解,難以產(chǎn)生結(jié)構(gòu)化的 描述數(shù)據(jù),從而難以進行檢索、瀏覽、過濾等信息化的管理和應(yīng)用?,F(xiàn)有的設(shè)備和分析方法 也沒有運用數(shù)字信號處理器DSP和大規(guī)模邏輯電路FPGA進行視頻結(jié)構(gòu)化描述的應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置及方法,針對現(xiàn)有技術(shù)的不足,利用嵌入式DSP和FPGA技術(shù),能夠自動進行視頻分析和結(jié)構(gòu)化描述、適 用范圍廣泛、使用安全快捷、性能穩(wěn)定可靠。本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案來實現(xiàn)一方面,本發(fā)明提供一種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于, 它包括A/D采樣轉(zhuǎn)換模塊,用于采集外部數(shù)據(jù)源的視頻數(shù)據(jù);DSP數(shù)字信號處理器,與A/D采樣轉(zhuǎn)換模塊連接,接收A/D采樣轉(zhuǎn)換模塊采集的視 頻數(shù)據(jù)并進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理;FPGA大規(guī)模邏輯處理器,與DSP數(shù)字信號處理器連接并協(xié)助DSP數(shù)字信號處理器 對A/D采樣轉(zhuǎn)換模塊采集的視頻數(shù)據(jù)進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理;數(shù)據(jù)存儲模塊,與DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器互相連接并用于 存儲DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理的數(shù) 據(jù);數(shù)據(jù)輸出模塊,與DSP數(shù)字信號處理器或者FPGA大規(guī)模邏輯處理器連接并輸出 DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理的數(shù)據(jù);電源模塊,與A/D采樣轉(zhuǎn)換模塊、DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù) 據(jù)存儲模塊和數(shù)據(jù)輸出模塊連接并為A/D采樣轉(zhuǎn)換模塊、DSP數(shù)字信號處理器、FPGA大規(guī)模 邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊供電;A/D采樣轉(zhuǎn)換模塊通過數(shù)據(jù)總線與DSP數(shù)字信號處理器連接,DSP數(shù)字信號處理 器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊及數(shù)據(jù)輸出模塊之間通過數(shù)據(jù)總線和地址總線 互相連接,A/D采樣轉(zhuǎn)換模塊與DSP數(shù)字信號處理器之間及DSP數(shù)字信號處理器、FPGA大規(guī) 模邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊之間設(shè)置有總線控制單元,控制A/D采樣轉(zhuǎn) 換模塊與DSP數(shù)字信號處理器之間及DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù) 存儲模塊和數(shù)據(jù)輸出模塊之間的數(shù)據(jù)傳輸。在本發(fā)明的一個實施例中,所述數(shù)據(jù)存儲模塊包括固化有視頻結(jié)構(gòu)化描述程序的 數(shù)據(jù)存儲器及用于存儲視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理過程中的數(shù)據(jù)的高速動態(tài)存儲器,所述 數(shù)據(jù)存儲器和高速動態(tài)存儲器與所述DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器及數(shù)據(jù) 輸出模塊之間互相連接。進一步,所述高速動態(tài)存儲器設(shè)置有公共數(shù)據(jù)交換區(qū)、全局變量存儲區(qū)和臨時數(shù) 據(jù)堆棧。在本發(fā)明的一個實施例中,所述數(shù)據(jù)輸出模塊包括與上位機互相連接通信并接收 視頻數(shù)據(jù)結(jié)構(gòu)化描述處理參數(shù)的高速串行輸入輸出模塊及與上位機互相連接通信并向上 位機傳輸視頻數(shù)據(jù)結(jié)構(gòu)化描述處理后的數(shù)據(jù)的網(wǎng)絡(luò)傳輸模塊。進一步,所述高速串行輸入輸出模塊通過RS232接口與上位機互相連接通信,接 收上位機傳輸?shù)囊曨l數(shù)據(jù)結(jié)構(gòu)化描述處理參數(shù)。進一步,所述網(wǎng)絡(luò)傳輸模塊通過RJ45接口和TCP/IP協(xié)議與上位機互相連接通信, 向上位機傳輸視頻數(shù)據(jù)結(jié)構(gòu)化描述處理后的數(shù)據(jù)。在本發(fā)明的一個實施例中,所述A/D采樣轉(zhuǎn)換模塊可以接收NTSC、PAL、SECAM制式 的外部攝象機或原始視頻源提供的標準視頻數(shù)據(jù)。
另一方面,本發(fā)明提供一種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在 于,它包括如下步驟a)對外部視頻源進行數(shù)據(jù)采樣;b)把采樣的外部視頻源中的視頻數(shù)據(jù)中的視頻圖像分成若干個視頻圖像片斷、關(guān) 鍵幀和子區(qū)域;c)對上述視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取和高級語義分析處理,獲 得視頻圖像的特征和高級語義數(shù)據(jù);d)對視頻圖像、視頻圖像的特征和高級語義數(shù)據(jù)進行編碼,得到視頻圖像的編碼 和視頻圖像結(jié)構(gòu)化描述數(shù)據(jù)的編碼;e)對視頻圖像編碼數(shù)據(jù)和視頻圖像結(jié)構(gòu)化描述編碼數(shù)據(jù)傳輸?shù)缴衔粰C。在本發(fā)明的一個實施例中,所述視頻圖像通過鏡頭分割、關(guān)鍵幀提取、運動目標區(qū) 域檢測和靜態(tài)目標區(qū)域分割處理分成若干個視頻圖像片斷、關(guān)鍵幀和子區(qū)域。進一步,所述鏡頭分割是指把一段視頻圖像根據(jù)鏡頭邊界分割成若干個鏡頭,每 個鏡頭是一段時間序列的幀,連續(xù)記錄一個單獨的攝像機的動作;一般描述一個連續(xù)的動 作而沒有主要的內(nèi)容變化,鏡頭分割主要通過鏡頭邊界檢測來實現(xiàn)。進一步,所述關(guān)鍵幀提取是指在某個鏡頭或者某個視頻片斷中提取的一些具有代 表性的視頻幀,用來表現(xiàn)該鏡頭或視頻片斷的內(nèi)容。再進一步,所述關(guān)鍵幀提取的方法包括隨機抽取、根據(jù)圖像質(zhì)量抽取根據(jù)感興趣 區(qū)域的位置和大小抽取及事件觸發(fā)抽取。進一步,所述運動目標區(qū)域檢測是指在視頻圖像中,檢測視頻圖像的場景中運動 的目標,把畫面中運動目標的區(qū)域和背景區(qū)域分開,并對運動目標區(qū)域進行標記或遮罩處理。再進一步,所述運動目標區(qū)域檢測的方法為根據(jù)當(dāng)前圖像和背景圖像的差異來檢 測運動目標區(qū)域的背景差分方法。進一步,所述靜態(tài)目標區(qū)域分割是指根據(jù)色彩、紋理、輪廓、邊緣或者事物的完整 性,對整個視頻圖像進行分割和劃分,獲得若干個子區(qū)域。在本發(fā)明的一個實施例中,所述視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取,提 取的特征為圖像的視覺特征,包括顏色、紋理、運動、形狀、定位、輪廓、線條、人像特征。在本發(fā)明的一個實施例中,所述視頻圖像片斷、關(guān)鍵幀和子區(qū)域的高級語義分析 處理包括對視頻圖像片斷、關(guān)鍵幀和子區(qū)域及圖像特征進行分割、聚類、匹配、解義、分類、 判別等運算和操作,產(chǎn)生圖像描述高級語義數(shù)據(jù)。在本發(fā)明的一個實施例中,所述視頻圖像的編碼和壓縮方法包括MPEG-2、MPEG_4、 H. 264、SVAC、AVS等壓縮編碼方式。在本發(fā)明的一個實施例中,所述視頻結(jié)構(gòu)化描述數(shù)據(jù)的編碼通過可擴展標記語言 (XML)或者二進制的XML壓縮進行編碼。 本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置及方法,用DSP和FPGA實現(xiàn) 對輸入視頻進行結(jié)構(gòu)化描述將視頻結(jié)構(gòu)化描述的智能圖象處理技術(shù)和基于DSP和FPGA的 嵌入式系統(tǒng)進行了有機的結(jié)合,對視頻圖像進行分析、理解,并產(chǎn)生結(jié)構(gòu)化描述數(shù)據(jù),有效 地對視頻監(jiān)控和視頻數(shù)據(jù)進行管理,實現(xiàn)對視頻圖像數(shù)據(jù)的查詢、瀏覽、檢索等信息化的應(yīng)用;工作性能穩(wěn)定可靠,適用范圍較為廣泛,能夠大幅度提高現(xiàn)有視頻監(jiān)控系統(tǒng)的智能化程 度,降低人工監(jiān)控的成本,實現(xiàn)視頻監(jiān)控的信息化管理。本發(fā)明的特點可參閱本案圖式及以下較好實施方式的詳細說明而獲得清楚地了解。
圖1為本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置的硬件結(jié)構(gòu)圖;圖2為本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法的流程圖;圖3為本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法的處理流程圖;圖4為本發(fā)明的A/D采樣轉(zhuǎn)換模塊的結(jié)構(gòu)示意圖;圖5為本發(fā)明的高速動態(tài)存儲器的應(yīng)用模塊圖;圖6為本發(fā)明的網(wǎng)絡(luò)通信模塊的結(jié)構(gòu)示意圖;圖7為本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置及方法的應(yīng)用示意圖。
具體實施例方式為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié) 合具體圖示,進一步闡述本發(fā)明。實施例1如圖1所示,本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,它包括A/D采 樣轉(zhuǎn)換模塊100、DSP數(shù)字信號處理器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊、數(shù) 據(jù)輸出模塊和電源模塊400,所述數(shù)據(jù)存儲模塊包括FLASH數(shù)據(jù)存儲器500及SDRAM高速動 態(tài)存儲器600,所述數(shù)據(jù)輸出模塊包括高速串行輸入輸出模塊700及網(wǎng)絡(luò)傳輸模塊800。A/D采樣轉(zhuǎn)換模塊100用于采集外部數(shù)據(jù)源的視頻數(shù)據(jù);DSP數(shù)字信號處理器200 與A/D采樣轉(zhuǎn)換模塊100連接,接收A/D采樣轉(zhuǎn)換模塊100采集的視頻數(shù)據(jù)并進行視頻數(shù) 據(jù)的結(jié)構(gòu)化描述處理;FPGA大規(guī)模邏輯處理器300,與DSP數(shù)字信號處理器200連接并協(xié)助 DSP數(shù)字信號處理器200對A/D采樣轉(zhuǎn)換模塊100采集的視頻數(shù)據(jù)進行視頻數(shù)據(jù)的結(jié)構(gòu)化 描述處理;數(shù)據(jù)存儲模塊,與DSP數(shù)字信號處理器200和FPGA大規(guī)模邏輯處理器300互相 連接并用于存儲DSP數(shù)字信號處理器200和FPGA大規(guī)模邏輯處理器300進行視頻數(shù)據(jù)的 結(jié)構(gòu)化描述處理的數(shù)據(jù);數(shù)據(jù)輸出模塊,與DSP數(shù)字信號處理器200或者FPGA大規(guī)模邏輯 處理器300連接并輸出DSP數(shù)字信號處理器200和FPGA大規(guī)模邏輯處理器300進行視頻 數(shù)據(jù)的結(jié)構(gòu)化描述處理的數(shù)據(jù);電源模塊400,與A/D采樣轉(zhuǎn)換模塊100、DSP數(shù)字信號處理 器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊連接并為A/D采樣轉(zhuǎn)換 模塊100、DSP數(shù)字信號處理器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出 模塊供電。A/D采樣轉(zhuǎn)換模塊100通過數(shù)據(jù)總線與DSP數(shù)字信號處理器200連接,DSP數(shù)字信 號處理器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊及數(shù)據(jù)輸出模塊之間通過數(shù)據(jù)總 線和地址總線互相連接,A/D采樣轉(zhuǎn)換模塊100與DSP數(shù)字信號處理器200之間及DSP數(shù) 字信號處理器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊之間設(shè)置有 總線控制單元900,控制A/D采樣轉(zhuǎn)換模塊100與DSP數(shù)字信號處理器200之間及DSP數(shù)字信號處理器200、FPGA大規(guī)模邏輯處理器300、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊之間的數(shù)據(jù)傳輸。在本實施例中,DSP數(shù)字信號處理器200采用TI公司的TMS320C6000系列DM642 DSP嵌入式處理器,F(xiàn)PGA大規(guī)模邏輯處理器300采用XILINX公司的SPARTEN_3e系列FPGA 來組建系統(tǒng);A/D采樣轉(zhuǎn)換模塊100采用TVP5146芯片,可以配置成六路復(fù)合視頻信號輸入 或二路YPbPr分量輸入或S-Video和兩路復(fù)合視頻信號輸入等多種方式。視頻信號經(jīng)過A/ D采樣轉(zhuǎn)換模塊100轉(zhuǎn)換為數(shù)字圖像序列,傳給DSP數(shù)字信號處理器200和FPGA大規(guī)模邏 輯處理器300做圖象結(jié)構(gòu)化描述處理,視頻結(jié)構(gòu)化描述程序主要由DSP數(shù)字信號處理器200 和FPGA大規(guī)模邏輯處理器300協(xié)同處理完成。在本實施例中,所述數(shù)據(jù)存儲模塊包括FLASH數(shù)據(jù)存儲器500及SDRAM高速動態(tài) 存儲器600,F(xiàn)LASH數(shù)據(jù)存儲器500固化有視頻結(jié)構(gòu)化描述程序,SDRAM高速動態(tài)存儲器600 用于存儲視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理過程中的數(shù)據(jù),F(xiàn)LASH數(shù)據(jù)存儲器500及SDRAM高速 動態(tài)存儲器600與DSP數(shù)字信號處理器200、FPGA大規(guī)模邏輯處理器300及數(shù)據(jù)輸出模塊 之間互相連接。SDRAM高速動態(tài)存儲器600設(shè)置有公共數(shù)據(jù)交換區(qū)、全局變量存儲區(qū)和臨時數(shù)據(jù) 堆棧。在本實施例中,所述數(shù)據(jù)輸出模塊包括高速串行輸入輸出模塊700及網(wǎng)絡(luò)傳輸模 塊800,高速串行輸入輸出模塊700與上位機互相連接通信并接收視頻數(shù)據(jù)結(jié)構(gòu)化描述處 理參數(shù),網(wǎng)絡(luò)傳輸模塊800與上位機互相連接通信并向上位機傳輸視頻數(shù)據(jù)結(jié)構(gòu)化描述處 理后的數(shù)據(jù)。高速串行輸入輸出模塊700通過RS232接口與上位機互相連接通信,接收上位機 傳輸?shù)囊曨l數(shù)據(jù)結(jié)構(gòu)化描述處理參數(shù)。網(wǎng)絡(luò)傳輸模塊800通過RJ45接口和TCP/IP協(xié)議與上位機互相連接通信,向上位 機傳輸視頻數(shù)據(jù)結(jié)構(gòu)化描述處理后的數(shù)據(jù)。如圖4所示,A/D采樣轉(zhuǎn)換模塊100采用TVP5146芯片,可以配置成六路復(fù)合視頻 信號輸入或二路YPbPr分量輸入或S-Video和兩路復(fù)合視頻信號輸入等多種方式;內(nèi)部有 模擬視頻輸入鉗位電路和自動增益控制電路(AGC)。鉗位電路能使模擬視頻輸入信號穩(wěn)定 在一個固定的直流電平值上,自動增益控制電路將調(diào)整信號的幅度使它不超過A/D采樣轉(zhuǎn) 換模塊100所允許的范圍。A/D采樣轉(zhuǎn)換模塊100可以接收NTSC、PAL、SECAM制式的模擬圖 像信號,輸出格式可以是 20-/16-bit 或 10-/8-bit 4:2:2,或者 10_/8_bit ITU-R BT. 656。 DSP數(shù)字信號處理器200通過I2C總線(SCL 時鐘線,SDA 數(shù)據(jù)線)讀寫A/D采樣轉(zhuǎn)換模塊 100的內(nèi)部寄存器來控制A/D采樣轉(zhuǎn)換模塊100的輸入輸出格式、圖像的亮度、對比度、飽和 度,并且啟動芯片開始工作。晶振產(chǎn)生14. 318MHz的時鐘輸入到A/D采樣轉(zhuǎn)換模塊100的 內(nèi)部鎖相環(huán)(PLL),產(chǎn)生13. 5MHz的PCLK,送到DSP數(shù)字信號處理器200的VP 口,作為接收 20-/16-bit 4:2:2格式數(shù)字圖像信號的時鐘。A/D采樣轉(zhuǎn)換模塊100輸出行同步(HSYN)、 場同步(VSYN)、奇偶場指示(FID)、Y/UV信號到DSP數(shù)字信號處理器200的VIDE0P0RT 口。如圖5所示,本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,在處理過程中 需開辟多幀圖像的存儲空間作為緩存,因此選用4片SAMSUNG公司的K4S561632E SDRAM 芯片組成128M字節(jié)SDRAM高速動態(tài)存儲器600。地址線A
中AO A12為行地址,AO A8為列地址。通過和控制行、列地址選通。DSP數(shù)字信號處理器200的EA[3. . 15]做 為連接SDRAM高速動態(tài)存儲器600的地址線。EA[16. . 17]用于SDRAM高速動態(tài)存儲器600 的4個Bank的片選,連接SDRAM高速動態(tài)存儲器600的BA
即可。EA
通過內(nèi) 部3/8譯碼器,輸出BE
,用于使能DM642以字節(jié)形式訪問SDRAM高速動態(tài)存儲器600, 只需連接SDRAM高速動態(tài)存儲器600的DQML和DQMH引腳。如圖6所示,本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其網(wǎng)絡(luò)傳輸模 塊800采用DSP數(shù)字信號處理器200集成的以太網(wǎng)控制器,包括以太網(wǎng)介質(zhì)訪問控制器 (EMAC)和物理層管理數(shù)據(jù)輸入輸出(MDIO)。EMAC控制DSP和物理層芯片(PHY)之間的 數(shù)據(jù)流,而MDIO控制PHY的配置并且監(jiān)視其狀態(tài)。PHY采用Intel公司的LXT971A,支持 100BASE-TX和100BASE-T兩種模式,并提供MII接口。如圖2所示,本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,它包括如下步 驟a)對外部視頻源進行數(shù)據(jù)采樣;b)把采樣的外部視頻源中的視頻數(shù)據(jù)中的視頻圖像分成若干個視頻圖像片斷、關(guān) 鍵幀和子區(qū)域;c)對上述視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取和高級語義分析處理,獲 得視頻圖像的特征和高級語義數(shù)據(jù);d)對視頻圖像、視頻圖像的特征和高級語義數(shù)據(jù)進行編碼,得到視頻圖像的編碼 和視頻圖像結(jié)構(gòu)化描述數(shù)據(jù)的編碼;e)對視頻圖像編碼數(shù)據(jù)和視頻圖像結(jié)構(gòu)化描述編碼數(shù)據(jù)傳輸?shù)缴衔粰C。其中步驟a)、d)由DSP數(shù)字信號處理器200完成,步驟b)、c)、e)由DSP數(shù)字信 號處理器200和FPGA大規(guī)模邏輯處理器300協(xié)作完成。其具體工作過程是(1)原始視頻源產(chǎn)生的模擬視頻信號經(jīng)過A/D采樣轉(zhuǎn)換模塊100進行A/D采樣和 轉(zhuǎn)換,由上述步驟a)產(chǎn)生數(shù)字圖像,通過Video Poet數(shù)據(jù)口傳送給DSP數(shù)字信號處理器 200 ;(2)DSP數(shù)字信號處理器200中運行的上述步驟b)根據(jù)場景的變化將整個數(shù)字圖 像分解成幾個片斷,每個片斷包含一個場景。再進行鏡頭邊界檢測方法,比較相鄰兩幀之間 的變化,如果該變化超過某個閾值,則認為這兩幀之間為鏡頭邊界。其次,對每個視頻片斷 提取關(guān)鍵幀,關(guān)鍵幀一般為該視頻片斷中具有代表性的視頻幀。再次,根據(jù)關(guān)鍵幀畫面中的 活動目標對關(guān)鍵幀圖像做進一步的分割,得到多個子區(qū)域,其中對關(guān)鍵幀的分割需要FPGA 的協(xié)處理。這樣,通過上述步驟,把一段視頻圖像分割成若干視頻圖像片斷、關(guān)鍵幀和子區(qū) 域。(3) DSP數(shù)字信號處理器200中運行的上述步驟c)對經(jīng)過分割得到的子區(qū)域圖像 進行特征提取,獲得其區(qū)域形狀特征,并且生成關(guān)于其特征的描述。該區(qū)域形狀的特征是采 用背景差分和圖像形態(tài)學(xué)運算的方法獲得,并采用可擴展標記語言(XML)對其進行描述。 該區(qū)域形狀的特征描述,包括形狀、顏色、紋理、運動、定位、輪廓等視覺特征。(4)圖像提取到視覺特征后,上述步驟c)可根據(jù)其特征進行分類判別。分類判別 的方法包括相似度計算、模板匹配、基于機器學(xué)習(xí)的分類方法、神經(jīng)網(wǎng)絡(luò)、支持向量機等方法。(5)視覺特征和語義描述的方法是首先制定描述的方案(MDS),然后根據(jù)描述方 案把圖像的特征數(shù)據(jù)和語義描述數(shù)據(jù)用可擴展標記語言(XML)表述出來。(6)上述步驟d)對數(shù)字圖像序列及其結(jié)構(gòu)化語義描述進行編碼,產(chǎn)生視頻流數(shù)據(jù) 和視頻描述數(shù)據(jù),通過上述步驟e)并輸出到網(wǎng)絡(luò)。如圖3所示,在本實施例中,所述視頻圖像通過鏡頭分割、關(guān)鍵幀提取、運動目標 區(qū)域檢測和靜態(tài)目標區(qū)域分割處理分成若干個視頻圖像片斷、關(guān)鍵幀和子區(qū)域。所述鏡頭分割是指把一段視頻圖像根據(jù)鏡頭邊界分割成若干個鏡頭,每個鏡頭是 一段時間序列的幀,連續(xù)記錄一個單獨的攝像機的動作;一般描述一個連續(xù)的動作而沒有 主要的內(nèi)容變化,鏡頭分割主要通過鏡頭邊界檢測來實現(xiàn)。所述關(guān)鍵幀提取是指在某個鏡頭或者某個視頻片斷中提取的一些具有代表性的 視頻幀,用來表現(xiàn)該鏡頭或視頻片斷的內(nèi)容。所述關(guān)鍵幀提取的方法包括隨機抽取、根據(jù)圖像質(zhì)量抽取根據(jù)感興趣區(qū)域的位 置和大小抽取及事件觸發(fā)抽取。所述運動目標區(qū)域檢測是指在視頻圖像中,檢測視頻圖像的場景中運動的目標, 把畫面中運動目標的區(qū)域和背景區(qū)域分開,并對運動目標區(qū)域進行標記或遮罩處理。所述運動目標區(qū)域檢測的方法為根據(jù)當(dāng)前圖像和背景圖像的差異來檢測運動目 標區(qū)域的背景差分方法。所述靜態(tài)目標區(qū)域分割是指根據(jù)色彩、紋理、輪廓、邊緣或者事物的完整性,對整 個視頻圖像進行分割和劃分,獲得若干個子區(qū)域。在本實施例中,所述視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取,提取的特征為 圖像的視覺特征,包括顏色、紋理、運動、形狀、定位、輪廓、線條、人像特征。在本實施例中,所述視頻圖像片斷、關(guān)鍵幀和子區(qū)域的高級語義分析處理包括對 視頻圖像片斷、關(guān)鍵幀和子區(qū)域及圖像特征進行分割、聚類、匹配、解義、分類、判別等運算 和操作,產(chǎn)生圖像描述高級語義數(shù)據(jù)。在本實施例中,所述視頻圖像的編碼和壓縮方法包括MPEG-2、MPEG-4、H. 264、 SVAC.AVS等壓縮編碼方式。在本發(fā)明的一個實施例中,所述視頻結(jié)構(gòu)化描述數(shù)據(jù)的編碼通過可擴展標記語言 (XML)或者二進制的XML壓縮進行編碼。如圖7所示,一個典型視頻監(jiān)控場景中采用本發(fā)明的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu) 化描述的裝置及方法對一個道路監(jiān)控的場景輸入視頻進行結(jié)構(gòu)化描述的裝置和方法對關(guān) 鍵幀的分析和結(jié)構(gòu)化描述過程。通過對視頻圖像進行鏡頭分割、關(guān)鍵幀提取、運動目標區(qū)域 檢測、靜態(tài)目標區(qū)域分割處理,把圖像分成若干個片斷、關(guān)鍵幀和子區(qū)域。如圖7所示,本例 中關(guān)鍵幀處理后,得到4個子區(qū)域子區(qū)域1為一個奔跑的人,子區(qū)域2為一輛紅色的轎車, 子區(qū)域3為一輛藍色的卡車,子區(qū)域1為一棵樹。通過對視頻圖像、關(guān)鍵幀和子區(qū)域進行特 征提取和高級語義分析處理,能夠獲得視頻圖像、關(guān)鍵幀和子區(qū)域的視覺特征(如主色調(diào) 特征、輪廓特征、位置特征等)和高級語義描述數(shù)據(jù)(如“一個在路邊奔跑的人”、“一輛紅 色的轎車”、“卡車”、“藍色”、“一棵樹”、“反向行駛”等)。最后對視頻圖像、圖像特征和高級 語義數(shù)據(jù)進行編碼,得到視頻圖像的編碼和視頻圖像描述數(shù)據(jù)的編碼。由于采用本發(fā)明的視頻圖像分析描述的方法,通過對非結(jié)構(gòu)化的視頻圖像數(shù)據(jù)進行分析和描述產(chǎn)生結(jié)構(gòu)化的 視頻描述數(shù)據(jù)編碼,從而實現(xiàn)對視頻圖像數(shù)據(jù)的結(jié)構(gòu)化、信息化的管理。例如用戶可以通 過檢索關(guān)鍵詞“轎車”、“紅色”,就可以快速檢索到相應(yīng)的視頻錄像片斷,并且快速定位到包 含有紅色轎車出現(xiàn)的視頻幀。與傳統(tǒng)的人工調(diào)閱錄像相比,大大提高了查詢、檢索的效率。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變 化和改進都落入要求保護的本發(fā)明范圍內(nèi),本發(fā)明要求保護范圍由所附的權(quán)利要求書及其 等效物界定。
權(quán)利要求
一種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,它包括A/D采樣轉(zhuǎn)換模塊,用于采集外部數(shù)據(jù)源的視頻數(shù)據(jù);DSP數(shù)字信號處理器,與A/D采樣轉(zhuǎn)換模塊連接,接收A/D采樣轉(zhuǎn)換模塊采集的視頻數(shù)據(jù)并進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理;FPGA大規(guī)模邏輯處理器,與DSP數(shù)字信號處理器連接并協(xié)助DSP數(shù)字信號處理器對A/D采樣轉(zhuǎn)換模塊采集的視頻數(shù)據(jù)進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理;數(shù)據(jù)存儲模塊,與DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器互相連接并用于存儲DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理的數(shù)據(jù);數(shù)據(jù)輸出模塊,與DSP數(shù)字信號處理器或者FPGA大規(guī)模邏輯處理器連接并輸出DSP數(shù)字信號處理器和FPGA大規(guī)模邏輯處理器進行視頻數(shù)據(jù)的結(jié)構(gòu)化描述處理的數(shù)據(jù);電源模塊,與A/D采樣轉(zhuǎn)換模塊、DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊連接并為A/D采樣轉(zhuǎn)換模塊、DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊供電;A/D采樣轉(zhuǎn)換模塊通過數(shù)據(jù)總線與DSP數(shù)字信號處理器連接,DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊及數(shù)據(jù)輸出模塊之間通過數(shù)據(jù)總線和地址總線互相連接,A/D采樣轉(zhuǎn)換模塊與DSP數(shù)字信號處理器之間及DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊之間設(shè)置有總線控制單元,控制A/D采樣轉(zhuǎn)換模塊與DSP數(shù)字信號處理器之間及DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器、數(shù)據(jù)存儲模塊和數(shù)據(jù)輸出模塊之間的數(shù)據(jù)傳輸。
2.如權(quán)利要求1所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所 述數(shù)據(jù)存儲模塊包括固化有視頻結(jié)構(gòu)化描述程序的數(shù)據(jù)存儲器及用于存儲視頻數(shù)據(jù)的結(jié) 構(gòu)化描述處理過程中的數(shù)據(jù)的高速動態(tài)存儲器,所述數(shù)據(jù)存儲器和高速動態(tài)存儲器與所述 DSP數(shù)字信號處理器、FPGA大規(guī)模邏輯處理器及數(shù)據(jù)輸出模塊之間互相連接。
3.如權(quán)利要求2所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所述 高速動態(tài)存儲器設(shè)置有公共數(shù)據(jù)交換區(qū)、全局變量存儲區(qū)和臨時數(shù)據(jù)堆棧。
4.如權(quán)利要求1所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所述 數(shù)據(jù)輸出模塊包括與上位機互相連接通信并接收視頻數(shù)據(jù)結(jié)構(gòu)化描述處理參數(shù)的高速串 行輸入輸出模塊及與上位機互相連接通信并向上位機傳輸視頻數(shù)據(jù)結(jié)構(gòu)化描述處理后的 數(shù)據(jù)的網(wǎng)絡(luò)傳輸模塊。
5.如權(quán)利要求4所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所述 高速串行輸入輸出模塊通過RS232接口與上位機互相連接通信,接收上位機傳輸?shù)囊曨l數(shù) 據(jù)結(jié)構(gòu)化描述處理參數(shù)。
6.如權(quán)利要求4所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所述 網(wǎng)絡(luò)傳輸模塊通過RJ45接口和TCP/IP協(xié)議與上位機互相連接通信,向上位機傳輸視頻數(shù) 據(jù)結(jié)構(gòu)化描述處理后的數(shù)據(jù)。
7.如權(quán)利要求1所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置,其特征在于,所述 A/D采樣轉(zhuǎn)換模塊可以接收NTSC、PAL、SECAM制式的外部攝象機或原始視頻源提供的標準 視頻數(shù)據(jù)。
8.—種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,它包括如下步驟a)對外部視頻源進行數(shù)據(jù)采樣;b)把采樣的外部視頻源中的視頻數(shù)據(jù)中的視頻圖像分成若干個視頻圖像片斷、關(guān)鍵幀 和子區(qū)域;c)對上述視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取和高級語義分析處理,獲得視 頻圖像的特征和高級語義數(shù)據(jù);d)對視頻圖像、視頻圖像的特征和高級語義數(shù)據(jù)進行編碼,得到視頻圖像的編碼和視 頻圖像結(jié)構(gòu)化描述數(shù)據(jù)的編碼;e)對視頻圖像編碼數(shù)據(jù)和視頻圖像結(jié)構(gòu)化描述編碼數(shù)據(jù)傳輸?shù)缴衔粰C。
9.如權(quán)利要求8所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 視頻圖像通過鏡頭分割、關(guān)鍵幀提取、運動目標區(qū)域檢測和靜態(tài)目標區(qū)域分割處理分成若 干個視頻圖像片斷、關(guān)鍵幀和子區(qū)域。
10.如權(quán)利要求9所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 鏡頭分割是指把一段視頻圖像根據(jù)鏡頭邊界分割成若干個鏡頭,每個鏡頭是一段時間序列 的幀,連續(xù)記錄一個單獨的攝像機的動作;一般描述一個連續(xù)的動作而沒有主要的內(nèi)容變 化,鏡頭分割主要通過鏡頭邊界檢測來實現(xiàn)。
11.如權(quán)利要求9所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 關(guān)鍵幀提取是指在某個鏡頭或者某個視頻片斷中提取的一些具有代表性的視頻幀,用來表 現(xiàn)該鏡頭或視頻片斷的內(nèi)容。
12.如權(quán)利要求11所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所 述關(guān)鍵幀提取的方法包括隨機抽取、根據(jù)圖像質(zhì)量抽取根據(jù)感興趣區(qū)域的位置和大小抽 取及事件觸發(fā)抽取。
13.如權(quán)利要求9所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 運動目標區(qū)域檢測是指在視頻圖像中,檢測視頻圖像的場景中運動的目標,把畫面中運動 目標的區(qū)域和背景區(qū)域分開,并對運動目標區(qū)域進行標記或遮罩處理。
14.如權(quán)利要求13所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所 述運動目標區(qū)域檢測的方法為根據(jù)當(dāng)前圖像和背景圖像的差異來檢測運動目標區(qū)域的背 景差分方法。
15.如權(quán)利要求9所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 靜態(tài)目標區(qū)域分割是指根據(jù)色彩、紋理、輪廓、邊緣或者事物的完整性,對整個視頻圖像進 行分割和劃分,獲得若干個子區(qū)域。
16.如權(quán)利要求8所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 視頻圖像片斷、關(guān)鍵幀和子區(qū)域進行特征提取,提取的特征為圖像的視覺特征,包括顏色、 紋理、運動、形狀、定位、輪廓、線條、人像特征。
17.如權(quán)利要求8所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 視頻圖像片斷、關(guān)鍵幀和子區(qū)域的高級語義分析處理包括對視頻圖像片斷、關(guān)鍵幀和子區(qū) 域及圖像特征進行分割、聚類、匹配、解義、分類、判別等運算和操作,產(chǎn)生圖像描述高級語 義數(shù)據(jù)。
18.如權(quán)利要求8所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 視頻圖像的編碼和壓縮方法包括MPEG-2、MPEG-4、H. 264、SVAC, AVS等壓縮編碼方式。
19.如權(quán)利要求8所述的用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的方法,其特征在于,所述 視頻結(jié)構(gòu)化描述數(shù)據(jù)的編碼通過可擴展標記語言(XML)或者二進制的XML壓縮進行編碼。
全文摘要
本發(fā)明的目的在于公開一種用DSP和FPGA實現(xiàn)視頻結(jié)構(gòu)化描述的裝置及方法,用DSP和FPGA實現(xiàn)對輸入視頻進行結(jié)構(gòu)化描述將視頻結(jié)構(gòu)化描述的智能圖象處理技術(shù)和基于DSP和FPGA的嵌入式系統(tǒng)進行了有機的結(jié)合,對視頻圖像進行分析、理解,并產(chǎn)生結(jié)構(gòu)化描述數(shù)據(jù),有效地對視頻監(jiān)控和視頻數(shù)據(jù)進行管理,實現(xiàn)對視頻圖像數(shù)據(jù)的查詢、瀏覽、檢索等信息化的應(yīng)用;工作性能穩(wěn)定可靠,適用范圍較為廣泛,能夠大幅度提高現(xiàn)有視頻監(jiān)控系統(tǒng)的智能化程度,降低人工監(jiān)控的成本,實現(xiàn)視頻監(jiān)控的信息化管理,實現(xiàn)本發(fā)明的目的。
文檔編號G06K9/46GK101902617SQ201010199898
公開日2010年12月1日 申請日期2010年6月11日 優(yōu)先權(quán)日2010年6月11日
發(fā)明者吳炬, 李萬才, 梅林 , 湯志偉, 沈冬青 申請人:公安部第三研究所