專利名稱:一種基于演示視頻的多模式索引方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視頻的搜索引擎方法,具體是一種基于演示視頻的多模式索引方法和系統(tǒng),屬于搜索引擎技術(shù)領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的日益發(fā)展,網(wǎng)絡(luò)資源成為一種重要的數(shù)據(jù)資源,發(fā)揮起越來越重要的作用,視頻數(shù)據(jù)以其形象、直接的方式備受青睞。演示視頻是指PPT講座、演講以及講授為主的視頻,其主要用于電子課堂、遠程教育、學術(shù)會議報告、講座等場合。演示視頻的特點是以講授為主,一般有主要的演講或講授人,其通過PPT或者其他演示內(nèi)容進行講解或演講。演示視頻已經(jīng)稱為電子教學或者網(wǎng)絡(luò)教學的主要形式。如斯坦福大學已經(jīng)向所有公眾開辦了網(wǎng)絡(luò)課堂,吸引了超過20萬的學生參與。
當網(wǎng)絡(luò)教學日益稱為趨勢,網(wǎng)絡(luò)上的教學視頻日益增長,學生也大幅增加時,不斷增長的視頻數(shù)據(jù)量也增加了閱讀視頻信息及獲取所需視頻數(shù)據(jù)的難度。如何在海量視頻中快速檢索出所需要的視頻資料顯得至關(guān)重要,有效的視頻索引工具成為必需。視頻名稱、演講者名字等標準信息可以作為關(guān)鍵詞來進行搜索,但是眾多的視頻資源中,有很多視頻信息在錄入時并未存儲這些信息,這就讓這種檢索方式能夠檢索出的視頻信息受到限制。為此,研究人員提出了基于內(nèi)容的視頻檢索技術(shù)?;趦?nèi)容的視頻檢索技術(shù)是指從視頻數(shù)據(jù)中提取出對象語義或者視覺信息、音頻信息、運動信息等特征,再根據(jù)這些視頻的特征在視頻數(shù)據(jù)庫中進行相關(guān)信息查詢,從而找到具有相似內(nèi)容的視頻數(shù)據(jù)。如中國專利文獻CN101398854A中公開了一種視頻片段檢索方法和系統(tǒng),該方法包括以下步驟對原始視頻片段進行幀采樣;對每個原始視頻片段內(nèi)選取的采樣幀進行聚類,在每個聚類中選取一幀圖像作為代表幀,并根據(jù)每個聚類內(nèi)幀圖像的數(shù)量計算該代表幀所占的比例值;依據(jù)所需比較的兩個視頻的代表幀建立一個加權(quán)二分圖,加權(quán)二分圖的權(quán)重由所述代表幀之間的相似度和該代表幀在相應(yīng)聚類內(nèi)的比例值確定;對加權(quán)比例二分圖作最大權(quán)匹配,獲得兩個視頻片段的相似度;通過視頻片段的相似度分析,在數(shù)據(jù)庫進行與輸入的檢索視頻片段相似的視頻片段檢索。但是在該技術(shù)方案中,加權(quán)的權(quán)重根據(jù)代表幀之間的相似度來確定,此時權(quán)重的判斷有一定的主觀性,這就很難確保權(quán)重的準確性,從而導致在視頻檢索時的準確度下降。在美國專利US2011081075A中也公開了一種基于演示視頻的搜索方法和系統(tǒng),在該專利文獻公開的搜索方法中,其僅僅使用文本進行索引,這些文本信息來自視頻元數(shù)據(jù)和視頻片段中,雖然該技術(shù)方案中也提到了人臉,但是僅僅使用人臉判斷這些視頻中是僅有幻燈片的信息還是也記錄了演講者或者講授人的可視化信息。因此,在該公開的技術(shù)方案中,僅能使用文本信息進行檢索,當無法獲得文本信息時,則無法對其進行檢索,使檢索適用范圍小,受到文本信息的限制
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)中基于演示視頻的檢索準確度不高、檢索方式受限、適用范圍小的技術(shù)問題,從而提供一種可通過多種途徑進行檢索,具有較高精度的演示視頻的多模式索引方法和系統(tǒng)。為解決上述技術(shù)問題,本發(fā)明提出一種基于演示視頻的多模式索引方法及系統(tǒng)。一種基于演示視頻的多模式索引系統(tǒng),包括至少如下一個模塊文本索引模塊,包括文本檢測識別單元和文本匹配單元,所述文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻;人臉索引模塊,包括人臉識別單元和人臉匹配單元,人臉識別單元用于對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配單元將輸入的人臉 索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻;圖表索引模塊,包括圖表識別單元和圖表匹配單元,圖表識別單元用于對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),包括文本索引模塊、人臉索引模塊和圖表索引模塊中的任意兩個模塊。本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),其特征在于包括文本索引模塊、人臉索引模塊和圖表索引模塊。一種基于演示視頻的多模式索引方法,包括如下步驟中的一個或多個I)文本索引,文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻;2)人臉索引,通過人臉識別單元對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配單元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻;3)圖表索引,通過圖表識別單元對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。本發(fā)明所述的基于演示視頻的多模式索引方法,還包括步驟4),綜合文本索引、人臉索引和圖表索引的匹配結(jié)果,獲得最優(yōu)檢索結(jié)果。本發(fā)明所述的基于演示視頻的多模式索引方法,所述文本索引信息、人臉索引信息和圖表索引信息從索引視頻中提取。本發(fā)明所述的基于演示視頻的多模式索引方法,所述文本檢測識別單元從視頻庫的視頻中提取文本信息時,包括I)從視頻的聲道中提取聲音信息,進行語音識別獲得文本信息;2)從視頻的畫面中提取文本信息,進行圖像和字體識別獲得文本信息。本發(fā)明所述的基于演示視頻的多模式索引方法,所述文本檢測識別單元從視頻的畫面中提取文本信息的步驟如下a)對視頻畫面通過拉普拉斯變換進行高斯邊緣檢測,然后將相連的邊緣進行分組,再進行基于幾何學和邊緣密度約束的區(qū)域修整;b)通過積分直方圖進行局部最優(yōu)自適應(yīng)二值化計算,獲得文本的圖像信息;c)調(diào)用開源的OCR識別工具,進行文字識別;d)經(jīng)過文本標準化處理后的最終結(jié)果作為提取出的文本信息;本發(fā)明所述的基于演示視頻的多模式索引方法,所述人臉識別單元對視頻庫中視頻中的演講者進行面部識別的步驟包括a)結(jié)合標準人臉檢測器和皮膚濾色器提取每一幀視頻畫面中的人臉特征;b)從當前位置初始化追蹤程序,c)使用標準表述符號代表人臉區(qū)域;d)運用分辨率、膚色的數(shù)量以及姿勢在每次追蹤中選擇一個人臉;e)與其他追蹤相比較,最后為每個演講者選中一個最接近的面部圖像。本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),圖表識別單元對對視頻庫中視頻中的圖表進行識別,包括如下步驟a)通過色彩飽和度估計量從視頻畫面中識別出各幀圖像;b)通過識別程序獲取圖表所在的位置;c)結(jié)合視覺信息,根據(jù)實時平均連接算法匯集成圖表區(qū)域;d)在匯集過程中,選擇最大的區(qū)域作為形成的圖表區(qū)域;e)調(diào)用灰度自動白平衡算法進行顏色矯正。本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(I)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),包括文本索引模塊,人臉索引模塊和圖表索引模塊,可以通過演示視頻中的文本信息,如PPT上的文字或者講解人說的話中的文字信息進行檢索,也可以通過講解人的面部特征進行索引,或者通過演示視頻中的圖表進行索引,通過上述索引方式,無需利用其他信息,只需要借助視頻本身的信息就能進行檢索,本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng)有效避免了現(xiàn)有技術(shù)中僅使用文本信息進行檢索,適用范圍小的問題,是一種可以采用多種檢索模式,僅依靠視頻本身的信息進行檢索的基于演示視頻的多模式索引系統(tǒng)。在合適的情況下,也可以采用其中的一種或兩種或三種進行索引,可以多種形式組合,根據(jù)檢索的需要如時間需求和準確度需要來選擇合適的索引方式,具有更好的靈活性。(2)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),檢索用的文本信息可以通過視頻聲道的聲音來提取,也可以通過從視頻畫面中顯示的文字信息進行文字識別來提取,這樣根據(jù)語音中的文本信息和視頻中的文字信息,都可以進行文本索引,進一步擴展了其可以檢索的范圍。(3)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),從視頻的畫面中提取文本信息時通過邊緣檢測、連接以及修整,然后進行局部最優(yōu)自適應(yīng)計算,再調(diào)用OCR識別工具進行文字識別,然后進行標準化處理得到文本信息,通過該方法可以獲得較好的畫面中文本Ih息的識別,提聞文本索引的準確度。(4)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),對視頻庫中視頻中的演講者進行面部識別,結(jié)合標準人臉檢測器和皮膚濾色器,進行人臉識別,獲得最近進的人臉圖像。
(5)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),視頻中的圖表進行識別,通過色彩飽和度來識別各幀圖像,通過連接算法獲得圖表信息,將圖表識別引入到演示視頻中,由于演示視頻中運用的圖表較多,這樣通過圖表就可以檢索到所需的視頻信息,不僅擴展了檢索的范圍,也提高了檢索精度。(6)本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng),綜合文本索引、人臉索引和圖表索引的匹配結(jié)果,獲得最優(yōu)檢索結(jié)果,采用單一的方法就可以獲得相應(yīng)的視頻,當同時采用上述三種檢索方式時,可以綜合三個檢索結(jié)果,有利于搜索到最優(yōu)的結(jié)果,提高檢索的準確度。
為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面結(jié)合附圖,對本發(fā)明作進一步詳細的說明,其中, 圖I是本發(fā)明所述基于演示視頻的多模式索引系統(tǒng)的結(jié)構(gòu)示意圖;圖2是本發(fā)明所述從視頻的畫面中提取文本信息的流程圖;圖3是本發(fā)明所述對視頻庫中視頻中的演講者進行面部識別的流程圖;圖4是本發(fā)明所述對視頻庫中視頻中的圖表進行識別的流程圖。
具體實施例方式實施例I :本發(fā)明所述的一種基于演示視頻的多模式索引系統(tǒng),結(jié)構(gòu)如圖I所示,包括文本索引模塊、人臉索引模塊和圖表索引模塊,具體如下(A)文本索引模塊,包括文本檢測識別單元和文本匹配單元,所述文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻。(B)人臉索引模塊,包括人臉識別單元和人臉匹配單元,人臉識別單元用于對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配單元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻。(C)圖表索引模塊,包括圖表識別單元和圖表匹配單元,圖表識別單元用于對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。上述三個模塊中,文本索引模塊從視頻中提取文本信息,人臉索引模塊從視頻中獲得演講者的人臉特征,圖表索引模塊獲得視頻中的圖表信息,這樣,通過文本、人臉圖像和圖表這三種方式都可以對演示視頻進行檢索,根據(jù)用戶使用的索引信息(如文本、人臉圖像和圖表)對視頻庫中的視頻進行索引,獲得匹配程度較高的演示視頻,為用戶提供參考,這樣用戶就可以通過這三種方式快捷的獲得所需的視頻信息。此處,用戶使用的索引信息可以為索引視頻,用戶使用視頻來檢索視頻,根據(jù)用戶使用的索引視頻,從該視頻中提取出文本索引信息、人臉索引信息和圖表索引信息,此時提取這些索引信息的方法與從視頻庫中提取特征建立文本特征庫、人臉特征庫和圖表特征庫的方法相似,因此其匹配時具有一致性。
上述文本索引、人臉索引、圖表索引的方法和算法,可以采用現(xiàn)有技術(shù)中的方法。本實施例中所述基于演示視頻的多模式索引系統(tǒng)對應(yīng)的索引方法如下I)文本索引,文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻。2)人臉索引,通過人臉識別單元對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配單元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻。
3)圖表索引,通過圖表識別單元對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。4)綜合文本索引、人臉索引和圖表索引的匹配結(jié)果,獲得最優(yōu)檢索結(jié)果。作為可以變換的實施方式,所述基于演示視頻的多模式索引系統(tǒng)不需要全部同時包括上述三個模塊,也可以選擇僅僅包括(A)文本索引模塊、(B)人臉索引模塊、(C)圖表索引模塊中的一種或兩種,選擇合適的匹配方式進行匹配。實施例2 在實施例I的基礎(chǔ)上,本發(fā)明所述的一種基于演示視頻的多模式索引系統(tǒng)包括文本索引模塊、人臉索引模塊和圖表索引模塊。(A)文本索引模塊,包括文本檢測識別單元和文本匹配單元,所述文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻。在文本索引模塊中,從視頻庫的視頻中提取文本信息時,采用的具體方法如下I)從視頻的聲道中提取聲音信息,進行語音識別獲得文本信息;2)從視頻的畫面中提取文本信息,進行圖像和字體識別獲得文本信息,具體步驟如下,流程圖如圖2所不a)對視頻畫面通過拉普拉斯變換進行高斯邊緣檢測,然后將相連的邊緣進行分組,再進行基于幾何學和邊緣密度約束的區(qū)域修整;b)通過積分直方圖進行局部最優(yōu)自適應(yīng)二值化計算,獲得文本的圖像信息;c)調(diào)用開源的OCR識別工具,進行文字識別;d)經(jīng)過文本標準化處理后的最終結(jié)果作為提取出的文本信息;(B)人臉索引模塊,包括人臉識別單元和人臉匹配單元,人臉識別單元用于對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配單元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻。在人臉索引模塊中,所述對視頻庫中視頻中的演講者進行面部識別的步驟如下,流程圖如圖3所不,包括a)結(jié)合標準人臉檢測器和皮膚濾色器提取每一幀視頻畫面中的人臉特征;b)從當前位置初始化追蹤程序,c)使用標準表述符號代表人臉區(qū)域;d)運用分辨率、膚色的數(shù)量以及姿勢在每次追蹤中選擇一個人臉;
e)與其他追蹤相比較,最后為每個演講者選中一個最接近的面部圖像。(C)圖表索引模塊,包括圖表識別單元和圖表匹配單元,圖表識別單元用于對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。對視頻庫中視頻中的圖表進行識別,包括如下步驟,如圖4所示a)通過色彩飽和度估計量從視頻畫面中識別出各幀圖像;b)通過識別程序獲取圖表所在的位置;c)結(jié)合視覺信息,根據(jù)實時平均連接算法匯集成圖表區(qū)域;d)在匯集過程中,選擇最大的區(qū)域作為形成的圖表區(qū)域;
e)調(diào)用灰度自動白平衡算法進行顏色矯正。實施例3 一種基于演示視頻的多模式索引方法,包括如下過程一、預處理I、對視頻數(shù)據(jù)庫中的視頻如演示視頻(PPT等)進行處理,通過文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫;通過人臉識別單元用于對視頻庫中視頻中的演講者進行面部識別;通過圖表識別單元用于對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;2、對索引視頻進行預處理,與對視頻數(shù)據(jù)庫中的視頻進行處理的方式類似,提取出文本索引信息、人臉索引信息和圖表索引信息。二、檢索I)文本索引,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻;2)人臉索引,通過人臉匹配單元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻;3)圖表索引,通過圖表匹配單元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。綜合文本索引、人臉索引和圖表索引的索引結(jié)果,得到最優(yōu)匹配的視頻。作為可以變換的實施方式,所述的基于演示視頻的多模式索引系統(tǒng),可以通過單獨采用文本索引、人臉索引以及圖表索引的方式進行檢索,還可以通過綜合使用文本索引、人臉索引和圖表索引中的至少兩種檢索方式進行檢索,然后綜合其匹配結(jié)果,這樣可以獲得跟好的檢索結(jié)果,參考多種檢索方式,獲得最優(yōu)結(jié)果。顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。
權(quán)利要求
1.ー種基于演示視頻的多模式索引系統(tǒng),其特征在于,包括至少如下一個模塊 文本索引模塊,包括文本檢測識別單元和文本匹配単元,所述文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻; 人臉索引模塊,包括人臉識別単元和人臉匹配単元,人臉識別単元用于對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配単元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻; 圖表索引模塊,包括圖表識別單元和圖表匹配単元,圖表識別單元用于對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配単元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。
2.根據(jù)權(quán)利要求I所述的基于演示視頻的多模式索引系統(tǒng),其特征在于包括文本索引模塊、人臉索引模塊和圖表索引模塊中的任意兩個模塊。
3.根據(jù)權(quán)利要求I所述的基于演示視頻的多模式索引系統(tǒng),其特征在于包括文本索引模塊、人臉索引模塊和圖表索引模塊。
4.ー種基于演示視頻的多模式索引方法,其特征在于,包括如下步驟中的一個或多個 O文本索引,文本檢測識別單元從視頻庫的視頻中提取文本信息并建立文本特征庫,文本匹配單元將文本索引信息與所述文本特征庫中的信息進行比較,識別出匹配的視頻; 2)人臉索引,通過人臉識別單元對視頻庫中視頻中的演講者進行面部識別,建立人臉特征庫,然后通過人臉匹配単元將輸入的人臉索引信息與所述人臉特征庫中的信息進行比較,識別出匹配的視頻; 3)圖表索引,通過圖表識別單元對視頻庫中視頻中的圖表進行識別,建立圖表特征庫;然后通過圖表匹配単元將輸入的圖表索引信息與所述圖表特征庫中的信息進行比較,識別出匹配的視頻。
5.根據(jù)權(quán)利要求4所述的基于演示視頻的多模式索引方法,其特征在于還包括步驟4),綜合文本索引、人臉索引和圖表索引的匹配結(jié)果,獲得最優(yōu)檢索結(jié)果。
6.根據(jù)權(quán)利要求4或5中任一項所述的基于演示視頻的多模式索引方法,其特征在于所述文本索引信息、人臉索引信息和圖表索引信息從索引視頻中提取。
7.根據(jù)權(quán)利要求4-6中任一項所述的基于演示視頻的多模式索引方法,其特征在于所述文本檢測識別單元從視頻庫的視頻中提取文本信息時,包括 1)從視頻的聲道中提取聲音信息,進行語音識別獲得文本信息; 2)從視頻的畫面中提取文本信息,進行圖像和字體識別獲得文本信息。
8.根據(jù)權(quán)利要求7所述的基于演示視頻的多模式索引方法,其特征在于 所述文本檢測識別單元從視頻的畫面中提取文本信息的步驟如下 a)對視頻畫面通過拉普拉斯變換進行高斯邊緣檢測,然后將相連的邊緣進行分組,再進行基于幾何學和邊緣密度約束的區(qū)域修整; b)通過積分直方圖進行局部最優(yōu)自適應(yīng)ニ值化計算,獲得文本的圖像信息; c)調(diào)用開源的OCR識別工具,進行文字識別; d)經(jīng)過文本標準化處理后的最終結(jié)果作為提取出的文本信息。
9.根據(jù)權(quán)利要求4-8中任一項所述的基于演示視頻的多模式索引方法,其特征在于所述人臉識別單元對視頻庫中視頻中的演講者進行面部識別的步驟包括 a)結(jié)合標準人臉檢測器和皮膚濾色器提取每一幀視頻畫面中的人臉特征; b)從當前位置初始化追蹤程序, c)使用標準表述符號代表人臉區(qū)域; d)運用分辨率、膚色的數(shù)量以及姿勢在每次追蹤中選擇ー個人臉; e)與其他追蹤相比較,最后為每個演講者選中ー個最接近的面部圖像。
10.根據(jù)權(quán)利要求4-9中任一項所述的基于演示視頻的多模式索引系統(tǒng),其特征在于 圖表識別單元對對視頻庫中視頻中的圖表進行識別,包括如下步驟 a)通過色彩飽和度估計量從視頻畫面中識別出各幀圖像; b)通過識別程序獲取圖表所在的位置; c)結(jié)合視覺信息,根據(jù)實時平均連接算法匯集成圖表區(qū)域; d)在匯集過程中,選擇最大的區(qū)域作為形成的圖表區(qū)域; e)調(diào)用灰度自動白平衡算法進行顏色矯正。
全文摘要
本發(fā)明涉及一種基于演示視頻的多模式索引系統(tǒng),包括文本索引模塊,人臉索引模塊和圖表索引模塊,可以通過演示視頻中的文本信息,如PPT上的文字或者講解人說的話中的文字信息進行檢索,也可以通過講解人的面部特征進行索引,或者通過演示視頻中的圖表進行索引,通過上述索引方式,無需利用其他信息,只需要借助視頻本身的信息就能進行檢索,本發(fā)明所述的基于演示視頻的多模式索引系統(tǒng)有效避免了現(xiàn)有技術(shù)中僅使用文本信息進行檢索,適用范圍小的問題,是一種可以采用多種檢索模式,僅依靠視頻本身的信息進行檢索的基于演示視頻的多模式索引系統(tǒng)。
文檔編號G06F17/30GK102855317SQ201210320130
公開日2013年1月2日 申請日期2012年8月31日 優(yōu)先權(quán)日2012年8月31日
發(fā)明者王暉 申請人:王暉