本發(fā)明涉及一種搜索系統(tǒng)。尤其是一種電力信息視頻搜索系統(tǒng)。
背景技術(shù):
在互聯(lián)網(wǎng)上存放著大量的電力信息系統(tǒng)中的視頻資源,這其中包括大量的監(jiān)控視頻以及故障視頻,而當(dāng)電力系統(tǒng)的工作人員需要根據(jù)某個(gè)圖片快速尋找相關(guān)資源時(shí),只能依靠文字信息,這樣往往尋找不到正確的視頻,并且即使尋找到了相關(guān)視頻,如何有效快速的下載也是要面臨的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為了克服現(xiàn)有技術(shù)方案的不足,提供了一種電力信息視頻搜索系統(tǒng)的技術(shù)方案。
為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:一種電力信息視頻搜索系統(tǒng),包括獲取裝置、處理裝置、分類裝置和檢索裝置,
獲取裝置,包括網(wǎng)頁(yè)分析模塊、視頻文本庫(kù)、視頻地址提取模塊以及視頻下載器,網(wǎng)頁(yè)分析模塊用于獲取視頻播放地址的鏈接并通過(guò)html文本解析出視頻的文字信息,視頻文本庫(kù)用于存儲(chǔ)視頻的文字信息,視頻地址提取模塊用于獲取視頻的真實(shí)下載地址,視頻下載器通過(guò)視頻資源切分的方法對(duì)視頻進(jìn)行下載;
處理裝置,包括視頻標(biāo)準(zhǔn)化模塊、視頻庫(kù)以及視頻特征提取模塊,視頻標(biāo)準(zhǔn)化模塊用于將視頻下載器下載的視頻進(jìn)行格式轉(zhuǎn)換,形成具有統(tǒng)一格式的標(biāo)準(zhǔn)視頻,視頻特征提取模塊將標(biāo)準(zhǔn)視頻進(jìn)行結(jié)構(gòu)化處理并獲取標(biāo)準(zhǔn)視頻的結(jié)構(gòu)特征以及關(guān)鍵幀,視頻庫(kù)用于將標(biāo)準(zhǔn)視頻及其結(jié)構(gòu)特征、關(guān)鍵幀對(duì)應(yīng)的進(jìn)行存儲(chǔ);
分類裝置,包括分類模塊以及分類視頻庫(kù),分類模塊根據(jù)視頻文本庫(kù)以及視頻庫(kù)中信息進(jìn)行聚類分析,分類視頻庫(kù)將聚類分析后視頻以及相關(guān)信息按照聚類結(jié)構(gòu)進(jìn)行存儲(chǔ),從而形成檢索數(shù)據(jù)庫(kù);
檢索裝置,包括檢索界面和查詢模塊,用戶通過(guò)檢索界面輸入圖像以及檢索信息并將檢索結(jié)果顯示在檢索界面上以返回給用戶,
其特征在于:
根據(jù)抓取范圍,網(wǎng)頁(yè)分析模塊獲取各個(gè)視頻網(wǎng)站內(nèi)有視頻播放地址的鏈接,分析該類鏈接對(duì)應(yīng)的html文本,解析提取出與視頻有關(guān)的文字信息,將這些文字信息進(jìn)行中文分詞,作為視頻的標(biāo)題存入視頻文本庫(kù)中;
根據(jù)當(dāng)前鏈接,視頻地址提取模塊提取出視頻的真實(shí)下載地址,再調(diào)用視頻下載器進(jìn)行下載;
視頻標(biāo)準(zhǔn)化模塊將下載下來(lái)的視頻統(tǒng)一轉(zhuǎn)換成相同格式后存入視頻庫(kù);
視頻特征提取模塊會(huì)將視頻庫(kù)中的視頻進(jìn)行分析,提取結(jié)構(gòu)特征、關(guān)鍵幀構(gòu)成結(jié)構(gòu)化信息,并存入視頻庫(kù);
分類模塊先根據(jù)視頻文本庫(kù)進(jìn)行預(yù)分類,然后根據(jù)視頻文本庫(kù)和視頻的結(jié)構(gòu)化信息再進(jìn)行分類,建立視頻數(shù)據(jù)庫(kù)并存入分類視頻庫(kù);
用戶通過(guò)檢索界面提供一幅圖像示例進(jìn)行檢索,查詢模塊將與檢索條件匹配的視頻返回給用戶。
有益效果:
(1)根據(jù)圖片檢索視頻,有效提高了工作人員的檢索效率;
(2)構(gòu)建檢索系統(tǒng),數(shù)據(jù)庫(kù)信息全面;
(3)使用二分法的視頻資源切分方法,從而優(yōu)化視頻的下載速度,工作人員可以及時(shí)獲取視頻。
附圖說(shuō)明
圖1為本發(fā)明的系統(tǒng)構(gòu)成框圖。
具體實(shí)施方式
下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
如圖1所示,一種電力信息視頻搜索系統(tǒng),包括獲取裝置、處理裝置、分類裝置和檢索裝置,
獲取裝置,包括網(wǎng)頁(yè)分析模塊、視頻文本庫(kù)、視頻地址提取模塊以及視頻下載器,網(wǎng)頁(yè)分析模塊用于獲取視頻播放地址的鏈接并通過(guò)html文本解析出視頻的文字信息,視頻文本庫(kù)用于存儲(chǔ)視頻的文字信息,視頻地址提取模塊用于獲取視頻的真實(shí)下載地址,視頻下載器通過(guò)視頻資源切分的方法對(duì)視頻進(jìn)行下載;
處理裝置,包括視頻標(biāo)準(zhǔn)化模塊、視頻庫(kù)以及視頻特征提取模塊,視頻標(biāo)準(zhǔn)化模塊用于將視頻下載器下載的視頻進(jìn)行格式轉(zhuǎn)換,形成具有統(tǒng)一格式的標(biāo)準(zhǔn)視頻,視頻特征提取模塊將標(biāo)準(zhǔn)視頻進(jìn)行結(jié)構(gòu)化處理并獲取標(biāo)準(zhǔn)視頻的結(jié)構(gòu)特征以及關(guān)鍵幀,視頻庫(kù)用于將標(biāo)準(zhǔn)視頻及其結(jié)構(gòu)特征、關(guān)鍵幀對(duì)應(yīng)的進(jìn)行存儲(chǔ);
分類裝置,包括分類模塊以及分類視頻庫(kù),分類模塊根據(jù)視頻文本庫(kù)以及視頻庫(kù)中信息進(jìn)行聚類分析,分類視頻庫(kù)將聚類分析后視頻以及相關(guān)信息按照聚類結(jié)構(gòu)進(jìn)行存儲(chǔ),從而形成檢索數(shù)據(jù)庫(kù);
檢索裝置,包括檢索界面和查詢模塊,用戶通過(guò)檢索界面輸入圖像以及檢索信息并將檢索結(jié)果顯示在檢索界面上以返回給用戶,
其特征在于:
根據(jù)抓取范圍,網(wǎng)頁(yè)分析模塊獲取各個(gè)視頻網(wǎng)站內(nèi)有視頻播放地址的鏈接,分析該類鏈接對(duì)應(yīng)的html文本,解析提取出與視頻有關(guān)的文字信息,將這些文字信息進(jìn)行中文分詞,作為視頻的標(biāo)題存入視頻文本庫(kù)中;
根據(jù)當(dāng)前鏈接,視頻地址提取模塊提取出視頻的真實(shí)下載地址,再調(diào)用視頻下載器進(jìn)行下載;
視頻標(biāo)準(zhǔn)化模塊將下載下來(lái)的視頻統(tǒng)一轉(zhuǎn)換成相同格式后存入視頻庫(kù);
視頻特征提取模塊會(huì)將視頻庫(kù)中的視頻進(jìn)行分析,提取結(jié)構(gòu)特征、關(guān)鍵幀構(gòu)成結(jié)構(gòu)化信息,并存入視頻庫(kù);
分類模塊先根據(jù)視頻文本庫(kù)進(jìn)行預(yù)分類,然后根據(jù)視頻文本庫(kù)和視頻的結(jié)構(gòu)化信息再進(jìn)行分類,建立視頻數(shù)據(jù)庫(kù)并存入分類視頻庫(kù);
用戶通過(guò)檢索界面提供一幅圖像示例進(jìn)行檢索,查詢模塊將與檢索條件匹配的視頻返回給用戶。
其中,視頻特征提取模塊的結(jié)構(gòu)化處理具體為:
步驟a1,構(gòu)造視頻結(jié)構(gòu),視頻數(shù)據(jù)結(jié)構(gòu)分為場(chǎng)景、鏡頭和幀三個(gè)層次,幀是一幅幅獨(dú)立靜態(tài)的圖像,一組幀組成鏡頭,一組鏡頭構(gòu)成場(chǎng)景,場(chǎng)景組成一段視頻,視頻結(jié)構(gòu)的構(gòu)造過(guò)程分成兩個(gè)步驟,
步驟a1.1,從視頻流中提取鏡頭,
對(duì)視頻流進(jìn)行鏡頭切變檢測(cè),尋找視頻發(fā)生鏡頭切換時(shí)的圖像幀,具體為:
將圖像幀分為8×8像素的子塊,計(jì)算每個(gè)子塊的平均值,計(jì)算視頻序列中連續(xù)兩幀中處于相同位置的子塊的平均值間差值的絕對(duì)值之和作為幀間差;
計(jì)算相鄰兩幅幀圖像新邊緣像素增加的比例和邊緣像素減少的比例,取中的最大值作為比例差;
如果幀間差大于預(yù)先設(shè)定值,并且比例差大于預(yù)先設(shè)定的值,那么判定發(fā)生了鏡頭的切換,提取鏡頭;
其中,鏡頭是基本視頻數(shù)據(jù)單元,鏡頭的切變分為突變和漸變兩種。突變是指不采取任何編輯手法將一個(gè)鏡頭直接切變到另一個(gè)鏡頭,而漸變是指一個(gè)鏡頭到另一個(gè)鏡頭之間加入了編輯效果,使變化顯得比較平緩。將視頻發(fā)生鏡頭切換時(shí)的圖像幀找出來(lái)的過(guò)程就稱為鏡頭的切變檢測(cè)。邊緣是一幅圖像的灰度空間中那些灰度不連續(xù)的點(diǎn)。
步驟a1.2,從鏡頭中提取關(guān)鍵幀,
關(guān)鍵幀是一幅能夠描述一個(gè)鏡頭的主要內(nèi)容的圖像,由于剔除了視頻中冗余的信息,使用關(guān)鍵幀來(lái)表示鏡頭,可以大幅降低建立視頻索引的工作量,提取關(guān)鍵幀的方法具體為:
當(dāng)鏡頭的當(dāng)前幀與最新被判定為關(guān)鍵幀的圖象對(duì)比有顯著變化時(shí),當(dāng)前的幀作為新的參照關(guān)鍵幀,先把鏡頭的第一幀作為參照關(guān)鍵幀,然后將其后相鄰的幀圖像與這個(gè)關(guān)鍵幀圖像的特征相比較,如果變化較大,則將當(dāng)前幀作為新的關(guān)鍵幀,再繼續(xù)與后面的幀圖像進(jìn)行比較,以此類推來(lái)陸續(xù)得到關(guān)鍵幀;
步驟a2,特征提取,將關(guān)鍵幀的rbg顏色空間轉(zhuǎn)換為更符合人對(duì)顏色的主觀認(rèn)識(shí)的顏色空間hsv模式,并將顏色空間量化為若干個(gè)顏色條,然后將圖像用色彩分割技術(shù)自動(dòng)分成若干區(qū)域,每個(gè)區(qū)域都使用顏色條構(gòu)成索引,對(duì)圖像的描述就轉(zhuǎn)化成了一個(gè)顏色索引集。
其中,視頻下載器的視頻資源切分的方法使用二分法通過(guò)對(duì)視頻資源中不同分片資源的ip地址、歸屬地的確認(rèn)來(lái)下載視頻,具體為:
步驟b1,確定要下載的視頻的播放時(shí)間,獲取起始點(diǎn)
步驟b2,獲取視頻片段的中間點(diǎn)
步驟b3,如果中間點(diǎn)
如果中間點(diǎn)
如果中間點(diǎn)
步驟b4,記錄步驟b2-b3確定各個(gè)視頻片段在原始視頻中分段位置以及相應(yīng)的ip地址和歸屬地,并判斷各個(gè)視頻片段的運(yùn)營(yíng)商,分塊下載視頻,從而優(yōu)化下載速度。
其中,分類模塊的聚類分析方法對(duì)視頻庫(kù)中的關(guān)鍵幀進(jìn)行數(shù)據(jù)挖掘,對(duì)關(guān)鍵幀進(jìn)行自動(dòng)聚類,采用視頻語(yǔ)義信息和關(guān)鍵幀的視覺(jué)特征相結(jié)合的方式,具體為:
步驟c1,根據(jù)視頻文本進(jìn)行預(yù)分類,將文本信息相似的視頻歸為一類,確保視頻的主要內(nèi)容是屬于一類的;
步驟c2,在預(yù)分類的基礎(chǔ)上,在每一個(gè)大類中再根據(jù)視頻庫(kù)的關(guān)鍵幀的顏色特征進(jìn)行聚類,將具有相似顏色特征的關(guān)鍵幀聚合為一個(gè)小類;
因?yàn)橐曨l的底層特征與視頻的高級(jí)特征即語(yǔ)義特征之間存在著語(yǔ)義鴻溝,導(dǎo)致用單一的視頻內(nèi)容特征檢索到的視頻很可能與用戶的期望不相符。因此提出了基于視覺(jué)特征與視頻高級(jí)語(yǔ)義特征相結(jié)合的分類方式,克服了單純基于視覺(jué)特征分類方式的缺點(diǎn)。如此的分類方式可以實(shí)現(xiàn)一個(gè)類中所包含的圖像幀都是相似的,并且使類和類之間的距離盡可能大。
步驟c3,將聚類分析后的視頻以及相應(yīng)文本信息存儲(chǔ)構(gòu)成分類視頻庫(kù),從而為檢索提供便利的數(shù)據(jù)分類體系。
其中,檢索過(guò)程具體如下:
步驟d1,用戶提供一幅圖像,檢索模塊提取該圖像的特征,然后在分類視頻庫(kù)中進(jìn)行匹配;
步驟d2,計(jì)算出待檢索圖像的特征向量與關(guān)鍵幀特征庫(kù)中各個(gè)類的聚類中心向量的距離,找出距離最近的三個(gè)類;
步驟d3,再分別計(jì)算三類中的每個(gè)圖像幀的特征向量與待檢索圖像的特征向量的距離;
步驟d4,找出距離最近的20幅圖像幀;
步驟d5,統(tǒng)計(jì)這20幅圖像幀關(guān)聯(lián)最多的前5個(gè)視頻,并返回總共15個(gè)結(jié)果。
以上所述實(shí)施方式僅表達(dá)了本發(fā)明的一種實(shí)施方式,但并不能因此而理解為對(duì)本發(fā)明范圍的限制。應(yīng)當(dāng)指出,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。