本發(fā)明涉及數(shù)字智能化領(lǐng)域,具體而言,涉及一種視頻檢索方法、裝置、存儲(chǔ)介質(zhì)及處理器。
背景技術(shù):
隨著平安城市、智慧社區(qū)等項(xiàng)目的構(gòu)建和普及,視頻安防監(jiān)控設(shè)備已逐步架設(shè)到城市的各個(gè)角落,并且可以7x24小時(shí)晝夜不間斷的錄制采集視頻圖像數(shù)據(jù)。對(duì)于規(guī)模龐大、數(shù)量繁多的交通、社區(qū)監(jiān)控視頻系統(tǒng),新興的基于計(jì)算機(jī)視覺技術(shù)的智慧視頻分析使得海量視頻的自動(dòng)分析及目標(biāo)識(shí)別成為了可能。眾所周知,監(jiān)控視頻主要用于社區(qū)及公共安全的維護(hù),通過實(shí)時(shí)取證及事后檢索,對(duì)保障社會(huì)治安起著至關(guān)重要的作用。然而,視頻圖像作為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量龐大,有效信息少,在格式化存儲(chǔ)方面仍存在很多問題。此外,視頻數(shù)據(jù)的實(shí)時(shí)快速檢索也面臨諸多挑戰(zhàn),而人為檢索由于工作量大、檢索目標(biāo)眾多、容易遺漏、效率低下等種種限制因素而不符合實(shí)際應(yīng)用?;谏鲜?,現(xiàn)有技術(shù)中的視頻檢索技術(shù)主要包括以下兩種方式:
方式一,基于語義的視頻檢索。該種檢索方式以關(guān)鍵字為基礎(chǔ),通過對(duì)視頻人為添加或自動(dòng)生成語義描述數(shù)據(jù)進(jìn)行基于關(guān)鍵字的檢索匹配,關(guān)鍵字可以是標(biāo)題、主題、人物、視頻事件等。然而,在安防監(jiān)控應(yīng)用中,基于語義的視頻檢索技術(shù)的精度依賴于大量的語義描述信息,且對(duì)單個(gè)特定目標(biāo)的描述信息較少,檢索效果十分受限。例如,在海量的公共安防視頻中尋找某個(gè)目標(biāo)人物,其描述信息僅有如“穿藍(lán)色上衣黑色褲子的人”,而無法具體描述該人物的深層特征信息,檢索的針對(duì)性差,搜索到的結(jié)果將會(huì)十分龐雜。
方法二、基于內(nèi)容的視頻檢索。該種檢索方式通常采用傳統(tǒng)圖像處理方法,通過提取視頻圖像的顏色、紋理、邊緣、特征點(diǎn)等底層信息,以分析視頻之間的相似度作為檢索的依據(jù)。相較于語義檢索,基于內(nèi)容的視頻檢索有效利用了圖像視頻中的底層特征,檢索效率有所提升。然而,目前大多數(shù)基于內(nèi)容的圖像檢索技術(shù)需采用傳統(tǒng)圖像特征,描述能力仍存在一定限制,且用于檢索的特征向量維度高,計(jì)算相似性時(shí)耗時(shí)很長,難以做到真正的實(shí)時(shí)檢索。
綜上,目前的視頻檢索技術(shù)存在檢索針對(duì)性、檢索精度和檢索效率較低,檢索實(shí)時(shí)性較差的技術(shù)問題,因此,現(xiàn)有技術(shù)中存在視頻檢索精度和檢索效率較低的技術(shù)問題。
針對(duì)上述的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種視頻檢索方法、裝置、存儲(chǔ)介質(zhì)及處理器,以至少解決現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種視頻檢索方法,該方法包括:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)上述多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)上述至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到上述至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)上述第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)上述每個(gè)上述第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到上述每個(gè)上述第一目標(biāo)視頻圖像的第一特征和第二特征,其中,上述第一特征為上述第一目標(biāo)視頻圖像的二值化哈希特征,上述第二特征為上述第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)上述第一特征和上述第二特征進(jìn)行聚類處理,得到檢索模型;對(duì)上述目標(biāo)檢索圖像進(jìn)行摳圖處理,得到目標(biāo)區(qū)域圖像;根據(jù)上述檢索模型對(duì)上述目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果。
進(jìn)一步地,上述根據(jù)上述檢索模型對(duì)上述目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果包括:獲取上述目標(biāo)區(qū)域圖像的第三特征和第四特征,其中,上述第三特征為上述目標(biāo)區(qū)域圖像的二值化哈希特征,上述第四特征為上述目標(biāo)區(qū)域圖像的原始特征;計(jì)算上述第三特征與上述每個(gè)上述第一目標(biāo)視頻圖像的上述第一特征之間的漢明距離,得到至少一個(gè)第二目標(biāo)視頻圖像;計(jì)算上述第四特征與上述至少一個(gè)第二目標(biāo)視頻圖像中的每個(gè)上述第二目標(biāo)視頻圖像的上述第二特征的歐式距離,得到目標(biāo)圖像幀,其中,上述目標(biāo)圖像幀與上述目標(biāo)檢索圖像的相似度大于預(yù)設(shè)相似度閾值;獲取上述目標(biāo)圖像幀的幀id;在上述多個(gè)視頻圖像中查找與上述幀id對(duì)應(yīng)的上述視頻圖像,得到上述檢索結(jié)果。
進(jìn)一步地,在根據(jù)第二預(yù)設(shè)模型對(duì)上述每個(gè)上述第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理之后,上述方法還包括:將上述至少一個(gè)第一目標(biāo)視頻圖像、上述目標(biāo)圖像序列、上述第一特征和上述第二特征結(jié)構(gòu)化存儲(chǔ)至數(shù)據(jù)庫中。
進(jìn)一步地,上述預(yù)設(shè)近似最鄰近算法為局部敏感度哈希算法。
進(jìn)一步地,上述對(duì)上述多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像包括:對(duì)上述多個(gè)視頻圖像中的每個(gè)上述視頻圖像依次進(jìn)行長度歸一化處理和解碼處理,得到上述第一目標(biāo)視頻圖像。
進(jìn)一步地,上述方法還包括:根據(jù)隨機(jī)梯度下降算法對(duì)上述第一預(yù)設(shè)模型和上述第二預(yù)設(shè)模型進(jìn)行訓(xùn)練,直至上述第一預(yù)設(shè)模型和上述第二預(yù)設(shè)模型達(dá)到收斂狀態(tài)。
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種視頻檢索裝置,該裝置包括:獲取單元,用于獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;第一處理單元,用于對(duì)上述多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;第二處理單元,用于根據(jù)第一預(yù)設(shè)模型對(duì)上述至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到上述至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)上述第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;第三處理單元,用于根據(jù)第二預(yù)設(shè)模型對(duì)上述每個(gè)上述第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到上述每個(gè)上述第一目標(biāo)視頻圖像的第一特征和第二特征,其中,上述第一特征為上述第一目標(biāo)視頻圖像的二值化哈希特征,上述第二特征為上述第一目標(biāo)視頻圖像的原始特征;第四處理單元,用于根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)上述第一特征和上述第二特征進(jìn)行聚類處理,得到檢索模型;第五處理單元,用于對(duì)上述目標(biāo)檢索圖像進(jìn)行摳圖處理,得到目標(biāo)區(qū)域圖像;檢索單元,用于根據(jù)上述檢索模型對(duì)上述目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果。
進(jìn)一步地,上述檢索單元包括:第一獲取子單元,用于獲取上述目標(biāo)區(qū)域圖像的第三特征和第四特征,其中,上述第三特征為上述目標(biāo)區(qū)域圖像的二值化哈希特征,上述第四特征為上述目標(biāo)區(qū)域圖像的原始特征;第一計(jì)算子單元,用于計(jì)算上述第三特征與上述每個(gè)上述第一目標(biāo)視頻圖像的上述第一特征之間的漢明距離,得到至少一個(gè)第二目標(biāo)視頻圖像;第二計(jì)算子單元,用于計(jì)算上述第四特征與上述至少一個(gè)第二目標(biāo)視頻圖像中的每個(gè)上述第二目標(biāo)視頻圖像的上述第二特征的歐式距離,得到目標(biāo)圖像幀,其中,上述目標(biāo)圖像幀與上述目標(biāo)檢索圖像的相似度大于預(yù)設(shè)相似度閾值;第二獲取子單元,用于獲取上述目標(biāo)圖像幀的幀id;檢索子單元,用于在上述多個(gè)視頻圖像中檢索與上述幀id對(duì)應(yīng)的上述視頻圖像,得到上述檢索結(jié)果。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種存儲(chǔ)介質(zhì),上述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在上述程序運(yùn)行時(shí)控制上述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述的視頻檢索方法。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種處理器,上述處理器用于運(yùn)行程序,其中,上述程序運(yùn)行時(shí)執(zhí)行上述的視頻檢索方法。
在本發(fā)明實(shí)施例中,采用下述方式:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;通過對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理得到目標(biāo)區(qū)域圖像;達(dá)到了根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索得到檢索結(jié)果的目的,從而實(shí)現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時(shí)間成本和人力成本的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻檢索方法的流程示意圖;
圖2是根據(jù)本發(fā)明實(shí)施例的另一種可選的視頻檢索方法的流程示意圖;
圖3是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻檢索裝置的結(jié)構(gòu)示意圖;
圖4是根據(jù)本發(fā)明實(shí)施例的另一種可選的視頻檢索裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實(shí)施例1
根據(jù)本發(fā)明實(shí)施例,提供了一種視頻檢索方法的實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻檢索方法的流程示意圖,如圖1所示,該方法包括如下步驟:
步驟s102,獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;
步驟s104,對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;
步驟s106,根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;
步驟s108,根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;
步驟s110,根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;
步驟s112,對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理,得到目標(biāo)區(qū)域圖像;
步驟s114,根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果。
在本發(fā)明實(shí)施例中,采用下述方式:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;通過對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理得到目標(biāo)區(qū)域圖像;達(dá)到了根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索得到檢索結(jié)果的目的,從而實(shí)現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時(shí)間成本和人力成本的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
可選地,多個(gè)視頻圖像可以理解為海量的視頻圖像,目標(biāo)檢索圖片由用戶輸入,需要說明的是,該目標(biāo)檢索圖片可能包含于多個(gè)視頻圖像中,也可能并不包含于多個(gè)視頻圖像中。
可選地,執(zhí)行本申請(qǐng)上述步驟s102至步驟s110,可以先對(duì)海量的視頻圖像進(jìn)行處理,提取每個(gè)視頻圖像的特征(包括目標(biāo)檢測(cè)、目標(biāo)跟蹤、特征提取),該特征包括原始特征(維度較長)和二值化哈希特征(維度較短,只有0或1兩個(gè)數(shù)字),進(jìn)而對(duì)上述視頻圖像的原始特征和二值化哈希特征進(jìn)行保存及聚類,從而構(gòu)建檢索服務(wù)模型。
可選地,在用戶輸入單張圖片作為目標(biāo)檢索圖片的情況下,執(zhí)行步驟s112可以對(duì)用戶輸入的單張圖片進(jìn)行預(yù)處理,去掉圖片中與目標(biāo)區(qū)域圖像無關(guān)的信息,把目標(biāo)區(qū)域圖像單獨(dú)摳出。
可選地,第一預(yù)設(shè)模型中可以包含兩個(gè)子模型,分別為基于深度學(xué)習(xí)的目標(biāo)檢測(cè)子模型和基于深度學(xué)習(xí)的目標(biāo)跟蹤子模型;第二預(yù)設(shè)模型可以為基于深度學(xué)習(xí)的目標(biāo)特征提取模型。
可選地,圖2是根據(jù)本發(fā)明實(shí)施例的另一種可選的視頻檢索方法的流程示意圖,如圖2所示,步驟s114,根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果包括:
步驟s202,獲取目標(biāo)區(qū)域圖像的第三特征和第四特征,其中,第三特征為目標(biāo)區(qū)域圖像的二值化哈希特征,第四特征為目標(biāo)區(qū)域圖像的原始特征;
步驟s204,計(jì)算第三特征與每個(gè)第一目標(biāo)視頻圖像的第一特征之間的漢明距離,得到至少一個(gè)第二目標(biāo)視頻圖像;
步驟s206,計(jì)算第四特征與至少一個(gè)第二目標(biāo)視頻圖像中的每個(gè)第二目標(biāo)視頻圖像的第二特征的歐式距離,得到目標(biāo)圖像幀,其中,目標(biāo)圖像幀與目標(biāo)檢索圖像的相似度大于預(yù)設(shè)相似度閾值;
步驟s208,獲取目標(biāo)圖像幀的幀id;
步驟s210,在多個(gè)視頻圖像中查找與幀id對(duì)應(yīng)的視頻圖像,得到檢索結(jié)果。
可選地,執(zhí)行步驟s202,可以得到目標(biāo)區(qū)域圖像中維度較長的原始特征和維度較短的二值化哈希特征。
可選地,執(zhí)行步驟s204,可以計(jì)算用戶輸入圖像的二值化特征與海量視頻數(shù)據(jù)的二值化特征的漢明距離,從而縮小檢索范圍,得到范圍縮小后的海量視頻數(shù)據(jù)特征。其中,漢明距離可以表征上述特征之間的相似度,漢明距離越大則相似度越低。例如,計(jì)算漢明距離可以縮小檢索范圍,例如海量數(shù)據(jù)庫中有十萬個(gè)視頻圖像,用戶輸入一張哈士奇的圖片,可能計(jì)算漢明距離之后還剩一萬個(gè)視頻圖像,這一萬個(gè)視頻圖像中可能都是包含狗的。
可選地,執(zhí)行步驟s206至步驟s210,可以計(jì)算用戶輸入圖像的原始特征與范圍縮小后的海量視頻數(shù)據(jù)的原始特征之間的歐式距離,從而得到海量視頻數(shù)據(jù)中前n條與用戶輸入圖像相似度高的圖像幀,進(jìn)而根據(jù)圖像幀id在海量視頻數(shù)據(jù)中查找對(duì)應(yīng)的視頻標(biāo)識(shí)、圖像所在幀號(hào)等相關(guān)信息,最終獲得視頻檢索結(jié)果。例如,計(jì)算歐式距離,即可在上述舉例中的一萬個(gè)包含狗的視頻圖像中,得到僅包含哈士奇的一千張視頻圖像。因此,依次計(jì)算漢明距離和計(jì)算歐式距離,可以將檢索的范圍進(jìn)一步縮小。
可選地,基于上述,首先按照目標(biāo)檢索圖片的二值化哈希特征通過標(biāo)準(zhǔn)正太分布圖標(biāo)獲取對(duì)應(yīng)分桶的位置,根據(jù)分桶標(biāo)記從redis中獲取相對(duì)應(yīng)的二值向量集合,通過漢明距離比較、排序,獲取對(duì)應(yīng)相似度高的二值化哈希特征,完成初步檢索。進(jìn)而按照目標(biāo)檢索圖片的原始特征,通過計(jì)算歐式距離可以進(jìn)行進(jìn)一步的精確檢索。最終,經(jīng)過比較和排序,獲取前n條相似度高的圖像幀,根據(jù)圖像幀id查找對(duì)應(yīng)的視頻標(biāo)識(shí)、圖像所在幀號(hào)等相關(guān)信息,從而獲得視頻檢索結(jié)果。其中,n設(shè)置為10,即搜索返回前10個(gè)相似度最高的視頻序列。
可選地,在執(zhí)行完成步驟s108之后,即在根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理之后,該方法還可以包括:
步驟s10,將至少一個(gè)第一目標(biāo)視頻圖像、目標(biāo)圖像序列、第一特征和第二特征結(jié)構(gòu)化存儲(chǔ)至數(shù)據(jù)庫中。該數(shù)據(jù)庫可以為mongodb數(shù)據(jù)庫或poseidon數(shù)據(jù)庫,上述數(shù)據(jù)庫可以作為檢索數(shù)據(jù)庫,在進(jìn)行視頻圖像檢索時(shí),均需要將目標(biāo)特征與該數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行比對(duì),得到檢索結(jié)果。
可選地,該預(yù)設(shè)近似最鄰近算法為局部敏感度哈希算法。具體地,基于ann(approximatenearestneighbor)近似最近鄰算法對(duì)視頻文件的結(jié)構(gòu)化信息進(jìn)行聚類?;跇?biāo)準(zhǔn)正太分布二值哈希進(jìn)行分桶,并將分桶后的二值向量數(shù)據(jù)存儲(chǔ)到內(nèi)存數(shù)據(jù)redis中,從而構(gòu)建檢索服務(wù)。
可選地,執(zhí)行步驟s104,即對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像包括:
步驟s20,對(duì)多個(gè)視頻圖像中的每個(gè)視頻圖像依次進(jìn)行長度歸一化處理和解碼處理,得到第一目標(biāo)視頻圖像。
具體地,對(duì)視頻圖像進(jìn)行長度歸一化處理,可以將連續(xù)的視頻流截取為長度固定的視頻流串,從而便于后期分析與保存;在對(duì)視頻圖像解碼處理時(shí),可以通過opencv對(duì)視頻文件進(jìn)行解碼,并對(duì)每幀圖像進(jìn)行尺寸縮放歸一化操作。其中,尺寸縮放采用雙線性差值算法,縮放的尺寸為1920*1080。
可選地,該方法還可以包括:步驟s30,根據(jù)隨機(jī)梯度下降算法對(duì)第一預(yù)設(shè)模型和第二預(yù)設(shè)模型進(jìn)行訓(xùn)練,直至第一預(yù)設(shè)模型和第二預(yù)設(shè)模型達(dá)到收斂狀態(tài)。
具體地,可以采用上述方式訓(xùn)練第一預(yù)設(shè)模型:首先可以將圖像數(shù)據(jù)集及其對(duì)應(yīng)的類別標(biāo)簽信息分別對(duì)應(yīng)分成兩部分,一部分作為訓(xùn)練樣本集,另一部分作為測(cè)試樣本集,其中,訓(xùn)練樣本集和測(cè)試樣本集中每個(gè)樣本均包括一張圖像及對(duì)應(yīng)的類別標(biāo)簽。進(jìn)而可以構(gòu)建第一預(yù)設(shè)模型中的兩個(gè)子模型:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)子模型和基于深度學(xué)習(xí)的目標(biāo)跟蹤子模型,其中,目標(biāo)檢測(cè)子模型采用經(jīng)典的yolo架構(gòu),目標(biāo)跟蹤子模型采用rnn架構(gòu)。最終,可以利用訓(xùn)練樣本集,按照sgd隨機(jī)梯度下降法對(duì)目標(biāo)檢測(cè)子模型和目標(biāo)跟蹤子模型進(jìn)行訓(xùn)練。其中,訓(xùn)練的學(xué)習(xí)率步長設(shè)置為0.01。
具體地,可以采用上述方式訓(xùn)練第二預(yù)設(shè)模型:首先將圖像數(shù)據(jù)集及其對(duì)應(yīng)的類別標(biāo)簽信息分別對(duì)應(yīng)分成兩部分,一部分作為訓(xùn)練樣本集,另一部分作為測(cè)試樣本集,其中,訓(xùn)練樣本集和測(cè)試樣本集中每個(gè)樣本均包括一張圖像及對(duì)應(yīng)的類別標(biāo)簽。進(jìn)而,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包含卷積子網(wǎng)絡(luò)、哈希層、損失層,卷積子網(wǎng)絡(luò)用于學(xué)習(xí)圖像的原始特征,哈希層用于對(duì)原始特征進(jìn)行特征壓縮降維,轉(zhuǎn)換為二進(jìn)制編碼,獲得輸入圖像的二值化哈希特征,損失層用于衡量softmax分類誤差;其中,卷積子網(wǎng)絡(luò)采用vgg架構(gòu)。原始特征維度為4096維。二值化哈希特征維度為128維。最終,利用訓(xùn)練樣本集,依據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),按照sgd隨機(jī)梯度下降法對(duì)第二預(yù)設(shè)模型進(jìn)行訓(xùn)練,得到基于深度學(xué)習(xí)的目標(biāo)特征提取模型。其中,訓(xùn)練的學(xué)習(xí)率步長設(shè)置為0.01。
在本發(fā)明實(shí)施例中,采用下述方式:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;通過對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理得到目標(biāo)區(qū)域圖像;達(dá)到了根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索得到檢索結(jié)果的目的,從而實(shí)現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時(shí)間成本和人力成本的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
實(shí)施例2
根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,還提供了一種視頻檢索裝置,如圖3所示,該裝置包括:獲取單元301、第一處理單元303、第二處理單元305、第三處理單元307、第四處理單元309、第五處理單元311以及檢索單元313。
其中,獲取單元301,用于獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;第一處理單元303,用于對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;第二處理單元305,用于根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;第三處理單元307,用于根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;第四處理單元309,用于根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;第五處理單元311,用于對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理,得到目標(biāo)區(qū)域圖像;檢索單元313,用于根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索,得到檢索結(jié)果。
可選地,如圖4所示,檢索單元313可以包括:第一獲取子單元401、第一計(jì)算子單元403、第二計(jì)算子單元405、第二獲取子單元407以及檢索子單元409。
其中,第一獲取子單元401,用于獲取目標(biāo)區(qū)域圖像的第三特征和第四特征,其中,第三特征為目標(biāo)區(qū)域圖像的二值化哈希特征,第四特征為目標(biāo)區(qū)域圖像的原始特征;第一計(jì)算子單元403,用于計(jì)算第三特征與每個(gè)第一目標(biāo)視頻圖像的第一特征之間的漢明距離,得到至少一個(gè)第二目標(biāo)視頻圖像;第二計(jì)算子單元405,用于計(jì)算第四特征與至少一個(gè)第二目標(biāo)視頻圖像中的每個(gè)第二目標(biāo)視頻圖像的第二特征的歐式距離,得到目標(biāo)圖像幀,其中,目標(biāo)圖像幀與目標(biāo)檢索圖像的相似度大于預(yù)設(shè)相似度閾值;第二獲取子單元407,用于獲取目標(biāo)圖像幀的幀id;檢索子單元409,用于在多個(gè)視頻圖像中檢索與幀id對(duì)應(yīng)的視頻圖像,得到檢索結(jié)果。
在本發(fā)明實(shí)施例中,采用下述方式:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;通過對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理得到目標(biāo)區(qū)域圖像;達(dá)到了根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索得到檢索結(jié)果的目的,從而實(shí)現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時(shí)間成本和人力成本的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
實(shí)施例3
根據(jù)本發(fā)明實(shí)施例的又一個(gè)方面,還提供了一種存儲(chǔ)介質(zhì),上述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在上述程序運(yùn)行時(shí)控制上述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行本申請(qǐng)實(shí)施例1中的上述視頻檢索方法。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種處理器,上述處理器用于運(yùn)行程序,其中,上述程序運(yùn)行時(shí)執(zhí)行本申請(qǐng)實(shí)施例1中的上述視頻檢索方法。
在本發(fā)明實(shí)施例中,采用下述方式:獲取目標(biāo)檢索圖片和多個(gè)視頻圖像;對(duì)多個(gè)視頻圖像進(jìn)行預(yù)處理,得到至少一個(gè)第一目標(biāo)視頻圖像;根據(jù)第一預(yù)設(shè)模型對(duì)至少一個(gè)第一目標(biāo)視頻圖像進(jìn)行目標(biāo)檢測(cè)處理和目標(biāo)跟蹤處理,得到至少一個(gè)第一目標(biāo)視頻圖像中的每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列;根據(jù)第二預(yù)設(shè)模型對(duì)每個(gè)第一目標(biāo)視頻圖像的全部目標(biāo)圖像序列進(jìn)行特征提取處理,得到每個(gè)第一目標(biāo)視頻圖像的第一特征和第二特征,其中,第一特征為第一目標(biāo)視頻圖像的二值化哈希特征,第二特征為第一目標(biāo)視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對(duì)第一特征和第二特征進(jìn)行聚類處理,得到檢索模型;通過對(duì)目標(biāo)檢索圖像進(jìn)行摳圖處理得到目標(biāo)區(qū)域圖像;達(dá)到了根據(jù)檢索模型對(duì)目標(biāo)區(qū)域圖像進(jìn)行檢索得到檢索結(jié)果的目的,從而實(shí)現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時(shí)間成本和人力成本的技術(shù)效果,進(jìn)而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。