本發(fā)明涉及通信技術領域,具體涉及一種相似視頻的檢索方法、裝置和存儲介質。
背景技術:
在信息爆炸的時代,面對海量的視頻,如何從中準確且全面地檢索到相似視頻,對于用戶查詢和視頻信息推薦等場景,都有著積極的意義。
現(xiàn)有在檢索相似視頻時,一般都會采用文本深度表示模型(word2vec)來進行建模,然后,基于該模型計算視頻標題的相似度,并根據(jù)該相似度來查找相似的視頻。其中,訓練word2vec模型的語料主要來自于網(wǎng)絡,若語料發(fā)生更新,則該word2vec模型需要重新進行訓練。
在對現(xiàn)有技術的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有方案非常依賴于分詞效果、語料的量級以及語料更新的及時性,若語料更新不及時,對于一些新出現(xiàn)的視頻信息,則可能無法取得正確的分詞結果,進而影響word2vec模型的訓練結果,最終導致召回率(r,recall,也稱為查全率)較低,檢索結果不準確,而若語料更新頻率過大,則需要消耗大量的訓練時間和計算資源,導致資源浪費。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種相似視頻的檢索方法、裝置和存儲介質,不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
本發(fā)明實施例提供一種相似視頻的檢索方法,包括:
獲取需要檢索相似視頻的視頻信息,所述視頻信息包括視頻標簽和視頻標題;
根據(jù)預設知識圖譜從視頻庫中獲取與所述視頻信息匹配的視頻,得到第一候選視頻集合;
采用預設文本深度表示模型(word2vec)對所述視頻信息進行訓練,以將所述視頻信息轉化為詞向量;
根據(jù)詞向量從所述視頻庫中篩選與所述視頻信息相似的視頻,得到第二候選視頻集合;
根據(jù)所述第一候選視頻集合和第二候選視頻集合確定所述視頻信息的相似視頻。
相應的,本發(fā)明實施例還提供一種相似視頻的檢索裝置,包括:
獲取單元,用于獲取需要檢索相似視頻的視頻信息,所述視頻信息包括視頻標簽和視頻標題;
匹配單元,用于根據(jù)預設知識圖譜從視頻庫中獲取與所述視頻信息匹配的視頻,得到第一候選視頻集合;
訓練單元,用于采用預設word2vec對所述視頻信息進行訓練,以將所述視頻信息轉化為詞向量;
篩選單元,用于根據(jù)詞向量從所述視頻庫中篩選與所述視頻信息相似的視頻,得到第二候選視頻集合;
確定單元,用于根據(jù)所述第一候選視頻集合和第二候選視頻集合確定所述視頻信息的相似視頻。
此外,本發(fā)明實施例還提供一種存儲介質,所述存儲介質存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行本發(fā)明實施例所提供的任一種相似視頻的檢索方法中的步驟。
本發(fā)明實施例在獲取需要檢索相似視頻的視頻信息后,一方面可以根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合;另一方面,可以采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量,并根據(jù)詞向量從視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,根據(jù)第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,從而達到檢索相似視頻的目的;由于該方案采用了知識圖譜和文本相似度相結合的方案來檢索相似視頻,因此,即可以利用知識圖譜,來彌補因為語料更新頻率和數(shù)量問題所導致的召回率低和計算資源消耗較大的問題,也可以利用相似度計算來增加請求視頻(即需要進行檢索的視頻)的上下文信息,規(guī)約一詞多義導致召回結果跑偏的問題,所以,采用該方案不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1a是本發(fā)明實施例提供的相似視頻的檢索方法的場景示意圖;
圖1b是本發(fā)明實施例提供的相似視頻的檢索方法的另一場景示意圖;
圖1c是本發(fā)明實施例提供的相似視頻的檢索方法的流程圖;
圖2a是本發(fā)明實施例提供的相似視頻的檢索方法的架構圖;
圖2b是本發(fā)明實施例提供的相似視頻的檢索方法中關系邊的示例圖;
圖3a是本發(fā)明實施例提供的相似視頻的檢索裝置的結構示意圖;
圖3b是本發(fā)明實施例提供的相似視頻的檢索裝置的另一結構示意圖;
圖4是本發(fā)明實施例提供的服務器的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明實施例提供一種相似視頻的檢索方法、裝置和存儲介質。
其中,該相似視頻的檢索裝置具體可以集成在服務器等設備中。例如,以集成在服務器為例,則參見圖1a,服務器在獲取到需要檢索相似視頻的視頻信息,比如視頻標簽和視頻標題后,一方面,可以根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合,另一方面,可以采用預設word2vec模型(文本深度表示模型)對該視頻信息進行訓練,以將視頻信息轉化為詞向量,并根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,此后,便可以將該相似視頻提供給多種場景使用,比如,參見圖1b,可以將該相似視頻提供或推薦給用戶,或者,也可以通過這種方式對視頻進行分類,等等。
以下分別進行詳細說明。需說明的是,以下實施例的序號不作為對實施例優(yōu)選順序的限定。
實施例一、
本實施例將從相似視頻的檢索裝置的角度進行描述,該相似視頻的檢索裝置具體可以集成在在服務器等設備中。
一種相似視頻的檢索方法,包括:獲取需要檢索相似視頻的視頻信息,該視頻信息包括視頻標簽和視頻標題,根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合,采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量,根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
如圖1c所示,該相似視頻的檢索方法的具體流程可以如下:
101、獲取需要檢索相似視頻的視頻信息。
例如,具體可以接收終端發(fā)送的檢索請求,其中,該檢索請求指示需要檢索相似視頻的視頻信息;或者,也可以在需要對視頻進行分類時,在本地(即相似視頻的檢索裝置)或由其他設備生成相應的檢索請求,然后,由該相似視頻的檢索裝置根據(jù)該檢索請求獲取需要檢索相似視頻的視頻信息,等等。
其中,該視頻信息可以包括視頻標簽和視頻標題等信息,視頻標簽指的是可以用來表示視頻內容和/或類型的信息、比如可以電影、電視劇、喜劇、冒險片,等等;可選的,該視頻標簽還可以是與該視頻具有關聯(lián)關系的信息,比如某明星、某導演、某景點、或某制作公司,等等。而視頻標題指的是該視頻的標題內容,具體可以包括標題中的文字和符號。
102、根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合,例如,具體可以如下:
(1)從該視頻標簽和視頻標題中抽取實體詞,得到種子(也稱為種子詞,seedwords)。
其中,實體詞指的是具有特定語義的詞語,具體可以是能夠指代某項事物的名詞,比如張三、或xx電視劇,等等。
(2)根據(jù)預設知識圖譜從視頻庫中獲取與該種子匹配的視頻,得到第一候選視頻集合。
其中,該視頻庫保存有多個視頻,每個視頻均具有相應的視頻信息,該視頻信息可以包括視頻標簽和視頻標題等信息。
例如,具體可以根據(jù)預設知識圖譜確定與該種子具有強關聯(lián)關系的實體詞,得到候選詞,從視頻庫中獲取視頻信息中包含該候選詞的視頻,得到第一候選視頻集合。
其中,強關聯(lián)關系指的是關系度小于等于設定值,即若某實體詞與該種子的關系度小于等于設定值,則表明該實體詞與該種子具有強關聯(lián)關系,也就是說,步驟“根據(jù)預設知識圖譜確定與該種子具有強關聯(lián)關系的實體詞,得到候選詞”可以包括:
將該種子映射到預設實體庫中的實體詞上,確定該種子與該實體庫中各個實體詞的關系度,選取關系度小于等于設定值的實體詞作為候選詞,其中,該實體庫可以根據(jù)預設知識圖譜建立而成。
其中,該設定值可以根據(jù)實際應用的需求進行設置,比如,一般可以將關系度為1度和2度的,稱為關系“近”的實體,因此,可以將1度作為該設定值,等等。
比如,具體可以通過命名實體鏈接(nel,namedentitylinking)技術等方式將該種子映射到預設知識庫中的相應的實體上,然后,獲取該種子在該知識庫中與其他實體的關系邊數(shù)量,得到該種子與其他實體在該知識庫中的關系度。
其中,命名實體鏈接,簡稱實體鏈接(entitylinking),是把種子鏈接到知識庫中一個無歧義實體的過程,包括同義實體的合并、以及歧義實體的消歧等。
而關系邊數(shù)量則用于描述實體之間關聯(lián)關系的遠近,指的是在實體關系圖中從實體a到實體b所需經(jīng)過的關系邊的數(shù)量,一般可以表示為度數(shù),為了描述方便,在本發(fā)明實施例中,將該度數(shù)稱為關系度。其中,關系邊數(shù)量越少,則關系度(即度數(shù))越低,而關系度越低,則表明一個實體越貼近本身,比如,如果一個實體走向本身,則其關系度(度數(shù))為0,等等,在此不再贅述。
可選的,實體庫可以由運維人員預先進行設置,或者,也可以由該相似視頻的檢索裝置自行建立而成,即在步驟“將該種子映射到預設實體庫中的實體詞上”之前,該相似視頻的檢索方法還可以包括:
設置基礎詞庫,根據(jù)該基礎詞庫獲取互聯(lián)網(wǎng)信息,并對該互聯(lián)網(wǎng)信息進行非實體詞清洗,根據(jù)該基礎詞庫、以及清洗后的互聯(lián)網(wǎng)信息構建實體詞之間的三元組關系,得到實體庫。
比如,可以從一些應用的細胞詞庫中取得基礎的分類實體詞,例如明星、電影等作為基礎詞庫,然后根據(jù)這個基礎詞庫獲取互聯(lián)網(wǎng)信息,比如可以獲取一些包含百科資料的網(wǎng)頁,將這些網(wǎng)頁中的非實體詞清洗掉,并構建實體詞與實體詞之間的三元組關系,如(<張三,明星>,<屬于>,<一二三四,電視劇>),等等,從而得到保存有這些三元組關系的實體庫。
需說明的是,為了保證檢索結果的準確性,可以定時或實時地對該基礎詞庫和互聯(lián)網(wǎng)信息進行更細,進而對實體庫進行更新。具體更新時,可以按照上述建立實體庫的方式進行建立,也可以進行差量更新,即對于新增的信息,可以先進行分析,以確定該新增的信息中所包含的實體詞是否已存在于該實體庫中,若存在,則無需添加至實體庫,反之,若不存在,則表明該新增的信息中所包含的實體詞為新實體詞,此時可以獲取相應的互聯(lián)網(wǎng)信息,對該互聯(lián)網(wǎng)信息進行非實體詞清洗,然后,構建該新的實體詞與清洗后互聯(lián)網(wǎng)信息中的實體詞的三元組關系,并將構建的三元組關系添加至實體庫中。
103、采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量。
例如,具體可以對該視頻標簽和視頻標題等進行分詞,得到分詞后視頻文本,然后,采用預設的word2vec模型對該分詞后視頻文本進行訓練,得到該分詞后視頻文本的詞向量,即得到該分詞后視頻文本中每個詞都對應的詞向量。
其中,詞向量,顧名思義,指的是采用向量來表達詞;需說明的是,該訓練得到的每個詞對應的詞向量均具有固定的維度,這樣,可以有效防止維度爆炸,降低后續(xù)相似度計算的計算量。
其中,該word2vec模型可以由運維人員預先進行設置,也可以由該相似視頻的檢索裝置預先進行建立,即在步驟“采用預設word2vec模型對該分詞后視頻文本進行訓練”之前,該相似視頻的檢索方法還可以包括:
獲取預設的語料集,并對該語料集中的句子進行分詞,根據(jù)分詞后的句子對預設原始模型進行學習,得到word2vec模型。
其中,該語料集中的內容可以根據(jù)實際應用的需求進行設置,比如,可以對一定期限內的用戶原創(chuàng)內容(ugc,usergeneratedcontent)進行抽樣,以及對網(wǎng)絡信息,如各類百科語料進行抓取,來構建該語料集,等等。
需說明的是,步驟102和103的執(zhí)行可以不分先后。
104、根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合。
例如,若在步驟103中,訓練得到分詞后視頻文本的詞向量,則此時,可以根據(jù)該分詞后視頻文本的詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,比如,具體可以如下:
根據(jù)該分詞后視頻文本的詞向量,分別計算該視頻信息與該視頻庫中各個視頻的相似度,選取相似度高于預設閾值的視頻,得到第二候選視頻集合中。
其中,該預設閾值可以根據(jù)實際應用的需求進行設置,而該兩個視頻之間的相似度可以通過計算這兩個視頻的詞向量的點積來得到,或者,也可以采用其他的相似度算法來計算,在此不再贅述。
105、根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
例如,具體分別對第一候選視頻集合和第二候選視頻集合中的視頻進行評分,根據(jù)這些評分計算各個視頻的綜合分數(shù)值,然后,將綜合分數(shù)值較高的,比如將綜合分數(shù)值大于預設分數(shù)值的視頻確定為該視頻信息的相似視頻,等等。
可選的,為了提高其靈活性,還可以通過為第一候選視頻集合和第二候選視頻集合中的視頻分別設定相應的權重進行微調,從而使得其檢索結果更為準確,即步驟“根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻”可以包括:
分別對該第一候選視頻集合中的視頻進行評分,得到第一分數(shù)值;分別對該第二候選視頻集合中的視頻進行評分,得到第二分數(shù)值;分別計算該第一分數(shù)值和相應的第二分數(shù)值的加權值,得到各個視頻的綜合分數(shù)值;將綜合分數(shù)值大于預設分數(shù)值的視頻確定為該視頻信息的相似視頻,用公式表示即可以如下:
s=α*a+β*b;
其中,s為視頻x的綜合分數(shù)值,a為第一候選視頻集合中的視頻x的第一分數(shù)值,b為第二候選視頻集合中該視頻x的第二分數(shù)值,α為第一分數(shù)值的權重(即第一候選視頻集合中的視頻的權重),β為第二分數(shù)值的權重(即第二候選視頻集合中的視頻的權重),α和β的和為1,α和β的具體取值可以通過實際應用的需求,比如通過用戶的反饋來進行設置。
需說明的是,第一分數(shù)值和第二分數(shù)值的打分范圍可以根據(jù)實際應用的需求進行設置,比如,可以設置為在[0,1]之間,等等。另外,還需說明的是,若第二候選視頻集合中不存在視頻x,則該視頻x的第二分數(shù)值為0,同理,若第二候選視頻集合中的某視頻l不在第一候選視頻集合中,則該視頻l的第一分數(shù)值為0。
由上可知,本實施例在獲取需要檢索相似視頻的視頻信息后,一方面可以根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合;另一方面,可以采用預設word2vec模型對該視頻信息進行訓練,并根據(jù)訓練結果從視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,根據(jù)第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,從而達到檢索相似視頻的目的;由于該方案采用了知識圖譜和文本相似度相結合的方案來檢索相似視頻,因此,即可以利用知識圖譜,來彌補因為語料更新頻率和數(shù)量問題所導致的召回率低和計算資源消耗較大的問題,也可以利用相似度計算來增加請求視頻(即需要進行檢索的視頻)的上下文信息,規(guī)約一詞多義導致召回結果跑偏的問題,所以,采用該方案不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
實施例二、
根據(jù)實施例所描述的方法,以下將舉例作進一步詳細說明。
在本實施例中將以該相似視頻的檢索裝置具體集成在服務器中為例進行說明。
如圖2a所示,一種相似視頻的檢索方法,具體流程可以如下:
201、服務器獲取需要檢索相似視頻的視頻信息。
例如,服務器具體可以接收終端發(fā)送的檢索請求,其中,該檢索請求指示需要檢索相似視頻的視頻信息;或者,服務器也可以在需要對視頻進行分類時,在本地(即服務器)或由其他設備生成相應的檢索請求,然后,由該服務器根據(jù)該檢索請求獲取需要檢索相似視頻的視頻信息,等等。
其中,該視頻信息可以包括視頻標簽和視頻標題等信息,視頻標簽指的是可以用來表示視頻內容和/或類型的信息、比如可以電影、電視劇、喜劇、冒險片,等等;可選的,該視頻標簽還可以是與該視頻具有關聯(lián)關系的信息,比如某明星、某導演、某景點、或某制作公司,等等。而視頻標題指的是該視頻的標題內容,具體可以包括標題中的文字和符號。
202、服務器從該視頻信息,如視頻標簽和視頻標題中抽取實體詞,得到種子。
例如,若需要檢索相似視頻為視頻k,該視頻k為某古裝電視劇“瑯x榜”,且其視頻標題為“瑯x榜第一集”,視頻標簽為“古裝”、以及“電視劇”等,則此時,可以從該視頻k的視頻標題和視頻標簽中抽取實體詞,如“瑯x榜”、“古裝”和“電視劇”等,得到種子。
203、服務器根據(jù)預設知識圖譜確定與該種子具有強關聯(lián)關系的實體詞,得到候選詞,從視頻庫中獲取視頻信息中包含該候選詞的視頻,得到第一候選視頻集合。
其中,強關聯(lián)關系指的是關系度小于等于設定值,即若某實體詞與該種子的關系度小于等于設定值,則表明該實體詞與該種子具有強關聯(lián)關系,比如,與該種子一致的詞語、該種子的近義詞、同義詞、以及與該種子具有預設特定關系的詞,均可認為與該種子具有強關聯(lián)關系。也就是說,步驟“服務器根據(jù)預設知識圖譜確定與該種子具有強關聯(lián)關系的實體詞,得到候選詞”可以包括:
服務器將該種子映射到預設實體庫中的實體詞上,確定該種子與該實體庫中各個實體詞的關系度,選取關系度小于等于設定值的實體詞作為候選詞。
其中,該設定值可以根據(jù)實際應用的需求進行設置,而該實體庫則可以根據(jù)預設知識圖譜建立而成,比如,具體可以通過nel技術等方式將該種子映射到預設知識庫中的相應的實體上,然后,獲取該種子在該知識庫中與其他實體的關系邊數(shù)量,得到該種子與其他實體在該知識庫中的關系度。
比如,還是以視頻k的種子“瑯x榜”為例,如圖2b所示,由于電視劇《瑯x榜》的主演為明星“張三”和“王五”,而“張三”的妻子為“張夫人”,搭檔為“李四”,因此,種子“瑯x榜”與實體詞“王五”的關系邊數(shù)量為“1”,相應的關系度為1度;種子“瑯x榜”與實體詞“張三”的關系邊數(shù)量為“1”,相應的關系度為1度;種子“瑯x榜”與實體詞“張夫人”的關系邊數(shù)量為“2”,相應的關系度為2度;種子“瑯x榜”與實體詞“李四”的關系邊數(shù)量為“2”,相應的關系度為2度,若設置的設定值為1度,所以,此時可以將“張三”和“王五”作為候選詞。
可選的,實體庫可以由運維人員預先進行設置,或者,也可以由該服務器建立而成,例如,具體可以如下:
服務器設置基礎詞庫,根據(jù)該基礎詞庫獲取互聯(lián)網(wǎng)信息,并對該互聯(lián)網(wǎng)信息進行非實體詞清洗,根據(jù)該基礎詞庫、以及清洗后的互聯(lián)網(wǎng)信息構建實體詞之間的三元組關系,得到實體庫。
比如,可以從一些應用的細胞詞庫中取得基礎的分類實體詞,例如明星、電影等作為基礎詞庫,然后根據(jù)這個基礎詞庫獲取互聯(lián)網(wǎng)信息,比如可以獲取一些包含百科資料的網(wǎng)頁,將這些網(wǎng)頁中的非實體詞清洗掉,并構建實體詞與實體詞之間的三元組關系,如(<張三,明星>,<屬于>,<瑯x榜,電視劇>),等等,從而得到保存有這些三元組關系的實體庫。
需說明的是,為了保證檢索結果的準確性,可以定時或實時地對該基礎詞庫和互聯(lián)網(wǎng)信息進行更細,進而對實體庫進行更新,具體可參見實施例一,在此不再贅述。
204、服務器對該視頻標簽和視頻標題等進行分詞,得到分詞后視頻文本。
例如,還是以視頻k為例,如該視頻k的視頻標題為“瑯x榜第一集”,視頻標簽為“古裝”、以及“電視劇”等,則可以對這些文本進行分詞,比如將視頻標題為“瑯x榜第一集”劃分為“瑯x榜”和“第一集”,將視頻標簽“古裝”劃分為“古裝”,將視頻標簽“電視劇”劃分為“電視劇”,等等,得到分詞后視頻文本。
需說明的是,步驟202和204的執(zhí)行可以不分先后。
205、服務器采用預設的word2vec模型對該分詞后視頻文本進行訓練,得到該分詞后視頻文本的詞向量。
比如,若在步驟204中,得到分詞后視頻文本包括“瑯x榜”、“第一集”、“古裝”、以及“電視劇”,則此時,可以采用預設的word2vec模型分別對這些分詞進行訓練,得到各個分詞對應的詞向量。
其中,該word2vec模型可以由運維人員預先進行設置,也可以由該相似視頻的檢索裝置預先進行建立,比如,服務器具體可以獲取預設的語料集,并對該語料集中的句子進行分詞,然后,根據(jù)分詞后的句子對預設原始模型進行學習,得到word2vec模型。
其中,該語料集中的內容可以根據(jù)實際應用的需求進行設置,比如,可以對一定期限內的ugc,比如全年的ugc進行抽樣,以及對網(wǎng)絡信息,如各類百科語料進行抓取,來構建該語料集,等等,在此不再贅述。
206、服務器根據(jù)該分詞后視頻文本的詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,例如,具體可以如下:
服務器根據(jù)該分詞后視頻文本的詞向量,分別計算該視頻信息與該視頻庫中各個視頻的相似度,選取相似度高于預設閾值的視頻,得到第二候選視頻集合中。
其中,該預設閾值可以根據(jù)實際應用的需求進行設置,而該兩個視頻之間的相似度可以通過計算這兩個視頻的詞向量的點積來得到,或者,也可以采用其他的相似度算法來計算,在此不再贅述。
207、服務器根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
例如,服務器可以分別對第一候選視頻集合和第二候選視頻集合中的視頻進行評分,根據(jù)這些評分計算各個視頻的綜合分數(shù)值,然后,將綜合分數(shù)值較高的,比如將綜合分數(shù)值大于預設分數(shù)值的視頻確定為該視頻信息的相似視頻,等等。
可選的,為了提高其靈活性,還可以通過為第一候選視頻集合和第二候選視頻集合中的視頻分別設定相應的權重進行微調,從而使得其檢索結果更為準確,即步驟“服務器根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻”具體可以包括:
(1)服務器分別對該第一候選視頻集合中的視頻進行評分,得到第一分數(shù)值。
(2)服務器分別對該第二候選視頻集合中的視頻進行評分,得到第二分數(shù)值。
(3)服務器分別計算該第一分數(shù)值和相應的第二分數(shù)值的加權值,得到各個視頻的綜合分數(shù)值。
(4)服務器將綜合分數(shù)值大于預設分數(shù)值的視頻確定為該視頻信息的相似視頻,用公式表示即可以如下:
s=α*a+β*b;
其中,s為視頻x的綜合分數(shù)值,a為第一候選視頻集合中的視頻x的第一分數(shù)值,b為第二候選視頻集合中該視頻x的第二分數(shù)值,α為第一分數(shù)值的權重(即第一候選視頻集合中的視頻的權重),β為第二分數(shù)值的權重(即第二候選視頻集合中的視頻的權重),α和β的和為1,α和β的具體取值可以通過實際應用的需求,比如通過用戶的反饋來進行設置。
需說明的是,第一分數(shù)值和第二分數(shù)值的打分范圍可以根據(jù)實際應用的需求進行設置,比如,可以設置為在[0,1]之間,等等。另外,還需說明的是,若第二候選視頻集合中不存在視頻x,則該視頻x的第二分數(shù)值為0,同理,若第二候選視頻集合中的某視頻l不在第一候選視頻集合中,則該視頻l的第一分數(shù)值為0。
由上可知,本實施例在獲取需要檢索相似視頻的視頻信息后,一方面可以根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合;另一方面,可以采用預設word2vec模型對該視頻信息進行訓練,并根據(jù)訓練結果從視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,根據(jù)第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,從而達到檢索相似視頻的目的;由于該方案采用了知識圖譜和文本相似度相結合的方案來檢索相似視頻,因此,即可以利用知識圖譜,來彌補因為語料更新頻率和數(shù)量問題所導致的召回率低和計算資源消耗較大的問題,也可以利用相似度計算來增加請求視頻(即需要進行檢索的視頻)的上下文信息,規(guī)約一詞多義導致召回結果跑偏的問題,所以,采用該方案不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
實施例三、
為了更好地實施以上方法,本發(fā)明實施例還提供一種相似視頻的檢索裝置(簡稱檢索裝置),該相似視頻的檢索裝置具體可以集成在在服務器等設備中。
例如,如圖3a所示,該相似視頻的檢索裝置可以包括獲取單元301、匹配單元302、訓練單元303、篩選單元304、以及確定單元305,如下:
(1)獲取單元301;
獲取單元301,用于獲取需要檢索相似視頻的視頻信息,該視頻信息包括視頻標簽和視頻標題。
其中,該視頻信息可以包括視頻標簽和視頻標題等信息,視頻標簽指的是可以用來表示視頻內容和/或類型的信息、以及與該視頻具有關聯(lián)關系的信息。而視頻標題指的是該視頻的標題內容,具體可以包括標題中的文字和符號。
(2)匹配單元302;
匹配單元302,用于根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合。
例如,該匹配單元302可以包括抽取子單元和匹配子單元,如下:
該抽取子單元,可以用于從該視頻標簽和視頻標題中抽取實體詞,得到種子。
該匹配子單元,可以用于根據(jù)預設知識圖譜從視頻庫中獲取與該種子匹配的視頻,得到第一候選視頻集合。
比如,該匹配子單元,具體可以用于根據(jù)預設知識圖譜確定與該種子具有強關聯(lián)關系的實體詞,得到候選詞,從視頻庫中獲取視頻信息中包含該候選詞的視頻,得到第一候選視頻集合。
其中,強關聯(lián)關系指的是關系度小于等于設定值,即若某實體詞與該種子的關系度小于等于設定值,則表明該實體詞與該種子具有強關聯(lián)關系,即:
該匹配子單元,具體可以用于將該種子映射到預設實體庫中的實體詞上,確定該種子與該實體庫中各個實體詞的關系度,選取關系度小于等于設定值的實體詞作為候選詞,其中,該實體庫可以根據(jù)預設知識圖譜建立而成。
其中,該設定值可以根據(jù)實際應用的需求進行設置,比如,一般可以將關系度為1度和2度的,稱為關系“近”的實體,因此,可以將1度作為該設定值,等等。
比如,具體可以通過nel技術等方式將該種子映射到預設知識庫中的相應的實體上,然后,獲取該種子在該知識庫中與其他實體的關系邊數(shù)量,得到該種子與其他實體在該知識庫中的關系度。
可選的,實體庫可以由運維人員預先進行設置,或者,也可以由該相似視頻的檢索裝置自行建立而成,即如圖3b所示,該相似視頻的檢索裝置還可以包括實體庫建立單元306,如下:
該實體庫建立單元306,可以用于設置基礎詞庫,根據(jù)該基礎詞庫獲取互聯(lián)網(wǎng)信息,并對該互聯(lián)網(wǎng)信息進行非實體詞清洗,根據(jù)該基礎詞庫、以及清洗后的互聯(lián)網(wǎng)信息構建實體詞之間的三元組關系,得到實體庫。
比如,該實體庫建立單元306具體可以從一些應用的細胞詞庫中取得基礎的分類實體詞,例如明星、電影等作為基礎詞庫,然后根據(jù)這個基礎詞庫獲取互聯(lián)網(wǎng)信息,比如可以獲取一些包含百科資料的網(wǎng)頁,將這些網(wǎng)頁中的非實體詞清洗掉,并構建實體詞與實體詞之間的三元組關系,從而得到保存有這些三元組關系的實體庫。
需說明的是,為了保證檢索結果的準確性,該實體庫建立單元306還可以定時或實時地對該基礎詞庫和互聯(lián)網(wǎng)信息進行更細,進而對實體庫進行更新,具體可參見前面的實施例,在此不再贅述。
(3)訓練單元303;
訓練單元303,用于采用預設word2vec對該視頻信息進行訓練,以將視頻信息轉化為詞向量。
例如,該訓練單元303,具體可以用于對該視頻標簽和視頻標題進行分詞,得到分詞后視頻文本,采用預設word2vec對該分詞后視頻文本進行訓練,得到該分詞后視頻文本的詞向量。
其中,該word2vec模型可以由運維人員預先進行設置,也可以由該相似視頻的檢索裝置預先進行建立,即如圖3b所示,該相似視頻的檢索裝置還可以包括模型建立單元307,如下:
該模型建立單元307,可以用于獲取預設的語料集,并對該語料集中的句子進行分詞,根據(jù)分詞后的句子對預設原始模型進行學習,得到word2vec。
其中,該語料集中的內容可以根據(jù)實際應用的需求進行設置,比如,可以對一定期限內的ugc進行抽樣,以及對網(wǎng)絡信息,如各類百科語料進行抓取,來構建該語料集,等等,具體可參見前面的實施例,在此不再贅述。
(4)篩選單元304;
篩選單元304,用于根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合;
例如,若訓練單元303訓練得到分詞后視頻文本的詞向量,則該篩選單元304可以根據(jù)該分詞后視頻文本的詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,比如,可以如下:
該篩選單元304,具體可以用于根據(jù)該分詞后視頻文本的詞向量,分別計算該視頻信息與該視頻庫中各個視頻的相似度,選取相似度高于預設閾值的視頻,得到第二候選視頻集合中。
其中,該預設閾值可以根據(jù)實際應用的需求進行設置,而該兩個視頻之間的相似度可以通過計算這兩個視頻的詞向量的點積來得到,或者,也可以采用其他的相似度算法來計算。
(5)確定單元305;
確定單元305,用于根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
例如,該確定單元305,具體可以用于分別對該第一候選視頻集合中的視頻進行評分,得到第一分數(shù)值;分別對該第二候選視頻集合中的視頻進行評分,得到第二分數(shù)值;分別計算該第一分數(shù)值和相應的第二分數(shù)值的加權值,得到各個視頻的綜合分數(shù)值;將綜合分數(shù)值大于預設分數(shù)值的視頻確定為該視頻信息的相似視頻,具體可參見前面的實施例,在此不再贅述。
具體實施時,以上各個單元可以作為獨立的實體來實現(xiàn),也可以進行任意組合,作為同一或若干個實體來實現(xiàn),以上各個單元的具體實施可參見前面的方法實施例,在此不再贅述。
由上可知,本實施例所提供的檢索裝置在獲取需要檢索相似視頻的視頻信息后,一方面可以由匹配單元302根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合;另一方面,可以由訓練單元303采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量,并由篩選單元304根據(jù)詞向量從視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,由確定單元305根據(jù)第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,從而達到檢索相似視頻的目的;由于該方案采用了知識圖譜和文本相似度相結合的方案來檢索相似視頻,因此,即可以利用知識圖譜,來彌補因為語料更新頻率和數(shù)量問題所導致的召回率低和計算資源消耗較大的問題,也可以利用相似度計算來增加請求視頻(即需要進行檢索的視頻)的上下文信息,規(guī)約一詞多義導致召回結果跑偏的問題,所以,采用該方案不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
實施例四、
本發(fā)明實施例還提供一種服務器,如圖4所示,其示出了本發(fā)明實施例所涉及的服務器的結構示意圖,具體來講:
該服務器可以包括一個或者一個以上處理核心的處理器401、一個或一個以上計算機可讀存儲介質的存儲器402、電源403和輸入單元404等部件。本領域技術人員可以理解,圖4中示出的服務器結構并不構成對服務器的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
處理器401是該服務器的控制中心,利用各種接口和線路連接整個服務器的各個部分,通過運行或執(zhí)行存儲在存儲器402內的軟件程序和/或模塊,以及調用存儲在存儲器402內的數(shù)據(jù),執(zhí)行服務器的各種功能和處理數(shù)據(jù),從而對服務器進行整體監(jiān)控??蛇x的,處理器401可包括一個或多個處理核心;優(yōu)選的,處理器401可集成應用處理器和調制解調處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調制解調處理器主要處理無線通信??梢岳斫獾氖?,上述調制解調處理器也可以不集成到處理器401中。
存儲器402可用于存儲軟件程序以及模塊,處理器401通過運行存儲在存儲器402的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。存儲器402可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)服務器的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器402可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地,存儲器402還可以包括存儲器控制器,以提供處理器401對存儲器402的訪問。
服務器還包括給各個部件供電的電源403,優(yōu)選的,電源403可以通過電源管理系統(tǒng)與處理器401邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源403還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉換器或者逆變器、電源狀態(tài)指示器等任意組件。
該服務器還可包括輸入單元404,該輸入單元404可用于接收輸入的數(shù)字或字符信息,以及產生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。
盡管未示出,服務器還可以包括顯示單元等,在此不再贅述。具體在本實施例中,服務器中的處理器401會按照如下的指令,將一個或一個以上的應用程序的進程對應的可執(zhí)行文件加載到存儲器402中,并由處理器401來運行存儲在存儲器402中的應用程序,從而實現(xiàn)各種功能,如下:
獲取需要檢索相似視頻的視頻信息,該視頻信息包括視頻標簽和視頻標題,根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合,采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量,并根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
例如,具體可以從該視頻標簽和視頻標題中抽取實體詞,得到種子,然后根據(jù)預設知識圖譜從視頻庫中獲取與該種子匹配的視頻,得到第一候選視頻集合;以及,對該視頻標簽和視頻標題等進行分詞,得到分詞后視頻文本,采用預設的word2vec模型對該分詞后視頻文本進行訓練,得到該分詞后視頻文本的詞向量,然后,根據(jù)該分詞后視頻文本的詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合。
其中,該word2vec模型可以由運維人員預先進行設置,也可以由該相似視頻的檢索裝置預先進行建立,即處理器401還可以運行存儲在存儲器402中的應用程序,從而實現(xiàn)以下功能:
獲取預設的語料集,并對該語料集中的句子進行分詞,根據(jù)分詞后的句子對預設原始模型進行學習,得到word2vec模型。
其中,該語料集中的內容可以根據(jù)實際應用的需求進行設置,比如,可以對一定期限內的ugc進行抽樣,以及對網(wǎng)絡信息,如各類百科語料進行抓取,來構建該語料集,等等。
以上各個操作的具體實施可參見前面的實施例,在此不再贅述。
由上可知,本實施例的服務器在獲取需要檢索相似視頻的視頻信息后,一方面可以根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合;另一方面,可以采用預設word2vec對該視頻信息進行訓練,以將視頻信息轉化為詞向量,并根據(jù)詞向量從視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,然后,根據(jù)第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻,從而達到檢索相似視頻的目的;由于該方案采用了知識圖譜和文本相似度相結合的方案來檢索相似視頻,因此,即可以利用知識圖譜,來彌補因為語料更新頻率和數(shù)量問題所導致的召回率低和計算資源消耗較大的問題,也可以利用相似度計算來增加請求視頻(即需要進行檢索的視頻)的上下文信息,規(guī)約一詞多義導致召回結果跑偏的問題,所以,采用該方案不僅可以提高召回率和檢索結果的準確性,而且可以降低模型訓練的頻率,節(jié)省計算資源。
實施例五、
本領域普通技術人員可以理解,上述實施例的各種方法中的全部或部分步驟可以通過指令來完成,或通過指令控制相關的硬件來完成,該指令可以存儲于一計算機可讀存儲介質中,并由處理器進行加載和執(zhí)行。
為此,本發(fā)明實施例提供一種存儲介質,其中存儲有多條指令,該指令能夠被處理器進行加載,以執(zhí)行本發(fā)明實施例所提供的任一種相似視頻的檢索方法中的步驟。例如,該指令可以如下步驟:
獲取需要檢索相似視頻的視頻信息,該視頻信息包括視頻標簽和視頻標題,根據(jù)預設知識圖譜從視頻庫中獲取與該視頻信息匹配的視頻,得到第一候選視頻集合,采用預設word2vec模型對該視頻信息進行訓練,以將視頻信息轉化為詞向量,根據(jù)詞向量從該視頻庫中篩選與該視頻信息相似的視頻,得到第二候選視頻集合,根據(jù)該第一候選視頻集合和第二候選視頻集合確定該視頻信息的相似視頻。
以上各個操作的具體實施可參見前面的實施例,在此不再贅述。
其中,該存儲介質可以包括:只讀存儲器(rom,readonlymemory)、隨機存取記憶體(ram,randomaccessmemory)、磁盤或光盤等。
由于該存儲介質中所存儲的指令,可以執(zhí)行本發(fā)明實施例所提供的任一種相似視頻的檢索方法中的步驟,因此,可以實現(xiàn)本發(fā)明實施例所提供的任一種相似視頻的檢索方法所能實現(xiàn)的有益效果,詳見前面的實施例,在此不再贅述。
以上對本發(fā)明實施例所提供的一種相似視頻的檢索方法、裝置和存儲介質進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。