本公開涉及互聯(lián)網(wǎng)技術(shù)應用領(lǐng)域,特別涉及一種處理視頻資源的方法及裝置。
背景技術(shù):
在視頻資源的處理過程中,大家基本在處理相同視頻時都采用的視頻資源名稱相同,或者視頻資源名稱去掉國語,粵語等,使視頻資源名稱硬匹配相同,才認為視頻資源為同一部視頻。
在上述視頻資源的處理方法可知,該視頻資源的處理方法存在同一部視頻有多個名字,如星際迷航2和星際迷航2:暗黑無界,導致視頻資源之間無法匹配的問題。
技術(shù)實現(xiàn)要素:
為了解決相關(guān)技術(shù)中存在的同一部視頻有多個名字,導致視頻資源之間無法匹配的問題,本公開提供了一種處理視頻資源的方法及裝置。
一種處理視頻資源的方法,所述方法包括:
視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度;
提取所在網(wǎng)頁頁面中視頻資源的名稱標簽,獲得視頻資源名稱;
根據(jù)所述視頻資源名稱確定所述視頻資源兩兩之間的名稱相似度;
融合所述名稱相似度和所述頁面相似度,獲得所述視頻資源兩兩之間的相似度;
根據(jù)所述相似度識別所述兩兩視頻資源是否匹配。
一種處理視頻資源的裝置,所述裝置包括:
頁面相似度確定模塊,用于視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度;
視頻資源名稱獲取模塊,用于提取所在網(wǎng)頁頁面中視頻資源的名稱標簽,獲得視頻資源名稱;
名稱相似度獲取模塊,用于根據(jù)所述視頻資源名稱確定所述視頻資源兩兩之間的名稱相似度;
融合模塊,用于融合所述名稱相似度和所述頁面相似度,獲得所述視頻資源兩兩之間的相似度;
識別模塊,用于根據(jù)所述相似度識別所述兩兩視頻資源是否匹配。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度;提取所在網(wǎng)頁頁面中視頻資源的名稱標簽,獲得視頻資源名稱;根據(jù)視頻資源名稱確定視頻資源兩兩之間的名稱相似度;融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度;根據(jù)相似度識別兩兩視頻資源是否匹配。由上述方法可知,通過視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度,并根據(jù)視頻資源名稱確定視頻資源兩兩之間的名稱相似度后,融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度,根據(jù)相似度識別兩兩視頻資源是否匹配,解決了同一部視頻有多個名字,導致視頻資源之間無法匹配的問題。
應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并于說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實施例示出的一種處理視頻資源的方法的流程圖;
圖2是圖1對應實施例的視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度在一個實施例的流程圖;
圖3是圖1對應實施例的融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度在一個實施例的流程圖;
圖4是圖1對應實施例的根據(jù)相似度識別兩兩視頻資源是否匹配在一個實施例的流程圖;
圖5是根據(jù)一示例性實施例示出的一種處理視頻資源的裝置框圖;
圖6是圖5對應實施例的頁面相似度確定模塊在一個實施例的框圖;
圖7是圖5對應實施例的融合模塊在一個實施例的框圖。
具體實施方式
這里將詳細地對示例性實施例執(zhí)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種處理視頻資源的方法的流程圖。如圖1所示,該處理視頻資源的方法可以包括以下步驟。
在步驟110中,視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。
其中,視頻資源所在網(wǎng)頁頁面為包含著視頻資源信息的網(wǎng)頁頁面。在一個示例性實施例中,該視頻資源信息可以包括視頻資源的:名稱,國家地區(qū),導演,演員,語言和摘要等信息。
確定所在網(wǎng)頁頁面之間的頁面相似度通過計算出視頻資源所在網(wǎng)頁頁面的哈希字符串,并根據(jù)視頻資源所在網(wǎng)頁頁面的哈希字符串,確定視頻資源所在網(wǎng)頁頁面之間的頁面相似度。
在步驟130中,提取所在網(wǎng)頁頁面中視頻資源的名稱標簽,獲得視頻資源名稱。
其中,視頻資源所在的網(wǎng)頁頁面中包含著視頻資源信息,視頻資源信息中包含該視頻資源的名稱。從視頻資源所在網(wǎng)頁頁面中,提取存儲的視頻資源信息,從視頻資源信息中,提取視頻資源的名稱標簽,從而根據(jù)視頻資源的名稱標簽,獲得視頻資源名稱。
在步驟150中,根據(jù)視頻資源名稱確定視頻資源兩兩之間的名稱相似度。
在一個示例性實施例中,可采用編輯距離的方式,計算視頻資源兩兩之間的名稱相似度。
首先定義這樣一個函數(shù)——edit(i,j),它表示第一個字符串的長度為i的子串到第二個字符串的長度為j的子串的編輯距離。其中i和j代表兩個視頻資源的視頻資源名稱轉(zhuǎn)化成字符串形式的字符串長度。
ifi=0且j=0,edit(i,j)=0
ifi=0且j>0,edit(i,j)=j
ifi>0且j=0,edit(i,j)=i
ifi≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},
當?shù)谝粋€字符串的第i個字符不等于第二個字符串的第j個字符時,f(i,j)=1,否則,f(i,j)=0。
根據(jù)上述步驟得出數(shù)據(jù)矩陣,并根據(jù)該數(shù)據(jù)矩陣計算出兩個視頻間的編輯距離。根據(jù)編輯距離計算出兩個視頻資源的名稱相似度,公式如下。
其中,sim2(a,b)為兩個視頻的名稱相似度,edita,b為兩個視頻間的編輯距離。根據(jù)該公式確定視頻資源兩兩之間的名稱相似度。對于本發(fā)明,此方法僅供參考,實際實現(xiàn)方法并不局限于此。
在步驟170中,融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度。
其中,融合名稱相似度和頁面相似度即通過計算獲取的名稱相似度和頁面相似度,得到視頻資源兩兩之間的相似度。該相似度用于表明視頻資源之間是否相匹配。
在步驟190中,根據(jù)相似度識別兩兩視頻資源是否匹配。
其中,通過比較預先配置的相似度閾值和獲取的相似度,從而識別兩兩視頻資源是否匹配,若兩兩視頻匹配,則該兩兩視頻資源為相同的視頻,若兩兩視頻資源不匹配,則該兩兩視頻資源為不相同的視頻。
此實施例解決了同一部視頻有多個名字,導致視頻資源之間無法匹配的問題。
圖2是根據(jù)一示例性實施例示出的對步驟110的細節(jié)進行描述。如圖2所示,該步驟110可包括以下步驟。
在步驟111中,分別計算視頻資源所在網(wǎng)頁頁面的哈希字符串。
在一個示例性實施例中,將視頻資源所在頁面中包含的視頻資源信息中的視頻資源的名稱,國家地區(qū),導演,演員,語言和摘要等信息進行合并分詞,通過hash算法把每個詞變成hash值,并將該hash值按照在視頻資源所在網(wǎng)頁頁面的出現(xiàn)頻率,形成加權(quán)字符串。將各個hash值形成的加權(quán)字符串進行累加,得到一個序列串。將得到的序列串變成只含有0和1的字符串,即為得到的視頻資源所在網(wǎng)頁頁面的哈希字符串。對于本發(fā)明,此方法僅供參考,實際實現(xiàn)方法并不局限于此。
在步驟113中,根據(jù)哈希字符串,視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。
其中,得到視頻資源所在網(wǎng)頁頁面的哈希字符串simhash(a)和simhash(b),并根據(jù)哈希字符串simhash(a)和simhash(b),來使視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。公式如下。
其中,sim1(a,b)即為視頻資源兩兩之間確定的所在網(wǎng)頁頁面之間的頁面相似度。
此實施例實現(xiàn)了視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。
圖3是根據(jù)一示例性實施例示出的對步驟170的細節(jié)進行描述。如圖3所示,該步驟170可包括以下步驟。
在步驟171中,獲取預先配置的相似度權(quán)重。
其中,預先配置的相似度權(quán)重用于表示在相似度計算中名稱相似度或頁面相似度所占的權(quán)重比例。獲取預先配置的相似度權(quán)重,從而根據(jù)相似度權(quán)重,計算視頻資源兩兩之間的相似度。
在步驟173中,根據(jù)相似度權(quán)重,融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度。
其中,融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度的公式如下。
其中,sim(a,b)為視頻資源兩兩之間的相似度,sim1(a,b)為頁面相似度,sim2(a,b)為名稱相似度,
此實施例實現(xiàn)了融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度的步驟。
圖4是根據(jù)一示例性實施例示出的對步驟190的細節(jié)進行描述。如圖4所示,該步驟190可包括以下步驟。
在步驟191中,判斷相似度是否大于預先配置的相似度閾值。
其中,相似度閾值為預先配置的表明視頻資源兩兩之間是否匹配的數(shù)值。通過比較相似度和相似度閾值,來判斷視頻資源兩兩之間是否匹配。
在步驟193中,若相似度大于預先配置的相似度閾值,則識別兩兩視頻資源匹配。
當視頻資源兩兩之間的相似度大于預先配置的相似度閾值時,即代表視頻資源兩兩之間相似度高,識別到該兩兩視頻資源相匹配。
在步驟195中,若相似度不大于預先配置的相似度閾值,則識別兩兩視頻資源不匹配。
當視頻資源兩兩之間的相似度不大于預先配置的相似度閾值時,即代表視頻資源兩兩之間相似度不高,識別到該兩兩視頻資源不匹配。
此實施例實現(xiàn)了識別兩兩視頻資源是否匹配。
在一個示例性實施例中,在根據(jù)相似度識別兩兩視頻資源是否匹配步驟之后,該處理視頻資源的方法還包括。
在根據(jù)相似度識別兩兩視頻資源匹配之后,兩兩合并視頻資源。
其中,當根據(jù)相似度識別兩兩視頻資源匹配之后,即該兩兩視頻資源相同,此時合并該視頻資源。
在一個示例性實施例的具體實現(xiàn)中,在實現(xiàn)推薦視頻資源時,將匹配的視頻資源合并的視頻資源推薦給用戶,從而避免向用戶推薦重復的視頻資源。
此實施例實現(xiàn)了兩兩合并匹配的視頻資源。
圖5是根據(jù)一示例性實施例示出的一種處理視頻資源的裝置框圖。該裝置執(zhí)行圖1任一所示的處理視頻資源的方法的全部或者部分步驟。如圖5所示,該裝置包括但不限于:頁面相似度確定模塊210,視頻資源名稱獲取模塊230,名稱相似度獲取模塊250,融合模塊270和識別模塊290。
頁面相似度確定模塊210用于視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。
視頻資源名稱獲取模塊230用于提取所在網(wǎng)頁頁面中視頻資源的名稱標簽,獲得視頻資源名稱。
名稱相似度獲取模塊250用于根據(jù)視頻資源名稱確定視頻資源兩兩之間的名稱相似度。
融合模塊270用于融合名稱相似度和頁面相似度,獲得視頻資源兩兩之間的相似度。
識別模塊290用于根據(jù)相似度識別兩兩視頻資源是否匹配。
圖6是圖5對應實施例的頁面相似度確定模塊在一個實施例的框圖。如圖6所示,頁面相似度確定模塊210包括但不限于:計算單元211和確定單元213。
計算單元211用于分別計算視頻資源所在網(wǎng)頁頁面的哈希字符串。
確定單元213用于根據(jù)哈希字符串,視頻資源兩兩之間確定所在網(wǎng)頁頁面之間的頁面相似度。
圖7是圖5對應實施例的融合模塊在一個實施例的框圖。如圖7所示,該融合模塊270包括但不限于:權(quán)重獲取單元271和相似度計算單元273。
權(quán)重獲取單元271用于獲取預先配置的相似度權(quán)重。
相似度計算單元273用于根據(jù)相似度權(quán)重,融合名稱相似度和所述頁面相似度,獲得視頻資源兩兩之間的相似度。
在一個示例性實施例中,圖5對應實施例的識別模塊290包括但不限于:判斷單元。
判斷單元,用于判斷相似度是否大于預先配置的相似度閾值,若為是,則兩兩視頻資源匹配,若為否,則
兩兩視頻資源不匹配。
在一個示例性實施例中,該處理視頻資源的裝置還可以包括但不限于:合并模塊。
合并模塊,用于在根據(jù)相似度識別兩兩視頻資源匹配之后,兩兩合并視頻資源。
上述裝置中各個模塊的功能和作用的實現(xiàn)過程詳見上述處理視頻資源的方法中對應步驟的實現(xiàn)過程,在此不再贅述。
應當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍執(zhí)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。