專利名稱:基于檢索詞歧義性和用戶偏好的視頻搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)視頻搜索領(lǐng)域,更具體地說(shuō),本發(fā)明涉及一種基于檢索詞歧義性和用戶偏好的視頻搜索方法。
背景技術(shù):
互聯(lián)網(wǎng)的視頻的數(shù)量迅猛增長(zhǎng),將視頻進(jìn)行分類的方法已經(jīng)不能使用戶快速找到用戶所需要的視頻。使用搜索的方法來(lái)定位用戶所需的視頻也成了必然。基于內(nèi)容的視頻搜索方法由于存在著名的語(yǔ)義鴻溝問(wèn)題無(wú)法大規(guī)模應(yīng)用,因此現(xiàn)有的大多數(shù)視頻搜索的方法都是基于文本的視頻搜索方法。視頻頁(yè)面往往存在相關(guān)文本過(guò)短、鏈接關(guān)系不能直接反映頁(yè)面權(quán)威度的問(wèn)題。為此,傳統(tǒng)的基于文本的視頻搜索方法通過(guò)利用視頻附加元數(shù)據(jù)(如視頻時(shí)長(zhǎng)、發(fā)布時(shí)間等) 來(lái)提高搜索體驗(yàn)。這些方法需要過(guò)多的用戶參與,而且無(wú)法針對(duì)具有不同偏好的用戶來(lái)重排搜索結(jié)果。重視個(gè)性化搜索對(duì)最終結(jié)果的影響會(huì)在一定程度上抑制其他因素對(duì)搜索結(jié)果的影響。而檢索詞往往具有歧義性,不同的檢索詞歧義性有所不同。對(duì)于歧義性比較小的檢索詞,并不適合做個(gè)性化搜索,如果對(duì)此類檢索詞做個(gè)性化搜索反而容易取得較差效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于檢索詞歧義性和用戶偏好的視頻搜索方法,其綜合利用用戶長(zhǎng)期偏好描述信息和短期偏好描述信息來(lái)描述用戶偏好、以檢索詞歧義性為參考來(lái)進(jìn)行視頻搜索的方法,最終提高用戶的視頻搜索體驗(yàn)。本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的—種基于檢索詞的歧義性和用戶偏好的視頻搜索方法,包括以下步驟獲取視頻, 抽取視頻的相關(guān)文本信息,為相關(guān)文本信息建立文本索引,抽取視頻分類信息,并建立視頻分類模型,輸入檢索詞,查找文本索引,以得到相關(guān)文本信息與檢索詞對(duì)應(yīng)的視頻有序集合,根據(jù)檢索詞對(duì)應(yīng)的點(diǎn)擊記錄生成檢索詞對(duì)應(yīng)的歧義性描述信息,生成本次搜索會(huì)話中用戶的短期偏好描述信息及長(zhǎng)期偏好描述信息,并將短期偏好描述信息及長(zhǎng)期偏好描述信息擬合成用戶偏好描述信息,根據(jù)歧義性描述信息及用戶偏好描述信息對(duì)視頻有序集合中的視頻重新排序,并輸出排序后的視頻有序集合,在用戶從視頻有序集合中選定視頻后,更新檢索詞對(duì)應(yīng)的點(diǎn)擊記錄,將用戶識(shí)別號(hào)、檢索詞、本次搜索會(huì)話的識(shí)別號(hào)、選定的視頻及其視頻分類信息存入數(shù)據(jù)庫(kù),根據(jù)用戶選定的視頻更新用戶的短期偏好描述信息和長(zhǎng)期偏好描述信息。抽取視頻分類信息,并建立視頻分類模型的步驟包括抽取視頻的分類字段文本, 將分類字段文本歸類到維度為η的視頻分類空間之中的某一個(gè)分類i中,以建立視頻的分
類向量D = {d。,Ci1,...,dj,..., d^j,其中
權(quán)利要求
1.一種基于檢索詞歧義性和用戶偏好的視頻搜索方法,包括以下步驟獲取視頻,抽取所述視頻的相關(guān)文本信息,為所述相關(guān)文本信息建立文本索引,抽取視頻分類信息,并建立視頻分類模型;輸入檢索詞,查找所述文本索引,以得到所述相關(guān)文本信息與所述檢索詞對(duì)應(yīng)的視頻有序集合;根據(jù)所述檢索詞對(duì)應(yīng)的點(diǎn)擊記錄生成所述檢索詞對(duì)應(yīng)的歧義性描述信息; 生成本次搜索會(huì)話中用戶的短期偏好描述信息及長(zhǎng)期偏好描述信息,并將所述短期偏好描述信息及所述長(zhǎng)期偏好描述信息擬合成用戶偏好描述信息;根據(jù)所述歧義性描述信息及所述用戶偏好描述信息對(duì)所述視頻有序集合中的視頻重新排序,并輸出排序后的視頻有序集合;在用戶從所述視頻有序集合中選定視頻后,更新所述檢索詞對(duì)應(yīng)的點(diǎn)擊記錄,將用戶識(shí)別號(hào)、所述檢索詞、本次搜索會(huì)話的識(shí)別號(hào)、選定的視頻及其視頻分類信息存入數(shù)據(jù)庫(kù); 根據(jù)所述用戶選定的視頻更新所述用戶的短期偏好描述信息和所述長(zhǎng)期偏好描述信肩、ο
2.根據(jù)權(quán)利要求1所述的視頻搜索方法,其特征在于,所述抽取視頻分類信息,并建立視頻分類模型的步驟包括抽取所述視頻的分類字段文本,將所述分類字段文本歸類到維度為η的視頻分類空間之中的某一個(gè)分類i中,以建立所述視頻的分類向量
3.根據(jù)權(quán)利要求2所述的視頻搜索方法,其特征在于,所述根據(jù)所述檢索詞對(duì)應(yīng)的點(diǎn)擊記錄生成所述檢索詞對(duì)應(yīng)的歧義性描述信息的步驟是采用以下公式
4.根據(jù)權(quán)利要求3所述的視頻搜索方法,其特征在于,所述生成本次搜索會(huì)話中用戶的短期偏好描述信息及長(zhǎng)期偏好描述信息,并將所述短期偏好描述信息及所述長(zhǎng)期偏好描述信息擬合成用戶偏好描述信息的步驟包括計(jì)算所述視頻分類模型所在的所述視頻分類空間的維數(shù)η ;生成默認(rèn)的維數(shù)為所述維數(shù)η的偏好向量
5.根據(jù)權(quán)利要求4所述的視頻搜索方法,其特征在于,所述根據(jù)所述歧義性描述信息及所述用戶偏好描述信息對(duì)所述視頻有序集合中的視頻重新排序,并輸出排序后的視頻有序集合的步驟包括
6.根據(jù)權(quán)利要求5所述的視頻搜索方法,其特征在于,所述根據(jù)所述用戶選定的視頻更新所述用戶的短期偏好描述信息和所述長(zhǎng)期偏好描述信息的步驟包括對(duì)于所述用戶的所述長(zhǎng)期偏好向量,取偏好向量權(quán)值遞增因子Y1 = O. 1,將所述1\更新為& = Pl+ Y iD/ I Pl+ γ山I并存入所述用戶偏好描述信息中;對(duì)于所述用戶的所述短期偏好向量,取偏好向量權(quán)值遞增因子Y2 = O. 3,將所述Ps更新為Ps = Ps+Y2D/I Ps+Y2D并存入所述用戶偏好描述信息中。
7.根據(jù)權(quán)利要求1-6中任意一項(xiàng)所述的視頻檢索方法,其特征在于,所述視頻的相關(guān)文本信息包括標(biāo)題和關(guān)鍵詞。
全文摘要
本發(fā)明公開(kāi)了一種基于檢索詞的歧義性和用戶偏好的視頻搜索方法,包括獲取視頻,抽取視頻的相關(guān)文本信息,為相關(guān)文本信息建立文本索引,抽取視頻分類信息,并建立視頻分類模型,輸入檢索詞,查找文本索引,以得到相關(guān)文本信息與檢索詞對(duì)應(yīng)的視頻有序集合,根據(jù)檢索詞對(duì)應(yīng)的點(diǎn)擊記錄生成檢索詞對(duì)應(yīng)的歧義性描述信息,生成本次搜索會(huì)話中用戶的短期偏好描述信息及長(zhǎng)期偏好描述信息,并將短期偏好描述信息及長(zhǎng)期偏好描述信息擬合成用戶偏好描述信息,根據(jù)用戶選定的視頻更新用戶的短期偏好描述信息和長(zhǎng)期偏好描述信息。本發(fā)明能針對(duì)具有不同偏好的用戶重排、優(yōu)化視頻搜索結(jié)果,具有效率高、可用性強(qiáng)、對(duì)用戶的感知侵?jǐn)_小等特點(diǎn)。
文檔編號(hào)G06F17/30GK102521321SQ201110396519
公開(kāi)日2012年6月27日 申請(qǐng)日期2011年12月2日 優(yōu)先權(quán)日2011年12月2日
發(fā)明者廖小飛, 賈旺喜, 金海 , 陸楓 申請(qǐng)人:華中科技大學(xué)