專利名稱:一種可互動的影視搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù)領(lǐng)域,特別涉及一種可互動的影視搜索方法。
背景技術(shù):
隨著視頻網(wǎng)絡(luò)應(yīng)用的普及和發(fā)展,涌現(xiàn)出很多視頻網(wǎng)站,同時也出現(xiàn)不少的視頻 搜索網(wǎng)站。而這些視頻搜索網(wǎng)站的搜索功能實現(xiàn),還是基于傳統(tǒng)的搜索引擎技術(shù),即基于文 本信息的檢索。 雖然文本信息的檢索技術(shù)已經(jīng)非常成熟,但卻不能準(zhǔn)確地識別影視(電影、電視) 的信息,例如當(dāng)用戶輸入"功夫"查詢時,"功夫之王"、"功夫熊貓"也會被查詢出來,查詢的 準(zhǔn)確性就大打折扣。 網(wǎng)絡(luò)視頻由于視頻大小限制等原因,常常會將本來是以集為單位的視頻分成多個 小的片段,傳統(tǒng)搜索引擎技術(shù)在查詢時,返回結(jié)果也是以小的片段為單位,用戶在使用的時 候很不方便。由于小片段的命名方式有以漢字?jǐn)?shù)字、字母、數(shù)字結(jié)尾的,還會有破折號、括號 等出現(xiàn),形式多樣,難以窮舉,傳統(tǒng)的搜索引擎不能實現(xiàn)將多個"碎"的小片段整理成以集為 單位的片段的功能。 用戶對視頻的使用情況反映了影視的關(guān)注度、編碼質(zhì)量、網(wǎng)絡(luò)質(zhì)量、內(nèi)容質(zhì)量等, 傳統(tǒng)的搜索引擎沒有將這些數(shù)據(jù)應(yīng)用到搜索結(jié)果質(zhì)量的改善上。
發(fā)明內(nèi)容
( — )解決的技術(shù)問題 本發(fā)明的目的是提供一種可互動的影視搜索方法,提高影視搜索結(jié)果的準(zhǔn)確性。
( 二 )技術(shù)方案 —種可互動的影視搜索方法,包括以下步驟 Sl :根據(jù)影視知識庫中的信息,從影視庫中抽取影視全文索引數(shù)據(jù),所述影視庫存
儲專輯信息,所述專輯為視頻的集合,所述影視知識庫包括影視名稱庫、影視人名庫和中文
關(guān)鍵詞庫,所述影視全文索引數(shù)據(jù)包括影視名稱、影視人名或影視分類; S2:根據(jù)影視庫中的信息和影視特征專家?guī)熘械男畔⒂耙晭熘械挠耙暺紊?br>
影視片段劇集庫,所述影視特征專家?guī)齑鎯τ耙曅畔?,所述影視信息包括影視名稱、影視
長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片段; S3 :分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù)的查詢結(jié)果
和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返回給用戶。 其中,所述步驟S2包括 根據(jù)影視名稱,找到影視庫中匹配的專輯; 根據(jù)影視特征專家?guī)熘械男畔]嬛械囊曨l逐一進(jìn)行檢查,判斷它們是否為影 視片段,以及是否應(yīng)該和前一片段進(jìn)行合并; 若是,則合并影視片段,將所述影視片段存儲在影視片段劇集庫中,并形成一個以按集或部為單位的片段描述。 其中,所述方法還包括對視頻自動評分的步驟,根據(jù)用戶行為日志對影視庫中的 視頻進(jìn)行評分,所述評分作為步驟S3中的優(yōu)化和排序的依據(jù)。 其中,所述方法還包括影視特征專家?guī)熳詣痈碌牟襟E分析用戶行為日志中的 視頻播放信息,設(shè)定播放信息重復(fù)量的閥值,收集超過閥值的視頻的影視信息,并將所述影 視信息載入專家?guī)臁?br>
其中,所述方法還包括影視名稱識別步驟,包括 按所述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和影視信息; 根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征專家?guī)斓挠耙曅畔τ耙?庫專輯中的視頻逐一進(jìn)行檢查,判斷所述視頻是否為影視片段; 若是影視片段,將完全匹配的影視名稱添加到影視名稱庫中,將相關(guān)人名添加到 影視人名庫中。 —種可互動的影視搜索系統(tǒng),包括 全文索引數(shù)據(jù)生成模塊,用于根據(jù)影視知識庫,從影視庫中抽取影視全文索引數(shù) 據(jù),所述影視庫存儲專輯信息,所述專輯為視頻的集合,所述影視知識庫包括影視名稱庫、 影視人名庫和中文關(guān)鍵詞庫,所述影視全文索引數(shù)據(jù)包括影視名稱、影視人名或中文關(guān)鍵 詞; 影視片段劇集庫生成模塊,用于根據(jù)影視庫和影視特征專家?guī)鞂⒂耙晭熘械挠耙?片段生成影視片段劇集庫,所述影視特征專家?guī)齑鎯τ耙曅畔?,所述影視信息包括影?名稱、影視長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片 段; 用戶查詢模塊,用于分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引 數(shù)據(jù)的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié) 果返回給用戶。 其中,所述影視片段劇集庫生成模塊包括 專輯查找模塊,用于根據(jù)影視名稱,找到影視庫中匹配的專輯; 影視片段判斷及合并模塊,用于根據(jù)影視特征專家?guī)鞂]嬛械囊曨l逐一進(jìn)行檢 查,判斷它們是否為影視片段,以及是否應(yīng)該和前一片段進(jìn)行合并; 影視片段合并模塊,用于合并影視片段,將所述影視片段存儲在影視片段劇集庫
中,并形成一個以按集或部為單位的片段描述。 其中,所述系統(tǒng)還包括 自動評分模塊,用于根據(jù)用戶行為日志對影視庫中的視頻進(jìn)行評分,所述評分作
為用戶查詢模塊中的優(yōu)化和排序的依據(jù)。
其中,所述系統(tǒng)還包括 影視特征專家?guī)熳詣痈履K,用于分析用戶行為日志中的視頻播放信息,設(shè)定 播放信息重復(fù)量的閥值,收集超過閥值的視頻的影視信息,并將所述影視信息載入專家?guī)臁?
其中,所述系統(tǒng)還包括影視名稱識別模塊,其中包括 用戶行為日志查詢模塊,用于按所述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和 影視信息;
影視片段判斷模塊,用于根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征專家?guī)斓挠耙曅畔τ耙晭鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷所述視頻是否為影視片段;
影視名稱庫添加模塊,若是影視片段,用于將完全匹配的影視名稱添加到影視名
稱庫中,并將相關(guān)人名添加到影視人名庫中。
(三)有益效果 本發(fā)明實現(xiàn)了影視名稱的自動識別、自動生成影視片段劇集和自動評分等功能,并且編輯人員和管理人員可對影視庫、影視知識庫和影視特征專家?guī)爝M(jìn)行實時維護(hù),用戶的查詢行為和視頻播放行為被記錄在用戶行為日志中。這使得用戶查詢更準(zhǔn)確。
圖1是根據(jù)本發(fā)明的可互動的影視搜索方法流程圖。
具體實施例方式
本發(fā)明提出的可互動的影視搜索方法,結(jié)合附圖和實施例說明如下。 如圖1所示,為本發(fā)明方法的流程圖,步驟S101中根據(jù)影視知識庫,從影視庫中抽
取影視全文索引數(shù)據(jù),其中,影視庫存儲專輯信息,該專輯為視頻的集合;其中,影視知識庫
包括影視名稱庫、影視人名庫和中文關(guān)鍵詞庫,該影視全文索引數(shù)據(jù)包括影視名稱、影視
人名或中文關(guān)鍵詞。由于參考了影視知識庫,使得生成全文索引數(shù)據(jù)中的關(guān)鍵詞結(jié)構(gòu)更準(zhǔn)確。 步驟S102中根據(jù)影視庫和影視特征專家?guī)鞂⒂耙晭熘械挠耙暺紊捎耙暺蝿〖瘞欤鲇耙曁卣鲗<規(guī)齑鎯τ耙曅畔?,所述影視信息包括影視名稱、影視長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片段。具體地,包括以下步驟根據(jù)影視名稱,找到影視庫中匹配的專輯;根據(jù)影視特征專家?guī)鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷它們是否為影視片段,以及是否應(yīng)該和前一片段進(jìn)行合并,判斷時可采用通用的文檔相似度查詢方法來完成;若是,則合并影視片段,將所述影視片段存儲在影視片段劇集庫中,并形成一個以按集或部為單位的片段描述。例如影視庫中包括"一生為奴"的片段,有"一生為奴01"、"一生為奴02a"、"一生為奴02b"、"一生為奴03",經(jīng)過整理存入影視片段劇集庫的內(nèi)容,將"一生為奴02a"、"一生為奴02b"和合并為"一生為奴02",結(jié)果為"一生為奴01"、"一生為奴02"、"一生為奴03",其中"一生為奴02"包含2個子片段。這樣的格式更直觀,更容易被用戶接受。其中,文檔相似度查詢方法基于一種公共方法,該方法為 查詢文檔q相對于文檔d的分?jǐn)?shù)與在文檔和查詢向量之間的余弦距離或者點乘積有關(guān)系,文檔和查詢向量存于一個信息檢索的向量空間模型之中。 一篇文檔的向量與查詢向量越接近,它的得分也越高,這個分?jǐn)?shù)按如下公式計算 <formula>formula see original document page 6</formula> <formula>formula see original document page 6</formula> 其中 1、tf與term的出現(xiàn)次數(shù)有關(guān)系,定義為term t在當(dāng)前算分的文檔d中出現(xiàn)的次數(shù)。對一個給定的term,那些出現(xiàn)此term的次數(shù)越多的文檔將獲得越高的分?jǐn)?shù)。缺省的tf算法實現(xiàn)在DefaultSimilarity類中,公式如下 <formula>formula see original document page 7</formula> 2、 idf (t)代表反轉(zhuǎn)文檔頻率。這個分?jǐn)?shù)與反轉(zhuǎn)的docFreq(出現(xiàn)過term t的文
檔數(shù)目)有關(guān)系。這個分?jǐn)?shù)的意義是越不常出現(xiàn)的term將為最后的總分貢獻(xiàn)更多的分?jǐn)?shù)。
缺省idf(t_in_d)算法實現(xiàn)在DefaultSimilarity類中,公式如下
<formula>formula see original document page 7</formula> 3、 coord(q, d)是一個評分因子,基于有多少個查詢terms在特定的文檔中被找到。通常,一篇包含了越多的查詢terms的文檔將比另一篇包含更少查詢terms的文檔獲得更高的分?jǐn)?shù)。這是一個搜索時的因子,是在搜索的時候起作用,它在Similarity對象的coord(q, d)函數(shù)中計算。 4、queryNorm(q)是一個修正因子(normalizing factor),用來使不同查詢間的分?jǐn)?shù)更可比較。這個因子不影響文檔的排名(因為搜索排好序的文檔會增加相同的因數(shù)),更確切地說只是為了嘗試使得不同查詢條件(甚至不同索引)之間更可比較性。這是一個搜索時的因子是在搜索的時候起作用,由Similarity對象計算。缺省queryNorm(q)算法實現(xiàn)在DefaultSimilarity類中,公式如下<formula>formula see original document page 7</formula>
sumOfSquaredWeights (查詢的terms)是由查詢Weight對象計算的,例如一個布爾條件查詢的計算公式為<formula>formula see original document page 7</formula>
5、 t. getBoost ()是一個搜索時的代表查詢q中的term t的boost數(shù)值,具體指定在查詢的文本中(參見查詢語法),或者由應(yīng)用程序調(diào)用setBoost()來指定。需要注意的是實際上沒有一個直接的API來訪問一個多個term的查詢中的一個term的boost值,更確切地說多個terms在一個查詢里的表示形式是多個TermQuery對象,所以查詢里的一個term的boost值的訪問是通過調(diào)用子查詢(sub-query)的getBoost ()方法實現(xiàn)的。[OO59] 6、norm(t, d)是提煉取得一小部分boost值(在索引時間)和長度因子(lengthfactor): document boost在添加文檔到索引之前通過調(diào)用doc. setB00st()來設(shè)置。
Field boost在添加Field到文檔之前通過調(diào)用field. setB00st()來設(shè)置。
lengthNorm(field)在文檔添加到索引的時候,根據(jù)文檔中該field的tokens數(shù)目計算得出,所以更短的field會貢獻(xiàn)更多的分?jǐn)?shù)。lengthNorm是在索引的時候起作用,由Similarity類計算得出。 當(dāng)一篇文檔被添加到索引的時候,所有上面計算出的因子將相乘起來。如果文檔擁有多個相同名字的fields,所有這些fields的boost值也會被一起相乘起來
<formula>formula see original document page 7</formula>
然而norm數(shù)值的結(jié)果在被存儲之前被編碼成一個單獨的字節(jié)。在檢索的時候,這個norm字節(jié)值從索引目錄中讀取出來,并解碼回一個norm浮點數(shù)值。這個編/解碼行為,會縮減索引的大小,這得自于精度損耗的代價,它不保證decode (encode (x)) = x,舉例來說decode (encode (0. 89)) = 0. 75。還有需要注意的是,檢索的時候再修改評分的這個norm部分已近太遲了,例如,為檢索使用不同的Similarity。 步驟S103中分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù)的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返回給用戶。 步驟S104中對影視庫中的視頻進(jìn)行自動評分,其原理是通過分析用戶行為日志(主要包括用戶查詢?nèi)罩竞陀脩舨シ湃罩?得到用戶查詢的次數(shù)、用戶播放視頻的次數(shù)、播放的時長和播放的流暢度信息,根據(jù)上述信息對視頻作出一個綜合評分,該評分作為S103中對結(jié)果優(yōu)化和排序的依據(jù)。評分算法是將上述的四個參數(shù),即用戶查詢的次數(shù)、用戶播放視頻的次數(shù)、播放的時長和播放的流暢度分別映射到N(N為整數(shù))個級別,并且四個參
數(shù)有一個權(quán)重值,據(jù)此計算出一個和值,僅當(dāng)該值與舊值變化大于一定范圍,才設(shè)置新的評分值。四個參數(shù)值映射到N個級別的算法,是系統(tǒng)維護(hù)人員根據(jù)對數(shù)據(jù)統(tǒng)計的結(jié)果給出的
劃分標(biāo)準(zhǔn)。四個參數(shù)的權(quán)重值也由系統(tǒng)維護(hù)人員設(shè)定。 步驟S105中識別影視名稱,基于影視特征專家?guī)?,挖掘用戶查詢?nèi)罩竞陀脩舨シ湃罩荆詣幼R別影視名稱。影視特征專家?guī)熘械挠耙曅畔碓从跈?quán)威或熱門的視頻服務(wù)網(wǎng)站(如時光網(wǎng),M0V6等等),通過查詢用戶本地播放日志,并不斷積累新的記錄,達(dá)到提高影視資源特征信息識別的準(zhǔn)確性。主要方法是分析播放日志中的播放信息,設(shè)定播放信息重復(fù)量的閥值,超過閥值的,通過權(quán)威、熱門網(wǎng)站收集、確定影視信息,并將收集、確定的影視信息不斷載入專家?guī)??;谟耙曁卣鲗<規(guī)熳R別的方法包括以下步驟
按上述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和影視信息; 根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征專家?guī)斓挠耙曅畔τ耙晭鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷所述視頻是否為影視片段; 若是影視片段,將完全匹配的影視名稱添加到影視名稱庫中,將相關(guān)人名添加到影視人名庫中。 步驟S 106中編輯人員可對影視庫、影視名稱庫、影視人名庫等進(jìn)行維護(hù),管理人員可對中文詞庫、影視特征專家?guī)斓葦?shù)據(jù)等進(jìn)行維護(hù)。還包括將用戶行為(查詢行為和播放行為)存儲到用戶行為日志中。 —種可互動的影視搜索系統(tǒng),包括全文索引數(shù)據(jù)生成模塊,用于根據(jù)影視知識庫,從影視庫中抽取影視全文索引數(shù)據(jù),所述影視庫存儲專輯信息,所述專輯為視頻的集合,所述影視知識庫包括影視名稱庫、影視人名庫和中文關(guān)鍵詞庫,所述影視全文索引數(shù)據(jù)包括影視名稱、影視人名或中文關(guān)鍵詞;影視片段劇集庫生成模塊,用于根據(jù)影視庫和影視特征專家?guī)鞂⒂耙晭熘械挠耙暺紊捎耙暺蝿〖瘞?,所述影視特征專家?guī)齑鎯τ耙曅畔?,所述影視信息包括影視名稱、影視長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片段;用戶查詢模塊,用于分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù)的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返回給用戶。
其中,所述影視片段劇集庫生成模塊包括 專輯查找模塊,用于根據(jù)影視名稱,找到影視庫中匹配的專輯;影視片段判斷及合 并模塊,用于根據(jù)影視特征專家?guī)鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷它們是否為影視片 段,以及是否應(yīng)該和前一片段進(jìn)行合并;影視片段合并模塊,用于合并影視片段,將所述影 視片段存儲在影視片段劇集庫中,并形成一個以按集或部為單位的片段描述。
其中,所述系統(tǒng)還包括 自動評分模塊,用于根據(jù)用戶行為日志對影視庫中的視頻進(jìn)行評分,所述評分作
為用戶查詢模塊中的優(yōu)化和排序的依據(jù)。
其中,所述系統(tǒng)還包括 影視特征專家?guī)熳詣痈履K,用于分析用戶行為日志中的視頻播放信息,設(shè)定 播放信息重復(fù)量的閥值,收集超過閥值的視頻的影視信息,并將所述影視信息載入專家?guī)臁?
其中,所述系統(tǒng)還包括影視名稱識別模塊,其中包括 用戶行為日志查詢模塊,用于按所述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和 影視信息;影視片段判斷模塊,用于根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征 專家?guī)斓挠耙曅畔τ耙晭鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷所述視頻是否為影視片段; 影視名稱庫添加模塊,若是影視片段,用于將完全匹配的影視名稱添加到影視名稱庫中,并 將相關(guān)人名添加到影視人名庫中。 以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
一種可互動的影視搜索方法,其特征在于,包括以下步驟S1根據(jù)影視知識庫中的信息,從影視庫中抽取影視全文索引數(shù)據(jù),所述影視庫存儲專輯信息,所述專輯為視頻的集合,所述影視知識庫包括影視名稱庫、影視人名庫和中文關(guān)鍵詞庫,所述影視全文索引數(shù)據(jù)包括影視名稱、影視人名和影視分類。S2根據(jù)影視庫中的信息和影視特征專家?guī)熘械男畔⒂耙晭熘械挠耙暺紊捎耙暺蝿〖瘞?,所述影視特征專家?guī)齑鎯τ耙曅畔?,所述影視信息包括影視名稱、影視長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片段;S3分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù)的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返回給用戶。
2. 如權(quán)利要求1所述的可互動的影視搜索方法,其特征在于,所述步驟S2包括 根據(jù)影視名稱,找到影視庫中匹配的專輯;根據(jù)影視特征專家?guī)熘械男畔]嬛械囊曨l逐一進(jìn)行檢查,判斷它們是否為影視片 段,以及是否應(yīng)該和前一片段進(jìn)行合并;若是,則合并影視片段,將所述影視片段存儲在影視片段劇集庫中,并形成一個以按集 或部為單位的片段描述。
3. 如權(quán)利要求1或2所述的可互動的影視搜索方法,其特征在于,所述方法還包括對視 頻自動評分的步驟,根據(jù)用戶行為日志對影視庫中的視頻進(jìn)行評分,所述評分作為步驟S3 中的優(yōu)化和排序的依據(jù)。
4. 如權(quán)利要求1或2所述的可互動的影視搜索方法,其特征在于,所述方法還包括影視 特征專家?guī)熳詣痈碌牟襟E分析用戶行為日志中的視頻播放信息,設(shè)定播放信息重復(fù)量 的閥值,收集超過閥值的視頻的影視信息,并將所述影視信息載入專家?guī)臁?br>
5. 如權(quán)利要求4所述的可互動的影視搜索方法,其特征在于,所述方法還包括影視名 稱識別步驟,包括按所述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和影視信息;根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征專家?guī)斓挠耙曅畔τ耙晭鞂?輯中的視頻逐一進(jìn)行檢查,判斷所述視頻是否為影視片段;若是影視片段,將完全匹配的影視名稱添加到影視名稱庫中,將相關(guān)人名添加到影視 人名庫中。
6. —種可互動的影視搜索系統(tǒng),其特征在于,包括全文索引數(shù)據(jù)生成模塊,用于根據(jù)影視知識庫,從影視庫中抽取影視全文索引數(shù)據(jù),所 述影視庫存儲專輯信息,所述專輯為視頻的集合,所述影視知識庫包括影視名稱庫、影視人 名庫和中文關(guān)鍵詞庫,所述影視全文索引數(shù)據(jù)包括影視名稱、影視人名或中文關(guān)鍵詞;影視片段劇集庫生成模塊,用于根據(jù)影視庫和影視特征專家?guī)鞂⒂耙晭熘械挠耙暺?生成影視片段劇集庫,所述影視特征專家?guī)齑鎯τ耙曅畔?,所述影視信息包括影視名稱、 影視長度、影視格式和影視碼流,所述影視片段劇集庫存儲以集或部為單位的影視片段;用戶查詢模塊,用于分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù) 的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返 回給用戶。
7. 如權(quán)利要求6所述的可互動的影視搜索系統(tǒng),其特征在于,所述影視片段劇集庫生成模塊包括專輯查找模塊,用于根據(jù)影視名稱,找到影視庫中匹配的專輯;影視片段判斷及合并模塊,用于根據(jù)影視特征專家?guī)鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷它們是否為影視片段,以及是否應(yīng)該和前一片段進(jìn)行合并;影視片段合并模塊,用于合并影視片段,將所述影視片段存儲在影視片段劇集庫中,并形成一個以按集或部為單位的片段描述。
8. 如權(quán)利要求6或7所述的可互動的影視搜索系統(tǒng),其特征在于,所述系統(tǒng)還包括自動評分模塊,用于根據(jù)用戶行為日志對影視庫中的視頻進(jìn)行評分,所述評分作為用戶查詢模塊中的優(yōu)化和排序的依據(jù)。
9. 如權(quán)利要求6或7所述的可互動的影視搜索系統(tǒng),其特征在于,所述系統(tǒng)還包括影視特征專家?guī)熳詣痈履K,用于分析用戶行為日志中的視頻播放信息,設(shè)定播放信息重復(fù)量的閥值,收集超過閥值的視頻的影視信息,并將所述影視信息載入專家?guī)臁?br>
10. 如權(quán)利要求9所述的可互動的影視搜索系統(tǒng),其特征在于,所述系統(tǒng)還包括影視名稱識別模塊,其中包括用戶行為日志查詢模塊,用于按所述閾值查找到用戶行為日志中的查詢關(guān)鍵詞和影視信息;影視片段判斷模塊,用于根據(jù)關(guān)鍵詞或影視信息找到相應(yīng)的專輯,基于影視特征專家?guī)斓挠耙曅畔τ耙晭鞂]嬛械囊曨l逐一進(jìn)行檢查,判斷所述視頻是否為影視片段;影視名稱庫添加模塊,若是影視片段,用于將完全匹配的影視名稱添加到影視名稱庫中,并將相關(guān)人名添加到影視人名庫中。
全文摘要
本發(fā)明公開了一種可互動的影視搜索方法,其特征在于,包括以下步驟根據(jù)影視知識庫中的信息,從影視庫中抽取影視全文索引數(shù)據(jù);根據(jù)影視庫中的信息和影視特征專家?guī)熘械男畔⒂耙晭熘械挠耙暺紊捎耙暺蝿〖瘞?;分析用戶查詢條件,分解為多條件的組合查詢,綜合全文索引數(shù)據(jù)的查詢結(jié)果和影視片段劇集庫中的信息,并進(jìn)行優(yōu)化和排序,并將生成最后的查詢結(jié)果返回給用戶,該方法還包括對視頻自動評分的步驟、影視特征專家?guī)熳詣痈碌牟襟E和影視名稱識別步驟。本發(fā)明能夠提高影視搜索結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK101719167SQ20101003424
公開日2010年6月2日 申請日期2010年1月15日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者李明杰, 童小軍 申請人:北京暴風(fēng)網(wǎng)際科技有限公司