專利名稱:一種基于情境搜索提取搜索價值詞的方法及裝置的制作方法
技術領域:
本發(fā)明涉及互聯網信息處理技術,特別涉及一種基于情境搜索提取搜索價值詞的方法及裝置。
背景技術:
隨著計算機網絡技術的發(fā)展,尤其是3G網絡和智能移動終端的發(fā)展,用戶的網絡生活越來越豐富,在網絡上聊天、瀏覽新聞、看電影、玩游戲、搜索、購物等,越來越成為用戶網絡生活的一部分,因而,通過網絡獲取信息的需求也越來越普遍,例如,在瀏覽新聞、微博、blog、聊天以及網上購物時,用戶對于感興趣或未知的內容,都需要通過搜索的方式來獲取相關信息。舉例來說,在瀏覽新聞時,如果需要對熱點事件作進一步了解,則需要以該熱點事件為搜索關鍵詞,通過搜索引擎搜索獲取相關信息;在購物時,如果需要了解一個品牌類型、用戶的評價等,則也需要進行相應搜索。這樣,在各個情境下,不同的用戶需要構成了用戶的搜索需求。移動終端由于顯示屏幕較小,用戶主動輸入搜索關鍵詞不如PC那樣流暢,因而,通過精準的搜索關鍵詞推薦對提升用戶體驗尤為重要。基于此,現有技術提出了情境搜索以及提取搜索價值詞的搜索方法,情境搜索就是理解用戶意圖、挖掘用戶需求,讓搜索智能化、生活化的一種搜索方法;搜索價值詞,就是實現用戶在網絡生活的各個情境場景下,在有搜索需求,或者潛在的搜索需求時,通過設置的算法自動提取搜索詞,推薦給用戶的一種搜索方法,此外,在進行推薦時,還可以提取有商業(yè)價值詞的關鍵詞向用戶展示,例如,通過提取向用戶展示的搜索價值詞“諾基亞5230”,不僅能給搜索帶來流量,這種高質量的搜索價值詞還能帶來潛在的廣告收入。下面基于情境搜索以及提取搜索價值詞的搜索方法,簡要介紹幾種常用的基于情境搜索提取搜索價值詞的搜索方案。方案I :在生成數據時,由數據生成者手工設定搜索詞。例如,在blog中,用戶寫完blog后,可以根據需要自己添加一些標簽詞作為搜索詞或搜索價值詞;或者,在新聞發(fā)布時,由編輯手動添加關鍵詞作為搜索詞。該方案中,由于數據生成者配置的搜索詞有限、或不配置任何搜索詞,使得提供的搜索詞有限;而且,數據生成者配置的搜索詞,不一定是其他用戶感興趣的搜索詞,因而很難滿足其他用戶的搜索需求。方案2 預先設定一個詞表,并在詞表中添加關鍵詞。在生成新聞數據時,根據新聞內容匹配詞表的情況,從詞表中選擇匹配的關鍵詞,作為搜索詞或搜索價值詞進行展示推薦。該方案中,設定的詞表中的關鍵詞也往往有限,并且局限在特定領域,例如,娛樂領域等。因而,該方案只能局限在某些場景使用,不能自動擴展到其他搜索場景中,舉例來說,在娛樂新聞中,設定的包含娛樂明星、影視表的詞表的搜索方法,很難擴展到電子商務、blog領域中,即使擴展詞表,也需要再根據領域內容,通過人工方式在詞表中添加相應領域的關鍵詞,使得
4詞表的靈活性不夠、可擴展性不強;進一步地,通過人工設置的詞表容易過時,不能實時將時效性的搜索詞展示給用戶,尤其在微博這樣具有極強時效性的產品中,就很難應用。方案3 :基于詞頻-反文檔頻率(TF-IDF,Term Frequency-Inverse Document Frequency)的方法,抽取一些分詞給出的基本詞,作為搜索詞。關于TF-IDF,是一種用于資訊檢索與資訊探勘的常用加權技術,具體可參見相關技術文獻,在此不再贅述。但該方案過于簡單,很容易提取到一些泛詞,即出現頻次較高,但是又沒有價值的詞。例如,“排名”、“經濟”這類表意太寬的詞匯。由上述可見,現有基于情境搜索提取搜索價值詞的方法,通過數據生成者配置的搜索詞,很難滿足其他用戶的搜索需求,而通過設定詞表,容易局限在特定領域,基于TF-IDF,又很容易提取到一些泛詞,不能滿足用戶不同場景、不同領域的搜索需求,搜索效率低,降低了用戶搜索體驗。
發(fā)明內容
有鑒于此,本發(fā)明的主要目的在于提出一種基于情境搜索提取搜索價值詞的方法,提升搜索效率、提高用戶搜索體驗。本發(fā)明的另一目的在于提出一種基于情境搜索提取搜索價值詞的裝置,提升搜索效率、提高用戶搜索體驗。為達到上述目的,本發(fā)明提供了一種基于情境搜索提取搜索價值詞的方法,該方法包括根據選擇的內容文本生成候選搜索詞集;過濾生成的候選搜索詞集中包含的泛詞;分別對進行泛詞過濾處理的候選搜索詞集進行主題相關性計算以及搜索價值計算;根據主題相關性計算結果以及搜索價值計算結果,獲取候選搜索詞的綜合權重度
量值;根據候選搜索詞的綜合權重度量值獲得搜索價值詞。在獲取候選搜索詞的綜合權重度量值后,獲得候選搜索詞前,進一步包括對經綜合權重處理的候選搜索詞進行同義冗余處理。通過分詞基本詞、自定義領域詞、在線的新詞識別、復合詞識別中的一種或其任意組合,從所述內容文本中提取詞語,生成候選搜索詞集。所述通過在線的新詞識別、復合詞識別生成候選搜索詞集包括通過NGram統計提取內容文本中包含的詞語,得到候選搜索詞集;匹配頭詞、尾詞、詞性構成模式規(guī)則,將候選搜索詞集中的噪音過濾;計算噪音過濾后候選搜索詞集中各候選搜索詞的邊界熵和互信息,過濾計算得到的邊界熵和互信息不滿足預先設置閾值的候選搜索詞。進一步包括計算滿足預先設置閾值的候選搜索詞的置信度值,從候選搜索詞集中過濾計算得到的置信度值大于預先設置的置信度閾值的候選搜索詞,所述候選搜索詞的置信度值計算
5公式為
權利要求
1.一種基于情境搜索提取搜索價值詞的方法,其特征在于,該方法包括 根據選擇的內容文本生成候選搜索詞集; 過濾生成的候選搜索詞集中包含的泛詞; 分別對進行泛詞過濾處理的候選搜索詞集進行主題相關性計算以及搜索價值計算; 根據主題相關性計算結果以及搜索價值計算結果,獲取候選搜索詞的綜合權重度量值; 根據候選搜索詞的綜合權重度量值獲得搜索價值詞。
2.如權利要求I所述的方法,其特征在于,在獲取候選搜索詞的綜合權重度量值后,獲得候選搜索詞前,進一步包括 對經綜合權重處理的候選搜索詞進行同義冗余處理。
3.如權利要求2所述的方法,其特征在于,通過分詞基本詞、自定義領域詞、在線的新詞識別、復合詞識別中的一種或其任意組合,從所述內容文本中提取詞語,生成候選搜索詞集。
4.如權利要求3所述的方法,其特征在于,所述通過在線的新詞識別、復合詞識別生成候選搜索詞集包括 通過NGram統計提取內容文本中包含的詞語,得到候選搜索詞集; 匹配頭詞、尾詞、詞性構成模式規(guī)則,將候選搜索詞集中的噪音過濾; 計算噪音過濾后候選搜索詞集中各候選搜索詞的邊界熵和互信息,過濾計算得到的邊界熵和互信息不滿足預先設置閾值的候選搜索詞。
5.如權利要求4所述的方法,其特征在于,進一步包括 計算滿足預先設置閾值的候選搜索詞的置信度值,從候選搜索詞集中過濾計算得到的置信度值大于預先設置的置信度閾值的候選搜索詞。
6.如權利要求4所述的方法,其特征在于,進一步包括 計算滿足預先設置閾值的候選搜索詞的冗余度值,從候選搜索詞集中過濾計算得到的冗余度值大于預先設置的冗余度閾值的候選搜索詞。
7.如權利要求I所述的方法,其特征在于,通過泛詞弱化、領域詞加強、復合詞加強中的一種或其任意組合,過濾所述生成的候選搜索詞集中包含的泛詞。
8.如權利要求7所述的方法,其特征在于,所述泛詞弱化包括停用詞去除、無關詞性去除、按卡方度量值去除以及按信息增益的度量值去除。
9.如權利要求I所述的方法,其特征在于,所述主題相關性計算包括 對候選搜索詞集進行特征提取; 根據回歸模型對特征提取結果進行線性回歸權重計算; 對進行線性回歸權重計算得到的結果進行歸一化處理,得到主題相關性結果。
10.如權利要求9所述的方法,其特征在于,所述特征提取包括領域特征分布、位置、長度以及候選維度類別提取。
11.如權利要求I所述的方法,其特征在于,所述搜索價值計算包括領域性計算、熱點性計算、事件性計算中的一種或其任意組合。
12.如權利要求I所述的方法,其特征在于,所述根據候選搜索詞的綜合權重度量值獲得搜索價值詞包括對候選搜索詞的綜合權重度量值進行排序并輸出預設數量的搜索價值詞。
13.一種基于情境搜索提取搜索價值詞的裝置,其特征在于,包括候選搜索詞集生成模塊、泛詞過濾模塊、主題相關性計算模塊、搜索價值計算模塊、綜合權重度量值計算模塊以及候選搜索詞選擇模塊,其中, 候選搜索詞集生成模塊,用于根據選擇的內容文本生成候選搜索詞集; 泛詞過濾模塊,用于過濾候選搜索詞集生成模塊生成的候選搜索詞集中包含的泛詞; 主題相關性計算模塊,用于對進行泛詞過濾處理的候選搜索詞集進行主題相關性計算; 搜索價值計算模塊,用于對進行泛詞過濾處理的候選搜索詞集進行搜索價值計算;綜合權重度量值計算模塊,用于根據主題相關性計算結果以及搜索價值計算結果,獲取候選搜索詞的綜合權重度量值; 候選搜索詞選擇模塊,用于根據候選搜索詞的綜合權重度量值獲得搜索價值詞。
14.如權利要求13所述的裝置,其特征在于,所述候選搜索詞集生成模塊包括詞語提取單元、噪音過濾單元以及候選搜索詞過濾單元,其中, 詞語提取單元,用于通過NGram統計提取內容文本中包含的詞語,得到候選搜索詞集; 噪音過濾單元,用于匹配頭詞、尾詞、詞性構成模式規(guī)則,將候選搜索詞集中的噪音過濾; 候選搜索詞過濾單元,用于計算噪音過濾后候選搜索詞集中各候選搜索詞的邊界熵和互信息,過濾計算得到的邊界熵和互信息不滿足預先設置閾值的候選搜索詞。
15.如權利要求14所述的裝置,其特征在于,所述候選搜索詞集生成模塊進一步包括 置信度值處理單元,用于計算候選搜索詞的置信度值,過濾計算得到的置信度值大于預先設置的置信度閾值的候選搜索詞。
16.如權利要求14所述的裝置,其特征在于,所述候選搜索詞集生成模塊進一步包括 冗余度值處理單元,用于計算候選搜索詞的冗余度值,過濾計算得到的冗余度值大于預先設置的冗余度閾值的候選搜索詞。
17.如權利要求13所述的裝置,其特征在于,所述主題相關性計算模塊包括:特征提取單元、權重計算單元以及歸一化處理單元,其中, 特征提取單元,用于對候選搜索詞集進行特征提?。? 權重計算單元,用于根據回歸模型對特征提取結果進行線性回歸權重計算; 歸一化處理單元,用于對進行線性回歸權重計算得到的結果進行歸一化處理,得到主題相關性結果。
18.如權利要求17所述的裝置,其特征在于,所述搜索價值計算模塊包括領域性度量值計算單元、事件性度量值計算單元、熱點性度量值計算單元以及搜索價值度量值計算單元,其中, 領域性度量值計算單元,用于計算候選搜索詞的領域性度量值; 事件性度量值計算單元,用于計算候選搜索詞的事件性度量值; 熱點性度量值計算單元,用于計算候選搜索詞的熱點性度量值; 搜索價值度量值計算單元,用于根據計算得到的領域性度量值、事件性度量值、熱點性度量值計算得到搜索價值度量值。
全文摘要
本發(fā)明公開了一種基于情境搜索提取搜索價值詞的方法及裝置。該方法包括根據選擇的內容文本生成候選搜索詞集;過濾生成的候選搜索詞集中包含的泛詞;分別對進行泛詞過濾處理的候選搜索詞集進行主題相關性計算以及搜索價值計算;根據主題相關性計算結果以及搜索價值計算結果,獲取候選搜索詞的綜合權重度量值;根據候選搜索詞的綜合權重度量值獲得搜索價值詞。應用本發(fā)明,可以滿足用戶不同場景、不同領域的搜索需求,提升搜索效率、提高用戶搜索體驗。
文檔編號G06F17/30GK102929873SQ20111022558
公開日2013年2月13日 申請日期2011年8月8日 優(yōu)先權日2011年8月8日
發(fā)明者劉懷軍 申請人:騰訊科技(深圳)有限公司