專利名稱:一種融合用戶類別標簽的相似問題檢索方法及裝置的制作方法
技術領域:
本發(fā)明涉及自然語言處理技術領域,是一種融合用戶類別標簽的相似問題檢索方法及裝置。
背景技術:
問答系統(tǒng)是自然語言處理領域的重要研究課題。然而,受限于自然語言處理和人工智能的技術水平,自動問答系統(tǒng)只能較好地回答一些相對簡單的事實性、列表性和定義性提問,因而離用戶更廣泛的真實信息需求仍有很大差距,這極大地限制了自動問答系統(tǒng)的實用性。隨著Web2.0的興起,基于用戶生成(User-Generated Content, UGC)的互聯(lián)網服務越來越流行,社區(qū)問答應運而生,例如Yahoo ! Answers、百度知道等。區(qū)別于自動問答系統(tǒng),在社區(qū)問答上,用戶可以提出任何類型的問題,也可以回答其它用戶任何類型的問題。相似問題檢索是社區(qū)問答分析的基礎,占有很重要的位置。相似問題檢索是指從大規(guī)模的問題庫中檢索出與查詢問題在語義上相似或相近的歷史問題,并將這些問題對應的答案返回給用戶,用戶回答該查詢問題。因此,社區(qū)問答相似問題檢索具有重要的理論意義和實用價值。目前社區(qū)問答相似問題檢索存在的一個本質缺陷是:對于用戶給定的查詢問題,社區(qū)問答中所有的歷史問題都需要參與相似度計算,盡管有大量的歷史問題與查詢問題存在一定數(shù)量的重疊詞條,但它們的類別標簽是完全不同的,這些類別標簽下的歷史問題也是不相關的。因此,這些大量的無關歷史問題將會增加檢索系統(tǒng)搜索的空間以及不相關歷史問題的干擾,影響相似問題檢索的效率和性能。在社區(qū)問答中,所有的問題(查詢問題和歷史問題)都按照一定的類別標簽結構組織。當用戶提出一個查詢問題后,系統(tǒng)需要用戶從預先定義的類別標簽結構中選擇一個合適的類別作為該問題的類別標簽。解決上述問題的一個方法就是融合用戶類別標簽,在檢索的過程中根據查 詢問題與歷史問題之間的類別標簽來判斷查詢問題與歷史問題是否是相關的。而融合用戶類別標簽的方法的前提是首先要構造一個有效的類別標簽相似度計算方法,其次是這個相似度閾值的設置要合理,不能損失太多的準確率。而直接使用查詢問題和歷史問題的類別標簽進行匹配,相似問題檢索的準確率會大打折扣,主要原因是在社區(qū)問答中,并不是所有相似或相關的歷史問題都來自于與查詢問題完全匹配的類別標簽下,其中有大量的相關歷史問題來自于與查詢問題在類別上相似的類別標簽下。因此,本發(fā)明首先需要計算類別標簽之間的相似度,如果查詢問題與歷史問題之間的類別標簽相似度很高,則查詢問題與歷史問題具有較高的主題相似度。然后根據預先設定的閾值,如果查詢問題與歷史問題之間的類別標簽相似度低于這個閾值,將該類別下的所有歷史問題過濾掉,不參與最后的檢索結果排序。根據上述思路,本發(fā)明主要針對社區(qū)問答相似問題檢索的效率和性能入手,成功地將用戶類別標簽引入相似問題檢索的過程中,通過實驗證明,該方法有效地提高了相似問題檢索的效率和性能。
發(fā)明內容
有鑒于此,本發(fā)明通過充分利用社區(qū)問答中的用戶類別標簽,將與查詢問題在類別上無關的歷史問題過濾掉,在最終的檢索排序結果中僅僅考慮與查詢問題在類似上相似或相似的類別下的歷史問題,從而減少相似問題搜索的空間以及主題不相關歷史問題的干擾,提高相似問題檢索的效率和性能。本發(fā)明公開了一種融合用戶類別標簽的相似問題檢索方法,包括如下步驟:步驟1、計算每個用戶類別標簽之間的相似度;步驟2、根據用戶輸入的查詢問題,建立融合用戶類別標簽的檢索模型;步驟3、根據所述融合用戶類別標簽的檢索模型,在所述查詢問題對應的查詢問題類別標簽和相似類別標簽下的歷史問題中進行檢索,獲得所述查詢問題的相似問題。本發(fā)明還公開了一種融合用戶類別標簽的相似問題檢索裝置,其包括:相似度計算模塊,其用于計算每個用戶類別標簽之間的相似度;融合用戶類別標簽的檢索模塊,其用于根據用戶輸入的查詢問題,建立融合用戶類別標簽的檢索模型,并根據所述融合用戶類別標簽的檢索模型,在所述查詢問題對應的查詢問題類別標簽和相似類別標簽下的歷史問題中進行檢索,獲得所述查詢問題的相似問題。本發(fā)明采用融合用戶類別標簽的思想來提升相似問題檢索的效率和性能。通過計算用戶類別標簽之間的相似度,根據預先設定的閾值,將與查詢問題在類別標簽上不相關的歷史問題過濾掉,然后在與查詢問題在類別標簽上相似或相近的歷史問題庫中進行檢索,從而提聞了相似問題檢索的效率和性能。
圖1是本發(fā)明中融合用戶類別標簽的相似問題檢索方法流程圖。圖2是本發(fā)明中融合用戶類別標簽的問答相似問題檢索裝置結構圖。圖3是一種社區(qū)問答類別標簽示例的結構示意圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。本發(fā)明公開了一種融合用戶類別標簽的相似問題檢索方法及裝置。其可以分為離線過程和在線過程兩部分。離線過程即從大規(guī)模的歷史問題庫中獲得類別標簽之間的相似度。在線過程則通過建立融合用戶類別標簽的檢索模型,檢索與所述查詢問題相似度最高的幾個歷史問題并返回給用戶。圖1示出了本發(fā)明提出的一種融合用戶類別標簽的相似問題檢索方法。如圖1所示,其包括離線部分和在線部分兩個階段。其中離線過程包括:步驟(I)、將歷史問題庫中每個用戶類別下的所有歷史問題合并成一個大的文檔,每個文檔實質上對應一個用戶類別標簽C。 步驟(2)、利用LDAGibbs++工具,對上述文檔集合進行主題分析后,每個用戶類別C都可以表不成一個Z維的主題分布向量P (Z I C)。步驟(3)、利用Jensen香農距離計算每個用戶類別標簽之間的相似度。所述在線過程包括:步驟(I)、建立融合用戶類別標簽的檢索模型;步驟(2)、根據建立的檢索模型,設置類別標簽相似度的閾值;步驟(3)、根據閾值,將與查詢問題在類別標簽上不相關的歷史問題過濾掉。然后在與查詢問題在類別標簽上相同或相似的歷史問題構成的集合中進行檢索。按照查詢問題與歷史問題之間的相似度進行排序,將排序最高的N個歷史問題作為最終的結果輸出,同時將這些相似問題對應的答案返回給用戶。圖2示出了本發(fā)明中提出的融合用戶類別標簽的相似問題檢索裝置。如圖2所示,該檢索裝置包括:用戶類別標簽相似度計算模塊、融合用戶類別標簽的檢索模塊、類別標簽相似度的閾值設定模塊以及查詢問題類別下相似度計算模塊。所述用戶類別標簽相似度計算模塊,用于計算兩個用戶類別標簽之間的相似度。類別標簽相似度的常用計算方法是基于該類別下文本內容分析的方法。然而,由于用戶類別標簽下包含的問題數(shù)目往往很少,如果直接采用上述方法,因數(shù)據稀疏的問題,導致相似度計算的準確性會下降。因此,本發(fā)明中利用主題模型來計算兩個類別標簽之間的相似度。所述兩個類別標簽之間的相似度的主題模型,其基本假設是如果兩個類別標簽越相似,則它們對應同一個主題的概率也較大。圖3示出了一種社區(qū)問答類別標簽示例的結構示意圖。如圖3所示,類別標簽“Monitors”、“Scanners”和“Printers”都是相似的類別,因為它們均屬于同一個主題“Computer Hardware,,。所述用戶類別標簽相似度計算模塊首先將同一個用戶類別下的所有歷史問題合并成一個大的文檔,合并后的每個文檔實質上對應一個類別標簽C。然后,所述用戶類別標簽相似度計算模塊利用GibbsLDA++工具識別每個類別標簽c的主題信息,并將每個類別標簽c表示成一個Z維的主題分布向量P (z I c),其中Z表示主題的數(shù)目,這樣類別標簽之間的相似度可以轉化成類別標簽主題分布向量之間的距離。最后,所述用戶類別標簽相似度計算模塊利用Jensen香農距離來度量兩個類別標簽之間的相似度。從用戶類別標簽到Ci的Jensen香農距離可以用公式表示如下:
權利要求
1.一種融合用戶類別標簽的相似問題檢索方法,包括如下步驟: 步驟1、計算每個用戶類別標簽之間的相似度; 步驟2、根據用戶輸入的查詢問題,建立融合用戶類別標簽的檢索模型; 步驟3、根據所述融合用戶類別標簽的檢索模型,在所述查詢問題對應的查詢問題類別標簽和相似類別標簽下的歷史問題中進行檢索,獲得所述查詢問題的相似問題。
2.如權利要求1所述的方法,其特征在于,所述融合用戶類別標簽的檢索模型基于以下幾個條件之一或它們的組合,計算查詢問題與查詢問題類別標簽和相似類別標簽下的歷史問題之間的關聯(lián)概率: 1)查詢問題與所述查詢問題類別標簽下的歷史問題之間的似然概率; 2)查詢問題類別標簽與相似類別標簽之間的相似度; 3)查詢問題與所述相似類別標簽下的歷史問題之間的似然概率。
3.如權利要求2所述的方法,其特征在于,所述融合用戶類別標簽的檢索模型具體如下表示:
4.如權利要求1所述的方法,其特征在于,所述步驟2還包括:設置類別標簽相似度的閾值,所述相似類別標簽為與所述查詢問題類別標簽的相似度高于所述閾值的類別標簽。
5.如權利要求1-4任一項所述的方法,其特征在于,所述類別標簽之間的相似度如下計算:
6.如權利要求3所述的方法,其特征在于,查詢問題與歷史問題之間的似然概率如下計算:
7.如權利要求6所述的方法,其特征在于,所述后驗概率如下計算:
8.如權利要求1所述的方法,其特征在于,步驟I之前還包括:將同一類別標簽下的所有歷史問題合并成一個文檔,所有歷史問題構成文檔集,且每個文檔對應一個類別標簽。
9.如權利要求1所述的方法,其特征在于,所述相似問題為多個,且所述方法還包括向用戶返回所述多個相似問題的答案。
10.一種融合用戶類別標簽的相似問題檢索裝置,其包括: 相似度計算模塊,其用于計算每個用戶類別標簽之間的相似度; 融合用戶類別標簽的檢索模塊,其用于根據用戶輸入的查詢問題,建立融合用戶類別標簽的檢索模型,并根據所述融合用戶類別標簽的檢索模型,在所述查詢問題對應的查詢問題類別標簽和相似類別標簽下的歷史問題中進行檢索,獲得所述查詢問題的相似問題。
11.如權利要求10所述的裝置,其特征在于,該裝置還包括類別標簽相似度的閾值設定模塊,其用于設置類別標簽相似度的閾值,所述相似類別標簽為與所述查詢問題類別標簽的相似度高于所述閾值的類別標簽。
全文摘要
本發(fā)明公開了一種融合用戶類別標簽的相似問題檢索方法及其裝置,所述包括步驟1、計算每個用戶類別標簽之間的相似度;步驟2、根據用戶輸入的查詢問題,建立融合用戶類別標簽的檢索模型;步驟3、根據所述融合用戶類別標簽的檢索模型,在所述查詢問題對應的查詢問題類別標簽和相似類別標簽下的歷史問題中進行檢索,獲得所述查詢問題的相似問題。因此,最終的相似問題檢索僅僅考慮與查詢問題在類別標簽上相似或相近的歷史問題,大大減少了搜索的空間以及主題不相關歷史問題的干擾,有效地提高了檢索的效率和性能。經過實驗證明,在大規(guī)模的社區(qū)問答數(shù)據集中,相似問題檢索的效率提高了81.77倍,檢索的性能提升了11.25%。
文檔編號G06F17/30GK103218436SQ20131013307
公開日2013年7月24日 申請日期2013年4月17日 優(yōu)先權日2013年4月17日
發(fā)明者周光有, 趙軍 申請人:中國科學院自動化研究所