用于意圖挖掘的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明涉及用于意圖挖掘的方法和設(shè)備。公開了一種用于意圖挖掘的方法,所述方法包括:獲取輸入查詢;針對(duì)所述輸入查詢生成意圖類似查詢,其中每一個(gè)意圖類似查詢具有與所述輸入查詢相同或類似的意圖類型;針對(duì)每一個(gè)意圖類似查詢挖掘一組意圖,其中每個(gè)意圖提供針對(duì)相應(yīng)的意圖類似查詢的子主題;通過使用所述意圖類似查詢的全部的意圖組來確定類似意圖信息描述集;以及通過使用所述類似意圖信息描述集來挖掘針對(duì)所述輸入查詢的意圖。
【專利說明】用于意圖挖掘的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘的方法和設(shè)備。特別地,本發(fā)明涉及用于挖掘意圖的方法和 設(shè)備。并且更特別地,本發(fā)明涉及發(fā)現(xiàn)用戶所提出的查詢背后的搜索意圖的方法和設(shè)備。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)和信息技術(shù)的不斷發(fā)展,現(xiàn)在在整個(gè)世界中的信息產(chǎn)生的速率不斷增 力口?,F(xiàn)今世界中存在個(gè)人信息、職業(yè)信息、娛樂信息、科技信息、政府信息等諸多信息。因?yàn)?信息過多,所以導(dǎo)致對(duì)信息的組織和訪問成為問題。
[0003] 為了改進(jìn)用戶在信息搜索過程中的體驗(yàn),用于幫助用戶訪問其所尋找的信息的 方法和系統(tǒng)不斷被研發(fā)。例如,在 Santos, et al. 2011. University of Glasgow at the NTCIR-9Intent task:Experiments with Terrier on Subtopic Mining and Document Ranking. Proceedings of NTCIR_9Workshop Meeting, 2011,Tokyo (非專利文獻(xiàn) 1)中提出 了嘗試?yán)斫庥脩羲斎氲牟樵儽澈蟮臐撛谝鈭D。在用戶輸入簡短并且含糊的查詢的情況 下,希望能夠輸出n個(gè)(例如,n=10)重要的并且多樣化的最佳意圖結(jié)果。表1示出了一種 示例。
【權(quán)利要求】
1. 一種用于意圖挖掘的方法,所述方法包括: 獲取輸入查詢; 針對(duì)所述輸入查詢生成意圖類似查詢,其中每一個(gè)意圖類似查詢具有與所述輸入查詢 相同或類似的意圖類型; 針對(duì)每一個(gè)意圖類似查詢挖掘一組意圖,其中每個(gè)意圖提供針對(duì)相應(yīng)的意圖類似查詢 的子主題; 通過使用所述意圖類似查詢的全部的意圖組來確定類似意圖信息描述集;以及 通過使用所述類似意圖信息描述集來挖掘針對(duì)所述輸入查詢的意圖。
2. 如權(quán)利要求1所述的方法,其中針對(duì)所述輸入查詢生成意圖類似查詢包括: 從至少一個(gè)數(shù)據(jù)源獲得一個(gè)或多個(gè)查詢對(duì)短語,其中每個(gè)查詢對(duì)短語包括:所述輸入 查詢、意圖類似指示符以及第三短語;以及 從每一個(gè)查詢對(duì)短語提取所述第三短語,作為所述意圖類似查詢。
3. 如權(quán)利要求1所述的方法,其中所述類似意圖信息描述通過輸入查詢的正規(guī)表達(dá)來 呈現(xiàn)。
4. 如權(quán)利要求3所述的方法,其中確定所述類似意圖信息描述集包括: 分析所述意圖類似查詢的全部的意圖組中的每一個(gè)意圖的語言形式; 確定所述語言形式中相應(yīng)意圖類似查詢的語言形式和其余語言形式之間的至少一種 查詢意圖關(guān)系; 對(duì)應(yīng)于所確定的至少一種查詢意圖關(guān)系將每一個(gè)意圖的語言形式變換為正規(guī)表達(dá);以 及 將變換獲得的正規(guī)表達(dá)添加到所述類似意圖信息描述集中。
5. -種用于意圖挖掘的設(shè)備,所述設(shè)備包括: 輸入查詢獲取單元,獲取輸入查詢; 意圖類似查詢生成單元,針對(duì)所述輸入查詢生成意圖類似查詢,其中每一個(gè)意圖類似 查詢具有與所述輸入查詢相同或類似的意圖類型; 第一意圖挖掘單元,針對(duì)每一個(gè)意圖類似查詢挖掘一組意圖,其中每個(gè)意圖提供針對(duì) 相應(yīng)的意圖類似查詢的子主題; 類似意圖信息描述集確定單元,通過使用所述意圖類似查詢的全部的意圖組來確定類 似意圖信息描述集;以及 第二意圖挖掘單元,通過使用所述類似意圖信息描述集來挖掘針對(duì)所述輸入查詢的意 圖。
6. 如權(quán)利要求5所述的設(shè)備,其中所述意圖類似查詢生成單元包括: 查詢對(duì)短語獲取單元,從至少一個(gè)數(shù)據(jù)源獲得一個(gè)或多個(gè)查詢對(duì)短語,其中每個(gè)查詢 對(duì)短語包括:所述輸入查詢、意圖類似指示符以及第三短語;以及 第三短語提取單元,從每一個(gè)查詢對(duì)短語提取所述第三短語,作為所述意圖類似查詢。
7. 如權(quán)利要求5所述的設(shè)備,其中所述類似意圖信息描述通過輸入查詢的正規(guī)表達(dá)來 呈現(xiàn)。
8. 如權(quán)利要求7所述的設(shè)備,其中所述類似意圖信息描述集確定單元包括: 語言形式分析單元,分析所述意圖類似查詢的全部的意圖組中的每一個(gè)意圖的語言形 式; 查詢意圖關(guān)系確定單元,確定所述語言形式中相應(yīng)意圖類似查詢的語言形式和其余語 言形式之間的至少一種查詢意圖關(guān)系; 正規(guī)表達(dá)變換單元,對(duì)應(yīng)于所確定的至少一種查詢意圖關(guān)系將每一個(gè)意圖的語言形式 變換為正規(guī)表達(dá);以及 正規(guī)表達(dá)添加單元,將變換獲得的正規(guī)表達(dá)添加到所述類似意圖信息描述集中。
9. 一種用于信息檢索的設(shè)備,包括: 輸入查詢接收單元,接收用戶采用自然語言的輸入查詢; 根據(jù)權(quán)利要求5-8中任一項(xiàng)所述的用于意圖挖掘的設(shè)備,從所述輸入查詢進(jìn)行意圖挖 掘;以及 搜索結(jié)果獲得單元,獲得所挖掘意圖的搜索結(jié)果。
10. -種用于問答輔助的設(shè)備,包括: 輸入查詢接收單元,接收用戶采用自然語言的輸入查詢; 根據(jù)權(quán)利要求5-8中任一項(xiàng)所述的用于意圖挖掘的設(shè)備,從所述輸入查詢挖掘主題; 以及 答案獲得單元,獲得針對(duì)所挖掘的主題的答案。
【文檔編號(hào)】G06F17/30GK104424216SQ201310371165
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月23日 優(yōu)先權(quán)日:2013年8月23日
【發(fā)明者】黃耀海, 張碧川, 劉鵬 申請(qǐng)人:佳能株式會(huì)社