專利名稱:基于文檔和實體關(guān)系搜索目標實體的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在已知數(shù)字化文檔與目標實體之間關(guān)系的情況下在文檔集中 搜索目標實體,更具體地說,涉及在已知文檔與目標實體之間關(guān)系的情況下 在文檔集中搜索目標實體的方法和裝置。
背景技術(shù):
隨著信息技術(shù)及互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息呈幾何級數(shù)發(fā)展。作為獲取信 息的主要手段的信息檢索技術(shù)也在不斷發(fā)展。人們對信息檢索的要求也不局 限于根據(jù)用戶查詢在數(shù)字化文檔中檢索相關(guān)文檔。在企業(yè)及信息領(lǐng)域,經(jīng)常 會提出搜索數(shù)字化文檔集中隱含的信息的需求。如在文檔集合中搜索研究指 定領(lǐng)域的專家或者是搜索經(jīng)營指定項目的公司。然而現(xiàn)在的信息檢索系統(tǒng)或 者不能解決這類問題或者解決的不理想。
發(fā)明內(nèi)容
有鑒于上述情況,本發(fā)明的目的是提供能有效利用數(shù)字文檔信息,根據(jù) 候選實體和文檔之間的關(guān)系,生成候選實體文檔集,通過在搜索候選實體文 檔時使用根據(jù)動態(tài)選取的相關(guān)文檔而得到的候選實體相關(guān)文檔集信息從而提 高查詢目標實體的準確度的方法和裝置。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面提供了一種用于每一個文檔
已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索目標實體的方法,其 中N》1, N>M>1,域數(shù)字文檔是一個數(shù)字化文檔其中的一個域,并且已知 每一個文檔和所有候選實體之間的關(guān)系,包括步驟(a)對每一個域數(shù)字文 檔集,對每一個候選實體,根據(jù)已知的每一個文檔和所有候選實體之間的關(guān) 系,選擇所有和此候選實體有關(guān)系的域數(shù)字化文檔,這些域數(shù)字化文檔組成此 候選實體域文檔;每一個域的所有候選實體域文檔形成對應此域的候選實體 域文檔集;(b)根據(jù)用戶所輸入的查詢,提取包括至少一個關(guān)鍵詞的關(guān)鍵詞 序列作為當前關(guān)鍵詞序列;(c)根據(jù)關(guān)鍵詞序列搜索當前域數(shù)字化文檔集, 得到域相關(guān)文檔集;(d)對每一個候選實體,動態(tài)選取和此候選實體有關(guān)系 的域相關(guān)文檔,這些被選出的域相關(guān)文檔的集合組成候選實體的域相關(guān)文檔; 所有候選實體的域相關(guān)文檔形成候選實體域相關(guān)文檔集;(e)根據(jù)關(guān)鍵詞序 列和候選實體域相關(guān)文檔集,計算候選實體域文檔集中每一個候選實體域文 檔值;(f)如果在已知的M個域中存在沒有被計算的域,則取其中一個沒有 被計算的域作為當前域并執(zhí)行步驟(c)、 (d) (e)和(f),否則對每一個候 選實體,累計其對應的所有的域的候選實體域文檔值,得到候選實體文檔值; 以及(g)根據(jù)候選實體文檔值,選擇目標實體。
根據(jù)本發(fā)明的另 一個方面提供了 一種用于每一個文檔已經(jīng)分成N個域的 數(shù)字化文檔集中對其中的M個域搜索目標實體的裝置,其中N》1, N>M> 1,域數(shù)字文檔是一個數(shù)字化文檔其中的一個域,并且已知每一個文檔和所有 候選實體之間的關(guān)系,包括部件候選實體域文檔集生成器,從當前域數(shù)字 文檔集中選擇出所有和當前候選實體有關(guān)系的文檔并且將這些被選擇出的文 檔組成候選實體域文檔,然后集合候選實體域文檔形成候選實體域文檔集; 關(guān)鍵詞抽取器,根據(jù)用戶所輸入的查詢,提取包括至少一個關(guān)鍵詞的關(guān)鍵詞 序列作為當前關(guān)鍵詞序列;相關(guān)文檔搜索器根據(jù)關(guān)鍵詞序列搜索相關(guān)文檔; 候選實體域相關(guān)文檔集生成器,從域相關(guān)文檔集中選取和當前候選實體有關(guān) 系的文檔,并且將這些被選出的域相關(guān)文檔組成當前候選實體的域相關(guān)文檔; 然后集合所有候選實體的域相關(guān)文檔形成候選實體域相關(guān)文檔集;候選實體
文檔值計算器,根據(jù)關(guān)鍵詞序列和候選實體域相關(guān)文檔集,計算候選實體域 文檔集中每一個候選實體域文檔值;候選實體文檔值累加器,累計所有對應 當前候選實體的候選實體域文檔值;和候選實體選擇器根據(jù)候選實體文檔 值選擇目標實體。
采用根據(jù)本發(fā)明的搜索目標實體的方法和裝置,有效地提高了信息檢索 的精度。該方法和裝置能有效地利用文檔信息和文檔與候選實體之間的關(guān)系, 所以能計算出相對準確的和用戶查詢相關(guān)的候選實體,即目標實體。同時, 實驗表明本發(fā)明能有效提高查詢的準確度。
圖1示出根據(jù)本發(fā)明優(yōu)選實施例的目標實體搜索裝置的方框圖; 圖2示出根據(jù)本發(fā)明優(yōu)選實施例的目標實體搜索方法的流程圖;圖3示出根據(jù)本發(fā)明進行目標實體搜索的流程示意圖。
具體實施例方式
下面將結(jié)合附圖詳細描述本發(fā)明的優(yōu)選實施例。在下面的描述中,現(xiàn)有 數(shù)字信息搜索方法/系統(tǒng)中公知的步驟/單元將不再詳細描述(例如,下文中將
要提到的BM25公式以及DFR—BM25公式),以免不必要的細節(jié)混淆本發(fā)明。 圖1示出根據(jù)本發(fā)明優(yōu)選實例的目標實體搜索裝置的方框圖。如圖1所 示,是在每一個文檔已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索 目標實體的裝置,其中M表示用戶根據(jù)需要而設(shè)定的要搜索的域的個數(shù),即 雖然該數(shù)字化文檔集的每一個文檔已經(jīng)分成N個域,但是用戶仍然可以只搜 索其中的M個域,該裝置包括候選實體域文檔集生成器101,從當前域數(shù) 字文檔集中選擇出所有和當前候選實體有關(guān)系的文檔并且將這些被選擇出的 文檔組成候選實體域文檔,然后集合候選實體域文檔形成候選實體域文檔集; 關(guān)鍵詞抽取器102,根據(jù)用戶所輸入的查詢,提取包括至少一個關(guān)鍵詞的關(guān) 鍵詞序列作為當前關(guān)鍵詞序列;相關(guān)文檔搜索器103:根據(jù)關(guān)鍵詞序列搜索 相關(guān)文檔;候選實體域相關(guān)文檔集生成器104,從域相關(guān)文檔集中動態(tài)選取 和當前候選實體有關(guān)系的文檔,并且將這些被選出的域相關(guān)文檔組成當前候 選實體的域相關(guān)文檔;然后集合所有候選實體的域相關(guān)文檔形成候選實體域 相關(guān)文檔集;候選實體文檔值計算器105,根據(jù)關(guān)鍵詞序列和候選實體域相 關(guān)文檔集,計算候選實體域文檔集中每一個候選實體域文檔值;候選實體文 檔值累加器106,累計所有對應當前候選實體的候選實體域文檔值;和候選 實體選擇器107,根據(jù)候選實體文檔值選擇目標實體。其中,在按照第1個 域至第M個域計算候選實體文檔值的過程中,如果此M個域中存在沒有被 計算的域,則取其中一個沒有被計算的域作為當前域,并且所述相關(guān)文檔搜 索器103、候選實體域相關(guān)文檔集生成器104和候選實體文檔值計算器105 對當前域執(zhí)行所述的操作;否則所述候選實體文檔值累加器106和候選實體 選擇器107執(zhí)行所述的操作。該目標實體搜索裝置使用了根據(jù)數(shù)字化文檔和 候選實體之間的關(guān)系生成候選實體文檔集、并且基于動態(tài)選取相關(guān)文檔來計 算候選實體文檔值從而得到目標實體的方法可以有效提高查詢的精確度。
圖1僅作為本發(fā)明的優(yōu)選實施例來說明本發(fā)明,并非對本發(fā)明進行限制。 比如,本領(lǐng)域的技術(shù)人員應當了解本發(fā)明的目標實體搜索裝置的主要技術(shù)效
果在于利用數(shù)字化文檔和候選實體之間的關(guān)系得到候選實體文檔集,基于 動態(tài)選取的相關(guān)文檔來計算候選實體文檔值從而得到目標實體,于是可以有 效提高信息搜索的精確度。其中關(guān)鍵詞可以是一個詞或者一個短語;域包括 數(shù)字化文檔的題目,標題,摘要,元數(shù)據(jù)和文檔中實體位置相鄰數(shù)據(jù)。
本發(fā)明的搜索目標實體的裝置中的域數(shù)字文檔集還兼容沒有分域的數(shù)字 文檔集,以提高系統(tǒng)的普遍適用性。
本發(fā)明的搜索目標實體的裝置,其中裝置104中所述動態(tài)選取既包括從 最相關(guān)的K個域相關(guān)文檔中選出所有和當前候選實體有關(guān)系的域相關(guān)文檔, 也包括從域相關(guān)文檔集中選出和當前候選實體有關(guān)系的最相關(guān)的L個域相關(guān) 文檔,其中K》1, L>1。裝置105中所述計算包括使用基于查詢語句的文檔 長度的方法,即候選實體域相關(guān)文檔的長度。使用基于查詢語句的文檔長度 的方法包括變體BM25方法,或者變體DFR—BM25方法,或者變體短語方法, 或者變體BM25方法和變體短語方法的結(jié)合方法,或者變體DFR一BM25方法 和變體短語方法的結(jié)合方法。變體BM25方法是將基于查詢語句的文檔長度 作為BM25公式中的文檔長度。變體DFR—BM25方法是將基于查詢語句的文 檔長度作為DFR—BM25公式中的文檔長度。變體短語方法包括變體BM25短 語方法和變體DFR—BM25短語方法。變體BM25短語方法對短語應用變體 BM25短語公式,即變體BM25公式乘以此短語的長度作為變體BM25短語 公式。變體DFR_BM25短語方法是對短語應用變體DFR—BM25短語公式, 即變體DFR—BM25爿〉式乘以此短語的長度作為變體DFR—BM25短語公式。 所述結(jié)合方法包括線性組合由各方法得到的文檔值。其中裝置106中所述累 計包括線性組合。其中裝置107所述選擇包括選取對應最大T個候選實體文 檔值的T個候選實體作為目標實體,其中T》1。
圖2示出根據(jù)本發(fā)明優(yōu)選實例的目標實體搜索方法的流程圖。如圖2所 示的用于每一個文檔已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索 目標實體的方法,其中N》1, N>M>1,域數(shù)字文檔是一個數(shù)字化文檔對應 一個域文檔部分,并且已知每一個文檔和所有候選實體之間的關(guān)系,包括步 驟對每一個域數(shù)字文檔集,對每一個候選實體,根據(jù)已知的每一個文檔和 所有候選實體之間的關(guān)系,選擇所有和此候選實體有關(guān)系的域數(shù)字化文檔, 這些域數(shù)字化文檔組成此候選實體域文檔;每一個域的所有候選實體域文檔 形成對應此域的候選實體域文檔集(S201);根據(jù)用戶所輸入的查詢,提取包
括至少一個關(guān)鍵詞的關(guān)鍵詞序列作為當前關(guān)鍵詞序列(S202);根據(jù)關(guān)鍵詞序 列搜索當前域數(shù)字化文檔集,得到域相關(guān)文檔集(S203 );對每一個候選實體, 動態(tài)選取和此候選實體有關(guān)系的域相關(guān)文檔,這些被選出的域相關(guān)文檔的集 合組成候選實體的域相關(guān)文檔;所有候選實體的域相關(guān)文檔形成候選實體域 相關(guān)文檔集(S204);根據(jù)關(guān)鍵詞序列和候選實體域相關(guān)文檔集,計算候選實 體域文檔集中每一個候選實體域文檔值(S205 );判斷在已知的M個域中是 否存在沒有被計算的域(S206);如果在已知的M個域中存在沒有被計算的 域,則取其中一個沒有被計算的域作為當前域(S207),并執(zhí)行步驟S203、 S204、 S205和S206;否則,對每一個候選實體,累計其對應的所有的域的候 選實體域文檔值,得到候選實體文檔值(S208 );以及根據(jù)候選實體文檔值, 選擇目標實體(S209)。
圖2僅作為本發(fā)明的優(yōu)選實施例來說明本發(fā)明,并非對本發(fā)明進行限制。 比如,本領(lǐng)域的技術(shù)人員應當了解本發(fā)明的目標實體搜索方法的主要技術(shù)效 果在于利用數(shù)字化文檔和候選實體之間的關(guān)系得到候選實體文檔集,基于 動態(tài)選取的相關(guān)文檔來計算候選實體文檔值從而得到目標實體,于是可以有 效提高信息搜索的精確度。其中關(guān)鍵詞可以是一個詞或者一個短語;域包括 數(shù)字化文檔的題目,標題,摘要,元數(shù)據(jù)和文檔中實體位置相鄰數(shù)據(jù)。
本發(fā)明的搜索目標實體的方法中的域數(shù)字文檔集還兼容沒有分域的數(shù)字 文檔集,以提高系統(tǒng)的普遍適用性。
本發(fā)明的搜索目標實體的方法,其中步驟S204中所述動態(tài)選取既包括從 最相關(guān)的K個域相關(guān)文檔中選出所有和當前候選實體有關(guān)系的域相關(guān)文檔, 也包括從域相關(guān)文檔集中選出和當前候選實體有關(guān)系的最相關(guān)的L個域相關(guān) 文檔,其中K》1, L>1。步驟S204中所述計算包括使用基于查詢語句的文 檔長度的方法,即候選實體域相關(guān)文檔的長度。使用基于查詢語句的文檔長 度的方法包括變體BM25方法,或者變體DFR一BM25方法,或者變體短語方 法,或者變體BM25方法和變體短語方法的結(jié)合方法,或者變體DFR一BM25 方法和變體短語方法的結(jié)合方法。變體BM25方法是將基于查詢語句的文檔 長度作為BM25公式中的文檔長度。變體DFR—BM25方法是將基于查詢語句 的文檔長度作為DFR—BM25公式中的文檔長度。變體短語方法包括變體 BM25短語方法和變體DFR—BM25短語方法。變體BM25短語方法對短語應 用變體BM25短語公式,即變體BM25公式乘以此短語的長度作為變體BM25
短語公式。變體DFR—BM25短語方法是對短語應用變體DFR_BM25短語公 式,即變體DFR—BM25公式乘以此短語的長度作為變體DFR_BM25短語公 式。所述結(jié)合方法包括線性組合由各方法得到的文檔值。其中步驟S208中所 述累計包括線性組合。其中步驟S209所述選擇包括選取對應最大T個候選實 體文檔值的T個候選實體作為目標實體,其中T》1。
圖3示出根據(jù)本發(fā)明進行目標實體搜索的流程示意圖。下面通過結(jié)合圖 3,將本發(fā)明的裝置和方法相結(jié)合進行說明。
首先根據(jù)域數(shù)字文檔集、候選實體集和文檔與候選實體關(guān)系集選擇與各 個候選實體有關(guān)的域數(shù)字文檔,生成候選實體域文檔集。(301)
用戶輸入一個查詢Q,系統(tǒng)的關(guān)鍵詞抽取器對用戶的查詢進行抽詞處理, 得到關(guān)鍵詞序列T(tl,t2,…)。(302)
系統(tǒng)用此關(guān)鍵詞序列T對域1的域數(shù)字文檔集FlD(fldl,fld2,.,.)進行檢 索,得到域FlD的相關(guān)文檔集RlD(rldl,rld2,…)。(303)
系統(tǒng)根據(jù)文檔與候選實體關(guān)系集動態(tài)選取在域1的相關(guān)文檔集中與各個 候選實體相關(guān)的域1文檔,得到候選實體在域1上的相關(guān)文檔集RE1。 (304)
根據(jù)關(guān)鍵詞序列T和候選實體在域1上的相關(guān)文檔集RE1,計算候選實 體域文檔值。(305)
系統(tǒng)對域2重復303、 304、 305,得到候選實體在域2上的候選實體域 文檔值。
計算下一個域的文檔值,直到用戶選擇的所有的域都計算完畢。 累計候選實體在各個域上的文檔值,得到候選實體文檔值。(306) 根據(jù)候選實體文檔值選擇n個候選實體文檔值對應的候選實體作為目標 實體輸出。(307)
下面,對本發(fā)明的裝置和方法的部件和步驟分析,并且結(jié)合例子對其部 件和步驟作出說明。
某網(wǎng)站(例如www.w3.org)的網(wǎng)頁集合中有計算機專家及其研究領(lǐng)域的信 息,現(xiàn)在用戶想利用該網(wǎng)站的網(wǎng)頁集合來查詢指定領(lǐng)域的專家。因此,問題 描述如下
文檔集0((11,(12,...)為該網(wǎng)站的網(wǎng)頁集合。其中每個網(wǎng)頁都包含若干個 域,如網(wǎng)爽的標題,摘要,小標題,關(guān)鍵字,正文等。故該文檔集可以分成 若干個域文檔集nD標題文檔集,F(xiàn)2D摘要文檔集,...,其中F1D:
(fldl,fld2,…),F(xiàn)2D: (f2dl,f2d2,…),fldl為網(wǎng)頁1在域1上的數(shù)據(jù),fld2, £2(11,£2(12,...分別是相應網(wǎng)頁在相應域上的數(shù)據(jù)。
候選實體集EX(exl,ex2,.,.)為所有專家的列表,我們的目標是基于文檔集 D和各個域文檔集檢索出指定領(lǐng)域Q的專家列表。
為此,我們根據(jù)各個專家在每個網(wǎng)頁出現(xiàn)的情況建立文檔與實體間關(guān)系 集,即網(wǎng)頁與專家關(guān)系集。下面我們將介紹如何利用本發(fā)明所公開的方法來 完成此項任務(wù)。
首先根據(jù)網(wǎng)頁與專家關(guān)系集,在每一個域,對每一個專家,合并此專家 出現(xiàn)過的所有網(wǎng)頁,于是得到每個專家的域集合,如專家l (標題集合,摘 要集合,...),專家2(標題集合,摘要集合,...),...。
然后用戶輸入領(lǐng)域描述作為查詢語句,抽詞模塊會對查詢語句進行處理, 抽取出關(guān)鍵詞序列T(tl,t2,...)。
系統(tǒng)用關(guān)鍵詞序列查詢第一個域標題域的集合,得到相關(guān)標題集。然后 根據(jù)網(wǎng)頁與專家關(guān)系集得到每個專家的相關(guān)標題集。
系統(tǒng)根據(jù)每個專家的標題集和每個專家的相關(guān)標題集用搜索方法(如變 體BM25方法)來計算各個專家標題域文檔值。其中變體BM25方法是將候 選專家標題域相關(guān)文檔的總長度作為BM25公式中的文檔長度。
用以上方法重復計算每個專家在其他域上的域文檔值。
將每個專家在各個域上的域文檔值按權(quán)重累加,重要的域權(quán)重較高,如 標題、小標題等。得到每個專家的文檔值。對文檔值進行降序排列,把排在 前n個文檔值對應的專家作為結(jié)果返回。
盡管上面已經(jīng)詳細描述了本發(fā)明的各種實施例,但是對于本領(lǐng)域技術(shù)人 員來說,可對本發(fā)明做出進一步的變化和改進。應當理解,這樣的變化和改 進在本發(fā)明的精神和范圍之內(nèi)。
權(quán)利要求
1.一種用于每一個文檔已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索目標實體的方法,其中N≥1,N≥M≥1,域數(shù)字文檔是一個數(shù)字化文檔其中的一個域,并且已知每一個文檔和所有候選實體之間的關(guān)系,所述方法包括步驟(a)對每一個域數(shù)字文檔集,對每一個候選實體,根據(jù)已知的每一個文檔和所有候選實體之間的關(guān)系,選擇所有與此候選實體有關(guān)系的域數(shù)字化文檔,這些域數(shù)字化文檔組成此候選實體域文檔;每一個域的所有候選實體域文檔形成對應此域的候選實體域文檔集;(b)根據(jù)用戶所輸入的查詢,提取包括至少一個關(guān)鍵詞的關(guān)鍵詞序列作為當前關(guān)鍵詞序列;(c)選擇一個域作為當前域,根據(jù)關(guān)鍵詞序列搜索當前域數(shù)字化文檔集,得到域相關(guān)文檔集;(d)對每一個候選實體,動態(tài)選取與此候選實體有關(guān)系的域相關(guān)文檔,這些被選出的域相關(guān)文檔的集合組成所述候選實體的域相關(guān)文檔;所有候選實體的域相關(guān)文檔形成候選實體域相關(guān)文檔集;(e)根據(jù)關(guān)鍵詞序列和候選實體域相關(guān)文檔集,計算候選實體域文檔集中每一個候選實體域文檔值;(f)如果在已知的M個域中存在沒有被計算的域,則取其中一個沒有被計算的域作為當前域并執(zhí)行步驟(c)、(d)(e)和(f),否則對每一個候選實體,累計其對應的所有的域的候選實體域文檔值,得到候選實體文檔值;和(g)根據(jù)候選實體文檔值,選擇目標實體。
2. 如權(quán)利要求1所述的搜索目標實體的方法,其中域包括數(shù)字化文檔的 題目、標題、摘要、元數(shù)據(jù)和文檔中實體位置相鄰數(shù)據(jù)。
3. 如權(quán)利要求1所述的搜索目標實體的方法,其中域數(shù)字文檔集還兼容 沒有分域的數(shù)字化文檔集。
4. 如權(quán)利要求1所述的搜索目標實體的方法,其中所述關(guān)鍵詞是一個詞 或者是一個短語。
5. 如權(quán)利要求1所述的搜索目標實體的方法,其中步驟(d)中所述動 態(tài)選取包括從最相關(guān)的K個城相關(guān)文檔中選出所有和當前候選實體有關(guān)系的域相關(guān)文檔,其中K> 1。
6. 如權(quán)利要求1所述的搜索目標實體的方法,其中步驟(d)中所述動 態(tài)選取包括從域相關(guān)文檔集中選出和當前候選實體有關(guān)系的最相關(guān)的L個域 相關(guān)文檔,其中L>1。
7. 如權(quán)利要求1所述的搜索目標實體的方法,其中步驟(e)中所述計 算包括使用基于查詢的文檔長度的方法。
8. 如權(quán)利要求7所述的搜索目標實體的方法,基于查詢的文檔長度是候 選實體域相關(guān)文檔的長度。
9. 如權(quán)利要求7所述的搜索目標實體的方法,其中使用基于查詢的文檔 長度的方法包括變體BM25方法,或者變體DFR—BM25方法,或者變體短語 方法,或者變體BM25方法和變體短語方法的結(jié)合方法,或者變體DFR—BM25 方法和變體短語方法的結(jié)合方法。
10. 如權(quán)利要求9所述的搜索目標實體的方法,其中變體BM25方法是 將基于查詢語句的文檔長度作為BM25公式中的文檔長度。
11. 如權(quán)利要求9所述的搜索目標實體的方法,其中變體DFR一BM25方 法是將基于查詢語句的文檔長度作為DFR—BM25公式中的文檔長度。
12. 如權(quán)利要求9所述的搜索目標實體的方法,其中變體短語方法包括 變體BM25短語方法和變體DFR—BM25短語方法。
13. 如權(quán)利要求12所述的搜索目標實體的方法,其中變體BM25短語方
14. 如權(quán)利要求12所述的搜索目標實體的方法,其中變體DFR一BM25 短語方法將變體DFR—BM25公式乘以此短語的長度作為變體DFR—BM25短語公式。
15. 如權(quán)利要求9所述的搜索目標實體的方法,其中所述結(jié)合方法包括 線性組合由各方法得到的文檔值。
16. 如權(quán)利要求1所述的搜索目標實體的方法,其中步驟(f)中所述累 計包括線性組合。
17. 如權(quán)利要求1所述的搜索目標實體的方法,其中步驟(g)中所述選 擇包括選取對應最大T個候選實體文檔值對應的T個候選實體作為目標實 體,其中T>1。
18. —種用于每一個文檔已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索目標實體的裝置,其中N》1, N>M>1,域數(shù)字文檔是一個數(shù)字化 文檔其中的一個域,并且已知每一個文檔和所有候選實體之間的關(guān)系,包括候選實體域文檔集生成器,從當前域數(shù)字文檔集中選擇出所有和當前候 選實體有關(guān)系的文檔并且將這些被選擇出的文檔組成候選實體域文檔,然后集合候選實體域文檔形成候選實體域文檔集;關(guān)鍵詞抽取器,根據(jù)用戶所輸入的查詢,提取包括至少一個關(guān)鍵詞的關(guān) 鍵詞序列作為當前關(guān)鍵詞序列;相關(guān)文檔搜索器,根據(jù)關(guān)鍵詞序列搜索相關(guān)文檔;候選實體域相關(guān)文檔集生成器,從域相關(guān)文檔集中選取和當前候選實體 有關(guān)系的文檔,并且將這些被選出的域相關(guān)文檔組成當前候選實體的域相關(guān) 文檔;然后集合所有候選實體的域相關(guān)文檔形成候選實體域相關(guān)文檔集;候選實體文檔值計算器,根據(jù)關(guān)鍵詞序列和候選實體域相關(guān)文檔集,計 算候選實體域文檔集中每一個候選實體域文檔值;候選實體文檔值累加器,累計所有對應當前候選實體的候選實體域文檔 值5和候選實體選擇器,根據(jù)候選實體文檔值選擇目標實體。
19. 如權(quán)利要求18所述的搜索目標實體的裝置,其中域包括數(shù)字化文檔 的題目、標題、摘要、元數(shù)據(jù)和文檔中實體所在位置相鄰數(shù)據(jù)。
20. 如權(quán)利要求18所述的搜索目標實體的裝置,其中所述域數(shù)字文檔集 還兼容沒有分域的數(shù)字文檔集。
21. 如權(quán)利要求18所述的搜索目標實體的裝置,其中所述關(guān)鍵詞是一個 詞或者一個短語。
22. 如權(quán)利要求18所述的搜索目標實體的裝置,其中從域相關(guān)文檔集中 選取和當前候選實體有關(guān)系的文檔包括從最相關(guān)的K個域相關(guān)文檔中選出所 有和當前候選實體有關(guān)系的域相關(guān)文檔,其中K^1。
23. 如權(quán)利要求18所述的搜索目標實體的裝置,其中從域相關(guān)文檔集中 選取和當前候選實體有關(guān)系的文檔包括從域相關(guān)文檔集中選出和當前候選實 體有關(guān)系的最相關(guān)的L個域相關(guān)文檔,其中L》1。
24. 如權(quán)利要求18所述的搜索目標實體的裝置,候選實體文檔值計算器 的計算方法包括使用基于查詢的文檔長度的方法。
25. 如權(quán)利要求24所述的搜索目標實體的裝置,基于查詢的文檔長度是候選實體域相關(guān)文檔的長度。
26. 如權(quán)利要求25所述的搜索目標實體的裝置,其中使用基于查詢的文 檔長度的方法包括變體BM25方法,或者變體DFR—BM25方法,或者變體短 語方法,或者變體BM25方法和變體短語方法的結(jié)合方法,或者變體 DFR—BM25方法和變體短語方法的結(jié)合方法。
27. 如權(quán)利要求26所述的搜索目標實體的裝置,其中變體BM25方法是 將基于查詢語句的文檔長度作為BM25公式中的文檔長度。
28. 如權(quán)利要求26所述的搜索目標實體的方法,其中變體DFR—BM25 方法是將基于查詢語句的文檔長度作為DFR—BM25公式中的文檔長度。
29. 如權(quán)利要求26所述的搜索目標實體的方法,其中變體短語方法包括 變體BM25短語方法和變體DFR_BM25短語方法。
30. 如權(quán)利要求29所述的搜索目標實體的方法,其中變體BM25短語方
31. 如權(quán)利要求29所述的搜索目標實體的方法,其中變體DFR—BM25 短語方法將變體DFR_BM25公式乘以此短語的長度作為變體DFR—BM25短 語公式。
32. 如權(quán)利要求26所述的搜索目標實體的裝置,其中所述結(jié)合方法包括 線性組合由各方法得到的文檔值。
33. 如權(quán)利要求18所述的搜索目標實體的裝置,候選實體文檔值累加器 其中用候選實體文檔值的線性組合計算實體文檔值。
34. 如權(quán)利要求18所述的搜索目標實體的裝置,候選實體選擇器包括選 取對應最大T個候選實體文檔值對應的T個候選實體作為目標實體,其中T > 1。
全文摘要
本發(fā)明公開了一種用于每一個文檔已經(jīng)分成N個域的數(shù)字化文檔集中對其中的M個域搜索目標實體的方法和裝置,該方法包括對每一個候選實體,選擇所有和其有關(guān)系的域數(shù)字化文檔組成此候選實體域文檔;選擇一個域作為當前域,根據(jù)關(guān)鍵詞序列搜索當前域數(shù)字化文檔集,得到域相關(guān)文檔集;對每一個候選實體,動態(tài)選取和其有關(guān)系的域相關(guān)文檔組成候選實體的域相關(guān)文檔;根據(jù)關(guān)鍵詞序列和候選實體域相關(guān)文檔集,計算候選實體域文檔集中每一個候選實體域文檔值;如果在已知的M個域中存在沒有被計算的域,則取其中一個沒有被計算的域作為當前域,并執(zhí)行上述步驟,否則累計候選實體域文檔值從而得到候選實體文檔值;根據(jù)候選實體文檔值,選擇目標實體。
文檔編號G06F17/30GK101183362SQ200610144799
公開日2008年5月21日 申請日期2006年11月14日 優(yōu)先權(quán)日2006年11月14日
發(fā)明者尹悅燕, 剛 李, 游贛梅, 鄭繼川, 魯耀杰 申請人:株式會社理光