專利名稱:信息處理裝置及信息處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理裝置及信息處理方法,尤其涉及用于信息檢索及顯示的信息處理裝置及信息處理方法。
背景技術(shù):
21世紀(jì),人們步入信息時(shí)代,對(duì)互聯(lián)網(wǎng)絡(luò)信息量的需求也與日俱增。大規(guī)模信息檢索技術(shù)和搜索引擎的應(yīng)用在一定程度上使人們的信息獲取能力得到提高。然而,互聯(lián)網(wǎng)絡(luò)所固有的海量、異構(gòu)、無效數(shù)據(jù)充斥等特點(diǎn),降低了人們獲取信息的準(zhǔn)確性和效率。為了提升用戶體驗(yàn),主流信息檢索系統(tǒng)在用戶檢索需求分析、檢索方法和結(jié)果展現(xiàn)等技術(shù)上取得了一定成就。傳統(tǒng)搜索引擎多采用網(wǎng)頁排序技術(shù)提升用戶體驗(yàn)。例如,搜索引擎 Google (http://www. google, com. hk),在獲取用戶檢索項(xiàng)并檢索網(wǎng)頁后,對(duì)命中網(wǎng)頁按相關(guān)度以列表的形式分頁展現(xiàn)。然而,由于“相關(guān)度”與用戶期望“結(jié)果”的不一致性,用戶期望的“結(jié)果”可能分布在列表的各個(gè)位置,這便產(chǎn)生了兩個(gè)局限性一、排序靠前的網(wǎng)頁往往有很多相似之處,指向同一個(gè)結(jié)果,這浪費(fèi)用戶點(diǎn)擊和閱讀網(wǎng)頁的時(shí)間。二、含有不同“結(jié)果”的網(wǎng)頁如果排序靠后,往往很難被用戶看到,這樣就造成了檢索信息的丟失。為了彌補(bǔ)只采用網(wǎng)頁排序進(jìn)行結(jié)果展現(xiàn)的不足,有文獻(xiàn)和搜索引擎產(chǎn)品提出基于文檔分類的信息檢索技術(shù)。例如,專利文獻(xiàn)1 =Onformation Presentation in A Knowledge Base Search And RetrievalSystem)) (U. S. Patent 5940821)提出了先對(duì)所有的文檔按主題進(jìn)行分類,在檢索命中后,對(duì)待顯示文檔亦按其主題分類顯示。然而,由于用戶期望“結(jié)果”與其所在文檔主題的不一致性,這種檢索技術(shù)也很難滿足用戶檢索的精準(zhǔn)高效的要求。專利文獻(xiàn)2 特開2006-127523號(hào)公報(bào)提出基于文檔聚類的檢索方法和展現(xiàn)方法。然而,該技術(shù)是對(duì)檢索命中的文檔內(nèi)容進(jìn)行聚類,與“結(jié)果”仍有一定不一致性。另外, 不同用語表達(dá)近似語義的情況在聚類展現(xiàn)中亦不能很好的解決。問答系統(tǒng)是信息檢索的高級(jí)形式。它集自然語言處理,信息檢索、知識(shí)表示等技術(shù)于一體,旨在接受用戶的自然語言提問,而后返回簡潔準(zhǔn)確的答案。例如,專利文獻(xiàn)3 特開 2006-163491號(hào)公報(bào)提出一種基于用戶輸入問題的問答系統(tǒng)。然而,由于互聯(lián)網(wǎng)絡(luò)上信息表現(xiàn)形式的多樣性、內(nèi)容的豐富性和計(jì)算機(jī)推理能力的有限性,基于廣闊的互聯(lián)網(wǎng)絡(luò)的問答系統(tǒng)很難返回簡潔準(zhǔn)確的答案。實(shí)際應(yīng)用中,問答系統(tǒng)的答案來源主要是特定的知識(shí)庫,因此其使用領(lǐng)域受到限制。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種信息處理裝置和信息處理方法,能對(duì)用戶提供檢索結(jié)果的總體概況,并以分組的形式向用戶展現(xiàn),減少閱讀的不便,提高檢索效率。本發(fā)明的信息處理裝置,從外部接收檢索問題的輸入,將對(duì)檢索問題的處理結(jié)果進(jìn)行分組,并輸出分組結(jié)果。
4
本發(fā)明的信息處理裝置,具有問題分析和檢索項(xiàng)生成模塊,對(duì)檢索問題進(jìn)行分析,生成檢索項(xiàng);文檔檢索模塊,接收上述問題分析和檢索項(xiàng)生成模塊所生成的檢索項(xiàng),進(jìn)行文檔檢索;結(jié)果抽取和過濾模塊,抽取所檢索的結(jié)果并對(duì)結(jié)果進(jìn)行過濾;以及結(jié)果分組模塊,對(duì)上述過濾后的結(jié)果進(jìn)行分組。本發(fā)明的信息處理裝置,上述文檔檢索模塊根據(jù)語義對(duì)上述問題分析和檢索項(xiàng)生成模塊生成的檢索項(xiàng)進(jìn)行擴(kuò)展,使用擴(kuò)展后的檢索項(xiàng)進(jìn)行文檔檢索;上述結(jié)果抽取和過濾模塊,根據(jù)上述問題分析和檢索項(xiàng)生成模塊生成的檢索問題的問題模式,在答案模式庫中檢索得到對(duì)應(yīng)的答案模式,然后,用答案模式在解析后的命中文檔中匹配得到候選結(jié)果,根據(jù)候選結(jié)果的語義信息進(jìn)行過濾;上述結(jié)果分組模塊,對(duì)于上述結(jié)果抽取和過濾模塊所抽取并過濾的結(jié)果,分詞并進(jìn)行詞權(quán)重計(jì)算,進(jìn)而進(jìn)行向量空間表示,然后計(jì)算所有結(jié)果之間的語義距離,依據(jù)語義距離將結(jié)果聚類,形成多個(gè)結(jié)果組。本發(fā)明的信息處理裝置,還具有分組結(jié)果分析和報(bào)告生成模塊,對(duì)分組的結(jié)果進(jìn)行分析,并且生成分組結(jié)果報(bào)告。本發(fā)明的信息處理裝置,上述分組結(jié)果分析和報(bào)告生成模塊,對(duì)結(jié)果組內(nèi)的文檔數(shù)量、文檔發(fā)布時(shí)間、文檔來源等信息進(jìn)行統(tǒng)計(jì)分析,生成分組結(jié)果報(bào)告。本發(fā)明的信息處理裝置,還具有問題輸入模塊,接收從外部輸入的檢索問題;和顯示模塊,從分組結(jié)果分析和報(bào)告生成模塊獲取信息,并顯示分組結(jié)果。本發(fā)明的信息處理裝置,也可以還具有數(shù)據(jù)庫。本發(fā)明的信息處理裝置,也可以通過網(wǎng)絡(luò)與數(shù)據(jù)庫連接。本發(fā)明的信息處理裝置,上述數(shù)據(jù)庫中存儲(chǔ)有問題模式庫、答案模式庫、語義詞典庫、詞法分析語料庫、句法分析語料庫。本發(fā)明的信息處理裝置,也可以是,具有問題分類模塊,對(duì)所輸入的問題進(jìn)行分類;基于句子相似的結(jié)果抽取模塊,從待檢索文檔中檢索得到輸入問題的結(jié)果;結(jié)果分組模塊,對(duì)所得到的結(jié)果進(jìn)行分組;以及顯示模塊,顯示分組結(jié)果。本發(fā)明的信息處理裝置可以是信息檢索裝置。本發(fā)明的信息處理方法,包括從外部接收檢索問題的輸入的步驟;以及輸出分組結(jié)果的步驟。本發(fā)明的信息處理方法,還包括問題分析和檢索生成步驟,對(duì)檢索問題進(jìn)行分析,生成檢索項(xiàng);文檔檢索步驟,接收問題分析和檢索生成步驟中所生成的檢索項(xiàng),進(jìn)行文檔檢索,結(jié)果抽取和過濾步驟,抽取所檢索的結(jié)果并對(duì)結(jié)果進(jìn)行過濾;以及結(jié)果分組步驟, 對(duì)上述過濾后的結(jié)果進(jìn)行分組。本發(fā)明的信息處理方法,還包括上述文檔檢索步驟中,根據(jù)語義對(duì)上述問題分析和檢索生成步驟中生成的檢索項(xiàng)進(jìn)行擴(kuò)展,使用擴(kuò)展后的檢索項(xiàng)進(jìn)行文檔檢索;上述結(jié)果抽取和過濾步驟中,根據(jù)上述問題分析和檢索生成步驟中生成的檢索問題的問題模式,在答案模式庫中檢索得到對(duì)應(yīng)的答案模式,然后,用答案模式在解析后的命中文檔中匹配得到候選結(jié)果,根據(jù)候選結(jié)果的語義信息進(jìn)行過濾;上述結(jié)果分組步驟中,對(duì)于上述結(jié)果抽取和過濾步驟中所抽取并過濾的結(jié)果,分詞并進(jìn)行詞權(quán)重計(jì)算,進(jìn)而進(jìn)行向量空間表示,然后計(jì)算所有結(jié)果之間的語義距離,依據(jù)語義距離將結(jié)果聚類,形成多個(gè)結(jié)果組。本發(fā)明的信息處理方法,還包括分組結(jié)果分析和報(bào)告生成步驟,對(duì)分組的結(jié)果進(jìn)行分析,并且生成分組結(jié)果報(bào)告。本發(fā)明的信息處理方法,上述分組結(jié)果分析和報(bào)告生成步驟中,對(duì)結(jié)果組內(nèi)的文檔數(shù)量、文檔發(fā)布時(shí)間、文檔來源等信息進(jìn)行統(tǒng)計(jì)分析,生成分組結(jié)果報(bào)告。本發(fā)明的信息處理方法,還包括問題輸入步驟,接收從外部輸入的檢索問題;和顯示步驟,根據(jù)上述分組結(jié)果分析和報(bào)告生成步驟中獲取的信息,顯示分組結(jié)果。本發(fā)明的信息處理方法,也可以是,包括問題分類步驟,對(duì)所輸入的問題進(jìn)行分類;基于句子相似的結(jié)果抽取步驟,從待檢索文檔中檢索得到輸入問題的結(jié)果;結(jié)果分組步驟,對(duì)所得到的結(jié)果進(jìn)行分組;以及顯示步驟,顯示分組結(jié)果。發(fā)明的效果本發(fā)明能從語義層次上對(duì)檢索結(jié)果進(jìn)行分組展現(xiàn),用戶無需通過大量閱讀文檔, 就可以方便地了解檢索“結(jié)果”的總體情況,有效地節(jié)省了檢索時(shí)間。采用本發(fā)明進(jìn)行信息檢索,可以避免已有檢索技術(shù)的少量“結(jié)果”不易甚至不能夠被用戶看到的情況。另外,采用本發(fā)明進(jìn)行信息檢索,可以通過閱讀報(bào)告的形式對(duì)結(jié)果支持信息進(jìn)一步了解,對(duì)于用戶的人工決策起到輔助作用。
圖1是本發(fā)明的信息處理裝置的結(jié)構(gòu)圖。圖2是實(shí)施例1的信息處理裝置的模塊結(jié)構(gòu)示意圖。圖3是實(shí)施例1的數(shù)據(jù)庫的信息庫組成圖。圖4是實(shí)施例1的問題分析和檢索項(xiàng)生成模塊的處理流程圖。圖5是實(shí)施例1的文檔檢索模塊的處理流程圖。圖6是實(shí)施例1的結(jié)果抽取和過濾模塊的處理流程圖。圖7是實(shí)施例1的結(jié)果分組模塊的處理流程圖。圖8是實(shí)施例1的分組結(jié)果分析和報(bào)告生成模塊的處理流程圖。圖9是實(shí)施例1的結(jié)果顯示窗口示例。圖10是實(shí)施例1的用戶問題接收窗口示例。圖11是實(shí)施例2的信息處理裝置的模塊結(jié)構(gòu)示意圖。圖12是實(shí)施例2的問題分類模塊的處理流程圖。圖13是實(shí)施例2的基于句子相似結(jié)果抽取模塊的處理流程圖。圖14是實(shí)施例2的結(jié)果分組模塊的處理流程圖。圖15是實(shí)施例2的結(jié)果顯示窗口示例。
具體實(shí)施例方式下面參照附圖詳細(xì)說明本發(fā)明的具體實(shí)施方式
。但是,這些只是適用于本發(fā)明的實(shí)施例,本發(fā)明不限定于這些實(shí)施例。如圖1所示,信息處理裝置從外部接收檢索問題的輸入,并輸出分組結(jié)果。<實(shí)施方式一 >如圖2所示,信息處理裝置100包括數(shù)據(jù)庫1100,問題輸入模塊1200,問題分析和檢索項(xiàng)生成模塊1300,文檔檢索模塊1400,結(jié)果抽取和過濾模塊1500,結(jié)果分組模塊1600, 分組結(jié)果分析和報(bào)告生成模塊1700和顯示模塊1800。數(shù)據(jù)庫1100用于存儲(chǔ)問答模式庫、語義詞典庫等。為問題分析和檢索項(xiàng)生成模塊 1300提供問題模式,為文檔檢索模塊1400提供語義知識(shí)支持,為結(jié)果抽取和過濾模塊1500 及結(jié)果分組模塊1600提供語義知識(shí)支持、答案模式。輸入模塊1200用于接收用戶輸入的問題,檢查輸入問題的規(guī)范性,保證將正確格式的問題提交到服務(wù)器端的問題分析和檢索項(xiàng)生成模塊1300。具體地,可以從本地獲取,也可以通過遠(yuǎn)程客戶端接收用戶輸入的檢索問題。問題分析和檢索項(xiàng)生成模塊1300用于接收輸入模塊1200所提交的問題,調(diào)用數(shù)據(jù)庫1100中的數(shù)據(jù)進(jìn)行問題分析,包括分詞、詞性標(biāo)注、句法分析,而后根據(jù)問題分析的結(jié)果,與數(shù)據(jù)庫服務(wù)器1100中的問題模式相匹配,得到對(duì)應(yīng)的問題模式ID和檢索項(xiàng),然后將問題模式ID和檢索項(xiàng)提交給文檔檢索模塊1400。文檔檢索模塊1400用于接收問題分析和檢索項(xiàng)生成模塊1300提交的問題模式ID 和檢索項(xiàng),調(diào)用數(shù)據(jù)庫服務(wù)器1100中的語義詞典對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展,而后用擴(kuò)展后的檢索項(xiàng)對(duì)互聯(lián)網(wǎng)上的各種文檔進(jìn)行檢索,含有關(guān)鍵詞的檢索對(duì)象為命中文檔。文檔檢索模塊對(duì)命中文檔進(jìn)行語言解析,包括分詞、詞性標(biāo)注、句法分析,然后將分析結(jié)果和問題模式ID提交到結(jié)果抽取和過濾模塊1500。結(jié)果抽取和過濾模塊1500接收文檔檢索模塊1400提交的問題模式ID和命中文檔信息,從數(shù)據(jù)庫服務(wù)器1100中的答案模式中抽取出問題模式ID對(duì)應(yīng)的答案模式,使用答案模式在命中文檔信息中匹配到問題的結(jié)果,而后從根據(jù)問題模式和語義詞典進(jìn)行結(jié)果的過濾,將符合語義信息的結(jié)果和其對(duì)應(yīng)的文檔ID提交到結(jié)果分組模塊1600。結(jié)果分組模塊1600在接收結(jié)果文檔信息后,對(duì)每一結(jié)果中的詞權(quán)重進(jìn)行計(jì)算,將每一結(jié)果表示為向量空間模型,然后調(diào)用數(shù)據(jù)庫服務(wù)器1100中的語義詞典,計(jì)算結(jié)果之間的語義距離,根據(jù)語義距離對(duì)結(jié)果進(jìn)行聚類,形成分組。最后將組別信息、結(jié)果以及對(duì)應(yīng)的文檔信息提交給分組結(jié)果分析和報(bào)告生成模塊1700。分組結(jié)果分析和報(bào)告生成模塊1700在收到結(jié)果分組模塊1600提交的信息后,對(duì)一個(gè)分組進(jìn)行結(jié)果數(shù)量、文檔來源、文檔發(fā)布時(shí)間等統(tǒng)計(jì),進(jìn)而生成分組結(jié)果報(bào)告。最后將該報(bào)告和分組信息、組內(nèi)文檔ID信息發(fā)送給客戶端的顯示模塊1800。顯示模塊1800從分組結(jié)果分析和報(bào)告生成模塊1700獲取信息,以圖8的形式返回給用戶。下面分別舉例對(duì)數(shù)據(jù)庫1100和服務(wù)器端模塊進(jìn)行進(jìn)一步的詳細(xì)說明。如圖3所示,數(shù)據(jù)庫1100用于存儲(chǔ)問題模式庫1101、答案模式庫1102、語義詞典庫1103、詞法分析語料庫1104、句法分析語料庫1105。為問題分析和檢索項(xiàng)生成模塊1300 提供問題模式和其對(duì)應(yīng)的答案模式,為結(jié)果分組模塊1600進(jìn)行語義距離計(jì)算提供支持,以及對(duì)各個(gè)模塊內(nèi)需要的分詞、詞性標(biāo)注、句法分析提供支持。其中問題模式庫1101包含問題模式和問題類型信息。例如,對(duì)于一種提問物體顏色的模式為<QuestionPatternID = 1 ;QuestionType =“顏色,,;Pattern = "key = [NP]顏色是什么”;AnswerPattern ID = “ 1 2 3” >,具體為
QuestionPatterID 表示問題模式的 ID。QuestionType表示該問題模式提問的是“顏色”。Pattern是具體的問題的模式,其中“NP”是句法分析中的“名詞短語”,key = [NP] 指該名詞短語“ NP ”是關(guān)鍵字,將會(huì)在答案模式中填充“ key,,這個(gè)變量。AnswerPatternID是對(duì)應(yīng)答案模式的ID,可根據(jù)答案模式的ID在答案模式庫中檢索得到答案模式。其中答案模式庫Il02包含答案模式,例如,對(duì)于一種回答物體顏色的模式為<AnswerPatternID = 1 ;Pattern = "key = [NP]是X 的” >,亦包括<AnswerPatternID = 2 ;Pattern = "key = [NP]:顏色:是X,,>,<AnswerPatternID = 3 ;Pattern = "ADV:X:的:key = [NP],,>。具體為AnswerPatternID是答案模式的ID,可以由一個(gè)或多個(gè)問題模式ID對(duì)應(yīng)。Pattern為具體答案模式,答案模式中的X為應(yīng)當(dāng)抽取的答案,key = NP表示此處用問題模式中的NP填充此處。同一問題類型的問題模式可有多種,同一問題類型的答案模式也可有多種。問題模式和答案模式可以人工總結(jié),也可以通過計(jì)算機(jī)輔助的方式總結(jié)。其中1103語義詞典為包含語義信息的語義知識(shí)庫,可以為查詢詞的同義詞,詞的義項(xiàng),以及兩個(gè)詞之間的語義距離提供支持。其中詞法分析語料庫1104包括漢語分詞信息和詞性標(biāo)注信息;句法分析語料庫 1105包括短語結(jié)構(gòu)推導(dǎo)信息。如圖4所示,問題分析和檢索項(xiàng)生成模塊1300的處理流程為問題接收步驟S1301, 問題詞法分析步驟S1302,問題句法分析步驟S1303,問句模式檢索步驟S1304,檢索項(xiàng)抽取步驟S1305。在問題詞法分析步驟S1302中進(jìn)行中文分詞和詞性標(biāo)注。在此,中文分詞的方法沒有特殊的限定,例如可以用基于詞典的雙向最大長度匹配分詞,也可以使用基于統(tǒng)計(jì)分類的分詞方法如最大熵。在此,分詞后的詞性標(biāo)注的方法也沒有特殊限定,例如可以用基于 HMM的詞性標(biāo)注方法,也可以使用基于分類的詞性標(biāo)注方法如最大熵。在問題句法分析步驟S1303中,將經(jīng)過詞法分析的問題進(jìn)行句法分析,用于識(shí)別句子的語法結(jié)構(gòu)信息,如名詞短語,介詞短語等。在此,句法分析的方法不作限制,例如可使用線圖法生成完整的句法樹,也可以用淺層句法分析獲得語法結(jié)構(gòu)信息。例如,問句“美國的西紅柿顏色是什么”,經(jīng)過詞法分析后應(yīng)當(dāng)為美國/ns的/u西紅柿/n顏色/n是/V什么/r.經(jīng)過淺層句法分析后應(yīng)當(dāng)為[[美國/ns的/u西紅柿/n]NP顏色]NP [是/V什么/r] VP在問題模式檢索步驟S1304中,用經(jīng)過句法分析后的問題與問題模式庫中的模式進(jìn)行匹配,可得到問題模式的ID,例如,上例匹配到問題模式1,“NP:顏色是什么”。在檢索項(xiàng)抽取步驟S1305中,用句法分析后的問題信息填充問題模式,而后將填充后的問題模式去停用詞,得到檢索項(xiàng)。例如上例中的問題模式經(jīng)過填充并刪除停用詞 “的”、“是”和“什么”后,得到檢索項(xiàng)“美國西紅柿顏色”。如圖5所示,文檔檢索模塊1400的處理流程包括檢索項(xiàng)接收步驟S1401,檢索項(xiàng)同義詞檢索步驟S1402,檢索項(xiàng)擴(kuò)展步驟S1403,文檔檢索步驟S1404,命中文檔語言解析步驟 S1405。檢索項(xiàng)同義詞檢索步驟S1402用于將接收的檢索項(xiàng)逐一在語義詞典中檢索,分別取得其同義詞。例如西紅柿,經(jīng)過同義詞檢索后得到同義詞“番茄”。檢索項(xiàng)擴(kuò)展步驟S1403用于將檢索項(xiàng)擴(kuò)展為多個(gè)同義詞的檢索項(xiàng)。例如“美國西紅柿顏色”經(jīng)過擴(kuò)展后得到檢索項(xiàng)“美國西紅柿I番茄顏色”。文檔檢索步驟S1404用于使用信息檢索的方法,在網(wǎng)絡(luò)文檔300中進(jìn)行檢索。在此,對(duì)信息檢索的方法不作限制,可以使用倒排索引的檢索方式,亦可使用模式匹配的檢索方式。命中文檔語言解析步驟S1405用于將檢索到的文檔詞法分析和句法分析。如圖6所示,結(jié)果抽取和過濾模塊1500的處理流程包括問句類型和命中文檔接收步驟S1501,答案模式檢索步驟S1502,結(jié)果抽取步驟S1503,結(jié)果過濾步驟S1504。答案模式檢索步驟S1502用于在接收問題模式ID的同時(shí)也得到其對(duì)應(yīng)的答案模式的ID,并據(jù)此在答案模式庫1102中檢索得到答案模式。例如<AnswerPatternID = 1 ;Pattern = "key = NP:是X 的,,>,<AnswerPatternID = 2 ;Pattern = "key = NP:顏色是X,,>,<AnswerPatternID = 3 ;Pattern = "ADV:X:的:key = NP,,>。結(jié)果抽取步驟S1503首先用問題模式中的關(guān)鍵字填充答案模式,例如因“NP”是 “美國西紅柿”,則得到三個(gè)填充后的答案模式"key =美國西紅柿是X的”"key =美國西紅柿顏色是X”"ADV:X:的美國西紅柿”而后用填充后的答案模式在解析后的命中文檔中匹配,得到結(jié)果X。例如□內(nèi)的為抽取出的答案。美國的西紅柿是[紅色]的。美國西紅柿的顏色是[粉紅]的。美國西紅柿的顏色是[赤]的。彳艮[粉紅]的美國西紅柿。很[小]的美國西紅柿。結(jié)果過濾步驟S1504用于使用結(jié)果抽取步驟S1503所獲取的結(jié)果的義項(xiàng),如果一個(gè)結(jié)果的義項(xiàng)中沒有包含問題模式中的類型,則該結(jié)果因不合語義而被淘汰。例如前例中“美國的西紅柿的顏色是什么”在步驟S1304中得到問題模式1,其問題類型為“顏色”。對(duì)步驟S1503獲取的結(jié)果進(jìn)行義項(xiàng)分析,在此顯示其部分義項(xiàng)為紅色=ADJ aValue屬性值,color顏色,red紅…赤=ADJaValue 屬性值,color 顏色,red 紅…粉紅=ADJaValue 屬性值,color 顏色,red 紅小=ADJaValue 屬性值,age 年齡,young | 幼…可以獲取,“紅色”、“赤”和“粉紅”都有屬于“顏色”的義項(xiàng),而“小”沒有屬于“顏色”的義項(xiàng),因此結(jié)果“小”不符合語義,淘汰掉。經(jīng)過過濾的結(jié)果集,不僅符合詞法、句法層次上的要求,而且在語義上符合問題的提問,提高檢索結(jié)果的準(zhǔn)確率。步驟S1504將經(jīng)過過濾的結(jié)果信息、結(jié)果所屬的文檔信息送入結(jié)果分組模塊 1600。如圖7所示,結(jié)果分組模塊1600的處理流程包含結(jié)果和文檔信息接收步驟S1601, 計(jì)算結(jié)果中的詞權(quán)重的步驟S1602,結(jié)果轉(zhuǎn)換到向量空間模型步驟S1603、計(jì)算結(jié)果向量語義距離步驟S1604,結(jié)果向量聚類步驟S1605。計(jì)算結(jié)果中的詞權(quán)重步驟S1602用于,為每一個(gè)結(jié)果中詞賦于一個(gè)權(quán)重,在此對(duì)計(jì)算方法不作限制。例如可以以詞在該結(jié)果中出現(xiàn)的次數(shù)作為該詞的權(quán)重。結(jié)果轉(zhuǎn)換到向量空間模型S1603將每一個(gè)結(jié)果用一組特征向量表示,如V(r) = (word1 Weight1 (r) ;word2, Weight2 (r) *** wordi Weighti (r));計(jì)算結(jié)果向量的語義距離步驟S1604用于,對(duì)于任意兩個(gè)結(jié)果向量R1, &,調(diào)用語義詞典1103,計(jì)算兩組結(jié)果向量的距離。具體的為,
權(quán)利要求
1.一種信息處理裝置,其特征在于,從外部接收檢索問題的輸入,將對(duì)檢索問題的處理結(jié)果進(jìn)行分組,并輸出分組結(jié)果。
2.如權(quán)利要求1所述的信息處理裝置,其特征在于,具有問題分析和檢索項(xiàng)生成模塊(1300),對(duì)檢索問題進(jìn)行分析,生成檢索項(xiàng); 文檔檢索模塊(1400),接收上述問題分析和檢索項(xiàng)生成模塊(1300)所生成的檢索項(xiàng), 進(jìn)行文檔檢索;結(jié)果抽取和過濾模塊(1500),抽取所檢索的結(jié)果并對(duì)結(jié)果進(jìn)行過濾;以及結(jié)果分組模塊(1600),對(duì)上述過濾后的結(jié)果進(jìn)行分組。
3.如權(quán)利要求2所述的信息處理裝置,其特征在于,上述文檔檢索模塊(1400)根據(jù)語義對(duì)上述問題分析和檢索項(xiàng)生成模塊(1300)生成的檢索項(xiàng)進(jìn)行擴(kuò)展,使用擴(kuò)展后的檢索項(xiàng)進(jìn)行文檔檢索;上述結(jié)果抽取和過濾模塊(1500),根據(jù)上述問題分析和檢索項(xiàng)生成模塊(1300)生成的檢索問題的問題模式,在答案模式庫中檢索得到對(duì)應(yīng)的答案模式,然后,用答案模式在解析后的命中文檔中匹配得到候選結(jié)果,根據(jù)候選結(jié)果的語義信息進(jìn)行過濾;上述結(jié)果分組模塊(1600),對(duì)于上述結(jié)果抽取和過濾模塊(1500)所抽取并過濾的結(jié)果,分詞并進(jìn)行詞權(quán)重計(jì)算,進(jìn)而進(jìn)行向量空間表示,然后計(jì)算所有結(jié)果之間的語義距離, 依據(jù)語義距離將結(jié)果聚類,形成多個(gè)結(jié)果組。
4.如權(quán)利要求2所述的信息處理裝置,其特征在于,還具有分組結(jié)果分析和報(bào)告生成模塊(1700),對(duì)分組的結(jié)果進(jìn)行分析,并且生成分組結(jié)果報(bào)告。
5.如權(quán)利要求3所述的信息處理裝置,其特征在于,上述分組結(jié)果分析和報(bào)告生成模塊(1700),對(duì)結(jié)果組內(nèi)的文檔數(shù)量、文檔類型、文檔發(fā)布時(shí)間、文檔來源等信息進(jìn)行統(tǒng)計(jì)分析,生成分組結(jié)果報(bào)告。
6.如權(quán)利要求4所述的信息處理裝置,其特征在于, 還具有問題輸入模塊(1200),接收從外部輸入的檢索問題;和顯示模塊(1800),從上述分組結(jié)果分析和報(bào)告生成模塊(1700)獲取信息,并顯示分組結(jié)果。
7.如權(quán)利要求6所述的信息處理裝置,其特征在于, 還具有數(shù)據(jù)庫(1100)。
8.如權(quán)利要求6所述的信息處理裝置,其特征在于, 該處理裝置通過網(wǎng)絡(luò)與數(shù)據(jù)庫連接。
9.如權(quán)利要求7所述的信息處理裝置,其特征在于,上述數(shù)據(jù)庫(1100)中存儲(chǔ)有問題模式庫(1101)、答案模式庫(1102)、語義詞典庫 (1103)、詞法分析語料庫(1104)、句法分析語料庫(1105)。
10.如權(quán)利要求1所述的信息處理裝置,其特征在于,具有 問題分類模塊(2100),對(duì)所輸入的問題進(jìn)行分類;基于句子相似的結(jié)果抽取模塊(2200),從待檢索文檔中檢索得到輸入問題的結(jié)果; 結(jié)果分組模塊(2300),對(duì)所得到的結(jié)果進(jìn)行分組;以及顯示模塊(MOO),顯示分組結(jié)果。
11.如權(quán)利要求1所述的信息處理裝置,其特征在于,所述信息處理裝置是信息檢索裝置。
12.一種信息處理方法,其特征在于,包括 從外部接收檢索問題的輸入的步驟;以及輸出分組結(jié)果的步驟。
13.如權(quán)利要求12所述的信息處理方法,其特征在于,還包括 問題分析和檢索生成步驟,對(duì)檢索問題進(jìn)行分析,生成檢索項(xiàng);文檔檢索步驟,接收問題分析和檢索生成步驟中所生成的檢索項(xiàng),進(jìn)行文檔檢索, 結(jié)果抽取和過濾步驟,抽取所檢索的結(jié)果并對(duì)結(jié)果進(jìn)行過濾;以及結(jié)果分組步驟,對(duì)上述過濾后的結(jié)果進(jìn)行分組。
14.如權(quán)利要求13所述的信息處理方法,其特征在于,還包括上述文檔檢索步驟中,根據(jù)語義對(duì)上述問題分析和檢索生成步驟中生成的檢索項(xiàng)進(jìn)行擴(kuò)展,使用擴(kuò)展后的檢索項(xiàng)進(jìn)行文檔檢索;上述結(jié)果抽取和過濾步驟中,根據(jù)上述問題分析和檢索生成步驟中生成的檢索問題的問題模式,在答案模式庫中檢索得到對(duì)應(yīng)的答案模式,然后,用答案模式在解析后的命中文檔中匹配得到候選結(jié)果,根據(jù)候選結(jié)果的語義信息進(jìn)行過濾;上述結(jié)果分組步驟中,對(duì)于上述結(jié)果抽取和過濾步驟中所抽取并過濾的結(jié)果,分詞并進(jìn)行詞權(quán)重計(jì)算,進(jìn)而進(jìn)行向量空間表示,然后計(jì)算所有結(jié)果之間的語義距離,依據(jù)語義距離將結(jié)果聚類,形成多個(gè)結(jié)果組。
15.如權(quán)利要求13所述的信息處理方法,其特征在于,還包括分組結(jié)果分析和報(bào)告生成步驟,對(duì)分組的結(jié)果進(jìn)行分析,并且生成分組結(jié)果報(bào)生1=1 O
16.如權(quán)利要求15所述的信息處理方法,其特征在于,上述分組結(jié)果分析和報(bào)告生成步驟中,對(duì)結(jié)果組內(nèi)的文檔數(shù)量、文檔發(fā)布時(shí)間、文檔來源等信息進(jìn)行統(tǒng)計(jì)分析,生成分組結(jié)果報(bào)告。
17.如權(quán)利要求15所述的信息處理方法,其特征在于, 還包括問題輸入步驟,接收從外部輸入的檢索問題;和顯示步驟,根據(jù)上述分組結(jié)果分析和報(bào)告生成步驟中獲取的信息,顯示分組結(jié)果。
18.如權(quán)利要求12所述的信息處理方法,其特征在于,包括 問題分類步驟,對(duì)所輸入的問題進(jìn)行分類;基于句子相似的結(jié)果抽取步驟,從待檢索文檔中檢索得到輸入問題的結(jié)果; 結(jié)果分組步驟,對(duì)所得到的結(jié)果進(jìn)行分組;以及顯示步驟,顯示分組結(jié)果。
全文摘要
本發(fā)明提供一種信息處理裝置及信息處理方法,從外部接收檢索問題的輸入,將對(duì)檢索問題的處理結(jié)果進(jìn)行分組,并輸出分組結(jié)果。該信息處理裝置,具有問題分析和檢索項(xiàng)生成模塊(1300),對(duì)檢索問題進(jìn)行分析,生成檢索項(xiàng);文檔檢索模塊(1400),接收問題分析和檢索項(xiàng)生成模塊(1300)所生成的檢索項(xiàng),進(jìn)行文檔檢索;結(jié)果抽取和過濾模塊(1500),抽取所檢索的結(jié)果并對(duì)結(jié)果進(jìn)行過濾;以及結(jié)果分組模塊(1600),對(duì)上述過濾后的結(jié)果進(jìn)行分組。
文檔編號(hào)G06F17/30GK102456060SQ201010530430
公開日2012年5月16日 申請(qǐng)日期2010年10月28日 優(yōu)先權(quán)日2010年10月28日
發(fā)明者劉宏建, 周泉, 國德峰, 永松健司, 鄧攀 申請(qǐng)人:株式會(huì)社日立制作所