專(zhuān)利名稱(chēng):一種回答自然語(yǔ)言問(wèn)題的方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎的技術(shù)領(lǐng)域,具體地涉及一種回答自然語(yǔ)言問(wèn)題的方法,該提供了使用該方法的裝置。
背景技術(shù):
伴隨互聯(lián)網(wǎng)上的信息資源的多樣化趨勢(shì),網(wǎng)絡(luò)上不斷涌現(xiàn)出大量的具有一定組織結(jié)構(gòu)的信息資源載體。當(dāng)前主要基于關(guān)鍵字匹配的搜索引擎技術(shù)雖然在文檔檢索中有著較好的搜索效果,然而卻并不能滿足結(jié)構(gòu)化信息源對(duì)檢索精確性的要求。另一方面,雖然現(xiàn)有的數(shù)據(jù)庫(kù)檢索技術(shù)能夠?qū)崿F(xiàn)精確檢索,然而由于它完全基于特定的數(shù)據(jù)庫(kù)查詢語(yǔ)言,因此無(wú)法實(shí)現(xiàn)面向廣大普通用戶的商用服務(wù)。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問(wèn)題是提供了一種滿足結(jié)構(gòu)化信息源對(duì)檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長(zhǎng)的信息獲取方面的需求的回答自然語(yǔ)言問(wèn)題的方法。本發(fā)明的技術(shù)方案是這種回答自然語(yǔ)言問(wèn)題的方法,包括以下步驟(I)生成實(shí)體-屬性模型,進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提取;(2)執(zhí)行用戶查詢分析,當(dāng)用戶輸入查詢內(nèi)容時(shí),將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。還提供了一種回答自然語(yǔ)言問(wèn)題的裝置,包括(I)實(shí)體-屬性模型,其進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提?。?2)用戶查詢分析模型,當(dāng)用戶輸入查詢內(nèi)容時(shí),利用用戶查詢分析模型將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。由于采用了實(shí)體-屬性對(duì)的模式對(duì)用戶查詢的需求進(jìn)行建模,經(jīng)過(guò)建模,每一個(gè)用戶查詢將對(duì)應(yīng)于一個(gè)實(shí)體-屬性對(duì),而該實(shí)體-屬性對(duì)可以對(duì)大部分現(xiàn)有的結(jié)構(gòu)化或半結(jié)構(gòu)化信息資源進(jìn)行索引,所以滿足結(jié)構(gòu)化信息源對(duì)檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長(zhǎng)的信息獲取方面的需求。
圖I是根據(jù)本發(fā)明的回答自然語(yǔ)言問(wèn)題的方法的流程圖;圖2是步驟(I)的流程圖;圖3是步驟(I. 3)的流程圖;圖4是步驟⑵的流程圖;圖5是步驟(2. 4)的流程圖;圖6是步驟(2. 4. 2)的流程圖。
具體實(shí)施例方式下面對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。如圖I所示,這種回答自然語(yǔ)言問(wèn)題的方法,包括以下步驟(1)生成實(shí)體-屬性模型,進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提取;(2)執(zhí)行用戶查詢分析,當(dāng)用戶輸入查詢內(nèi)容時(shí),將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。由于采用了實(shí)體-屬性對(duì)的模式對(duì)用戶查詢的需求進(jìn)行建模,經(jīng)過(guò)建模,每一個(gè)用戶查詢將對(duì)應(yīng)于一個(gè)實(shí)體-屬性對(duì),而該實(shí)體-屬性對(duì)可以對(duì)大部分現(xiàn)有的結(jié)構(gòu)化或半結(jié)構(gòu)化信息資源進(jìn)行索引,所以滿足結(jié)構(gòu)化信息源對(duì)檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長(zhǎng)的信息獲取方面的需求。優(yōu)選地,如圖2所示,步驟(1)包括以下分步驟(1. 1)實(shí)體抽取從在線的開(kāi)放百科檔案中獲取實(shí)體名;(1. 2)屬性抽取從用戶的查詢內(nèi)容中抽取出每一類(lèi)實(shí)體的屬性名;(1. 3)屬性特征生成從用戶的查詢內(nèi)容中抽取每一屬性相關(guān)的問(wèn)題的最佳答案文本作為該屬性的特征;(I. 4)實(shí)體-屬性對(duì)模型生成將每一個(gè)實(shí)體名和該實(shí)體所具有的屬性名組成實(shí)體-屬性對(duì),并結(jié)合該實(shí)體-屬性對(duì)的屬性特征生成實(shí)體-屬性模型。更進(jìn)一步地,如圖3所示,步驟(1. 3)包括以下分步驟(1. 3. I)檢索出問(wèn)題文本中包含該屬性名的所有問(wèn)答數(shù)據(jù);(1.3.2)過(guò)濾掉問(wèn)題文本中不包含與用戶關(guān)注的實(shí)體名同類(lèi)的實(shí)體名的問(wèn)答數(shù)據(jù);(1. 3. 3)以BM25算法對(duì)檢索出的問(wèn)題依據(jù)它與屬性名的相似程度排序;(1.3.4)將排序結(jié)果中的前k個(gè)問(wèn)題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。優(yōu)選地,如圖4所示,步驟(2)包括以下分步驟(2. 1)查詢預(yù)處理檢測(cè)并回退無(wú)法從結(jié)構(gòu)化或半結(jié)構(gòu)化信息源中檢索出答案的用戶的查詢;(2.2)用戶查詢分析將用戶的查詢內(nèi)容分拆為實(shí)體相關(guān)和屬性相關(guān)兩部分內(nèi)容;(2. 3)用戶查詢所關(guān)注的實(shí)體的提取使用關(guān)鍵詞匹配技術(shù)從實(shí)體相關(guān)的查詢內(nèi)容中提取出用戶關(guān)注的實(shí)體名;(2. 4)用戶查詢所關(guān)注的屬性的提取使用基于語(yǔ)言模型和作者-話題模型的混合模型根據(jù)屬性相關(guān)的查詢內(nèi)容預(yù)測(cè)用戶關(guān)注的屬性名;(2. 5)分析結(jié)果后處理將所提取的用戶關(guān)注的實(shí)體名和屬性名組合成實(shí)體-屬性對(duì),輸出該實(shí)體-屬性對(duì)。更進(jìn)一步地,如圖5所示,步驟(2. 4)包括以下分步驟(2.4. 1)生成候選屬性名列表根據(jù)已經(jīng)提取出的實(shí)體名,得到它所具有的全部屬性作為候選屬性;(2. 4. 2)屬性相關(guān)的查詢內(nèi)容的特征生成從問(wèn)答數(shù)據(jù)中抽取該內(nèi)容文本相關(guān)的問(wèn)題的最佳答案文本作為該查詢內(nèi)容的特征;(2. 4. 3)計(jì)算屬性相關(guān)的查詢內(nèi)容的特征與各候選屬性特征的語(yǔ)義關(guān)聯(lián)使用如下公式計(jì)算該語(yǔ)義關(guān)聯(lián)的數(shù)值rel(phr,att) = μ · relsim(phr, att) + (l~u ) · relint (phr, att)其中,phr表示查詢內(nèi)容,att表示候選屬性,且有,relsim (phr, att) = sim(F , Fatt) = K:
I Fphr Il Ku I reIint (phr, att) = p (a = att | Fphr)其中,F(xiàn)*表示提取出的特征文檔,sim(·,·)為文檔間的相似度計(jì)算,在實(shí)際應(yīng)用中可以采用余弦距離(如上式)或其他具體的度量方法;p(a = · I ·)表示作者-話題模型中的作者對(duì)給定文本的后驗(yàn)概率;(2.4.4)結(jié)果輸出選擇與查詢的語(yǔ)義關(guān)聯(lián)數(shù)值最大的一個(gè)或多個(gè)屬性名,輸出該一個(gè)或多個(gè)屬性名。更進(jìn)一步地,如圖6所示,步驟(2. 4. 2)包括以下分步驟(2. 4. 2. I)檢索出問(wèn)題文本中匹配該內(nèi)容文本的所有問(wèn)答數(shù)據(jù);(2. 4. 2. 2)過(guò)濾掉問(wèn)題文本中不包含與用戶關(guān)注的實(shí)體名同類(lèi)的實(shí)體名的問(wèn)答數(shù)據(jù);(2. 4. 2. 3)以BM25算法對(duì)檢索出的問(wèn)題依據(jù)它與屬性名的相似程度排序;(2.4.2.4)將排序結(jié)果中的前k個(gè)問(wèn)題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。還提供了一種回答自然語(yǔ)言問(wèn)題的裝置,包括(I)實(shí)體-屬性模型,其進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提取;(2)用戶查詢分析模型,當(dāng)用戶輸入查詢內(nèi)容時(shí),利用用戶查詢分析模型將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。以上所述,僅是本發(fā)明的較佳實(shí)施例,并非對(duì)本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護(hù)范圍。
權(quán)利要求
1.一種回答自然語(yǔ)言問(wèn)題的方法,其特征在于包括以下步驟 (1)生成實(shí)體-屬性模型,進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提?。? (2)執(zhí)行用戶查詢分析,當(dāng)用戶輸入查詢內(nèi)容時(shí),將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。
2.根據(jù)權(quán)利要求I所述的回答自然語(yǔ)言問(wèn)題的方法,其特征在于步驟(I)包括以下分步驟 (I. D實(shí)體抽取從在線的開(kāi)放百科檔案中獲取實(shí)體名; (1.2)屬性抽取從用戶的查詢內(nèi)容中抽取出每一類(lèi)實(shí)體的屬性名; (1.3)屬性特征生成從用戶的查詢內(nèi)容中抽取每一屬性相關(guān)的問(wèn)題的最佳答案文本作為該屬性的特征; (1. 4)實(shí)體-屬性對(duì)模型生成將每一個(gè)實(shí)體名和該實(shí)體所具有的屬性名組成實(shí)體-屬性對(duì),并結(jié)合該實(shí)體-屬性對(duì)的屬性特征生成實(shí)體-屬性模型。
3.根據(jù)權(quán)利要求2所述的回答自然語(yǔ)言問(wèn)題的方法,其特征在于步驟(1.3)包括以下分步驟 (I. 3. I)檢索出問(wèn)題文本中包含該屬性名的所有問(wèn)答數(shù)據(jù); (1.3. 2)過(guò)濾掉問(wèn)題文本中不包含與用戶關(guān)注的實(shí)體名同類(lèi)的實(shí)體名的問(wèn)答數(shù)據(jù); (I. 3. 3)以BM25算法對(duì)檢索出的問(wèn)題依據(jù)它與屬性名的相似程度排序; (1.3. 4)將排序結(jié)果中的前k個(gè)問(wèn)題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。
4.根據(jù)權(quán)利要求I所述的回答自然語(yǔ)言問(wèn)題的方法,其特征在于步驟(2)包括以下分步驟 (2. I)查詢預(yù)處理檢測(cè)并回退無(wú)法從結(jié)構(gòu)化或半結(jié)構(gòu)化信息源中檢索出答案的用戶的查詢; (2. 2)用戶查詢分析將用戶的查詢內(nèi)容分拆為實(shí)體相關(guān)和屬性相關(guān)兩部分內(nèi)容; (2. 3)用戶查詢所關(guān)注的實(shí)體的提取使用關(guān)鍵詞匹配技術(shù)從實(shí)體相關(guān)的查詢內(nèi)容中提取出用戶關(guān)注的實(shí)體名; (2. 4)用戶查詢所關(guān)注的屬性的提取使用基于語(yǔ)言模型和作者-話題模型的混合模型根據(jù)屬性相關(guān)的查詢內(nèi)容預(yù)測(cè)用戶關(guān)注的屬性名; (2. 5)分析結(jié)果后處理將所提取的用戶關(guān)注的實(shí)體名和屬性名組合成實(shí)體-屬性對(duì),輸出該實(shí)體-屬性對(duì)。
5.根據(jù)權(quán)利要求4所述的回答自然語(yǔ)言問(wèn)題的方法,其特征在于步驟(2.4)包括以下分步驟 (2. 4. I)生成候選屬性名列表根據(jù)已經(jīng)提取出的實(shí)體名,得到它所具有的全部屬性作為候選屬性; (2.4. 2)屬性相關(guān)的查詢內(nèi)容的特征生成從問(wèn)答數(shù)據(jù)中抽取該內(nèi)容文本相關(guān)的問(wèn)題的最佳答案文本作為該查詢內(nèi)容的特征; (2. 4. 3)計(jì)算屬性相關(guān)的查詢內(nèi)容的特征與各候選屬性特征的語(yǔ)義關(guān)聯(lián)使用如下公式計(jì)算該語(yǔ)義關(guān)聯(lián)的數(shù)值 rel(phr,att) = μ · relsim(phr, att) + (l~u ) · reIint(phr, att)其中,phr表示查詢內(nèi)容,att表示候選屬性,且有,
6.根據(jù)權(quán)利要求5所述的回答自然語(yǔ)言問(wèn)題的方法,其特征在于步驟(2.4.2)包括以下分步驟(2. 4. 2. I)檢索出問(wèn)題文本中匹配該內(nèi)容文本的所有問(wèn)答數(shù)據(jù);(2. 4. 2. 2)過(guò)濾掉問(wèn)題文本中不包含與用戶關(guān)注的實(shí)體名同類(lèi)的實(shí)體名的問(wèn)答數(shù)據(jù); (2. 4. 2. 3)以BM25算法對(duì)檢索出的問(wèn)題依據(jù)它與屬性名的相似程度排序;(2. 4. 2. 4)將排序結(jié)果中的前k個(gè)問(wèn)題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。
7.一種回答自然語(yǔ)言問(wèn)題的裝置,其特征在于包括(1)實(shí)體-屬性模型,其進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提?。?2)用戶查詢分析模型,當(dāng)用戶輸入查詢內(nèi)容時(shí),利用用戶查詢分析模型將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。
全文摘要
公開(kāi)了一種滿足結(jié)構(gòu)化信息源對(duì)檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長(zhǎng)的信息獲取方面的需求的回答自然語(yǔ)言問(wèn)題的方法,包括以下步驟(1)生成實(shí)體-屬性模型,進(jìn)行實(shí)體-屬性對(duì)集合的收集及特征提取;(2)執(zhí)行用戶查詢分析,當(dāng)用戶輸入查詢內(nèi)容時(shí),將該查詢內(nèi)容映射到它對(duì)應(yīng)的用戶需求的實(shí)體-屬性對(duì),其中查詢內(nèi)容即自然語(yǔ)言問(wèn)題。還提供了一種回答自然語(yǔ)言問(wèn)題的裝置。
文檔編號(hào)G06F17/30GK102622413SQ201210038078
公開(kāi)日2012年8月1日 申請(qǐng)日期2012年2月17日 優(yōu)先權(quán)日2012年2月17日
發(fā)明者朱小燕, 郝宇, 黃民烈 申請(qǐng)人:清華大學(xué)