專利名稱:一種基于問答系統(tǒng)的信息匹配方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),具體的說,涉及一種基于問答系統(tǒng)的信息匹配方法及系統(tǒng)。
背景技術(shù):
有研究表明,面對互聯(lián)網(wǎng)的海量用戶信息,大多數(shù)用戶都將搜索引擎作為訪問互聯(lián)網(wǎng)以獲取信息的起點。傳統(tǒng)搜索引擎以網(wǎng)頁搜索為主,大多采用關(guān)鍵字匹配的方式返回包含所搜索關(guān)鍵詞的網(wǎng)頁列表,由用戶點擊網(wǎng)頁后查看。隨著科技的不斷發(fā)展,手機、 PDA(個人數(shù)據(jù)助理)等手持設(shè)備逐漸普及,越來越多的用戶通過手持設(shè)備訪問互聯(lián)網(wǎng),傳統(tǒng)搜索引擎的弊端也開始顯現(xiàn)。手持設(shè)備的屏幕大小和通信效率對信息容量的限制,使得傳統(tǒng)搜索引擎所返回的網(wǎng)頁列表不適用于展示給用戶。問答系統(tǒng)是解決這一矛盾的方案之
ο問答系統(tǒng)和傳統(tǒng)網(wǎng)頁搜索的區(qū)別在于,用戶可以以自然語言形式的句子向系統(tǒng)提問,系統(tǒng)分析用戶問題后,精確的返回用戶問題的答案。例如,用戶希望搜索問題“中國最長的河是哪條?”傳統(tǒng)網(wǎng)頁搜索返回的可能是包含“中國”、“最長”、“河”、“哪里”等關(guān)鍵字的網(wǎng)頁地址,用戶需要點擊網(wǎng)頁后自己查找答案。而利用問答系統(tǒng),將直接返回用戶答案“長江”。避免了二次瀏覽,提高了用戶體驗。目前的問答系統(tǒng)不管采用何種方法進行答案檢索,大都會配備問答知識庫,該知識庫往往存儲一些常用問題,問題的答案采用自動爬取或?qū)<揖S護的方式得到。在用戶提問的時候,如果問題和知識庫中的問題匹配成功,則直接返回知識庫中的答案。知識庫的結(jié)構(gòu)多為一對一的問答對形式,即例如問題是“中國最長的河是哪條”,答案是“長江”,這樣的一組問答作為知識庫中的一組問答對,知識庫中存儲有多組這樣的常問問題的問答對。 問答系統(tǒng)根據(jù)用戶的提問在知識庫中搜索與用戶提問最匹配的知識庫中的問題形式,進而給出該問題的答案。在基于知識庫的問句匹配方法里,從排序上來說,已有的方法集中在語義、語法及傳統(tǒng)信息論排序方法等三個方面。傳統(tǒng)的信息論排序方法,如在網(wǎng)頁搜索中常用的TF-IDF 值排序方法在問句匹配中作用有限。由于問答系統(tǒng)的問句往往比較短,詞頻信息在問句中比較集中也比較少,多是1-2次,因此很難體現(xiàn)出TF-IDF在詞頻信息上所包含的意義。利用語義匹配度的排序方法(包括利用語義信息計算距離的向量空間方法)一般需要遍歷候選集,存在時間復(fù)雜度高的問題。且語義距離信息目前為止質(zhì)量并不高,可靠性和覆蓋性限制了適用范圍。基于語法信息匹配度的排序方法,由于漢語的靈活性和語法不嚴格性,往往是對前兩種方法的補充,提取1-2個明顯的語法特征用于計算排序,并不能單獨用于排序方法, 且同樣存在計算復(fù)雜和精度不高的問題,會直接影響排序結(jié)果。綜上,現(xiàn)有技術(shù)中,問答系統(tǒng)中的信息匹配,具體說,問句信息的匹配方法仍然存在不少的缺陷,匹配精度和匹配效率都有待提高。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,提供一種基于問答系統(tǒng)的信息匹配方法及系統(tǒng), 能夠高效準確的實現(xiàn)基于問答系統(tǒng)的信息匹配。為解決上述技術(shù)問題,本發(fā)明采用了以下技術(shù)方案一種基于問答系統(tǒng)的信息匹配方法,包括為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。在本發(fā)明的一種實施例中,按照如下方式更新所述用戶交互行為表征參數(shù)如果用戶交互行為反饋信息為正反饋,提高用戶交互行為表征參數(shù);如果用戶交互行為反饋信息為負反饋,降低用戶交互行為表征參數(shù)。在本發(fā)明的一種實施例中,還包括設(shè)置懲罰因子,以加權(quán)用戶交互行為反饋信息對用戶交互行為表征參數(shù)的降低程度。在本發(fā)明的一種實施例中,根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集通過如下方式進行利用自然語言技術(shù)對用戶提問信息進行語法分析,按照語法分析從用戶提問信息中提取出關(guān)鍵詞;在問答系統(tǒng)知識庫中檢索包含所述關(guān)鍵詞的問題信息,按照預(yù)設(shè)的關(guān)鍵詞覆蓋率閾值,將達到或超過所述關(guān)鍵詞覆蓋率閾值的問題信息選出形成所述問題候選集。在本發(fā)明的一種實施例中,所述用戶交互行為表征參數(shù)為全局頻率與關(guān)鍵詞覆蓋率的乘積。在本發(fā)明的一種實施例中,所述用戶交互行為表征參數(shù)通過網(wǎng)頁、WAP網(wǎng)頁、或手機短信傳遞。本發(fā)明還提供了一種基于問答系統(tǒng)的信息匹配系統(tǒng),包括表征參數(shù)設(shè)置模塊,用于為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;信息匹配模塊,用于根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。本發(fā)明的有益效果在于通過為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,并以用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息, 由于用戶交互行為表征參數(shù)根據(jù)用戶交互行為反饋信息進行動態(tài)更新,可不斷實時修正匹配信息,保證向用戶返回的匹配信息的準確性,且僅返回問題候選集中的排序在前的預(yù)定
5數(shù)量的信息,從而能夠高效地實現(xiàn)基于問答系統(tǒng)的信息匹配。
圖1為本發(fā)明一種實施例的方法流程圖;圖2為本發(fā)明一種實施例的系統(tǒng)工作原理圖。
具體實施例方式下面通過具體實施方式
結(jié)合附圖對本發(fā)明作進一步詳細說明。如圖1所示,本發(fā)明的基于問答系統(tǒng)的信息匹配方法,主要包括為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。為了提高信息搜索及匹配的精確性,一般的,可以根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集。問題候選集,即系統(tǒng)針對用戶的提問行為而從知識庫中搜索到的多個相似問題。將“所檢索的問題和問答系統(tǒng)知識庫中的問題是同一問題的概率”定義為匹配度,從而問題候選中的多個相似問題都有其各自匹配度,匹配度判斷方法例如可以采用 TF-IDF (term frequency-inverse documentfrequency,用于資訊檢索與資訊探勘的力口權(quán)技術(shù))方法,或者通過計算關(guān)鍵詞覆蓋率進行判斷。對于問題的關(guān)鍵詞覆蓋率,通常是對用戶提問行為的問句進行語法分析,例如對于“中國最長的河流是哪條? ”的問句,通過語法分析,提取出關(guān)鍵詞例如包括中國、最長、 河,再尋找知識庫中包含有這些關(guān)鍵詞的問題。知識庫中的問題,覆蓋的關(guān)鍵詞越多,則表明匹配度越高。由于用戶提問行為的問句不一定與知識庫中存儲的問題形式完全一致,通過獲取問題候選集的方式,可以避免漏檢,即保證了知識庫中有相關(guān)答案卻因為問題形式與用戶提問句不同而在匹配過程中被排除。從而能夠保證信息匹配的有效性和準確性??梢詫⒑蜻x集中預(yù)定數(shù)量(可以由系統(tǒng)設(shè)定,例如為1)的問題信息(由于問答系統(tǒng)中的問答對形式,也可以是答案信息)返回給用戶。一般的,為提高效率(通過減少向用戶返回的數(shù)據(jù)量以提高傳輸效率以及節(jié)約系統(tǒng)開銷),也可能受用戶使用手持設(shè)備所限,向用戶返回的問題信息僅是問題候選集中的一條或部分條信息。為此,需要決定向用戶返回哪一條或哪幾條信息,這可以通過對問題候選集中的問題信息排序并返回排序在前的預(yù)定數(shù)量的問題信息予以解決。排序的索引,可以采用匹配度從高到低的順序,然而,這一順序并不一定真正反映了信息的匹配。為提高信息的匹配精度,本發(fā)明實施例的信息匹配方法, 采用了為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù)的方式,該用戶交互行為可以根據(jù)用戶交互行為反饋信息進行動態(tài)更新,例如,動態(tài)更新可以按照如下方式進行如果用戶交互行為反饋信息為正反饋,提高用戶交互行為表征參數(shù);如果用戶交互行為反饋信息為負反饋,降低用戶交互行為表征參數(shù)。可以設(shè)置懲罰因子,以加權(quán)用戶交互行為反饋信息對用戶交互行為表征參數(shù)的降低程度。懲罰因子主要是基于用戶實際使用模式考慮,在本發(fā)明的實施中,用戶交互行為主要包括兩種,一種是用戶對問答系統(tǒng)的提問行為,一種是用戶對問答系統(tǒng)的提問信息響應(yīng)的評價行為,即問答系統(tǒng)針對用戶的提問行為進行響應(yīng),產(chǎn)生問題候選集并最終向用戶返回預(yù)定數(shù)量的問題或答案信息,用戶可以對問答系統(tǒng)返回的問題或答案信息進行評價, 如果認為匹配,可以評價“滿意”,如果認為不匹配,可以評價“不滿意”。對于用戶的提問行為,則視為用戶交互行為的反饋信息為正反饋,則相應(yīng)提高用戶交互行為表征參數(shù);對于用戶的評價行為,“滿意”的評價行為,也視為正反饋;而“不滿意”的評價行為,則視為負反饋, 則要相應(yīng)降低用戶交互行為表征參數(shù),然而,考慮到用戶并不總是對問答系統(tǒng)返回的問題或答案信息進行評價,而正反饋在用戶提問行為中已經(jīng)產(chǎn)生,因而需要通過懲罰因子在一定程度放大負反饋的影響。在本發(fā)明的實施例中,根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集可以通過如下方式進行利用自然語言技術(shù)對用戶提問信息進行語法分析,按照語法分析從用戶提問信息中提取出關(guān)鍵詞;本系統(tǒng)涉及的自然語言處理技術(shù),包括分詞和詞性標注等技術(shù)。自然語言技術(shù)廣泛應(yīng)用于問答系統(tǒng)的問題匹配和答案排序當中,在此不再詳述。在問答系統(tǒng)知識庫中檢索包含所述關(guān)鍵詞的問題信息,按照預(yù)設(shè)的關(guān)鍵詞覆蓋率閾值,將達到或超過所述關(guān)鍵詞覆蓋率閾值的問題信息選出形成所述問題候選集。關(guān)鍵詞覆蓋率閾值的高低,決定了漏檢率和匹配效率間的平衡,該值越高,則問題候選集范圍越小,漏檢的可能性則越大;該值越低,則問題候選集范圍越大,匹配效率相應(yīng)降低。因而可以通過實驗、仿真、或?qū)嶋H運行結(jié)果設(shè)定一個較為合適的閾值。用戶交互行為表征參數(shù)可以通過網(wǎng)頁、WAP網(wǎng)頁、或手機短信傳遞。即用戶可以通過手持設(shè)備登錄網(wǎng)頁或WAP網(wǎng)頁,在網(wǎng)頁或WAP網(wǎng)頁進行提問或評價行為,或者通過短信的方式進行提問或者評價行為,問答系統(tǒng)相應(yīng)得到用戶交互行為表征參數(shù)。本發(fā)明實施例的基于問答系統(tǒng)的信息匹配系統(tǒng),包括表征參數(shù)設(shè)置模塊,用于為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;信息匹配模塊,用于根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。該信息匹配系統(tǒng),適宜的,可以采用軟件、硬件或者軟件加硬件的方式實現(xiàn),例如, 在應(yīng)用服務(wù)器中執(zhí)行實現(xiàn)上述信息匹配功能的計算機可執(zhí)行程序等。本發(fā)明通過用戶交互行為表征參數(shù)的設(shè)置和動態(tài)更新,能夠保證信息匹配的精度和速度,實現(xiàn)基于問答系統(tǒng)的信息匹配的高效性和準確性。如圖2所示,在本發(fā)明的一個應(yīng)用例中,基于問答系統(tǒng)的信息匹配系統(tǒng)包括頻率收集單元、知識庫維護單元、排序單元、檢索單元,用于在終端用戶和問答系統(tǒng)知識庫之間實現(xiàn)信息匹配,其中,上文的信息匹配模塊的功能主要由排序單元和檢索單元實現(xiàn);上文中的表征參數(shù)設(shè)置模塊的功能主要由頻率收集單元和知識庫維護單元實現(xiàn)。也就是說,在該應(yīng)用例中,用戶交互行為表征參數(shù)為頻率信息。頻率收集單元為與用戶交互的單元,可以網(wǎng)頁、WAP網(wǎng)頁或手機短信的形式與用戶進行交互。在用戶對問答系統(tǒng)提出問題時,收集正頻率,當用戶對所匹配的問題發(fā)送不滿意信息時,收集負頻率。知識庫維護單元根據(jù)用戶問題(用戶提問行為的問題形式)和知識庫問題(知識庫中存儲的問題形式)的匹配程度,將頻率收集單元收集到的正頻率或負頻率信息按比例更新到知識庫中。檢索問題排序過程中利用匹配度和頻率兩個因素對問題進行綜合排序。上述系統(tǒng)的工作原理為在終端用戶與問答系統(tǒng)交互時,頻率收集單元根據(jù)用戶的交互行為,選擇收集正頻率或負頻率,如果是提問行為,則向檢索單元發(fā)送檢索請求獲取問題候選集。如果用戶交互行為是對系統(tǒng)返回的問題給出滿意與否的評價行為,則針對該被評價的單個問題,通過頻率維護單元將問題候選集的頻率改變信息更新到知識庫中,同時,對檢索單元檢索到的問題候選集按匹配度和頻率共同排序,并抽取排序在前一位或幾位的問題或答案,返回給用戶。頻率收集單元對用戶輸入的處理步驟如下步驟Si):開始;步驟S2)接收用戶輸入;步驟S3)判斷用戶輸入,如果輸入的是檢索問題,收集正頻率,如果是對問答系統(tǒng)返回的匹配信息的否定輸入,收集該特定信息的負頻率。其中,步驟S3中的收集正頻率的步驟包括步驟S311)將用戶問題發(fā)送到問答系統(tǒng)的檢索單元;步驟S312)利用檢索單元從知識庫中返回一個問題候選集;步驟S313)將問題候選集按問題匹配程度排序,選取問題候選集中匹配度在N(N >0)以上的問題,按比例賦予正整數(shù)頻率。N的大小和頻率賦予比例都為一常數(shù),并可以根據(jù)系統(tǒng)使用情況進行調(diào)整。例如, 設(shè)定N = 90%,即問題候選集中包括匹配度在90%以上的問題。對于頻率賦予比例,例如可以將匹配度達到90%以上的問題賦予正頻率9 ;將匹配度在80-90%的問題賦予正頻率 8。上述步驟S312中,檢索單元可以采用以下步驟對知識庫進行檢索步驟Jl)利用自然語言技術(shù)對用戶問題進行分詞和詞性標注;步驟J2):按照詞性和語法結(jié)構(gòu)從問題中選出關(guān)鍵詞;步驟J3)在知識庫的倒排文件中依次查找包含關(guān)鍵詞的問題;步驟J4)返回關(guān)鍵詞覆蓋百分比至少在M以上的問題。如前文所述,步驟S313中所述的候選集問題匹配度可以用問題內(nèi)容的關(guān)鍵詞覆蓋率(即關(guān)鍵詞覆蓋百分比)來判斷。為了方便用戶,可以在問答系統(tǒng)向用戶返回的結(jié)果展示中設(shè)置點擊按鈕,用來進行步驟S3中所述的用戶的否定輸入,如果用戶認為此結(jié)果不是自己希望的結(jié)果,可以點擊此按鈕。
步驟S3中所述的收集負頻率的方法是指針對該特定問題,首先按與用戶問題的匹配度賦予正整數(shù)頻率f。例如用戶提問句是“中國最長的河流是哪條? ”,而知識庫中存儲的問題是“中國最長的河是哪條?”,匹配度達到90%以上,此時例如賦予知識庫存儲的問題的正頻率是9。假設(shè)在問題候選集中,該問題匹配度最高,因而向用戶返回該問題或者該問題的對應(yīng)答案,但用戶反饋對該返回的問題或者答案不滿意,則例如乘以懲罰因子-1,得到負頻率-9。此處懲罰因子在系統(tǒng)中是一個常數(shù)。由于在用戶檢索問題(用戶的提問行為)的時候,已經(jīng)將頻率f更新到了知識庫中,如果用戶認為問題不匹配,那么應(yīng)當取消這次更新的頻率,但基于用戶使用模式,用戶可能不一定每次都點擊“不滿意”,也就是說,不恰當?shù)恼l率在一些時候被用戶的“不滿意”反饋減去;在一些時候則因為用戶沒有反饋而未被消除。因此應(yīng)該有一個懲罰因子用于放大“不滿意”的影響,即全局來看,如果認為用戶每次都會對不滿意的問題回應(yīng)“不滿意”的點擊,則懲罰因子為-1 ;而如果假設(shè)只有10%的不滿意會被點擊,那么懲罰因子應(yīng)該是-10。故此,懲罰因子的實際數(shù)字應(yīng)該根據(jù)系統(tǒng)實際運行狀況調(diào)整,用按與用戶問題的匹配度賦予的正整數(shù)頻率f乘以懲罰因子Κ(Κ<0),得到一個負數(shù)頻率。其中,K的大小以及f的賦予比例根據(jù)系統(tǒng)使用情況可以有所調(diào)整。頻率維護單元將收集到的不同問題的正或負頻率更新到知識庫中。如果知識庫本身不含頻率信息且內(nèi)容不可更改,則可以建立與知識庫問題一一對應(yīng)的頻率記錄庫,記錄知識庫中的各個問答對及其頻率信息的對應(yīng)關(guān)系,將頻率信息更新到頻率記錄庫中??梢岳脭?shù)據(jù)庫來存儲知識庫的內(nèi)容和頻率信息,則頻率維護單元將是與該數(shù)據(jù)庫進行連接的更新處理單元。圖2示例中的排序單元的工作步驟如下步驟Pl):開始;步驟P2)接收問答系統(tǒng)返回的問題候選集;步驟P3)從知識庫或頻率記錄庫中獲取問題候選集的頻率信息;步驟P4)利用問題候選集中各個問題的匹配度和頻率信息對問題排序;步驟P5)對排序在首位的問題,從知識庫中獲取相應(yīng)答案;步驟P6):將答案展示給用戶。問答系統(tǒng)可以使用WAP網(wǎng)站作為展示方式,用戶通過手機終端訪問站點,輸入希望查找的問題。問答系統(tǒng)對問題進行分詞后,利用語法和詞性信息提取關(guān)鍵詞后到倒排索引庫中查找包含這些關(guān)鍵詞的問題,查找出來的信息包括問答對、問題在知識庫中的已有全局頻率信息F,同時,每個問題可以有一個關(guān)鍵詞覆蓋率C。挑選關(guān)鍵詞覆蓋率為60%的問題作為候選集,頻率收集單元獲取本次提問的正頻率信息f,方法是,將這些問題按比例賦予0-10之間正整數(shù),覆蓋度60%的為1,覆蓋度100%的為10。將正頻率信息f通過頻率維護單元更新到知識庫中。即新全局頻率信息F =已有全局頻率信息F+本次提問的正頻率信息f,也就是說,需要對用戶交互行為表征參數(shù)進行動態(tài)更新。 排序單元對問題候選集中的問題信息按照新全局頻率F和覆蓋率C的乘積為索引進行排序,將排在首位的問題通過WAP站點返回給用戶。 此時,如果用戶認為匹配的問題是錯誤匹配,可以點擊WAP頁面上的報錯按鈕,系統(tǒng)自動返回候選集中的下一個問題給用戶。同時頻率收集單元對前述被報錯的問題的覆蓋度乘以一個懲罰因子后,通過頻率維護單元更新到知識庫中。依此類推,如果候選集全部為空都未找到答案,則系統(tǒng)自動記錄用戶提問至待處理列表。 以上內(nèi)容是結(jié)合具體的實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡單推演或替換,都應(yīng)當視為屬于本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于問答系統(tǒng)的信息匹配方法,其特征在于,包括為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。
2.如權(quán)利要求1所述的方法,其特征在于,按照如下方式更新所述用戶交互行為表征參數(shù)如果用戶交互行為反饋信息為正反饋,提高用戶交互行為表征參數(shù);如果用戶交互行為反饋信息為負反饋,降低用戶交互行為表征參數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,還包括設(shè)置懲罰因子,以加權(quán)用戶交互行為反饋信息對用戶交互行為表征參數(shù)的降低程度。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集通過如下方式進行利用自然語言技術(shù)對用戶提問信息進行語法分析,按照語法分析從用戶提問信息中提取出關(guān)鍵詞;在問答系統(tǒng)知識庫中檢索包含所述關(guān)鍵詞的問題信息,按照預(yù)設(shè)的關(guān)鍵詞覆蓋率閾值,將達到或超過所述關(guān)鍵詞覆蓋率閾值的問題信息選出形成所述問題候選集。
5.如權(quán)利要求4所述的方法,其特征在于,所述用戶交互行為表征參數(shù)為全局頻率與關(guān)鍵詞覆蓋率的乘積。
6.如權(quán)利要求1-5任一所述的方法,其特征在于,所述用戶交互行為表征參數(shù)通過網(wǎng)頁、WAP網(wǎng)頁、或手機短信傳遞。
7.一種基于問答系統(tǒng)的信息匹配系統(tǒng),其特征在于,包括表征參數(shù)設(shè)置模塊,用于為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù), 并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;信息匹配模塊,用于根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集, 以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述表征參數(shù)設(shè)置模塊按照如下方式更新所述用戶交互行為表征參數(shù)如果用戶交互行為反饋信息為正反饋,提高用戶交互行為表征參數(shù);如果用戶交互行為反饋信息為負反饋,降低用戶交互行為表征參數(shù)。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,還包括設(shè)置懲罰因子,以加權(quán)用戶交互行為反饋信息對用戶交互行為表征參數(shù)的降低程度。
10.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述信息匹配模塊根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集通過如下方式進行利用自然語言技術(shù)對用戶提問信息進行語法分析,按照語法分析從用戶提問信息中提取出關(guān)鍵詞;在問答系統(tǒng)知識庫中檢索包含所述關(guān)鍵詞的問題信息,按照預(yù)設(shè)的關(guān)鍵詞覆蓋率閾值,將達到或超過所述關(guān)鍵詞覆蓋率閾值的問題信息選出形成所述問題候選集。
全文摘要
本發(fā)明公開了一種基于問答系統(tǒng)的信息匹配方法及系統(tǒng),所述方法包括為問答系統(tǒng)知識庫中的問答對配置用戶交互行為表征參數(shù),并根據(jù)用戶交互行為反饋信息對所述用戶交互行為表征參數(shù)進行動態(tài)更新,所述用戶交互行為反饋信息為對問答系統(tǒng)的提問信息響應(yīng)的反饋;根據(jù)用戶輸入的提問信息在問答系統(tǒng)知識庫中獲取問題候選集,以所述問題候選集中的各條問題信息的用戶交互行為表征參數(shù)為索引,對所述問題候選集中的各條問題信息進行排序,向用戶返回排序在前的預(yù)定數(shù)量的問題信息。本發(fā)明能夠提高問答系統(tǒng)的信息匹配速度和精度。
文檔編號G06F17/30GK102236677SQ20101016627
公開日2011年11月9日 申請日期2010年4月28日 優(yōu)先權(quán)日2010年4月28日
發(fā)明者叢鵬飛, 于雅潔, 盧佳, 徐伯星, 杭誠方 申請人:北京大學(xué)深圳研究生院