根據(jù)自然語言輸出答案的方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng),屬于智能機(jī)器人技術(shù)領(lǐng)域。該方法、裝置和系統(tǒng)通過對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;根據(jù)語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于語言元素的備選答案;對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;對(duì)最優(yōu)的答案進(jìn)行綜合和完善;根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度。
【專利說明】
根據(jù)自然語言輸出答案的方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及智能機(jī)器人技術(shù)領(lǐng)域,特別是涉及一種根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002]人機(jī)交互過程中的智能問答是指計(jì)算機(jī)系統(tǒng)(機(jī)器)能夠處理人類輸入的自然語言,并輸出符合人類意圖的回答。智能問答具有非常廣闊的應(yīng)用前景。首先是實(shí)現(xiàn)機(jī)器客月艮,比如替代政府網(wǎng)站中的常見問題(Frequent Asked Quest1ns,F(xiàn)AQ),提供更個(gè)性化的服務(wù);其次是優(yōu)化搜索引擎,現(xiàn)有的搜索引擎根據(jù)用戶輸入的關(guān)鍵字進(jìn)行網(wǎng)頁文本的匹配從而返回相應(yīng)的匹配條目,這種方式使得用戶需要在眾多信息中辨別才能得到自己想要的答案,而智能問答則能夠做到直接把答案輸出給用戶,減少用戶人工識(shí)別的工作量,優(yōu)化用戶體驗(yàn);第三是用于情感引導(dǎo),比如老年陪聊機(jī)器人,解決老年人寂寞的問題。
[0003]智能問答第一個(gè)要解決的技術(shù)難題是“理解”用戶輸入的自然語言。人類交流過程中,由于有相似的背景和常識(shí),理解一般不成問題。而機(jī)器實(shí)際上并不能真正“理解”自然語言,機(jī)器擅長(zhǎng)的是信息搜索和匹配。目前人機(jī)交互中應(yīng)用較普遍的是簡(jiǎn)單的自然語言命令響應(yīng),比如車載語音命令,可以識(shí)別諸如“打開空調(diào)”、“播放音樂”等命令。命令響應(yīng)由于其只需支持少數(shù)自然語句,因此用規(guī)則匹配的方法就能完成。而對(duì)于日常對(duì)話這種更加復(fù)雜的語句,需要更復(fù)雜的規(guī)則。最早處理自然語言(比如機(jī)器自動(dòng)翻譯)的方法正是基于語言本身的語法、結(jié)構(gòu)來制定規(guī)則。但由于自然語言用法的靈活性和復(fù)雜性,這種純靠規(guī)則的方法被證明并不是非常有效。后來研究者又發(fā)明了基于統(tǒng)計(jì)學(xué)的方法,利用大量真實(shí)語料來發(fā)現(xiàn)自然語言的規(guī)律,這種方法在分詞、句法糾錯(cuò)有較好的效果。近年來,隨著大數(shù)據(jù)技術(shù)的興起,利用大量真實(shí)語料來訓(xùn)練語言模型,挖掘其內(nèi)在規(guī)律的方法得到了更大的發(fā)展。
[0004]智能問答第二個(gè)要解決的問題是如何獲取答案。由于實(shí)際工作生活中語言的多樣性,使用簡(jiǎn)單規(guī)則生成答案的方法顯然不可行。而現(xiàn)如今大多數(shù)智能問答平臺(tái)都是基于本地的語料庫(kù)和知識(shí)庫(kù),利用問題相似度計(jì)算來找到匹配的答案。因此,答案的質(zhì)量嚴(yán)重依賴于語料庫(kù)的規(guī)模、準(zhǔn)確性和組織結(jié)構(gòu)。如何拓展語料庫(kù)和如何賦予語料庫(kù)準(zhǔn)確性是目前智能問答平臺(tái)面臨的問題。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供一種根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng),其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度,從而更加適于實(shí)用。
[0006]為了達(dá)到上述第一個(gè)目的,本發(fā)明提供的根據(jù)自然語言輸出答案的方法的技術(shù)方案如下:
[0007]本發(fā)明提供的根據(jù)自然語言輸出答案的方法包括以下步驟:
[0008]對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;
[0009]根據(jù)所述語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于所述語言元素的備選答案;
[0010]對(duì)所述備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案;
[0011 ]對(duì)所述最優(yōu)的答案進(jìn)行綜合和完善;
[0012]根據(jù)所述綜合和完善的結(jié)果,向所述人機(jī)交互客戶端輸出所述自然語言對(duì)應(yīng)的答案。
[0013]本發(fā)明提供的根據(jù)自然語言輸出答案的方法還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。
[0014]作為優(yōu)選,所述對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素包括:
[0015]對(duì)所述來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句;
[0016]對(duì)所述來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯;
[0017]通過本地庫(kù),對(duì)所述拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族;
[0018]對(duì)所述詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族;
[0019]根據(jù)所述經(jīng)過消歧處理的詞匯族,在所述知識(shí)圖譜中查詢所述詞匯族涉及的節(jié)點(diǎn)及邊,即為所述來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。
[0020]作為優(yōu)選,根據(jù)所述語言元素,進(jìn)行元搜索,得到基于所述語言元素的備選答案包括:
[0021 ]根據(jù)所述語言元素,確定所述來自人機(jī)交互客戶端的自然語言的問題分類,得到分類結(jié)果;
[0022]根據(jù)所述分類結(jié)果,選取目標(biāo)網(wǎng)站;
[0023]在所述目標(biāo)網(wǎng)站、本地庫(kù)和知識(shí)圖譜上,以所述語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面;
[0024]將所述搜索結(jié)果的列表頁面上的條目與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于閾值的條目的URL;
[0025]從所述URL中抽取得到基于所述語言元素的備選答案。
[0026]作為優(yōu)選,對(duì)所述備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案包括:
[0027]對(duì)所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相關(guān)性評(píng)估和質(zhì)量評(píng)估,確定相關(guān)度最高,并且,質(zhì)量最佳的備選答案為最優(yōu)的答案。
[0028]作為優(yōu)選,
[0029]所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言的相關(guān)性以所述備選答案中涉及的所述語言元素的數(shù)量為依據(jù),以所述備選答案中涉及的所述語言元素最多者確定為相關(guān)度最尚;
[0030]所述備選答案的質(zhì)量以所述答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。
[0031]為了達(dá)到上述第二個(gè)目的,本發(fā)明提供的根據(jù)自然語言輸出答案的裝置的技術(shù)方案如下:
[0032]本發(fā)明提供的根據(jù)自然語言輸出答案的裝置包括語言元素獲取單元、元搜索單元、本地庫(kù)查詢單元、知識(shí)圖譜查詢單元、答案評(píng)估單元、答案綜合和完善單元、答案輸出單元,
[0033]所述語言元素獲取單元用于對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;
[0034]所述元搜索單元用于根據(jù)所述語言元素,進(jìn)行元搜索,得到基于所述語言元素的第一組備選答案;
[0035]所述本地庫(kù)查詢單元用于根據(jù)所述語言元素,進(jìn)行本地查詢,得到基于所述語言元素的第二組備選答案;
[0036]所述知識(shí)圖譜查詢單元用于根據(jù)所述語言元素,進(jìn)行知識(shí)圖譜查詢,得到基于所述語言元素的第三組備選答案;
[0037]所述答案評(píng)估單元用于對(duì)所述第一組備選答案、第二組備選答案和第三組備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案;
[0038]所述答案綜合和完善單元用于對(duì)所述最優(yōu)的答案進(jìn)行綜合和完善;
[0039]所述答案輸出單元用于根據(jù)所述綜合和完善的結(jié)果,向所述人機(jī)交互客戶端輸出所述自然語言對(duì)應(yīng)的答案。
[0040]本發(fā)明提供的根據(jù)自然語言輸出答案的裝置還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。
[0041]作為優(yōu)選,所述語言元素獲取單元包括問句轉(zhuǎn)述模塊、詞匯拆分模塊、詞匯擴(kuò)展模塊、詞匯消歧模塊、語言元素獲取模塊,
[0042]所述問句轉(zhuǎn)述模塊用于對(duì)所述來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句;
[0043]所述詞匯拆分模塊用于對(duì)所述來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯;
[0044]所述詞匯擴(kuò)展模塊用于通過本地庫(kù),對(duì)所述拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族;
[0045]所述詞匯消歧模塊用于對(duì)所述詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族;
[0046]語言元素獲取模塊用于根據(jù)所述經(jīng)過消歧處理的詞匯族,在所述知識(shí)圖譜中查詢所述詞匯族涉及的節(jié)點(diǎn)及邊,即為所述來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。
[0047]作為優(yōu)選,所述元搜索單元包括語言元素分類模塊、目標(biāo)網(wǎng)站選取模塊、搜索模塊、URL獲取模塊、備選答案抽取模塊,
[0048]所述語言元素分類模塊用于根據(jù)所述語言元素,確定所述來自人機(jī)交互客戶端的自然語言的分類,得到分類結(jié)果;
[0049]所述目標(biāo)網(wǎng)站選取模塊用于根據(jù)所述分類結(jié)果,選取目標(biāo)網(wǎng)站;
[0050]所述搜索模塊用于在所述目標(biāo)網(wǎng)站上,以所述語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面;
[0051 ]所述URL獲取模塊用于將所述搜索結(jié)果的列表頁面上的條目與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于80%的條目的URL;
[0052]所述備選答案抽取模塊用于從所述URL中抽取得到基于所述語言元素的備選答案。
[0053]作為優(yōu)選,答案評(píng)估單元包括相關(guān)度評(píng)估模塊、質(zhì)量評(píng)估模塊,
[0054]所述相關(guān)度評(píng)估模塊用于選取所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言相關(guān)度最高的備選答案;
[0055]所述質(zhì)量評(píng)估模塊用于選取備選答案中質(zhì)量最佳的備選答案。
[0056]作為優(yōu)選,所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言的相關(guān)性以所述備選答案中涉及的所述語言元素的數(shù)量為依據(jù),以所述備選答案中涉及的所述語言兀素最多者確定為相關(guān)度最尚;
[0057]所述備選答案的質(zhì)量以所述答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。
[0058]為了達(dá)到上述第三個(gè)目的,本發(fā)明提供的根據(jù)自然語言輸出答案的系統(tǒng)的技術(shù)方案如下:
[0059]本發(fā)明提供的根據(jù)自然語言輸出答案的系統(tǒng)包括人機(jī)交互客戶端、服務(wù)器,
[0060]所述人機(jī)交互客戶端用于向所述服務(wù)器出出自然語言,并且,所述人機(jī)交互客戶端用于接收所述服務(wù)器輸出的答案;
[0061]所述服務(wù)器上設(shè)置有本體庫(kù)、本地庫(kù)、知識(shí)圖譜、元搜索引擎,
[0062]所述本體庫(kù)用于存儲(chǔ)概念與概念之間的關(guān)系數(shù)據(jù),
[0063]所述本地庫(kù)用于存儲(chǔ)語料和簡(jiǎn)單知識(shí),
[0064]所述知識(shí)圖譜用于表達(dá)各種事實(shí);
[0065]所述元搜索引擎用于利用通用搜索引擎或者特定網(wǎng)站提供的搜索接口來獲取信息。
[0066]本發(fā)明提供的根據(jù)自然語言輸出答案的系統(tǒng)還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。
[0067]作為優(yōu)選,
[0068]所述概念與概念之間的關(guān)系包括同義關(guān)系和/或上下位關(guān)系;
[0069]所述各種事實(shí)包括實(shí)體-屬性-值、實(shí)體-關(guān)系-實(shí)體。
[0070]本發(fā)明提供的根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng)通過對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;根據(jù)語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于語言元素的備選答案;對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;對(duì)最優(yōu)的答案進(jìn)行綜合和完善;根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度。
【附圖說明】
[0071]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0072]圖1為本發(fā)明實(shí)施例提供的根據(jù)自然語言輸出答案的方法的概括步驟流程圖;
[0073]圖2為本發(fā)明實(shí)施例提供的根據(jù)自然語言輸出答案的方法的具體步驟流程圖;
[0074]圖3為本發(fā)明實(shí)施例提供的根據(jù)自然語言輸出答案的裝置的信號(hào)流向關(guān)系概括示意圖;
[0075]圖4為本發(fā)明實(shí)施例提供的根據(jù)自然語言輸出答案的系統(tǒng)的信號(hào)流向關(guān)系概括示意圖;
[0076]圖5為本發(fā)明實(shí)施例提供的人機(jī)交互客戶端輸入“張博士的生日”之后,得到正確答案的過程中知識(shí)圖譜的邏輯關(guān)系示意圖。
【具體實(shí)施方式】
[0077]本發(fā)明為解決現(xiàn)有技術(shù)存在的問題,提供一種根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng),其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度,從而更加適于實(shí)用。
[0078]為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng),其【具體實(shí)施方式】、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。在下述說明中,不同的“一實(shí)施例”或“實(shí)施例”指的不一定是同一實(shí)施例。此外,一或多個(gè)實(shí)施例中的特定特征、結(jié)構(gòu)、或特點(diǎn)可由任何合適形式組合。
[0079]本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/SB,具體的理解為:可以同時(shí)包含有A與B,可以單獨(dú)存在A,也可以單獨(dú)存在B,能夠具備上述三種任一種情況。
[0080]參見附圖1和附圖2,本發(fā)明提供的根據(jù)自然語言輸出答案的方法包括以下步驟:[0081 ]步驟SI:對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;
[0082]步驟S2:根據(jù)語言元素,進(jìn)行元搜索、本地庫(kù)查詢、知識(shí)圖譜查詢,得到基于語言元素的備選答案;
[0083]步驟S3:對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;
[0084]步驟S4:對(duì)最優(yōu)的答案進(jìn)行綜合和完善;
[0085]步驟S5:根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。
[0086]本發(fā)明提供的根據(jù)自然語言輸出答案的方法通過對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;根據(jù)語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于語言元素的備選答案;對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;對(duì)最優(yōu)的答案進(jìn)行綜合和完善;根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度。
[0087]其中,對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素包括:
[0088]步驟SI1:對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句;
[0089]步驟S12:對(duì)來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯;
[0090]步驟S13:通過本地庫(kù),對(duì)拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族;
[0091]步驟S14:對(duì)詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族;
[0092]步驟S15:根據(jù)經(jīng)過消歧處理的詞匯族,在知識(shí)圖譜中查詢?cè)~匯族涉及的節(jié)點(diǎn)及邊,即為來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。
[0093]其中,根據(jù)語言元素,進(jìn)行元搜索,得到基于語言元素的備選答案包括:
[0094]步驟S21:根據(jù)語言元素,確定來自人機(jī)交互客戶端的自然語言的分類,得到分類結(jié)果;
[0095]步驟S22:根據(jù)分類結(jié)果,選取目標(biāo)網(wǎng)站;
[0096]步驟S23:在目標(biāo)網(wǎng)站上,以語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面;本實(shí)施例中,通過爬蟲抓取搜索到的列表頁面;
[0097]步驟S24:將搜索結(jié)果的列表頁面上的條目與來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于閾值的條目的URL,本實(shí)施例中,閾值為80% ;
[0098]步驟S25:從URL中抽取得到基于語言元素的備選答案;本實(shí)施例中,通過爬蟲抓取,從URL中抽取得到基于語言元素的備選答案。
[0099]其中,對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案包括:
[0100]對(duì)備選答案的內(nèi)容與來自人機(jī)交互客戶端的自然語言進(jìn)行相關(guān)性評(píng)估和質(zhì)量評(píng)估,確定相關(guān)度最高,并且,質(zhì)量最佳的備選答案為最優(yōu)的答案。
[0101]其中,備選答案的內(nèi)容與來自人機(jī)交互客戶端的自然語言的相關(guān)性以備選答案中涉及的語言元素的數(shù)量為依據(jù),以備選答案中涉及的語言元素最多者確定為相關(guān)度最高;
[0102]備選答案的質(zhì)量以答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。
[0103]參見附圖3,本發(fā)明提供的根據(jù)自然語言輸出答案的裝置包括語言元素獲取單元、元搜索單元、本地庫(kù)查詢單元、知識(shí)圖譜查詢單元、答案評(píng)估單元、答案綜合和完善單元、答案輸出單元。語言元素獲取單元用于對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;元搜索單元用于根據(jù)語言元素進(jìn)行元搜索,本地庫(kù)查詢單元用于根據(jù)語言元素進(jìn)行本地查詢,知識(shí)圖譜查詢單元用于根據(jù)語言元素進(jìn)行知識(shí)圖譜查詢,綜合元搜索、本地查詢和知識(shí)圖譜查詢的結(jié)果,能夠得到基于語言元素的備選答案;答案評(píng)估單元用于對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;答案綜合和完善單元用于對(duì)最優(yōu)的答案進(jìn)行綜合和完善;答案輸出單元用于根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。
[0104]本發(fā)明提供的根據(jù)自然語言輸出答案的裝置通過語言元素獲取單元,對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素;通過元搜索單元、本地庫(kù)查詢單元、知識(shí)圖譜查詢單元,根據(jù)語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于語言元素的備選答案;通過答案評(píng)估單元,對(duì)備選答案進(jìn)行評(píng)估,得到答案中最優(yōu)的答案;通過答案綜合和完善單元,對(duì)最優(yōu)的答案進(jìn)行綜合和完善;通過答案輸出單元,根據(jù)綜合和完善的結(jié)果,向人機(jī)交互客戶端輸出自然語言對(duì)應(yīng)的答案。其利用元搜索使得語料庫(kù)得到擴(kuò)展,在接收到客戶端的自然語言后,能夠從海量互聯(lián)網(wǎng)信息中挖掘得到高質(zhì)量的答案,能夠提高答案的準(zhǔn)確度。
[0105]其中,語言元素獲取單元包括問句轉(zhuǎn)述模塊、詞匯拆分模塊、詞匯擴(kuò)展模塊、詞匯消歧模塊、語言元素獲取模塊。問句轉(zhuǎn)述模塊用于對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句;詞匯拆分模塊用于對(duì)來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯;詞匯擴(kuò)展模塊用于通過本地庫(kù),對(duì)拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族;詞匯消歧模塊用于對(duì)詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族;語言元素獲取模塊用于根據(jù)經(jīng)過消歧處理的詞匯族,在知識(shí)圖譜中查詢?cè)~匯族涉及的節(jié)點(diǎn)及邊,即為來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。
[0106]其中,元搜索單元包括語言元素分類模塊、目標(biāo)網(wǎng)站選取模塊、搜索模塊、URL獲取模塊、備選答案抽取模塊。語言元素分類模塊用于根據(jù)語言元素,確定來自人機(jī)交互客戶端的自然語言的分類,得到分類結(jié)果;目標(biāo)網(wǎng)站選取模塊用于根據(jù)分類結(jié)果,選取目標(biāo)網(wǎng)站;搜索模塊用于在目標(biāo)網(wǎng)站上,以語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面;URL獲取模塊用于將搜索結(jié)果的列表頁面上的條目與來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于80%的條目的URL;備選答案抽取模塊用于從URL中抽取得到基于語言元素的備選答案。
[0107]其中,答案評(píng)估單元包括相關(guān)度評(píng)估模塊、質(zhì)量評(píng)估模塊。相關(guān)度評(píng)估模塊用于選取備選答案的內(nèi)容與來自人機(jī)交互客戶端的自然語言相關(guān)度最高的備選答案;質(zhì)量評(píng)估模塊用于選取備選答案中質(zhì)量最佳的備選答案。
[0108]其中,備選答案的內(nèi)容與來自人機(jī)交互客戶端的自然語言的相關(guān)性以備選答案中涉及的語言元素的數(shù)量為依據(jù),以備選答案中涉及的語言元素最多者確定為相關(guān)度最高;備選答案的質(zhì)量以答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。
[0109]參見附圖4,本發(fā)明提供的根據(jù)自然語言輸出答案的系統(tǒng)包括人機(jī)交互客戶端、月艮務(wù)器。人機(jī)交互客戶端用于向服務(wù)器出出自然語言,并且,人機(jī)交互客戶端用于接收服務(wù)器輸出的答案;服務(wù)器上設(shè)置有本體庫(kù)、本地庫(kù)、知識(shí)圖譜、元搜索引擎,本體庫(kù)用于存儲(chǔ)概念與概念之間的關(guān)系數(shù)據(jù),本地庫(kù)用于存儲(chǔ)各種語料和簡(jiǎn)單知識(shí),知識(shí)圖譜用于表達(dá)各種事實(shí);元搜索引擎用于利用通用搜索引擎或者特定網(wǎng)站提供的搜索接口來獲取信息。
[0110]其中,概念與概念之間的關(guān)系包括同義關(guān)系和/或上下位關(guān)系;各種事實(shí)包括實(shí)體-屬性-值、實(shí)體-關(guān)系-實(shí)體。
[0111]實(shí)施例
[0112]以“張三”為例,其中,由于張三的學(xué)歷是博士,所以在有些時(shí)候,也被叫做“張博士”。
[0113]參見附圖5,本實(shí)施例中,用戶輸入“張博士的生日”的問題,希望得到一個(gè)正確的答案。
[0114]第一步,意圖理解。首先預(yù)處理,對(duì)該問句進(jìn)行分詞和詞性標(biāo)注,并去掉停用詞“的”,得到一下數(shù)據(jù)結(jié)構(gòu)K張博士,名詞〉,〈生日,名詞>}。其次對(duì)詞語進(jìn)行查詢擴(kuò)展和語義消岐。通過查詢本體庫(kù),得到“張博士”的同義詞為“張三”,而“生日”的同義詞為“出生日期”,并根據(jù)“張三”和“出生日期”得到它們?cè)谥R(shí)圖譜中的節(jié)點(diǎn)和屬性邊。
[0115]第二步,根據(jù)意圖理解的語言元素并行進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢。
[0116]步驟2.1元搜索。
[0117]步驟2.1.1問題的分類判定為“社會(huì)民生”,找到最相關(guān)的兩個(gè)網(wǎng)站百度知道(zhida0.baidu.com)和搜搜問問(wenwen.sogou.com)。
[0118]步驟2.1.2對(duì)這兩個(gè)網(wǎng)站進(jìn)行以下四組關(guān)鍵字的組合查詢:〈張博士,生日〉、〈張三,生日〉、〈張博士,出生日期〉、〈張三,出生日期〉。
[0119]步驟2.1.3對(duì)2.1.2中得到的列表頁面進(jìn)行相似度比較,找到百度知道中一個(gè)條目的問題是“張博士生日”為最匹配條目,其URL為“http://zhida0.baidu.com/
quest1n/氺氺氺氺氺氺氺氺.html^loc.&ns =氺氺氺氺氺氺氺氺”
[0120]步驟2.1.4抓取步驟2.1.3中的網(wǎng)址,得到5個(gè)答案。
[0121]步驟2.1.5對(duì)五個(gè)答案進(jìn)行答案評(píng)估。相似度評(píng)估中發(fā)現(xiàn)第I和第2條答案中都有“張三”、“生于”字樣,與問題相似度較高;質(zhì)量評(píng)估中發(fā)現(xiàn),第一條答案被提問者采納并被好評(píng)700多次,因此質(zhì)量較高。因此元搜索返回答案為“陽歷12月26號(hào),農(nóng)歷十一月十九…”。
[0122]步驟2.2查詢本地庫(kù)。
[0123]步驟2.3查詢知識(shí)圖譜,根據(jù)第一步中的到的節(jié)點(diǎn)和屬性邊,構(gòu)造圖譜查詢,并獲得答案是“1898年12月26日”(參考附圖5)。
[0124]第三步,答案綜合和完善。本例中,知識(shí)圖譜查詢返回了結(jié)果,因此綜合選用知識(shí)圖譜的結(jié)果,并把該結(jié)果完善為“張博士的生日是1898年12月26日”。
[0125]此外,本發(fā)明提供的根據(jù)自然語言輸出答案的方法、裝置和系統(tǒng)還可以通過離線抓取互聯(lián)網(wǎng)上的各種問答庫(kù)、知識(shí)庫(kù)和其他自然語言文本,抽取出有用的知識(shí),并以一定的組織形式存儲(chǔ)到本地,搜索答案時(shí)進(jìn)行本地查詢替代元搜索。
[0126]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
[0127]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1.一種根據(jù)自然語言輸出答案的方法,其特征在于,包括以下步驟: 對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素; 根據(jù)所述語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于所述語言元素的備選答案; 對(duì)所述備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案; 對(duì)所述最優(yōu)的答案進(jìn)行綜合和完善; 根據(jù)所述綜合和完善的結(jié)果,向所述人機(jī)交互客戶端輸出所述自然語言對(duì)應(yīng)的答案。2.根據(jù)權(quán)利要求1所述的根據(jù)自然語言輸出答案的方法,其特征在于,所述對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素包括: 對(duì)所述來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句; 對(duì)所述來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯; 通過本體庫(kù),對(duì)所述拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族; 對(duì)所述詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族; 根據(jù)所述經(jīng)過消歧處理的詞匯族,在所述知識(shí)圖譜中查詢所述詞匯族涉及的節(jié)點(diǎn)及邊,即為所述來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。3.根據(jù)權(quán)利要求1所述的根據(jù)自然語言輸出答案的方法,其特征在于,根據(jù)所述語言元素,進(jìn)行元搜索、本地庫(kù)查詢和知識(shí)圖譜查詢,得到基于所述語言元素的備選答案包括: 根據(jù)所述語言元素,確定所述來自人機(jī)交互客戶端的自然語言的問題分類,得到分類結(jié)果; 根據(jù)所述分類結(jié)果,選取目標(biāo)網(wǎng)站; 在所述目標(biāo)網(wǎng)站、本地庫(kù)和知識(shí)圖譜上,以所述語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面; 將所述搜索結(jié)果的列表頁面上的條目與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于閾值的條目的URL; 從所述URL中抽取得到基于所述語言元素的備選答案。4.根據(jù)權(quán)利要求1所述的根據(jù)自然語言輸出答案的方法,其特征在于,對(duì)所述備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案包括: 對(duì)所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相關(guān)性評(píng)估和質(zhì)量評(píng)估,確定相關(guān)度最高,并且,質(zhì)量最佳的備選答案為最優(yōu)的答案; 作為優(yōu)選, 所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言的相關(guān)性以所述備選答案中涉及的所述語言元素的數(shù)量為依據(jù),以所述備選答案中涉及的所述語言元素最多者確定為相關(guān)度最尚; 所述備選答案的質(zhì)量以所述答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。5.—種根據(jù)自然語言輸出答案的裝置,其特征在于,包括語言元素獲取單元、元搜索單元、本地庫(kù)查詢單元、知識(shí)圖譜查詢單元、答案評(píng)估單元、答案綜合和完善單元、答案輸出單元, 所述語言元素獲取單元用于對(duì)來自人機(jī)交互客戶端的自然語言進(jìn)行意圖理解,根據(jù)本體庫(kù)查詢和知識(shí)圖譜查詢,得到相應(yīng)的語言元素; 所述元搜索單元用于根據(jù)所述語言元素,進(jìn)行元搜索,得到基于所述語言元素的第一組備選答案; 所述本地庫(kù)查詢單元用于根據(jù)所述語言元素,進(jìn)行本地查詢,得到基于所述語言元素的第二組備選答案; 所述知識(shí)圖譜查詢單元用于根據(jù)所述語言元素,進(jìn)行知識(shí)圖譜查詢,得到基于所述語言元素的第三組備選答案; 所述答案評(píng)估單元用于對(duì)所述第一組備選答案、第二組備選答案和第三組備選答案進(jìn)行評(píng)估,得到所述答案中最優(yōu)的答案; 所述答案綜合和完善單元用于對(duì)所述最優(yōu)的答案進(jìn)行綜合和完善; 所述答案輸出單元用于根據(jù)所述綜合和完善的結(jié)果,向所述人機(jī)交互客戶端輸出所述自然語言對(duì)應(yīng)的答案。6.根據(jù)權(quán)利要求5所述的根據(jù)自然語言輸出答案的裝置,其特征在于,所述語言元素獲取單元包括問句轉(zhuǎn)述模塊、詞匯拆分模塊、詞匯擴(kuò)展模塊、詞匯消歧模塊、語言元素獲取模塊, 所述問句轉(zhuǎn)述模塊用于對(duì)所述來自人機(jī)交互客戶端的自然語言進(jìn)行可能的問句轉(zhuǎn)述,得到經(jīng)過轉(zhuǎn)述的問句; 所述詞匯拆分模塊用于對(duì)所述來自人機(jī)交互客戶端的自然語言、經(jīng)過轉(zhuǎn)述的問句進(jìn)行詞匯拆分,得到經(jīng)過拆分后的詞匯; 所述詞匯擴(kuò)展模塊用于通過本地庫(kù),對(duì)所述拆分后的詞匯進(jìn)行同義和上下位擴(kuò)展,得到擴(kuò)展后的詞匯族; 所述詞匯消歧模塊用于對(duì)所述詞匯族進(jìn)行語義消歧處理,得到經(jīng)過消歧處理的詞匯族; 語言元素獲取模塊用于根據(jù)所述經(jīng)過消歧處理的詞匯族,在所述知識(shí)圖譜中查詢所述詞匯族涉及的節(jié)點(diǎn)及邊,即為所述來自人機(jī)交互客戶端的自然語言的相應(yīng)的語言元素。7.根據(jù)權(quán)利要求5所述的根據(jù)自然語言輸出答案的裝置,其特征在于,所述元搜索單元包括語言元素分類模塊、目標(biāo)網(wǎng)站選取模塊、搜索模塊、URL獲取模塊、備選答案抽取模塊, 所述語言元素分類模塊用于根據(jù)所述語言元素,確定所述來自人機(jī)交互客戶端的自然語言的分類,得到分類結(jié)果; 所述目標(biāo)網(wǎng)站選取模塊用于根據(jù)所述分類結(jié)果,選取目標(biāo)網(wǎng)站; 所述搜索模塊用于在所述目標(biāo)網(wǎng)站上,以所述語言元素為依據(jù),進(jìn)行搜索,得到搜索結(jié)果的列表頁面; 所述URL獲取模塊用于將所述搜索結(jié)果的列表頁面上的條目與所述來自人機(jī)交互客戶端的自然語言進(jìn)行相似度比較,獲取相似度高于80%的條目的URL; 所述備選答案抽取模塊用于從所述URL中抽取得到基于所述語言元素的備選答案。8.根據(jù)權(quán)利要求7所述的根據(jù)自然語言輸出答案的裝置,其特征在于,答案評(píng)估單元包括相關(guān)度評(píng)估模塊、質(zhì)量評(píng)估模塊, 所述相關(guān)度評(píng)估模塊用于選取所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言相關(guān)度最高的備選答案; 所述質(zhì)量評(píng)估模塊用于選取備選答案中質(zhì)量最佳的備選答案; 作為優(yōu)選,所述備選答案的內(nèi)容與所述來自人機(jī)交互客戶端的自然語言的相關(guān)性以所述備選答案中涉及的所述語言元素的數(shù)量為依據(jù),以所述備選答案中涉及的所述語言元素最多者確定為相關(guān)度最尚; 所述備選答案的質(zhì)量以所述答案被推薦或者贊同的數(shù)量為依據(jù),被推薦或者贊同的數(shù)量最多者確定為質(zhì)量最佳。9.一種根據(jù)自然語言輸出答案的系統(tǒng),其特征在于,包括人機(jī)交互客戶端、服務(wù)器, 所述人機(jī)交互客戶端用于向所述服務(wù)器出出自然語言,并且,所述人機(jī)交互客戶端用于接收所述服務(wù)器輸出的答案; 所述服務(wù)器上設(shè)置有本體庫(kù)、本地庫(kù)、知識(shí)圖譜、元搜索引擎, 所述本體庫(kù)用于存儲(chǔ)概念與概念之間的關(guān)系數(shù)據(jù), 所述本地庫(kù)用于存儲(chǔ)各種語料和簡(jiǎn)單知識(shí), 所述知識(shí)圖譜用于表達(dá)各種事實(shí); 所述元搜索引擎用于利用通用搜索引擎或者特定網(wǎng)站提供的搜索接口來獲取信息。10.根據(jù)權(quán)利要求9所述的根據(jù)自然語言輸出答案的系統(tǒng),其特征在于, 所述概念與概念之間的關(guān)系包括同義關(guān)系和/或上下位關(guān)系; 所述各種事實(shí)包括實(shí)體-屬性-值、實(shí)體-關(guān)系-實(shí)體。
【文檔編號(hào)】G06F17/27GK105912527SQ201610240540
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月19日
【發(fā)明人】曾琰, 陳俊良, 屈銀川, 黃志杰
【申請(qǐng)人】北京高地信息技術(shù)有限公司