答案抽取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種答案抽取方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)上的信息越來越豐富,人們可以通過搜索引擎(比 如google、百度等)找到想要的信息,比如可在搜索引擎的搜索框中輸入與相關(guān)的關(guān)鍵詞 并觸發(fā)確定搜索的按鈕,隨后即會返回與關(guān)鍵詞相關(guān)的網(wǎng)頁。但搜索引擎會存在很多不足, 比如,可能用戶的檢索需求很復(fù)雜,很難用幾個關(guān)鍵詞的簡單組合來表示,從而不能清楚表 達自己的檢索需求,搜索引擎自然就無法找出令用戶滿意的答案,再比如,檢索結(jié)果往往是 很多相關(guān)的網(wǎng)頁、文檔等,用戶需要花費大量時間在這些網(wǎng)頁、文檔中查找自己需要的信 息。
[0003] 基于上述情況,貝丨」出現(xiàn)了自動問答系統(tǒng),又稱QA(Question Answering)系統(tǒng),自動 問答系統(tǒng)可以說就是新一代的搜索引擎,用戶不需要把自己的問題分解成關(guān)鍵字,可把整 個問題直接交給該系統(tǒng),既能用自然語言句子提問,又能為用戶直接返回答案,可更好地滿 足用戶的檢索需求。
[0004] 在自動問答系統(tǒng)中,答案抽取是比較核心的部分,關(guān)系到整個系統(tǒng)的檢索效率及 準確率?,F(xiàn)有的答案抽取方法包括基于機器學(xué)習(xí)、基于模式匹配、基于句法解析等方法,但 上述現(xiàn)有方法存在以下問題:
[0005] 首先,忽視了問句經(jīng)過切分后生成的檢索詞(也可稱為問句術(shù)語)對抽取候選答 案的作用,問句術(shù)語在證據(jù)語料中的出現(xiàn)頻次、其自身的長度以及其與候選答案之間的句 法關(guān)系等特征對判斷候選答案有非常重要的作用,但上述方法未能根據(jù)問句術(shù)語的重要程 度對問句術(shù)語進行區(qū)別處理;
[0006] 其次,忽視了包含候選答案的證據(jù)語料對評估候選答案的作用;
[0007] 再次,都是基于某一單一特征或單一方法實現(xiàn)答案抽取,未能解決句法和詞法多 樣性帶來的答案抽取難點。由于包含答案的證據(jù)語料存在結(jié)構(gòu)多樣、句法結(jié)構(gòu)復(fù)雜等特點, 使得僅基于某一種特征如句法分析特征或某一種模型完成答案抽取的效果并不理想。
[0008] 因此,如何解決上述現(xiàn)有的答案抽取方法的問題,成為目前最需要解決的問題。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提供了一種答案抽取方法及裝置,可解決上述現(xiàn)有技術(shù)中的問題,可提高 答案抽取的準確率,進而提高自動問答系統(tǒng)提供答案的準確率。
[0010] 根據(jù)本發(fā)明的一方面,本發(fā)明提出了一種答案抽取方法,所述方法應(yīng)用于自動問 答系統(tǒng),包括:
[0011] 將接收到的問句劃分為多個分詞,并在對每個分詞的詞性進行標注后生成分詞序 列;
[0012] 基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù)置接口,并將所 述檢索關(guān)鍵詞提交給所述預(yù)置接口,以根據(jù)獲得的檢索結(jié)果生成包含候選答案的證據(jù)語 料;
[0013] 根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞并生成熱詞詞表;
[0014] 根據(jù)問句的內(nèi)容識別所述證據(jù)語料中的命名實體,并生成由命名實體組成的候選 答案初始集;
[0015] 根據(jù)命名實體的類型確定一種基于熱詞的預(yù)置組合評分機制并對候選答案初始 集中的每個命名實體分別進行評分,并將評分最高的命名實體作為正確答案返回,以完成 針對所述問句的答案抽取操作;
[0016] 其中,所述基于熱詞的預(yù)置組合評分機制為將預(yù)置的兩個針對證據(jù)語料的評分機 制及預(yù)置的四個針對候選答案的評分機制通過預(yù)設(shè)排列組合方式進行組合后形成的42種 組合評分機制。
[0017] 優(yōu)選地,所述基于所述分詞序列獲取檢索關(guān)鍵詞,包括:
[0018] 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為搜索關(guān) 鍵詞;
[0019] 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動詞、代詞、形容詞。
[0020] 優(yōu)選地,根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞,包括:
[0021] 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個中文字符或檢 索關(guān)鍵詞在所述證據(jù)語料中的出現(xiàn)次數(shù)是否大于兩次;
[0022] 若是,則所述檢索關(guān)鍵詞為熱詞。
[0023] 優(yōu)選地,所述預(yù)置的兩個針對證據(jù)語料的評分機制,包括:
[0024] 通過比較證據(jù)語料中與問句中包含的熱詞的數(shù)量對證據(jù)語料進行評分的熱詞匹 配評分機制;及
[0025] 通過計算證據(jù)語料中與問句中共同包含的跳躍二元熱詞對的數(shù)量對證據(jù)語料進 行評分的跳躍二元熱詞對評分機制,其中,所述跳躍二元熱詞對為一個熱詞序列中非直接 相鄰的兩個熱詞所形成的詞對;
[0026] 所述預(yù)置的四個針對候選答案的評分機制,包括:
[0027] 通過命名實體在證據(jù)語料中的出現(xiàn)頻次及根據(jù)命名實體出現(xiàn)的位置所對應(yīng)的權(quán) 重值計算出命名實體的加權(quán)分值的熱詞詞頻評分機制;
[0028] 通過計算基于熱詞對比問句中與證據(jù)語料中的語序相似度的細粒度文本對齊評 分機制;
[0029] 通過計算命名實體與熱詞之間的距離而得到與熱詞距離最短的命名實體的第一 熱詞距離評分機制;及
[0030] 通過計算熱詞與每個命名實體之間的距離并求和而得到命名實體與熱詞之間的 距離累積值的第二熱詞距離評分機制。
[0031] 優(yōu)選地,將預(yù)置的兩個針對證據(jù)語料的評分機制及四個針對候選答案的評分機制 通過預(yù)置排列組合方式進行組合后形成的42個評分機制,包括:
[0032] 將一個針對證據(jù)語料的評分機制分別與一個針對候選答案的評分機制、兩個針對 候選答案的評分機制、三個針對候選答案的評分機制和四個針對候選答案的評分機制進行 組合形成的28種評分機制;及
[0033] 將兩個針對證據(jù)語料的評分機制分別與一個針對候選答案的評分機制、兩個針對 候選答案的評分機制、三個針對候選答案的評分機制和四個針對候選答案的評分機制進行 組合形成的14種評分機制。
[0034] 根據(jù)本發(fā)明的另一方面,本發(fā)明還提出答案抽取裝置,所述裝置應(yīng)用于自動問答 系統(tǒng),包括:
[0035] 分詞單元,用于將接收到的問句劃分為多個分詞,并在對每個分詞的詞性進行標 注后生成分詞序列;
[0036] 檢索單元,用于基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù) 置接口,并將所述檢索關(guān)鍵詞提交給所述預(yù)置接口,以根據(jù)獲得的檢索結(jié)果生成包含候選 答案的證據(jù)語料;
[0037] 熱詞獲取單元,用于根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞,并生成熱詞詞 表;
[0038] 命名實體識別單元,用于根據(jù)問句的內(nèi)容識別所述證據(jù)語料中的命名實體,并生 成由命名實體組成的候選答案初始集;
[0039] 評分單元,用于根據(jù)命名實體的類型確定一種基于熱詞的預(yù)置組合評分機制并對 候選答案初始集中的每個命名實體分別進行評分,并將評分最高的命名實體作為正確答案 返回,以完成針對所述問句的答案抽取操作;
[0040] 其中,所述基于熱詞的預(yù)置組合評分機制為將預(yù)置的兩個針對證據(jù)語料的評分機 制及預(yù)置的四個針對候選答案的評分機制通過預(yù)設(shè)排列組合方式進行組合后形成的42種 組合評分機制。
[0041] 優(yōu)選地,所述檢索單元,具體用于:
[0042] 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為搜索關(guān) 鍵詞;
[0043] 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動詞、代詞、形容詞。
[0044] 優(yōu)選地,所述熱詞獲取單元,具體用于:
[0045] 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個中文字符或檢 索關(guān)鍵詞在所述證據(jù)語料中的出現(xiàn)次數(shù)是否大于兩次;
[0046] 若是,則所述檢索關(guān)鍵詞為熱詞。
[0047] 優(yōu)選地,所述預(yù)置的兩個針對證據(jù)語料的評分機制,包括:
[0048] 通過比較證據(jù)語料中與問句中包含的熱詞的數(shù)量對證據(jù)語料進行評分的熱詞匹 配評分機制;及
[0049] 通過計算證據(jù)語料中與問句中共同包含的跳躍二元熱詞對的數(shù)量對證據(jù)語料進 行評分的跳躍二元熱詞對評分機制,其中,所述跳躍二元熱詞對為一個熱詞序列中非直接 相鄰的兩個熱