086] 下面詳細(xì)介紹本實(shí)施例中的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及預(yù)置的四個(gè)針對(duì)候 選答案的評(píng)分機(jī)制。
[0087] 所述兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制,包括熱詞匹配評(píng)分機(jī)制和跳躍二元熱詞對(duì)評(píng) 分機(jī)制。
[0088] 熱詞匹配評(píng)分機(jī)制(ETM,Evidence Terms Match Scorer),ETM通過(guò)計(jì)算證據(jù)語(yǔ)料 與問(wèn)句的表面文本相似度對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng)分,也就是說(shuō),在忽略語(yǔ)法、語(yǔ)序等句法結(jié)構(gòu)信 息的條件下,通過(guò)比較證據(jù)語(yǔ)料中所包含的熱詞數(shù)量與問(wèn)句中所包含的熱詞數(shù)量,以對(duì)證 據(jù)語(yǔ)料進(jìn)行評(píng)分。
[0089] 每條證據(jù)語(yǔ)料包括標(biāo)題部分(Title)和摘錄內(nèi)容部分(Snippet),則每條證據(jù)語(yǔ) 料的分值為Title的分值與Snippet的分值的總和,ETM可通過(guò)如下公式對(duì)證據(jù)語(yǔ)料進(jìn)行 評(píng)分:
【主權(quán)項(xiàng)】
1. 一種答案抽取方法,其特征在于,所述方法應(yīng)用于自動(dòng)問(wèn)答系統(tǒng),包括: 將接收到的問(wèn)句劃分為多個(gè)分詞,并在對(duì)每個(gè)分詞的詞性進(jìn)行標(biāo)注后生成分詞序列; 基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù)置接口,并將所述檢 索關(guān)鍵詞提交給所述預(yù)置接口,W根據(jù)獲得的檢索結(jié)果生成包含候選答案的證據(jù)語(yǔ)料; 根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞并生成熱詞詞表; 根據(jù)問(wèn)句的內(nèi)容識(shí)別所述證據(jù)語(yǔ)料中的命名實(shí)體,并生成由命名實(shí)體組成的候選答案 初始集; 根據(jù)命名實(shí)體的類型確定一種基于熱詞的預(yù)置組合評(píng)分機(jī)制并對(duì)候選答案初始集中 的每個(gè)命名實(shí)體分別進(jìn)行評(píng)分,并將評(píng)分最高的命名實(shí)體作為正確答案返回,W完成針對(duì) 所述問(wèn)句的答案抽取操作; 其中,所述基于熱詞的預(yù)置組合評(píng)分機(jī)制為將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及 預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)設(shè)排列組合方式進(jìn)行組合后形成的42種組合 評(píng)分機(jī)制。
2. 如權(quán)利要求1所述的方法,其特征在于,所述基于所述分詞序列獲取檢索關(guān)鍵詞,包 括: 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為捜索關(guān)鍵 詞; 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動(dòng)詞、代詞、形容詞。
3. 如權(quán)利要求2所述的方法,其特征在于,根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱 詞,包括: 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個(gè)中文字符或檢索關(guān) 鍵詞在所述證據(jù)語(yǔ)料中的出現(xiàn)次數(shù)是否大于兩次; 若是,則所述檢索關(guān)鍵詞為熱詞。
4. 如權(quán)利要求1所述的方法,其特征在于,所述預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制, 包括: 通過(guò)比較證據(jù)語(yǔ)料中與問(wèn)句中包含的熱詞的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng)分的熱詞匹配評(píng) 分機(jī)制;及 通過(guò)計(jì)算證據(jù)語(yǔ)料中與問(wèn)句中共同包含的跳躍二元熱詞對(duì)的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng) 分的跳躍二元熱詞對(duì)評(píng)分機(jī)制,其中,所述跳躍二元熱詞對(duì)為一個(gè)熱詞序列中非直接相鄰 的兩個(gè)熱詞所形成的詞對(duì); 所述預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制,包括: 通過(guò)命名實(shí)體在證據(jù)語(yǔ)料中的出現(xiàn)頻次及根據(jù)命名實(shí)體出現(xiàn)的位置所對(duì)應(yīng)的權(quán)重值 計(jì)算出命名實(shí)體的加權(quán)分值的熱詞詞頻評(píng)分機(jī)制; 通過(guò)計(jì)算基于熱詞對(duì)比問(wèn)句中與證據(jù)語(yǔ)料中的語(yǔ)序相似度的細(xì)粒度文本對(duì)齊評(píng)分機(jī) 制; 通過(guò)計(jì)算命名實(shí)體與熱詞之間的距離而得到與熱詞距離最短的命名實(shí)體的第一熱詞 距離評(píng)分機(jī)制;及 通過(guò)計(jì)算熱詞與每個(gè)命名實(shí)體之間的距離并求和而得到命名實(shí)體與熱詞之間的距離 累積值的第二熱詞距離評(píng)分機(jī)制。
5. 如權(quán)利要求4所述的方法,其特征在于,將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及 四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)置排列組合方式進(jìn)行組合后形成的42個(gè)評(píng)分機(jī)制, 包括: 將一個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì)候選 答案的評(píng)分機(jī)制、=個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行組合 形成的28種評(píng)分機(jī)制;及 將兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì)候選 答案的評(píng)分機(jī)制、=個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行組合 形成的14種評(píng)分機(jī)制。
6. -種答案抽取裝置,其特征在于,所述裝置應(yīng)用于自動(dòng)問(wèn)答系統(tǒng),包括: 分詞單元,用于將接收到的問(wèn)句劃分為多個(gè)分詞,并在對(duì)每個(gè)分詞的詞性進(jìn)行標(biāo)注后 生成分詞序列; 檢索單元,用于基于所述分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù)置接 口,并將所述檢索關(guān)鍵詞提交給所述預(yù)置接口,W根據(jù)獲得的檢索結(jié)果生成包含候選答案 的證據(jù)語(yǔ)料; 熱詞獲取單元,用于根據(jù)預(yù)設(shè)判斷條件在檢索關(guān)鍵詞中獲取熱詞,并生成熱詞詞表; 命名實(shí)體識(shí)別單元,用于根據(jù)問(wèn)句的內(nèi)容識(shí)別所述證據(jù)語(yǔ)料中的命名實(shí)體,并生成由 命名實(shí)體組成的候選答案初始集; 評(píng)分單元,用于根據(jù)命名實(shí)體的類型確定一種基于熱詞的預(yù)置組合評(píng)分機(jī)制并對(duì)候 選答案初始集中的每個(gè)命名實(shí)體分別進(jìn)行評(píng)分,并將評(píng)分最高的命名實(shí)體作為正確答案返 回,W完成針對(duì)所述問(wèn)句的答案抽取操作; 其中,所述基于熱詞的預(yù)置組合評(píng)分機(jī)制為將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及 預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)設(shè)排列組合方式進(jìn)行組合后形成的42種組合 評(píng)分機(jī)制。
7. 如權(quán)利要求6所述的裝置,其特征在于,所述檢索單元,具體用于: 判斷分詞序列中的分詞的詞性是否為預(yù)置關(guān)鍵詞詞性,若是,則該分詞為捜索關(guān)鍵 詞; 其中,所述預(yù)置關(guān)鍵詞詞性包括:名詞、動(dòng)詞、代詞、形容詞。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述熱詞獲取單元,具體用于: 判斷檢索關(guān)鍵詞的詞性是否為代詞、檢索關(guān)鍵詞是否至少包含兩個(gè)中文字符或檢索關(guān) 鍵詞在所述證據(jù)語(yǔ)料中的出現(xiàn)次數(shù)是否大于兩次; 若是,則所述檢索關(guān)鍵詞為熱詞。
9. 如權(quán)利要求6所述的裝置,其特征在于,所述預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制, 包括: 通過(guò)比較證據(jù)語(yǔ)料中與問(wèn)句中包含的熱詞的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng)分的熱詞匹配評(píng) 分機(jī)制;及 通過(guò)計(jì)算證據(jù)語(yǔ)料中與問(wèn)句中共同包含的跳躍二元熱詞對(duì)的數(shù)量對(duì)證據(jù)語(yǔ)料進(jìn)行評(píng) 分的跳躍二元熱詞對(duì)評(píng)分機(jī)制,其中,所述跳躍二元熱詞對(duì)為一個(gè)熱詞序列中非直接相鄰 的兩個(gè)熱詞所形成的詞對(duì); 所述預(yù)置的四個(gè)針對(duì)候選答案的評(píng)分機(jī)制,包括: 通過(guò)命名實(shí)體在證據(jù)語(yǔ)料中的出現(xiàn)頻次及根據(jù)命名實(shí)體出現(xiàn)的位置所對(duì)應(yīng)的權(quán)重值 計(jì)算出命名實(shí)體的加權(quán)分值的熱詞詞頻評(píng)分機(jī)制; 通過(guò)計(jì)算基于熱詞對(duì)比問(wèn)句中與證據(jù)語(yǔ)料中的語(yǔ)序相似度的細(xì)粒度文本對(duì)齊評(píng)分機(jī) 制; 通過(guò)計(jì)算命名實(shí)體與熱詞之間的距離而得到與熱詞距離最短的命名實(shí)體的第一熱詞 距離評(píng)分機(jī)制;及 通過(guò)計(jì)算熱詞與每個(gè)命名實(shí)體之間的距離并求和而得到命名實(shí)體與熱詞之間的距離 累積值的第二熱詞距離評(píng)分機(jī)制。
10.如權(quán)利要求9所述的裝置,其特征在于,將預(yù)置的兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制及 四個(gè)針對(duì)候選答案的評(píng)分機(jī)制通過(guò)預(yù)置排列組合方式進(jìn)行組合后形成的42個(gè)評(píng)分機(jī)制, 包括: 將一個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì)候選 答案的評(píng)分機(jī)制、=個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行組合 形成的28種評(píng)分機(jī)制;及 將兩個(gè)針對(duì)證據(jù)語(yǔ)料的評(píng)分機(jī)制分別與一個(gè)針對(duì)候選答案的評(píng)分機(jī)制、兩個(gè)針對(duì)候選 答案的評(píng)分機(jī)制、=個(gè)針對(duì)候選答案的評(píng)分機(jī)制和四個(gè)針對(duì)候選答案的評(píng)分機(jī)制進(jìn)行組合 形成的14種評(píng)分機(jī)制。
【專利摘要】本發(fā)明提供了一種答案抽取方法及裝置,應(yīng)用于自動(dòng)問(wèn)答系統(tǒng),包括:將接收到的問(wèn)句劃分為多個(gè)分詞,并對(duì)每個(gè)分詞的詞性進(jìn)行標(biāo)注后生成分詞序列;基于分詞序列獲取檢索關(guān)鍵詞,調(diào)用用于執(zhí)行檢索操作的預(yù)置接口并將檢索關(guān)鍵詞提交給預(yù)置接口,以根據(jù)檢索結(jié)果生成包含候選答案的證據(jù)語(yǔ)料;在檢索關(guān)鍵詞中獲取熱詞并生成熱詞詞表;根據(jù)問(wèn)句的內(nèi)容識(shí)別證據(jù)語(yǔ)料中的命名實(shí)體并生成候選答案初始集;根據(jù)命名實(shí)體的類型確定一種基于熱詞的預(yù)置組合評(píng)分機(jī)制并對(duì)候選答案初始集中的每個(gè)命名實(shí)體分別進(jìn)行評(píng)分,并將評(píng)分最高的命名實(shí)體作為正確答案返回,以完成針對(duì)所述問(wèn)句的答案抽取。該方法可提高答案抽取的準(zhǔn)確率。
【IPC分類】G06F17-27, G06F17-30
【公開號(hào)】CN104536991
【申請(qǐng)?zhí)枴緾N201410757700
【發(fā)明人】樂娟
【申請(qǐng)人】樂娟, 北京戲曲藝術(shù)職業(yè)學(xué)院
【公開日】2015年4月22日
【申請(qǐng)日】2014年12月10日