測試領(lǐng)域任務(wù)型對話系統(tǒng)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請?jiān)O(shè)及計(jì)算機(jī)技術(shù)領(lǐng)域,具體設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其設(shè)及測試領(lǐng)域任務(wù) 型對話系統(tǒng)的方法和裝置。
【背景技術(shù)】
[0002] 在現(xiàn)有技術(shù)中,真實(shí)用戶在進(jìn)行人機(jī)對話時(shí),主觀性較強(qiáng),對于領(lǐng)域任務(wù)型對話系 統(tǒng)的詢問存在不同的查詢習(xí)慣,因此需要領(lǐng)域任務(wù)型對話系統(tǒng)具有較高的語義理解能力。 為了保證領(lǐng)域任務(wù)型對話系統(tǒng)能夠準(zhǔn)確識別用戶語義,需要對對話系統(tǒng)進(jìn)行測試。
[0003] 目前用于測試人機(jī)對話系統(tǒng)的技術(shù),通常使用關(guān)鍵詞作為查詢語句來測試人機(jī)對 話系統(tǒng)的響應(yīng)。
[0004] 然而,目前運(yùn)種通過關(guān)鍵詞查詢?nèi)藱C(jī)對話系統(tǒng)的響應(yīng)的測試方式,無法模擬用戶 答復(fù)方式的多樣性,因而向開發(fā)人員推送的測試結(jié)果未能反應(yīng)出人機(jī)對話系統(tǒng)的一些關(guān)鍵 測試指標(biāo),較為片面并且缺乏針對性。
【發(fā)明內(nèi)容】
[0005] 本申請的目的在于提出一種改進(jìn)的測試領(lǐng)域任務(wù)型對話系統(tǒng)的方法和裝置,來解 決W上【背景技術(shù)】部分提到的技術(shù)問題。
[0006] 第一方面,本申請?zhí)峁┝艘环N測試領(lǐng)域任務(wù)型對話系統(tǒng)的方法,所述方法包括:獲 取領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息;在預(yù)先構(gòu)建的任務(wù)數(shù)據(jù)庫中獲取單條任務(wù)信息, 其中,所述任務(wù)數(shù)據(jù)庫包括多條任務(wù)信息,每一條任務(wù)信息包括多組鍵值對,每組鍵值對包 括關(guān)鍵詞及關(guān)聯(lián)所述關(guān)鍵詞的實(shí)例;向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交由所述單條任務(wù)信息 中的鍵值對生成的答復(fù)信息;根據(jù)領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息W及依據(jù)所述任務(wù) 數(shù)據(jù)庫提交的答復(fù)信息,生成對所述領(lǐng)域任務(wù)型對話系統(tǒng)的測試數(shù)據(jù)。
[0007] 在一些實(shí)施例中,所述向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交由所述單條任務(wù)信息中的 鍵值對生成的答復(fù)信息包括:向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交符合預(yù)設(shè)用戶類型的由所述 單條任務(wù)信息中的鍵值對生成的答復(fù)信息,其中,所述預(yù)設(shè)用戶類型至少包括W下一項(xiàng)或 多項(xiàng):系統(tǒng)引導(dǎo)類型、核對查詢類型和隨機(jī)查詢類型。
[000引在一些實(shí)施例中,所述向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交符合預(yù)設(shè)用戶類型的由所 述單條任務(wù)信息中的鍵值對生成的答復(fù)信息至少包括W下一項(xiàng)或多項(xiàng):若所述預(yù)設(shè)用戶類 型包括系統(tǒng)引導(dǎo)類型,向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基于從所述單條任務(wù)信息中獲取的 關(guān)鍵詞與所述詢問信息的關(guān)鍵詞相同的鍵值對生成的答復(fù)信息;若所述預(yù)設(shè)用戶類型包括 核對查詢類型,核對所述詢問信息的關(guān)鍵詞是否符合上一次提交的答復(fù)信息的關(guān)鍵詞,若 符合,則向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基于從所述單條任務(wù)信息中獲取的關(guān)鍵詞與所述 詢問信息的關(guān)鍵詞相同的鍵值對生成的答復(fù)信息,若不符合,則向所述領(lǐng)域任務(wù)型對話系 統(tǒng)提交基于上一次答復(fù)信息的鍵值對生成的答復(fù)信息;若所述預(yù)設(shè)用戶類型包括隨機(jī)查詢 類型,向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基于從所述單條任務(wù)信息中隨機(jī)獲取的鍵值對生成 的答復(fù)信息。
[0009] 在一些實(shí)施例中,所述向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交符合預(yù)設(shè)用戶類型的由所 述單條任務(wù)信息中的鍵值對生成的答復(fù)信息包括:向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交符合所 述預(yù)設(shè)用戶類型的由所述單條任務(wù)信息中的鍵值對套用預(yù)設(shè)的鍵值對的表達(dá)模板之一生 成的答復(fù)信息。
[0010] 在一些實(shí)施例中,所述根據(jù)領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息W及依據(jù)所述任 務(wù)數(shù)據(jù)庫提交的答復(fù)信息,生成對所述領(lǐng)域任務(wù)型對話系統(tǒng)的測試數(shù)據(jù)至少包括W下一項(xiàng) 或多項(xiàng):將領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的數(shù)量及依據(jù)所述任務(wù)數(shù)據(jù)庫提交的答復(fù) 信息的數(shù)量相加后除W所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量,得到平均對話長度;將 依據(jù)所述任務(wù)數(shù)據(jù)庫提交的答復(fù)信息及所答復(fù)的詢問信息中已完成任務(wù)信息的數(shù)量除W 所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量,得到對話完成率,其中,所述已完成任務(wù)信息為 基于每一組鍵值對已提交答復(fù)信息的任務(wù)信息;響應(yīng)于所述詢問信息的鍵值對與當(dāng)前任務(wù) 信息中的鍵值對相同,確定關(guān)鍵詞準(zhǔn)確,將所述任務(wù)數(shù)據(jù)庫中用于生成答復(fù)信息的關(guān)鍵詞 準(zhǔn)確的數(shù)量除W所述任務(wù)數(shù)據(jù)庫中關(guān)鍵詞用于生成答復(fù)信息的數(shù)量,得到關(guān)鍵詞準(zhǔn)確率; 遍歷所述任務(wù)數(shù)據(jù)庫中的關(guān)鍵詞,將所述關(guān)鍵詞準(zhǔn)確率進(jìn)行累加,得到對話系統(tǒng)準(zhǔn)確率。
[0011] 在一些實(shí)施例中,所述領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的結(jié)構(gòu)如下:
[0012]
[0013 ]其中,Μ表示所述領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的結(jié)構(gòu),Ask_key_s 1 ot表示 當(dāng)前所述領(lǐng)域任務(wù)型對話系統(tǒng)的詢問信息的關(guān)鍵詞,η表示詢問信息的關(guān)鍵詞的數(shù)量,sj(l < j < η)表示詢問信息中第j個關(guān)鍵詞,Result_info;rmation表示當(dāng)前所述領(lǐng)域任務(wù)型對話 系統(tǒng)基于預(yù)設(shè)的檢索庫檢索到的關(guān)鍵詞的實(shí)例,用一個2列的矩陣表示,所述矩陣的第一列 表示關(guān)鍵詞,第二列表示關(guān)鍵詞的實(shí)例值;
[0014] 所述領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息所基于的任務(wù)信息的定義如下:
[0015] (one dialogue 1:ask)D=[si ·.. Sn]
[0016] 其中,(one dialogue化sk)D表示詢問信息所基于的任務(wù)信息,η表示詢問信息所 基于的任務(wù)信息的關(guān)鍵詞的數(shù)量,sj(l < j < η)表示詢問信息所基于的任務(wù)信息中第j個關(guān) 鍵詞;
[0017] 所述任務(wù)數(shù)據(jù)庫的定義如下:
[001 引
[0019] 其中,T為W矩陣的形式表示的任務(wù)數(shù)據(jù)庫,矩陣的每一行定義一條任務(wù)信息,矩 陣中的元素是任務(wù)數(shù)據(jù)庫中任務(wù)信息的關(guān)鍵詞,即Su(l含i含m,l含j含η)表示任務(wù)數(shù)據(jù)庫 中第i個任務(wù)信息的第j個關(guān)鍵詞。
[0020] 在一些實(shí)施例中,所述將領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的數(shù)量及依據(jù)所述 任務(wù)數(shù)據(jù)庫提交的答復(fù)信息的數(shù)量相加后除W所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量, 得到平均對話長度包括:
[0021]
[0022] 其中,al為平均對話長度;qsds為領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的數(shù)量; qevai為依據(jù)所述任務(wù)數(shù)據(jù)庫提交的答復(fù)信息的數(shù)量;m為W矩陣的形式表示的任務(wù)數(shù)據(jù)庫T 的行數(shù);
[0023] 所述將依據(jù)所述任務(wù)數(shù)據(jù)庫提交的答復(fù)信息及所答復(fù)的詢問信息中已完成任務(wù) 信息的數(shù)量除W所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量,得到對話完成率包括:
[0024]
[0025] 其中,dfr為對話完成率;m為矩陣T的行數(shù);df表示依據(jù)所述任務(wù)數(shù)據(jù)庫T提交的答 復(fù)信息及所答復(fù)的詢問信息中已完成任務(wù)信息的數(shù)量,當(dāng)任務(wù)信息的每一組鍵值對均已提 交答復(fù)信息時(shí),所述任務(wù)信息為已完成任務(wù)信息;
[0026] 所述將所述任務(wù)數(shù)據(jù)庫中用于生成答復(fù)信息的關(guān)鍵詞準(zhǔn)確的數(shù)量除W所述任務(wù) 數(shù)據(jù)庫中關(guān)鍵詞用于生成答復(fù)信息的數(shù)量,得到關(guān)鍵詞準(zhǔn)確率包括:
[0027]
[002引其中,ks。表示關(guān)鍵詞S的準(zhǔn)確率;山表示W(wǎng)矩陣形式表示的任務(wù)數(shù)據(jù)庫T中關(guān)鍵詞 S用于準(zhǔn)確生成答復(fù)信息的數(shù)量,在每次生成答復(fù)信息時(shí),將所述結(jié)構(gòu)化信息Μ中的Result, information與T的當(dāng)前任務(wù)信息進(jìn)行對比,若對比結(jié)果相同,則關(guān)鍵詞S準(zhǔn)確;ts表示在所 述任務(wù)數(shù)據(jù)庫T中關(guān)鍵詞S用于生成答復(fù)信息的總次數(shù);
[0029] 所述遍歷所述任務(wù)數(shù)據(jù)庫中的關(guān)鍵詞,將所述關(guān)鍵詞準(zhǔn)確率進(jìn)行累加,得到對話 系統(tǒng)準(zhǔn)確率包括:
[0030]
[0031] 其中,dar表示對話系統(tǒng)準(zhǔn)確率;ksrs表示關(guān)鍵詞S的準(zhǔn)確率;Σ表示遍歷所有的關(guān) 鍵詞S,將所述ksrs進(jìn)行累加。
[0032] 第二方面,本申請?zhí)峁┝艘环N測試領(lǐng)域任務(wù)型對話系統(tǒng)的裝置,所述裝置包括:詢 問信息獲取模塊,用于獲取領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息;任務(wù)信息獲取模塊,用于 在預(yù)先構(gòu)建的任務(wù)數(shù)據(jù)庫中獲取單條任務(wù)信息,其中,所述任務(wù)數(shù)據(jù)庫包括多條任務(wù)信息, 每一條任務(wù)信息包括多組鍵值對,每組鍵值對包括關(guān)鍵詞及關(guān)聯(lián)所述關(guān)鍵詞的實(shí)例;答復(fù) 信息提交模塊,用于向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交由所述單條任務(wù)信息中的鍵值對生成 的答復(fù)信息;測試數(shù)據(jù)生成模塊,用于根據(jù)領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息W及依據(jù) 所述任務(wù)數(shù)據(jù)庫提交的答復(fù)信息,生成對所述領(lǐng)域任務(wù)型對話系統(tǒng)的測試數(shù)據(jù)。
[0033] 在一些實(shí)施例中,所述答復(fù)信息提交模塊進(jìn)一步用于:向所述領(lǐng)域任務(wù)型對話系 統(tǒng)提交符合預(yù)設(shè)用戶類型的由所述單條任務(wù)信息中的鍵值對生成的答復(fù)信息,其中,所述 預(yù)設(shè)用戶類型至少包括W下一項(xiàng)或多項(xiàng):系統(tǒng)引導(dǎo)類型、核對查詢類型和隨機(jī)查詢類型。
[0034] 在一些實(shí)施例中,所述答復(fù)信息提交模塊至少包括W下一項(xiàng)或多項(xiàng):系統(tǒng)引導(dǎo)提 交模塊,用于若所述預(yù)設(shè)用戶類型包括系統(tǒng)引導(dǎo)類型,向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基 于從所述單條任務(wù)信息中獲取的關(guān)鍵詞與所述詢問信息的關(guān)鍵詞相同的鍵值對生成的答 復(fù)信息;核對查詢提交模塊,用于若所述預(yù)設(shè)用戶類型包括核對查詢類型,核對所述詢問信 息的關(guān)鍵詞是否符合上一次提交的答復(fù)信息的關(guān)鍵詞,若符合,則向所述領(lǐng)域任務(wù)型對話 系統(tǒng)提交基于從所述單條任務(wù)信息中獲取的關(guān)鍵詞與所述詢問信息的關(guān)鍵詞相同的鍵值 對生成的答復(fù)信息,若不符合,則向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基于上一次答復(fù)信息的 鍵值對生成的答復(fù)信息;隨機(jī)查詢提交模塊,用于若所述預(yù)設(shè)用戶類型包括隨機(jī)查詢類型, 向所述領(lǐng)域任務(wù)型對話系統(tǒng)提交基于從所述單條任務(wù)信息中隨機(jī)獲取的鍵值對生成的答 復(fù)倍息。
[0035] 在一些實(shí)施例中,所述答復(fù)信息提交模塊進(jìn)一步用于:向所述領(lǐng)域任務(wù)型對話系 統(tǒng)提交符合所述預(yù)設(shè)用戶類型的由所述單條任務(wù)信息中的鍵值對套用預(yù)設(shè)的鍵值對的表 達(dá)模板之一生成的答復(fù)信息。
[0036] 在一些實(shí)施例中,所述測試數(shù)據(jù)生成模塊至少包括W下一項(xiàng)或多項(xiàng):平均對話長 度生成模塊,用于將領(lǐng)域任務(wù)型對話系統(tǒng)輸出的詢問信息的數(shù)量及依據(jù)所述任務(wù)數(shù)據(jù)庫提 交的答復(fù)信息的數(shù)量相加后除W所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量,得到平均對話 長度;對話完成率生成模塊,用于將依據(jù)所述任務(wù)數(shù)據(jù)庫提交的答復(fù)信息及所答復(fù)的詢問 信息中已完成任務(wù)信息的數(shù)量除W所述任務(wù)數(shù)據(jù)庫中包括的任務(wù)信息的數(shù)量,得到對話完 成率,其中,所述已完成任務(wù)信息為基于每一組鍵值對已提交答復(fù)信息的任務(wù)信息;關(guān)鍵詞 準(zhǔn)確率生成模塊,用于響應(yīng)于生成答復(fù)信息的關(guān)鍵詞與當(dāng)前任務(wù)信息中的關(guān)鍵詞相同,確 定關(guān)鍵詞準(zhǔn)確,將所