本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,尤其涉及人機(jī)交互中信息處理的方法及裝置。
背景技術(shù):
人機(jī)交互是研究系統(tǒng)與用戶之間的交互關(guān)系的科學(xué)。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件。例如,通過人機(jī)交互可以實(shí)現(xiàn)各種人工智能系統(tǒng),例如,智能客服系統(tǒng)、語音控制系統(tǒng)等等。
人工智能語義識(shí)別是人機(jī)交互的基礎(chǔ),其能夠?qū)θ祟愓Z言進(jìn)行識(shí)別,以轉(zhuǎn)換成機(jī)器能夠理解的語言。為了能夠理解人類語言,人工智能語義識(shí)別系統(tǒng)需要一套知識(shí)庫。海量異構(gòu)數(shù)據(jù)通過知識(shí)學(xué)習(xí)體系整理成知識(shí),并融入到已有的知識(shí)體系中來。
各種人工智能系統(tǒng)采用人工智能語義識(shí)別技術(shù)對(duì)用戶提出的原始問句進(jìn)行處理,確定出該原始問句對(duì)應(yīng)的標(biāo)準(zhǔn)問句,再基于該標(biāo)準(zhǔn)問句及原始問句中所附帶的一些限定性的信息給出相應(yīng)的答案,在人工智能系統(tǒng)中以日志的形式記錄下針對(duì)每一個(gè)原始問句的處理情況,每一條日志的信息包含:用戶提出的原始問句(用戶問句)、標(biāo)準(zhǔn)問句(標(biāo)準(zhǔn)問)和答案。
要對(duì)知識(shí)庫進(jìn)行優(yōu)化,包含兩個(gè)重要步驟:將需要優(yōu)化的交互日志挑選出來;針對(duì)挑選出來的日志對(duì)知識(shí)庫進(jìn)行優(yōu)化。
現(xiàn)有技術(shù)中,挑選交互日志時(shí),主要是通過人工手動(dòng)收集并整理出正確日志庫和無意義日志庫,然后用每日交互日志做對(duì)比,對(duì)完全匹配的日志內(nèi)容進(jìn)行過濾。每一條日志都需人工對(duì)比,需要投入大量人工勞動(dòng)。同時(shí),當(dāng)需要對(duì)知識(shí)庫進(jìn)行優(yōu)化時(shí),也需要專業(yè)的知識(shí)運(yùn)維人員針對(duì)每條需優(yōu)化日志進(jìn)行標(biāo)準(zhǔn)問編寫,成本高且效率低下。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種信息處理的方法及裝置,克服了傳統(tǒng)技術(shù)中存在的以下問題:需要投入大量人工勞動(dòng)挑選需優(yōu)化的交互日志。同時(shí),在信息處理時(shí),系統(tǒng)會(huì)自動(dòng)推薦標(biāo)準(zhǔn)問,進(jìn)一步減少了人工勞動(dòng)的投入,提高了知識(shí)庫的優(yōu)化效率。
根據(jù)上述目的,本發(fā)明提供一種信息處理的方法,包括:提供模型樣例庫,所述模型樣例庫包括樣例標(biāo)準(zhǔn)問以及與每個(gè)樣例標(biāo)準(zhǔn)問相對(duì)應(yīng)的樣例擴(kuò)展問;提供知識(shí)庫,所述知識(shí)庫包括知識(shí)庫標(biāo)準(zhǔn)問以及與每個(gè)知識(shí)庫標(biāo)準(zhǔn)問相對(duì)應(yīng)的知識(shí)庫擴(kuò)展問和答案,所述知識(shí)庫用于為用戶問句提供答案;確定所述模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹配的樣例擴(kuò)展問;若存在,則確定所述人機(jī)交互日志中所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同;若不相同,則優(yōu)化所述知識(shí)庫。
在一實(shí)施例中,所述樣例擴(kuò)展問包括知識(shí)庫擴(kuò)展問,所述樣例標(biāo)準(zhǔn)問包括知識(shí)庫標(biāo)準(zhǔn)問。
在一實(shí)施例中,確定所述模型樣例庫中是否存在與所述用戶問句相匹配的樣例擴(kuò)展問包括:將所述用戶問句與樣例擴(kuò)展問執(zhí)行語義相似度計(jì)算以確定所述模型樣例庫中是否存在至少一個(gè)與所述用戶問句的語義相似度大于第一閾值的樣例擴(kuò)展問。
在一實(shí)施例中,確定所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同包括:比較所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問文字是否完全一致。
在一實(shí)施例中,若存在與所述用戶問句語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問,且所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問句相同,則將所述用戶問句及所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問相關(guān)聯(lián)地添加入所述模型樣例庫。
在一實(shí)施例中,若存在多個(gè)匹配的樣例擴(kuò)展問,則確定所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同包括:確定是否有一個(gè)匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問與所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問相同。
在一實(shí)施例中,對(duì)所述知識(shí)庫的優(yōu)化包括:基于所述語義相似度計(jì)算的結(jié)果,推薦與所述用戶問句的語義相似度大于第二閾值的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問;將從所推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的樣例標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入所述知識(shí)庫。
在一實(shí)施例中,所述方法還包括:將所述從所推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的樣例標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入所述模型樣例庫。
在一實(shí)施例中,若所述模型樣例庫中不存在與所述用戶問句相匹配的樣例擴(kuò)展問,則在知識(shí)庫中創(chuàng)建與所述用戶問句對(duì)應(yīng)的知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括:知識(shí)庫標(biāo)準(zhǔn)問、知識(shí)庫擴(kuò)展問和答案。
在一實(shí)施例中,所述方法還包括:將在知識(shí)庫中創(chuàng)建的知識(shí)點(diǎn)同時(shí)添加到所述模型樣例庫。
在一實(shí)施例中,將所述用戶問句與樣例擴(kuò)展問執(zhí)行語義相似度計(jì)算包括:對(duì)樣例擴(kuò)展問進(jìn)行分詞,并計(jì)算詞和句子向量值;對(duì)所述用戶問句進(jìn)行分詞,并計(jì)算詞和句子向量值;計(jì)算樣例擴(kuò)展問的詞和句子向量值與所述用戶問句的詞和句子向量值的相關(guān)度,以得出所述用戶問句與樣例擴(kuò)展問的語義相似度。
在一實(shí)施例中,在確定所述模型樣例庫中是否存在與所述用戶問句相匹配的樣例擴(kuò)展問之前,所述方法還包括:對(duì)所述人機(jī)交互日志中所有用戶問句進(jìn)行預(yù)處理,以過濾人機(jī)交互日志用戶問句中的無效數(shù)據(jù)。
本發(fā)明還提供一種信息處理的裝置,包括:第一分析模塊,用于確定模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹配的樣例擴(kuò)展問;第二分析模塊,用于響應(yīng)于存在與所述用戶問句相匹配的樣例擴(kuò)展問,則確定所述人機(jī)交互日志中所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同;以及優(yōu)化模塊,用于響應(yīng)于所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問不相同,則優(yōu)化知識(shí)庫。
在一實(shí)施例中,所述第一分析模塊包括:語義相似度計(jì)算模塊,用于將所述用戶問句與樣例擴(kuò)展問執(zhí)行語義相似度計(jì)算,以確定所述模型樣例庫中是否存在至少一個(gè)與所述用戶問句的語義相似度大于第一閾值的樣例擴(kuò)展問。
在一實(shí)施例中,所述第二分析模塊包括:比較模塊,用于比較所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問文字是否完全一致。
在一實(shí)施例中,所述第二分析模塊還包括:添加模塊,用于響應(yīng)于存在與所述用戶問句語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問,且所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問句相同,則將所述用戶問句及所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問相關(guān)聯(lián)地添加入所述模型樣例庫。
在一實(shí)施例中,若存在多個(gè)匹配的樣例擴(kuò)展問,則所述第二分析模塊確定是否有一個(gè)匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問與所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問相同。
在一實(shí)施例中,所述優(yōu)化模塊包括:推薦模塊,用于基于所述語義相似度計(jì)算的結(jié)果,推薦與所述用戶問句的語義匹配度大于第二閾值的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問;以及添加模塊,用于將從所推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入所述知識(shí)庫。
在一實(shí)施例中,所述添加模塊進(jìn)一步用于將所述從所推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入所述模型樣例庫。
在一實(shí)施例中,若所述模型樣例庫中不存在與所述用戶問句相匹配的樣例擴(kuò)展問,則所述添加模塊在知識(shí)庫中創(chuàng)建與所述用戶問句對(duì)應(yīng)的知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括:知識(shí)庫標(biāo)準(zhǔn)問、知識(shí)庫擴(kuò)展問和答案。
在一實(shí)施例中,所述添加模塊還將在知識(shí)庫中創(chuàng)建的知識(shí)點(diǎn)同時(shí)添加到所述模型樣例庫。
在一實(shí)施例中,所述語義相似度計(jì)算模塊包括:詞及向量計(jì)算模塊,用于對(duì)樣例擴(kuò)展問進(jìn)行分詞,并計(jì)算詞和句子向量值,以及對(duì)所述用戶問句進(jìn)行分詞,并計(jì)算詞和句子向量值;以及相關(guān)度計(jì)算模塊,用于計(jì)算樣例擴(kuò)展問的詞和句子向量值與所述用戶問句的詞和句子向量值的相關(guān)度,以得出所述用戶問句與樣例擴(kuò)展問的語義相似度。
在一實(shí)施例中,所述裝置還包括:預(yù)處理模塊,用于在確定所述模型樣例庫中是否存在與所述用戶問句相匹配的樣例擴(kuò)展問之前,對(duì)所述人機(jī)交互日志 中所有用戶問句進(jìn)行預(yù)處理,以過濾人機(jī)交互日志用戶問句中的無效數(shù)據(jù)。
本發(fā)明還提供一種信息處理的系統(tǒng),包括所述任一信息處理的裝置,還包括:模型樣例庫,所述模型樣例庫包括樣例標(biāo)準(zhǔn)問以及與每個(gè)樣例標(biāo)準(zhǔn)問相對(duì)應(yīng)的樣例擴(kuò)展問;知識(shí)庫,所述知識(shí)庫包括知識(shí)庫標(biāo)準(zhǔn)問以及與每個(gè)知識(shí)庫標(biāo)準(zhǔn)問相對(duì)應(yīng)的知識(shí)庫擴(kuò)展問和答案,所述知識(shí)庫用于為用戶問句提供答案。
本發(fā)明在選取需優(yōu)化人機(jī)交互日志時(shí),首先通過設(shè)立的模型樣例庫進(jìn)行自動(dòng)篩選,過濾掉了大量的已有知識(shí)內(nèi)容,減少了人工勞動(dòng)的投入量。同時(shí)系統(tǒng)會(huì)自動(dòng)向需優(yōu)化人機(jī)交互日志推薦標(biāo)準(zhǔn)問,人工只需進(jìn)行選擇即可,進(jìn)一步減少了人工勞動(dòng),提高了知識(shí)庫的優(yōu)化效率。
為了對(duì)本發(fā)明的上述及其他方面有更佳的了解,下文特舉較佳實(shí)施例,并配合附圖,作詳細(xì)說明如下:
附圖說明
圖1為本發(fā)明知識(shí)庫示意圖;
圖2為本發(fā)明模型樣例庫示意圖;
圖3為本發(fā)明一實(shí)施例的信息處理的方法流程中優(yōu)化知識(shí)庫流程的示意圖;
圖4為本發(fā)明一實(shí)施例的信息處理的方法流程的示意圖;
圖5為本發(fā)明一實(shí)施例的信息處理的裝置的示意圖。
具體實(shí)施方式
用戶在與智能機(jī)器人交互過程中會(huì)產(chǎn)生交互日志,每條交互日志由用戶問句、對(duì)應(yīng)的知識(shí)庫標(biāo)準(zhǔn)問以及答案三部分組成。其中用戶問句是由用戶直接輸入獲得,通過問答引擎對(duì)用戶問句的解析識(shí)別后,調(diào)用相應(yīng)的知識(shí)庫標(biāo)準(zhǔn)問及對(duì)應(yīng)的答案。在這些交互日志中根據(jù)用戶問句與機(jī)器人給予對(duì)應(yīng)知識(shí)點(diǎn)的答案回復(fù)準(zhǔn)確性區(qū)分,可分為用戶問句內(nèi)容機(jī)器人未給予答復(fù)、用戶問句內(nèi)容機(jī)器人給予正確答復(fù)、用戶問句內(nèi)容機(jī)器人給予錯(cuò)誤答復(fù)。造成機(jī)器人未答復(fù)或給予錯(cuò)誤答復(fù)的原因主要是由于機(jī)器人知識(shí)庫中缺失了相應(yīng)的知識(shí)點(diǎn)或已有知識(shí)點(diǎn)的問法不夠豐富。因此通過每天產(chǎn)生的交互日志的分析,提取因知識(shí)點(diǎn)缺失或問法不豐富造成的機(jī)器人非正確答復(fù)的日志是對(duì)知識(shí)庫持續(xù)優(yōu)化的一個(gè) 主要途徑。本發(fā)明提供的方法和裝置可以大大減少在提取需要優(yōu)化的人機(jī)交互日志時(shí)的人工投入量。本發(fā)明主要關(guān)注交互日志中的用戶問句和標(biāo)準(zhǔn)問。
請(qǐng)參看圖1和圖2,圖1和圖2示出了本發(fā)明信息處理的部分對(duì)象,知識(shí)庫和模型樣例庫。
如圖1所示,知識(shí)庫10包括至少一個(gè)知識(shí)庫標(biāo)準(zhǔn)問101以及與每個(gè)知識(shí)庫標(biāo)準(zhǔn)問相對(duì)應(yīng)的知識(shí)庫擴(kuò)展問1011和答案,其中每個(gè)知識(shí)庫標(biāo)準(zhǔn)問對(duì)應(yīng)一個(gè)答案,可以有多個(gè)知識(shí)庫擴(kuò)展問1011-知識(shí)庫擴(kuò)展問101n對(duì)應(yīng)一個(gè)知識(shí)庫標(biāo)準(zhǔn)問101。由于知識(shí)庫標(biāo)準(zhǔn)問101跟答案存在一一對(duì)應(yīng)的關(guān)系,本發(fā)明主要關(guān)注知識(shí)庫標(biāo)準(zhǔn)問以及與每個(gè)知識(shí)庫標(biāo)準(zhǔn)問相對(duì)應(yīng)的知識(shí)庫擴(kuò)展問的處理過程。通常,知識(shí)庫中都會(huì)存在多個(gè)知識(shí)庫標(biāo)準(zhǔn)問,知識(shí)庫標(biāo)準(zhǔn)問101-知識(shí)庫標(biāo)準(zhǔn)問10n。知識(shí)庫中包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括:一個(gè)知識(shí)庫標(biāo)準(zhǔn)問、多個(gè)知識(shí)庫擴(kuò)展問和一個(gè)答案,即不同的知識(shí)庫擴(kuò)展問都是對(duì)應(yīng)同一個(gè)答案,一個(gè)知識(shí)庫標(biāo)準(zhǔn)問也對(duì)應(yīng)這一個(gè)答案。一般是從每個(gè)知識(shí)點(diǎn)對(duì)應(yīng)的多個(gè)知識(shí)庫擴(kuò)展問中選擇一個(gè)表達(dá)清晰易于維護(hù)的知識(shí)庫擴(kuò)展問作為該知識(shí)點(diǎn)的知識(shí)庫標(biāo)準(zhǔn)問,因此知識(shí)庫標(biāo)準(zhǔn)問與一個(gè)知識(shí)庫擴(kuò)展問相同。需要說明的是,每個(gè)知識(shí)庫標(biāo)準(zhǔn)問所對(duì)應(yīng)的知識(shí)庫擴(kuò)展問個(gè)數(shù)可以相同,也可以不同。
在人機(jī)交互過程中,接收到用戶問句后,會(huì)通過語義相似度計(jì)算從知識(shí)庫中得到與用戶問句的語義相似度最高且高于閾值的知識(shí)庫擴(kuò)展問,并將該知識(shí)庫擴(kuò)展問對(duì)應(yīng)的答案發(fā)送給用戶,同時(shí)將該用戶問句及與該知識(shí)庫擴(kuò)展問對(duì)應(yīng)的知識(shí)庫標(biāo)準(zhǔn)問關(guān)聯(lián)性地作為一條交互日志。
如圖2所示,模型樣例庫20包括至少一個(gè)樣例標(biāo)準(zhǔn)問201以及與其對(duì)應(yīng)的一個(gè)或多個(gè)樣例擴(kuò)展問2011,同知識(shí)庫數(shù)據(jù)結(jié)構(gòu)類似,一個(gè)樣例標(biāo)準(zhǔn)問可以跟多個(gè)樣例擴(kuò)展問對(duì)應(yīng)。一般是從多個(gè)樣例擴(kuò)展問中選擇一個(gè)表達(dá)清晰易于維護(hù)的擴(kuò)展問作為與所述多個(gè)樣例對(duì)應(yīng)的樣例標(biāo)準(zhǔn)問,因此樣例標(biāo)準(zhǔn)問與其中一個(gè)樣例擴(kuò)展問相同。每個(gè)樣例標(biāo)準(zhǔn)問對(duì)應(yīng)的樣例擴(kuò)展問個(gè)數(shù)可以相同,也可以不同。
請(qǐng)參看圖3,示出了本發(fā)明一實(shí)施例的知識(shí)庫優(yōu)化流程30,包含以下步驟:
步驟301:開始。
步驟302:確定模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹 配的樣例擴(kuò)展問。
步驟303:若存在,則確定所述人機(jī)交互日志中所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同。
步驟304:若不相同,則優(yōu)化所述知識(shí)庫。
在步驟302中,首先在模型樣例庫中尋找是否有跟人機(jī)交互日志用戶問句語義近似的樣例擴(kuò)展問,如果有近似的,則稱之為匹配。若有匹配的,此時(shí)認(rèn)為該條用戶問句可被模型樣例庫判定。接著在步驟303中,若可被判定,則確定該用戶問句對(duì)應(yīng)的標(biāo)準(zhǔn)問與該樣例擴(kuò)展問對(duì)應(yīng)的標(biāo)準(zhǔn)問是否相同,此處的相同是指文字完全一致,若相同則表明知識(shí)庫中已包括與該用戶問句對(duì)應(yīng)的知識(shí)點(diǎn),無需利用該條用戶日志優(yōu)化知識(shí)庫。若不相同,則表明模型樣例庫和知識(shí)庫中均沒有與該交互日志內(nèi)容對(duì)應(yīng)的問句,此時(shí)表明該條交互日志是新的內(nèi)容,需要利用該條交互日志信息優(yōu)化知識(shí)庫,也就是進(jìn)入到步驟304中。此時(shí),由于交互日志中的用戶問句可被判定,即可直接將模型樣例庫中與交互日志用戶問句語義近似的一個(gè)或多個(gè)樣例問句對(duì)應(yīng)的一個(gè)或多個(gè)樣例標(biāo)準(zhǔn)問推薦給知識(shí)維護(hù)人員,當(dāng)為一個(gè)時(shí),由知識(shí)維護(hù)人員判斷是否合適;當(dāng)為多個(gè)時(shí),由知識(shí)維護(hù)人員從中直接挑選一個(gè)最合適的即可,最后將判斷合適或挑選的最合適的樣例標(biāo)準(zhǔn)問以及用戶問句相關(guān)聯(lián)地存入知識(shí)庫,從而人工的投入只需要進(jìn)行簡(jiǎn)單的監(jiān)督管理,進(jìn)行監(jiān)督管理的知識(shí)維護(hù)人員只需認(rèn)識(shí)中文,具有正常的邏輯判斷能力即可,這樣對(duì)于之前需要投入人工需要有一定的知識(shí)編輯經(jīng)驗(yàn)的來說,進(jìn)一步降低了對(duì)人員門檻的要求,且提高了優(yōu)化效率。
此方法的優(yōu)點(diǎn)還在于,判斷是否需要優(yōu)化知識(shí)庫完全是在本地模型樣例庫中完成的,而無需利用云端的知識(shí)庫。這樣既提高了運(yùn)算速率,又節(jié)省了云端知識(shí)庫的開支。
在一實(shí)施例中,樣例擴(kuò)展問包括知識(shí)庫擴(kuò)展問,樣例標(biāo)準(zhǔn)問包括知識(shí)庫標(biāo)準(zhǔn)問。更進(jìn)一步地,樣例擴(kuò)展問包括知識(shí)庫中的所有知識(shí)庫擴(kuò)展問,樣例標(biāo)準(zhǔn)問包括知識(shí)庫中的所有知識(shí)庫標(biāo)準(zhǔn)問。在此實(shí)施例中,模型樣例庫包括了知識(shí)庫中的所有知識(shí)庫標(biāo)準(zhǔn)問和知識(shí)庫擴(kuò)展問。此時(shí)模型樣例庫對(duì)是否優(yōu)化的判斷更為準(zhǔn)確,更進(jìn)一步減小了后續(xù)人工挑選的工作量。
在一實(shí)施例中,在步驟302中,若判斷結(jié)果為,模型樣例庫中不存在與所 述用戶問句相匹配的樣例擴(kuò)展問,則在知識(shí)庫中創(chuàng)建與所述用戶問句對(duì)應(yīng)的知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括:知識(shí)庫標(biāo)準(zhǔn)問、知識(shí)庫擴(kuò)展問和答案。此實(shí)施例中,認(rèn)為該交互日志無法被模型樣例庫所判定,即知識(shí)庫中沒有與該交互日志相關(guān)的信息,需要利用此交互日志優(yōu)化知識(shí)庫。此時(shí)由于該交互日志不可判定,只有通過知識(shí)維護(hù)人員主動(dòng)添加一條與該用戶問句相關(guān)的知識(shí)點(diǎn),即需要添加一個(gè)知識(shí)庫標(biāo)準(zhǔn)問、多個(gè)知識(shí)庫擴(kuò)展問和一個(gè)答案,來完成知識(shí)庫的優(yōu)化。
在一優(yōu)選實(shí)施例中,步驟302中是否匹配是通過語義相似度來衡量的,可以設(shè)定第一閾值,當(dāng)語義相似度大于第一閾值時(shí),認(rèn)為交互日志用戶問句跟樣例擴(kuò)展問匹配。當(dāng)人工投入量可以保證時(shí),可以把所述第一閾值設(shè)定地高一些。。否則,則可以將第一閾值設(shè)定地低一些,從而可以節(jié)省人力成本。
在一實(shí)施例中,所述確定模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹配的樣例擴(kuò)展問,是通過語義匹配度運(yùn)算完成的,包括步驟:對(duì)樣例擴(kuò)展問進(jìn)行分詞,并計(jì)算詞和句子向量值;對(duì)所述用戶問句進(jìn)行分詞,并計(jì)算詞和句子向量值;計(jì)算每個(gè)樣例擴(kuò)展問的詞和句子向量值與所述用戶問句的詞和句子向量值的相關(guān)度,以得出所述用戶問句與樣例擴(kuò)展問的語義相似度。語義匹配度的運(yùn)算方法很多,現(xiàn)有技術(shù)中的方法也可以被運(yùn)用到本發(fā)明中。
由于模型樣例庫的質(zhì)量對(duì)于本發(fā)明至關(guān)重要,更優(yōu)地,在另一實(shí)施例中,對(duì)模型樣例庫進(jìn)行優(yōu)化,包括兩種方式:一、在對(duì)知識(shí)庫進(jìn)行優(yōu)化的同時(shí),將相同的內(nèi)容添加入模型樣例庫;二、當(dāng)存在與所述用戶問句語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問,且所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與語義相似度大于所述第一閾值且小于100%的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問句相同,則將所述用戶問句及所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問相關(guān)聯(lián)地添加入模型樣例庫。第一種優(yōu)化主要是為了使得模型樣例庫內(nèi)容跟知識(shí)庫內(nèi)容保持一致,并將最新的問句和標(biāo)準(zhǔn)問更新入模型樣例庫,以在下次碰到跟更新的內(nèi)容近似的交互日志時(shí),可以通過本發(fā)明直接濾除,而不需人工判斷優(yōu)化。第二種優(yōu)化方式下,由于已經(jīng)能從知識(shí)庫中為當(dāng)前的用戶問句提供正確的答案,即找到正確的標(biāo)準(zhǔn)問,從而可以不用將交互日志優(yōu)化入知識(shí)庫,但優(yōu)化入模型樣例庫中有利于將后續(xù)更多的交互日志納入可判定范圍內(nèi),從而可以通過本發(fā)明直接處理相關(guān)交互日志。
請(qǐng)參看圖4,為本發(fā)明一實(shí)施例的信息處理方法流程的示意圖,相比圖2,圖3所示方法流程包括了對(duì)模型樣例庫的優(yōu)化。具體包括:
步驟401:開始。
步驟402:確定模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹配的樣例擴(kuò)展問,若存在進(jìn)入步驟403,否則進(jìn)入步驟405。
步驟403:確定所述人機(jī)交互日志中所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同。若相同進(jìn)入步驟404,否則進(jìn)入步驟406。
步驟404:判斷用戶問句與樣例擴(kuò)展問的語義相似度是否大于第一閾值且小于100%,若是則進(jìn)入407,否則進(jìn)入408。
步驟405:重新創(chuàng)建知識(shí)點(diǎn),并運(yùn)用知識(shí)點(diǎn)優(yōu)化知識(shí)庫和模型樣例庫。
步驟406:選擇創(chuàng)建知識(shí)點(diǎn),并運(yùn)用知識(shí)點(diǎn)優(yōu)化知識(shí)庫和模型樣例庫。
步驟407:運(yùn)用交互日志內(nèi)容,優(yōu)化模型樣例庫。
步驟408:結(jié)束。
其中步驟405內(nèi)容包括:通過知識(shí)維護(hù)人員主動(dòng)添加一條與該用戶問句相關(guān)的知識(shí)點(diǎn),即需要添加一個(gè)知識(shí)庫標(biāo)準(zhǔn)問、多個(gè)知識(shí)庫擴(kuò)展問和一個(gè)答案,來完成知識(shí)庫的優(yōu)化,同時(shí)利用相同的知識(shí)點(diǎn)優(yōu)化模型樣例庫,只是模型樣例庫的優(yōu)化只用到了知識(shí)點(diǎn)中的問句和標(biāo)準(zhǔn)問內(nèi)容。步驟406包括:推薦模型樣例庫中的一個(gè)或多個(gè)標(biāo)準(zhǔn)問給知識(shí)維護(hù)人員,知識(shí)維護(hù)人員直接進(jìn)行選擇以形成用戶問句和標(biāo)準(zhǔn)問的一個(gè)配對(duì),,然后將該配對(duì)添加入知識(shí)庫,同時(shí)將該配對(duì)添加入模型樣例庫。步驟407中,將交互日志中的用戶問句和所對(duì)應(yīng)的標(biāo)準(zhǔn)問添加到模型樣例庫中,從而形成一對(duì)新的樣例擴(kuò)展問和樣例標(biāo)準(zhǔn)問的對(duì)應(yīng)。本發(fā)明還提供一種信息處理的裝置51,請(qǐng)參看圖5。在一實(shí)施例中,所述裝置包括第一分析模塊501、第二分析模塊502和優(yōu)化模塊503。交互日志首先進(jìn)入第一分析模塊501,第一分析模塊501確定模型樣例庫中是否存在與人機(jī)交互日志中的用戶問句相匹配的樣例擴(kuò)展問,若存在,則進(jìn)入第二分析模塊502,確定所述人機(jī)交互日志中所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問是否相同,若不相同則進(jìn)入優(yōu)化模塊503對(duì)所述知識(shí)庫進(jìn)行優(yōu)化。
在另一實(shí)施例中,請(qǐng)參看圖5,第一分析模塊501還包括語義相似度計(jì)算模塊5011,用來計(jì)算人機(jī)交互日志中的用戶問句與樣例擴(kuò)展問的語義相似度,進(jìn)而得出匹配度。第二分析模塊502包括比較模塊5021,用來比較所述用戶問句的所對(duì)應(yīng)標(biāo)準(zhǔn)問與匹配的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問文字是否完全一致。優(yōu)化模塊503還包括推薦模塊5031,用于基于語義相似度計(jì)算模塊5011的結(jié)果,推薦與所述用戶問句的語義匹配度大于第二閾值的樣例擴(kuò)展問的所對(duì)應(yīng)樣例標(biāo)準(zhǔn)問。優(yōu)化模塊503還包括添加模塊5032,用于將從所推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入所述知識(shí)庫,同時(shí)將上述內(nèi)容優(yōu)化添加入模型樣例庫。
更優(yōu)地,在對(duì)知識(shí)庫優(yōu)化的同時(shí),對(duì)模型樣例庫504進(jìn)行優(yōu)化。第二分析模塊502還包括添加模塊5022,當(dāng)用戶問句與樣例擴(kuò)展問的語義相似度是否大于第一閾值且小于100%,且對(duì)應(yīng)的標(biāo)準(zhǔn)問相同時(shí),將交互日志內(nèi)容優(yōu)化入模型樣例庫。添加模塊5032還用于將從推薦模塊5031推薦的樣例標(biāo)準(zhǔn)問中人工選擇出的標(biāo)準(zhǔn)問與所述用戶問句相關(guān)聯(lián)地添加入模型樣例庫。
在另一實(shí)施例中,首先過濾交互日志中的無效數(shù)據(jù),可以根據(jù)預(yù)設(shè)的過濾規(guī)則剔除日志數(shù)據(jù)中的垃圾數(shù)據(jù),如:?jiǎn)蝹€(gè)英文字母重復(fù)5次以上的數(shù)據(jù)。之后會(huì)采用樸素貝葉斯算法進(jìn)行分析,計(jì)算日志內(nèi)容是否在分析模型可判定范圍內(nèi)。
本發(fā)明還提供一種信息處理的系統(tǒng)52,請(qǐng)參看圖5。包括所述任一信息處理裝置,同時(shí)包括了知識(shí)庫504和模型樣例庫505。
本發(fā)明在選取需優(yōu)化人機(jī)交互日志時(shí),首先通過設(shè)立的模型樣例庫進(jìn)行自動(dòng)篩選,過濾掉了大量的已有知識(shí)內(nèi)容,減少了人工勞動(dòng)的投入量。同時(shí)系統(tǒng)會(huì)自動(dòng)向需優(yōu)化人機(jī)交互日志推薦標(biāo)準(zhǔn)問,人工只需進(jìn)行選擇即可,進(jìn)一步減少了人工勞動(dòng),提高了知識(shí)庫的優(yōu)化效率。
提供對(duì)本公開的先前描述是為使得本領(lǐng)域任何技術(shù)人員皆能夠制作或使用本公開。對(duì)本公開的各種修改對(duì)本領(lǐng)域技術(shù)人員來說都將是顯而易見的,且本文中所定義的普適原理可被應(yīng)用到其他變體而不會(huì)脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設(shè)計(jì),而是應(yīng)被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。