亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法

文檔序號(hào):6502565閱讀:182來(lái)源:國(guó)知局
基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法
【專利摘要】本發(fā)明公開(kāi)一種基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,是基于歷史咨詢數(shù)據(jù)自動(dòng)構(gòu)建知識(shí)庫(kù),包括對(duì)歷史咨詢數(shù)據(jù)進(jìn)行切分咨詢場(chǎng)景、提取每個(gè)場(chǎng)景的問(wèn)答對(duì)、計(jì)算答案相似度、過(guò)濾相似答案頻率低的答案、提取高頻率答案對(duì)應(yīng)的問(wèn)句、提取問(wèn)句集的核心關(guān)鍵字順序規(guī)則、存儲(chǔ)知識(shí)。本發(fā)明通過(guò)歷史咨詢數(shù)據(jù)自動(dòng)構(gòu)建知識(shí)庫(kù),減少了人工建設(shè)知識(shí)庫(kù)和維護(hù)近義詞庫(kù)的工作量。
【專利說(shuō)明】基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)及問(wèn)答系統(tǒng)的知識(shí)庫(kù)領(lǐng)域,尤其涉及基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法。
【背景技術(shù)】
[0002]在自動(dòng)問(wèn)答系統(tǒng)中,知識(shí)庫(kù)是問(wèn)答系統(tǒng)的重要數(shù)據(jù)來(lái)源,它在整個(gè)系統(tǒng)中起到了非常重要的作用,一個(gè)高質(zhì)量的知識(shí)庫(kù)能夠大大提高問(wèn)答系統(tǒng)的效率與準(zhǔn)確率。
[0003]目前業(yè)內(nèi)對(duì)知識(shí)庫(kù)的建設(shè)一般有2種方式:
[0004]第一種是知識(shí)庫(kù)建設(shè)還停留在手工建設(shè)階段,由于行業(yè)領(lǐng)域限制的原因,所以很多知識(shí)都是純手工構(gòu)建,而且手工構(gòu)建一般都是某行業(yè)特殊的技術(shù)人員來(lái)完成,其工作效率低、質(zhì)量不高,維護(hù)難度大。
[0005]第二種是采用語(yǔ)義匹配度,進(jìn)行構(gòu)建知識(shí)庫(kù)。問(wèn)答系統(tǒng)中通常是使用知網(wǎng)(How-net)或近義詞表來(lái)實(shí)現(xiàn),但是知網(wǎng)(How-net)和近義詞表都是靠人工整理,實(shí)現(xiàn)起來(lái)工作量相當(dāng)龐大,而且覆蓋范圍窄。
[0006]假設(shè)自動(dòng)問(wèn)答系統(tǒng)知識(shí)庫(kù)中存在以下多對(duì)一的問(wèn)答集,并且包括一個(gè)用戶輸入自然語(yǔ)言句子(以下簡(jiǎn)稱問(wèn)句)和系統(tǒng)應(yīng)答(以下簡(jiǎn)稱答案句),如以下例子:
[0007]在淘寶網(wǎng)的服裝行業(yè)中常見(jiàn)的問(wèn)答句:
[0008]問(wèn)句:這件牛仔褲會(huì)不會(huì)褪色?
[0009]問(wèn)句:這件寶貝會(huì)不會(huì)褪色啊?
[0010]問(wèn)句:真的不會(huì)褪色嗎?
[0011]問(wèn)句:牛仔褲洗幾次會(huì)褪色嗎?
[0012]問(wèn)句:你們賣(mài)的牛仔褲是褪色嗎?
[001 3] OOOOOO
[0014]答案句:不會(huì)褪色的,親。
[0015]當(dāng)用戶輸入“牛仔褲洗幾次會(huì)褪色嗎”的時(shí)候,系統(tǒng)會(huì)找到這組問(wèn)答集,并將該答案句返回給用戶。但是,當(dāng)用戶輸入“這件寶貝洗了幾次會(huì)掉色嗎?”的時(shí)候,技術(shù)人員必須手工在知網(wǎng)(How-net)或近義詞表中設(shè)置“寶貝”(電商行業(yè)通常用“寶貝”來(lái)代替商品名)與“牛仔褲”關(guān)聯(lián),“褪色”與“掉色”關(guān)聯(lián)。系統(tǒng)才能準(zhǔn)確把答案句返回給用戶,不然系統(tǒng)無(wú)法計(jì)算出真實(shí)的答案。以上不光技術(shù)人員要設(shè)置近義詞的關(guān)聯(lián),還有把答案句“不會(huì)褪色的,親。”對(duì)應(yīng)η種問(wèn)法都收集起來(lái),此種做法,無(wú)論是從工作量還是系統(tǒng)效率的角度來(lái)看,都是不可接受的。

【發(fā)明內(nèi)容】

[0016]本發(fā)明的目的在于,提供一種基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,解決現(xiàn)有知識(shí)庫(kù)構(gòu)建效率低下的問(wèn)題。
[0017]為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其包括以下步驟:
[0018]I)讀取歷史咨詢數(shù)據(jù);
[0019]2)切分咨詢場(chǎng)景;
[0020]3)提取每個(gè)場(chǎng)景的問(wèn)答對(duì);
[0021]4)計(jì)算答案相似度;
[0022]5)過(guò)濾相似答案頻率低的答案;
[0023]6)提取高頻率答案對(duì)應(yīng)的問(wèn)句;
[0024]7)提取問(wèn)句集的核心關(guān)鍵字順序規(guī)則;
[0025]8)存儲(chǔ)知識(shí)。
[0026]其中,在所述步驟2)中,根據(jù)咨詢者進(jìn)行切分場(chǎng)景,切成多組單個(gè)客服與單個(gè)咨詢者的咨詢場(chǎng)景。
[0027]其中,在所述步驟3)中,根據(jù)客服與咨詢者的身份來(lái)提取問(wèn)答對(duì),客服說(shuō)的內(nèi)容設(shè)為答案,咨詢者說(shuō)的內(nèi)容設(shè)為問(wèn)句。
[0028]其中,在所述步驟4)中,計(jì)算答案相似度是計(jì)算所有場(chǎng)景的問(wèn)答對(duì)中的答案相似值,首先對(duì)答案句進(jìn)行分詞,其次過(guò)濾停用詞,最后計(jì)算每句答案句之間的相似值。
[0029]其中,所述答案句的相似度包括詞的相似度、句子長(zhǎng)度相似度、及詞序相似度,其之間的關(guān)系為
[0030]SentenceSim(X,Y) = λ ffordSim(X, Y) + λ 2*LenSim(x, y) + λ 3*0rderSim(X, Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的詞與答案句Y的詞之間的相似度,LenSim (X, Y)表示答案句X的句子長(zhǎng)度與答案句Y的句子長(zhǎng)度之間的相似度,OrderSim (X,Y)表示答案句X的詞序與答案句Y的詞序之間的相似度,λ 1、λ 2、λ 3分別是常數(shù),且滿足λ 1+λ 2+λ 3 = I。
[0031]其中,所述WordSim(X, Y)的計(jì)算公式為:
【權(quán)利要求】
1.一種基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,包括以下步驟: 1)讀取歷史咨詢數(shù)據(jù); 2)切分咨詢場(chǎng)景; 3)提取每個(gè)場(chǎng)景的問(wèn)答對(duì); 4)計(jì)算答案相似度; 5)過(guò)濾相似答案頻率低的答案; 6)提取高頻率答案對(duì)應(yīng)的問(wèn)句; 7)提取問(wèn)句集的核心關(guān)鍵字順序規(guī)則; 8)存儲(chǔ)知識(shí)。
2.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,在所述步驟2)中,根據(jù)咨詢者進(jìn)行切分場(chǎng)景,切成多組單個(gè)客服與單個(gè)咨詢者的咨詢場(chǎng)景。
3.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,在所述步驟3)中,根據(jù)客服與咨詢者的身份來(lái)提取問(wèn)答對(duì),客服說(shuō)的內(nèi)容設(shè)為答案,咨詢者說(shuō)的內(nèi)容設(shè)為問(wèn)句。
4.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,在所述步驟4)中,計(jì)算答案相似度是計(jì)算所有場(chǎng)景的問(wèn)答對(duì)中的答案相似值,首先對(duì)答案句進(jìn)行分詞,其次過(guò)濾停用詞,最后計(jì)算每句答案句之間的相似值。
5.如權(quán)利要求4所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,所述答案句的相似度包括詞的相似度、句子長(zhǎng)度相似度、及詞序相似度,其之間的關(guān)系為 SentenceSim (X,Y) = λ ffordSim (X, Y) + λ 2*LenSim (x,y) + λ 3*0rderSim (X, Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的詞與答案句Y的詞之間的相似度,LenSim (X, Y)表示答案句X的句子長(zhǎng)度與答案句Y的句子長(zhǎng)度之間的相似度,OrderSim (X,Y)表示答案句X的詞序與答案句Y的詞序之間的相似度,λ 1、λ 2、λ 3分別是常數(shù),且滿足λ 1+λ 2+λ 3 = I。
6.如權(quán)利要求4所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,所述WordSim (X, Y)的計(jì)算公式為:
7.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,在所述步驟5)中,相似答案頻率是指每句答案句在整個(gè)歷史咨詢數(shù)據(jù)中所占的比率,然后根據(jù)閾值過(guò)濾低頻率的答案,高于閾值認(rèn)定為高頻率答案即高質(zhì)量答案。
8.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,所述步驟6)依據(jù)高頻率答案,查找每句答案相對(duì)應(yīng)的問(wèn)句。
9.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,所述步驟7)采用統(tǒng)計(jì)學(xué)的原理, 通過(guò)對(duì)問(wèn)句集進(jìn)行分詞,提取頻率大于閾值且有順序規(guī)則的關(guān)鍵字。
10.如權(quán)利要求1所述的基于歷史咨詢數(shù)據(jù)構(gòu)建知識(shí)庫(kù)的方法,其特征在于,所述步驟8)存儲(chǔ)的內(nèi)容包括答案、問(wèn)句、核心關(guān)鍵字順序規(guī)則,該括答案、問(wèn)句、及核心關(guān)鍵字順序規(guī)則之間的關(guān)系是多對(duì)多的關(guān)系。
【文檔編號(hào)】G06F17/30GK103455535SQ201310168964
【公開(kāi)日】2013年12月18日 申請(qǐng)日期:2013年5月8日 優(yōu)先權(quán)日:2013年5月8日
【發(fā)明者】馮梓洋, 刁應(yīng)君, 盧鑠波, 胡歡, 劉洋, 楊大川, 宋戰(zhàn) 申請(qǐng)人:深圳市明唐通信有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1