基于抽象語義推薦的問答知識庫建立方法、裝置及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種基于抽象語義推薦的問答知識庫建立方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]知識庫,又稱為智能數(shù)據(jù)庫或人工智能數(shù)據(jù)庫。知識庫是知識工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計(jì)算機(jī)存儲器中存儲、組織、管理和使用的互相聯(lián)系的知識片集合。這些知識片包括與領(lǐng)域相關(guān)的理論知識、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識,如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識性知識等。
[0003]知識庫有著廣泛的應(yīng)用,典型的應(yīng)用有智能問答系統(tǒng)或自動問題系統(tǒng)或者問答知識庫,自動問題系統(tǒng)中存儲著一些預(yù)設(shè)的問題,并存儲預(yù)設(shè)問題對應(yīng)的答案信息,在公眾用戶提出問題時,自動問題系統(tǒng)會將公眾用戶提出的問題與預(yù)設(shè)的問題進(jìn)行匹配,若匹配成功,自動問題系統(tǒng)會將該預(yù)設(shè)問題對應(yīng)的答案信息反饋給公眾用戶。
[0004]參考圖1,圖1為現(xiàn)有技術(shù)智能問答系統(tǒng)中的知識庫建立裝置的結(jié)構(gòu)示意圖,包括:人機(jī)界面10,用于輸入待存儲的問題;存入單元11,用于接收人機(jī)界面10輸入的待存儲問題,并將接收的待存儲問題存入問題庫12;問題庫12,用于存儲接收的待存儲問題。
[0005]由于不同用戶提出問題的角度不同以及表達(dá)方式不同,為了提高智能問答系統(tǒng)的準(zhǔn)確性,在對問題庫中的問題進(jìn)行預(yù)設(shè)時,需要人工從人機(jī)界面輸入不同表達(dá)方式的多個問題,耗時耗力,效率較低,因而現(xiàn)有的存儲裝置進(jìn)行問題存儲時的效率有待改善。
【發(fā)明內(nèi)容】
[0006]本發(fā)明解決的問題是怎樣提高智能問答知識庫建立的效率。
[0007]為解決上述問題,本發(fā)明提供一種基于抽象語義推薦的問答知識庫建立方法,包括:
[0008]提供抽象語義數(shù)據(jù)庫,所述抽象語義數(shù)據(jù)庫包括多個抽象語義表達(dá)式,所述抽象語義表達(dá)式包括缺失語義成分;接收初始請求信息;根據(jù)所述抽象語義數(shù)據(jù)庫對所述初始請求信息進(jìn)行抽象語義推薦處理,當(dāng)獲得與所述初始請求信息對應(yīng)的一個或多個抽象語義表達(dá)式時,從所述初始請求信息中提取與一個或多個抽象語義表達(dá)式的缺失語義成分對應(yīng)的內(nèi)容,并將提取的內(nèi)容填充到對應(yīng)的缺失語義成分中以得到與所述初始請求信息對應(yīng)的一個或多個具體語義表達(dá)式,將該初始請求信息以及所述具體語義表達(dá)式存入智能問答知識庫。
[0009]可選的,所述抽象語義推薦處理包括:
[0010]對所述初始請求信息進(jìn)行分詞處理,得到若干單獨(dú)詞;
[0011 ]將每個單獨(dú)詞識別為語義規(guī)則詞或非語義規(guī)則詞;
[0012]分別對每個非語義規(guī)則詞進(jìn)行詞性標(biāo)注處理,得到每個非語義規(guī)則詞的詞性信息;
[0013]分別對每個語義規(guī)則詞進(jìn)行詞類判斷處理,得到每個語義規(guī)則詞的詞類信息;
[0014]對抽象語義數(shù)據(jù)庫進(jìn)行搜索處理,得到與所述初始請求信息相關(guān)的抽象語義候選集,所述抽象語義候選集包括多個抽象語義表達(dá)式;
[0015]根據(jù)所述詞性信息和詞類信息對抽象語義候選集中的抽象語義表達(dá)式進(jìn)行匹配處理,得到與所述初始請求信息匹配的抽象語義表達(dá)式。
[0016]可選的,所述抽象語義推薦處理包括:
[0017]對所述初始請求信息進(jìn)行分詞處理,得到若干單獨(dú)詞;
[0018]分別對每個單獨(dú)詞進(jìn)行詞性標(biāo)注處理,得到每個單獨(dú)詞的詞性信息;
[0019]分別對每個單獨(dú)詞進(jìn)行詞類判斷處理,得到每個單獨(dú)詞的詞類信息;
[0020]對抽象語義數(shù)據(jù)庫進(jìn)行搜索處理,得到與所述初始請求信息相關(guān)的抽象語義候選集,所述抽象語義候選集包括多個抽象語義表達(dá)式;
[0021]根據(jù)所述詞性信息和詞類信息對抽象語義候選集中的抽象語義表達(dá)式進(jìn)行匹配處理,得到與所述初始請求信息匹配的抽象語義表達(dá)式。
[0022]可選的,在進(jìn)行匹配處理之前還包括:判斷所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目是否位于預(yù)定范圍內(nèi),當(dāng)所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目大于預(yù)定范圍時,去除部分抽象語義表達(dá)式;當(dāng)所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目小于預(yù)定范圍時,從默認(rèn)集合中補(bǔ)充部分抽象語義表達(dá)式。
[0023]可選的,所述抽象語義表達(dá)式還包括語義規(guī)則詞;所述抽象語義候選集中抽象語義表達(dá)式的至少部分語義規(guī)則詞與所述初始請求信息中至少部分單獨(dú)詞相同或?qū)儆谕辉~類。
[0024]可選的,與所述初始請求信息匹配的抽象語義表達(dá)式滿足以下條件:
[0025]缺失語義成分對應(yīng)的詞性包括對應(yīng)的填充內(nèi)容的詞性;
[0026]初始請求信息中填充內(nèi)容外對應(yīng)的單獨(dú)詞與語義規(guī)則詞相同或兩者屬于同一詞類;
[0027]該抽象語義表達(dá)式與初始請求信息的順序相同。
[0028]可選的,當(dāng)與所述初始請求信息匹配的抽象語義表達(dá)式的數(shù)目M大于需要存入智能問答知識庫中具體語義表達(dá)式的數(shù)目N時,還包括:
[0029]分別對與所述初始請求信息匹配的抽象語義表達(dá)式進(jìn)行打分處理,從所述初始請求信息中提取與得分較高的N個抽象語義表達(dá)式的缺失語義成分對應(yīng)的內(nèi)容,將提取的內(nèi)容填充到得分較高的N個抽象語義表達(dá)式對應(yīng)的缺失語義成分,得到與所述初始請求信息對應(yīng)的N個具體語義表達(dá)式。
[0030]可選的,所述打分處理采用以下一種或多種方式的結(jié)合:
[0031 ]缺失語義成分匹配的數(shù)量越多,得分越高;
[0032]設(shè)定一抽象語義表達(dá)式中某一缺失語義成分為核心語義成分,其他缺失語義成分與該核心語義成分的距離越近,得分越高;
[0033]詞性置信度越大,得分越高;
[0034]根據(jù)預(yù)先設(shè)定的抽象語義表達(dá)式的優(yōu)先級,優(yōu)先級越高,得分越高;
[0035]根據(jù)自然語言模型進(jìn)行判斷,對爬取的大量語料數(shù)據(jù)的分詞給出對抽象語義表達(dá)式進(jìn)行填充后獲得的數(shù)據(jù)信息語義是否正確的概率,概率越高,得分越高。
[0036]可選的,還包括:當(dāng)無法獲得與所述初始請求信息對應(yīng)的抽象語義表達(dá)式時,通過人工方式在所述智能問答知識庫中添加與所述初始請求信息對應(yīng)的擴(kuò)展問。
[0037]可選的,還包括:將所述初始請求信息存入智能問答知識庫的同時,提供與所述初始請求信息對應(yīng)的答案,并將該答案一并存入智能問答知識庫。
[0038]本發(fā)明還提供了一種基于抽象語義推薦的問答知識庫建立裝置,包括:
[0039]抽象語義表達(dá)式獲取單元,用于獲取多個抽象語義表達(dá)式,所述抽象語義表達(dá)式包括缺失語義成分;
[0040]接收單元,用于接收初始請求信息;
[0041]抽象語義推薦模塊,用于根據(jù)所述抽象語義表達(dá)式獲取單元獲取的多個抽象語義表達(dá)式對所述初始請求信息進(jìn)行抽象語義推薦處理,獲得與所述初始請求信息對應(yīng)的一個或多個抽象語義表達(dá)式;
[0042]填充單元,用于當(dāng)獲得與所述初始請求信息對應(yīng)的一個或多個抽象語義表達(dá)式時,從所述初始請求信息中提取與一個或多個抽象語義表達(dá)式的缺失語義成分對應(yīng)的內(nèi)容,并將提取的內(nèi)容填充到對應(yīng)的缺失語義成分中以得到與所述初始請求信息對應(yīng)的一個或多個具體語義表達(dá)式;
[0043]存入單元,用于將所述具體語義表達(dá)式以及對應(yīng)的初始請求信息存入智能問答知識庫。
[0044]可選的,所述抽象語義推薦模塊包括:分詞單元、規(guī)則詞識別單元、詞性標(biāo)注單元、詞類判斷單元、搜索單元和匹配單元,其中,
[0045]所述分詞單元,用于對所述初始請求信息進(jìn)行分詞處理,得到若干單獨(dú)詞;
[0046]規(guī)則詞識別單元,用于將每個單獨(dú)詞識別為語義規(guī)則詞或非語義規(guī)則詞;
[0047]詞性標(biāo)注單元,用于分別對每個非語義規(guī)則詞進(jìn)行詞性標(biāo)注處理,得到每個非語義規(guī)則詞的詞性信息;
[0048]詞類判斷單元,用于分別對每個語義規(guī)則詞進(jìn)行詞類判斷處理,得到每個語義規(guī)則詞的詞類信息;
[0049]搜索單元,用于對抽象語義表達(dá)式獲取單元獲取的多個抽象語義表達(dá)式進(jìn)行搜索處理,得到與所述初始請求信息相關(guān)的抽象語義候選集,所述抽象語義候選集包括多個抽象語義表達(dá)式;
[0050]匹配單元,用于根據(jù)所述詞性信息和詞類信息對抽象語義候選集中的抽象語義表達(dá)式進(jìn)行匹配處理,得到與所述初始請求信息匹配的抽象語義表達(dá)式。
[0051]可選的,抽象語義推薦模塊包括:分詞單元、詞性標(biāo)注單元、詞類判斷單元、搜索單元和匹配單元,其中,
[0052]分詞單元,用于對所述初始請求信息進(jìn)行分詞處理,得到若干單獨(dú)詞;
[0053]詞性標(biāo)注單元,用于分別對每個所述單獨(dú)詞進(jìn)行詞性標(biāo)注處理,得到每個單獨(dú)詞的詞性信息;
[0054]詞類判斷單元,用于分別對每個所述單獨(dú)詞進(jìn)行詞類判斷處理,得到每個單獨(dú)詞的詞類信息;
[0055]搜索單元,用于對抽象語義表達(dá)式獲取單元獲取的多個抽象語義表達(dá)式進(jìn)行搜索處理,得到與所述初始請求信息相關(guān)的抽象語義候選集,所述抽象語義候選集包括多個抽象語義表達(dá)式;
[0056]匹配單元,用于根據(jù)所述詞性信息和詞類信息對抽象語義候選集中的抽象語義表達(dá)式進(jìn)行匹配處理,得到與所述初始請求信息匹配的抽象語義表達(dá)式。
[0057]可選的,所述抽象語義推薦模塊還包括:數(shù)目判斷單元、去除單元和補(bǔ)充單元,其中:數(shù)目判斷單元,用于判斷所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目是否位于預(yù)定范圍內(nèi);去除單元,用于當(dāng)所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目大于預(yù)定范圍時,去除部分抽象語義表達(dá)式;補(bǔ)充單元,用于當(dāng)所述抽象語義候選集中抽象語義表達(dá)式的數(shù)目小于預(yù)定范圍時,從默認(rèn)集合中補(bǔ)充部分抽象語義表達(dá)式。
[0058]可選的,所述抽象語義表達(dá)式還包括語義規(guī)則詞;所述搜索單元搜索得到的所述抽象語義候選集中抽象語義表達(dá)式的至少部分語義規(guī)則詞與所述初始請求信息中至少部分單獨(dú)詞相同或?qū)儆谕辉~類。
[0059]可選的,所述匹配單元得到與所述初始請求信息匹配的抽象語義表達(dá)式滿足以下條件:
[0060]缺失語義成分對應(yīng)的詞性包括對應(yīng)的填充內(nèi)容的詞性;
[0061]初始請求信息中填充內(nèi)容外對應(yīng)的關(guān)鍵詞與語義規(guī)則詞相同或兩者屬于同一詞類;
[0062]該抽象語義表達(dá)式與初始請求信息的順序相同。
[0063]可選的,所述基于抽象語義推薦的問答知識庫建立裝置還包括打分單元,用于當(dāng)抽象語義推薦模塊獲得的與所述初始請求信息匹配的抽象語義表達(dá)式的數(shù)目M大于需要存入智能問答知識庫中具體語義表達(dá)式的數(shù)目N時,分別對與所述初始請求信息匹配的抽象語義表達(dá)式進(jìn)行打分處理,將提取的內(nèi)容填充到得分較高的N個抽象語義表達(dá)式對應(yīng)的缺失語義成分,得到與所述初始請求信息對應(yīng)的N個具體語義表達(dá)式。
[0064]可選的,所述打分單元采用以下一種或多種方式的結(jié)合進(jìn)行打分處理:
[0065]缺失語義成分匹配的數(shù)量越多,得分越高;
[0066]設(shè)定一抽象語義表達(dá)式中某一缺失語義成分為核心語義成分,其他缺失語義成分與該核心語義成分的距離越近,得分越高;
[0067]詞性置信度越大,得分越高;
[0068]根據(jù)預(yù)先設(shè)定的抽象語義表達(dá)式的優(yōu)先級,優(yōu)先級越高,得分越高;
[0069]根據(jù)自然語言模型進(jìn)行判斷,對爬取的大量語料數(shù)據(jù)的分詞給出對抽象語義表達(dá)式進(jìn)行填充后獲得的數(shù)據(jù)信息語義是否正確的概率,概率越高,得分越高。
[0