專利名稱:一種語義模糊匹配方法
技術(shù)領(lǐng)域:
本申請涉及語音識別領(lǐng)域,具體來說,涉及一種語義模糊匹配方法。
背景技術(shù):
人機交互系統(tǒng)是由用戶通過口語提出查詢請求,系統(tǒng)提供信息服務(wù)。一個典型的人機交互系統(tǒng)包括自動語音識別,口語理解,對話管理和語音合成這四個組成部分。口語理解部分是將語音識別后的查詢語句轉(zhuǎn)化成相應(yīng)的語義表示。然而,口語理解經(jīng)常會遇到 這樣的問題,即用戶的查詢語句存在語音識別帶來的發(fā)音變異、識別錯誤和關(guān)鍵語義概念的不完整,如何在獲得部分關(guān)鍵信息的情況下仍能獲得正確的理解結(jié)果,這就需要用模糊匹配來提高系統(tǒng)的魯棒性。通常的人機交互服務(wù)都是限定在某些特定領(lǐng)域的,相關(guān)領(lǐng)域的數(shù)據(jù)都會保存在數(shù)據(jù)庫中。傳統(tǒng)的模糊匹配算法主要是在給定的文本串中找出與模式串匹配的子串的起始位置,多數(shù)是使用編輯距離作為相似性函數(shù),這樣的方法中用戶查詢語句中的每個漢字都要參與運算,如果句子比較長,則運算速度將大大降低。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的問題,本發(fā)明實施例的目的在于提供一種語義模糊匹配方法,所述方法包括對語音識別后的文本進行特征提取,得到特征數(shù)據(jù);用條件隨機場CRF模型對所述特征數(shù)據(jù)進行命名實體的識別,找到句子中關(guān)鍵語義類;對所述關(guān)鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進行類別標(biāo)注。優(yōu)選地,所述計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個數(shù)之和,所得的商越大,相似度越高。優(yōu)選地,所述CRF模型通過以下步驟獲得根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法;對訓(xùn)練數(shù)據(jù)進行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實體名詞的類別;對訓(xùn)練數(shù)據(jù)進行特征提取,提取出實體名詞;用CRF對提取的實體名詞進行訓(xùn)練,得到CRF模型。優(yōu)選地,所述方法還包括對所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進行語義理解,給出
語義表示。優(yōu)選地,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。優(yōu)選地,所述關(guān)鍵詞為詞典詞條。本發(fā)明實施例利用統(tǒng)計的方法,即CRF(conditional random field,條件隨機場)進行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進行相似度計算,用相似度最大的詞典詞條來取代用戶查詢中出錯的關(guān)鍵語義類,減少了運算量,提高了識別的速度。
圖1是本發(fā)明實施例的口語理解系統(tǒng)示意圖;圖2是本發(fā)明實施例的語義模糊匹配方法的流程示意圖。
具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細、清楚、完整的說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。圖1是本發(fā)明實施例的口語理解系統(tǒng)示意圖。圖1中,語義的匹配和理解系統(tǒng)包括語音識別系統(tǒng)、語義類標(biāo)注部分、語義理解部分。其中語義類標(biāo)注備份又包括三個單元特征提取單元、精確匹配單元、模糊匹配單元。其中特征提取單元需要與CRF模型配合工作。 具體地,語義類標(biāo)注部分需要對語音識別后的文本進行特征提取,然后通過一個訓(xùn)練好的CRF模型進行命名實體的識別,找到句子中關(guān)鍵的語義概念,送入精確匹配部分進行類別標(biāo)注,如果精確匹配失敗,則進入模糊匹配,通過計算已經(jīng)標(biāo)記出的實體名詞與詞典中關(guān)鍵詞的相似度,選擇最優(yōu)的詞匯進行修正,并進行類別標(biāo)注。然后送入語義理解部分,給出這個句子的語義表示,通過查詢數(shù)據(jù)庫給用戶進行反饋。要說明的是,這里的語音可以是人的語音,也可以是自然語音,在此不做特別限制。這里采用鏈狀結(jié)構(gòu)的CRF圖模型,記觀測串為1=(禮界2,...而),標(biāo)記串(狀態(tài))序列為Y=(yl, y2,…yn),其定義如下P^y I 灰)= 7^exP(Z2XA(U ))
Z(If) /(r k⑴其中fk是特征函數(shù),Xk是對應(yīng)的特征函數(shù)的權(quán)重,t是標(biāo)記,Z (W)是歸一化因子,使得上述的概率分布在(0,I)之間。CRF的模型參數(shù)估計通常用L-BFGS算法來完成的。CRF的解碼過程,即為求解未知串標(biāo)注的過程,需要搜索計算該串上的一個最大聯(lián)合概率,即Y* = argmaXyP (Y | ff) (2)在線性鏈CRF上,這個計算任務(wù)可以用Viterbi算法來完成。根據(jù)領(lǐng)域構(gòu)造CRF的訓(xùn)練數(shù)據(jù),數(shù)據(jù)要盡可能覆蓋各種口語常見的說法,而且要包含本系統(tǒng)中所使用到的各種領(lǐng)域。對訓(xùn)練數(shù)據(jù)進行標(biāo)注,即標(biāo)注出每個查詢語句中的實體名詞的類別。特征提取,為了更好的提取出涉及到的各種實體名詞(包括人名以及其他名詞),根據(jù)中文人名構(gòu)詞的特點,我們建立了關(guān)于中國人名的姓氏用字和名字的常用字字典,用于構(gòu)造特征模板。同時為了把人名和影視名更加準(zhǔn)確的提取出來,通過大量數(shù)據(jù)統(tǒng)計出了出現(xiàn)在人名和影視名前后位置的單字和雙字,建立了人名和領(lǐng)域名的左右指界詞詞典,進行特征的提取。所述左右指界詞詞典指的是一句話中出現(xiàn)在人名或者領(lǐng)域名左右兩邊的詞匯。比如說我想聽劉德華的歌曲。劉德華是人名,出現(xiàn)在劉德華的左邊界詞是“聽”,右邊界詞是“的”,即為左右指界詞,也可以稱為左右邊界詞。用CRF對提取了特征的訓(xùn)練數(shù)據(jù)進行訓(xùn)練,得到一個CRF模型。要說明的是,條件隨機場的訓(xùn)練使用的是開源工具CRF++ ;訓(xùn)練的大致步驟包括按照訓(xùn)練文本的格式進行特征的提取,因為針對的是口語,用詞作為研究對象可能會引入分詞的錯誤,所以選擇單字作為研究對象進行特征提??;選擇哪些特征不僅僅取決于用于已經(jīng)提取了特征的訓(xùn)練文本,還取決于工具中模板文件,即除了單字特征,還要用到特征之間的組合特征;訓(xùn)練之后會得到一個模型文件;測試的過程是準(zhǔn)備一個測試的文件,同樣需要提取特征,格式必須和訓(xùn)練的文本文件一樣,然后用訓(xùn)練好的模型進行測試,得到對于每個字的標(biāo)注結(jié)果。針對用戶輸入的查詢語句,用上述方法進行特征提取并用已經(jīng)訓(xùn)練好的CRF模型進行實體識別,初步定位了句子中的關(guān)鍵語義類。已經(jīng)定位好的關(guān)鍵語義類可能有錯誤,也可能沒有錯誤,這時首先進行精確匹配,即判斷CRF識別的語義類,領(lǐng)域字典中是否存在,如果不存在則進行模糊匹配。用Dice相似度對CRF識別的語義類與領(lǐng)域字典中的詞條進行相似度計算,Dice相似度計算公式如下⑶用兩個詞匯交集的漢字個數(shù)的兩倍去除以兩個詞匯長度的和。尋找相似度最大的詞條對原句中的錯誤進行替換,就完成了語義類的模糊匹配。圖2是本發(fā)明實施例的語義模糊匹配方法的流程示意圖。如圖2所示,所述方法包括步驟200,提取特征數(shù)據(jù);具體為對語音識別后的文本進行特征提取,得到特征數(shù)據(jù);步驟202,獲取關(guān)鍵語義類;具體為用條件隨機場CRF模型對所述特征數(shù)據(jù)進行命名實體的識別,找到關(guān)鍵語義類;步驟204,精確匹配,具體為對所述關(guān)鍵語義類進行精確匹配,在精確匹配成功時對所述關(guān)鍵語義類進行類別標(biāo)注,并進入步驟208,語義理解,具體為對所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進行語義理解,給出語義表示。在步驟204中在精確匹配失敗時進入步驟206,進行模糊匹配,計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進行類別標(biāo)注,隨后再進入步驟208。優(yōu)選地,所述計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個數(shù)之和,所得的商越大,相似度越高。優(yōu)選地,所述CRF模型通過以下步驟獲得根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法;對訓(xùn)練數(shù)據(jù)進行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實體名詞的類別;對訓(xùn)練數(shù)據(jù)進行特征提取,提取出實體名詞;用CRF對提取的實體名詞進行訓(xùn)練,得到CRF模型。優(yōu)選地,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。優(yōu)選地,所述關(guān)鍵詞為詞典詞條。本發(fā)明實施例利用統(tǒng)計的方法,即CRF(conditional random field,條件隨機場)進行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進行相似度計算,用相似度最大的詞典詞條來取代用戶查詢中出錯的關(guān)鍵語義類,減少了運算量,提高了識別的速度。本領(lǐng)域技術(shù)人員應(yīng)該進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。本領(lǐng)域技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本申請的范圍。結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。以上所述的具體實施方式
,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式
而已,并不用于限定本申請的保護范圍,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本申請的保護范圍之內(nèi)。
權(quán)利要求
1.一種語義模糊匹配方法,其特征在于,所述方法包括 對語音識別后的文本進行特征提取,得到特征數(shù)據(jù); 用條件隨機場CRF模型對所述特征數(shù)據(jù)進行命名實體的識別,找到關(guān)鍵語義類; 對所述關(guān)鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進行類別標(biāo)注。
2.如權(quán)利要求1所述的語義模糊匹配方法,其特征在于,所述計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個數(shù)之和,所得的商越大,相似度越高。
3.如權(quán)利要求1所述的語義模糊匹配方法,其特征在于,所述CRF模型通過以下步驟獲得 根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法; 對訓(xùn)練數(shù)據(jù)進行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實體名詞的類別; 對訓(xùn)練數(shù)據(jù)進行特征提取,提取出實體名詞; 用CRF對提取的實體名詞進行訓(xùn)練,得到CRF模型。
4.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述方法還包括對所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進行語義理解,給出語義表示。
5.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。
6.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述關(guān)鍵詞為詞典詞條。
全文摘要
本發(fā)明實施例提供一種語義模糊匹配方法,所述方法包括對語音識別后的文本進行特征提取,得到特征數(shù)據(jù);用條件隨機場CRF模型對所述特征數(shù)據(jù)進行命名實體的識別,找到句子中關(guān)鍵語義類;對所述關(guān)鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進行類別標(biāo)注。本發(fā)明實施例利用統(tǒng)計的方法,即CRF進行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進行相似度計算,用相似度最大的詞典詞條來取代用戶查詢中出錯的關(guān)鍵語義類,減少了運算量,提高了識別的速度。
文檔編號G06F17/30GK103020230SQ201210543839
公開日2013年4月3日 申請日期2012年12月14日 優(yōu)先權(quán)日2012年12月14日
發(fā)明者張艷, 李艷玲, 徐為群, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司