本發(fā)明涉及語(yǔ)音識(shí)別,特別涉及一種基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法。
背景技術(shù):
云計(jì)算、大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù)將推動(dòng)信息服務(wù)產(chǎn)業(yè)更快更好的發(fā)展,其中融合自然語(yǔ)言理解技術(shù)的信息服務(wù),將引導(dǎo)人們更加準(zhǔn)確、高效地獲得所需的信息與服務(wù)。語(yǔ)音技術(shù)作為最令人期待的人機(jī)交互方式,必將逐步成為諸多交互方式中越來越關(guān)鍵的一種。具體到汽車領(lǐng)域,可利用自然語(yǔ)言理解技術(shù)定制出高度實(shí)用的智能信息服務(wù)系統(tǒng),用更人性化的人機(jī)交互方式提供更便捷、準(zhǔn)確的信息語(yǔ)音命令和導(dǎo)航,對(duì)于駕駛的體驗(yàn)將是前景廣闊的提升。然而現(xiàn)有的車載環(huán)境語(yǔ)音識(shí)別通過對(duì)需要較大的離線字典中大量標(biāo)記訓(xùn)練樣本集進(jìn)行學(xué)習(xí)進(jìn)行語(yǔ)義推測(cè),對(duì)規(guī)則的依賴性比較高,不太靈活,不能夠適應(yīng)車載系統(tǒng)不斷變化的需求且精度和準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)要素:
為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法,包括:
對(duì)訓(xùn)練語(yǔ)料進(jìn)行學(xué)習(xí)從而建立分詞器,然后對(duì)分詞進(jìn)行詞類標(biāo)記和語(yǔ)義推測(cè),在推測(cè)過程中首先推測(cè)語(yǔ)音命令意向的類型,若意向需要進(jìn)一步的參數(shù),則在語(yǔ)音命令中解析對(duì)應(yīng)的參數(shù)。
優(yōu)選地,所述對(duì)分詞進(jìn)行詞類標(biāo)記,進(jìn)一步包括:
在詞類標(biāo)記問題中對(duì)以下條件概率建模:
p(s1…sm|x1…xm),x1…xm代表了輸入的語(yǔ)音命令中的單個(gè)詞,而s1…sm∈S代表所有可能的詞類組合,對(duì)于一句由x1…xm構(gòu)成的語(yǔ)音命令共有km種詞類標(biāo)記組合,k=|S|;建立這km種詞類標(biāo)記結(jié)果的概率分布為:
然后得到:
表示預(yù)定義的詞集合X與標(biāo)記集合Y的有限集特征向量,通過s1…sm以及x1…xm的大量訓(xùn)練,獲得參數(shù)向量w,最終得到p(s1…sm|x1…xm);
在完成訓(xùn)練之后,求取對(duì)于輸入x1…xm的狀態(tài)s1…sm,即求解:
使用的特征是語(yǔ)音命令分詞之后的詞或?qū)?yīng)的詞類,或者是二者的結(jié)合;當(dāng)選擇好一系列特征之后,根據(jù)訓(xùn)練樣本添加特征,調(diào)節(jié)權(quán)值;
在針對(duì)語(yǔ)義識(shí)別的文本分類問題中,對(duì)于給定詞集合X與標(biāo)記集合Y的訓(xùn)練樣本(xi,yi),i=l,…,n,n為樣本總數(shù),設(shè)置以下優(yōu)化問題:
測(cè)試時(shí),對(duì)于點(diǎn)x根據(jù)wTx>0給出分類結(jié)果。
本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法,不需要離線字典中的標(biāo)記訓(xùn)練樣本集,對(duì)規(guī)則的依賴性小,提高了識(shí)別精度,適應(yīng)車載系統(tǒng)不斷更新的需求。
附圖說明
圖1是根據(jù)本發(fā)明實(shí)施例的基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法的流程圖。
具體實(shí)施方式
下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
本發(fā)明的一方面提供了一種基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法。圖1是根據(jù)本發(fā)明實(shí)施例的基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法流程圖。
本發(fā)明的車載系統(tǒng)由識(shí)別模塊、語(yǔ)義推測(cè)分類模塊組合而成。利用機(jī)器學(xué)習(xí)方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行有效的學(xué)習(xí)從而建立分詞器。利用CRF進(jìn)行詞類標(biāo)記。然后進(jìn)行語(yǔ)義推測(cè)。對(duì)專有名詞的分類,便于專有名詞的存儲(chǔ)與組織和語(yǔ)音命令。
識(shí)別模塊的識(shí)別過程可描述為:讀入要識(shí)別的語(yǔ)音,經(jīng)過前端處理后,將得到的觀測(cè)序列X對(duì)所有詞條進(jìn)行匹配,也就是計(jì)算條件概率,其中概率最大的模型所對(duì)應(yīng)的詞條就是識(shí)別結(jié)果。要完成上述的識(shí)別,必須先完成學(xué)習(xí)模型訓(xùn)練。
從概率角度估計(jì)出待識(shí)別特征參數(shù)序列所對(duì)應(yīng)的語(yǔ)音基元,該基元包括詞、音節(jié)、聲母、韻母,從而將特征參數(shù)序列轉(zhuǎn)換為到識(shí)別基元。建立模型的過程包括:
1、隨機(jī)選擇參數(shù)初始值,初始化HMM模型λ。
2、將觀測(cè)序列為每個(gè)狀態(tài)進(jìn)行切分。切分的結(jié)果就是每個(gè)狀態(tài)都對(duì)應(yīng)一個(gè)觀測(cè)幀集合。
3、利用分段K均值算法將屬于每個(gè)狀態(tài)的觀測(cè)值向量集合分成M簇,M為高斯混合度,每一簇用于高斯混合概率密度的一個(gè)單高斯參數(shù),之后進(jìn)行以下參數(shù)的估計(jì)。
cjk=狀態(tài)j時(shí)處在第k集合的向量數(shù)/屬于狀態(tài)j的向量總數(shù)
μjk=狀態(tài)j下處于第k集合的向量樣本均值
Ujk=狀態(tài)j下處于第k集合的向量樣本協(xié)方差矩陣
根據(jù)上述參數(shù)獲得了一個(gè)更新的HMM模型λ’;
4、將模型λ’與初始模型λ進(jìn)行比較,如果模型差值超過預(yù)先設(shè)定的門限值,將模型λ替換為λ’并且重復(fù)上述步驟2和3;如果差值低于門限值,則確定為模型已收斂,保存該模型。
通過上述迭代以使整個(gè)模型訓(xùn)練過程中對(duì)參數(shù)初始值進(jìn)行不斷校正。
在模型的訓(xùn)練階段,直接將MFCC特征參數(shù)當(dāng)作觀測(cè)值,一個(gè)MFCC向量就是一個(gè)觀測(cè)值。其次計(jì)算組成概率密度函數(shù)的參數(shù)bj(o):
bj(o)=∑cjmM(o,μjm,Ujm),1<j<N
其中o表示觀測(cè)值,cjm代表狀態(tài)j的第m個(gè)混合系數(shù),M為橢圓對(duì)稱密度函數(shù),其由平均值向量μjm和協(xié)方差矩陣Ujm;
模型訓(xùn)練過程如下:
(1)、將所有的訓(xùn)練特征參數(shù)切分到每個(gè)狀態(tài)中。
(2)、將每個(gè)狀態(tài)所擁有的特征參數(shù)分給混合高斯模型的單個(gè)高斯模型,對(duì)模型進(jìn)行如下修正:
其中γt(j,k)為L(zhǎng)為樣本數(shù)量;Ct為t時(shí)刻比例因子。
(3)、判斷是否收斂。若收斂則結(jié)束,若不滿足,繼續(xù)迭代。
在對(duì)專有名詞進(jìn)行分類中。首先獲取數(shù)據(jù)庫(kù)的訓(xùn)練樣本集與測(cè)試集。在對(duì)訓(xùn)練樣本集進(jìn)行預(yù)處理以及文本表示的基礎(chǔ)上對(duì)訓(xùn)練樣本集進(jìn)行訓(xùn)練,獲得一個(gè)分類器。在評(píng)估分類器階段對(duì)測(cè)試集進(jìn)行測(cè)試。在對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理之后,得到分詞,將每個(gè)專有名詞轉(zhuǎn)化成由詞素組成的向量。利用訓(xùn)練樣本統(tǒng)計(jì)各個(gè)詞素的詞頻與逆向頻率,并由此計(jì)算每個(gè)詞素對(duì)預(yù)先定義的分類的正則化詞頻與逆向頻率之比,將其作為該詞d對(duì)相應(yīng)分類i的權(quán)值wi(d)。
其中N為專有名詞總數(shù),ni為包含詞條i的專有名詞數(shù)量;在測(cè)試的過程中,分別計(jì)算待處理的專有名詞對(duì)各個(gè)分類的權(quán)值之和,給出最終的分類結(jié)果。
其中ZY為待分類專有名詞,M為分類數(shù)Zyj即為ZY中第j個(gè)詞素。
數(shù)據(jù)庫(kù)中將每條語(yǔ)音命令設(shè)置四項(xiàng)內(nèi)容,分別是意向、語(yǔ)音命令原文、語(yǔ)音命令的分詞信息、語(yǔ)音命令的詞類標(biāo)記信息。生成分詞的訓(xùn)練文件、分詞的測(cè)試文件、詞類標(biāo)記的訓(xùn)練文件、詞類標(biāo)記的測(cè)試文件。本發(fā)明首先對(duì)語(yǔ)音命令進(jìn)行分詞與詞類標(biāo)記。對(duì)于重復(fù)性錯(cuò)誤,將發(fā)現(xiàn)的錯(cuò)誤添加到程序自定義的詞典中批量的進(jìn)行修改。
在分詞之前,把分詞的問題轉(zhuǎn)化為序列標(biāo)記問題。標(biāo)記詞的開頭、詞的中間、詞的結(jié)尾以及單個(gè)字構(gòu)成的詞,然后使用預(yù)設(shè)模板定義需要學(xué)習(xí)的特征,模板文件中每一行代表一個(gè)模板,每個(gè)模板中的宏[row,col]中的row代表的是相對(duì)的行號(hào),而col表示的是絕對(duì)的行號(hào)。根據(jù)模板文件中定義的模板,訓(xùn)練文件根據(jù)這些模板生成特征詞。
利用分詞訓(xùn)練文件進(jìn)行條件隨機(jī)場(chǎng)的學(xué)習(xí)訓(xùn)練,獲得一個(gè)分詞系統(tǒng)。利用詞類標(biāo)記訓(xùn)練文件進(jìn)行條件隨機(jī)場(chǎng)的學(xué)習(xí)訓(xùn)練,獲得一個(gè)詞類標(biāo)記系統(tǒng)。用分詞測(cè)試文件進(jìn)行測(cè)試,獲取分詞的精度。對(duì)詞類標(biāo)記測(cè)試文件進(jìn)行測(cè)試,獲取詞類標(biāo)記系統(tǒng)的精度。
在分詞結(jié)束之后,需要將分詞的結(jié)果進(jìn)行適當(dāng)?shù)淖儞Q以便于后續(xù)利用詞類標(biāo)記系統(tǒng)進(jìn)行詞類標(biāo)記。對(duì)于每條語(yǔ)音命令,分詞系統(tǒng)輸出B1個(gè)分詞結(jié)果。利用訓(xùn)練得到的詞類標(biāo)記系統(tǒng)對(duì)文件進(jìn)行詞類標(biāo)記,每條語(yǔ)音命令可以獲得B1個(gè)分詞結(jié)果,這一步對(duì)于每個(gè)輸入有B2個(gè)詞類標(biāo)記輸出結(jié)果,因此每條語(yǔ)音命令最終可獲得B1*B2個(gè)識(shí)別結(jié)果,從中篩選出最優(yōu)的B個(gè)識(shí)別結(jié)果,將數(shù)據(jù)庫(kù)中標(biāo)準(zhǔn)的分詞與詞類標(biāo)記信息寫回。當(dāng)分詞與詞類標(biāo)記結(jié)果同時(shí)完全一致時(shí),確定識(shí)別結(jié)果正確。
其中在生成B1個(gè)分詞結(jié)果和B2個(gè)詞類標(biāo)記結(jié)果中,進(jìn)一步包括分別將各個(gè)分詞結(jié)果的概率提取出來,保存在數(shù)組p1中,詞類標(biāo)記結(jié)果的概率提取出來保存在p2數(shù)組中。對(duì)于每條語(yǔ)音命令的B1*B2個(gè)識(shí)別結(jié)果可以通過p1、p2這兩個(gè)數(shù)組計(jì)算其生成概率,計(jì)算過程為:
p[i]=p2[i]*p1[i/B2] i=0,1,2,...,B1*B2-1
對(duì)這B1*B2個(gè)識(shí)別結(jié)果的生成概率p[i]進(jìn)行排序,輸出概率最高的B個(gè)識(shí)別結(jié)果。
完成了訓(xùn)練學(xué)習(xí)之后,輸出模塊輸出給定語(yǔ)音命令的分詞與詞類標(biāo)記結(jié)果。對(duì)于輸入的語(yǔ)音命令,查找字典,查找語(yǔ)音命令中特殊名詞,若找到則將其替換為對(duì)應(yīng)的特殊符號(hào),并寫入文件1;與此同時(shí)將找到的專有名詞用括號(hào)標(biāo)識(shí)出來,并寫入文件2。將文件1轉(zhuǎn)化為條件隨機(jī)場(chǎng)分詞測(cè)試模塊的輸入格式并寫入文件3。對(duì)文件3進(jìn)行分詞,將分詞的結(jié)果保存到文件4中。將分詞的結(jié)果轉(zhuǎn)化為詞類標(biāo)記系統(tǒng)的輸入格式并寫入文件5。對(duì)于每條語(yǔ)音命令產(chǎn)生的B1個(gè)分詞結(jié)果,將分詞結(jié)果的概率保存到p1中。對(duì)文件5中的語(yǔ)音命令進(jìn)行詞類標(biāo)記。結(jié)果保存到文件6中。對(duì)于每條語(yǔ)音命令此時(shí)共獲得了B1*B2個(gè)識(shí)別結(jié)果,需要輸出最好的B個(gè)識(shí)別結(jié)果。最終的B個(gè)結(jié)果被寫入文件7中。將文件7轉(zhuǎn)化為最終指定的輸出格式。
本發(fā)明中語(yǔ)義理解采用基于統(tǒng)計(jì)學(xué)習(xí)的方法。車載系統(tǒng)中的語(yǔ)義大類包括導(dǎo)航路線、路況、接聽與撥打電話、空調(diào)調(diào)節(jié)、天氣語(yǔ)音命令、收音機(jī)等功能。其中部分語(yǔ)義還需要帶上參數(shù):如撥打電話需要知道撥打的具體電話號(hào)碼。本發(fā)明的語(yǔ)義推測(cè)問題可以轉(zhuǎn)化為將輸入的文本的意向分到預(yù)定義的意向類中。首先推測(cè)語(yǔ)音命令意向的類型,若意向需要進(jìn)一步的參數(shù),則在語(yǔ)音命令中解析對(duì)應(yīng)的參數(shù)。
在詞類標(biāo)記問題中對(duì)以下條件概率建模:
p(s1…sm|x1…xm),對(duì)于,x1…xm代表了輸入的語(yǔ)音命令中的單個(gè)詞,而s1…sm∈S代表所有可能的詞類組合。對(duì)于一句由x1…xm構(gòu)成的語(yǔ)音命令共有km種詞類標(biāo)記組合。k=|S|。因此建立這km種詞類標(biāo)記結(jié)果的概率分布。
然后得到:
表示預(yù)定義的詞集合X與標(biāo)記集合Y的有限集特征向量,通過s1…sm以及x1…xm的大量訓(xùn)練,獲得參數(shù)向量w,最終得到p(s1…sm|x1…xm)。
在完成訓(xùn)練之后,求取對(duì)于輸入x1…xm的狀態(tài)s1…sm,即求解:
使用的特征是語(yǔ)音命令分詞之后的詞也可以是對(duì)應(yīng)的詞類,或者是二者的結(jié)合。當(dāng)選擇好一系列特征之后,根據(jù)訓(xùn)練樣本添加特征,調(diào)節(jié)權(quán)值。
在針對(duì)語(yǔ)義識(shí)別的文本分類問題中,對(duì)于給定詞集合X與標(biāo)記集合Y的訓(xùn)練樣本(xi,yi),i=l,…,n,n為樣本總數(shù),設(shè)置以下優(yōu)化問題:
測(cè)試時(shí),對(duì)于點(diǎn)x根據(jù)wTx>0給出分類結(jié)果。
綜上所述,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語(yǔ)音信號(hào)匹配方法,不需要離線字典中的標(biāo)記訓(xùn)練樣本集,對(duì)規(guī)則的依賴性小,提高了識(shí)別精度,適應(yīng)車載系統(tǒng)不斷更新的需求。。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算系統(tǒng)來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算系統(tǒng)上,或者分布在多個(gè)計(jì)算系統(tǒng)所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算系統(tǒng)可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)系統(tǒng)中由計(jì)算系統(tǒng)來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
應(yīng)當(dāng)理解的是,本發(fā)明的上述具體實(shí)施方式僅僅用于示例性說明或解釋本發(fā)明的原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修改例。