本發(fā)明涉及語音識(shí)別系統(tǒng),具體涉及改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法、改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置、語音識(shí)別方法和語音識(shí)別裝置。
背景技術(shù):
語音識(shí)別系統(tǒng)通常包含聲學(xué)模型和語言模型。聲學(xué)模型是統(tǒng)計(jì)語音特征相對(duì)于音素單元的概率分布的模型,語言模型是統(tǒng)計(jì)詞序列的出現(xiàn)概率的模型,語音識(shí)別過程實(shí)質(zhì)上是根據(jù)兩個(gè)模型的概率得分的加權(quán)之和來得到得分最高的結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
在通常的語音識(shí)別系統(tǒng)中,聲學(xué)模型和語言模型都是固定不變的。這樣的語音識(shí)別系統(tǒng)無法在預(yù)先獲得用戶提供的用戶文檔后對(duì)聲學(xué)模型和語言模型有針對(duì)性地進(jìn)行調(diào)整。然而,語音識(shí)別系統(tǒng)的語言模型對(duì)應(yīng)用所涉及的領(lǐng)域、可能會(huì)使用的詞匯等信息非常敏感,若能對(duì)語言模型進(jìn)行相應(yīng)的調(diào)整,則針對(duì)此次應(yīng)用的語音識(shí)別率能可得到明顯提升。
一些語音識(shí)別系統(tǒng)雖然能夠在使用前注冊(cè)用戶提供的新詞(系統(tǒng)詞典以外的詞)和關(guān)鍵詞(系統(tǒng)詞典包含的詞),并通過基于類的語言模型對(duì)新詞和關(guān)鍵詞賦予較高的概率,但這仍然無法有效提升對(duì)新詞和關(guān)鍵詞的識(shí)別率。
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明的實(shí)施方式提供了能夠有效提升對(duì)新詞和關(guān)鍵詞的識(shí)別率的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法 和裝置、以及語音識(shí)別方法和裝置。具體而言,提供了以下技術(shù)方案。
[1]一種改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法,包括:從用戶提供的用戶文檔中提取用戶詞匯;基于上述語音識(shí)別系統(tǒng)的系統(tǒng)詞典對(duì)上述用戶詞匯進(jìn)行分類;和基于分類的結(jié)果對(duì)上述用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子。
上述[1]的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法,通過對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子,能夠有效地提升用戶詞匯的識(shí)別率。
[2]根據(jù)上述[1]所述的方法,其中,對(duì)上述用戶詞匯進(jìn)行分類的步驟包括:基于上述系統(tǒng)詞典和用戶提供的用戶詞典將上述用戶詞匯和上述用戶詞典中的詞匯分為新詞、關(guān)鍵詞和其他詞匯。
[3]根據(jù)上述[2]所述的方法,其中,上述新詞是上述系統(tǒng)詞典不包含的詞匯,上述關(guān)鍵詞是上述用戶詞典和上述系統(tǒng)詞典均包含的詞匯,上述其他詞匯是上述用戶詞典不包含但上述系統(tǒng)詞典包含的詞匯。
上述[2]和[3]所述的方法,通過將上述用戶詞匯和上述用戶詞典中的詞匯分為上述系統(tǒng)詞典不包含的新詞、上述用戶詞典和上述系統(tǒng)詞典均包含關(guān)鍵詞、以及上述用戶詞典不包含但上述系統(tǒng)詞典包含的其他詞匯,能夠在后述的步驟中基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。
[4]根據(jù)上述[3]所述的方法,其中,對(duì)上述新詞、上述關(guān)鍵詞和上述其他詞匯分別設(shè)定大于1的加權(quán)因子。
上述[4]所述的方法,通過對(duì)上述新詞、上述關(guān)鍵詞和上述其他詞匯分別設(shè)定大于1的加權(quán)因子,能夠提升上述新詞、上述關(guān)鍵詞和上述其他詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。
[5]根據(jù)上述[4]所述的方法,其中,對(duì)上述關(guān)鍵詞設(shè)定的加權(quán)因子比對(duì)上述新詞和上述其他詞匯設(shè)定的加權(quán)因子大。
上述[5]所述的方法,通過將對(duì)上述關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)上述新詞和上述其他詞匯設(shè)定的加權(quán)因子大,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。
[6]根據(jù)上述[1]-[5]之一所述的方法,還包括:對(duì)上述語音識(shí)別系統(tǒng)所累積的用戶語料中的與上述用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子。
上述[6]所述的方法,通過對(duì)上述語音識(shí)別系統(tǒng)所累積的用戶語料中的與上述用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。
[7]根據(jù)上述[6]所述的方法,其中,設(shè)定上述相關(guān)詞匯的加權(quán)因子的步驟包括:基于領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性中的至少一方設(shè)定上述相關(guān)詞匯的加權(quán)因子。
[8]根據(jù)上述[7]所述的方法,其中,上述領(lǐng)域相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
[9]根據(jù)上述[7]所述的方法,其中,上述詞相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
[10]根據(jù)上述[7]所述的方法,其中,上述時(shí)間相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
上述[7]-[10]所述的方法,通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。
[11]一種語音識(shí)別方法,包括:輸入待識(shí)別的語音;利用聲學(xué)模型將上述語音識(shí)別為文本句;和利用語言模型計(jì)算上述文本句的得分;上述語言模型包括由上述[1]-[10]之一所述的方法改進(jìn)后的語言模型。
上述[11]的語音識(shí)別方法,通過利用由上述[1]-[10]之一的方法改進(jìn)后的語言模型,能夠有效地提升用戶詞匯的識(shí)別率,能夠提高語音識(shí)別系統(tǒng)針對(duì)此次應(yīng)用的識(shí)別性能。
[12]一種改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置,包括:提取單元,其從用戶提供的用戶文檔中提取用戶詞匯;分類單元,其基于上述語音識(shí)別系統(tǒng)的系統(tǒng)詞典對(duì)上述用戶詞匯進(jìn)行分類;和設(shè)定單元,其基于分類的結(jié)果對(duì)上述用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子。
上述[12]的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置,通過對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子,能夠有效地提升用戶詞匯的識(shí)別率。
[13]根據(jù)上述[12]所述的裝置,其中,上述分類單元基于上述系統(tǒng)詞典和用戶提供的用戶詞典將上述用戶詞匯和上述用戶詞典中的詞匯分為新詞、關(guān)鍵詞和其他詞匯。
[14]根據(jù)上述[13]所述的裝置,其中,上述新詞是上述系統(tǒng)詞典不包含的詞匯,上述關(guān)鍵詞是上述用戶詞典和上述系統(tǒng)詞典均包含的詞匯,上述其他詞匯是上述用戶詞典不包含但上述系統(tǒng)詞典包含的詞匯。
上述[13]和[14]所述的裝置,通過將上述用戶詞匯和上述用戶詞典中的詞匯分為上述系統(tǒng)詞典不包含的新詞、上述用戶詞典和上述系統(tǒng)詞典均包含關(guān)鍵詞、以及上述用戶詞典不包含但上述系統(tǒng)詞典包含的其他詞匯,能夠在后述的步驟中基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。
[15]根據(jù)上述[14]所述的裝置,其中,上述設(shè)定單元對(duì)上述新詞、上述關(guān)鍵詞和上述其他詞匯分別設(shè)定大于1的加權(quán)因子。
上述[15]所述的裝置,通過對(duì)上述新詞、上述關(guān)鍵詞和上述其他詞匯分別設(shè)定大于1的加權(quán)因子,能夠提升上述新詞、上述關(guān)鍵詞和上述其他詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。
[16]根據(jù)上述[15]所述的裝置,其中,上述設(shè)定單元對(duì)上述關(guān)鍵詞設(shè)定的加權(quán)因子比對(duì)上述新詞和上述其他詞匯設(shè)定的加權(quán)因子大。
上述[16]所述的裝置,通過將對(duì)上述關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)上述新詞和上述其他詞匯設(shè)定的加權(quán)因子大,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。
[17]根據(jù)上述[12]-[16]之一所述的裝置,上述設(shè)定單元對(duì)上述語音識(shí)別系統(tǒng)所累積的用戶語料中的與上述用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子。
上述[17]所述的裝置,通過對(duì)上述語音識(shí)別系統(tǒng)所累積的用戶語料中 的與上述用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。
[18]根據(jù)上述[17]所述的裝置,其中,上述設(shè)定單元基于領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性中的至少一方設(shè)定上述相關(guān)詞匯的加權(quán)因子。
[19]根據(jù)上述[18]所述的裝置,其中,上述領(lǐng)域相關(guān)性越高,則上述設(shè)定單元設(shè)定越大的加權(quán)因子。
[20]根據(jù)上述[18]所述的裝置,其中,上述詞相關(guān)性越高,則上述設(shè)定單元設(shè)定越大的加權(quán)因子。
[21]根據(jù)上述[18]所述的裝置,其中,上述時(shí)間相關(guān)性越高,則上述設(shè)定單元設(shè)定越大的加權(quán)因子。
上述[18]-[21]所述的裝置,通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。
[22]一種語音識(shí)別裝置,包括:輸入單元,其輸入待識(shí)別的語音;識(shí)別單元,其利用聲學(xué)模型將上述語音識(shí)別為文本句;和計(jì)算單元,其利用語言模型計(jì)算上述文本句的得分;上述語言模型包括由上述[12]-[22]之一的裝置改進(jìn)后的語言模型。
上述[22]的語音識(shí)別裝置,通過利用由上述[12]-[21]之一的裝置改進(jìn)后的語言模型,能夠有效地提升用戶詞匯的識(shí)別率,能夠提高語音識(shí)別系統(tǒng)針對(duì)此次應(yīng)用的識(shí)別性能。
附圖說明
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法的圖。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的語音識(shí)別方法的圖。
圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置的圖。
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的語音識(shí)別裝置的圖。
具體實(shí)施方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施方式進(jìn)行詳細(xì)的說明。
改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法
本實(shí)施方式提供一種改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法,包括:從用戶提供的用戶文檔中提取用戶詞匯;基于上述語音識(shí)別系統(tǒng)的系統(tǒng)詞典對(duì)上述用戶詞匯進(jìn)行分類;和基于分類的結(jié)果對(duì)上述用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子。
下面參照?qǐng)D1進(jìn)行詳細(xì)說明。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法的流程圖。
如圖1所示,首先,在步驟S101中,從用戶提供的用戶文檔10中提取用戶詞匯。在一些語音識(shí)別的應(yīng)用之前,用戶會(huì)預(yù)先提供一些文檔,例如,在會(huì)議支援系統(tǒng)的情況下,用戶會(huì)預(yù)先將一些會(huì)議文檔上傳到系統(tǒng)服務(wù)器,再例如,在演講支援系統(tǒng)的情況下,用戶會(huì)預(yù)先將講稿上傳到系統(tǒng)服務(wù)器。在此,將這樣的用戶預(yù)先提供的文檔稱作“用戶文檔”。本實(shí)施方式中,用戶文檔并不限于上述會(huì)議文檔或講稿,其可以是用戶在應(yīng)用語音識(shí)別系統(tǒng)之前提供的任何文檔,本實(shí)施方式對(duì)此沒有任何限制。
在從用戶文檔10提取用戶詞匯時(shí),可應(yīng)用本領(lǐng)域的技術(shù)人員公知的任何分詞技術(shù),本實(shí)施方式對(duì)此沒有任何限制,在此不進(jìn)行贅述。另外,用戶一般還會(huì)提供一個(gè)用戶詞典,該用戶詞典指定了用戶在本次的應(yīng)用中明確使用的詞匯。在提取用戶詞匯時(shí),也可以基于用戶詞典來進(jìn)行提取。這樣一來,能夠提升提取的精度。例如,在用戶詞典中指定了“光蓓凈”這一從來未被使用過的詞匯時(shí),通過基于用戶詞典,能夠精確地將“光蓓凈”作為一個(gè)詞匯來提取。
接著,在步驟S105中,基于語音系統(tǒng)的系統(tǒng)詞典對(duì)用戶詞匯進(jìn)行分類。作為一例,在用戶詞匯不包含于系統(tǒng)詞典的情況下,將其作為“新詞”。
另外,在用戶提供用戶詞典的情況下,在步驟S105中,優(yōu)選,基于 系統(tǒng)詞典和用戶詞典的雙方,將用戶詞匯和用戶詞典中的詞匯分為“新詞”、“關(guān)鍵詞”以及“其他詞匯”,新詞是系統(tǒng)詞典不包含的詞匯,關(guān)鍵詞是用戶詞典和系統(tǒng)詞典均包含的詞匯,其他詞匯是用戶詞典不包含但系統(tǒng)詞典包含的詞匯。這樣一來,能夠在后述的步驟中基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。
接著,在步驟S110中,基于分類的結(jié)果對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率P(W|*)的加權(quán)因子b(W)。具體而言,設(shè)定大于1的加權(quán)因子b(W)。通過設(shè)定大于1的加權(quán)因子b(W),能夠提升該用戶詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。此外,在步驟S105中也對(duì)用戶詞典中的詞匯進(jìn)行了分類的情況下,也可以對(duì)用戶詞典中的詞匯設(shè)定語言模型概率的加權(quán)因子。
本實(shí)施方式中,優(yōu)選將對(duì)關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)新詞和其他詞匯設(shè)定的加權(quán)因子大。關(guān)鍵詞是用戶詞典包含的詞匯,而用戶詞典指定了用戶在本次的應(yīng)用中明確使用的詞匯,因此,通過對(duì)關(guān)鍵詞設(shè)定比新詞和其他詞匯大的加權(quán)因子,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。
另外,由于語音識(shí)別系統(tǒng)在長期的應(yīng)用中已經(jīng)累積了大量的用戶語料,所以除了上述用戶詞匯以外,也可以對(duì)語音識(shí)別系統(tǒng)所累積的用戶語料中的與用戶文檔10相關(guān)的詞匯(以下,稱作“相關(guān)詞匯”)設(shè)定加權(quán)因子。通過對(duì)相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。
在對(duì)相關(guān)詞匯設(shè)定加權(quán)因子時(shí),可以基于領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性中的至少一方來進(jìn)行設(shè)定,具體而言,領(lǐng)域相關(guān)性越高,則設(shè)定越大的加權(quán)因子;詞相關(guān)性越高,則設(shè)定越大的加權(quán)因子;時(shí)間相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
領(lǐng)域相關(guān)性是指某領(lǐng)域的詞匯與用戶文檔10的領(lǐng)域(例如,信息科學(xué)、人事管理、醫(yī)療保健等)同時(shí)出現(xiàn)的概率,概率越高,則領(lǐng)域相關(guān)性越高。另外,詞相關(guān)性是指某詞匯與用戶詞匯一起出現(xiàn)在應(yīng)用中的概率,概率越 高,則詞相關(guān)性越高。另外,時(shí)間相關(guān)性表示時(shí)間上相關(guān)的程度,若在累積的用戶語料中的某個(gè)詞匯最近反復(fù)出現(xiàn),則該詞匯在本次的應(yīng)用中出現(xiàn)的概率較大,因而時(shí)間相關(guān)性較高;相反,若該詞匯已經(jīng)很久不被使用,則該詞匯在本次的應(yīng)用中出現(xiàn)的概率較小,因而時(shí)間相關(guān)性較低。
通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。在此,對(duì)相關(guān)詞匯設(shè)定的加權(quán)因子既可以大于1,也可以為1以下。在加權(quán)因子大于1時(shí),表示提升該相關(guān)詞匯的識(shí)別率,另一方面,在加權(quán)因子為1以下時(shí),表示不提升或者降低該相關(guān)詞匯的識(shí)別率。
本實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法,通過對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子,能夠有效地提升用戶詞匯的識(shí)別率。進(jìn)而,通過將用戶詞匯和用戶詞典中的詞匯分為系統(tǒng)詞典不包含的新詞、用戶詞典和系統(tǒng)詞典均包含關(guān)鍵詞、以及用戶詞典不包含但系統(tǒng)詞典包含的其他詞匯,能夠在后述的步驟中基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。進(jìn)而,通過對(duì)新詞、關(guān)鍵詞和其他詞匯分別設(shè)定大于1的加權(quán)因子,能夠提升新詞、關(guān)鍵詞和其他詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。進(jìn)而,通過將對(duì)關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)新詞和其他詞匯設(shè)定的加權(quán)因子大,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。進(jìn)而,通過對(duì)語音識(shí)別系統(tǒng)所累積的用戶語料中的與用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。進(jìn)而,通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。
語音識(shí)別方法
本實(shí)施方式提供一種語音識(shí)別方法,包括:輸入待識(shí)別的語音;利用聲學(xué)模型將上述語音識(shí)別為文本句;和利用語言模型計(jì)算上述文本句的得分;上述語言模型包括由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法改進(jìn)后的語言模型。
下面參照?qǐng)D2進(jìn)行詳細(xì)說明。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的語音識(shí)別方法的流程圖。
首先,在步驟S201中,輸入待識(shí)別的語音。
接著,在步驟S205中,利用聲學(xué)模型將上述語音識(shí)別為文本句。在本實(shí)施方式中,聲學(xué)模型可以本領(lǐng)域的技術(shù)人員公知的任何聲學(xué)模型,利用聲學(xué)模型將上述語音識(shí)別為文本句的方法也可以是本領(lǐng)域的技術(shù)人員公知的任何識(shí)別方法,本實(shí)施方式對(duì)此沒有任何限制。
接著,在步驟S210中,利用語言模型計(jì)算上述文本句的得分。在此,在步驟S210中利用的語言模型是由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法改進(jìn)后的語言模型。
本實(shí)施方式的語音識(shí)別方法,通過使用由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法改進(jìn)后的語言模型,能夠得到與上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法同樣的技術(shù)效果。
改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置
本實(shí)施方式提供一種改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置,包括:提取單元,其從用戶提供的用戶文檔中提取用戶詞匯;分類單元,其基于上述語音識(shí)別系統(tǒng)的系統(tǒng)詞典對(duì)上述用戶詞匯進(jìn)行分類;和設(shè)定單元,其基于分類的結(jié)果對(duì)上述用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子。
下面參照?qǐng)D3進(jìn)行詳細(xì)說明。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置的框圖。
如圖3所示,本實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置300具備提取單元301、分類單元305和設(shè)定單元310。
提取單元300從用戶提供的用戶文檔10中提取用戶詞匯。在一些語音識(shí)別的應(yīng)用之前,用戶會(huì)預(yù)先提供一些文檔,例如,在會(huì)議支援系統(tǒng)的情況下,用戶會(huì)預(yù)先將一些會(huì)議文檔上傳到系統(tǒng)服務(wù)器,再例如,在演講支援系統(tǒng)的情況下,用戶會(huì)預(yù)先將講稿上傳到系統(tǒng)服務(wù)器。在此,將這樣的用戶預(yù)先提供的文檔稱作“用戶文檔”。本實(shí)施方式中,用戶文檔并不限于上述會(huì)議文檔或講稿,其可以是用戶在應(yīng)用語音識(shí)別系統(tǒng)之前提供的任何文檔,本實(shí)施方式對(duì)此沒有任何限制。
提取單元300在從用戶文檔10提取用戶詞匯時(shí),可應(yīng)用本領(lǐng)域的技術(shù)人員公知的任何分詞技術(shù),本實(shí)施方式對(duì)此沒有任何限制,在此不進(jìn)行贅述。另外,用戶一般還會(huì)提供一個(gè)用戶詞典,該用戶詞典指定了用戶在本次的應(yīng)用中明確使用的詞匯。提取單元300在提取用戶詞匯時(shí),也可以基于用戶詞典來進(jìn)行提取。這樣一來,能夠提升提取的精度。例如,在用戶詞典中指定了“光蓓凈”這一從來未被使用過的詞匯時(shí),通過基于用戶詞典,能夠精確地將“光蓓凈”作為一個(gè)詞匯來提取。
分類單元305基于語音系統(tǒng)的系統(tǒng)詞典對(duì)由提取單元301提取的用戶詞匯進(jìn)行分類。作為一例,在用戶詞匯不包含于系統(tǒng)詞典的情況下,分類單元305將其作為“新詞”。
另外,在用戶提供用戶詞典的情況下,優(yōu)選,分類單元305基于系統(tǒng)詞典和用戶詞典的雙方,將用戶詞匯和用戶詞典中的詞匯分為“新詞”、“關(guān)鍵詞”以及“其他詞匯”,新詞是系統(tǒng)詞典不包含的詞匯,關(guān)鍵詞是用戶詞典和系統(tǒng)詞典均包含的詞匯,其他詞匯是用戶詞典不包含但系統(tǒng)詞典包含的詞匯。這樣一來,能夠由后述的設(shè)定單元310基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。
設(shè)定單元310基于分類單元305的分類的結(jié)果對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率P(W|*)的加權(quán)因子b(W)。具體而言,設(shè)定大于1的加權(quán)因子b(W)。通過設(shè)定大于1的加權(quán)因子b(W),能夠提升該用戶詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。此外,在分類單元305也對(duì)用戶詞典中的詞匯進(jìn)行了分類的情況下,也可以對(duì)用戶詞典中的詞匯設(shè)定 語言模型概率的加權(quán)因子。
本實(shí)施方式中,優(yōu)選將對(duì)關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)新詞和其他詞匯設(shè)定的加權(quán)因子大。關(guān)鍵詞是用戶詞典包含的詞匯,而用戶詞典指定了用戶在本次的應(yīng)用中明確使用的詞匯,因此,通過對(duì)關(guān)鍵詞設(shè)定比新詞和其他詞匯大的加權(quán)因子,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。
另外,由于語音識(shí)別系統(tǒng)在長期的應(yīng)用中已經(jīng)累積了大量的用戶語料,所以除了上述用戶詞匯以外,設(shè)定單元310也可以對(duì)語音識(shí)別系統(tǒng)所累積的用戶語料中的與用戶文檔10相關(guān)的詞匯(以下,稱作“相關(guān)詞匯”)設(shè)定加權(quán)因子。通過對(duì)相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。
設(shè)定單元310在對(duì)相關(guān)詞匯設(shè)定加權(quán)因子時(shí),可以基于領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性中的至少一方來進(jìn)行設(shè)定,具體而言,領(lǐng)域相關(guān)性越高,則設(shè)定越大的加權(quán)因子;詞相關(guān)性越高,則設(shè)定越大的加權(quán)因子;時(shí)間相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
領(lǐng)域相關(guān)性是指某領(lǐng)域的詞匯與用戶文檔10的領(lǐng)域(例如,信息科學(xué)、人事管理、醫(yī)療保健等)同時(shí)出現(xiàn)的概率,概率越高,則領(lǐng)域相關(guān)性越高。另外,詞相關(guān)性是指某詞匯與用戶詞匯一起出現(xiàn)在應(yīng)用中的概率,概率越高,則詞相關(guān)性越高。另外,時(shí)間相關(guān)性表示時(shí)間上相關(guān)的程度,若在累積的用戶語料中的某個(gè)詞匯最近反復(fù)出現(xiàn),則該詞匯在本次的應(yīng)用中出現(xiàn)的概率較大,因而時(shí)間相關(guān)性較高;相反,若該詞匯已經(jīng)很久不被使用,則該詞匯在本次的應(yīng)用中出現(xiàn)的概率較小,因而時(shí)間相關(guān)性較低。
通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。在此,對(duì)相關(guān)詞匯設(shè)定的加權(quán)因子既可以大于1,也可以為1以下。在加權(quán)因子大于1時(shí),表示提升該相關(guān)詞匯的識(shí)別率,另一方面,在加權(quán)因子為1以下時(shí),表示不提升或者降低該相關(guān) 詞匯的識(shí)別率。
本實(shí)施方式的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置,通過對(duì)用戶詞匯的至少一個(gè)設(shè)定語言模型概率的加權(quán)因子,能夠有效地提升用戶詞匯的識(shí)別率。進(jìn)而,通過將用戶詞匯和用戶詞典中的詞匯分為用戶詞典包含但系統(tǒng)詞典不包含的新詞、用戶詞典和系統(tǒng)詞典均包含關(guān)鍵詞、以及用戶詞典不包含但系統(tǒng)詞典包含的其他詞匯,能夠在后述的步驟中基于類別來設(shè)定相應(yīng)的加權(quán)因子,能夠提升語音識(shí)別系統(tǒng)的靈活性。進(jìn)而,通過對(duì)新詞、關(guān)鍵詞和其他詞匯分別設(shè)定大于1的加權(quán)因子,能夠提升新詞、關(guān)鍵詞和其他詞匯的語言模型概率得分,從而能夠提升其識(shí)別率。進(jìn)而,通過將對(duì)關(guān)鍵詞設(shè)定的加權(quán)因子設(shè)為比對(duì)新詞和其他詞匯設(shè)定的加權(quán)因子大,能夠有效提升用戶在本次的應(yīng)用中明確使用的詞匯的識(shí)別率。進(jìn)而,通過對(duì)語音識(shí)別系統(tǒng)所累積的用戶語料中的與用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子,能夠調(diào)整相關(guān)詞匯的識(shí)別率,提升語音識(shí)別系統(tǒng)的性能。進(jìn)而,通過考慮領(lǐng)域相關(guān)性、詞相關(guān)性以及時(shí)間相關(guān)性的至少一方來決定加權(quán)因子的大小,與用戶詞匯相關(guān)性高的詞匯的識(shí)別被增強(qiáng),與用戶詞匯的相關(guān)性低的詞匯的識(shí)別被抑制,能夠更精確地調(diào)整相關(guān)詞匯的識(shí)別率,進(jìn)一步提升語音識(shí)別系統(tǒng)的性能。
語音識(shí)別裝置
本實(shí)施方式提供一種語音識(shí)別裝置,包括:輸入單元,其輸入待識(shí)別的語音;識(shí)別單元,其利用聲學(xué)模型將上述語音識(shí)別為文本句;和計(jì)算單元,其利用語言模型計(jì)算上述文本句的得分;上述語言模型包括由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置改進(jìn)后的語言模型。
下面參照?qǐng)D4進(jìn)行詳細(xì)說明。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的語音識(shí)別裝置的框圖。
本實(shí)施方式的語音識(shí)別裝置400具備輸入單元401、識(shí)別單元405和計(jì)算單元410。
輸入單元401輸入待識(shí)別的語音。
識(shí)別單元405利用聲學(xué)模型將上述語音識(shí)別為文本句。在本實(shí)施方式中,聲學(xué)模型可以本領(lǐng)域的技術(shù)人員公知的任何聲學(xué)模型,利用聲學(xué)模型將上述語音識(shí)別為文本句的單元也可以是本領(lǐng)域的技術(shù)人員公知的任何識(shí)別單元,本實(shí)施方式對(duì)此沒有任何限制。
計(jì)算單元410利用語言模型計(jì)算上述文本句的得分。在此,計(jì)算單元410利用的語言模型是由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置改進(jìn)后的語言模型。
本實(shí)施方式的語音識(shí)別裝置,通過使用由上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置改進(jìn)后的語言模型,能夠得到與上述改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置同樣的技術(shù)效果。
以上雖然通過一些示例性的實(shí)施例詳細(xì)地描述了本發(fā)明的改進(jìn)語音識(shí)別系統(tǒng)的語言模型的方法、改進(jìn)語音識(shí)別系統(tǒng)的語言模型的裝置、語音識(shí)別方法和語音識(shí)別裝置,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。