提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)的制作方法

文檔序號(hào)：2827674閱讀：178來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)，該方法包括：獲取訓(xùn)練語料，并將所述訓(xùn)練語料分為兩部分：訓(xùn)練集和保留集；在所述訓(xùn)練集上統(tǒng)計(jì)各階語言模型對(duì)應(yīng)的詞頻，并對(duì)詞頻為0的語言模型設(shè)置對(duì)應(yīng)的補(bǔ)償參數(shù)，所述補(bǔ)償參數(shù)的取值在設(shè)定范圍內(nèi)；在所述保留集上按設(shè)定步長遍歷對(duì)應(yīng)所述語言模型的補(bǔ)償參數(shù)在所述設(shè)定范圍內(nèi)的各值，獲得使目標(biāo)函數(shù)最小的最優(yōu)補(bǔ)償參數(shù)；利用對(duì)應(yīng)所述語言模型的最優(yōu)補(bǔ)償參數(shù)計(jì)算所述語言模型的條件概率，得到統(tǒng)計(jì)語言模型。利用本發(fā)明，可以有效提高語言模型的整體識(shí)別率。
【專利說明】提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識(shí)別【技術(shù)領(lǐng)域】，具體涉及一種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)。

【背景技術(shù)】
[0002] 統(tǒng)計(jì)語言模型在自然語言處理技術(shù)中占有重要地位，在語音識(shí)別、光學(xué)字符識(shí)別、機(jī)器翻譯、漢語拼音輸入、信息檢索等許多系統(tǒng)中都得到了成功的應(yīng)用。在語音識(shí)別中，計(jì) 算機(jī)需要知道一個(gè)文字序列是否能構(gòu)成一個(gè)大家理解而且有意義的句子，然后顯示或者打印給使用者。
[0003] 例如：給定拼音串：ta shi yan jiu sheng wu de ;
[0004] 可能的漢字串有以下幾種：踏實(shí)研究生物的、他實(shí)驗(yàn)救生物的、他使煙酒生物的、他是研究生物的等等。
[0005] 如何讓計(jì)算機(jī)選擇一個(gè)最可能的漢字串，就要用到統(tǒng)計(jì)語言模型。
[0006] 在統(tǒng)計(jì)語言模型中，判斷一個(gè)句子是否合理，就要看它的可能性大小。假定S表示一個(gè)有意義的句子，由一連串特定順序排列的詞Wp W2, . . .，Wn組成，即S = Wi，W2, . . .，Wn，η 是句子的長度，則S在文本中出現(xiàn)的概率為：
[0007] P ⑶=P (W" W2，…，Wn)
[0008] 由條件概率可知，S這個(gè)序列在文本中出現(xiàn)的概率等于每一個(gè)詞出現(xiàn)的條件概率相乘，即：
[0009] P(S) =P(W1)XP(W2|W1)XP(W3|W 1，W2)X··· XPOVjH···，^
[0010] 其中，P(Wi)表示第一個(gè)詞出現(xiàn)的概率，P^IWi)表示在已知第一個(gè)詞的前提下，第二個(gè)詞出現(xiàn)的概率，依此類推。
[0011] 但是依然有一個(gè)問題，就是文本序列越靠后的詞，依賴的詞越多，到最后一個(gè)詞時(shí) 可能都無法估算。為此，業(yè)界給出了一個(gè)簡單有效的方法，即假設(shè)任意一個(gè)詞Wi出現(xiàn)的概率只與它前面的詞Wg有關(guān)，則上式（2)簡化為：
[0012] p(s) = Pdi) xpdjffi) xp(w3|w2) x... xpdjw^)
[0013] 但是，對(duì)于統(tǒng)計(jì)語言模型，還有很多細(xì)節(jié)問題需要解決，其中一個(gè)問題就是零概率問題。而且，隨著階數(shù)的增大，估計(jì)為0的模型數(shù)越來越多，對(duì)語音識(shí)別正確率有較大影響。為此，現(xiàn)有技術(shù)中通過平滑處理來改進(jìn)模型的整體正確率。目前，統(tǒng)計(jì)語言模型的平滑方法主要有：絕對(duì)折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。這幾種方法，都是在使非零概率下降的時(shí)候，同時(shí)改變了非零概率之間的分布比例，導(dǎo)致語言模型困惑度上升，整體正確率下降。

【發(fā)明內(nèi)容】

[0014] 本發(fā)明實(shí)施例提供一種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)，在不改變非零概率之間的分布比例的情況下，消除零概率，提高語言模型的整體識(shí)別率。
[0015] 為此，本發(fā)明實(shí)施例提供如下技術(shù)方案：
[0016] 一種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法，包括：
[0017] 獲取訓(xùn)練語料，并將所述訓(xùn)練語料分為兩部分：訓(xùn)練集和保留集；
[0018] 在所述訓(xùn)練集上統(tǒng)計(jì)各階語言模型對(duì)應(yīng)的詞頻，并對(duì)詞頻為0的語言模型設(shè)置對(duì) 應(yīng)的補(bǔ)償參數(shù)，所述補(bǔ)償參數(shù)的取值在設(shè)定范圍內(nèi)；
[0019] 在所述保留集上按設(shè)定步長遍歷對(duì)應(yīng)所述語言模型的補(bǔ)償參數(shù)在所述設(shè)定范圍內(nèi)的各值，獲得使目標(biāo)函數(shù)最小的最優(yōu)補(bǔ)償參數(shù)；
[0020] 利用對(duì)應(yīng)所述語言模型的最優(yōu)補(bǔ)償參數(shù)計(jì)算所述語言模型的條件概率，得到統(tǒng)計(jì) 語目模型。
[0021] 優(yōu)選地，所述將所述訓(xùn)練語料分為兩部分包括：
[0022] 按照任意比例將所述訓(xùn)練語料分為兩部分。
[0023] 優(yōu)選地，所述設(shè)定范圍為0?1。
[0024] 優(yōu)選地，所述目標(biāo)函數(shù)為語言模型的困惑度PP :
[0025]

【權(quán)利要求】
1. 一種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法，其特征在于，包括：獲取訓(xùn)練語料，并將所述訓(xùn)練語料分為兩部分：訓(xùn)練集和保留集；在所述訓(xùn)練集上統(tǒng)計(jì)各階語言模型對(duì)應(yīng)的詞頻，并對(duì)詞頻為0的語言模型設(shè)置對(duì)應(yīng)的補(bǔ)償參數(shù)，所述補(bǔ)償參數(shù)的取值在設(shè)定范圍內(nèi)；在所述保留集上按設(shè)定步長遍歷對(duì)應(yīng)所述語言模型的補(bǔ)償參數(shù)在所述設(shè)定范圍內(nèi)的各值，獲得使目標(biāo)函數(shù)最小的最優(yōu)補(bǔ)償參數(shù)；利用對(duì)應(yīng)所述語言模型的最優(yōu)補(bǔ)償參數(shù)計(jì)算所述語言模型的條件概率，得到統(tǒng)計(jì)語言模型。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述訓(xùn)練語料分為兩部分包括：按照任意比例將所述訓(xùn)練語料分為兩部分。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述設(shè)定范圍為0?1。
4. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法，其特征在于，所述目標(biāo)函數(shù)為語言模型的困惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的概率，ni表示所述詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，所述利用對(duì)應(yīng)所述語言模型的最優(yōu)補(bǔ)償參數(shù)對(duì)所述語言模型進(jìn)行優(yōu)化，得到優(yōu)化后的語言模型包括：對(duì)于同階的非零概率部分，
對(duì)于同階的零概率部分，
其中，詞串序列h = 1_η+1, · · ·，Wh,詞串序列h' = 1_η+2, · · ·，Wh, C(h)表示h在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)；C(h，Wi)表示（h，Wi)在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)；λ (h) 表示對(duì)應(yīng)h的最優(yōu)補(bǔ)償參數(shù)：
6. -種提高統(tǒng)計(jì)語言模型準(zhǔn)確度的系統(tǒng)，其特征在于，包括：語料獲取模塊，用于獲取訓(xùn)練語料；拆分模塊，用于將所述訓(xùn)練語料分為兩部分：訓(xùn)練集和保留集；統(tǒng)計(jì)模塊，用于在所述訓(xùn)練集上統(tǒng)計(jì)各階語言模型對(duì)應(yīng)的詞頻，并對(duì)詞頻為〇的語言模型設(shè)置對(duì)應(yīng)的補(bǔ)償參數(shù)，所述補(bǔ)償參數(shù)的取值在設(shè)定范圍內(nèi)；最優(yōu)補(bǔ)償參數(shù)獲取模塊，用于在所述保留集上按設(shè)定步長遍歷對(duì)應(yīng)所述語言模型的補(bǔ) 償參數(shù)在所述設(shè)定范圍內(nèi)的各值，獲得使目標(biāo)函數(shù)最小的最優(yōu)補(bǔ)償參數(shù)；優(yōu)化模塊，用于利用對(duì)應(yīng)所述語言模型的最優(yōu)補(bǔ)償參數(shù)計(jì)算所述語言模型的條件概率，得到統(tǒng)計(jì)語言模型。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述拆分模塊按照任意比例將所述訓(xùn)練語料分為兩部分。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述設(shè)定范圍為0?1。
9. 根據(jù)權(quán)利要求6至8任一項(xiàng)所述的系統(tǒng)，其特征在于，所述目標(biāo)函數(shù)為語言模型的困惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的概率，ni表示所述詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征在于，所述優(yōu)化模塊具體按以下方式對(duì)所述語言模型進(jìn)行優(yōu)化：對(duì)于同階的非零概率部分，
對(duì)于同階的零概率部分
其中，詞串序列h = 1_η+1, · · ·，Wh,詞串序列h' = 1_η+2, · · ·，Wh, C(h)表示h在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)；C(h，Wi)表示（h，Wi)在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)；λ (h) 表示對(duì)應(yīng)h的最優(yōu)補(bǔ)償參數(shù)，
【文檔編號(hào)】G10L15/06GK104112447SQ201410366038
【公開日】2014年10月22日申請(qǐng)日期:2014年7月28日優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】殷永光, 鹿曉亮, 梁修存申請(qǐng)人:科大訊飛股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：殷永光;鹿曉亮;梁修存
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

上一篇：通話記錄標(biāo)記方法、裝置及電子設(shè)備的制作方法
上一篇：一種音頻測評(píng)方法及裝置制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

統(tǒng)計(jì)語言模型相關(guān)技術(shù)

win10提高鼠標(biāo)準(zhǔn)確度相關(guān)技術(shù)

提高指針準(zhǔn)確度相關(guān)技術(shù)

提高鼠標(biāo)準(zhǔn)確度相關(guān)技術(shù)

提高準(zhǔn)確性準(zhǔn)確度相關(guān)技術(shù)

語言模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

提高統(tǒng)計(jì)語言模型準(zhǔn)確度的方法及系統(tǒng)的制作方法