1.一種改進(jìn)語音識別系統(tǒng)的語言模型的裝置,包括:
提取單元,其從用戶提供的用戶文檔中提取用戶詞匯;
分類單元,其基于上述語音識別系統(tǒng)的系統(tǒng)詞典對上述用戶詞匯進(jìn)行分類;和
設(shè)定單元,其基于分類的結(jié)果對上述用戶詞匯的至少一個設(shè)定語言模型概率的加權(quán)因子。
2.根據(jù)權(quán)利要求1所述的裝置,其中,
上述分類單元基于上述系統(tǒng)詞典和用戶提供的用戶詞典將上述用戶詞匯和上述用戶詞典中的詞匯分為新詞、關(guān)鍵詞和其他詞匯。
3.根據(jù)權(quán)利要求2所述的裝置,其中,
上述新詞是上述系統(tǒng)詞典不包含的詞匯,
上述關(guān)鍵詞是上述用戶詞典和上述系統(tǒng)詞典均包含的詞匯,
上述其他詞匯是上述用戶詞典不包含但上述系統(tǒng)詞典包含的詞匯。
4.根據(jù)權(quán)利要求3所述的裝置,其中,
上述設(shè)定單元對上述新詞、上述關(guān)鍵詞和上述其他詞匯分別設(shè)定大于1的加權(quán)因子。
5.根據(jù)權(quán)利要求1-4的任一項(xiàng)所述的裝置,其中,
上述設(shè)定單元對上述語音識別系統(tǒng)所累積的用戶語料中的與上述用戶詞匯相關(guān)的相關(guān)詞匯設(shè)定加權(quán)因子。
6.根據(jù)權(quán)利要求5所述的裝置,其中,
上述設(shè)定單元基于領(lǐng)域相關(guān)性、詞相關(guān)性以及時間相關(guān)性中的至少一方設(shè)定上述相關(guān)詞匯的加權(quán)因子。
7.根據(jù)權(quán)利要求6所述的裝置,其中,
上述領(lǐng)域相關(guān)性越高,則設(shè)定越大的加權(quán)因子,
上述詞相關(guān)性越高,則設(shè)定越大的加權(quán)因子,
上述時間相關(guān)性越高,則設(shè)定越大的加權(quán)因子。
8.一種語音識別裝置,包括:
輸入單元,其輸入待識別的語音;
識別單元,其利用聲學(xué)模型將上述語音識別為文本句;和
計(jì)算單元,其利用語言模型計(jì)算上述文本句的得分;
上述語言模型包括由權(quán)利要求1-7的任一項(xiàng)所述的裝置改進(jìn)后的語言模型。
9.一種改進(jìn)語音識別系統(tǒng)的語言模型的方法,包括:
從用戶提供的用戶文檔中提取用戶詞匯;
基于上述語音識別系統(tǒng)的系統(tǒng)詞典對上述用戶詞匯進(jìn)行分類;和
基于分類的結(jié)果對上述用戶詞匯的至少一個設(shè)定語言模型概率的加權(quán)因子。
10.一種語音識別方法,包括:
輸入待識別的語音;
利用聲學(xué)模型將上述語音識別為文本句;和
利用語言模型計(jì)算上述文本句的得分;
上述語言模型包括由權(quán)利要求9所述的方法改進(jìn)后的語言模型。