專利名稱:一種交互式語音識別系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別是涉及一種交互式語音識別系統(tǒng)和方法。
背景技術(shù):
目前面向特殊應(yīng)用的中小詞匯量語音識別技術(shù)已得到實際應(yīng)用。然而,由于受到 背景噪音、方言口音、口語化的自然語音以及語義理解等因素的限制,面向真實場景的大詞 匯量連續(xù)語音識別系統(tǒng)的性能遠遠無法滿足實際應(yīng)用要求。在已有的語音識別系統(tǒng)中,已經(jīng)出現(xiàn)了一些交互技術(shù),主要是錯誤糾正技術(shù),即在 一句話識別后由說話人對識別結(jié)果中的錯誤進行糾正。早期的系統(tǒng)可同時提供多種交互方 式,包括單詞重新發(fā)音(re-speaking),單詞拼寫(spelling),鍵盤輸入、手寫輸入等。近期 語音識別系統(tǒng)中主要采用候選選擇修正技術(shù),系統(tǒng)對每個單詞給出多個候選,并提供相應(yīng) 的交互界面,允許用戶在語音輸入的同時或完成之后通過選擇候選修正語音識別結(jié)果。該 系統(tǒng)針對無噪聲的朗讀語音,可以達到實時應(yīng)用并能夠修正大部分識別錯誤??偟膩碚f,現(xiàn) 有語音識別系統(tǒng)中的交互技術(shù)多數(shù)集中在對識別結(jié)果的修正上,缺乏利用多種交互手段, 以及利用交互信息進行自動學(xué)習(xí)的相關(guān)系統(tǒng)。在語音識別技術(shù)中,存在一種識別中的自動學(xué)習(xí)技術(shù),稱作模型自適應(yīng)技術(shù)。模型 自適應(yīng)技術(shù)又可分為聲學(xué)模型自適應(yīng)和語言模型自適應(yīng)。語音識別系統(tǒng)中的聲學(xué)模型是一 種估計某種聲學(xué)信號對應(yīng)某個發(fā)音的概率的模型。聲學(xué)模型自適應(yīng),主要是說話人自適應(yīng), 即根據(jù)不同的說話人的發(fā)音特點(包括其嗓音特點、發(fā)音習(xí)慣以及方言口音等),對基礎(chǔ)聲 學(xué)模型進行調(diào)整,以得到更適合當(dāng)前說話人的模型。按照自適應(yīng)訓(xùn)練過程有無監(jiān)督,自適應(yīng) 可以分為(1)有監(jiān)督自適應(yīng)自適應(yīng)訓(xùn)練過程中訓(xùn)練語音的內(nèi)容對于系統(tǒng)是已知的;(2) 無監(jiān)督自適應(yīng)自適應(yīng)訓(xùn)練過程中訓(xùn)練語音的內(nèi)容對于系統(tǒng)是未知的,需要由系統(tǒng)通過識 別獲得。顯然,有監(jiān)督自適應(yīng)由于語音與文本信息是已知的,因此對聲學(xué)模型的自適應(yīng)訓(xùn)練 更為可靠,其性能要遠遠優(yōu)于無監(jiān)督自適應(yīng),特別是在發(fā)音不夠標準的情況下。但由于很難 在識別的同時獲得準確的文本信息,因此現(xiàn)有語音識別系統(tǒng)中的聲學(xué)模型自適應(yīng)都以無監(jiān) 督自適應(yīng)為主。語音識別系統(tǒng)中的語言模型是一種估計某種發(fā)音對應(yīng)某個具體字或詞的概率的 模型。語言模型自適應(yīng)的基本思想是,根據(jù)不斷變化的應(yīng)用環(huán)境,不斷調(diào)整語言模型中各種 語言現(xiàn)象出現(xiàn)的概率,以適應(yīng)不同應(yīng)用環(huán)境各自的特征。與聲學(xué)模型自適應(yīng)類似,可根據(jù)語 料的可靠性將語言模型自適應(yīng)分為有監(jiān)督與無監(jiān)督自適應(yīng),前者采用的為可靠的文本,而 后者則動態(tài)的將系統(tǒng)識別結(jié)果作為自適應(yīng)語料。顯然,有監(jiān)督自適應(yīng)的效果要優(yōu)于無監(jiān)督 自適應(yīng),但由于一般的語音識別應(yīng)用在識別過程中很難得到標準答案,因此絕大多數(shù)系統(tǒng) 都采用無監(jiān)督自適應(yīng)。另外,對于同時存在多個說話人的語音,如廣播語音和會議語音,語音識別系統(tǒng)在 做語音識別和自適應(yīng)時還需要對說話人進行分割和跟蹤,以保證自適應(yīng)在同一個說話人的 語音上完成?,F(xiàn)有的語音識別系統(tǒng)都是通過系統(tǒng)自動識別來對說話人進行分割和跟蹤,這種識別不但消耗了大量的計算資源,而且其結(jié)果也不是很準確,錯誤的結(jié)果很可能導(dǎo)致系 統(tǒng)性能的惡化。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種交互式語音識別系統(tǒng)和方法。通過交互的方式,使得 語音識別系統(tǒng)輸出的候選越來越準確。為實現(xiàn)本發(fā)明的目的而提供的一種交互式語音識別系統(tǒng),所述系統(tǒng),包括聲學(xué)模 型和語言模型選擇模塊、語音語句提取模塊、語音識別模塊、候選生成與錯誤修正模塊和交 互模塊,其中所述聲學(xué)模型和語言模型選擇模塊,用于在語音識別開始前,根據(jù)通過交互模塊 輸入的待識別對象信息,為每個待識別對象選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個 識別過程選擇與之領(lǐng)域最相似的語言模型;所述語音語句提取模塊,用于在語音識別過程中,將整段語音信號切分成若干個 語音語句,然后再將每一個語音語句提取出來,送至語音識別模塊;所述語音識別模塊,用于根據(jù)選擇的聲學(xué)模型和語言模型為每個待識別對象開啟 一個識別線程,對語音語句提取模塊提取后得到的語音語句進行識別,并輸出中間識別結(jié) 果;所述字候選生成和錯誤修正模塊,用于根據(jù)漢語的語言特點,對所述識別中間結(jié) 果進行處理生成候選集,再根據(jù)通過所述交互模塊選擇的候選或輸入的正確數(shù)據(jù)來糾正識 別錯誤得到最終識別結(jié)果;所述交互模塊,用于將用戶輸入的數(shù)據(jù)發(fā)送給所述聲學(xué)模型和語言模型選擇模 塊,以及向用戶反饋所述字候選生成和錯誤修正模塊的識別結(jié)果。所述系統(tǒng),包括聲學(xué)模型和語言模型自適應(yīng)模塊,用于利用提取到的語音語句和對應(yīng)的最終識別 結(jié)果對聲學(xué)模型和語言模型進行有監(jiān)督自適應(yīng),并保存自適應(yīng)后的聲學(xué)模型和語言模型。對于待識別對象不夠穩(wěn)定和語音內(nèi)容涉及領(lǐng)域比較多變的應(yīng)用環(huán)境,所述聲學(xué)模 型和語言模型選擇模塊將為每個待識別對象都選擇相同的通用聲學(xué)模型和為整個識別過 程選擇通用語言模型。對于特定的識別對象,通過向所述交互模塊輸入該對象的姓名,所述聲學(xué)模型和 語言模型選擇模塊根據(jù)姓名為該對象選擇特定的聲學(xué)模型。在識別過程中當(dāng)待識別對象發(fā)生切換時,通過所述交互模塊指示所切換到的當(dāng)前 待識別對象,所述聲學(xué)模型和語言模型根據(jù)指導(dǎo)信息將提取到語音語句送到與當(dāng)前待識別 對象所對應(yīng)的識別線程進行識別。所述語音信號既可以是預(yù)先錄好的音頻文件,也可以是實時的語音信號;對于音 頻文件,采用端點檢測方法對音頻文件進行端點檢測提取所有的語音語句;對于實時的語 音信號,通過實時地采集說話人語音,并對采集到的語音進行端點檢測提取語音語句。對于實時的語音信號進行實時的識別,采用分段采集和緩沖池的方法,每采集一 段固定長的音頻就把它放到緩沖池中,同時只要緩沖池不為空就從緩存池中拿出一段音頻 進行端點檢測,音頻采集與端點檢測以同步的方式訪問緩沖池。
6
所述固定長的音頻的長度值為3秒。所述中間識別結(jié)果是詞網(wǎng)格,是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的 詞假設(shè),并用相應(yīng)的弧及相關(guān)的似然度得分來表示。所述字候選生成和錯誤修正模塊對所述詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò),對 該對齊網(wǎng)絡(luò)按字切分得到字候選,再從所述字候選列中查找正確的字來修正識別錯誤,或 者根據(jù)輸入的正確數(shù)據(jù)來修正識別錯誤。所述聲學(xué)模型和語言模型自適應(yīng)模塊,利用收集到的語音語料和對應(yīng)的修正后識 別結(jié)果,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng),該自適應(yīng)分為兩種在 線自適應(yīng),當(dāng)收集到的任何發(fā)言者的語音語料超過一定數(shù)量時,就為其對應(yīng)的聲學(xué)模型作 有監(jiān)督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有 監(jiān)督聲學(xué)模型自適應(yīng);同樣,利用收集到的所有發(fā)言者的修正后識別結(jié)果,對語言模型進行 有監(jiān)督自適應(yīng),該自適應(yīng)也分為兩種在線自適應(yīng),當(dāng)收集到的所有修正后識別結(jié)果超過一 定數(shù)量時,就為語言模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后,為語言模 型作有監(jiān)督聲學(xué)模型自適應(yīng)。當(dāng)自適應(yīng)結(jié)束后,所述語音識別模塊為自適應(yīng)得到的聲學(xué)模型和語言模型開啟新 的識別線程,并關(guān)閉自適應(yīng)前聲學(xué)模型和語言模型所對應(yīng)的識別線程。為實現(xiàn)本發(fā)明的目的,還提供一種交互式語音識別方法,所述方法,包括下列步 驟步驟100.在語音識別開始前,通過交互模塊輸入能反映待識別對象發(fā)音特點的 信息和將主要討論的主題信息;步驟200.根據(jù)所述輸入信息,聲學(xué)模型和語言模型選擇模塊為每個待識別對象 選擇最匹配的聲學(xué)模型和語言模型;步驟300.在語音識別過程中,語音信號經(jīng)語音語句提取模塊轉(zhuǎn)化為語音語句送 至語音識別模塊,語音識別模塊根據(jù)選擇的聲學(xué)模型和語言模型為每個待識別對象開啟一 個識別線程,對所述語音語句進行識別,并輸出中間識別結(jié)果,發(fā)送給候選生成與錯誤修正 模塊;步驟400.所述候選生成與錯誤修正模塊對所述中間識別結(jié)果進行處理生成候選 集;步驟500.用戶通過交互模塊選擇候選或者輸入正確數(shù)據(jù)來糾正識別錯誤得到最 終識別結(jié)果,并輸出最終識別結(jié)果。所述方法,包括步驟100’ .根據(jù)待識別對象的性別和地域口音預(yù)先訓(xùn)練多個聲學(xué)模型以及一個 通用聲學(xué)模型;并且根據(jù)不同的主題領(lǐng)域預(yù)先訓(xùn)練多個語言模型和一個通用語言模型。在步驟200中,對于待識別對象不夠穩(wěn)定和語音內(nèi)容涉及領(lǐng)域比較多變的應(yīng)用環(huán) 境,所述聲學(xué)模型和語言模型選擇模塊將為每個待識別對象都選擇相同的通用聲學(xué)模型和 為整個識別過程選擇通用語言模型。在步驟200中,通過輸入特定人的姓名,所述聲學(xué)模型和語言模型根據(jù)姓名為該 特定人選擇與之對應(yīng)的特定人聲學(xué)模型。在識別過程中當(dāng)待識別對象發(fā)生切換時,通過交互模塊指示所切換到的當(dāng)前待識
7別對象,所述聲學(xué)模型和語言模型根據(jù)指導(dǎo)信息將提取到語音語句送到與當(dāng)前待識別對象 所對應(yīng)的識別線程進行識別。在步驟300中,所述語音信號既可以是預(yù)先錄好的音頻文件,也可以是實時的語 音信號;對于音頻文件,采用端點檢測方法對音頻文件進行端點檢測提取所有的語音語句; 對于實時的語音信號,通過實時地采集說話人語音,并對采集到的語音進行端點檢測提取
語首語句。對于實時的語音信號進行實時的識別,采用分段采集和緩沖池的方法,每采集一 段固定長的音頻就把它放到緩沖池中,同時只要緩沖池不為空就從緩存池中拿出一段音頻 進行端點檢測,音頻采集與端點檢測以同步的方式訪問緩沖池。所述固定長的音頻的長度值為3秒。所述中間識別結(jié)果是詞網(wǎng)格,是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的 詞假設(shè),并用相應(yīng)的弧及相關(guān)的似然度得分來表示。所述字候選生成和錯誤修正模塊對所述詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò),對 該對齊網(wǎng)絡(luò)按字切分得到字候選,再從所述字候選列中查找正確的字來修正識別錯誤,或 者根據(jù)輸入的正確數(shù)據(jù)來修正識別錯誤。所述方法,還包括步驟步驟600.根據(jù)提取到的所述語音語句和對應(yīng)的最終識別結(jié)果對聲學(xué)模型和語言 模型進行有監(jiān)督自適應(yīng),并保存自適應(yīng)后的聲學(xué)模型和語言模型。所述步驟600中,利用收集到的語音語料和對應(yīng)的修正后識別結(jié)果,為每個發(fā)言 者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng),該自適應(yīng)分為兩種在線自適應(yīng),當(dāng)收集到 的任何發(fā)言者的語音語料超過一定數(shù)量時,就為其對應(yīng)的聲學(xué)模型作有監(jiān)督自適應(yīng);離線 自適應(yīng),在所有識別工作結(jié)束后,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適 應(yīng);同樣,利用收集到的所有發(fā)言者的修正后識別結(jié)果,對語言模型進行有監(jiān)督自適應(yīng),該 自適應(yīng)也分為兩種在線自適應(yīng),當(dāng)收集到的所有修正后識別結(jié)果超過一定數(shù)量時,就為語 言模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后,為語言模型作有監(jiān)督聲學(xué)模 型自適應(yīng)。所述步驟600中,當(dāng)自適應(yīng)結(jié)束后系統(tǒng)為自適應(yīng)得到的聲學(xué)模型和語言模型開啟 新的識別線程,并關(guān)閉自適應(yīng)前聲學(xué)模型和語言模型所對應(yīng)的識別線程。本發(fā)明的有益效果是1.本發(fā)明的交互式語音識別系統(tǒng)和方法,通過應(yīng)用大詞匯量連續(xù)語音識別技術(shù), 對說話人語音進行識別并給出識別候選,并采用交互方式選擇候選或從終端輸入正確數(shù)據(jù) 來修正識別錯誤;2.本發(fā)明的交互式語音識別系統(tǒng)和方法,根據(jù)指導(dǎo)信息和交互信息對聲學(xué)模型和 語言模型進行選擇和自適應(yīng),使得模型更加接近當(dāng)前說話人的發(fā)音特點和語音內(nèi)容,從而 使系統(tǒng)輸出的候選越來越準確;3.本發(fā)明的交互式語音識別系統(tǒng)和方法,是對當(dāng)前大詞匯量連續(xù)語音識別在實際 應(yīng)用中的發(fā)展和創(chuàng)新,具有重要的商業(yè)價值和產(chǎn)業(yè)應(yīng)用前景。同時,對語音識別在其他方向 (如實時字幕生成,圖書館音頻資料整理等)的應(yīng)用具有實際的借鑒意義。
圖1是本發(fā)明的交互式語音識別系統(tǒng)的結(jié)構(gòu)示意圖;圖2是本發(fā)明中對語音語句進行提取的示意圖;圖3是本發(fā)明中聲學(xué)模型和語言模型選擇及開啟識別服務(wù)的示意圖;圖4是本發(fā)明中字候選生成的示意圖;圖5是采用本發(fā)明的系統(tǒng)和方法的識別錯誤修正示意圖;圖6是采用本發(fā)明的系統(tǒng)和方法的聲學(xué)模型和語言模型自適應(yīng)的示意圖;圖7是本發(fā)明的交互式語音識別方法的步驟流程圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明的一種交互式語音識別系統(tǒng)和方法進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的 具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明的一種交互式語音識別系統(tǒng)和方法。其核心是通過應(yīng)用大詞匯量連續(xù)語音 識別技術(shù),對說話人語音進行識別并給出識別候選,并通過選擇候選或從系統(tǒng)輸入的方式 來修正識別錯誤。同時,還可針對當(dāng)前語音的特點給出一點的指導(dǎo)信息,使系統(tǒng)根據(jù)指導(dǎo)信 息和交互信息對聲學(xué)模型和語言模型進行選擇和自適應(yīng),使得模型更加接近當(dāng)前說話人的 發(fā)音特點和語音內(nèi)容,從而使系統(tǒng)輸出的候選越來越準確。這就相當(dāng)于把無監(jiān)督的自適應(yīng) 變成了有監(jiān)督的自適應(yīng),把非特定人的語音識別變成了準特定人的語音識別。下面結(jié)合上述目標詳細介紹本發(fā)明的交互式語音識別系統(tǒng),圖1是本發(fā)明的交互 式語音識別系統(tǒng)的結(jié)構(gòu)示意圖,如圖1所示,所述系統(tǒng)1,主要包括六個模塊聲學(xué)模型和語 言模型選擇模塊11、語音語句提取模塊12、語音識別模塊13、候選生成與錯誤修正模塊14, 聲學(xué)模型和語言模型自適應(yīng)模塊15和交互模塊16,其中所述聲學(xué)模型和語言模型選擇模塊11,用于根據(jù)輸入的待識別對象信息,為每個 待識別對象選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個識別過程選擇與之領(lǐng)域最相似 的語言模型;在大多數(shù)語音識別應(yīng)用場合中,語音識別的對象是比較固定的,且語音內(nèi)容涉及 的領(lǐng)域也是比較單一的,如使用語音識別對某一關(guān)于經(jīng)濟領(lǐng)域的會議進行會議記錄,該會 議中的識別對象會議參加者是比較固定的,并且會議語音內(nèi)容基本都是有關(guān)經(jīng)濟領(lǐng)域的話 題。因此在本發(fā)明的交互式語音識別系統(tǒng)中,采用聲學(xué)模型和語言模型選擇的方法為每個 識別對象選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個識別過程選擇與之領(lǐng)域最相似的 語言模型。所述語音語句提取模塊12,用于將輸入的整段語音信號切分成若干個語音語句, 然后再將每一個語音語句提取出來;圖2是本發(fā)明中對語音語句進行提取的示意圖,如圖2所示,在大詞匯量連續(xù)語音 識別中,一般識別的基本單元為一句話的語音。因此在對一整段語音進行識別成文字之前, 需要采用某種方法將整段語音切分成若干個語音語句,然后再將每一個語音語句提取出來 進行識別。所述語音識別模塊13,用于為每個待識別對象開啟一個識別線程,對語音語句提
9取模塊12提取后得到的語音語句進行識別;圖3是本發(fā)明中聲學(xué)模型和語言模型選擇及開啟識別服務(wù)的示意圖,如圖3所示, 識別線程所使用的聲學(xué)模型和語言模型為經(jīng)聲學(xué)模型和語言模型選擇模塊選擇后得到的 與識別對象對應(yīng)的聲學(xué)模型和語言模型。在開啟所有識別線程之后,語音識別模塊就對經(jīng) 語音語句提取模塊提取后得到的語音語句進行識別,并輸出識別結(jié)果。在該模塊中,語音識 別輸出的識別結(jié)果為詞網(wǎng)格,詞網(wǎng)格是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的詞 假設(shè),并用相應(yīng)的弧及相關(guān)的似然度得分來表示。在語音識別模塊中,對于每個識別對象的 語音語句都用與之對應(yīng)的識別線程進行識別。所述候選生成與錯誤修正模塊14,用于根據(jù)漢語的語言特點,對所述語音識別模 塊13生成的漢語詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò),對該對齊網(wǎng)絡(luò)按字切分得到字候 選;以及對于每處識別錯誤,從對應(yīng)候選列中查找正確的字來修正識別錯誤,或者通過輸入 正確的字來修正識別錯誤。圖4是本發(fā)明中字候選生成的示意圖,圖5是采用本發(fā)明的系統(tǒng)和方法的識別錯 誤修正示意圖,如圖4和圖5所示,在交互式語音識別系統(tǒng)中,候選生成是非常重要的一個 環(huán)節(jié),因為供選擇的候選的質(zhì)量直接影響著整個系統(tǒng)的性能和工作效率。在該模塊中,根據(jù) 漢語的語言特點,采用了一種基于字候選的漢語候選生成方法。該方法首先對語音識別模 塊生成的漢語詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò);然后,對該對齊網(wǎng)絡(luò)按字切分得到字 候選。使用該方法生成的候選滿足以下三個性質(zhì)(1)具有競爭關(guān)系的字候選排列在同一 字候選列中;(2)字候選列的排列順序和他們識別的先后時間一致;(3)每個字候選列中的 字候選按照他們在詞網(wǎng)格中的得分從大到小排列。在系統(tǒng)中,候選生成和錯誤修正模塊除 了提供候選生成的功能外,還提供了錯誤修正的功能。對于每處識別錯誤,先從對應(yīng)候選列 中查找正確的字,如果正確的字出現(xiàn)在候選列中,可通過選擇正確候選字來修正識別錯誤, 如果正確的字未出現(xiàn)在候選列中,則可通過輸入正確的字來修正識別錯誤。因此,修正后的 識別結(jié)果不包含任何錯誤。所述聲學(xué)模型和語言模型自適應(yīng)模塊15,用于利用修正性的交互信息,對所述聲 學(xué)模型和語言模型進行有監(jiān)督自適應(yīng)。圖6是采用本發(fā)明的系統(tǒng)和方法的聲學(xué)模型和語言模型自適應(yīng)的示意圖,如圖6 所示,在自動語音識別中,盡管有監(jiān)督聲學(xué)模型和語言模型自適應(yīng)的效果要好于無監(jiān)督自 適應(yīng),但是大多數(shù)系統(tǒng)采用的自適應(yīng)都為無監(jiān)督自適應(yīng),這主要是因為有監(jiān)督自適應(yīng)的已 知語料相對比較難獲得。不同于自動語音識別,在本發(fā)明的交互式語音識別系統(tǒng)中,系統(tǒng)對 所有語音語句識別生成的識別結(jié)果都會經(jīng)過修正,將識別結(jié)果中的錯誤修正過來。因此,在 交互式語音識別系統(tǒng)中,利用修正性的交互信息,可以對系統(tǒng)中的聲學(xué)模型和語言模型進 行有監(jiān)督自適應(yīng)。聲學(xué)模型和語言模型自適應(yīng)模塊就是利用交互信息對聲學(xué)模型和語言模 型進行有監(jiān)督自適應(yīng)。在該模塊中,首先為每個識別對象收集經(jīng)語音語句提取模塊提取后的語音語句, 以及收集對該語音語句識別并經(jīng)修正后的識別結(jié)果。然后,利用收集到的語音語料和對應(yīng) 的修正后識別結(jié)果,為每個識別對象所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng)。所述交互模塊16,用于將用戶的輸入信息發(fā)送給所述聲學(xué)模型和語言模型選擇模 塊11,以及向用戶反饋所述字候選生成和錯誤修正模塊14的識別結(jié)果。
10
如圖1所示,在語音識別開始前,通過交互模塊16向系統(tǒng)輸入能反映待識別對象 發(fā)音特點的信息,如性別、地域口音等信息,和輸入待識別對象將主要討論的主題信息,如 政治、經(jīng)濟、科技等信息;所述聲學(xué)模型和語言模型選擇模塊11根據(jù)輸入信息為每個待識 別對象選擇最匹配的聲學(xué)模型和語言模型。對于特定的識別對象,可以通過向系統(tǒng)輸入該 對象的姓名,根據(jù)姓名為該對象選擇特定的聲學(xué)模型。在為每個待識別對象選擇最匹配的 聲學(xué)模型和語言模型之后,所述語音識別模塊13根據(jù)選擇的聲學(xué)模型和語言模型為每個 待識別對象開啟一個識別線程。在語音識別過程中,語音信號經(jīng)語音語句提取模塊11轉(zhuǎn)化 為語句送至語音識別模塊13,語音識別模塊13生成識別中間結(jié)果詞網(wǎng)格,所述字候選生成 和錯誤修正模塊14對識別中間結(jié)果詞網(wǎng)格進行處理生成候選,通過選擇候選或終端輸入 來糾正識別錯誤得到最終識別結(jié)果。同時,所述聲學(xué)模型和語言模型自適應(yīng)模塊15利用提 取到的語音語句和對應(yīng)的最終識別結(jié)果對聲學(xué)模型和語言模型進行有監(jiān)督自適應(yīng),并保存 自適應(yīng)后的聲學(xué)模型和語言模型。相應(yīng)于本發(fā)明的交互式語音識別系統(tǒng),還提供一種交互式語音識別方法,圖7是 本發(fā)明的交互式語音識別方法的步驟流程圖,如圖7所示,所述方法,包括下列步驟步驟100’ .系統(tǒng)根據(jù)待識別對象的性別和地域口音預(yù)先訓(xùn)練多個聲學(xué)模型以及 一個通用聲學(xué)模型;并且根據(jù)不同的主題領(lǐng)域預(yù)先訓(xùn)練多個語言模型和一個通用語言模 型;如圖3所示,作為一種可實施方式,本發(fā)明的交互式語音識別系統(tǒng)根據(jù)待識別對 象的性別和地域口音預(yù)先訓(xùn)練多個聲學(xué)模型(如北方男聲聲學(xué)模型、北方女聲聲學(xué)模型、 南方男聲聲學(xué)模型、南方女聲聲學(xué)模型等)以及一個通用聲學(xué)模型;并且根據(jù)不同的主題 領(lǐng)域預(yù)先訓(xùn)練多個語言模型(如有關(guān)政治主題的語言模型、有關(guān)經(jīng)濟主題的語言模型、有 關(guān)科技主題的語言模型、有關(guān)體育主題的語言模型等)和一個通用語言模型。步驟100.在語音識別開始前,輸入能反映待識別對象發(fā)音特點的信息和將主要 討論的主題信息;步驟200.根據(jù)所述輸入信息,聲學(xué)模型和語言模型選擇模塊為每個待識別對象 選擇最匹配的聲學(xué)模型和語言模型,并為每個待識別對象開啟一個識別線程;在語音識別開始前,針對發(fā)言者比較固定和語音內(nèi)容比較單一的應(yīng)用環(huán)境,向系 統(tǒng)輸入所有待發(fā)言者的地域口音和性別信息以及將要談?wù)摰念I(lǐng)域信息,系統(tǒng)根據(jù)輸入的信 息為每個待發(fā)言者選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個識別過程選擇與之領(lǐng)域 最相似的語言模型。否則,對于發(fā)言者不夠穩(wěn)定和語音內(nèi)容涉及領(lǐng)域比較多變的應(yīng)用環(huán)境, 系統(tǒng)將為每個發(fā)言者都選擇相同的通用聲學(xué)模型和為整個識別過程選擇通用語言模型。較佳地,系統(tǒng)還可以為某些特定的人訓(xùn)練一個特定人聲學(xué)模型,通過向系統(tǒng)輸入 特定人的姓名,系統(tǒng)根據(jù)姓名為該特定人選擇與之對應(yīng)的特定人聲學(xué)模型。在選擇完聲學(xué) 模型和語言模型后,系統(tǒng)為每個待發(fā)言者開啟一個識別線程,識別線程所使用的聲學(xué)模型 和語言模型為經(jīng)聲學(xué)模型和語言模型選擇模塊選擇后得到的與發(fā)言者對應(yīng)的聲學(xué)模型和 語言模型。在識別過程中,對每個發(fā)言者的語音語句都用與之對應(yīng)的識別線程進行識別。當(dāng)在識別過程中當(dāng)發(fā)言者發(fā)生切換時,向系統(tǒng)指示所切換到的當(dāng)前發(fā)言者,系統(tǒng) 根據(jù)指導(dǎo)信息將提取到語音語句送到與當(dāng)前發(fā)言者所對應(yīng)的識別線程進行識別。步驟300.在語音識別過程中,語音信號經(jīng)語音語句提取模塊轉(zhuǎn)化為語音語句送至語音識別模塊,語音識別模塊生成識別中間結(jié)果詞網(wǎng)格,發(fā)送給候選生成與錯誤修正模 塊;如圖2所示,在大詞匯量連續(xù)語音識別中,一般識別的基本單元為一句話的語音。 因此在對一整段語音進行識別成文字之前,需要采用某種方法將整段語音切分成若干個語 音語句,然后再將每一個語音語句提取出來進行識別。作為一種可實施方式,在本發(fā)明的方 法中,發(fā)言者的語音輸入既可以是事先錄好的音頻文件輸入,又可以是實時的語音輸入。對 于音頻文件輸入,本發(fā)明直接采用端點檢測方法對輸入的音頻文件進行端點檢測提取所有 的語音語句;對于實時的語音輸入,本發(fā)明實時地采集說話人語音,并對采集到的語音進行 端點檢測提取語音語句。在一些實時應(yīng)用中,要求對實時輸入的語音進行實時的識別,這就要求系統(tǒng)能夠 對實時輸入的語音實時地提取語音語句。因此,為了能夠滿足實時地提取語音語句,本發(fā)明 采用分段采集和緩沖池的方法,即每采集一段固定長的音頻就把它放到緩沖池中,同時只 要緩沖池不為空就從緩存池中拿出一段音頻進行端點檢測,音頻采集與端點檢測以同步的 方式訪問緩沖池。然而,音頻固定長度的設(shè)定問題成了關(guān)鍵,長度過長使得端點檢測等待時 間過長而影響實時性,長度過短使得端點檢測做了過多的無用檢測從而降低系統(tǒng)資源的利 用率。本發(fā)明設(shè)定的長度值為3秒,因為根據(jù)實驗的統(tǒng)計大部分一句話都在3秒鐘內(nèi)。步驟400.所述候選生成與錯誤修正模塊對所述中間結(jié)果詞網(wǎng)格進行處理生成候 選集;如圖4所示,作為一種可實施方式,本發(fā)明采用一種基于字候選的漢語候選生成 方法來生成字候選。該方法首先對語音識別模塊生成的中間結(jié)果詞網(wǎng)格中的弧對齊生成一 個對齊網(wǎng)絡(luò);然后,對該對齊網(wǎng)絡(luò)按字切分得到字候選。圖4(a)表示為漢語詞網(wǎng)格,詞網(wǎng)格 是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的詞假設(shè),并用相應(yīng)的弧及相關(guān)的似然度 得分來表示,其中每條弧都可用一個五元組{S,F(xiàn),W,A,L}來表示,其中S表示弧的起始時 間,F(xiàn)表示弧的結(jié)束時間,W表示弧上對應(yīng)的詞假設(shè),A表示弧的聲學(xué)概率得分,L表示弧的 語言概率得分。將滿足以下兩個條件的弧對齊為一類(1)弧上對應(yīng)詞假設(shè)的最后一個漢 字存在語音相似。(2)弧之間存在時間重疊。圖4(b)為對圖4(a)中的漢語詞網(wǎng)格對齊后 得到的對齊網(wǎng)絡(luò),圖中每類詞假設(shè)中的最后一個漢字都具有語音相似性,且對應(yīng)弧都具有 時間重疊性。在得到對齊網(wǎng)絡(luò)的基礎(chǔ)上,對對齊網(wǎng)絡(luò)按字切分。首先從第一類開始切分,當(dāng) 某一類中的詞假設(shè)由多個漢字組成時,則將倒數(shù)第二個漢字切分到前一類,倒數(shù)第三個漢 字切分到前前一類,按該方式切分下去直到剩下最后一個漢字。圖4(c)為圖4(b)中的對 齊網(wǎng)絡(luò)按字切分得到的字候選。在得到的字候選中,每個字都具有語音相似性。步驟500.用戶通過交互模塊選擇候選或者輸入來糾正識別錯誤得到最終識別結(jié) 果,并輸出識別文本。如圖5所示,在交互式語音識別系統(tǒng)中,首先通過選擇候選集中的字候選來修正 識別錯誤,如圖5所示,通過選擇“的”來修正識別錯誤“得”。在通過選擇字候選修正識別 錯誤后,對于那些不能通過選擇字候選進行修正的識別錯誤,可輸入正確的字來修正識別 錯誤,如在圖5中通過輸入“方”來修正識別錯誤“防”。最后得到完全正確的識別結(jié)果。較佳地,所述方法,還包括步驟步驟600.根據(jù)提取到的所述語音語句和對應(yīng)的最終識別結(jié)果對聲學(xué)模型和語言
12模型進行有監(jiān)督自適應(yīng),并保存自適應(yīng)后的聲學(xué)模型和語言模型。如圖6所示,在交互式語音識別系統(tǒng)中,發(fā)言者的語音經(jīng)語音語句提取模塊提取 后得到的語音語句一路經(jīng)語音識別模塊一候選生成與錯誤修正模塊得到最終識別結(jié)果,另 一路與對應(yīng)的最終識別結(jié)果一起供系統(tǒng)進行聲學(xué)模型和語言模型自適應(yīng)。作為一種可實 施方式,在本發(fā)明的交互式語音識別系統(tǒng)中,系統(tǒng)為每個發(fā)言者收集經(jīng)語音語句提取模塊 提取后的語音語句,以及對該語音語句識別并經(jīng)修正后的識別結(jié)果;然后,利用收集到的語 音語料和對應(yīng)的修正后識別結(jié)果,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適 應(yīng),該自適應(yīng)分為兩種在線自適應(yīng),當(dāng)收集到的任何發(fā)言者的語音語料超過一定數(shù)量時, 就為其對應(yīng)的聲學(xué)模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后,為每個發(fā)言 者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng)。同樣,利用收集到的所有發(fā)言者的修正后 識別結(jié)果,對語言模型進行有監(jiān)督自適應(yīng),該自適應(yīng)也分為兩種在線自適應(yīng),當(dāng)收集到的 所有修正后識別結(jié)果超過一定數(shù)量時,就為語言模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所有 識別工作結(jié)束后,為語言模型作有監(jiān)督聲學(xué)模型自適應(yīng)。對于在線的聲學(xué)模型和語言模型 自適應(yīng),當(dāng)自適應(yīng)結(jié)束后系統(tǒng)為自適應(yīng)得到的聲學(xué)模型和語言模型開啟新的識別線程,并 關(guān)閉自適應(yīng)前聲學(xué)模型和語言模型所對應(yīng)的識別線程。無論是在線自適應(yīng)還是離線自適 應(yīng),系統(tǒng)都將保留自適應(yīng)后的聲學(xué)模型并與對應(yīng)的識別對象姓名建立對應(yīng)關(guān)系,當(dāng)以后再 出現(xiàn)該識別對象時只需輸入識別對象姓名就可以選擇該自適應(yīng)后的聲學(xué)模型。下面以使用本發(fā)明中的交互式語音識別系統(tǒng)對會議進行會議記錄為例詳細說明 本發(fā)明。例如某次會議有4個會議參加者,其中王某,男性,北方人;劉某,女性,北方人;謝 某,男性,南方人;張某,女性,南方人。此次會議的主題是有關(guān)經(jīng)濟領(lǐng)域的一個研討會。使 用本發(fā)明中的交互式語音識別系統(tǒng)對本次會議進行會議記錄。目前系統(tǒng)具有5個聲學(xué)模型(北方男性聲學(xué)模型,北方女性聲學(xué)模型,南方男性聲 學(xué)模型,南方女性聲學(xué)模型,以及一個通用聲學(xué)模型)和4個語言模型(有關(guān)政治領(lǐng)域語言 模型,有關(guān)經(jīng)濟領(lǐng)域語言模型,有關(guān)科技領(lǐng)域語言模型,以及一個通用語言模型)。在會議開 始前,向系統(tǒng)輸入4個會議參加者的信息(如,王某,男,北方口音)和本次會議主題領(lǐng)域經(jīng) 濟,系統(tǒng)根據(jù)輸入的信息為王某選擇北方男性聲學(xué)模型,為劉某選擇北方女性聲學(xué)模型,為 謝某選擇南方男性聲學(xué)模型,為張某選擇南方女性聲學(xué)模型,并且為所有參加者都選擇有 關(guān)經(jīng)濟領(lǐng)域語言模型。在選擇完模型后,系統(tǒng)為每個會議參加者開啟一個識別線程,等待識 別。在會議中,王某首先進行了發(fā)言,系統(tǒng)啟動北方男性聲學(xué)模型對應(yīng)的線程接受語 音進行識別。王某的第一句話為“大家上午好”,系統(tǒng)分別采集了三段音頻,系統(tǒng)對該三段音 頻進行端點檢測,在第二段中檢測到了這句話的語音起始點,在第三段中檢測到了這句話 的語音結(jié)束點。系統(tǒng)根據(jù)檢測到起始點和結(jié)束點提取該句語音語句,提取到的語音語句一 方面送給王某對應(yīng)的識別線程進行識別,一方面保存到系統(tǒng)中。王某對應(yīng)的識別線程對該 語音語句識別后生成漢語詞網(wǎng)格,系統(tǒng)采用字候選生成方法對該詞網(wǎng)格生成候選集如下大家商務(wù)好打架上午力卩晌通過選擇第二列字候選中的“上”,和第三列字候選中的“午”來修正識別錯誤,最終得到正確識別結(jié)果。對于得到的最終識別結(jié)果一方面輸出得到會議記錄,一方面保存到 系統(tǒng)中。在會議中,王某發(fā)言結(jié)束后,謝某進行了發(fā)言,立即通過交互模塊向系統(tǒng)指示當(dāng)前 發(fā)言人為謝某。此后,系統(tǒng)對謝某的發(fā)言提取到的語音語句會發(fā)送到謝某所對應(yīng)的識別線 程進行識別。同樣,系統(tǒng)一方面輸出最終識別結(jié)果得到會議記錄,一方面保存謝某的語音語 句和對應(yīng)最終識別結(jié)果。在會議中,當(dāng)系統(tǒng)為王某保存的語音語句超過一定量時,系統(tǒng)利用王某的語音語 句和對應(yīng)的最終識別結(jié)果對王某所對應(yīng)的北方男性聲學(xué)模型做有監(jiān)督自適應(yīng)。并為自適應(yīng) 后得到的北方男性聲學(xué)模型開啟識別線程,同時關(guān)閉王某先前對應(yīng)的識別線程。此后,王某 的語音語句都由新開啟的識別線程識別。在會議中,當(dāng)系統(tǒng)為所有會議參加者保存的最終識別結(jié)果(以句為單位)超過一 定量時,系統(tǒng)利用保存的所有參加者的識別結(jié)果對有關(guān)經(jīng)濟領(lǐng)域語言模型做有監(jiān)督自適 應(yīng)。利用自適應(yīng)得到的語言模型為所有會議參加者開啟新的識別線程,關(guān)閉先前的識別線程。此外,也可以在會議結(jié)束后再為所有會議參加者做聲學(xué)模型有監(jiān)督自適應(yīng),為有 關(guān)經(jīng)濟領(lǐng)域語言模型做有監(jiān)督自適應(yīng)。最后,保存王某、劉某、謝某、張某的自適應(yīng)后聲學(xué)模型,并分別與他們的姓名建立 對應(yīng)關(guān)系。本發(fā)明的有益效果在于1.本發(fā)明的交互式語音識別系統(tǒng)和方法,通過應(yīng)用大詞匯量連續(xù)語音識別技術(shù), 對說話人語音進行識別并給出識別候選,并采用交互方式選擇候選或從終端輸入正確數(shù)據(jù) 來修正識別錯誤;2.本發(fā)明的交互式語音識別系統(tǒng)和方法,根據(jù)指導(dǎo)信息和交互信息對聲學(xué)模型和 語言模型進行選擇和自適應(yīng),使得模型更加接近當(dāng)前說話人的發(fā)音特點和語音內(nèi)容,從而 使系統(tǒng)輸出的候選越來越準確;3.本發(fā)明的交互式語音識別系統(tǒng)和方法,是對當(dāng)前大詞匯量連續(xù)語音識別在實際 應(yīng)用中的發(fā)展和創(chuàng)新,具有重要的商業(yè)價值和產(chǎn)業(yè)應(yīng)用前景。同時,對語音識別在其他方向 (如實時字幕生成,圖書館音頻資料整理等)的應(yīng)用具有實際的借鑒意義。通過結(jié)合附圖對本發(fā)明具體實施例的描述,本發(fā)明的其它方面及特征對本領(lǐng)域的 技術(shù)人員而言是顯而易見的。以上對本發(fā)明的具體實施例進行了描述和說明,這些實施例應(yīng)被認為其只是示例 性的,并不用于對本發(fā)明進行限制,本發(fā)明應(yīng)根據(jù)所附的權(quán)利要求進行解釋。
權(quán)利要求
一種交互式語音識別系統(tǒng),其特征在于,所述系統(tǒng),包括聲學(xué)模型和語言模型選擇模塊、語音語句提取模塊、語音識別模塊、候選生成與錯誤修正模塊和交互模塊,其中所述聲學(xué)模型和語言模型選擇模塊,用于在語音識別開始前,根據(jù)通過交互模塊輸入的待識別對象信息,為每個待識別對象選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個識別過程選擇與之領(lǐng)域最相似的語言模型;所述語音語句提取模塊,用于在語音識別過程中,將整段語音信號切分成若干個語音語句,然后再將每一個語音語句提取出來,送至語音識別模塊;所述語音識別模塊,用于根據(jù)選擇的聲學(xué)模型和語言模型為每個待識別對象開啟一個識別線程,對語音語句提取模塊提取后得到的語音語句進行識別,并輸出中間識別結(jié)果;所述字候選生成和錯誤修正模塊,用于根據(jù)漢語的語言特點,對所述識別中間結(jié)果進行處理生成候選集,再根據(jù)通過所述交互模塊選擇的候選或輸入的正確數(shù)據(jù)來糾正識別錯誤得到最終識別結(jié)果;所述交互模塊,用于將用戶輸入的數(shù)據(jù)發(fā)送給所述聲學(xué)模型和語言模型選擇模塊,以及向用戶反饋所述字候選生成和錯誤修正模塊的識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,所述系統(tǒng),包括聲學(xué)模型和語言模型自適應(yīng)模塊,用于利用提取到的語音語句和對應(yīng)的最終識別結(jié)果 對聲學(xué)模型和語言模型進行有監(jiān)督自適應(yīng),并保存自適應(yīng)后的聲學(xué)模型和語言模型。
3.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,對于待識別對象不夠穩(wěn) 定和語音內(nèi)容涉及領(lǐng)域比較多變的應(yīng)用環(huán)境,所述聲學(xué)模型和語言模型選擇模塊將為每個 待識別對象都選擇相同的通用聲學(xué)模型和為整個識別過程選擇通用語言模型。
4.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,對于特定的識別對象,通 過向所述交互模塊輸入該對象的姓名,所述聲學(xué)模型和語言模型選擇模塊根據(jù)姓名為該對 象選擇特定的聲學(xué)模型。
5.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,在識別過程中當(dāng)待識別 對象發(fā)生切換時,通過所述交互模塊指示所切換到的當(dāng)前待識別對象,所述聲學(xué)模型和語 言模型根據(jù)指導(dǎo)信息將提取到語音語句送到與當(dāng)前待識別對象所對應(yīng)的識別線程進行識 別。
6.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,所述語音信號既可以是 預(yù)先錄好的音頻文件,也可以是實時的語音信號;對于音頻文件,采用端點檢測方法對音頻 文件進行端點檢測提取所有的語音語句;對于實時的語音信號,通過實時地采集說話人語 音,并對采集到的語音進行端點檢測提取語音語句。
7.根據(jù)權(quán)利要求6所述的交互式語音識別系統(tǒng),其特征在于,對于實時的語音信號進 行實時的識別,采用分段采集和緩沖池的方法,每采集一段固定長的音頻就把它放到緩沖 池中,同時只要緩沖池不為空就從緩存池中拿出一段音頻進行端點檢測,音頻采集與端點 檢測以同步的方式訪問緩沖池。
8.根據(jù)權(quán)利要求7所述的交互式語音識別系統(tǒng),其特征在于,所述固定長的音頻的長 度值為3秒。
9.根據(jù)權(quán)利要求1所述的交互式語音識別系統(tǒng),其特征在于,所述中間識別結(jié)果是詞 網(wǎng)格,是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的詞假設(shè),并用相應(yīng)的弧及相關(guān)的似然度得分來表示。
10.根據(jù)權(quán)利要求9所述的交互式語音識別系統(tǒng),其特征在于,所述字候選生成和錯 誤修正模塊對所述詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò),對該對齊網(wǎng)絡(luò)按字切分得到字候 選,再從所述字候選列中查找正確的字來修正識別錯誤,或者根據(jù)輸入的正確數(shù)據(jù)來修正 識別錯誤。
11.根據(jù)權(quán)利要求2所述的交互式語音識別系統(tǒng),其特征在于,所述聲學(xué)模型和語言模 型自適應(yīng)模塊,利用收集到的語音語料和對應(yīng)的修正后識別結(jié)果,為每個發(fā)言者所對應(yīng)的 聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng),該自適應(yīng)分為兩種在線自適應(yīng),當(dāng)收集到的任何發(fā)言 者的語音語料超過一定數(shù)量時,就為其對應(yīng)的聲學(xué)模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所 有識別工作結(jié)束后,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng);同樣,利用 收集到的所有發(fā)言者的修正后識別結(jié)果,對語言模型進行有監(jiān)督自適應(yīng),該自適應(yīng)也分為 兩種在線自適應(yīng),當(dāng)收集到的所有修正后識別結(jié)果超過一定數(shù)量時,就為語言模型作有監(jiān) 督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后,為語言模型作有監(jiān)督聲學(xué)模型自適應(yīng)。
12.根據(jù)權(quán)利要求2所述的交互式語音識別系統(tǒng),其特征在于,當(dāng)自適應(yīng)結(jié)束后,所述 語音識別模塊為自適應(yīng)得到的聲學(xué)模型和語言模型開啟新的識別線程,并關(guān)閉自適應(yīng)前聲 學(xué)模型和語言模型所對應(yīng)的識別線程。
13.一種交互式語音識別方法,其特征在于,所述方法,包括下列步驟步驟100.在語音識別開始前,通過交互模塊輸入能反映待識別對象發(fā)音特點的信息 和將主要討論的主題信息;步驟200.根據(jù)所述輸入信息,聲學(xué)模型和語言模型選擇模塊為每個待識別對象選擇 最匹配的聲學(xué)模型和語言模型;步驟300.在語音識別過程中,語音信號經(jīng)語音語句提取模塊轉(zhuǎn)化為語音語句送至語 音識別模塊,語音識別模塊根據(jù)選擇的聲學(xué)模型和語言模型為每個待識別對象開啟一個識 別線程,對所述語音語句進行識別,并輸出中間識別結(jié)果,發(fā)送給候選生成與錯誤修正模 塊;步驟400.所述候選生成與錯誤修正模塊對所述中間識別結(jié)果進行處理生成候選集;步驟500.用戶通過交互模塊選擇候選或者輸入正確數(shù)據(jù)來糾正識別錯誤得到最終識 別結(jié)果,并輸出最終識別結(jié)果。
14.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,所述方法,包括步驟100’ .根據(jù)待識別對象的性別和地域口音預(yù)先訓(xùn)練多個聲學(xué)模型以及一個通用聲學(xué)模型;并且根據(jù)不同的主題領(lǐng)域預(yù)先訓(xùn)練多個語言模型和一個通用語言模型。
15.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,在步驟200中,對于待 識別對象不夠穩(wěn)定和語音內(nèi)容涉及領(lǐng)域比較多變的應(yīng)用環(huán)境,所述聲學(xué)模型和語言模型選 擇模塊將為每個待識別對象都選擇相同的通用聲學(xué)模型和為整個識別過程選擇通用語言 模型。
16.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,在步驟200中,通過輸 入特定人的姓名,所述聲學(xué)模型和語言模型根據(jù)姓名為該特定人選擇與之對應(yīng)的特定人聲 學(xué)模型。
17.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,在識別過程中當(dāng)待識別對象發(fā)生切換時,通過交互模塊指示所切換到的當(dāng)前待識別對象,所述聲學(xué)模型和語言 模型根據(jù)指導(dǎo)信息將提取到語音語句送到與當(dāng)前待識別對象所對應(yīng)的識別線程進行識別。
18.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,在步驟300中,所述語 音信號既可以是預(yù)先錄好的音頻文件,也可以是實時的語音信號;對于音頻文件,采用端點 檢測方法對音頻文件進行端點檢測提取所有的語音語句;對于實時的語音信號,通過實時 地采集說話人語音,并對采集到的語音進行端點檢測提取語音語句。
19.根據(jù)權(quán)利要求18所述的交互式語音識別方法,其特征在于,對于實時的語音信號 進行實時的識別,采用分段采集和緩沖池的方法,每采集一段固定長的音頻就把它放到緩 沖池中,同時只要緩沖池不為空就從緩存池中拿出一段音頻進行端點檢測,音頻采集與端 點檢測以同步的方式訪問緩沖池。
20.根據(jù)權(quán)利要求19所述的交互式語音識別方法,其特征在于,所述固定長的音頻的 長度值為3秒。
21.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,所述中間識別結(jié)果是 詞網(wǎng)格,是一個定向無環(huán)圖,它包含大量識別過程中產(chǎn)生的詞假設(shè),并用相應(yīng)的弧及相關(guān)的 似然度得分來表示。
22.根據(jù)權(quán)利要求21所述的交互式語音識別方法,其特征在于,所述字候選生成和錯 誤修正模塊對所述詞網(wǎng)格中的弧對齊生成一個對齊網(wǎng)絡(luò),對該對齊網(wǎng)絡(luò)按字切分得到字候 選,再從所述字候選列中查找正確的字來修正識別錯誤,或者根據(jù)輸入的正確數(shù)據(jù)來修正 識別錯誤。
23.根據(jù)權(quán)利要求13所述的交互式語音識別方法,其特征在于,所述方法,還包括步驟步驟600.根據(jù)提取到的所述語音語句和對應(yīng)的最終識別結(jié)果對聲學(xué)模型和語言模型 進行有監(jiān)督自適應(yīng),并保存自適應(yīng)后的聲學(xué)模型和語言模型。
24.根據(jù)權(quán)利要求23所述的交互式語音識別方法,其特征在于,所述步驟600中,利用 收集到的語音語料和對應(yīng)的修正后識別結(jié)果,為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲 學(xué)模型自適應(yīng),該自適應(yīng)分為兩種在線自適應(yīng),當(dāng)收集到的任何發(fā)言者的語音語料超過一 定數(shù)量時,就為其對應(yīng)的聲學(xué)模型作有監(jiān)督自適應(yīng);離線自適應(yīng),在所有識別工作結(jié)束后, 為每個發(fā)言者所對應(yīng)的聲學(xué)模型作有監(jiān)督聲學(xué)模型自適應(yīng);同樣,利用收集到的所有發(fā)言 者的修正后識別結(jié)果,對語言模型進行有監(jiān)督自適應(yīng),該自適應(yīng)也分為兩種在線自適應(yīng), 當(dāng)收集到的所有修正后識別結(jié)果超過一定數(shù)量時,就為語言模型作有監(jiān)督自適應(yīng);離線自 適應(yīng),在所有識別工作結(jié)束后,為語言模型作有監(jiān)督聲學(xué)模型自適應(yīng)。
25.根據(jù)權(quán)利要求23所述的交互式語音識別方法,其特征在于,所述步驟600中,當(dāng)自 適應(yīng)結(jié)束后系統(tǒng)為自適應(yīng)得到的聲學(xué)模型和語言模型開啟新的識別線程,并關(guān)閉自適應(yīng)前 聲學(xué)模型和語言模型所對應(yīng)的識別線程。
全文摘要
本發(fā)明公開了一種交互式語音識別系統(tǒng),包括聲學(xué)模型和語言模型選擇模塊,用于根據(jù)待識別對象信息,為其選擇與之發(fā)音特點最相似的聲學(xué)模型和為整個識別過程選擇與之領(lǐng)域最相似的語言模型;語音語句提取模塊,用于將整段語音信號切分成若干個語音語句并提取出來,送至語音識別模塊;語音識別模塊,用于對語音語句提取模塊提取后得到的語音語句進行識別,并輸出中間識別結(jié)果;字候選生成和錯誤修正模塊,用于對所述識別中間結(jié)果進行處理生成候選集,再根據(jù)選擇的候選或輸入的正確數(shù)據(jù)來糾正識別錯誤得到最終識別結(jié)果;交互模塊,用于將用戶輸入的數(shù)據(jù)發(fā)送給聲學(xué)模型和語言模型選擇模塊,以及向用戶反饋所述字候選生成和錯誤修正模塊的識別結(jié)果。
文檔編號G10L15/00GK101923854SQ20101026930
公開日2010年12月22日 申請日期2010年8月31日 優(yōu)先權(quán)日2010年8月31日
發(fā)明者李新輝, 林守勛, 王向東, 錢躍良 申請人:中國科學(xué)院計算技術(shù)研究所