聲學(xué)建模方法及裝置和語音識別方法及裝置制造方法
【專利摘要】本發(fā)明提供一種用于噪聲環(huán)境下的語音輸入的聲學(xué)建模方法,包括以下步驟:使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料;以及通過使用所述加噪語料進行聲學(xué)模型訓(xùn)練,建立加噪語料的聲學(xué)模型。本發(fā)明還提供一種用于噪聲環(huán)境下的語音輸入的聲學(xué)建模裝置以及用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別方法和裝置。本發(fā)明可以提高噪聲環(huán)境下語音識別的準確度和效率。
【專利說明】聲學(xué)建模方法及裝置和語音識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于噪聲環(huán)境下的語音識別技術(shù),特別是涉及用于噪聲環(huán)境下的語音輸入的聲學(xué)建模方法及裝置、語音識別方法及裝置。
【背景技術(shù)】
[0002]語音識別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪聲、傳輸信道等等。為了提高語音識別系統(tǒng)的性能,其解決辦法按針對語音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)分為兩類。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上加入一些特定的處理方法。后者是利用少量的自適應(yīng)語料來修正或變換原有的聲學(xué)模型,從而提高聲學(xué)模型的自適應(yīng)性。
[0003]目前,現(xiàn)有的語音識別系統(tǒng)的適應(yīng)性較差,主要體現(xiàn)在對環(huán)境依賴性強,即在單一噪聲環(huán)境下采集到的語音數(shù)據(jù)經(jīng)過訓(xùn)練后只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降。
[0004]另外,還提出有采用對噪聲的特性進行估計,例如噪聲譜估計等,去除語音數(shù)據(jù)的噪聲信號的方法。但這種方法對復(fù)雜的噪聲環(huán)境下的語音數(shù)據(jù)的識別效果不佳。
[0005]目前,現(xiàn)有的語音識別系統(tǒng)對安靜環(huán)境下的語音數(shù)據(jù)的識別性能較佳,但對噪聲環(huán)境下的語音數(shù)據(jù)的識別性能則明顯下降。對于語音輸入及搜索系統(tǒng),其輸入的語音噪聲情況復(fù)雜多變,且由于語音輸入及搜索等任務(wù)需要實時對語音進行識別,現(xiàn)有的語音識別方法難以實現(xiàn)良好的識別效果。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的發(fā)明人鑒于上述現(xiàn)有技術(shù)問題而完成了本發(fā)明。本發(fā)明的目的在于,提供一種適用于語音輸入或語音搜索系統(tǒng)的可有效地提高噪聲環(huán)境下的語音識別性能的聲學(xué)建模方法及裝置。
[0007]為了解決上述技術(shù)問題,本發(fā)明采用了如下技術(shù)手段。
[0008]本發(fā)明的一種用于噪聲環(huán)境下的語音輸入的聲學(xué)建模方法,包括以下步驟:使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料;以及通過使用所述加噪語料進行聲學(xué)模型訓(xùn)練,建立加噪語料的聲學(xué)模型。
[0009]另外,在所述聲學(xué)建模方法中,在所述使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的步驟之前還包括:采集各種噪聲環(huán)境下的非標準語料來構(gòu)成非標準語料集合;通過對所述非標準語料進行語音端點檢測來截取所述非標準語料的非語音段;以及將所述非語音段拼接為純噪聲段。
[0010]另外,在所述聲學(xué)建模方法中,所述純噪聲段是預(yù)先錄制的非語音段。
[0011]另外,在所述聲學(xué)建模方法中,所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理的步驟進一步包括:從所述標準語料集合中隨機選取標準語料并取得其時長;在所述純噪聲段中隨機截取與所述時長相等的噪聲片段;以及將所述截取出的噪聲片段與所述選取出的標準語料進行信號疊加而形成經(jīng)加噪處理的標準語料。
[0012]另外,在所述聲學(xué)建模方法中,在所述將所述非語音段拼接為純噪聲段的步驟之前還包括從所有的所述非語音段中篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段的步驟。
[0013]另外,在所述聲學(xué)建模方法中,所述非標準語料集合的所述非標準語料僅是僅是在噪音環(huán)境下采集的語音數(shù)據(jù);所述標準語料集合的所述標準語料包括文本數(shù)據(jù)和在安靜環(huán)境下采集的與所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù)。
[0014]另外,在所述聲學(xué)建模方法中,所述純噪聲段使用一個所述非語音段重復(fù)拼接而成。
[0015]另外,在所述聲學(xué)建模方法中,所述純噪聲段使用多個所述非語音段連續(xù)拼接而成。
[0016]另外,在所述聲學(xué)建模方法中,在所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的步驟中,根據(jù)所述非標準語料中非語音段與語音段之間的信號強度比例作為參數(shù)來確定所述純噪聲段對標準語料集合中的標準語料進行加噪處理時的加噪信號強度。
[0017]本發(fā)明的另一種方式是用于噪聲環(huán)境下的語音輸入的聲學(xué)建模裝置,包括:用于使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元;以及用于通過使用所述加噪語料進行聲學(xué)模型訓(xùn)練來建立加噪語料的聲學(xué)模型的單元。
[0018]另外,在所述聲學(xué)建模裝置中,在所述用于使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元之前還包括:用于采集各種噪聲環(huán)境下的非標準語料來構(gòu)成非標準語料集合的單元;用于通過對所述非標準語料進行語音端點檢測來截取所述非標準語料的非語音段的單元;以及用于將所述非語音段拼接為純噪聲段的單元。
[0019]另外,在所述聲學(xué)建模裝置中,所述純噪聲段是預(yù)先錄制的非語音段。
[0020]另外,在所述聲學(xué)建模裝置中,在用于所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理的單元中進一步包括:用于從所述標準語料集合中隨機選取標準語料并取得其時長的單元;用于在所述純噪聲段中隨機截取與所述時長相等的噪聲片段的單元;以及用于將所述截取出的噪聲片段與所述選取出的標準語料進行信號疊加而形成經(jīng)加噪處理的標準語料的單元。
[0021]另外,在所述聲學(xué)建模裝置中,在所述用于將所述非語音段拼接為純噪聲段的單元之前還包括:用于從所有的所述非語音段中篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段的單元。
[0022]另外,在所述聲學(xué)建模裝置中,所述非標準語料集合的所述非標準語料僅是在噪音環(huán)境下采集的語音數(shù)據(jù);所述標準語料集合的所述標準語料包括文本數(shù)據(jù)和在安靜環(huán)境下采集的與所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù)。
[0023]另外,在所述聲學(xué)建模裝置中,所述純噪聲段使用一個所述非語音段重復(fù)拼接而成。
[0024]另外,在所述聲學(xué)建模裝置中,所述純噪聲段使用多個所述非語音段連續(xù)拼接而成。
[0025]另外,在所述聲學(xué)建模裝置中,在所述用于使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元中,根據(jù)所述非標準語料中非語音段與語音段之間的信號強度比例作為參數(shù)來確定所述純噪聲段對標準語料集合中的標準語料進行加噪處理時的加噪信號強度。
[0026]本發(fā)明的又一種方式是用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別方法,其中使用通過所述聲學(xué)建模方法所建立的加噪語料的聲學(xué)模型對非標準語料或用戶輸入的語音信息進行語音識別;以及
[0027]將語音識別結(jié)果作為文本語料在搜索系統(tǒng)中進行搜索。
[0028]另外,在所述語音識別方法中,所述語音識別步驟進一步包括:接收用戶輸入的語音信息;從包括多個所述加噪語料的聲學(xué)模型的集合中選擇與所述語音信息的背景噪聲相匹配的聲學(xué)模型;以及使用所選擇的聲學(xué)模型對所述語音信息進行語音識別。
[0029]另外,在所述語音識別方法中,所述用于搜索的步驟進一步包括:根據(jù)所述語音識別結(jié)果在所述搜索系統(tǒng)的文本語料中搜索相關(guān)的信息;以及輸出搜索結(jié)果。
[0030]本發(fā)明的又一種方式是用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別裝置,包括用于通過使用所述聲學(xué)建模裝置建立的加噪語料的聲學(xué)模型對非標準語料或用戶輸入的語音信息進行語音識別的單元;以及用于將語音識別結(jié)果作為文本語料在搜索系統(tǒng)中進行搜索的單元。
[0031]另外,在所述語音識別裝置中,所述用于語音識別的單元進一步包括:用于接收用戶輸入的語音信息的單元;用于從包括多個所述加噪語料的聲學(xué)模型的集合中選擇與所述語音信息相匹配的聲學(xué)模型的單元;以及用于使用所選擇的聲學(xué)模型對所述語音信息進行語音識別的單元。
[0032]另外,在所述語音識別裝置中,所述用于搜索的單元進一步包括:用于根據(jù)所述語音識別結(jié)果在所述搜索系統(tǒng)的文本語料中搜索相關(guān)的信息的單元;以及輸出搜索結(jié)果的單
J Li ο
[0033]根據(jù)本發(fā)明,由于利用了真實噪聲環(huán)境中采集到的噪聲數(shù)據(jù)結(jié)合標準語料對語音識別模型進行訓(xùn)練和建模,如此獲得的聲學(xué)模型在噪聲環(huán)境下的語音數(shù)據(jù)的識別性能顯著提高,從而有效地提高了語音識別系統(tǒng)的魯棒性,而且在語音識別階段沒有增加任何額外的成本。
【專利附圖】
【附圖說明】
[0034]圖1是表示本發(fā)明的實施方式I涉及的聲學(xué)建模裝置的結(jié)構(gòu)示意圖。
[0035]圖2是表示本發(fā)明的實施方式I涉及的聲學(xué)建模方法的流程圖。
[0036]圖3是表示本發(fā)明的實施方式2涉及的語音識別裝置的結(jié)構(gòu)示意圖。
[0037]圖4是表示本發(fā)明的實施方式2涉及的語音識別方法的流程圖。
【具體實施方式】
[0038]下面,結(jié)合附圖對本發(fā)明進行詳細描述。
[0039]<實施方式1>
[0040]圖1是表示本發(fā)明的實施方式I涉及的聲學(xué)建模裝置的結(jié)構(gòu)示意圖。
[0041]如圖1所示,聲學(xué)建模裝置100包括采集單元101、檢截單元102、篩選單元103、拼接單元104、加噪處理單元105以及建模單元106。
[0042]采集單元101用于采集大量的各種噪聲環(huán)境下的非標準語料以構(gòu)成非標準語料集合。在此,非標準語料是指在實際工作中采集到的各種噪聲環(huán)境下的語音數(shù)據(jù)。例如,在大學(xué)講堂中錄制的演講片段;在交通工具中錄制的一段對話;在街道上隨機錄制的語音數(shù)據(jù)等。該非標準語料是單純的語音數(shù)據(jù),其包括作為背景的噪聲部分和作為主體的語音部分。非標準語料集合是指大量的上述非標準語料的集合。在非標準語料集合中,按頻率或噪聲環(huán)境的不同來劃分非標準語料,構(gòu)成多個非標準語料庫。例如,在按噪聲環(huán)境來分類時,可分為交通工具噪聲、建筑施工噪聲、社會生活噪聲(在此,指人們在商業(yè)交易、體育比賽、游行集會、娛樂場所等各種社會活動中產(chǎn)生的喧鬧聲以及各種家電的嘈雜聲)等。
[0043]檢截單元102用于對非標準語料進行語音端點檢測,并截取該非標準語料的非語音段。在此,非語音段是指某一帶噪語音數(shù)據(jù)中的非語音部分的噪聲段。檢測并截取非語音段的目的是在獲取該非標準語料的背景噪聲。通常背景噪聲的強度、頻率與語音段是不同的,通過檢測非標準語料中聲音的強度或頻率的突變可以判斷出非標準語料中語音端點位置,例如檢測出語音前后端點,將語音部分截除后剩下的就是背景噪聲段。
[0044]篩選單元103用于從所有的非語音段中篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段。例如選取持續(xù)時間超過30秒的非語音段。
[0045]拼接單元104用于將篩選出的非語音段拼接為純噪聲段。該純噪聲段可以使用一個非語音段重復(fù)拼接而成。例如,在使用非語音段A時,將其拼接成如AAA這樣的純噪聲段。另外,也可以使用多個非語音段連續(xù)拼接而成。例如使用非語音段A、B、C時,可拼接成如ABC或CBA這樣的純噪聲段。在進行拼接之前可以對截取的純噪音段按照環(huán)境、頻率或者強度進行分類。例如分為交通噪聲、工業(yè)噪聲、建筑施工噪聲以及社會生活噪聲。交通噪聲主要指的是機動車輛、飛機、火車和輪船等交通工具在運行時發(fā)出的噪聲。這些噪聲的噪聲源是流動的,干擾范圍大。工業(yè)噪聲主要指工業(yè)生產(chǎn)勞動中產(chǎn)生的噪聲。主要來自機器和高速運轉(zhuǎn)設(shè)備。建筑施工噪聲主要指建筑施工現(xiàn)場產(chǎn)生的噪聲。在施工中要大量使用各種動力機械,要進行挖掘、打洞、攪拌,要頻繁地運輸材料和構(gòu)件,從而產(chǎn)生大量噪聲。社會生活噪聲主要指人們在商業(yè)交易、體育比賽、游行集會、娛樂場所等各種社會活動中產(chǎn)生的喧鬧聲,以及收錄機、電視機、洗衣機等各種家電的嘈雜聲,這類噪聲一般在80分貝以下。如洗衣機、縫紉機噪聲為50—80分貝,電風(fēng)扇的噪聲為30?65分貝,空調(diào)機、電視機為70分貝。經(jīng)過分類之后可以把同類噪聲進行拼接處理。
[0046]加噪處理單元105用于使用純噪聲段對在安靜環(huán)境下的標準語料集合中的標準語料進行加噪處理以形成加噪語料。在此,標準語料是指在安靜環(huán)境下采集到的語音數(shù)據(jù),標準語料集合是指大量的上述語音數(shù)據(jù)的集合。該標準語料集合中的各標準語料是與預(yù)定文本數(shù)據(jù)一一對應(yīng)的語音數(shù)據(jù)。例如,在標準語料集合中,若存在文本“今天天氣真好”,同時也存在與該文本相對應(yīng)的語音。通將文本和對應(yīng)的標準語音輸入到建模單元中可以構(gòu)建出對應(yīng)的聲學(xué)模型。
[0047]另外,加噪處理單元105進一步包括選取單元201、截取單元202、合成單元203。其中,選取單元201用于從標準語料集合中隨機選取標準語料并取得其時長。截取單元202用于在純噪聲段中隨機截取與選取出的標準語料的時長相等的噪聲片段。合成單元203用于將截取出的噪聲片段與選取出的標準語料進行信號疊加從而形成加噪語料。[0048]建模單元106用于通過使用加噪語料進行聲學(xué)模型訓(xùn)練來建立加噪語料的聲學(xué)模型。具體訓(xùn)練方法是將加噪后的標準語音與該標準語音對應(yīng)的文本數(shù)據(jù)輸入到建模單元106,建模單元106通過現(xiàn)有的語音識別建模方法對比加噪的標準語音與文本數(shù)據(jù)可以構(gòu)建出適合于該噪聲環(huán)境的聲學(xué)模型。同樣的標準語音可以分別與不同的純噪聲段疊加獲得不同的加噪語音輸入到建模單元106后獲得不同噪聲環(huán)境下的聲學(xué)模型。
[0049]下面參照圖1及圖2具體說明聲學(xué)建模的方法。
[0050]首先,在步驟SOl中,采集單元101采集了大量的實際工作中各種噪聲環(huán)境下的非標準語料,構(gòu)成非標準語料集合。并且,按照頻率或噪聲環(huán)境的不同劃分非標準語料而構(gòu)成多個非標準語料庫。
[0051]接著,在步驟S02中,檢截單元102從某一個非標準語料庫中選擇非標準語料,并對其進行語音端點檢測,然后截取該非標準語料的非語音段。
[0052]然后,在步驟S03中,篩選單元103從所截取的所有非語音段中預(yù)先篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段。
[0053]接著,在步驟S04中,拼接單元104將在步驟S03中篩選出的非語音段拼接為純噪聲段。
[0054]之后,加噪處理單元105使用在步驟S04中拼接成的純噪聲段,對在安靜環(huán)境下的標準語料集合中的標準語料進行加噪處理以形成加噪語料。在此,標準語料可以按種類進行劃分。
[0055]具體而言,首先在步驟S05中,選取單元201從標準語料集合中隨機選取標準語料并取得其時長。接著,在步驟S06中,截取單元202在步驟S04中所拼接成的純噪聲段中隨機截取與在步驟S05中所選取出的標準語料的時長相等的噪聲片段。然后,在步驟S07中,合成單元203將在步驟S06中截取出的噪聲片段與在步驟S05中所選取出的標準語料進行信號疊加,形成經(jīng)加噪處理的標準語料即加噪語料。
[0056]最后,在步驟S08中,建模單元106使用在步驟S07中形成的加噪語料進行聲學(xué)模型訓(xùn)練,從而與標準語料的文本數(shù)據(jù)對應(yīng)地建立加噪語料的聲學(xué)模型。并且,將加噪語料的聲學(xué)模型按照非標準語料的分類而建立不同的模型庫。例如,非標準語料庫中按照背景噪聲的類型分類為交通噪聲、工業(yè)噪聲、建筑施工噪聲以及社會生活噪聲。在對交通噪聲的非標準語料庫進行建模時截取該交通噪聲非標準語料庫中的交通背景噪聲與標準語音合成為加噪語音,然后對加噪標準語料進行訓(xùn)練獲得適用于交通噪聲的聲學(xué)模型。然后可以用該聲學(xué)模型對分類為交通噪聲的非標準語料庫中的語音信息識別為文本信息。
[0057]根據(jù)本實施方式,由于利用了實際工作中收集到的噪聲數(shù)據(jù),所以對噪聲環(huán)境下的語音數(shù)據(jù)的識別性能有顯著的提高,從而有效地提高語音系統(tǒng)應(yīng)用的魯棒性,且在識別階段沒有增加任何額外的成本。
[0058]<變形例>
[0059]在實施方式I中,具體說明了利用檢截單元102、篩選單元103、拼接單元104制成了純噪聲段,但本發(fā)明不限于此,該純噪聲段也可以是預(yù)先錄制的純噪聲段。
[0060]另外,在實施方式I中,說明了聲學(xué)建模裝置100由采集單元101、檢截單元102、篩選單元103、拼接單元104、加噪處理單元105以及建模單元106構(gòu)成的例子。但是,本發(fā)明不限于此,在使用預(yù)先錄制的純噪聲段的情況下,聲學(xué)建模裝置100包括加噪處理單元105和建模單元106。
[0061]另外,在實施方式I中,具體說明了利用篩選單元103篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段,但本發(fā)明不限于此,也可以根據(jù)需要而省略篩選單元103。在這種情況下,拼接單元104直接將由檢截單元102所截取的非語音段拼接為純噪聲段。
[0062]另外,在實施方式I中,使用步驟S05至S07具體說明了加噪處理步驟。在該加噪處理步驟中,可以根據(jù)非標準語料中非語音段與語音段之間的信號強度比例作為參數(shù)來確定純噪聲段對在安靜環(huán)境下的標準語料集合中的標準語料進行加噪處理時的加噪信號強度。例如,假設(shè)非標準語料中的非語音段的頻率為30dB,語音段的頻率為80dB,安靜環(huán)境下的標準語料的頻率為50dB。在這種情況下,非標準語料中的非語音段與語音段的信號強度比為3:8。當(dāng)將非語音段與安靜環(huán)境下的標準語料進行合成時,由于非語音段與標準語料的信號強度比是3:5,所以根據(jù)非語音段與語音段的信號強度比值3:8來調(diào)整加噪信號的強度。也就是說,為了將非語音段與標準語料的信號強度調(diào)整為3:8,提高安靜環(huán)境下的標準語料的信號強度,或者降低非標準語料中的非語音段的信號強度。這樣合成獲得的加噪標準語料更加符合實際情況。
[0063]<實施方式2>
[0064]本實施方式2是將實施方式I的聲學(xué)建模方法及裝置應(yīng)用于語音輸入及搜索系統(tǒng)的例子。
[0065]圖3是表示本發(fā)明的實施方式2涉及的語音識別裝置200的結(jié)構(gòu)示意圖。
[0066]如圖3所示,語音識別裝置200包括接收單元201、選擇單元202、聲學(xué)建模裝置100、識別單元203、搜索單元204以及輸出單元205。
[0067]語音識別裝置200是用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別裝置。并且,該語音識別裝置200通過利用聲學(xué)建模裝置100所建立的加噪語料的聲學(xué)模型進行語音識別。
[0068]接收單元201接收用戶輸入的語音信息。
[0069]在聲學(xué)建模裝置100的建模單兀106中包含多個加噪語料的聲學(xué)模型庫。
[0070]選擇單元202根據(jù)接收單元201接收到的信息,從建模單元106中的某一個加噪語料的聲學(xué)模型庫中選擇與該信息相匹配的聲學(xué)模型。
[0071]識別單元203使用被選擇單元202選擇出的聲學(xué)模型對非標準語料或用戶輸入的語音信息進行語音識別。
[0072]搜索單元204將識別單元203識別出的結(jié)果作為文本語料在搜索系統(tǒng)中進行搜索。
[0073]輸出單元205輸出搜索單元204的搜索結(jié)果。
[0074]圖4是表示本發(fā)明的實施方式2涉及的語音識別方法的流程圖。
[0075]下面,結(jié)合圖3及圖4來具體說明本發(fā)明的語音識別方法。
[0076]本實施方式涉及的語音識別方法主要是使用通過采用實施方式I的聲學(xué)建模方法建立的加噪語料的聲學(xué)模型進行語音識別,具體步驟如下。例如,將語音識別裝置200應(yīng)用于路況信息語音搜索系統(tǒng)。在此,假設(shè)用戶向語音識別裝置200輸入了 “搜索目前長安街的路況”這一語音信息。
[0077]首先,在步驟Sll中,接收單元201從外部接收用戶輸入的“搜索目前長安街的路況”這一語音信息。
[0078]接著,在步驟S12中,選擇單元202根據(jù)用戶說話時的背景噪聲判斷用戶處于交通工具中,貝1J從聲學(xué)建模裝置100的建模單兀106中選擇與交通工具相匹配的聲學(xué)模型。
[0079]然后,在步驟S13中,識別單元203使用在步驟S12中選擇出的加噪語料的聲學(xué)模型對用戶輸入的語音信息進行語音識別。也就是說,識別單元203將用戶輸入的“搜索目前長安街的路況”這一語音信息識別成“搜索目前長安街的路況”這樣的文本數(shù)據(jù)。
[0080]接著,在步驟S14中,搜索單元204將“搜索目前長安街的路況”這一文本數(shù)據(jù)作為文本語料在搜索系統(tǒng)中搜索相關(guān)的信息。
[0081]最后,在步驟S15中,輸出單元205輸出與搜索單元204的搜索結(jié)果。
[0082]在本實施方式中,具體說明了將語音識別裝置200應(yīng)用于路況信息語音搜索系統(tǒng)的例子,但本發(fā)明不限于此,也可以應(yīng)用于其他與語音輸入或語音搜索相關(guān)的系統(tǒng)。
[0083]需要理解的是,上述的實施方式僅是示例,但本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在所附權(quán)利要求的范圍內(nèi)做出各種變形或修改。
【權(quán)利要求】
1.一種用于噪聲環(huán)境下的語音輸入的聲學(xué)建模方法,包括以下步驟: 使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料;以及 通過使用所述加噪語料進行聲學(xué)模型訓(xùn)練,建立加噪語料的聲學(xué)模型。
2.根據(jù)權(quán)利要求1所述的聲學(xué)建模方法,其中在所述使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的步驟之前還包括: 采集各種噪聲環(huán)境下的非標準語料來構(gòu)成非標準語料集合; 通過對所述非標準語料進行語音端點檢測來截取所述非標準語料的非語音段;以及 將所述非語音段拼接為純噪聲段。
3.根據(jù)權(quán)利要求1所述的聲學(xué)建模方法,其中所述純噪聲段是預(yù)先錄制的非語音段。
4.根據(jù)權(quán)利要求1所述的聲學(xué)建模方法,其中所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理的步驟進一步包括: 從所述標準語料集合中隨機選取標準語料并取得其時長; 在所述純噪聲段中隨機截取與所述時長相等的噪聲片段;以及 將所述截取出的噪聲片段與所述選取出的標準語料進行信號疊加而形成經(jīng)加噪處理的標準語料。
5.根據(jù)權(quán)利要求2所述的聲學(xué)建模方法,其中在所述將所述非語音段拼接為純噪聲段的步驟之前還包括從所有的所述非語音段中篩選出持續(xù)時間超過預(yù)定閾值且平穩(wěn)的非語音段的步驟。
6.根據(jù)權(quán)利要求2-4中任一項所述的聲學(xué)建模方法,其中所述非標準語料集合的所述非標準語料僅是在噪音環(huán)境下采集的語音數(shù)據(jù);所述標準語料集合的所述標準語料包括文本數(shù)據(jù)和在安靜環(huán)境下采集的與所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù)。
7.根據(jù)權(quán)利要求2-4中任一項所述的聲學(xué)建模方法,其中所述純噪聲段使用一個所述非語音段重復(fù)拼接而成。
8.根據(jù)權(quán)利要求2-4中任一項所述的聲學(xué)建模方法,其中所述純噪聲段使用多個所述非語音段連續(xù)拼接而成。
9.根據(jù)權(quán)利要求2-4中任一項所述的聲學(xué)建模方法,其中在所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的步驟中,根據(jù)所述非標準語料中非語音段與語音段之間的信號強度比例作為參數(shù)來確定所述純噪聲段對標準語料集合中的標準語料進行加噪處理時的加噪信號強度。
10.一種用于噪聲環(huán)境下的語音輸入的聲學(xué)建模裝置,包括: 用于使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元;以及 用于通過使用所述加噪語料進行聲學(xué)模型訓(xùn)練來建立加噪語料的聲學(xué)模型的單元。
11.根據(jù)權(quán)利要求10所述的聲學(xué)建模裝置,其中在所述用于使用純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元之前還包括: 用于采集各種噪聲環(huán)境下的非標準語料來構(gòu)成非標準語料集合的單元; 用于通過對所述非標準語料進行語音端點檢測來截取所述非標準語料的非語音段的單元;以及 用于將所述非語音段拼接為純噪聲段的單元。
12.根據(jù)權(quán)利要求10所述的聲學(xué)建模裝置,其中所述純噪聲段是錄制制成的非語音段。
13.根據(jù)權(quán)利要求10所述的聲學(xué)建模裝置,其中在用于所述使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理的單元中進一步包括: 用于從所述標準語料集合中隨機選取標準語料并取得其時長的單元; 用于在所述純噪聲段中隨機截取與所述時長相等的噪聲片段的單元;以及 用于將所述截取出的噪聲片段與所述選取出的標準語料進行信號疊加而形成經(jīng)加噪處理的標準語料的單元。
14.根據(jù)權(quán)利要求11所述的聲學(xué)建模裝置,其中在所述用于將所述非語音段拼接為純噪聲段的單元之前還包括:用于從所有的所述非語音段中篩選出時長超過預(yù)定閾值且平穩(wěn)的非語音段的單元。
15.根據(jù)權(quán)利要求11-13中任一項所述的聲學(xué)建模裝置,其中所述非標準語料集合的所述非標準語料僅是在噪音環(huán)境下采集的語音數(shù)據(jù);所述標準語料集合的所述標準語料包括文本數(shù)據(jù)和在安靜環(huán)境下采集的與所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù)。
16.根據(jù)權(quán)利要求11-13中任一項所述的聲學(xué)建模裝置,其中所述純噪聲段使用一個所述非語音段重復(fù)拼接而成。
17.根據(jù)權(quán)利要求11-13中任一項所述的聲學(xué)建模裝置,其中所述純噪聲段使用多個所述非語音段連續(xù)拼接而成。
18.根據(jù)權(quán)利要求11-13中任一項所述的聲學(xué)建模裝置,其中在所述用于使用所述純噪聲段對標準語料集合中的標準語料進行加噪處理以形成加噪語料的單元中,根據(jù)所述非標準語料中非語音段與語音段之間的信號強度比例作為參數(shù)來確定所述純噪聲段對標準語料集合中的標準語料進行加噪處理時的加噪信號強度。
19.一種用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別方法,其中使用通過權(quán)利要求1-9中任一項所述的聲學(xué)建模方法所建立的加噪語料的聲學(xué)模型對非標準語料或用戶輸入的語音信息進行語音識別;以及 將語音識別結(jié)果作為文本語料在搜索系統(tǒng)中進行搜索。
20.根據(jù)權(quán)利要求19所述的語音識別方法,其中所述語音識別步驟進一步包括: 接收用戶輸入的語音信息; 從包括多個所述加噪語料的聲學(xué)模型的集合中選擇與所述語音信息相匹配的聲學(xué)模型;以及 使用所選擇的聲學(xué)模型對所述語音信息進行語音識別。
21.根據(jù)權(quán)利要求19所述的語音識別方法,其中用于搜索的步驟進一步包括: 根據(jù)所述語音識別結(jié)果在所述搜索系統(tǒng)的文本語料中搜索相關(guān)的信息;以及 輸出搜索結(jié)果。
22.一種用于噪聲環(huán)境下的語音輸入及搜索系統(tǒng)的語音識別裝置,包括用于通過使用權(quán)利要求10-18中任一項所述的聲學(xué)建模裝置建立的加噪語料的聲學(xué)模型對非標準語料或用戶輸入的語音信息進行語音識別的單元;以及 用于將語音識別結(jié)果作為文本語料在搜索系統(tǒng)中進行搜索的單元。
23.根據(jù)權(quán)利要求22所述的語音識別裝置,其中所述用于語音識別的單元進一步包括: 用于接收用戶輸入的語音信息的單元; 用于從包括多個所述加噪語料的聲學(xué)模型的集合中選擇與所述語音信息的背景噪聲相匹配的聲學(xué)模型的單元;以及 用于使用所選擇的聲學(xué)模型對所述語音信息進行語音識別的單元。
24.根據(jù)權(quán)利要求22所述的語音識別裝置,其中用于搜索的單元進一步包括: 用于根據(jù)所述語音識別結(jié)果在所述搜索系統(tǒng)的文本語料中搜索相關(guān)的信息的單元;以及 輸出搜索結(jié)果的單元。`
【文檔編號】G10L15/06GK103514878SQ201210217938
【公開日】2014年1月15日 申請日期:2012年6月27日 優(yōu)先權(quán)日:2012年6月27日
【發(fā)明者】蘇丹, 賈磊 申請人:北京百度網(wǎng)訊科技有限公司