本發(fā)明實(shí)施例涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
隨著計(jì)算機(jī)處理能力的迅速提高,語音識(shí)別技術(shù)得到了飛速發(fā)展,語音識(shí)別技術(shù)是通過識(shí)別和解析過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識(shí)別技術(shù)的應(yīng)用正在日益改變?nèi)祟惖纳a(chǎn)和生活方式,被廣泛應(yīng)用于諸如語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對(duì)話查詢系統(tǒng)等領(lǐng)域。
語音交互作為最自然的交互方式日益推廣,對(duì)語音識(shí)別準(zhǔn)確率的要求要來越高。目前,語音識(shí)別技術(shù)主要是通過大量的訓(xùn)練數(shù)據(jù)訓(xùn)練更復(fù)雜的聲學(xué)模型,通過聲學(xué)模型對(duì)輸入語音進(jìn)行識(shí)別,以提高識(shí)別性能。
但是,聲學(xué)模型的識(shí)別準(zhǔn)確率還有待進(jìn)一步提升。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),可以提高語音識(shí)別的準(zhǔn)確率。
第一方面,本發(fā)明實(shí)施例提供了一種語音識(shí)別結(jié)果糾正方法,該方法包括:
對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息;
采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
第二方面,本發(fā)明實(shí)施例還提供了一種語音識(shí)別結(jié)果糾正裝置,該裝置包括:
語音識(shí)別模塊,用于對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息;
文本糾正模塊,用于采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
第三方面,本發(fā)明實(shí)施例還提供了一種設(shè)備,包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的語音識(shí)別結(jié)果糾正方法。
第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的語音識(shí)別結(jié)果糾正方法。
本發(fā)明實(shí)施例通過采用神經(jīng)機(jī)器翻譯nmt模型對(duì)語音識(shí)別得到的初始文本信息,進(jìn)行再次識(shí)別糾正,能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果,可以提高語音識(shí)別的準(zhǔn)確率。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的一種語音識(shí)別結(jié)果糾正方法的流程圖;
圖2a是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法的流程圖;
圖2b是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法中的編碼解碼過程示意圖;
圖3a是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法的流程圖;
圖3b是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的計(jì)算節(jié)點(diǎn)示意圖;
圖3c是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的加入attention機(jī)制后的隱狀態(tài)計(jì)算示意圖;
圖3d是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的加入反饋后的attention機(jī)制的隱狀態(tài)計(jì)算示意圖;
圖4是本發(fā)明實(shí)施例四提供的一種語音識(shí)別結(jié)果糾正裝置的結(jié)構(gòu)圖;
圖5是本發(fā)明實(shí)施例五提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。
另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種語音識(shí)別結(jié)果糾正方法的流程圖,本實(shí)施例可適用于對(duì)語音識(shí)別結(jié)果進(jìn)行糾正的情況,該方法可以由本發(fā)明實(shí)施例提供的語音識(shí)別結(jié)果糾正裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的語音識(shí)別結(jié)果糾正客戶端或者終端設(shè)備的操作系統(tǒng)中的語音識(shí)別結(jié)果糾正應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供語音識(shí)別結(jié)果糾正的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。
如圖1所述,本實(shí)施例的方法具體包括:
s101、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息。
其中,語音數(shù)據(jù)為通過終端設(shè)備獲取的語音信號(hào),可以為原始語音信號(hào),也可以為經(jīng)過去噪、特征提取后的語音信號(hào)。
具體的,可通過終端設(shè)備的麥克風(fēng)、語音輸入裝置或錄音裝置獲取語音數(shù)據(jù)。其中,終端設(shè)備包括但不限于為移動(dòng)終端設(shè)備(例如,iphone、平板電腦、手機(jī)等)、固定終端設(shè)備(例如,臺(tái)式電腦和電視等)和穿戴設(shè)備(例如,智能手表、智能手環(huán)等)。
在獲取到語音數(shù)據(jù)后,采用語音識(shí)別算法對(duì)語音數(shù)據(jù)進(jìn)行初步識(shí)別,得到初始文本信息。具體可采用的語音識(shí)別算法包括但不限于為深層神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)算法、時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(longshort-termmemory,lstm)算法、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)算法,其中dnn算法具有良好的分類能力,lstm算法有長(zhǎng)時(shí)記憶能力,cnn算法能夠?qū)W習(xí)到語音特征當(dāng)中一些不變的特征。此外,也可以將上述三個(gè)算法聯(lián)合使用,得到初始文本信息。
s102、采用神經(jīng)機(jī)器翻譯(neuralmachinetranslation,nmt)模型對(duì)初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
其中,nmt模型是根據(jù)已知語音數(shù)據(jù)訓(xùn)練得到,即通過神經(jīng)網(wǎng)絡(luò)自動(dòng)從大量的已知語音數(shù)據(jù)中學(xué)習(xí)得到,從而使得文本識(shí)別糾正的質(zhì)量得到大幅躍升。
具體的,可采用如下方法訓(xùn)練得到nmt模型:對(duì)已知語音數(shù)據(jù)進(jìn)行語音識(shí)別,將識(shí)別得到的文本信息作為源數(shù)據(jù);對(duì)已知語音數(shù)據(jù)對(duì)應(yīng)的正確文本信息進(jìn)行標(biāo)注,將標(biāo)注后的文本信息作為目標(biāo)數(shù)據(jù);根據(jù)源數(shù)據(jù)和目標(biāo)數(shù)訓(xùn)練得到nmt模型。
具體的,分別對(duì)已知語音數(shù)據(jù)語音識(shí)別得到的文本信息和正確文本信息進(jìn)行字詞切分處理,得到至少一個(gè)字詞,并進(jìn)行對(duì)齊處理,然后將對(duì)齊后的字詞作為訓(xùn)練數(shù)據(jù),輸入nmt模型中進(jìn)行學(xué)習(xí)訓(xùn)練,得到具備文本識(shí)別糾正能力的nmt模型。
然后,將初始文本信息輸入nmt模型中,nmt模型會(huì)根據(jù)預(yù)先學(xué)習(xí)到的文本識(shí)別糾正能力對(duì)初始文本信息中不正確的字詞進(jìn)行糾正處理。
本實(shí)施例通過采用神經(jīng)機(jī)器翻譯nmt模型對(duì)語音識(shí)別得到的初始文本信息,進(jìn)行再次識(shí)別糾正,能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果,可以提高語音識(shí)別的準(zhǔn)確率。
實(shí)施例二
圖2a是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,進(jìn)一步將步驟采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果優(yōu)化為:將初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞;通過nmt模型中的編碼器將字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果。
相應(yīng)的,如圖2a所示,本實(shí)施例的方法具體包括:
s201、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息。
s202、將初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞。
具體的,可通過語義分析對(duì)初始文本信息中包含的文字進(jìn)行切分。例如,如果初始文本信息中包含的文字為“我喜歡百度地圖”,那么通過語義分析,可將文字切分為“我”、“喜歡”、“百度地圖”。
s203、通過nmt模型中的編碼器將字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果。
其中,nmt模型中包含編碼器和解碼器,編碼器和解碼器均是根據(jù)已知語音數(shù)據(jù)訓(xùn)練得到,即通過神經(jīng)網(wǎng)絡(luò)自動(dòng)從大量的已知語音數(shù)據(jù)中學(xué)習(xí)得到。使得其中的編碼器和解碼器學(xué)習(xí)到已知語音數(shù)據(jù)對(duì)應(yīng)的識(shí)別文本和正確文本當(dāng)中的一些信息,從而使得采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正時(shí),根據(jù)學(xué)習(xí)到的文本信息得到最終的文本識(shí)別結(jié)果,從而使得文本識(shí)別的質(zhì)量得到大幅躍升。
其中,稠密向量為非0元素占所有元素比例超過預(yù)設(shè)比例(例如90%)的向量,即非0元素占比比較大的向量。
具體的,如圖2b所示,在得到初始文本信息對(duì)應(yīng)的字詞(例如,圖中a、b)之后,將其依次輸入nmt模型中的編碼器,編碼器針對(duì)每個(gè)字詞編碼分別生成對(duì)應(yīng)的稠密向量,然后依次將稠密向量輸入解碼器中進(jìn)行解碼,得到解碼結(jié)果x、y、z。
本實(shí)施例通過將初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞,通過nmt模型中的編碼器將字詞編碼為稠密向量,并通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼,能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果,可以提高語音識(shí)別的準(zhǔn)確率。
實(shí)施例三
圖3a是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,進(jìn)一步將步驟通過nmt模型中的編碼器將字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果優(yōu)化為:通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量;將源隱狀態(tài)向量輸入nmt模型中的解碼器,通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量;根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量;根據(jù)attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果。
相應(yīng)的,如圖3a所示,本實(shí)施例的方法具體包括:
s301、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息。
s302、將初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞。
s303、通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量。
其中,nmt模型中還包含至少一個(gè)計(jì)算節(jié)點(diǎn),該計(jì)算節(jié)點(diǎn)用于將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量。可選的,其中包含的編碼器和解碼器在對(duì)字詞處理的過程中均需要通過該計(jì)算節(jié)點(diǎn)?;蛘撸诰幋a器和解碼器中均包含至少一個(gè)計(jì)算節(jié)點(diǎn)。
其中,計(jì)算節(jié)點(diǎn)的結(jié)構(gòu)如圖3b所示,其中,x為輸出數(shù)據(jù),h為輸出數(shù)據(jù)即隱狀態(tài)向量。也就是,通過將輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn),通過計(jì)算節(jié)點(diǎn)進(jìn)行函數(shù)、乘法等一系列計(jì)算,然后輸出隱狀態(tài)向量。其中,tanh為雙曲正切函數(shù),×為乘法計(jì)算,∑為加和計(jì)算,σ為sigmoid函數(shù),a、i、f、c、o為計(jì)算過程中產(chǎn)生的中間變量。
在本實(shí)施例中,針對(duì)編碼器和解碼器其對(duì)應(yīng)的輸入數(shù)據(jù)和輸出數(shù)據(jù)均不相同。編碼器對(duì)應(yīng)的輸入數(shù)據(jù)x為字詞,輸出數(shù)據(jù)h為源隱狀態(tài)向量,解碼器對(duì)應(yīng)的輸入數(shù)據(jù)x為源隱狀態(tài)向量,輸出數(shù)據(jù)h為目標(biāo)隱狀態(tài)向量。因此,通過將編碼器對(duì)應(yīng)的輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn)即可得到源隱狀態(tài)向量,通過將解碼器對(duì)應(yīng)的輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn)即可得到目標(biāo)隱狀態(tài)向量。
s304、將源隱狀態(tài)向量輸入nmt模型中的解碼器,通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量。
s305、根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量。
由于注意力attention機(jī)制在序列學(xué)習(xí)任務(wù)上具有巨大的提升作用,在nmt模型中的編碼器中加入attention機(jī)制,可以對(duì)編碼數(shù)據(jù)進(jìn)行數(shù)據(jù)加權(quán)變換,和/或者在nmt模型中的解碼器中加入attention機(jī)制,可以對(duì)解碼數(shù)據(jù)進(jìn)行加權(quán)變化,可以有效提高序列對(duì)序列的自然方式下的系統(tǒng)表現(xiàn)。因此,在本實(shí)施例中加入attention機(jī)制,可以進(jìn)一步提高文字識(shí)別準(zhǔn)確率。
可選的,通過nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置,并根據(jù)中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量;根據(jù)至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重,并根據(jù)對(duì)齊權(quán)重得到上下文向量;根據(jù)上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。
其中,預(yù)設(shè)位置可選取距離中心位置臨近的位置。
具體的,如圖3c所示,先有當(dāng)前時(shí)刻t的目標(biāo)隱狀態(tài)向量得到一個(gè)輸出pt,即源隱狀態(tài)向量的中心位置。然后由這個(gè)中心位置及其左右各10個(gè)位置上的字詞的源隱狀態(tài)向量以及目標(biāo)隱狀態(tài)向量計(jì)算得到一個(gè)對(duì)齊權(quán)重at,再由at作為權(quán)重值得到上下文向量ct,上下文向量ct和目標(biāo)隱狀態(tài)向量共同計(jì)算得到attention的隱狀態(tài)向量
此外,為了進(jìn)一步提高文字識(shí)別準(zhǔn)確率,可將attention的隱狀態(tài)向量作為反饋,重新輸入nmt模型中的解碼器。
具體的,將當(dāng)前時(shí)刻t對(duì)應(yīng)的attention的隱狀態(tài)向量作為解碼器的輸入,用于計(jì)算下一時(shí)刻的attention的隱狀態(tài)向量。如圖3d所示,將attention的隱狀態(tài)
s306、根據(jù)attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果。
具體的,通過解析attention機(jī)制的隱狀態(tài)向量,即可得到最終的文本識(shí)別結(jié)果。
本實(shí)施例通過根據(jù)編碼器輸出的源隱狀態(tài)向量,和解碼器輸出的目標(biāo)隱狀態(tài)向量,確定注意力attention機(jī)制的隱狀態(tài)向量,并根據(jù)attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果,可以進(jìn)一步提高文本識(shí)別準(zhǔn)確率。
實(shí)施例四
圖4是本發(fā)明實(shí)施例四提供的一種語音識(shí)別結(jié)果糾正裝置的結(jié)構(gòu)圖。本實(shí)施例可適用于對(duì)語音識(shí)別結(jié)果進(jìn)行糾正的情況,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的語音識(shí)別結(jié)果糾正客戶端或者終端設(shè)備的操作系統(tǒng)中的語音識(shí)別結(jié)果糾正應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供語音識(shí)別結(jié)果糾正的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。
如圖4所示,所述裝置包括:語音識(shí)別模塊401和文本糾正模塊402,其中:
語音識(shí)別模塊401用于對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息;
文本糾正模塊402用于采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
本實(shí)施例的語音識(shí)別結(jié)果糾正裝置用于執(zhí)行上述各實(shí)施例的語音識(shí)別結(jié)果糾正方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。
在上述各實(shí)施例的基礎(chǔ)上,文本糾正模塊402包括:字詞切分單元4021和文本糾正單元4022;
字詞切分單元4021用于將初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞;
文本糾正單元4022用于通過nmt模型中的編碼器將字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果。
在上述各實(shí)施例的基礎(chǔ)上,文本糾正單元4022具體用于:通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量;將源隱狀態(tài)向量輸入nmt模型中的解碼器,通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量;根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量;根據(jù)attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果。
在上述各實(shí)施例的基礎(chǔ)上,文本糾正單元4022具體用于:通過nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置,并根據(jù)中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量;根據(jù)至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重,并根據(jù)對(duì)齊權(quán)重得到上下文向量;根據(jù)上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。
在上述各實(shí)施例的基礎(chǔ)上,所述裝置還包括:反饋模塊403;
反饋模塊403用于將attention的隱狀態(tài)向量作為反饋,重新輸入nmt模型中的解碼器。
在上述各實(shí)施例的基礎(chǔ)上,所述裝置還包括:nmt模型訓(xùn)練模塊404;
nmt模型訓(xùn)練模塊404用于對(duì)已知語音數(shù)據(jù)進(jìn)行語音識(shí)別,將識(shí)別得到的文本信息作為源數(shù)據(jù);對(duì)已知語音數(shù)據(jù)對(duì)應(yīng)的正確文本信息進(jìn)行標(biāo)注,將標(biāo)注后的文本信息作為目標(biāo)數(shù)據(jù);根據(jù)源數(shù)據(jù)和目標(biāo)數(shù)訓(xùn)練得到nmt模型。
上述各實(shí)施例所提供的語音識(shí)別結(jié)果糾正裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的語音識(shí)別結(jié)果糾正方法,具備執(zhí)行語音識(shí)別結(jié)果糾正方法相應(yīng)的功能模塊和有益效果。
實(shí)施例五
圖5為本發(fā)明實(shí)施例五提供的一種設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12的框圖。圖5顯示的計(jì)算機(jī)設(shè)備12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
如圖5所示,計(jì)算機(jī)設(shè)備12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。
計(jì)算機(jī)設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖5中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
計(jì)算機(jī)設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖5所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
處理單元16通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的語音識(shí)別結(jié)果糾正方法:
對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息;
采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果包括:
將所述初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞;
通過nmt模型中的編碼器將所述字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述通過nmt模型中的編碼器將所述字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果包括:
通過nmt模型中的編碼器將所述至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量;
將所述源隱狀態(tài)向量輸入nmt模型中的解碼器,通過所述nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量;
根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量;
根據(jù)所述attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量包括:
通過所述nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置,并根據(jù)所述中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量;
根據(jù)所述至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重,并根據(jù)所述對(duì)齊權(quán)重得到上下文向量;
根據(jù)所述上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。
實(shí)施例六
本發(fā)明實(shí)施例6還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)所有發(fā)明實(shí)施例提供的語音識(shí)別結(jié)果糾正方法:
對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到初始文本信息;
采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正,得到最終的文本識(shí)別結(jié)果包括:
將所述初始文本信息中包含的文字進(jìn)行切分,得到至少一個(gè)字詞;
通過nmt模型中的編碼器將所述字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述通過nmt模型中的編碼器將所述字詞編碼為稠密向量,通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼,得到最終的文本識(shí)別結(jié)果包括:
通過nmt模型中的編碼器將所述至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量;
將所述源隱狀態(tài)向量輸入nmt模型中的解碼器,通過所述nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量;
根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量;
根據(jù)所述attention機(jī)制的隱狀態(tài)向量,得到最終的文本識(shí)別結(jié)果。
進(jìn)一步的,所述根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量包括:
通過所述nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置,并根據(jù)所述中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量;
根據(jù)所述至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重,并根據(jù)所述對(duì)齊權(quán)重得到上下文向量;
根據(jù)所述上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。
本發(fā)明實(shí)施例的計(jì)算機(jī)存儲(chǔ)介質(zhì),可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。