語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：12036185閱讀：188來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明實(shí)施例涉及語音識(shí)別技術(shù)領(lǐng)域，尤其涉及一種語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

隨著計(jì)算機(jī)處理能力的迅速提高，語音識(shí)別技術(shù)得到了飛速發(fā)展，語音識(shí)別技術(shù)是通過識(shí)別和解析過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識(shí)別技術(shù)的應(yīng)用正在日益改變?nèi)祟惖纳a(chǎn)和生活方式，被廣泛應(yīng)用于諸如語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對(duì)話查詢系統(tǒng)等領(lǐng)域。

語音交互作為最自然的交互方式日益推廣，對(duì)語音識(shí)別準(zhǔn)確率的要求要來越高。目前，語音識(shí)別技術(shù)主要是通過大量的訓(xùn)練數(shù)據(jù)訓(xùn)練更復(fù)雜的聲學(xué)模型，通過聲學(xué)模型對(duì)輸入語音進(jìn)行識(shí)別，以提高識(shí)別性能。

但是，聲學(xué)模型的識(shí)別準(zhǔn)確率還有待進(jìn)一步提升。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種語音識(shí)別結(jié)果糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，可以提高語音識(shí)別的準(zhǔn)確率。

第一方面，本發(fā)明實(shí)施例提供了一種語音識(shí)別結(jié)果糾正方法，該方法包括：

對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息；

采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

第二方面，本發(fā)明實(shí)施例還提供了一種語音識(shí)別結(jié)果糾正裝置，該裝置包括：

語音識(shí)別模塊，用于對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息；

文本糾正模塊，用于采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

第三方面，本發(fā)明實(shí)施例還提供了一種設(shè)備，包括：

一個(gè)或多個(gè)處理器；

存儲(chǔ)裝置，用于存儲(chǔ)一個(gè)或多個(gè)程序，

當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行，使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的語音識(shí)別結(jié)果糾正方法。

第四方面，本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的語音識(shí)別結(jié)果糾正方法。

本發(fā)明實(shí)施例通過采用神經(jīng)機(jī)器翻譯nmt模型對(duì)語音識(shí)別得到的初始文本信息，進(jìn)行再次識(shí)別糾正，能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果，可以提高語音識(shí)別的準(zhǔn)確率。

附圖說明

圖1是本發(fā)明實(shí)施例一提供的一種語音識(shí)別結(jié)果糾正方法的流程圖；

圖2a是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法的流程圖；

圖2b是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法中的編碼解碼過程示意圖；

圖3a是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法的流程圖；

圖3b是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的計(jì)算節(jié)點(diǎn)示意圖；

圖3c是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的加入attention機(jī)制后的隱狀態(tài)計(jì)算示意圖；

圖3d是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法中的加入反饋后的attention機(jī)制的隱狀態(tài)計(jì)算示意圖；

圖4是本發(fā)明實(shí)施例四提供的一種語音識(shí)別結(jié)果糾正裝置的結(jié)構(gòu)圖；

圖5是本發(fā)明實(shí)施例五提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述?？梢岳斫獾氖?，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對(duì)本發(fā)明的限定。

另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是，一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理，但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外，各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止，但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種語音識(shí)別結(jié)果糾正方法的流程圖，本實(shí)施例可適用于對(duì)語音識(shí)別結(jié)果進(jìn)行糾正的情況，該方法可以由本發(fā)明實(shí)施例提供的語音識(shí)別結(jié)果糾正裝置來執(zhí)行，該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)，該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中，終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。

其中，應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件，或者為所述終端設(shè)備的操作系統(tǒng)的插件，與內(nèi)嵌于終端設(shè)備中的語音識(shí)別結(jié)果糾正客戶端或者終端設(shè)備的操作系統(tǒng)中的語音識(shí)別結(jié)果糾正應(yīng)用程序配合使用；應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供語音識(shí)別結(jié)果糾正的客戶端，本實(shí)施例對(duì)此不進(jìn)行限制。

如圖1所述，本實(shí)施例的方法具體包括：

s101、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息。

其中，語音數(shù)據(jù)為通過終端設(shè)備獲取的語音信號(hào)，可以為原始語音信號(hào)，也可以為經(jīng)過去噪、特征提取后的語音信號(hào)。

具體的，可通過終端設(shè)備的麥克風(fēng)、語音輸入裝置或錄音裝置獲取語音數(shù)據(jù)。其中，終端設(shè)備包括但不限于為移動(dòng)終端設(shè)備(例如，iphone、平板電腦、手機(jī)等)、固定終端設(shè)備(例如，臺(tái)式電腦和電視等)和穿戴設(shè)備(例如，智能手表、智能手環(huán)等)。

在獲取到語音數(shù)據(jù)后，采用語音識(shí)別算法對(duì)語音數(shù)據(jù)進(jìn)行初步識(shí)別，得到初始文本信息。具體可采用的語音識(shí)別算法包括但不限于為深層神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork，dnn)算法、時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(longshort-termmemory，lstm)算法、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork，cnn)算法，其中dnn算法具有良好的分類能力，lstm算法有長(zhǎng)時(shí)記憶能力，cnn算法能夠?qū)W習(xí)到語音特征當(dāng)中一些不變的特征。此外，也可以將上述三個(gè)算法聯(lián)合使用，得到初始文本信息。

s102、采用神經(jīng)機(jī)器翻譯(neuralmachinetranslation，nmt)模型對(duì)初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

其中，nmt模型是根據(jù)已知語音數(shù)據(jù)訓(xùn)練得到，即通過神經(jīng)網(wǎng)絡(luò)自動(dòng)從大量的已知語音數(shù)據(jù)中學(xué)習(xí)得到，從而使得文本識(shí)別糾正的質(zhì)量得到大幅躍升。

具體的，可采用如下方法訓(xùn)練得到nmt模型：對(duì)已知語音數(shù)據(jù)進(jìn)行語音識(shí)別，將識(shí)別得到的文本信息作為源數(shù)據(jù)；對(duì)已知語音數(shù)據(jù)對(duì)應(yīng)的正確文本信息進(jìn)行標(biāo)注，將標(biāo)注后的文本信息作為目標(biāo)數(shù)據(jù)；根據(jù)源數(shù)據(jù)和目標(biāo)數(shù)訓(xùn)練得到nmt模型。

具體的，分別對(duì)已知語音數(shù)據(jù)語音識(shí)別得到的文本信息和正確文本信息進(jìn)行字詞切分處理，得到至少一個(gè)字詞，并進(jìn)行對(duì)齊處理，然后將對(duì)齊后的字詞作為訓(xùn)練數(shù)據(jù)，輸入nmt模型中進(jìn)行學(xué)習(xí)訓(xùn)練，得到具備文本識(shí)別糾正能力的nmt模型。

然后，將初始文本信息輸入nmt模型中，nmt模型會(huì)根據(jù)預(yù)先學(xué)習(xí)到的文本識(shí)別糾正能力對(duì)初始文本信息中不正確的字詞進(jìn)行糾正處理。

本實(shí)施例通過采用神經(jīng)機(jī)器翻譯nmt模型對(duì)語音識(shí)別得到的初始文本信息，進(jìn)行再次識(shí)別糾正，能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果，可以提高語音識(shí)別的準(zhǔn)確率。

實(shí)施例二

圖2a是本發(fā)明實(shí)施例二提供的一種語音識(shí)別結(jié)果糾正方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化，在本實(shí)施例中，進(jìn)一步將步驟采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果優(yōu)化為：將初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞；通過nmt模型中的編碼器將字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果。

相應(yīng)的，如圖2a所示，本實(shí)施例的方法具體包括：

s201、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息。

s202、將初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞。

具體的，可通過語義分析對(duì)初始文本信息中包含的文字進(jìn)行切分。例如，如果初始文本信息中包含的文字為“我喜歡百度地圖”，那么通過語義分析，可將文字切分為“我”、“喜歡”、“百度地圖”。

s203、通過nmt模型中的編碼器將字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果。

其中，nmt模型中包含編碼器和解碼器，編碼器和解碼器均是根據(jù)已知語音數(shù)據(jù)訓(xùn)練得到，即通過神經(jīng)網(wǎng)絡(luò)自動(dòng)從大量的已知語音數(shù)據(jù)中學(xué)習(xí)得到。使得其中的編碼器和解碼器學(xué)習(xí)到已知語音數(shù)據(jù)對(duì)應(yīng)的識(shí)別文本和正確文本當(dāng)中的一些信息，從而使得采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正時(shí)，根據(jù)學(xué)習(xí)到的文本信息得到最終的文本識(shí)別結(jié)果，從而使得文本識(shí)別的質(zhì)量得到大幅躍升。

其中，稠密向量為非0元素占所有元素比例超過預(yù)設(shè)比例(例如90％)的向量，即非0元素占比比較大的向量。

具體的，如圖2b所示，在得到初始文本信息對(duì)應(yīng)的字詞(例如，圖中a、b)之后，將其依次輸入nmt模型中的編碼器，編碼器針對(duì)每個(gè)字詞編碼分別生成對(duì)應(yīng)的稠密向量，然后依次將稠密向量輸入解碼器中進(jìn)行解碼，得到解碼結(jié)果x、y、z。

本實(shí)施例通過將初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞，通過nmt模型中的編碼器將字詞編碼為稠密向量，并通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼，能夠得到較為準(zhǔn)確的文本識(shí)別結(jié)果，可以提高語音識(shí)別的準(zhǔn)確率。

實(shí)施例三

圖3a是本發(fā)明實(shí)施例三提供的一種語音識(shí)別結(jié)果糾正方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化，在本實(shí)施例中，進(jìn)一步將步驟通過nmt模型中的編碼器將字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果優(yōu)化為：通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量；將源隱狀態(tài)向量輸入nmt模型中的解碼器，通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量；根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量；根據(jù)attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果。

相應(yīng)的，如圖3a所示，本實(shí)施例的方法具體包括：

s301、對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息。

s302、將初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞。

s303、通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量。

其中，nmt模型中還包含至少一個(gè)計(jì)算節(jié)點(diǎn)，該計(jì)算節(jié)點(diǎn)用于將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量。可選的，其中包含的編碼器和解碼器在對(duì)字詞處理的過程中均需要通過該計(jì)算節(jié)點(diǎn)?；蛘撸诰幋a器和解碼器中均包含至少一個(gè)計(jì)算節(jié)點(diǎn)。

其中，計(jì)算節(jié)點(diǎn)的結(jié)構(gòu)如圖3b所示，其中，x為輸出數(shù)據(jù)，h為輸出數(shù)據(jù)即隱狀態(tài)向量。也就是，通過將輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn)，通過計(jì)算節(jié)點(diǎn)進(jìn)行函數(shù)、乘法等一系列計(jì)算，然后輸出隱狀態(tài)向量。其中，tanh為雙曲正切函數(shù)，×為乘法計(jì)算，∑為加和計(jì)算，σ為sigmoid函數(shù)，a、i、f、c、o為計(jì)算過程中產(chǎn)生的中間變量。

在本實(shí)施例中，針對(duì)編碼器和解碼器其對(duì)應(yīng)的輸入數(shù)據(jù)和輸出數(shù)據(jù)均不相同。編碼器對(duì)應(yīng)的輸入數(shù)據(jù)x為字詞，輸出數(shù)據(jù)h為源隱狀態(tài)向量，解碼器對(duì)應(yīng)的輸入數(shù)據(jù)x為源隱狀態(tài)向量，輸出數(shù)據(jù)h為目標(biāo)隱狀態(tài)向量。因此，通過將編碼器對(duì)應(yīng)的輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn)即可得到源隱狀態(tài)向量，通過將解碼器對(duì)應(yīng)的輸入數(shù)據(jù)輸入上述計(jì)算節(jié)點(diǎn)即可得到目標(biāo)隱狀態(tài)向量。

s304、將源隱狀態(tài)向量輸入nmt模型中的解碼器，通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量。

s305、根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量。

由于注意力attention機(jī)制在序列學(xué)習(xí)任務(wù)上具有巨大的提升作用，在nmt模型中的編碼器中加入attention機(jī)制，可以對(duì)編碼數(shù)據(jù)進(jìn)行數(shù)據(jù)加權(quán)變換，和/或者在nmt模型中的解碼器中加入attention機(jī)制，可以對(duì)解碼數(shù)據(jù)進(jìn)行加權(quán)變化，可以有效提高序列對(duì)序列的自然方式下的系統(tǒng)表現(xiàn)。因此，在本實(shí)施例中加入attention機(jī)制，可以進(jìn)一步提高文字識(shí)別準(zhǔn)確率。

可選的，通過nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置，并根據(jù)中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量；根據(jù)至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重，并根據(jù)對(duì)齊權(quán)重得到上下文向量；根據(jù)上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。

其中，預(yù)設(shè)位置可選取距離中心位置臨近的位置。

具體的，如圖3c所示，先有當(dāng)前時(shí)刻t的目標(biāo)隱狀態(tài)向量得到一個(gè)輸出pt，即源隱狀態(tài)向量的中心位置。然后由這個(gè)中心位置及其左右各10個(gè)位置上的字詞的源隱狀態(tài)向量以及目標(biāo)隱狀態(tài)向量計(jì)算得到一個(gè)對(duì)齊權(quán)重at，再由at作為權(quán)重值得到上下文向量ct，上下文向量ct和目標(biāo)隱狀態(tài)向量共同計(jì)算得到attention的隱狀態(tài)向量由得到最后的輸出。

此外，為了進(jìn)一步提高文字識(shí)別準(zhǔn)確率，可將attention的隱狀態(tài)向量作為反饋，重新輸入nmt模型中的解碼器。

具體的，將當(dāng)前時(shí)刻t對(duì)應(yīng)的attention的隱狀態(tài)向量作為解碼器的輸入，用于計(jì)算下一時(shí)刻的attention的隱狀態(tài)向量。如圖3d所示，將attention的隱狀態(tài)連接到解碼器的輸入端，以提高解碼性能。

s306、根據(jù)attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果。

具體的，通過解析attention機(jī)制的隱狀態(tài)向量，即可得到最終的文本識(shí)別結(jié)果。

本實(shí)施例通過根據(jù)編碼器輸出的源隱狀態(tài)向量，和解碼器輸出的目標(biāo)隱狀態(tài)向量，確定注意力attention機(jī)制的隱狀態(tài)向量，并根據(jù)attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果，可以進(jìn)一步提高文本識(shí)別準(zhǔn)確率。

實(shí)施例四

圖4是本發(fā)明實(shí)施例四提供的一種語音識(shí)別結(jié)果糾正裝置的結(jié)構(gòu)圖。本實(shí)施例可適用于對(duì)語音識(shí)別結(jié)果進(jìn)行糾正的情況，該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)，該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中，終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。

如圖4所示，所述裝置包括：語音識(shí)別模塊401和文本糾正模塊402，其中：

語音識(shí)別模塊401用于對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息；

文本糾正模塊402用于采用神經(jīng)機(jī)器翻譯nmt模型對(duì)初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

本實(shí)施例的語音識(shí)別結(jié)果糾正裝置用于執(zhí)行上述各實(shí)施例的語音識(shí)別結(jié)果糾正方法，其技術(shù)原理和產(chǎn)生的技術(shù)效果類似，這里不再贅述。

在上述各實(shí)施例的基礎(chǔ)上，文本糾正模塊402包括：字詞切分單元4021和文本糾正單元4022；

字詞切分單元4021用于將初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞；

文本糾正單元4022用于通過nmt模型中的編碼器將字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果。

在上述各實(shí)施例的基礎(chǔ)上，文本糾正單元4022具體用于：通過nmt模型中的編碼器將至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量；將源隱狀態(tài)向量輸入nmt模型中的解碼器，通過nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量；根據(jù)目標(biāo)隱狀態(tài)向量和源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量；根據(jù)attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果。

在上述各實(shí)施例的基礎(chǔ)上，文本糾正單元4022具體用于：通過nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置，并根據(jù)中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量；根據(jù)至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重，并根據(jù)對(duì)齊權(quán)重得到上下文向量；根據(jù)上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。

在上述各實(shí)施例的基礎(chǔ)上，所述裝置還包括：反饋模塊403；

反饋模塊403用于將attention的隱狀態(tài)向量作為反饋，重新輸入nmt模型中的解碼器。

在上述各實(shí)施例的基礎(chǔ)上，所述裝置還包括：nmt模型訓(xùn)練模塊404；

nmt模型訓(xùn)練模塊404用于對(duì)已知語音數(shù)據(jù)進(jìn)行語音識(shí)別，將識(shí)別得到的文本信息作為源數(shù)據(jù)；對(duì)已知語音數(shù)據(jù)對(duì)應(yīng)的正確文本信息進(jìn)行標(biāo)注，將標(biāo)注后的文本信息作為目標(biāo)數(shù)據(jù)；根據(jù)源數(shù)據(jù)和目標(biāo)數(shù)訓(xùn)練得到nmt模型。

上述各實(shí)施例所提供的語音識(shí)別結(jié)果糾正裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的語音識(shí)別結(jié)果糾正方法，具備執(zhí)行語音識(shí)別結(jié)果糾正方法相應(yīng)的功能模塊和有益效果。

實(shí)施例五

圖5為本發(fā)明實(shí)施例五提供的一種設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12的框圖。圖5顯示的計(jì)算機(jī)設(shè)備12僅僅是一個(gè)示例，不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖5所示，計(jì)算機(jī)設(shè)備12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12的組件可以包括但不限于：一個(gè)或者多個(gè)處理器或者處理單元16，系統(tǒng)存儲(chǔ)器28，連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。

總線18表示幾類總線結(jié)構(gòu)中的一種或多種，包括存儲(chǔ)器總線或者存儲(chǔ)器控制器，外圍總線，圖形加速端口，處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說，這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線，微通道體系結(jié)構(gòu)(mac)總線，增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。

計(jì)算機(jī)設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12訪問的可用介質(zhì)，包括易失性和非易失性介質(zhì)，可移動(dòng)的和不可移動(dòng)的介質(zhì)。

系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì)，例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例，存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖5未顯示，通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖5中未示出，可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器，以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下，每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品，該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊，這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。

具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40，可以存儲(chǔ)在例如存儲(chǔ)器28中，這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù)，這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。

計(jì)算機(jī)設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信，還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12交互的設(shè)備通信，和/或與使得該計(jì)算機(jī)設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡，調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且，計(jì)算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan)，廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò)，例如因特網(wǎng))通信。如圖5所示，網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白，盡管圖中未示出，可以結(jié)合計(jì)算機(jī)設(shè)備12使用其它硬件和/或軟件模塊，包括但不限于：微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。

處理單元16通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28中的程序，從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理，例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的語音識(shí)別結(jié)果糾正方法：

對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息；

采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

進(jìn)一步的，所述采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果包括：

將所述初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞；

通過nmt模型中的編碼器將所述字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果。

進(jìn)一步的，所述通過nmt模型中的編碼器將所述字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果包括：

通過nmt模型中的編碼器將所述至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量；

將所述源隱狀態(tài)向量輸入nmt模型中的解碼器，通過所述nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量；

根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量；

根據(jù)所述attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果。

進(jìn)一步的，所述根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量包括：

通過所述nmt模型中的解碼器輸出源隱狀態(tài)向量的中心位置，并根據(jù)所述中心位置獲取至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量；

根據(jù)所述至少一個(gè)預(yù)設(shè)位置上的字詞的源隱狀態(tài)向量和目標(biāo)隱狀態(tài)向量計(jì)算得到對(duì)齊權(quán)重，并根據(jù)所述對(duì)齊權(quán)重得到上下文向量；

根據(jù)所述上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。

實(shí)施例六

本發(fā)明實(shí)施例6還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)所有發(fā)明實(shí)施例提供的語音識(shí)別結(jié)果糾正方法：

對(duì)獲取的語音數(shù)據(jù)進(jìn)行語音識(shí)別，得到初始文本信息；

采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果。

進(jìn)一步的，所述采用神經(jīng)機(jī)器翻譯nmt模型對(duì)所述初始文本信息進(jìn)行識(shí)別糾正，得到最終的文本識(shí)別結(jié)果包括：

將所述初始文本信息中包含的文字進(jìn)行切分，得到至少一個(gè)字詞；

通過nmt模型中的編碼器將所述字詞編碼為稠密向量，通過nmt模型中的解碼器對(duì)所述稠密向量進(jìn)行解碼，得到最終的文本識(shí)別結(jié)果。

通過nmt模型中的編碼器將所述至少一個(gè)字詞轉(zhuǎn)換為源隱狀態(tài)向量；

將所述源隱狀態(tài)向量輸入nmt模型中的解碼器，通過所述nmt模型中的解碼器輸出目標(biāo)隱狀態(tài)向量；

根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量；

根據(jù)所述attention機(jī)制的隱狀態(tài)向量，得到最終的文本識(shí)別結(jié)果。

進(jìn)一步的，所述根據(jù)所述目標(biāo)隱狀態(tài)向量和所述源隱狀態(tài)向量確定注意力attention機(jī)制的隱狀態(tài)向量包括：

根據(jù)所述上下文向量和目標(biāo)隱狀態(tài)向量計(jì)算得到attention的隱狀態(tài)向量。

本發(fā)明實(shí)施例的計(jì)算機(jī)存儲(chǔ)介質(zhì)，可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件，或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括：具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì)，該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào)，其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式，包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì)，該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸，包括——但不限于無線、電線、光纜、rf等等，或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼，所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++，還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中，遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī)，或者，可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

注意，上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解，本發(fā)明不限于這里所述的特定實(shí)施例，對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此，雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明，但是本發(fā)明不僅僅限于以上實(shí)施例，在不脫離本發(fā)明構(gòu)思的情況下，還可以包括更多其他等效實(shí)施例，而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2