語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：12036189閱讀：237來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及智能語音技術(shù)領(lǐng)域，具體涉及一種語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì)。

背景技術(shù)：

目前，隨著電子及通信技術(shù)的發(fā)展，手機(jī)、平板電腦等終端被廣泛的使用，人機(jī)交互方式也越來越多樣化。語音輸入作為人機(jī)交互最方便自然的方式之一，被越來越多的用戶所接收。然而，目前的語音識(shí)別準(zhǔn)確率不高，用戶體驗(yàn)差。

技術(shù)實(shí)現(xiàn)要素：

鑒于以上內(nèi)容，有必要提出一種語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì)，其可以利用唇形圖像進(jìn)行語音識(shí)別，提高語音識(shí)別的準(zhǔn)確率。

本申請(qǐng)的第一方面提供一種語音識(shí)別方法，所述方法包括：

獲取用戶輸入的語音信息；

獲取用戶在輸入所述語音信息時(shí)的唇形圖像；

根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息；

根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

另一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別包括：

根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系，將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中；或者

去除所述語音信息中的所述停頓信息，對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。

另一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息包括：

根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息；

根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別包括：

根據(jù)所述斷字停頓信息和/或斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

另一種可能的實(shí)現(xiàn)方式中，所述獲取用戶輸入的語音信息；獲取用戶在輸入所述語音信息時(shí)的唇形圖像包括：

當(dāng)用戶輸入所述語音信息時(shí)，通過終端的麥克風(fēng)采集所述語音信息，并且通過終端的攝像頭拍攝所述唇形圖像。

另一種可能的實(shí)現(xiàn)方式中，所述方法還包括：

判斷所述唇形信息與所述語音信息是否匹配；

若所述唇形信息與所述語音信息不匹配，控制所述攝像頭停止拍攝所述唇形圖像。

另一種可能的實(shí)現(xiàn)方式中，所述方法還包括：

根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度，根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣；或者

獲取用戶發(fā)音的唇形特性，根據(jù)所述唇形特性確定用戶特征，根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

本申請(qǐng)的第二方面提供一種語音識(shí)別裝置，所述裝置包括：

第一獲取單元，用于獲取用戶輸入的語音信息；

第二獲取單元，用于獲取用戶在輸入所述語音信息時(shí)的唇形圖像；

第一識(shí)別單元，用于根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息；

第二識(shí)別單元，用于根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

另一種可能的實(shí)現(xiàn)方式中，所述第二識(shí)別單元具體用于：

根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系，將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中；或者

去除所述語音信息中的所述停頓信息，對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。

本申請(qǐng)的第三方面提供一種計(jì)算機(jī)裝置，所述計(jì)算機(jī)裝置包括處理器，所述處理器用于執(zhí)行存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述語音識(shí)別方法的步驟。

本申請(qǐng)的第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述語音識(shí)別方法的步驟。

本發(fā)明獲取用戶輸入的語音信息；獲取用戶在輸入所述語音信息時(shí)的唇形圖像；根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息；根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。本發(fā)明可以利用唇形圖像進(jìn)行語音識(shí)別，提高語音識(shí)別的準(zhǔn)確率。

附圖說明

圖1是本發(fā)明實(shí)施例一提供的語音識(shí)別方法的流程圖；

圖2是本發(fā)明實(shí)施例二提供的語音識(shí)別裝置的結(jié)構(gòu)圖；

圖3是本發(fā)明實(shí)施例三提供的計(jì)算機(jī)裝置的示意圖。

主要元件符號(hào)說明

計(jì)算機(jī)裝置1

語音識(shí)別裝置10

存儲(chǔ)器20

處理器30

計(jì)算機(jī)程序40

第一獲取單元201

第二獲取單元202

第一識(shí)別單元203

第二識(shí)別單元204

如下具體實(shí)施方式將結(jié)合上述附圖進(jìn)一步說明本發(fā)明。

具體實(shí)施方式

為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。需要說明的是，在不沖突的情況下，本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

除非另有定義，本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。本文中在本發(fā)明的說明書中所使用的術(shù)語只是為了描述具體的實(shí)施例的目的，不是旨在于限制本發(fā)明。

優(yōu)選地，本發(fā)明的語音識(shí)別方法應(yīng)用在一個(gè)或者多個(gè)終端中。所述終端是一種能夠按照事先設(shè)定或存儲(chǔ)的指令，自動(dòng)進(jìn)行數(shù)值計(jì)算和/或信息處理的設(shè)備，其硬件包括但不限于微處理器、專用集成電路(applicationspecificintegratedcircuit，asic)、可編程門陣列(field－programmablegatearray，fpga)、數(shù)字處理器(digitalsignalprocessor，dsp)、嵌入式設(shè)備等。

所述終端可以是，但不限于任何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板或聲控設(shè)備等方式進(jìn)行人機(jī)交互的電子產(chǎn)品，例如，平板電腦、智能手機(jī)、個(gè)人數(shù)字助理(personaldigitalassistant，pda)、智能穿戴式設(shè)備等。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的語音識(shí)別方法的流程圖。如圖1所示，該方法具體包括以下步驟：

101：獲取用戶輸入的語音信息。

所述語音信息是根據(jù)用戶的自然語音得到的語音數(shù)據(jù)。例如，所述語音信息是通過麥克風(fēng)將用戶的自然語音轉(zhuǎn)換為電信號(hào)得到的語音信號(hào)。

可以在用戶輸入語音信息時(shí)，通過終端的麥克風(fēng)采集所述語音信息。例如，可以檢測(cè)是否收到語音輸入開始指令(例如檢測(cè)終端的home鍵是否被長(zhǎng)按)，若收到語音輸入指令，則通過終端的麥克風(fēng)開始采集用戶輸入的語音信息。還可以檢測(cè)是否收到語音輸入結(jié)束指令(例如檢測(cè)終端的home鍵是否被松開)，若收到語音輸入結(jié)束指令，則停止通過終端的麥克風(fēng)采集用戶輸入的語音信息。

或者，可以讀取預(yù)先采集的語音信息。例如，可以預(yù)先采集用戶輸入的語音信息，當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí)，讀取所述語音信息。

102：獲取用戶在輸入所述語音信息時(shí)的唇形圖像。

所述唇形圖像也叫唇動(dòng)圖像或者唇讀圖像，是指當(dāng)人說話時(shí)，說話人的嘴唇運(yùn)動(dòng)變化的圖像。一段時(shí)間內(nèi)的唇形圖像可以構(gòu)成圖像序列或者圖像視頻。

可以獲取用戶在輸入所述語音信息時(shí)的人臉圖像，從所述人臉圖像中確定唇部位置，從而獲得所述唇形圖像。

也可以將攝像頭直接對(duì)準(zhǔn)用戶唇部進(jìn)行拍攝，從而獲得所述唇形圖像。例如，攝像頭可以內(nèi)置在麥克風(fēng)內(nèi)(例如頭戴式耳麥內(nèi))，或者麥克風(fēng)內(nèi)置在攝像頭內(nèi)，用戶使用時(shí)，攝像頭直接對(duì)準(zhǔn)用戶唇部，從而能夠方便地獲取唇形圖像。

可以在用戶輸入語音信息時(shí)，通過終端的攝像頭拍攝所述唇形圖像。例如，可以檢測(cè)是否收到語音輸入開始指令，若收到語音輸入開始指令，則在通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí)，通過終端的攝像頭拍攝用戶的唇形圖像。還可以檢測(cè)是否收到語音輸入結(jié)束指令，若收到語音輸入結(jié)束指令，則在停止通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí)，停止通過終端的攝像頭拍攝用戶的唇形圖像。

或者，可以讀取預(yù)先拍攝的唇形圖像。例如，可以在預(yù)先采集用戶輸入的語音信息時(shí)，拍攝所述唇形圖像，當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí)，讀取所述唇形圖像。

在通過終端的麥克風(fēng)采集用戶輸入的語音信息及通過終端的攝像頭拍攝所述唇形圖像時(shí)，可以判斷所述唇形信息與所述語音信息是否匹配，若所述唇形信息與所述語音信息不匹配，控制所述攝像頭停止拍攝所述唇形圖像。

可以檢測(cè)所述唇形信息與所述語音信息是否同步，若所述唇形信息與所述語音信息不同步，則所述唇形信息與所述語音信息不匹配。例如，若根據(jù)所述語音信息確定用戶從第1秒開始說話，根據(jù)所述唇形信息確定用戶從第5秒開始說話，則所述唇形信息與所述語音信息不同步，因而所述唇形信息與所述語音信息不匹配。

或者，可以檢測(cè)所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息是否一致，若所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致，則所述唇形信息與所述語音信息不匹配。例如，某一時(shí)間段內(nèi)所述唇形信息對(duì)應(yīng)的文字信息為“我要開會(huì)去了”，所述語音信息對(duì)應(yīng)的文字信息為“今天天氣不錯(cuò)”，則所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致，因而所述唇形信息與所述語音信息不匹配。

103：根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息。

用戶在說話時(shí)經(jīng)常會(huì)出現(xiàn)停頓，因此，所述唇形圖像包含停頓時(shí)的唇形圖像，所述語音信息包含停頓時(shí)的語音信息(即停頓信息)，根據(jù)停頓時(shí)的唇形圖像可以識(shí)別所述語音信息包含的停頓信息。

用戶說話過程中可以在需要斷字或斷句時(shí)進(jìn)行停頓，因此，所述停頓信息可以表示斷字和/或斷句(此時(shí)停頓信息可以是靜音信號(hào))，所述停頓信息可以包括斷字停頓信息和/或斷句停頓信息。

或者，用戶說話過程中可以在對(duì)方說話或思考時(shí)進(jìn)行停頓，因此，所述停頓信息可以表示一段靜音。此時(shí)所述停頓信息為無效的語音輸入。

或者，用戶說話過程中可以在出現(xiàn)噪音時(shí)(例如噪音過大時(shí))進(jìn)行停頓，因此，所述停頓信息可以表示噪聲(此時(shí)停頓信息可以是噪聲信號(hào))。此時(shí)所述停頓信息為無效的語音輸入。

當(dāng)所述停頓信息表示斷字和/或斷句時(shí)，可以根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息。

可以根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間(例如0.1秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度，若根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，則將所述語音信息中所述第一預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷字停頓信息。

可以根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間(例如0.5秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，若根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，則將所述語音信息中所述第二預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷句停頓信息。所述第二預(yù)設(shè)時(shí)間可以大于所述第一預(yù)設(shè)時(shí)間。

當(dāng)所述停頓信息表示一段靜音或噪聲時(shí)，可以根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間(例如3秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度，若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息?；蛘?，若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，并且所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信號(hào)幅度大于預(yù)設(shè)門限值，則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。所述第三預(yù)設(shè)時(shí)間可以大于所述第二預(yù)設(shè)時(shí)間。

104：根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

若所述停頓信息包括斷字停頓信息，則可以根據(jù)所述斷字停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

或者，若所述停頓信息包括斷句停頓信息，則可以根據(jù)所述斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

或者，若所述停頓信息包括斷字停頓信息和斷句停頓信息，則可以根據(jù)所述斷字停頓信息和斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

可以根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系(即時(shí)間對(duì)應(yīng)關(guān)系)，將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中。例如，可以對(duì)所述語音信息進(jìn)行語音識(shí)別，得到所述語音信息對(duì)應(yīng)的文本信息，按照所述停頓信息(斷字停頓信息和/或斷句停頓信息)在所述語音信息中的出現(xiàn)時(shí)間，將所述停頓信息插入到所述文本信息中，得到包含停頓信息的文本信息。

或者，可以去除所述語音信息中的所述停頓信息，對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。如前所述，所述停頓信息可以表示噪聲或靜音，即無效的語音輸入，對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別可以去除所述語音信息中的噪聲或靜音。

可以采用各種語音識(shí)別技術(shù)，例如動(dòng)態(tài)時(shí)間規(guī)整(dynamictimewarping，dtw)、隱馬爾可夫模型(hiddenmarkovmodel，hmm)、矢量量化(vectorquantization，vq)、人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork，ann)等技術(shù)對(duì)所述語音信息或已去除停頓信息的所述語音信息進(jìn)行語音識(shí)別。

實(shí)施例一的語音識(shí)別方法獲取用戶輸入的語音信息；獲取用戶在輸入所述語音信息時(shí)的唇形圖像；根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息；根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。實(shí)施例一的語音識(shí)別方法可以利用唇形圖像進(jìn)行語音識(shí)別，提高語音識(shí)別的準(zhǔn)確率。

在另一實(shí)施例中，所述方法還可以包括：根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度，根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣。所述語氣可以包括陳述語氣、疑問語氣、祈使語氣、感嘆語氣等。例如，若所述用戶唇形的運(yùn)動(dòng)幅度在第一預(yù)設(shè)幅度范圍內(nèi)，則確定所述語音信息對(duì)應(yīng)的語氣為感嘆語氣；若所述用戶唇形的運(yùn)動(dòng)幅度在第二預(yù)設(shè)幅度范圍內(nèi)，則確定所述語音信息對(duì)應(yīng)的語氣為祈使語氣。

在另一實(shí)施例中，所述方法還可以包括：獲取用戶發(fā)音的唇形特性；根據(jù)所述唇形特性確定用戶特征；根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。所述用戶特征可以包括用戶性別、語言類型、方言類型和/或口頭禪習(xí)慣等。例如，可以根據(jù)用戶發(fā)音的唇形特性確定語言類型(例如漢語)，根據(jù)所述語言類型和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。對(duì)所述語音信息進(jìn)行語音識(shí)別之前獲得更多的輔助信息(即用戶特征)，可以進(jìn)一步提高語音識(shí)別的準(zhǔn)確率。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的語音識(shí)別裝置的結(jié)構(gòu)圖。如圖2所示，所述語音識(shí)別裝置10可以包括：第一獲取單元201、第二獲取單元202、第一識(shí)別單元203、第二識(shí)別單元204。

第一獲取單元201，用于獲取用戶輸入的語音信息。

第二獲取單元202，用于獲取用戶在輸入所述語音信息時(shí)的唇形圖像。

可以獲取用戶在輸入所述語音信息時(shí)的人臉圖像，從所述人臉圖像中確定唇部位置，從而獲得所述唇形圖像。

第一識(shí)別單元203，用于根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息。

當(dāng)所述停頓信息表示斷字和/或斷句時(shí)，可以根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息。

當(dāng)所述停頓信息表示一段靜音或噪聲時(shí)，可以根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間(例如3秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度，若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。或者，若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度，并且所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信號(hào)幅度大于預(yù)設(shè)門限值，則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。所述第三預(yù)設(shè)時(shí)間可以大于所述第二預(yù)設(shè)時(shí)間。

第二識(shí)別單元204，用于根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

若所述停頓信息包括斷字停頓信息，則可以根據(jù)所述斷字停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

或者，若所述停頓信息包括斷句停頓信息，則可以根據(jù)所述斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。

實(shí)施例二的語音識(shí)別裝置10獲取用戶輸入的語音信息；獲取用戶在輸入所述語音信息時(shí)的唇形圖像；根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息；根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。實(shí)施例二的語音識(shí)別裝置10可以利用唇形圖像進(jìn)行語音識(shí)別，提高語音識(shí)別的準(zhǔn)確率。

在另一實(shí)施例中，所述語音識(shí)別裝置10還可以包括：

第三識(shí)別單元，用于根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度，根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣。所述語氣可以包括陳述語氣、疑問語氣、祈使語氣、感嘆語氣等。例如，若所述用戶唇形的運(yùn)動(dòng)幅度在第一預(yù)設(shè)幅度范圍內(nèi)，則確定所述語音信息對(duì)應(yīng)的語氣為感嘆語氣；若所述用戶唇形的運(yùn)動(dòng)幅度在第二預(yù)設(shè)幅度范圍內(nèi)，則確定所述語音信息對(duì)應(yīng)的語氣為祈使語氣。

在另一實(shí)施例中，所述語音識(shí)別裝置10還可以包括：

第四識(shí)別單元，用于獲取用戶發(fā)音的唇形特性；根據(jù)所述唇形特性確定用戶特征；根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。所述用戶特征可以包括用戶性別、語言類型、方言類型和/或口頭禪習(xí)慣等。例如，可以根據(jù)用戶發(fā)音的唇形特性確定語言類型(例如漢語)，根據(jù)所述語言類型和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。對(duì)所述語音信息進(jìn)行語音識(shí)別之前獲得更多的輔助信息(即用戶特征)，可以進(jìn)一步提高語音識(shí)別的準(zhǔn)確率。

實(shí)施例三

圖3為本發(fā)明實(shí)施例三提供的計(jì)算機(jī)裝置的示意圖。所述計(jì)算機(jī)裝置1包括存儲(chǔ)器20、處理器30以及存儲(chǔ)在所述存儲(chǔ)器20中并可在所述處理器30上運(yùn)行的計(jì)算機(jī)程序40，例如語音識(shí)別程序。所述處理器30執(zhí)行所述計(jì)算機(jī)程序40時(shí)實(shí)現(xiàn)上述語音識(shí)別方法實(shí)施例中的步驟，例如圖1所示的步驟101～104?；蛘?，所述處理器30執(zhí)行所述計(jì)算機(jī)程序40時(shí)實(shí)現(xiàn)上述裝置實(shí)施例中各模塊/單元的功能，例如單元201～204。

示例性的，所述計(jì)算機(jī)程序40可以被分割成一個(gè)或多個(gè)模塊/單元，所述一個(gè)或者多個(gè)模塊/單元被存儲(chǔ)在所述存儲(chǔ)器20中，并由所述處理器30執(zhí)行，以完成本發(fā)明。所述一個(gè)或多個(gè)模塊/單元可以是能夠完成特定功能的一系列計(jì)算機(jī)程序指令段，該指令段用于描述所述計(jì)算機(jī)程序40在所述計(jì)算機(jī)裝置1中的執(zhí)行過程。例如，所述計(jì)算機(jī)程序40可以被分割成圖2中的第一獲取單元201、第二獲取單元202、第一識(shí)別單元203、第二識(shí)別單元204，各模塊具體功能參見實(shí)施例二。

所述計(jì)算機(jī)裝置1可以是桌上型計(jì)算機(jī)、筆記本、掌上電腦及云端服務(wù)器等計(jì)算設(shè)備。本領(lǐng)域技術(shù)人員可以理解，所述示意圖3僅僅是計(jì)算機(jī)裝置1的示例，并不構(gòu)成對(duì)計(jì)算機(jī)裝置1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述計(jì)算機(jī)裝置1還可以包括輸入輸出設(shè)備、網(wǎng)絡(luò)接入設(shè)備、總線等。

所稱處理器30可以是中央處理單元(centralprocessingunit，cpu)，還可以是其他通用處理器、數(shù)字信號(hào)處理器(digitalsignalprocessor，dsp)、專用集成電路(applicationspecificintegratedcircuit，asic)、現(xiàn)成可編程門陣列(field-programmablegatearray，fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器30也可以是任何常規(guī)的處理器等，所述處理器30是所述計(jì)算機(jī)裝置1的控制中心，利用各種接口和線路連接整個(gè)計(jì)算機(jī)裝置1的各個(gè)部分。

所述存儲(chǔ)器20可用于存儲(chǔ)所述計(jì)算機(jī)程序40和/或模塊/單元，所述處理器30通過運(yùn)行或執(zhí)行存儲(chǔ)在所述存儲(chǔ)器20內(nèi)的計(jì)算機(jī)程序和/或模塊/單元，以及調(diào)用存儲(chǔ)在存儲(chǔ)器20內(nèi)的數(shù)據(jù)，實(shí)現(xiàn)所述計(jì)算機(jī)裝置1的各種功能。所述存儲(chǔ)器20可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū)，其中，存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等；存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)計(jì)算機(jī)裝置1的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外，存儲(chǔ)器20可以包括高速隨機(jī)存取存儲(chǔ)器，還可以包括非易失性存儲(chǔ)器，例如硬盤、內(nèi)存、插接式硬盤，智能存儲(chǔ)卡(smartmediacard,smc)，安全數(shù)字(securedigital,sd)卡，閃存卡(flashcard)、至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。

所述計(jì)算機(jī)裝置1集成的模塊/單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?；谶@樣的理解，本發(fā)明實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，也可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，所述的計(jì)算機(jī)程序可存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)，可實(shí)現(xiàn)上述各個(gè)方法實(shí)施例的步驟。其中，所述計(jì)算機(jī)程序包括計(jì)算機(jī)程序代碼，所述計(jì)算機(jī)程序代碼可以為源代碼形式、對(duì)象代碼形式、可執(zhí)行文件或某些中間形式等。所述計(jì)算機(jī)可讀介質(zhì)可以包括：能夠攜帶所述計(jì)算機(jī)程序代碼的任何實(shí)體或裝置、記錄介質(zhì)、u盤、移動(dòng)硬盤、磁碟、光盤、計(jì)算機(jī)存儲(chǔ)器、只讀存儲(chǔ)器(rom，read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram，randomaccessmemory)、電載波信號(hào)、電信信號(hào)以及軟件分發(fā)介質(zhì)等。需要說明的是，所述計(jì)算機(jī)可讀介質(zhì)包含的內(nèi)容可以根據(jù)司法管轄區(qū)內(nèi)立法和專利實(shí)踐的要求進(jìn)行適當(dāng)?shù)脑鰷p，例如在某些司法管轄區(qū)，根據(jù)立法和專利實(shí)踐，計(jì)算機(jī)可讀介質(zhì)不包括電載波信號(hào)和電信信號(hào)。

在本發(fā)明所提供的幾個(gè)實(shí)施例中，應(yīng)該理解到，所揭露的計(jì)算機(jī)裝置和方法，可以通過其它的方式實(shí)現(xiàn)。例如，以上所描述的計(jì)算機(jī)裝置實(shí)施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。

另外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在相同處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在相同單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn)，也可以采用硬件加軟件功能模塊的形式實(shí)現(xiàn)。

對(duì)于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此，無論從哪一點(diǎn)來看，均應(yīng)將實(shí)施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外，顯然“包括”一詞不排除其他單元或步驟，單數(shù)不排除復(fù)數(shù)。計(jì)算機(jī)裝置權(quán)利要求中陳述的多個(gè)單元或計(jì)算機(jī)裝置也可以由同一個(gè)單元或計(jì)算機(jī)裝置通過軟件或者硬件來實(shí)現(xiàn)。第一，第二等詞語用來表示名稱，而并不表示任何特定的順序。

最后應(yīng)說明的是，以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制，盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或等同替換，而不脫離本發(fā)明技術(shù)方案的精神和范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2