本發(fā)明涉及智能語音技術(shù)領(lǐng)域,具體涉及一種語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
目前,隨著電子及通信技術(shù)的發(fā)展,手機(jī)、平板電腦等終端被廣泛的使用,人機(jī)交互方式也越來越多樣化。語音輸入作為人機(jī)交互最方便自然的方式之一,被越來越多的用戶所接收。然而,目前的語音識(shí)別準(zhǔn)確率不高,用戶體驗(yàn)差。
技術(shù)實(shí)現(xiàn)要素:
鑒于以上內(nèi)容,有必要提出一種語音識(shí)別方法及裝置、計(jì)算機(jī)裝置及可讀存儲(chǔ)介質(zhì),其可以利用唇形圖像進(jìn)行語音識(shí)別,提高語音識(shí)別的準(zhǔn)確率。
本申請(qǐng)的第一方面提供一種語音識(shí)別方法,所述方法包括:
獲取用戶輸入的語音信息;
獲取用戶在輸入所述語音信息時(shí)的唇形圖像;
根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息;
根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
另一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別包括:
根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系,將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中;或者
去除所述語音信息中的所述停頓信息,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。
另一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息包括:
根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息;
根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別包括:
根據(jù)所述斷字停頓信息和/或斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
另一種可能的實(shí)現(xiàn)方式中,所述獲取用戶輸入的語音信息;獲取用戶在輸入所述語音信息時(shí)的唇形圖像包括:
當(dāng)用戶輸入所述語音信息時(shí),通過終端的麥克風(fēng)采集所述語音信息,并且通過終端的攝像頭拍攝所述唇形圖像。
另一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
判斷所述唇形信息與所述語音信息是否匹配;
若所述唇形信息與所述語音信息不匹配,控制所述攝像頭停止拍攝所述唇形圖像。
另一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度,根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣;或者
獲取用戶發(fā)音的唇形特性,根據(jù)所述唇形特性確定用戶特征,根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
本申請(qǐng)的第二方面提供一種語音識(shí)別裝置,所述裝置包括:
第一獲取單元,用于獲取用戶輸入的語音信息;
第二獲取單元,用于獲取用戶在輸入所述語音信息時(shí)的唇形圖像;
第一識(shí)別單元,用于根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息;
第二識(shí)別單元,用于根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
另一種可能的實(shí)現(xiàn)方式中,所述第二識(shí)別單元具體用于:
根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系,將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中;或者
去除所述語音信息中的所述停頓信息,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。
本申請(qǐng)的第三方面提供一種計(jì)算機(jī)裝置,所述計(jì)算機(jī)裝置包括處理器,所述處理器用于執(zhí)行存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述語音識(shí)別方法的步驟。
本申請(qǐng)的第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述語音識(shí)別方法的步驟。
本發(fā)明獲取用戶輸入的語音信息;獲取用戶在輸入所述語音信息時(shí)的唇形圖像;根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息;根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。本發(fā)明可以利用唇形圖像進(jìn)行語音識(shí)別,提高語音識(shí)別的準(zhǔn)確率。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的語音識(shí)別方法的流程圖;
圖2是本發(fā)明實(shí)施例二提供的語音識(shí)別裝置的結(jié)構(gòu)圖;
圖3是本發(fā)明實(shí)施例三提供的計(jì)算機(jī)裝置的示意圖。
主要元件符號(hào)說明
計(jì)算機(jī)裝置1
語音識(shí)別裝置10
存儲(chǔ)器20
處理器30
計(jì)算機(jī)程序40
第一獲取單元201
第二獲取單元202
第一識(shí)別單元203
第二識(shí)別單元204
如下具體實(shí)施方式將結(jié)合上述附圖進(jìn)一步說明本發(fā)明。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。本文中在本發(fā)明的說明書中所使用的術(shù)語只是為了描述具體的實(shí)施例的目的,不是旨在于限制本發(fā)明。
優(yōu)選地,本發(fā)明的語音識(shí)別方法應(yīng)用在一個(gè)或者多個(gè)終端中。所述終端是一種能夠按照事先設(shè)定或存儲(chǔ)的指令,自動(dòng)進(jìn)行數(shù)值計(jì)算和/或信息處理的設(shè)備,其硬件包括但不限于微處理器、專用集成電路(applicationspecificintegratedcircuit,asic)、可編程門陣列(field-programmablegatearray,fpga)、數(shù)字處理器(digitalsignalprocessor,dsp)、嵌入式設(shè)備等。
所述終端可以是,但不限于任何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板或聲控設(shè)備等方式進(jìn)行人機(jī)交互的電子產(chǎn)品,例如,平板電腦、智能手機(jī)、個(gè)人數(shù)字助理(personaldigitalassistant,pda)、智能穿戴式設(shè)備等。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的語音識(shí)別方法的流程圖。如圖1所示,該方法具體包括以下步驟:
101:獲取用戶輸入的語音信息。
所述語音信息是根據(jù)用戶的自然語音得到的語音數(shù)據(jù)。例如,所述語音信息是通過麥克風(fēng)將用戶的自然語音轉(zhuǎn)換為電信號(hào)得到的語音信號(hào)。
可以在用戶輸入語音信息時(shí),通過終端的麥克風(fēng)采集所述語音信息。例如,可以檢測(cè)是否收到語音輸入開始指令(例如檢測(cè)終端的home鍵是否被長(zhǎng)按),若收到語音輸入指令,則通過終端的麥克風(fēng)開始采集用戶輸入的語音信息。還可以檢測(cè)是否收到語音輸入結(jié)束指令(例如檢測(cè)終端的home鍵是否被松開),若收到語音輸入結(jié)束指令,則停止通過終端的麥克風(fēng)采集用戶輸入的語音信息。
或者,可以讀取預(yù)先采集的語音信息。例如,可以預(yù)先采集用戶輸入的語音信息,當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí),讀取所述語音信息。
102:獲取用戶在輸入所述語音信息時(shí)的唇形圖像。
所述唇形圖像也叫唇動(dòng)圖像或者唇讀圖像,是指當(dāng)人說話時(shí),說話人的嘴唇運(yùn)動(dòng)變化的圖像。一段時(shí)間內(nèi)的唇形圖像可以構(gòu)成圖像序列或者圖像視頻。
可以獲取用戶在輸入所述語音信息時(shí)的人臉圖像,從所述人臉圖像中確定唇部位置,從而獲得所述唇形圖像。
也可以將攝像頭直接對(duì)準(zhǔn)用戶唇部進(jìn)行拍攝,從而獲得所述唇形圖像。例如,攝像頭可以內(nèi)置在麥克風(fēng)內(nèi)(例如頭戴式耳麥內(nèi)),或者麥克風(fēng)內(nèi)置在攝像頭內(nèi),用戶使用時(shí),攝像頭直接對(duì)準(zhǔn)用戶唇部,從而能夠方便地獲取唇形圖像。
可以在用戶輸入語音信息時(shí),通過終端的攝像頭拍攝所述唇形圖像。例如,可以檢測(cè)是否收到語音輸入開始指令,若收到語音輸入開始指令,則在通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí),通過終端的攝像頭拍攝用戶的唇形圖像。還可以檢測(cè)是否收到語音輸入結(jié)束指令,若收到語音輸入結(jié)束指令,則在停止通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí),停止通過終端的攝像頭拍攝用戶的唇形圖像。
或者,可以讀取預(yù)先拍攝的唇形圖像。例如,可以在預(yù)先采集用戶輸入的語音信息時(shí),拍攝所述唇形圖像,當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí),讀取所述唇形圖像。
在通過終端的麥克風(fēng)采集用戶輸入的語音信息及通過終端的攝像頭拍攝所述唇形圖像時(shí),可以判斷所述唇形信息與所述語音信息是否匹配,若所述唇形信息與所述語音信息不匹配,控制所述攝像頭停止拍攝所述唇形圖像。
可以檢測(cè)所述唇形信息與所述語音信息是否同步,若所述唇形信息與所述語音信息不同步,則所述唇形信息與所述語音信息不匹配。例如,若根據(jù)所述語音信息確定用戶從第1秒開始說話,根據(jù)所述唇形信息確定用戶從第5秒開始說話,則所述唇形信息與所述語音信息不同步,因而所述唇形信息與所述語音信息不匹配。
或者,可以檢測(cè)所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息是否一致,若所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致,則所述唇形信息與所述語音信息不匹配。例如,某一時(shí)間段內(nèi)所述唇形信息對(duì)應(yīng)的文字信息為“我要開會(huì)去了”,所述語音信息對(duì)應(yīng)的文字信息為“今天天氣不錯(cuò)”,則所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致,因而所述唇形信息與所述語音信息不匹配。
103:根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息。
用戶在說話時(shí)經(jīng)常會(huì)出現(xiàn)停頓,因此,所述唇形圖像包含停頓時(shí)的唇形圖像,所述語音信息包含停頓時(shí)的語音信息(即停頓信息),根據(jù)停頓時(shí)的唇形圖像可以識(shí)別所述語音信息包含的停頓信息。
用戶說話過程中可以在需要斷字或斷句時(shí)進(jìn)行停頓,因此,所述停頓信息可以表示斷字和/或斷句(此時(shí)停頓信息可以是靜音信號(hào)),所述停頓信息可以包括斷字停頓信息和/或斷句停頓信息。
或者,用戶說話過程中可以在對(duì)方說話或思考時(shí)進(jìn)行停頓,因此,所述停頓信息可以表示一段靜音。此時(shí)所述停頓信息為無效的語音輸入。
或者,用戶說話過程中可以在出現(xiàn)噪音時(shí)(例如噪音過大時(shí))進(jìn)行停頓,因此,所述停頓信息可以表示噪聲(此時(shí)停頓信息可以是噪聲信號(hào))。此時(shí)所述停頓信息為無效的語音輸入。
當(dāng)所述停頓信息表示斷字和/或斷句時(shí),可以根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息。
可以根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間(例如0.1秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第一預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷字停頓信息。
可以根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間(例如0.5秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第二預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷句停頓信息。所述第二預(yù)設(shè)時(shí)間可以大于所述第一預(yù)設(shè)時(shí)間。
當(dāng)所述停頓信息表示一段靜音或噪聲時(shí),可以根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間(例如3秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息?;蛘?,若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,并且所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信號(hào)幅度大于預(yù)設(shè)門限值,則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。所述第三預(yù)設(shè)時(shí)間可以大于所述第二預(yù)設(shè)時(shí)間。
104:根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
若所述停頓信息包括斷字停頓信息,則可以根據(jù)所述斷字停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
或者,若所述停頓信息包括斷句停頓信息,則可以根據(jù)所述斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
或者,若所述停頓信息包括斷字停頓信息和斷句停頓信息,則可以根據(jù)所述斷字停頓信息和斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
可以根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系(即時(shí)間對(duì)應(yīng)關(guān)系),將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中。例如,可以對(duì)所述語音信息進(jìn)行語音識(shí)別,得到所述語音信息對(duì)應(yīng)的文本信息,按照所述停頓信息(斷字停頓信息和/或斷句停頓信息)在所述語音信息中的出現(xiàn)時(shí)間,將所述停頓信息插入到所述文本信息中,得到包含停頓信息的文本信息。
或者,可以去除所述語音信息中的所述停頓信息,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。如前所述,所述停頓信息可以表示噪聲或靜音,即無效的語音輸入,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別可以去除所述語音信息中的噪聲或靜音。
可以采用各種語音識(shí)別技術(shù),例如動(dòng)態(tài)時(shí)間規(guī)整(dynamictimewarping,dtw)、隱馬爾可夫模型(hiddenmarkovmodel,hmm)、矢量量化(vectorquantization,vq)、人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ann)等技術(shù)對(duì)所述語音信息或已去除停頓信息的所述語音信息進(jìn)行語音識(shí)別。
實(shí)施例一的語音識(shí)別方法獲取用戶輸入的語音信息;獲取用戶在輸入所述語音信息時(shí)的唇形圖像;根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息;根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。實(shí)施例一的語音識(shí)別方法可以利用唇形圖像進(jìn)行語音識(shí)別,提高語音識(shí)別的準(zhǔn)確率。
在另一實(shí)施例中,所述方法還可以包括:根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度,根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣。所述語氣可以包括陳述語氣、疑問語氣、祈使語氣、感嘆語氣等。例如,若所述用戶唇形的運(yùn)動(dòng)幅度在第一預(yù)設(shè)幅度范圍內(nèi),則確定所述語音信息對(duì)應(yīng)的語氣為感嘆語氣;若所述用戶唇形的運(yùn)動(dòng)幅度在第二預(yù)設(shè)幅度范圍內(nèi),則確定所述語音信息對(duì)應(yīng)的語氣為祈使語氣。
在另一實(shí)施例中,所述方法還可以包括:獲取用戶發(fā)音的唇形特性;根據(jù)所述唇形特性確定用戶特征;根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。所述用戶特征可以包括用戶性別、語言類型、方言類型和/或口頭禪習(xí)慣等。例如,可以根據(jù)用戶發(fā)音的唇形特性確定語言類型(例如漢語),根據(jù)所述語言類型和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。對(duì)所述語音信息進(jìn)行語音識(shí)別之前獲得更多的輔助信息(即用戶特征),可以進(jìn)一步提高語音識(shí)別的準(zhǔn)確率。
實(shí)施例二
圖2為本發(fā)明實(shí)施例二提供的語音識(shí)別裝置的結(jié)構(gòu)圖。如圖2所示,所述語音識(shí)別裝置10可以包括:第一獲取單元201、第二獲取單元202、第一識(shí)別單元203、第二識(shí)別單元204。
第一獲取單元201,用于獲取用戶輸入的語音信息。
所述語音信息是根據(jù)用戶的自然語音得到的語音數(shù)據(jù)。例如,所述語音信息是通過麥克風(fēng)將用戶的自然語音轉(zhuǎn)換為電信號(hào)得到的語音信號(hào)。
可以在用戶輸入語音信息時(shí),通過終端的麥克風(fēng)采集所述語音信息。例如,可以檢測(cè)是否收到語音輸入開始指令(例如檢測(cè)終端的home鍵是否被長(zhǎng)按),若收到語音輸入指令,則通過終端的麥克風(fēng)開始采集用戶輸入的語音信息。還可以檢測(cè)是否收到語音輸入結(jié)束指令(例如檢測(cè)終端的home鍵是否被松開),若收到語音輸入結(jié)束指令,則停止通過終端的麥克風(fēng)采集用戶輸入的語音信息。
或者,可以讀取預(yù)先采集的語音信息。例如,可以預(yù)先采集用戶輸入的語音信息,當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí),讀取所述語音信息。
第二獲取單元202,用于獲取用戶在輸入所述語音信息時(shí)的唇形圖像。
所述唇形圖像也叫唇動(dòng)圖像或者唇讀圖像,是指當(dāng)人說話時(shí),說話人的嘴唇運(yùn)動(dòng)變化的圖像。一段時(shí)間內(nèi)的唇形圖像可以構(gòu)成圖像序列或者圖像視頻。
可以獲取用戶在輸入所述語音信息時(shí)的人臉圖像,從所述人臉圖像中確定唇部位置,從而獲得所述唇形圖像。
也可以將攝像頭直接對(duì)準(zhǔn)用戶唇部進(jìn)行拍攝,從而獲得所述唇形圖像。例如,攝像頭可以內(nèi)置在麥克風(fēng)內(nèi)(例如頭戴式耳麥內(nèi)),或者麥克風(fēng)內(nèi)置在攝像頭內(nèi),用戶使用時(shí),攝像頭直接對(duì)準(zhǔn)用戶唇部,從而能夠方便地獲取唇形圖像。
可以在用戶輸入語音信息時(shí),通過終端的攝像頭拍攝所述唇形圖像。例如,可以檢測(cè)是否收到語音輸入開始指令,若收到語音輸入開始指令,則在通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí),通過終端的攝像頭拍攝用戶的唇形圖像。還可以檢測(cè)是否收到語音輸入結(jié)束指令,若收到語音輸入結(jié)束指令,則在停止通過終端的麥克風(fēng)采集用戶輸入的語音信息的同時(shí),停止通過終端的攝像頭拍攝用戶的唇形圖像。
或者,可以讀取預(yù)先拍攝的唇形圖像。例如,可以在預(yù)先采集用戶輸入的語音信息時(shí),拍攝所述唇形圖像,當(dāng)需要對(duì)所述語音信息進(jìn)行語音識(shí)別時(shí),讀取所述唇形圖像。
在通過終端的麥克風(fēng)采集用戶輸入的語音信息及通過終端的攝像頭拍攝所述唇形圖像時(shí),可以判斷所述唇形信息與所述語音信息是否匹配,若所述唇形信息與所述語音信息不匹配,控制所述攝像頭停止拍攝所述唇形圖像。
可以檢測(cè)所述唇形信息與所述語音信息是否同步,若所述唇形信息與所述語音信息不同步,則所述唇形信息與所述語音信息不匹配。例如,若根據(jù)所述語音信息確定用戶從第1秒開始說話,根據(jù)所述唇形信息確定用戶從第5秒開始說話,則所述唇形信息與所述語音信息不同步,因而所述唇形信息與所述語音信息不匹配。
或者,可以檢測(cè)所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息是否一致,若所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致,則所述唇形信息與所述語音信息不匹配。例如,某一時(shí)間段內(nèi)所述唇形信息對(duì)應(yīng)的文字信息為“我要開會(huì)去了”,所述語音信息對(duì)應(yīng)的文字信息為“今天天氣不錯(cuò)”,則所述唇形信息對(duì)應(yīng)的文字信息與所述語音信息對(duì)應(yīng)的文字信息不一致,因而所述唇形信息與所述語音信息不匹配。
第一識(shí)別單元203,用于根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息。
用戶在說話時(shí)經(jīng)常會(huì)出現(xiàn)停頓,因此,所述唇形圖像包含停頓時(shí)的唇形圖像,所述語音信息包含停頓時(shí)的語音信息(即停頓信息),根據(jù)停頓時(shí)的唇形圖像可以識(shí)別所述語音信息包含的停頓信息。
用戶說話過程中可以在需要斷字或斷句時(shí)進(jìn)行停頓,因此,所述停頓信息可以表示斷字和/或斷句(此時(shí)停頓信息可以是靜音信號(hào)),所述停頓信息可以包括斷字停頓信息和/或斷句停頓信息。
或者,用戶說話過程中可以在對(duì)方說話或思考時(shí)進(jìn)行停頓,因此,所述停頓信息可以表示一段靜音。此時(shí)所述停頓信息為無效的語音輸入。
或者,用戶說話過程中可以在出現(xiàn)噪音時(shí)(例如噪音過大時(shí))進(jìn)行停頓,因此,所述停頓信息可以表示噪聲(此時(shí)停頓信息可以是噪聲信號(hào))。此時(shí)所述停頓信息為無效的語音輸入。
當(dāng)所述停頓信息表示斷字和/或斷句時(shí),可以根據(jù)所述唇形圖像識(shí)別所述語音信息中的斷字停頓信息和/或斷句停頓信息。
可以根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間(例如0.1秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第一預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第一預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷字停頓信息。
可以根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間(例如0.5秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第二預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第二預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為斷句停頓信息。所述第二預(yù)設(shè)時(shí)間可以大于所述第一預(yù)設(shè)時(shí)間。
當(dāng)所述停頓信息表示一段靜音或噪聲時(shí),可以根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間(例如3秒)內(nèi)用戶唇形是否未發(fā)生變化或者變化幅度是否小于或等于預(yù)設(shè)幅度,若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。或者,若根據(jù)所述唇形圖像檢測(cè)到第三預(yù)設(shè)時(shí)間內(nèi)用戶唇形未發(fā)生變化或者變化幅度小于或等于預(yù)設(shè)幅度,并且所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信號(hào)幅度大于預(yù)設(shè)門限值,則將所述語音信息中所述第三預(yù)設(shè)時(shí)間對(duì)應(yīng)的語音信息識(shí)別為停頓信息。所述第三預(yù)設(shè)時(shí)間可以大于所述第二預(yù)設(shè)時(shí)間。
第二識(shí)別單元204,用于根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
若所述停頓信息包括斷字停頓信息,則可以根據(jù)所述斷字停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
或者,若所述停頓信息包括斷句停頓信息,則可以根據(jù)所述斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
或者,若所述停頓信息包括斷字停頓信息和斷句停頓信息,則可以根據(jù)所述斷字停頓信息和斷句停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。
可以根據(jù)所述停頓信息和所述語音信息之間的時(shí)間映射關(guān)系(即時(shí)間對(duì)應(yīng)關(guān)系),將所述停頓信息插入到由所述語音信息轉(zhuǎn)換成的文本信息中。例如,可以對(duì)所述語音信息進(jìn)行語音識(shí)別,得到所述語音信息對(duì)應(yīng)的文本信息,按照所述停頓信息(斷字停頓信息和/或斷句停頓信息)在所述語音信息中的出現(xiàn)時(shí)間,將所述停頓信息插入到所述文本信息中,得到包含停頓信息的文本信息。
或者,可以去除所述語音信息中的所述停頓信息,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別。如前所述,所述停頓信息可以表示噪聲或靜音,即無效的語音輸入,對(duì)已去除所述停頓信息的所述語音信息進(jìn)行語音識(shí)別可以去除所述語音信息中的噪聲或靜音。
可以采用各種語音識(shí)別技術(shù),例如動(dòng)態(tài)時(shí)間規(guī)整(dynamictimewarping,dtw)、隱馬爾可夫模型(hiddenmarkovmodel,hmm)、矢量量化(vectorquantization,vq)、人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ann)等技術(shù)對(duì)所述語音信息或已去除停頓信息的所述語音信息進(jìn)行語音識(shí)別。
實(shí)施例二的語音識(shí)別裝置10獲取用戶輸入的語音信息;獲取用戶在輸入所述語音信息時(shí)的唇形圖像;根據(jù)所述唇形圖像識(shí)別所述語音信息中的停頓信息;根據(jù)所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。實(shí)施例二的語音識(shí)別裝置10可以利用唇形圖像進(jìn)行語音識(shí)別,提高語音識(shí)別的準(zhǔn)確率。
在另一實(shí)施例中,所述語音識(shí)別裝置10還可以包括:
第三識(shí)別單元,用于根據(jù)所述唇形圖像獲取用戶唇形的運(yùn)動(dòng)幅度,根據(jù)所述用戶唇形的運(yùn)動(dòng)幅度識(shí)別所述語音信息對(duì)應(yīng)的語氣。所述語氣可以包括陳述語氣、疑問語氣、祈使語氣、感嘆語氣等。例如,若所述用戶唇形的運(yùn)動(dòng)幅度在第一預(yù)設(shè)幅度范圍內(nèi),則確定所述語音信息對(duì)應(yīng)的語氣為感嘆語氣;若所述用戶唇形的運(yùn)動(dòng)幅度在第二預(yù)設(shè)幅度范圍內(nèi),則確定所述語音信息對(duì)應(yīng)的語氣為祈使語氣。
在另一實(shí)施例中,所述語音識(shí)別裝置10還可以包括:
第四識(shí)別單元,用于獲取用戶發(fā)音的唇形特性;根據(jù)所述唇形特性確定用戶特征;根據(jù)所述用戶特征和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。所述用戶特征可以包括用戶性別、語言類型、方言類型和/或口頭禪習(xí)慣等。例如,可以根據(jù)用戶發(fā)音的唇形特性確定語言類型(例如漢語),根據(jù)所述語言類型和所述停頓信息對(duì)所述語音信息進(jìn)行語音識(shí)別。對(duì)所述語音信息進(jìn)行語音識(shí)別之前獲得更多的輔助信息(即用戶特征),可以進(jìn)一步提高語音識(shí)別的準(zhǔn)確率。
實(shí)施例三
圖3為本發(fā)明實(shí)施例三提供的計(jì)算機(jī)裝置的示意圖。所述計(jì)算機(jī)裝置1包括存儲(chǔ)器20、處理器30以及存儲(chǔ)在所述存儲(chǔ)器20中并可在所述處理器30上運(yùn)行的計(jì)算機(jī)程序40,例如語音識(shí)別程序。所述處理器30執(zhí)行所述計(jì)算機(jī)程序40時(shí)實(shí)現(xiàn)上述語音識(shí)別方法實(shí)施例中的步驟,例如圖1所示的步驟101~104?;蛘?,所述處理器30執(zhí)行所述計(jì)算機(jī)程序40時(shí)實(shí)現(xiàn)上述裝置實(shí)施例中各模塊/單元的功能,例如單元201~204。
示例性的,所述計(jì)算機(jī)程序40可以被分割成一個(gè)或多個(gè)模塊/單元,所述一個(gè)或者多個(gè)模塊/單元被存儲(chǔ)在所述存儲(chǔ)器20中,并由所述處理器30執(zhí)行,以完成本發(fā)明。所述一個(gè)或多個(gè)模塊/單元可以是能夠完成特定功能的一系列計(jì)算機(jī)程序指令段,該指令段用于描述所述計(jì)算機(jī)程序40在所述計(jì)算機(jī)裝置1中的執(zhí)行過程。例如,所述計(jì)算機(jī)程序40可以被分割成圖2中的第一獲取單元201、第二獲取單元202、第一識(shí)別單元203、第二識(shí)別單元204,各模塊具體功能參見實(shí)施例二。
所述計(jì)算機(jī)裝置1可以是桌上型計(jì)算機(jī)、筆記本、掌上電腦及云端服務(wù)器等計(jì)算設(shè)備。本領(lǐng)域技術(shù)人員可以理解,所述示意圖3僅僅是計(jì)算機(jī)裝置1的示例,并不構(gòu)成對(duì)計(jì)算機(jī)裝置1的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如所述計(jì)算機(jī)裝置1還可以包括輸入輸出設(shè)備、網(wǎng)絡(luò)接入設(shè)備、總線等。
所稱處理器30可以是中央處理單元(centralprocessingunit,cpu),還可以是其他通用處理器、數(shù)字信號(hào)處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)成可編程門陣列(field-programmablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器30也可以是任何常規(guī)的處理器等,所述處理器30是所述計(jì)算機(jī)裝置1的控制中心,利用各種接口和線路連接整個(gè)計(jì)算機(jī)裝置1的各個(gè)部分。
所述存儲(chǔ)器20可用于存儲(chǔ)所述計(jì)算機(jī)程序40和/或模塊/單元,所述處理器30通過運(yùn)行或執(zhí)行存儲(chǔ)在所述存儲(chǔ)器20內(nèi)的計(jì)算機(jī)程序和/或模塊/單元,以及調(diào)用存儲(chǔ)在存儲(chǔ)器20內(nèi)的數(shù)據(jù),實(shí)現(xiàn)所述計(jì)算機(jī)裝置1的各種功能。所述存儲(chǔ)器20可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)計(jì)算機(jī)裝置1的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器20可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如硬盤、內(nèi)存、插接式硬盤,智能存儲(chǔ)卡(smartmediacard,smc),安全數(shù)字(securedigital,sd)卡,閃存卡(flashcard)、至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。
所述計(jì)算機(jī)裝置1集成的模塊/單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,也可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的計(jì)算機(jī)程序可存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí),可實(shí)現(xiàn)上述各個(gè)方法實(shí)施例的步驟。其中,所述計(jì)算機(jī)程序包括計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼可以為源代碼形式、對(duì)象代碼形式、可執(zhí)行文件或某些中間形式等。所述計(jì)算機(jī)可讀介質(zhì)可以包括:能夠攜帶所述計(jì)算機(jī)程序代碼的任何實(shí)體或裝置、記錄介質(zhì)、u盤、移動(dòng)硬盤、磁碟、光盤、計(jì)算機(jī)存儲(chǔ)器、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、電載波信號(hào)、電信信號(hào)以及軟件分發(fā)介質(zhì)等。需要說明的是,所述計(jì)算機(jī)可讀介質(zhì)包含的內(nèi)容可以根據(jù)司法管轄區(qū)內(nèi)立法和專利實(shí)踐的要求進(jìn)行適當(dāng)?shù)脑鰷p,例如在某些司法管轄區(qū),根據(jù)立法和專利實(shí)踐,計(jì)算機(jī)可讀介質(zhì)不包括電載波信號(hào)和電信信號(hào)。
在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的計(jì)算機(jī)裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的計(jì)算機(jī)裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在相同處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在相同單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能模塊的形式實(shí)現(xiàn)。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。計(jì)算機(jī)裝置權(quán)利要求中陳述的多個(gè)單元或計(jì)算機(jī)裝置也可以由同一個(gè)單元或計(jì)算機(jī)裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
最后應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍。