亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理方法及電子設(shè)備與流程

文檔序號:11828957閱讀:192來源:國知局
信息處理方法及電子設(shè)備與流程

本發(fā)明涉及信息處理技術(shù),具體涉及一種信息處理方法及電子設(shè)備。



背景技術(shù):

市場上已經(jīng)出現(xiàn)具有語音喚醒功能的手機、個人數(shù)字助理PAD等電子設(shè)備,通過用戶輸入的預定語音數(shù)據(jù)如“您好”可實現(xiàn)對這類手機的喚醒如點亮屏幕。在對手機進行語音喚醒時,由于起到喚醒功能的語音數(shù)據(jù)如“您好”為預定數(shù)據(jù),所以手機被喚醒的速度及準確率均可達到標準要求。而對于被喚醒之后的手機,如果通過語音指令對其進行操作如通過輸入“打電話給小明”這一語音指令使手機自動撥打電話給小明時,該語音指令通常由語音采集單元采集,并通過語音識別單元來識別。通常所采集的語音數(shù)據(jù)中摻雜有噪聲數(shù)據(jù),噪聲數(shù)據(jù)的摻雜將會大大影響對有效語音的識別效果。



技術(shù)實現(xiàn)要素:

為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實施例在于提供一種信息處理方法及電子設(shè)備,能夠從所采集的語音數(shù)據(jù)中識別出有效語音數(shù)據(jù),提高語音識別準確率,提升用戶體驗。

本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:

本發(fā)明實施例提供了一種信息處理方法,應(yīng)用于一電子設(shè)備中,所述電子設(shè)備包括語音采集單元和圖像采集單元;所述方法包括:

檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,

啟動所述圖像采集單元;

通過所啟動的圖像采集單元采集第一圖像;

解析第一圖像,得到第一解析結(jié)果;

依據(jù)第一解析結(jié)果,確定第一時間信息;

依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。

上述方案中,所述第一圖像包括N張第一子圖像,N為正整數(shù);所述解析第一圖像,得到第一解析結(jié)果,包括:

判斷每一第一子圖像中的第一主體是否滿足預定條件;

確定第一主體滿足預定條件的第一子圖像為第二子圖像;

獲取所述圖像采集單元采集每一第二子圖像的第二時間信息;

基于所獲取的第二時間信息,確定所述第一時間信息。

上述方案中,所述基于所獲取的第二時間信息,確定所述第一時間信息,包括:

在第二時間信息中,確定所述圖像采集單元采集第二子圖像的開始時間以及終止時間;

確定所述開始時間與所述終止時間之間的時間段為所述第一時間信息。

上述方案中,所述依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù),包括:

在所采集的第一語音數(shù)據(jù)中,保留所述語音采集單元在所述第一時間信息上所采集到的子語音數(shù)據(jù),其中,第一語音數(shù)據(jù)包括至少一個子語音數(shù)據(jù);

確定所保留的子語音數(shù)據(jù)為第二語音數(shù)據(jù)。

上述方案中,所述電子設(shè)備包括第一狀態(tài)和第二狀態(tài),所述電子設(shè)備在第一狀態(tài)下的功耗大于第二狀態(tài);

所述電子設(shè)備還包括語音喚醒單元;所述方法還包括:

在所述電子設(shè)備處于第二狀態(tài)時,當所述電子設(shè)備接收到第一預定語音數(shù)據(jù)時,所述電子設(shè)備通過所述語音喚醒單元從第二狀態(tài)切換至第一狀態(tài);

在處于第一狀態(tài)下時,所述電子設(shè)備控制所述語音采集單元采集所述第一語音數(shù)據(jù)。

上述方案中,所述電子設(shè)備還包括語音識別單元;

在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)之后,所述方法還包括:

通過所述語音識別單元識別所述第二語音數(shù)據(jù)。

本發(fā)明實施例提供一種電子設(shè)備,所述電子設(shè)備包括語音采集單元和圖像采集單元;所述電子設(shè)備還包括:

第一啟動單元,用于檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;

第一采集單元,用于通過所啟動的圖像采集單元采集第一圖像;

第一解析單元,用于解析第一圖像,得到第一解析結(jié)果;

第一確定單元,用于依據(jù)第一解析結(jié)果,確定第一時間信息;

第一提取單元,用于依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。

上述方案中,所述第一解析單元,用于:

所述第一圖像包括N張第一子圖像,N為正整數(shù);

判斷每一第一子圖像中的第一主體是否滿足預定條件;

確定第一主體滿足預定條件的第一子圖像為第二子圖像;

獲取所述圖像采集單元采集每一第二子圖像的第二時間信息;

相應(yīng)的,第一確定單元,用于基于所獲取的第二時間信息,確定所述第一時間信息。

上述方案中,所述第一確定單元,還用于:

在第二時間信息中,確定所述圖像采集單元采集第二子圖像的開始時間以及終止時間;

確定所述開始時間與所述終止時間之間的時間段為所述第一時間信息。

上述方案中,所述第一提取單元,還用于:

在所采集的第一語音數(shù)據(jù)中,保留所述語音采集單元在所述第一時間信息上所采集到的子語音數(shù)據(jù),其中,第一語音數(shù)據(jù)包括至少一個子語音數(shù)據(jù);確定所保留的子語音數(shù)據(jù)為第二語音數(shù)據(jù)。

上述方案中,所述電子設(shè)備包括第一狀態(tài)和第二狀態(tài),所述電子設(shè)備在第一狀態(tài)下的功耗大于第二狀態(tài);所述電子設(shè)備包括語音喚醒單元;

所述電子設(shè)備還包括:

第一切換單元,用于在處于第二狀態(tài)時,當接收到第一預定語音數(shù)據(jù)時,通過所述語音喚醒單元從第二狀態(tài)切換至第一狀態(tài);

第一控制單元,用于在處于第一狀態(tài)下時,控制所述語音采集單元采集所述第一語音數(shù)據(jù)。

上述方案中,所述電子設(shè)備還包括語音識別單元,用于識別所述第二語音數(shù)據(jù)。

本發(fā)明實施例提供的信息處理方法及電子設(shè)備,其中,所述方法包括:檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;通過所啟動的圖像采集單元采集第一圖像;解析第一圖像,得到第一解析結(jié)果;依據(jù)第一解析結(jié)果,確定第一時間信息;依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。本方案將語音采集單元與圖像采集單元進行結(jié)合且通過對圖像采集單元所采集的圖像的解析,確定有效語音的輸入時間,并從語音采集單元所采集的摻雜有噪聲的第一語音數(shù)據(jù)中提取出在所述輸入時間上采集到的語音數(shù)據(jù),該語音數(shù)據(jù)即為用戶輸入的有效語音,不摻雜有噪聲。由此可見,本方案能夠從所采集的語音數(shù)據(jù)中識別出有效語音數(shù)據(jù),提高語音識別準確率,提升用戶體驗。

附圖說明

圖1為本發(fā)明提供的信息處理方法的第一實施例的實現(xiàn)流程示意圖;

圖2為本發(fā)明提供的信息處理方法的第二實施例的實現(xiàn)流程示意圖;

圖3為本發(fā)明提供的電子設(shè)備的第一實施例的組成結(jié)構(gòu)示意圖;

圖4為本發(fā)明提供的電子設(shè)備的第二實施例的組成結(jié)構(gòu)示意圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行詳細說明,應(yīng)當理解,以下所說明的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。

在本發(fā)明提供的信息處理方法及電子設(shè)備以下各實施例中,所涉及的電子設(shè)備包括但不限于:工業(yè)控制計算機、個人計算機等各種類型計算機、一體式電腦、平板電腦、手機、電子閱讀器等。本發(fā)明實施例優(yōu)選的電子設(shè)備的對象為手機或平板電腦。

方法實施例一

本發(fā)明提供的信息處理方法的第一實施例,應(yīng)用于一電子設(shè)備中,所述電子設(shè)備包括一語音采集單元和圖像采集單元。所述語音采集單元可以為麥克MIC;所述圖像采集單元可以為攝像頭。當所述電子設(shè)備內(nèi)置有具有語音喚醒功能的語音喚醒芯片時,該芯片既可以執(zhí)行語音采集功能也可以執(zhí)行語音識別功能即既可以作為語音采集單元也可以作為語音識別單元。

圖1為本發(fā)明提供的信息處理方法的第一實施例的實現(xiàn)流程示意圖;如圖1所示,所述方法包括:

步驟101:檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;

這里,所述第一語音數(shù)據(jù)為摻雜有噪聲的語音數(shù)據(jù)。語音采集單元與圖像采集單元可以同時啟動,也可以語音采集單元先啟動,當語音采集單元檢測有語音輸入時,圖像采集單元再啟動,此處不做具體限定。

步驟102:通過所啟動的圖像采集單元采集第一圖像;

這里,通過圖像采集單元如攝像頭采集圖像。

步驟103:解析第一圖像,得到第一解析結(jié)果;

這里,對所采集的圖像進行解析,如判斷所采集到的圖像所包括的第一主體如人的面部是否滿足預定條件如嘴巴是否處于張開的狀態(tài)。

步驟104:依據(jù)第一解析結(jié)果,確定第一時間信息;

這里,依據(jù)對圖像的解析結(jié)果,確定采集到嘴巴處于張開狀態(tài)的圖像的時間信息。

步驟105:依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。

這里,所述第二語音數(shù)據(jù)為用戶輸入的有效語音即不摻雜有噪聲的語音數(shù)據(jù)。依據(jù)第一時間信息,從摻雜有噪聲數(shù)據(jù)的語音中提取出用戶輸入的有效語音。

由于人在說話時,面部如嘴巴會動,本實施例靈活應(yīng)用人體的這一生理特性,在語音采集單元采集到摻雜有噪聲的語音數(shù)據(jù)時,啟動攝像頭采集人的面部圖像,當由解析出該圖像為人的面部在動作時,確定采集該圖像的時間,可確認在該時間內(nèi)采集到的語音數(shù)據(jù)為用戶輸入至電子設(shè)備的有效語音,而語音采集單元在該時間之外的其余時間所采集的數(shù)據(jù)均不是用戶輸入的有效語音。由此可見,本方案能夠從所采集的摻雜有噪聲的語音數(shù)據(jù)中識別出有效語音數(shù)據(jù),提高了語音識別準確率,提升了用戶體驗。

方法實施例二

本發(fā)明提供的信息處理方法的第二實施例,應(yīng)用于一電子設(shè)備中,所述電子設(shè)備包括一語音采集單元和圖像采集單元。所述語音采集單元可以為麥克MIC;所述圖像采集單元可以為攝像頭。當所述電子設(shè)備內(nèi)置有具有語音喚醒功能的語音喚醒芯片時,該芯片既可以執(zhí)行語音采集功能也可以執(zhí)行語音識別功能即該芯片既可以作為語音采集單元也可以作為語音識別單元。

圖2為本發(fā)明提供的信息處理方法的第二實施例的實現(xiàn)流程示意圖;如圖2所示,所述方法包括:

步驟201:檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;

這里,所述第一語音數(shù)據(jù)為摻雜有噪聲的語音數(shù)據(jù)。語音采集單元與圖像采集單元可以同時啟動,也可以語音采集單元先啟動,當語音采集單元檢測有語音輸入時,圖像采集單元再啟動,此處不做具體限定。

步驟202:通過所啟動的圖像采集單元采集第一圖像;

這里,通過圖像采集單元如攝像頭采集圖像。

步驟203:判斷每一第一子圖像中的第一主體是否滿足預定條件;確定第 一主體滿足預定條件的第一子圖像為第二子圖像;獲取所述圖像采集單元采集每一第二子圖像的第二時間信息;所述第一圖像包括N張第一子圖像,N為正整數(shù);

這里,所述第一主體為人的面部如嘴巴;所述預定條件為面部在動的圖像如嘴巴是否處于張開的圖像。舉個例子,如語音采集單元共采集到15s的第一語音數(shù)據(jù),在這15s內(nèi),圖像采集單元采集到的圖像可能不止一張圖像為多張第一子圖像,那么逐個判斷所采集到的每個第一子圖像中的面部如嘴巴是否處于張開狀態(tài),如果是,則確定這樣的第一子圖像為第二子圖像,并確定采集每一第二子圖像時的時間信息。例如在15s內(nèi),確定出的第二子圖像的數(shù)量為3個,為第二子圖像1、第二子圖像2以及第二子圖像3,再確定采集這三個第二子圖像每一第二子圖像的時間信息,并將該時間信息作為第二時間信息。

步驟204:基于所獲取的第二時間信息,確定所述第一時間信息;

本步驟中,進一步的,在第二時間信息中,確定所述圖像采集單元采集第二子圖像的開始時間以及終止時間;確定所述開始時間與所述終止時間之間的時間段為所述第一時間信息。

具體的,當用戶說話時將會伴隨有面部動作如嘴巴張開的狀態(tài),如果確定采集第二子圖像1、第二子圖像2及第二子圖像3這三個第二子圖像的時間比較靠近如小于等于第一閾值如1s,如采集第二子圖像1為在15s內(nèi)的第6s、采集第二子圖像2為在15s內(nèi)的第7s以及采集第二子圖像3為在15s內(nèi)的第8s,那么可以認為采集第二子圖像的開始時間與終止時間之間的時間段為該15內(nèi)的第6s~8s(第一時間信息),這種情況下存在有很大的可能就是用戶在15s內(nèi)只輸入有一段有效語音。

步驟205:依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù);

進一步的,在所采集的第一語音數(shù)據(jù)中,保留所述語音采集單元在所述第一時間信息上所采集到的子語音數(shù)據(jù),其中,第一語音數(shù)據(jù)包括至少一個子語音數(shù)據(jù);確定所保留的子語音數(shù)據(jù)為第二語音數(shù)據(jù)。

具體的,語音采集單元共采集到15s的第一語音數(shù)據(jù),在這15s的第一語 音數(shù)據(jù)中,只有在第6s~8s采集到的語音數(shù)據(jù)為用戶輸入的有效語音,其余時間內(nèi)采集到的語音數(shù)據(jù)均為噪聲數(shù)據(jù),該噪聲數(shù)據(jù)可包括人為噪聲及環(huán)境噪聲。

上述方案中,以采集到的第二子圖像1、第二子圖像2及第二子圖像3這三個第二子圖像的時間比較接近為例進行的說明,此外,當采集這三個第二子圖像的時間比較遠如大于等于第二閾值如3s,如在15s內(nèi)的第1s與2s采集到第二子圖像1、在15s內(nèi)的第7與8s采集到第二子圖像2以及在15s內(nèi)的第14s與15s采集到第二子圖像3,那么可以認為采集第二子圖像的開始時間與終止時間之間的時間段(第一時間信息)為3個,分別為前2s、中間的第7與8秒、最后2s。這種情況下,可認為用戶在15s內(nèi)輸入有多段有效語音。在語音采集單元采集到的15s的第一語音數(shù)據(jù)中,保留在前2s內(nèi)采集到的子語音,保留在中間的第7與8秒采集到的子語音,以及保留在最后2s采集到的子語音,刪除其余時間采集到的子語音,所保留下的多段子語音即為用戶輸入的有效語音數(shù)據(jù),所刪除的為噪聲數(shù)據(jù)。由此可見,本實施例中,將語音采集單元與圖像采集單元進行結(jié)合且通過對圖像采集單元所采集的圖像的解析,確定有效語音的輸入時間,并從語音采集單元所采集的第一語音數(shù)據(jù)中提取出在所述輸入時間上采集到的語音數(shù)據(jù),所提取出的語音數(shù)據(jù)即為不摻雜有噪聲的由用戶輸入的有效語音數(shù)據(jù)。

在本發(fā)明一個優(yōu)選的實施例中,所述電子設(shè)備包括第一狀態(tài)和第二狀態(tài),所述電子設(shè)備在第一狀態(tài)下的功耗大于第二狀態(tài);所述第一狀態(tài)為喚醒狀態(tài);所述第二狀態(tài)為休眠狀態(tài);所述電子設(shè)備還包括語音喚醒單元;所述方法還包括:在所述電子設(shè)備處于第二狀態(tài)時,當所述電子設(shè)備接收到第一預定語音數(shù)據(jù)時,所述電子設(shè)備通過所述語音喚醒單元從第二狀態(tài)切換至第一狀態(tài);在處于第一狀態(tài)下時,所述電子設(shè)備控制所述語音采集單元采集所述第一語音數(shù)據(jù)。

這里,當所述電子設(shè)備處于休眠狀態(tài)時,當接收到如“您好”、或“您早”等預定語音數(shù)據(jù)時,通過語音喚醒單元所述電子設(shè)備能夠從休眠狀態(tài)切換至喚醒狀態(tài),即電子設(shè)備被喚醒。由于電子設(shè)備只要處于被喚醒狀態(tài),內(nèi)置有語音喚醒單元的語音喚醒芯片就可以實現(xiàn)對輸入語音的監(jiān)聽,當有語音不論是噪聲 還是有效語音輸入時,該語音喚醒芯片均可采集到該數(shù)據(jù)。對于具有語音喚醒芯片的電子設(shè)備如手機來說,無需額外設(shè)置一個器件用于采集第一語音數(shù)據(jù),而通過語音喚醒芯片即可實現(xiàn)第一語音數(shù)據(jù)的采集,可大大節(jié)省生產(chǎn)成本。其中,對于語音喚醒的實現(xiàn)過程請參見現(xiàn)有相關(guān)描述,此處不贅述。

在本發(fā)明另一優(yōu)選的實施例中,所述電子設(shè)備還包括語音識別單元;在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)之后,所述方法還包括:通過所述語音識別單元識別所述第二語音數(shù)據(jù)。具體的,在提取出用戶輸入的有效語音數(shù)據(jù)后,可通過語音識別單元對該用戶輸入的有效語音進行識別,然后所述電子設(shè)備執(zhí)行用戶輸入的語音指令,例如,當識別出用戶輸入的有效語音為“請打電話給小明”,電子設(shè)備識別出這句語音指令后,進入電話薄界面,查找小明的電話,并撥打,從而實現(xiàn)了對電子設(shè)備的語音控制功能。其中,對于具有語音喚醒功能的電子設(shè)備如手機來說,語音識別單元的功能也可通過語音喚醒芯片來實現(xiàn)。

綜上所述,本方案將語音采集單元與圖像采集單元進行結(jié)合且通過對圖像采集單元所采集的圖像的解析,確定有效語音的輸入時間,并從語音采集單元所采集的摻雜有噪聲的第一語音數(shù)據(jù)中提取出在所述輸入時間上采集到的語音數(shù)據(jù),所提取出的語音數(shù)據(jù)即為不摻雜有噪聲的由用戶輸入的有效語音數(shù)據(jù)。由此可見,本方案能夠從所采集的摻雜有噪聲的語音數(shù)據(jù)中識別出由用戶輸入的有效語音數(shù)據(jù),提高了語音識別準確率,提升了用戶體驗。

設(shè)備實施例一

本發(fā)明提供的電子設(shè)備的第一實施例,所述電子設(shè)備包括一語音采集單元和圖像采集單元。所述語音采集單元可以為麥克MIC;所述圖像采集單元可以為攝像頭。當所述電子設(shè)備內(nèi)置有具有語音喚醒功能的語音喚醒芯片時,該芯片既可以執(zhí)行語音采集功能也可以執(zhí)行語音識別功能即既可以作為語音采集單元也可以作為語音識別單元。

圖3為本發(fā)明提供的電子設(shè)備的第一實施例的組成結(jié)構(gòu)示意圖;如圖3所示,所述電子設(shè)備包括:第一啟動單元301、第一采集單元302、第一解析單元 303、第一確定單元304及第一提取單元305;其中,

第一啟動單元301,用于檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;

這里,所述第一語音數(shù)據(jù)為摻雜有噪聲的語音數(shù)據(jù)。所述電子設(shè)備、具體是所述第一啟動單元301可將語音采集單元與圖像采集單元可以同時啟動,也可以將語音采集單元先啟動,當語音采集單元檢測有語音輸入時,再啟動圖像采集單元,此處不做具體限定。

第一采集單元302,用于通過所啟動的圖像采集單元采集第一圖像;

這里,所述電子設(shè)備、具體是第一采集單元302通過圖像采集單元如攝像頭采集圖像。

第一解析單元303,用于解析第一圖像,得到第一解析結(jié)果;

這里,所述電子設(shè)備、具體是第一解析單元303對所采集的圖像進行解析,如判斷所采集到的圖像所包括的第一主體如人的面部是否滿足預定條件如嘴巴是否處于張開的狀態(tài)。

第一確定單元304,用于依據(jù)第一解析結(jié)果,確定第一時間信息;

這里,所述電子設(shè)備、具體是第一確定單元304依據(jù)對圖像的解析結(jié)果,確定采集到嘴巴處于張開狀態(tài)的圖像的時間信息。

第一提取單元305,用于依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。

這里,所述第二語音數(shù)據(jù)為用戶輸入的有效語音即不摻雜有噪聲的語音數(shù)據(jù)。所述電子設(shè)備、具體是第一提取單元305依據(jù)第一時間信息,從摻雜有噪聲數(shù)據(jù)的語音中提取出用戶輸入的有效語音。

由于人在說話時,面部如嘴巴會動,本實施例靈活應(yīng)用人體的這一生理特性,在語音采集單元采集到摻雜有噪聲的語音數(shù)據(jù)時,所述電子設(shè)備、具體是第一啟動單元301啟動攝像頭,第一采集單元302通過攝像頭采集圖像,當由第一解析單元303解析出該圖像為人的面部在動作時,第一確定單元304確定采集該圖像的時間,第一提取單元305可確認在該時間內(nèi)采集到的語音數(shù)據(jù)為 用戶輸入至電子設(shè)備的有效語音,而語音采集單元在該時間之外的其余時間所采集的數(shù)據(jù)均不是用戶輸入的有效語音。由此可見,本方案能夠從所采集的摻雜有噪聲的語音數(shù)據(jù)中識別出有效語音數(shù)據(jù),提高了語音識別準確率,提升了用戶體驗。

設(shè)備實施例二

本發(fā)明提供的電子設(shè)備的第二實施例,所述電子設(shè)備包括一語音采集單元和圖像采集單元。所述語音采集單元可以為麥克MIC;所述圖像采集單元可以為攝像頭。當所述電子設(shè)備內(nèi)置有具有語音喚醒功能的語音喚醒芯片時,該芯片既可以執(zhí)行語音采集功能也可以執(zhí)行語音識別功能即既可以作為語音采集單元也可以作為語音識別單元。

圖4為本發(fā)明提供的電子設(shè)備的第二實施例的組成結(jié)構(gòu)示意圖;如圖4所示,所述電子設(shè)備包括:第一啟動單元401、第一采集單元402、第一解析單元403、第一確定單元404及第一提取單元405;其中,

第一啟動單元401,用于檢測到所述語音采集單元采集第一語音數(shù)據(jù)時,啟動所述圖像采集單元;

這里,所述第一語音數(shù)據(jù)為摻雜有噪聲的語音數(shù)據(jù)。所述電子設(shè)備、具體是所述第一啟動單元401可將語音采集單元與圖像采集單元可以同時啟動,也可以將語音采集單元先啟動,當語音采集單元檢測有語音輸入時,再啟動圖像采集單元,此處不做具體限定。

第一采集單元402,用于通過所啟動的圖像采集單元采集第一圖像;

這里,所述電子設(shè)備、具體是第一采集單元402通過圖像采集單元如攝像頭采集圖像。

所述第一解析單元403,用于:所述第一圖像包括N張第一子圖像,N為正整數(shù);判斷每一第一子圖像中的第一主體是否滿足預定條件;確定第一主體滿足預定條件的第一子圖像為第二子圖像;獲取所述圖像采集單元采集每一第二子圖像的第二時間信息;

這里,所述第一主體為人的面部如嘴巴;所述預定條件為面部在動的圖像如嘴巴是否處于張開的圖像。舉個例子,如語音采集單元共采集到15s的第一語音數(shù)據(jù),在這15s內(nèi),圖像采集單元采集到的圖像可能不止一張圖像為多張第一子圖像,那么所述電子設(shè)備、具體是第一解析單元403逐個判斷所采集到的每個第一子圖像中的面部如嘴巴是否處于張開狀態(tài),如果是,則確定這樣的第一子圖像為第二子圖像,并確定采集每一第二子圖像時的時間信息。例如在15s內(nèi),確定出的第二子圖像的數(shù)量為3個,為第二子圖像1、第二子圖像2以及第二子圖像3,再確定采集這三個第二子圖像每一第二子圖像的時間信息,并將該時間信息作為第二時間信息。

第一確定單元404,用于基于所獲取的第二時間信息,確定所述第一時間信息。

進一步的,所述第一確定單元404,還用于在第二時間信息中,確定所述圖像采集單元采集第二子圖像的開始時間以及終止時間;確定所述開始時間與所述終止時間之間的時間段為所述第一時間信息。

具體的,當用戶說話時將會伴隨有面部動作如嘴巴張開的狀態(tài),如果第一確定單元404確定采集第二子圖像1、第二子圖像2及第二子圖像3這三個第二子圖像的時間比較靠近如小于等于第一閾值如1s,如采集第二子圖像1為在15s內(nèi)的第6s、采集第二子圖像2為在15s內(nèi)的第7s以及采集第二子圖像3為在15s內(nèi)的第8s,那么可以認為采集第二子圖像的開始時間與終止時間之間的時間段為該15內(nèi)的第6s~8s(第一時間信息),這種情況下存在有很大的可能就是用戶在15s內(nèi)只輸入有一段有效語音。

所述第一提取單元405,用于依據(jù)第一時間信息,在第一語音數(shù)據(jù)中提取出第二語音數(shù)據(jù)。

進一步的,所述第一提取單元405,還用于:在所采集的第一語音數(shù)據(jù)中,保留所述語音采集單元在所述第一時間信息上所采集到的子語音數(shù)據(jù),其中,第一語音數(shù)據(jù)包括至少一個子語音數(shù)據(jù);確定所保留的子語音數(shù)據(jù)為第二語音數(shù)據(jù)。

具體的,語音采集單元共采集到15s的第一語音數(shù)據(jù),在這15s的第一語音數(shù)據(jù)中,所述第一提取單元405提取在第6s~8s語音采集單元采集到的數(shù)據(jù),因為在第6s~8s采集到的語音數(shù)據(jù)為用戶輸入的有效語音,其余時間內(nèi)采集到的語音數(shù)據(jù)均為噪聲數(shù)據(jù),該噪聲數(shù)據(jù)可包括人為噪聲及環(huán)境噪聲。

上述方案中,以采集到的第二子圖像1、第二子圖像2及第二子圖像3這三個第二子圖像的時間比較接近為例進行的說明,此外,當?shù)谝淮_定單元404確定出采集這三個第二子圖像的時間比較遠如大于等于第二閾值如3s,如在15s內(nèi)的第1s與2s采集到第二子圖像1、在15s內(nèi)的第7與8s采集到第二子圖像2以及在15s內(nèi)的第14s與15s采集到第二子圖像3,那么可以認為采集第二子圖像的開始時間與終止時間之間的時間段(第一時間信息)為3個,分別為前2s、中間的第7與8秒、最后2s。這種情況下,可認為用戶在15s內(nèi)輸入有多段有效語音。在語音采集單元采集到的15s的第一語音數(shù)據(jù)中,所述第一提取單元405保留在前2s內(nèi)采集到的子語音,保留在中間的第7與8秒采集到的子語音,以及保留在最后2s采集到的子語音,刪除其余時間采集到的子語音,所保留下的多段子語音即為用戶輸入的有效語音數(shù)據(jù),所刪除的為噪聲數(shù)據(jù)。由此可見,本實施例中,將語音采集單元與圖像采集單元進行結(jié)合且通過對圖像采集單元所采集的圖像的解析,確定有效語音的輸入時間,并從語音采集單元所采集的第一語音數(shù)據(jù)中提取出在所述輸入時間上采集到的語音數(shù)據(jù),所提取出的語音數(shù)據(jù)即為不摻雜有噪聲的由用戶輸入的有效語音數(shù)據(jù)。

在本發(fā)明一個實施例中,所述電子設(shè)備包括第一狀態(tài)和第二狀態(tài),所述電子設(shè)備在第一狀態(tài)下的功耗大于第二狀態(tài);所述第一狀態(tài)為喚醒狀態(tài);所述第二狀態(tài)為休眠狀態(tài);所述電子設(shè)備包括語音喚醒單元。

如圖4所示,所述電子設(shè)備還包括:

第一切換單元406,用于在處于第二狀態(tài)時,當接收到第一預定語音數(shù)據(jù)時,通過所述語音喚醒單元從第二狀態(tài)切換至第一狀態(tài);

第一控制單元407,用于在處于第一狀態(tài)下時,控制所述語音采集單元采集所述第一語音數(shù)據(jù)。

這里,當所述電子設(shè)備處于休眠狀態(tài)時,當接收到如“您好”、或“您早”等預定語音數(shù)據(jù)時,所述電子設(shè)備、具體是第一切換單元406通過語音喚醒單元使得所述電子設(shè)備從休眠狀態(tài)切換至喚醒狀態(tài),即電子設(shè)備被喚醒。由于電子設(shè)備只要處于被喚醒狀態(tài),內(nèi)置有語音喚醒單元的語音喚醒芯片就可以實現(xiàn)對輸入語音的監(jiān)聽,當有語音不論是噪聲還是有效語音輸入時,該語音喚醒芯片均可采集到該數(shù)據(jù)。對于具有語音喚醒芯片的電子設(shè)備如手機來說,無需額外設(shè)置一個器件用于采集第一語音數(shù)據(jù),而通過第一控制單元407對語音喚醒芯片的控制即可實現(xiàn)第一語音數(shù)據(jù)的采集,可大大節(jié)省生產(chǎn)成本。其中,對于語音喚醒的實現(xiàn)過程請參見現(xiàn)有相關(guān)描述,此處不贅述。

在本發(fā)明另一個實施例中,所述電子設(shè)備還包括語音識別單元,用于識別所述第二語音數(shù)據(jù)。

具體的,在第一提取單元405提取出用戶輸入的有效語音數(shù)據(jù)后,所述電子設(shè)備可通過語音識別單元對該用戶輸入的有效語音進行識別,然后所述電子設(shè)備執(zhí)行用戶輸入的語音指令,例如,當識別出用戶輸入的有效語音為“請打電話給小明”,電子設(shè)備識別出這句語音指令后,進入電話薄界面,查找小明的電話,并撥打,從而實現(xiàn)了對電子設(shè)備的語音控制功能。其中,對于具有語音喚醒功能的電子設(shè)備如手機來說,語音識別單元的功能也可通過語音喚醒芯片來實現(xiàn)。

綜上所述,本方案將語音采集單元與圖像采集單元進行結(jié)合且通過對圖像采集單元所采集的圖像的解析,確定有效語音的輸入時間,并從語音采集單元所采集的摻雜有噪聲的第一語音數(shù)據(jù)中提取出在所述輸入時間上采集到的語音數(shù)據(jù),所提取出的語音數(shù)據(jù)即為不摻雜有噪聲的由用戶輸入的有效語音數(shù)據(jù)。由此可見,本方案能夠從所采集的摻雜有噪聲的語音數(shù)據(jù)中識別出由用戶輸入的有效語音數(shù)據(jù),提高了語音識別準確率,提升了用戶體驗。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設(shè)備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式, 如:多個單元或組件可以結(jié)合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。

上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位于一個地方,也可以分布到多個網(wǎng)絡(luò)單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設(shè)備、只讀存儲器(ROM,Read-Only Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1