語音控制方法和裝置與流程

文檔序號：11931149閱讀：299來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及語音識別領(lǐng)域，特別涉及語音控制方法和裝置。

背景技術(shù)：

現(xiàn)階段，帶有語音控制功能的電子裝置一般來說硬件上只有一路麥克風(fēng)或拾音器等作為音頻輸入單元，語音通話或者錄入聲音的時候，這一路麥克風(fēng)會被占用，語音識別引擎程序就無法使用這一路麥克風(fēng)進(jìn)行語音指令的識別?，F(xiàn)有技術(shù)通常是將語音引擎和視頻通話或者語音錄入寫在一個應(yīng)用里，這樣語音先經(jīng)過語音引擎識別，經(jīng)過識別不是指令，則把語音透傳給視頻通話或者語音錄入邏輯，但這樣做有兩個缺點：

1.所有普通語音都要經(jīng)過語音識別處理，再進(jìn)行錄入，語音有較大延時，很容易音視頻不同步。

2.需要定制視頻通話或者語音錄入程序，因為需要使用語音引擎提供的API來導(dǎo)入聲音，機器人上無法使用普通的調(diào)用Android標(biāo)準(zhǔn)AudioRecord的第三方視頻通話或者語音錄入程序。

技術(shù)實現(xiàn)要素：

為了克服現(xiàn)有技術(shù)的不足，本發(fā)明的目的在于提供語音控制方法和裝置，其能解決現(xiàn)有技術(shù)通常是將語音引擎和視頻通話或者語音錄入寫在一個應(yīng)用里，所有普通語音都要經(jīng)過語音識別處理，再進(jìn)行錄入，語音有較大延時，很容易音視頻不同步，且需要定制視頻通話或者語音錄入程序的問題。

本發(fā)明的目的采用以下技術(shù)方案實現(xiàn)：

語音控制方法，應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)，所述語音控制方法包括以下步驟：

獲取所述第一音頻單元輸入的第一語音信息；

識別所述第一語音信息中的語音指令；

根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息；

若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

優(yōu)選的，所述獲取所述第一音頻單元輸入的第一語音信息之前，還包括以下步驟：

接收喚醒所述第一音頻單元的喚醒指令；

判斷是否允許喚醒所述第一音頻單元；

若允許喚醒所述第一音頻單元，則喚醒所述第一音頻單元。

優(yōu)選的，所述若需要，則停止獲取所述第二音頻單元輸入的第二語音信息，具體為：若需要停止獲取所述第二音頻單元輸入的第二語音信息，則掛斷音頻通話或視頻通話。

優(yōu)選的，所述獲取所述第一音頻單元輸入的第一語音信息之前，還包括以下步驟：

分配所述第一音頻單元為語音識別引擎的輸入源。

另一方面，本發(fā)明還公開了語音控制裝置，包括：

第一獲取單元，用于獲取所述第一音頻單元輸入的第一語音信息；

第二獲取單元，用于獲取所述第二音頻單元輸入的第二語音信息；

識別單元，用于識別所述第一語音信息中的語音指令；

第一判斷單元，用于根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息；

停止單元，用于若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

優(yōu)選的，所述語音控制裝置還包括：

接收單元，用于接收喚醒所述第一音頻單元的喚醒指令；

第二判斷單元，用于判斷是否允許喚醒所述第一音頻單元，若允許喚醒所述第一音頻單元，則喚醒所述第一音頻單元。

優(yōu)選的，所述停止單元包括：

掛斷單元，用于若需要停止獲取所述第二音頻單元輸入的第二語音信息，則掛斷音頻通話或視頻通話。

優(yōu)選的，所述語音控制裝置還包括：

分配單元，用于分配所述第一音頻單元為語音識別引擎的輸入源。

優(yōu)選的，所述第一音頻單元和第二音頻單元均包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無線音頻輸入裝置。

語音控制裝置，包括：

處理器以及用于存儲處理器可執(zhí)行的指令的存儲器；

所述處理器被配置為：

獲取所述第一音頻單元輸入的第一語音信息；

識別所述第一語音信息中的語音指令；

根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息；

若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

相比現(xiàn)有技術(shù)，本發(fā)明的有益效果在于：通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中，將第一音頻單元作為語音識別引擎的音頻輸入源，第二音頻單元作為通話錄音等其他應(yīng)用的輸入源，實現(xiàn)在通話或者錄音過程中可以并行識別語音指令。解決了業(yè)界普遍存在的在音視頻通話中無法同時用語音并行處理語音指令(包括掛斷音頻通話)的問題。該方法無需定制音視頻通話或錄音程序，且避免了錄音延遲，導(dǎo)致音視頻不同步的問題。

附圖說明

圖1是本發(fā)明實施例一提供的語音控制方法的流程示意圖。

圖2是本發(fā)明實施例二提供的語音控制方法的流程示意圖。

圖3是本發(fā)明實施例三提供的語音控制裝置的結(jié)構(gòu)示意圖。

圖4是本發(fā)明實施例四提供的語音控制裝置的結(jié)構(gòu)示意圖。

具體實施方式

上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點能夠更明顯易懂，以下特舉較佳實施例，并配合附圖，詳細(xì)說明如下。

實施例一：

如圖1所示的語音控制方法，應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)。針對語音通話和錄音功能占有音頻輸入單元，導(dǎo)致語音識別引擎無法使用麥克風(fēng)等音頻輸入單元進(jìn)行語音指令識別的缺點，在硬件上多引入了一路音頻輸入單元，將語音識別引擎的聲源指定為多加的這一路音頻輸入單元，在通話或者錄音過程中可以并行識別語音指令。

具體的，在硬件上多引入一路麥克風(fēng)源，可以通過I2S(Inter—IC Sound)總線接入，該總線專責(zé)于音頻設(shè)備之間的數(shù)據(jù)傳輸，廣泛應(yīng)用于各種多媒體系統(tǒng)。它采用了沿獨立的導(dǎo)線傳輸時鐘與數(shù)據(jù)信號的設(shè)計，通過將數(shù)據(jù)和時鐘信號分離，避免了因時差誘發(fā)的失真，為用戶節(jié)省了購買抵抗音頻抖動的專業(yè)設(shè)備的費用。

音頻輸入單元可以包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無線音頻輸入裝置。

所述語音控制方法包括以下步驟：

S110，獲取所述第一音頻單元輸入的第一語音信息。

預(yù)先已經(jīng)設(shè)定第一音頻單元為語音識別引擎的音頻輸入源，第一語音信息作為語音識別引擎進(jìn)行語音識別的對象。

S120，識別所述第一語音信息中的語音指令。

語音識別引擎預(yù)先存儲有語音指令和與語音指令相對應(yīng)的應(yīng)用、處理數(shù)據(jù)、做出動作等反應(yīng)機制。處理器、控制器中的語音識別引擎或者獨立的語音識別芯片對第一語音信息做處理，識別第一語音信息中是否有與預(yù)先存儲的語音指令對應(yīng)的信息，若有，則進(jìn)行步驟S130；若沒有，則繼續(xù)獲取所述第一音頻單元輸入的第一語音信息。

S130，根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息。

語音識別引擎中預(yù)先存儲的語音指令，有些優(yōu)先級較高，或者第二音頻單元輸入第二語音信息會干擾語音指令相應(yīng)的反應(yīng)機制，就需要停止獲取所述第二音頻單元輸入的第二語音信息。當(dāng)然也包括第一語音信息中的語音指令相應(yīng)的反應(yīng)機制就是停止獲取所述第二音頻單元輸入的第二語音信息這種情況。

S140，若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

具體的，是通過向正在使用第二音頻單元的應(yīng)用如音視頻通話、錄音等發(fā)送關(guān)閉或中止命令，停止第二音頻單元的輸入。

所述若需要，則停止獲取所述第二音頻單元輸入的第二語音信息，具體為：若需要停止獲取所述第二音頻單元輸入的第二語音信息，則掛斷音頻通話或視頻通話，音頻通話也可是錄音過程，視頻通話也可以是錄像過程。

本實施例提供的語音控制方法，通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中，將第一音頻單元作為語音識別引擎的音頻輸入源，第二音頻單元作為通話錄音等其他應(yīng)用的輸入源，實現(xiàn)在通話或者錄音過程中可以并行識別語音指令。解決了業(yè)界普遍存在的在音視頻通話中無法同時用語音并行處理語音指令(包括掛斷音頻通話)的問題。該方法無需定制音視頻通話或錄音程序，且避免了錄音延遲，導(dǎo)致音視頻不同步的問題。

實施例二：

如圖2所示的語音控制方法，應(yīng)用于設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)，所述語音控制方法包括以下步驟：

S201，分配所述第一音頻單元為語音識別引擎的輸入源。本發(fā)明涉及的“第一”和“第二”僅用于區(qū)別不同部件，不具備區(qū)分順序作用?？梢苑峙渌龅谝灰纛l單元為語音識別引擎的輸入源，當(dāng)然也可以分配其他音頻單元，如第二音頻單元為語音識別引擎的輸入源。

具體的，所述分配可以通過應(yīng)用程序編程接口(Application Programming Interface,API)等手段來實現(xiàn)。

通過可以分配語音識別引擎的輸入源，可以方便布置或調(diào)整第一音頻單元和第二音頻單元的位置。

作為本發(fā)明的進(jìn)一步改進(jìn)，所述語音控制方法還包括以下步驟：

S202，接收喚醒所述第一音頻單元的喚醒指令。

具體的，可以為啟動語音識別引擎設(shè)置一條專用指令。在語音識別引擎未啟動之前，即使識別到語音識別引擎預(yù)先存儲的語音指令，也不會執(zhí)行與所述語音指令相對應(yīng)的事件。

S203，判斷是否允許喚醒所述第一音頻單元。如果設(shè)備處于緊急通話狀態(tài)或有比所述喚醒動作優(yōu)先級高的指令，即使接收到喚醒所述第一音頻單元的喚醒指令，第一音頻單元也不允許向語音識別引擎輸出音頻信息。

S204，若允許喚醒所述第一音頻單元，則喚醒所述第一音頻單元。第一音頻單元激活生效，允許獲取所述第一音頻單元輸入的第一語音信息，即執(zhí)行步驟S210。

通過使語音識別引擎可關(guān)閉和開啟，實現(xiàn)設(shè)備計算資源的高效利用，而同樣可以保證本發(fā)明所要實現(xiàn)的效果：通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中，將第一音頻單元作為語音識別引擎的音頻輸入源，第二音頻單元作為通話錄音等其他應(yīng)用的輸入源，實現(xiàn)在通話或者錄音過程中可以并行識別語音指令。

S210，獲取所述第一音頻單元輸入的第一語音信息。

S220，識別所述第一語音信息中的語音指令。

S230，根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息。

S240，若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

步驟S210、S220、S230和S240，分別對應(yīng)實施例一中的S110、S120、S130和S140，不再贅述。

實施例三：

如圖3所示的語音控制裝置，包括：

111，第一獲取單元，用于獲取所述第一音頻單元輸入的第一語音信息。

112，第二獲取單元，用于獲取所述第二音頻單元輸入的第二語音信息。

典型的，所述第一音頻單元和第二音頻單元均包括麥克風(fēng)、麥克風(fēng)矩陣、麥克風(fēng)接口、麥克風(fēng)矩陣接口或無線音頻輸入裝置。

101，分配單元，用于分配所述第一音頻單元為語音識別引擎的輸入源。

102，接收單元，用于接收喚醒所述第一音頻單元的喚醒指令；

103第二判斷單元，用于判斷是否允許喚醒所述第一音頻單元，若允許喚醒所述第一音頻單元，則喚醒所述第一音頻單元。

120，識別單元，用于識別所述第一語音信息中的語音指令；

130，第一判斷單元，用于根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息；

140，停止單元，用于若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

具體的，所述停止單元包括掛斷單元(圖未示)，用于若需要停止獲取所述第二音頻單元輸入的第二語音信息，則掛斷音頻通話或視頻通話。音頻通話也包括錄音等過程。

本實施例中的裝置與前述實施例中的方法是基于同一發(fā)明構(gòu)思下的兩個方面，在前面已經(jīng)對方法實施過程作了詳細(xì)的描述，所以本領(lǐng)域技術(shù)人員可根據(jù)前述描述清楚地了解本實施中的系統(tǒng)的結(jié)構(gòu)及實施過程，為了說明書的簡潔，在此就不再贅述。

為了描述的方便，描述以上裝置時以功能分為各種模塊分別描述。當(dāng)然，在實施本發(fā)明時可以把各模塊的功能在同一個或多個軟件和/或硬件中實現(xiàn)。

通過以上的實施方式的描述可知，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中，如ROM/RAM、磁碟、光盤等，包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。

描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的模塊或單元可以是或者也可以不是物理上分開的，作為模塊或單元示意的部件可以是或者也可以不是物理模塊，既可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)模塊上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下，即可以理解并實施。

本發(fā)明可用于眾多通用或?qū)Ｓ玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如：個人計算機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等，如實施例四。

實施例四：

如圖4所示的裝置，包括：處理器200以及用于存儲處理器200可執(zhí)行的指令的存儲器300；

所述處理器200被配置為：

獲取所述第一音頻單元輸入的第一語音信息；

識別所述第一語音信息中的語音指令；

根據(jù)所述語音指令判斷是否需要停止獲取所述第二音頻單元輸入的第二語音信息；

若需要，則停止獲取所述第二音頻單元輸入的第二語音信息。

本發(fā)明實施例提供的裝置，通過在設(shè)有第一音頻單元和第二音頻單元的系統(tǒng)中，將第一音頻單元作為語音識別引擎的音頻輸入源，第二音頻單元作為通話錄音等其他應(yīng)用的輸入源，實現(xiàn)在通話或者錄音過程中可以并行識別語音指令。解決了業(yè)界普遍存在的在音視頻通話中無法同時用語音并行處理語音指令(包括掛斷音頻通話)的問題。該方法無需定制音視頻通話或錄音程序，且避免了錄音延遲，導(dǎo)致音視頻不同步的問題。

對于本領(lǐng)域的技術(shù)人員來說，可根據(jù)以上描述的技術(shù)方案以及構(gòu)思，做出其它各種相應(yīng)的改變以及變形，而所有的這些改變以及變形都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王嘉晉;熊友軍
技術(shù)所有人：深圳市優(yōu)必選科技有限公司
我是此專利的發(fā)明人

上一篇：一種鐵雜化材料及其制備方法與流程
上一篇：一種乙烯齊聚用后過渡金屬催化劑及其制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

水滅火系統(tǒng)控制裝置相關(guān)技術(shù)

語音報警裝置相關(guān)技術(shù)

電梯語音報站裝置相關(guān)技術(shù)

隔爆型語音報警裝置相關(guān)技術(shù)

智能語音交互體驗裝置相關(guān)技術(shù)

聲光語音信號裝置相關(guān)技術(shù)

智能語音控制相關(guān)技術(shù)

自動門控制裝置相關(guān)技術(shù)

泰拉瑞亞鉆頭控制裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音控制方法和裝置與流程