亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音喚醒方法及語音交互裝置與流程

文檔序號(hào):12274045閱讀:609來源:國知局
語音喚醒方法及語音交互裝置與流程

本發(fā)明實(shí)施例涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音喚醒方法及語音交互裝置。



背景技術(shù):

隨著語音識(shí)別技術(shù)的飛速發(fā)展,語音交互的應(yīng)用場景越來越普遍,智能電視,智能車載,智能家居,智能機(jī)器人都是語音交互應(yīng)用的主要應(yīng)用場景,同時(shí)由于人機(jī)交互對(duì)于用戶體驗(yàn)的要求越來越高,人機(jī)語音對(duì)話的距離也越來越不局限于近講(50cm以內(nèi))?,F(xiàn)在通過多麥克風(fēng)技術(shù),已經(jīng)能夠?qū)崿F(xiàn)3-5米內(nèi)的遠(yuǎn)距離語音交互。

與此同時(shí),遠(yuǎn)距離語音交互還存在一個(gè)問題,就是什么時(shí)候開始觸發(fā)語音收音并且開始識(shí)別。目前的技術(shù)方案有兩種,一種是用一顆低功耗芯片,一直通過麥克風(fēng)陣列收音,做相應(yīng)的信號(hào)處理后(信號(hào)增強(qiáng),噪聲抑制,回聲消除),然后再做語音識(shí)別,判斷用戶是否說出喚醒詞,如果說了,則通知主模塊,開始收音并進(jìn)行語音識(shí)別,還有一種方式是前端的模塊只做信號(hào)處理,由主模塊來一直收音,并做語音識(shí)別來判斷用戶是否說出喚醒詞,但是這兩種方式都有弊端,前一種方式由于前端處理模塊要求低功耗,所以識(shí)別性能相對(duì)來說會(huì)較低,同時(shí)誤喚醒率也會(huì)較高;而后一種方案的問題是主芯片模塊需要一直全速運(yùn)行,功耗會(huì)比較大,并且由于對(duì)主芯片模塊的要求比較高,方案的成本也比較高。目前尚無兼顧功耗和誤喚醒率的方案。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種語音喚醒方法及語音交互裝置,用以解決現(xiàn)有技術(shù)無法兼顧功耗和誤喚醒率的問題。

本發(fā)明實(shí)施例第一方面提供一種語音喚醒方法,該方法包括:

接收語音輸入信號(hào);

根據(jù)第一聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第一相似度,并判斷所述第一相似度是否超過第一預(yù)設(shè)閾值;

若超過,則根據(jù)第二聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第二相似度,并判斷所述第二相似度是否超過第二預(yù)設(shè)閾值,其中,所述第二聲學(xué)模型的準(zhǔn)確度高于所述第一聲學(xué)模型的準(zhǔn)確度;

若超過,則喚醒語音交互功能。

本發(fā)明實(shí)施例第二方面提供一種語音交互裝置,該裝置包括:

接收模塊,用于接收語音輸入信號(hào);

第一確定模塊,用于根據(jù)第一聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第一相似度,并判斷所述第一相似度是否超過第一預(yù)設(shè)閾值;

第二確定模塊,用于在所述第一相似度超過所述第一預(yù)設(shè)閾值時(shí),根據(jù)第二聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第二相似度,并判斷所述第二相似度是否超過第二預(yù)設(shè)閾值,其中,所述第二聲學(xué)模型的準(zhǔn)確度高于所述第一聲學(xué)模型的準(zhǔn)確度;

喚醒模塊,用于當(dāng)所述第二相似度超過第二預(yù)設(shè)閾值時(shí),喚醒語音交互功能。

本發(fā)明實(shí)施例,首先通過準(zhǔn)確度較低的第一聲學(xué)模型對(duì)語音輸入信號(hào)進(jìn)行初步的語音喚醒識(shí)別,當(dāng)識(shí)別出語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過第一預(yù)設(shè)閾值時(shí),再通過準(zhǔn)確度較高第二聲學(xué)模型對(duì)語音輸入信號(hào)進(jìn)行第二次語音喚醒識(shí)別,從而根據(jù)第二次識(shí)別的結(jié)果,確定是否喚醒語音交互功能。由于在第一次識(shí)別過程中,采用的是準(zhǔn)確度較低的聲學(xué)模型,因此,第一次識(shí)別過程中的功耗較低。而只有當(dāng)?shù)谝淮巫R(shí)別通過,即語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過第一預(yù)設(shè)閾值時(shí),才啟用準(zhǔn)確度較高的第二聲學(xué)模型進(jìn)行第二次喚醒識(shí)別。這樣通過將準(zhǔn)確度較低的聲學(xué)模型和準(zhǔn)確度較高的聲學(xué)模型結(jié)合使用,避免了低準(zhǔn)確度聲學(xué)模型單獨(dú)使用時(shí),喚醒識(shí)別準(zhǔn)確率較低,誤喚醒率較高的問題,同時(shí)也能避免高準(zhǔn)確度聲學(xué)模型單獨(dú)使用時(shí),功耗較高的問題,進(jìn)而達(dá)到了兼顧功耗和低誤喚醒率的目的。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明一實(shí)施例提供的語音喚醒方法的流程示意圖;

圖2為本發(fā)明一實(shí)施例提供的語音交互裝置的架構(gòu)圖;

圖3為本發(fā)明一實(shí)施例提供的語音交互裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明的說明書和權(quán)利要求書的術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟的過程或結(jié)構(gòu)的裝置不必限于清楚地列出的那些結(jié)構(gòu)或步驟而是可包括沒有清楚地列出的或?qū)τ谶@些過程或裝置固有的其它步驟或結(jié)構(gòu)。

圖1為本發(fā)明一實(shí)施例提供的語音喚醒方法的流程示意圖,該方法可以由諸如智能電視,智能車載,智能家居,智能機(jī)器人等具有語音交互功能的語音交互裝置來執(zhí)行。如圖1所示,本實(shí)施例提供的方法包括如下步驟:

步驟S101、接收語音輸入信號(hào)。

實(shí)際應(yīng)用中,語音交互裝置可以通過設(shè)置在其上的麥克風(fēng)陣列來接收用戶或終端設(shè)備輸入的語音信號(hào),并在接收到語音信號(hào)后通過時(shí)間延遲補(bǔ)償來確保接收到的語音信號(hào)的完整性,避免由于漏掉部分語音信號(hào),而對(duì)喚醒判斷造成影響。

進(jìn)一步的,在獲得完整的語音信號(hào)后通過對(duì)該語音信號(hào)進(jìn)行預(yù)處理來獲得本實(shí)施例所稱的“語音輸入信號(hào)”。具體的,在預(yù)處理過程中,至少要對(duì)語音信號(hào)進(jìn)行噪聲抑制處理、回聲消除處理和聲音增強(qiáng)處理,其中,上述處理與現(xiàn)有技術(shù)中語音處理過程類似,在這里不再贅述。

步驟S102、根據(jù)第一聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第一相似度,并判斷所述第一相似度是否超過第一預(yù)設(shè)閾值,若未超過,則結(jié)束本次喚醒操作,若超過,則執(zhí)行步驟S103。

其中,該第一預(yù)設(shè)閾值可以由用戶根據(jù)實(shí)際需求自定義設(shè)置,也可以由終端設(shè)備默認(rèn)設(shè)置,本發(fā)明實(shí)施例對(duì)此不作限定。

特別的,本實(shí)施例中提供的語音喚醒方法包括兩次判別過程,其中,第一次判斷過程,可以通過一DSP模塊來執(zhí)行。在第一次判斷過程中,首先從步驟S101中獲得的語音輸入信號(hào)中,提取特征信號(hào)。例如,可以通過提取語音輸入信號(hào)的梅爾頻率倒譜系數(shù)的方式來獲取特征信號(hào),此過程與現(xiàn)有技術(shù)相同,在這里不再贅述。

進(jìn)一步的,在實(shí)際應(yīng)用中,可以在DSP模塊中內(nèi)置一個(gè)簡單的聲學(xué)模型,通過將該聲學(xué)模型對(duì)上述獲得的特征信號(hào)做解碼處理,并采用最大似然比計(jì)算來判斷特征信號(hào)和喚醒語音信號(hào)之間的相似度,其基本原理為,將特征信號(hào)中的每個(gè)特征點(diǎn)和聲學(xué)模型里預(yù)設(shè)喚醒語音信號(hào)的每個(gè)特征點(diǎn)進(jìn)行相似度比較,然后將所有的點(diǎn)綜合得出一個(gè)極大似然值,公式為:

其中,xi是特征信號(hào)中第i個(gè)特征點(diǎn)的樣本值,μ為模型中的值,θ為需要計(jì)算得出的極大似然值,通過這個(gè)極大似然值來計(jì)算當(dāng)前語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的相似度。其中,當(dāng)計(jì)算獲得的相似度大于預(yù)設(shè)第一閾值時(shí),則開啟第二次喚醒判斷,否則結(jié)束喚醒操作。本實(shí)施例中,DSP模塊對(duì)語音輸入信號(hào)進(jìn)行第一次喚醒判斷的過程與現(xiàn)有技術(shù)類似,這里不再贅述。

這里需要說明的是,由于第一次喚醒判斷過程采用的是較簡單的聲學(xué)模型,因此,對(duì)DSP模塊的要求較低,DSP模塊的功耗較低。

當(dāng)然上述僅為示例說明,而不是對(duì)本發(fā)明的唯一限定,例如,在實(shí)際應(yīng)用中也可以采用數(shù)據(jù)包窗口DTW的方法來計(jì)算兩段語音的相似度,但是其最大的問題是語音的發(fā)音風(fēng)格不同會(huì)嚴(yán)重影響語音的識(shí)別率。

步驟S103、根據(jù)第二聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第二相似度,并判斷所述第二相似度是否超過第二預(yù)設(shè)閾值,若超過則喚醒語音交互功能,否則不喚醒。其中,所述第二聲學(xué)模型的準(zhǔn)確度高于所述第一聲學(xué)模型的準(zhǔn)確度。

本實(shí)施例中,第二次喚醒判斷可以由一主芯片處理模塊來執(zhí)行。在經(jīng)過第一次喚醒判斷后,如果語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過預(yù)設(shè)第一閾值,則激活主芯片處理模塊,進(jìn)而主芯片處理模塊從DSP模塊中獲取上述特征信號(hào),并根據(jù)其內(nèi)置的準(zhǔn)確度較高的聲學(xué)模型(即第二聲學(xué)模型)和上述獲得的特征信號(hào),確定語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的第二相似度。進(jìn)一步的,在獲得第二相似度后,將計(jì)算獲得的第二相似度與第二預(yù)設(shè)閾值進(jìn)行對(duì)比,當(dāng)?shù)诙嗨贫瘸^第二預(yù)設(shè)閾值時(shí),喚醒語音交互功能,否則不喚醒。

需要說明的是,在DSP模塊未判斷到語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過預(yù)設(shè)第一閾值時(shí),主芯片處理模塊處于未激活狀態(tài),即主芯片處理模塊處于低功耗工作狀態(tài)或者休眠狀態(tài);當(dāng)DSP模塊判斷到語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過預(yù)設(shè)第一閾值時(shí),DSP模塊將該語音信號(hào)對(duì)應(yīng)的特征信號(hào)發(fā)送給主芯片處理模塊,進(jìn)而激活主芯片處理模塊。

特別的,在本實(shí)施例中,第二次喚醒判斷的方法和第一次喚醒判斷的方法不同,其不同在于:第二次喚醒判斷會(huì)用復(fù)雜的相似度解碼算法,如Vetebi,它是一種動(dòng)態(tài)規(guī)劃算法,能計(jì)算語音信號(hào)內(nèi)容的前后狀態(tài)關(guān)聯(lián)關(guān)系,而第一次喚醒判斷是靜態(tài)的計(jì)算相似度方法,只計(jì)算每個(gè)采樣點(diǎn)的最大似然值,同時(shí)兩者的聲學(xué)模型也不一樣,DSP模塊里用的是非常簡單的,容易計(jì)算處理的簡單聲學(xué)模型,主芯片處理模塊里用的是較復(fù)雜的,且精度較高的復(fù)雜聲學(xué)模型。

舉例來說,假設(shè)喚醒語音中的喚醒詞是“Vidaa,Vidaa”,在DSP模塊中的計(jì)算過程中,可以認(rèn)為是將這段語音分解成256個(gè)采樣點(diǎn),然后通過最大似然值算法來綜合比較這256個(gè)點(diǎn)中,聲學(xué)模型里的值和采集進(jìn)來的語音輸入信號(hào)之間的最大似然值的重合概率,是一種靜態(tài)的計(jì)算方法,比如可以認(rèn)為只要這個(gè)概率達(dá)到70%,就認(rèn)為用戶有可能說了句”Vidaa Vidaa”;

然后啟動(dòng)第二次喚醒判斷,主芯片處理模塊會(huì)將語音輸入信號(hào)和喚醒語音信號(hào)導(dǎo)入訓(xùn)練好的高精度、高魯棒性的HMM聲學(xué)模型,并用Veterbi算法來計(jì)算語音輸入信號(hào)和喚醒語音信號(hào)之間的相似度,這種算法是動(dòng)態(tài)的規(guī)劃算法,是計(jì)算了語音信號(hào)中每個(gè)點(diǎn)和前后發(fā)音單元的轉(zhuǎn)移概率,因?yàn)槿苏f話時(shí),每個(gè)詞的發(fā)音都是連續(xù)的,這是由聲帶決定的,因此每個(gè)拼音或者因素發(fā)音特點(diǎn)局定了前后每個(gè)點(diǎn)的轉(zhuǎn)移概率,這部分計(jì)算量較大,準(zhǔn)確度也很高,因此,如果Veterbi計(jì)算出來的相似度超過第二預(yù)設(shè)閾值(比如90%),則認(rèn)為是用戶真正地說出了“Vidaa Vidaa”這句話。當(dāng)然上述僅為示例說明,并不是對(duì)本發(fā)明的唯一限定。

這里需要說明的是,在本實(shí)施例中,第二次喚醒識(shí)別的目的是對(duì)語音輸入信號(hào)進(jìn)行較為精確的識(shí)別,避免誤喚醒的發(fā)生。因此,在實(shí)際應(yīng)用中,第二預(yù)設(shè)閾值的設(shè)置應(yīng)大于或等于第一預(yù)設(shè)閾值。

本實(shí)施例,首先通過準(zhǔn)確度較低的第一聲學(xué)模型對(duì)語音輸入信號(hào)進(jìn)行初步的語音喚醒識(shí)別,當(dāng)識(shí)別出語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過第一預(yù)設(shè)閾值時(shí),再通過準(zhǔn)確度較高第二聲學(xué)模型對(duì)語音輸入信號(hào)進(jìn)行第二次語音喚醒識(shí)別,從而根據(jù)第二次識(shí)別的結(jié)果,確定是否喚醒語音交互功能。由于在第一次識(shí)別過程中,采用的是準(zhǔn)確度較低的聲學(xué)模型,因此,第一次識(shí)別過程中的功耗較低。而只有當(dāng)?shù)谝淮巫R(shí)別通過,即語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的相似度超過第一預(yù)設(shè)閾值時(shí),才啟用準(zhǔn)確度較高的第二聲學(xué)模型進(jìn)行第二次喚醒識(shí)別。這樣通過將準(zhǔn)確度較低的聲學(xué)模型和準(zhǔn)確度較高的聲學(xué)模型結(jié)合使用,避免了低準(zhǔn)確度聲學(xué)模型單獨(dú)使用時(shí),喚醒識(shí)別準(zhǔn)確率較低,誤喚醒率較高的問題,同時(shí)也能避免高準(zhǔn)確度聲學(xué)模型單獨(dú)使用時(shí),功耗較高的問題,進(jìn)而達(dá)到了兼顧功耗和低誤喚醒率的目的。

圖2為本發(fā)明一實(shí)施例提供的語音交互裝置的架構(gòu)圖,如圖2所示,圖2中語音交互裝置包括DSP模塊和主芯片處理模塊。其中,DSP模塊中內(nèi)置一較簡單的聲學(xué)模型(即準(zhǔn)確度較低的聲學(xué)模型),主芯片處理模塊中內(nèi)置有一準(zhǔn)確度和魯棒性較高的聲學(xué)模型。且主芯片處理模塊未被DSP模塊觸發(fā)時(shí),處于低功耗的工作狀態(tài)或者休眠狀態(tài),其中,優(yōu)選的,當(dāng)主芯片處理模塊未被DSP模塊觸發(fā)時(shí),主芯片處理模塊處于休眠狀態(tài),可以最大限度的降低主芯片的功耗。

實(shí)際應(yīng)用中,當(dāng)麥克風(fēng)陣列接收到語音輸入信號(hào)后,DSP模塊通過端點(diǎn)檢測(voice activity detection,簡稱VAD)來判斷是否有語音信號(hào)輸入,比如可以采用現(xiàn)有的短時(shí)能量和短時(shí)過零率的算法,該算法在本實(shí)施例中的應(yīng)用與在現(xiàn)有技術(shù)中的應(yīng)用相同,這里不再贅述。端點(diǎn)檢測完成后,需要進(jìn)行一次時(shí)間延遲補(bǔ)償,以確保語音輸入信號(hào)的完整。在對(duì)語音輸入信號(hào)進(jìn)行信號(hào)處理之前,需要將這段語音輸入信號(hào)完整保存下來,以備傳送到云端服務(wù)器進(jìn)行識(shí)別。信號(hào)處理部分至少包括噪聲抑制處理、回聲消除處理和聲音增強(qiáng)處理。實(shí)際應(yīng)用中,噪聲抑制處理可以在多濾波器組合的基礎(chǔ)上進(jìn)行?;芈曄幚砗吐曇粼鰪?qiáng)處理的執(zhí)行方法與現(xiàn)有技術(shù)相同,在這里不再贅述。

進(jìn)一步的,在完成上述信號(hào)處理之后,先從語音輸入信號(hào)中提取特征信號(hào),再根據(jù)DSP模塊內(nèi)的一個(gè)簡單的聲學(xué)模型,對(duì)提取獲得的特征信號(hào)進(jìn)行解碼處理,并計(jì)算特征信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的相似度,當(dāng)計(jì)算獲得的相似度超過第一預(yù)設(shè)閾值時(shí),則觸發(fā)主芯片處理模塊,進(jìn)行再一次的喚醒判斷,否則退出本次喚醒操作。這里需要說明的是,DSP模塊,只是通過簡單的聲學(xué)模型做初步的喚醒判斷,因此,DSP模塊只要在低功耗的工作環(huán)境下即可。

進(jìn)一步的,當(dāng)主芯片處理模塊被觸發(fā)時(shí),主芯片處理模塊可以通過其與DSP模塊之間的數(shù)據(jù)接口,獲取DSP模塊在第一喚醒判斷過程中獲得的特征信號(hào),并根據(jù)其內(nèi)置的準(zhǔn)確度較高的聲學(xué)模型和上述特征信號(hào)對(duì)語音輸入信號(hào)進(jìn)行第二次喚醒識(shí)別,這里主芯片處理模進(jìn)行第二次喚醒識(shí)別的方法與DSP模塊圖1實(shí)施例中所示的第二次喚醒識(shí)別的方法相同,在這里不再贅述。

圖2所示的架構(gòu),利用前端DSP模塊的快速低功耗,對(duì)語音輸入信號(hào)做初步的喚醒識(shí)別,同時(shí)利用DSP模塊的計(jì)算資源,做了一次特征提取,為主芯片處理模塊的第二次喚醒識(shí)別節(jié)省了計(jì)算資源,而主芯片處理模塊在沒有接收到DSP模塊的觸發(fā)信號(hào)之前,一直在低功耗模式運(yùn)行,被觸發(fā)后,則利用自身的高存儲(chǔ)資源和高計(jì)算資源,以及DSP模塊發(fā)送過來的特征信號(hào),能快速高效地對(duì)語音輸入信號(hào)進(jìn)行喚醒識(shí)別,因此整個(gè)架構(gòu)能夠兼顧低功耗和高準(zhǔn)確率。

圖3為本發(fā)明一實(shí)施例提供的語音交互裝置的結(jié)構(gòu)示意圖,如圖3所示,本實(shí)施例提供的裝置包括:

接收模塊11,用于接收語音輸入信號(hào);

第一確定模塊12,用于根據(jù)第一聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第一相似度,并判斷所述第一相似度是否超過第一預(yù)設(shè)閾值;

第二確定模塊13,用于在所述第一相似度超過所述第一預(yù)設(shè)閾值時(shí),根據(jù)第二聲學(xué)模型,確定所述語音輸入信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第二相似度,并判斷所述第二相似度是否超過第二預(yù)設(shè)閾值,其中,所述第二聲學(xué)模型的準(zhǔn)確度高于所述第一聲學(xué)模型的準(zhǔn)確度;

喚醒模塊14,用于當(dāng)所述第二相似度超過第二預(yù)設(shè)閾值時(shí),喚醒語音交互功能。

其中,所述第二預(yù)設(shè)閾值大于或等于第一預(yù)設(shè)閾值。

所述第一確定模塊12,包括:

獲取子模塊121,用于從所述語音輸入信號(hào)中,提取特征信號(hào);

第一確定子模塊122,用于根據(jù)第一聲學(xué)模型和所述特征信號(hào),確定所述特征信號(hào)和預(yù)設(shè)的喚醒語音信號(hào)之間的第一極大似然值;

根據(jù)所述第一極大似然值,確定所述語音輸入信號(hào)與預(yù)設(shè)的喚醒語音信號(hào)之間的第一相似度。

所述第二確定模塊13,包括:

第二確定子模塊131,用于

根據(jù)所述第二聲學(xué)模型,確定所述特征信號(hào)中發(fā)音單元與其前和/或后發(fā)音單元之間的第一轉(zhuǎn)移概率,以及對(duì)應(yīng)的所述喚醒語音信號(hào)中發(fā)音單元與其前和/或后發(fā)音單元之間的第二轉(zhuǎn)移概率;

根據(jù)所述第一轉(zhuǎn)移概率和所述第二轉(zhuǎn)移概率,確定所述特征信號(hào)和所述喚醒語音信號(hào)之間的第二相似度。

本實(shí)施例提供的語音交互裝置,能夠用于執(zhí)行圖1所示的方法,其具體的執(zhí)行方式和有益效果與圖1所示實(shí)施例類似,在這里不再贅述。

最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1