亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種設(shè)定操作的執(zhí)行方法及裝置與流程

文檔序號(hào):12820175閱讀:363來(lái)源:國(guó)知局
一種設(shè)定操作的執(zhí)行方法及裝置與流程

本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種設(shè)定操作的執(zhí)行方法及裝置。



背景技術(shù):

隨著信息技術(shù)的發(fā)展,語(yǔ)音喚醒技術(shù)由于其非接觸式的操控特性,使得用戶(hù)可以便捷地針對(duì)具有語(yǔ)音喚醒功能的設(shè)備進(jìn)行啟動(dòng)控制,從而得到了廣泛地應(yīng)用。

若要實(shí)現(xiàn)對(duì)設(shè)備的語(yǔ)音喚醒,需要在設(shè)備中預(yù)先設(shè)置特定的喚醒詞,根據(jù)喚醒詞和發(fā)音詞典確定相應(yīng)的發(fā)音音素(其中,發(fā)音音素簡(jiǎn)稱(chēng)為音素,是指喚醒詞的發(fā)音音節(jié)的最小語(yǔ)音單位)。在實(shí)際使用時(shí),用戶(hù)在設(shè)備附近的一定范圍內(nèi)說(shuō)出喚醒詞時(shí),設(shè)備就會(huì)采集用戶(hù)發(fā)出的語(yǔ)音信號(hào),并根據(jù)語(yǔ)音信號(hào)聲學(xué)特征,進(jìn)而判斷語(yǔ)音信號(hào)聲學(xué)特征是否與喚醒詞的音素相匹配,以確定用戶(hù)說(shuō)出的是否為喚醒詞,若是,則設(shè)備會(huì)執(zhí)行自我喚醒的操作,比如自動(dòng)啟動(dòng)、或者從休眠狀態(tài)切換為激活狀態(tài),等等。

現(xiàn)有技術(shù)中,對(duì)于具有語(yǔ)音喚醒功能的設(shè)備而言,通常采用隱馬爾可夫模型(hiddenmarkovmodel,hmm)實(shí)現(xiàn)上述判斷,具體為:在語(yǔ)音喚醒模塊中分別預(yù)加載喚醒詞和非喚醒詞的hmm,當(dāng)接收到用戶(hù)發(fā)出的語(yǔ)音信號(hào)后,使用維特比算法對(duì)語(yǔ)音信號(hào)逐幀解碼至音素級(jí)別,最后根據(jù)解碼后的結(jié)果,判斷用戶(hù)發(fā)出的語(yǔ)音信號(hào)的語(yǔ)音聲學(xué)特征是否與喚醒詞的音素相匹配,從而判斷出用戶(hù)說(shuō)出的是否為喚醒詞。

上述現(xiàn)有技術(shù)存在的缺陷在于,在采用維特比算法對(duì)用戶(hù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行逐幀解碼計(jì)算的過(guò)程中會(huì)涉及到動(dòng)態(tài)規(guī)劃計(jì)算,計(jì)算量極大,從而導(dǎo)致整個(gè)語(yǔ)音喚醒過(guò)程耗費(fèi)較多處理資源。

類(lèi)似地,在采用上述類(lèi)似方法,以設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征,觸發(fā)設(shè)備執(zhí)行自我喚醒的操作外的其他設(shè)定操作(比如發(fā)出指定信號(hào),或者撥打電話(huà),等等)時(shí),也可能面臨相同的問(wèn)題。其中,所述的設(shè)定詞,是指用于觸發(fā)設(shè)備執(zhí)行設(shè)定操作的語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)的字或詞的統(tǒng)稱(chēng),前文所述的喚醒詞,屬于設(shè)定詞的一種。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)實(shí)施例提供一種設(shè)定操作的執(zhí)行方法,用以解決現(xiàn)有技術(shù)中的觸發(fā)設(shè)備執(zhí)行設(shè)定操作的過(guò)程會(huì)耗費(fèi)較多處理資源的問(wèn)題。

本申請(qǐng)實(shí)施例還提供一種設(shè)定操作的執(zhí)行裝置,用以解決現(xiàn)有技術(shù)中的觸發(fā)設(shè)備執(zhí)行設(shè)定操作的過(guò)程會(huì)耗費(fèi)較多處理資源的問(wèn)題。

本申請(qǐng)實(shí)施例提供的設(shè)定操作的執(zhí)行方法,包括:

獲得語(yǔ)音信號(hào)聲學(xué)特征;

將獲得的各語(yǔ)音信號(hào)聲學(xué)特征輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型;其中,對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練所用的樣本,至少包含設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本;

根據(jù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述喚醒詞對(duì)應(yīng)的音素的概率,判斷是否執(zhí)行喚醒操作。

本申請(qǐng)實(shí)施例提供的設(shè)定操作的執(zhí)行裝置,包括:

獲取模塊,用于獲得語(yǔ)音信號(hào)聲學(xué)特征;

神經(jīng)網(wǎng)絡(luò)模塊,用于將獲得的各語(yǔ)音信號(hào)聲學(xué)特征輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型;其中,對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練所用的樣本,至少包含設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本;

判斷確認(rèn)模塊,用于根據(jù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率,判斷是否執(zhí)行設(shè)定操作。

采用本申請(qǐng)實(shí)施例提供的上述至少一個(gè)方案,通過(guò)采用神經(jīng)網(wǎng)絡(luò)模型,來(lái) 確定獲得的語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與設(shè)定詞對(duì)應(yīng)的音素的概率,進(jìn)而根據(jù)概率確定是否執(zhí)行設(shè)定操作。由于相比于采用維特比算法對(duì)語(yǔ)音信號(hào)逐幀解碼至音素級(jí)別而言,采用神經(jīng)網(wǎng)絡(luò)來(lái)確定所述概率不會(huì)耗費(fèi)較多資源,因此相比于現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例提供的方案可減少設(shè)定操作過(guò)程耗費(fèi)的處理資源。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:

圖1為本申請(qǐng)實(shí)施例提供的設(shè)定操作的執(zhí)行過(guò)程;

圖2為本申請(qǐng)實(shí)施例提供的神經(jīng)網(wǎng)絡(luò)模型的示意圖;

圖3a、3b為本申請(qǐng)實(shí)施例提供的根據(jù)神經(jīng)網(wǎng)絡(luò)模型的輸出,對(duì)喚醒詞對(duì)應(yīng)音素進(jìn)行規(guī)律統(tǒng)計(jì)的示意圖;

圖4本申請(qǐng)實(shí)施例提供的設(shè)定操作的執(zhí)行裝置結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。

如前所述,采用維特比算法對(duì)語(yǔ)音信號(hào)逐幀解碼至音素級(jí)別需要耗費(fèi)大量計(jì)算資源,尤其對(duì)于具備語(yǔ)音喚醒功能的設(shè)備而言,如:智能音響、智能家居設(shè)備等等,較大的計(jì)算量不僅會(huì)增加設(shè)備的工作負(fù)荷,而且會(huì)增加設(shè)備能耗,導(dǎo)致設(shè)備的工作效率降低。而考慮到神經(jīng)網(wǎng)絡(luò)模型具有較強(qiáng)的特征學(xué)習(xí)能力以及計(jì)算結(jié)構(gòu)輕量級(jí)的特點(diǎn),適于實(shí)際應(yīng)用中具備語(yǔ)音喚醒功能的各類(lèi)設(shè)備。

正是基于此,本申請(qǐng)?zhí)岢隽巳鐖D1所示的設(shè)定操作的執(zhí)行過(guò)程,該過(guò)程具體包括以下步驟:

s101,獲得語(yǔ)音信號(hào)聲學(xué)特征。

在實(shí)際應(yīng)用場(chǎng)景下,當(dāng)用戶(hù)針對(duì)具有語(yǔ)音喚醒功能的設(shè)備(下文中稱(chēng)為“語(yǔ)音設(shè)備”)通過(guò)語(yǔ)音觸發(fā)方式執(zhí)行設(shè)定操作時(shí),通常需要說(shuō)出設(shè)定詞,用戶(hù)說(shuō)出設(shè)定詞的聲音就是用戶(hù)發(fā)出的語(yǔ)音信號(hào)。相應(yīng)地,語(yǔ)音設(shè)備便可以接收到用戶(hù)發(fā)出的語(yǔ)音信號(hào)。對(duì)于語(yǔ)音設(shè)備而言,可以認(rèn)為其接收到的任何語(yǔ)音信號(hào),都是需要進(jìn)行識(shí)別處理的,以便確定出用戶(hù)說(shuō)出的是否為設(shè)定詞。

這里需要說(shuō)明的是,在本申請(qǐng)中,設(shè)定操作包括但不限于:以語(yǔ)音方式觸發(fā)的喚醒操作、呼叫操作、多媒體控制操作等等。本申請(qǐng)中的設(shè)定詞包括但不限于:?jiǎn)拘言~、呼叫指令詞、控制指令詞等預(yù)先設(shè)定的、用于進(jìn)行語(yǔ)音方式觸發(fā)的口令詞語(yǔ)(在某些情況下,設(shè)定詞可以只包含一個(gè)漢字或單詞)。

在語(yǔ)音設(shè)備接收到用戶(hù)發(fā)出的語(yǔ)音信號(hào)之后,會(huì)從該語(yǔ)音信號(hào)中提取并獲得相應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征,以便對(duì)語(yǔ)音信號(hào)進(jìn)行識(shí)別。本申請(qǐng)實(shí)施例中所述的語(yǔ)音信號(hào)聲學(xué)特征,具體可以是從語(yǔ)音信號(hào)中提取的以幀為單位的語(yǔ)音信號(hào)的聲學(xué)特征。

當(dāng)然,對(duì)于語(yǔ)音信號(hào)而言,可由語(yǔ)音設(shè)備中攜帶的具有語(yǔ)音拾音功能的芯片實(shí)現(xiàn)信號(hào)聲學(xué)特征的提取。更為具體地,語(yǔ)音信號(hào)聲學(xué)特征的提取,可由語(yǔ)音設(shè)備中的語(yǔ)音喚醒模塊完成,這里并不構(gòu)成對(duì)本申請(qǐng)的限定。一旦語(yǔ)音設(shè)備獲得了上述語(yǔ)音信號(hào)聲學(xué)特征,就可以對(duì)語(yǔ)音信號(hào)聲學(xué)特征進(jìn)行計(jì)算處理,也即,可以執(zhí)行下述步驟s102。

s102,將獲得的各語(yǔ)音信號(hào)聲學(xué)特征輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。

其中,對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練所用的樣本,至少包含設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本。

所述的神經(jīng)網(wǎng)絡(luò)模型,具備了計(jì)算量級(jí)小、計(jì)算結(jié)果準(zhǔn)確的特點(diǎn),適用于不同的設(shè)備中??紤]到在實(shí)際應(yīng)用中,具有極強(qiáng)的特征學(xué)習(xí)能力、易訓(xùn)練的深 度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn),可以較好的適應(yīng)于語(yǔ)音識(shí)別的場(chǎng)景中,故在本申請(qǐng)實(shí)施例中,具體可以采用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)。

在實(shí)際應(yīng)用場(chǎng)景下,本申請(qǐng)中訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型可由設(shè)備供應(yīng)商提供,即,語(yǔ)音設(shè)備供應(yīng)商會(huì)將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型作為語(yǔ)音喚醒模塊的一部分,將語(yǔ)音喚醒模塊設(shè)置在芯片或處理器中嵌入語(yǔ)音設(shè)備。當(dāng)然,這里只是對(duì)神經(jīng)網(wǎng)絡(luò)模型設(shè)置方式的示例性說(shuō)明,并不構(gòu)成對(duì)本申請(qǐng)的限定。

為了保證訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果的準(zhǔn)確性,在訓(xùn)練的過(guò)程中,可使用一定規(guī)模的訓(xùn)練樣本進(jìn)行訓(xùn)練,以便優(yōu)化并完善神經(jīng)網(wǎng)絡(luò)模型。對(duì)于訓(xùn)練樣本而言,訓(xùn)練樣本中通常包含設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本,當(dāng)然,語(yǔ)音設(shè)備所接收到的語(yǔ)音信號(hào)并非都對(duì)應(yīng)著設(shè)定詞,那么,為了區(qū)別出非設(shè)定詞,在實(shí)際應(yīng)用中,訓(xùn)練樣本中一般還可以包含非設(shè)定詞的語(yǔ)音信號(hào)聲學(xué)特征樣本。

本申請(qǐng)實(shí)施例中,該訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型的輸入結(jié)果,至少包括語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與設(shè)定詞對(duì)應(yīng)的音素的概率。

在神經(jīng)網(wǎng)絡(luò)模型生成后,便可以將之前得到的語(yǔ)音信號(hào)聲學(xué)特征(如:語(yǔ)音特征向量)作為輸入,輸入至神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行計(jì)算,得到相應(yīng)的輸出結(jié)果。這里需要說(shuō)明的是,作為本申請(qǐng)實(shí)施例在實(shí)際應(yīng)用場(chǎng)景下的一種方式,可以在獲得了設(shè)定詞對(duì)應(yīng)的全部語(yǔ)音信號(hào)聲學(xué)特征后,一并將獲得到的各語(yǔ)音信號(hào)聲學(xué)特征輸入至上述的神經(jīng)網(wǎng)絡(luò)模型。而作為本申請(qǐng)實(shí)施例在實(shí)際應(yīng)用場(chǎng)景下的另一種方式,考慮到用戶(hù)發(fā)出的語(yǔ)音信號(hào)是時(shí)序信號(hào),那么,可以將獲取到的語(yǔ)音信號(hào)聲學(xué)特征以時(shí)序方式連續(xù)輸入至上述的神經(jīng)網(wǎng)絡(luò)模型中(也即,邊獲取邊輸入)。上述兩種輸入語(yǔ)音信號(hào)聲學(xué)特征的方式可根據(jù)實(shí)際應(yīng)用的需要而選定,并不構(gòu)成對(duì)本申請(qǐng)的限定。

s103,根據(jù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率,判斷是否執(zhí)行設(shè)定操作。

其中,所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與設(shè)定詞對(duì)應(yīng)的音素的概率,即各 語(yǔ)音信號(hào)聲學(xué)特征與所述設(shè)定詞對(duì)應(yīng)的音素相匹配的概率??梢岳斫?,該概率越大,語(yǔ)音信號(hào)聲學(xué)特征為設(shè)定詞對(duì)應(yīng)的正確發(fā)音的語(yǔ)音信號(hào)聲學(xué)特征的可能性越大;反之,則可能性越小。

所述執(zhí)行設(shè)定操作,是指以語(yǔ)音喚醒的方式喚醒待喚醒的語(yǔ)音設(shè)備。比如,若本申請(qǐng)實(shí)施例提供的方法的執(zhí)行主體是該設(shè)備本身,則所述執(zhí)行設(shè)定操作,是指喚醒該設(shè)備本身。當(dāng)然,本申請(qǐng)實(shí)施例提供的該方法,也適用于由一設(shè)備喚醒另一設(shè)備的場(chǎng)景。

本申請(qǐng)實(shí)施例中,針對(duì)某個(gè)語(yǔ)音信號(hào)聲學(xué)特征而言,神經(jīng)網(wǎng)絡(luò)模型可以根據(jù)輸入的該語(yǔ)音信號(hào)聲學(xué)特征,經(jīng)過(guò)計(jì)算后,輸出該語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于不同音素(包括設(shè)定詞對(duì)應(yīng)的音素和其他音素)的概率分布,根據(jù)輸出的概率分布,就可以從所述不同音素中,確定出與該語(yǔ)音信號(hào)聲學(xué)特征最為匹配的音素,即確定出所述概率分布中的最大概率對(duì)應(yīng)的音素。該音素,為與該語(yǔ)音信號(hào)聲學(xué)特征最為匹配的音素。

以此類(lèi)推,可以統(tǒng)計(jì)出與從長(zhǎng)度為一個(gè)歷史窗口的語(yǔ)音信號(hào)內(nèi)提取的每個(gè)語(yǔ)音信號(hào)聲學(xué)特征分別最為匹配的音素,及相應(yīng)的概率;進(jìn)一步地,基于與每個(gè)語(yǔ)音信號(hào)聲學(xué)特征分別最為匹配的音素,及相應(yīng)的概率,可以確定語(yǔ)音信號(hào)是否與設(shè)定詞相對(duì)應(yīng)。需要說(shuō)明的是,所述歷史窗口也即一定時(shí)長(zhǎng),該時(shí)長(zhǎng)為語(yǔ)音信號(hào)時(shí)長(zhǎng),具備該時(shí)長(zhǎng)的語(yǔ)音信號(hào)一般被認(rèn)為包含足夠多的語(yǔ)音信號(hào)聲學(xué)特征。

以下舉例說(shuō)明上述特征的具體實(shí)現(xiàn)過(guò)程:

假設(shè)以設(shè)定詞為漢語(yǔ)中“啟動(dòng)”二字為例:其發(fā)音包含“q”、“i3”、“d”、“ong4”四個(gè)音素,這里的數(shù)字3和4分別表示不同的聲調(diào),也即,“i3”表示發(fā)出“i”音時(shí)是第三聲調(diào),相類(lèi)似的,“ong4”表示發(fā)出“ong”音時(shí)是第四聲調(diào)。在實(shí)際應(yīng)用時(shí),設(shè)備將獲得的語(yǔ)音信號(hào)聲學(xué)特征輸入至訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中,神經(jīng)網(wǎng)絡(luò)模型可計(jì)算出各語(yǔ)音信號(hào)聲學(xué)特征可能表示的音素的概率分布,如:計(jì)算出語(yǔ)音信號(hào)聲學(xué)特征可能表示的每一種音素“q”、“i3”、“d”、“ong4” 的概率,并將語(yǔ)音信號(hào)聲學(xué)特征映射到概率最大的音素,從而,也就得到了各語(yǔ)音信號(hào)聲學(xué)特征相匹配的音素。基于此,在一個(gè)歷史窗口內(nèi),確定語(yǔ)音信號(hào)是否依次對(duì)應(yīng)著“q”、“i3”、“d”、“ong4”這四個(gè)音素,若是,那么,語(yǔ)音信號(hào)就對(duì)應(yīng)著“啟動(dòng)”這個(gè)設(shè)定詞。

從上例可見(jiàn),這樣的方式可確定出語(yǔ)音信號(hào)聲學(xué)特征所對(duì)應(yīng)的音素是否為設(shè)定詞的音素,也就能進(jìn)一步確定出用戶(hù)說(shuō)出的是否為設(shè)定詞,從而判斷是否執(zhí)行設(shè)定操作。

通過(guò)上述步驟,通過(guò)采用神經(jīng)網(wǎng)絡(luò)模型,來(lái)確定獲得的語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與設(shè)定詞對(duì)應(yīng)的音素的概率,進(jìn)而根據(jù)概率確定是否執(zhí)行喚醒操作。由于相比于采用維特比算法對(duì)語(yǔ)音信號(hào)逐幀解碼至音素級(jí)別而言,采用神經(jīng)網(wǎng)絡(luò)來(lái)確定所述概率不會(huì)耗費(fèi)較多資源,因此相比于現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例提供的方案可減少設(shè)定操作過(guò)程耗費(fèi)的處理資源。

對(duì)于上述步驟,需要說(shuō)明的是,在執(zhí)行設(shè)定操作之前,設(shè)備通常處于休眠、關(guān)閉等未激活狀態(tài)(此時(shí),只有設(shè)備中的語(yǔ)音喚醒模塊處于監(jiān)控狀態(tài)),設(shè)定操作是在用戶(hù)說(shuō)出設(shè)定詞通過(guò)認(rèn)證后,設(shè)備中的語(yǔ)音喚醒模塊會(huì)控制設(shè)備進(jìn)入激活狀態(tài)。因此,在本申請(qǐng)中,獲得語(yǔ)音信號(hào)聲學(xué)特征之前,所述方法還包括:通過(guò)執(zhí)行語(yǔ)音活動(dòng)檢測(cè)(voiceactivitydetection,vad),判斷是否存在語(yǔ)音信號(hào),在判斷為是時(shí),執(zhí)行步驟s101,即獲得語(yǔ)音信號(hào)聲學(xué)特征。

在實(shí)際應(yīng)用時(shí),對(duì)于上述步驟s101而言,獲得語(yǔ)音信號(hào)聲學(xué)特征,包括:從語(yǔ)音信號(hào)幀中獲得所述語(yǔ)音信號(hào)聲學(xué)特征。也就是說(shuō),上述的語(yǔ)音信號(hào)聲學(xué)特征通常是從語(yǔ)音信號(hào)中提取后獲得的,而語(yǔ)音信號(hào)聲學(xué)特征提取的準(zhǔn)確性,將對(duì)后續(xù)神經(jīng)網(wǎng)絡(luò)模型的泛化預(yù)測(cè)產(chǎn)生影響,也會(huì)對(duì)提升喚醒識(shí)別的準(zhǔn)確度有重大的影響。下面將對(duì)語(yǔ)音信號(hào)聲學(xué)特征提取的過(guò)程進(jìn)行具體說(shuō)明。

在特征的提取階段,一般在一個(gè)固定大小的時(shí)間窗口內(nèi)采樣每一幀語(yǔ)音信號(hào)的特征。例如:作為本申請(qǐng)實(shí)施例中的一種可選方式,信號(hào)采集窗口的時(shí)間長(zhǎng)度設(shè)置為25ms,采集周期設(shè)置為10ms,也就是說(shuō),當(dāng)設(shè)備接收到待識(shí)別語(yǔ) 音信號(hào)之后,將每隔10ms對(duì)一個(gè)時(shí)間長(zhǎng)度為25ms的窗口進(jìn)行采樣。

在上述示例中,采樣得到的是語(yǔ)音信號(hào)的原始特征,經(jīng)過(guò)進(jìn)一步特征提取后,獲得固定維度(假設(shè)為n,n的取值將根據(jù)實(shí)際應(yīng)用時(shí)所采用的不同的特征提取方式來(lái)確定,這里不作具體限定)的且具備一定區(qū)分度的語(yǔ)音信號(hào)聲學(xué)特征。在本申請(qǐng)實(shí)施例中,常用的語(yǔ)音聲學(xué)特征包括濾波器組特征(filterbank特征)、梅爾倒譜特征(melfrequencycepstrumcoefficient,mfcc特征),感知線性預(yù)測(cè)特征(perceptuallinearpredictive,plp)等。

經(jīng)過(guò)這樣的提取過(guò)程,便得到了包含有n維語(yǔ)音信號(hào)聲學(xué)特征的語(yǔ)音信號(hào)幀(在本申請(qǐng)中,這里的每一個(gè)語(yǔ)音信號(hào)幀也可稱(chēng)為每一幀語(yǔ)音特征向量)。另外需要說(shuō)明的是,由于語(yǔ)音是時(shí)序信號(hào),上下文幀之間具有相關(guān)性,所以,在獲得了上述的各幀語(yǔ)音特征向量后,可以按照語(yǔ)音信號(hào)幀在時(shí)間軸上的排列順序,依次將各幀語(yǔ)音特征向量進(jìn)行拼接,得到一個(gè)組合形式的語(yǔ)音信號(hào)聲學(xué)特征。

具體而言,從語(yǔ)音信號(hào)幀中獲得所述語(yǔ)音信號(hào)聲學(xué)特征,包括:依次針對(duì)語(yǔ)音信號(hào)幀中的各基準(zhǔn)幀,執(zhí)行:獲取語(yǔ)音信號(hào)幀中的、在時(shí)間軸上排列在該基準(zhǔn)幀之前的第一數(shù)量的語(yǔ)音信號(hào)幀的聲學(xué)特征,以及語(yǔ)音信號(hào)幀中的、在時(shí)間軸上排列在該基準(zhǔn)幀之后的第二數(shù)量的語(yǔ)音信號(hào)幀的聲學(xué)特征,其中,對(duì)獲取的各聲學(xué)特征進(jìn)行拼接,得到所述語(yǔ)音信號(hào)聲學(xué)特征。

基準(zhǔn)幀通常是指語(yǔ)音設(shè)備當(dāng)前采樣的語(yǔ)音信號(hào)幀,對(duì)于連續(xù)的語(yǔ)音信號(hào)而言,語(yǔ)音設(shè)備會(huì)執(zhí)行多次采樣,從而在整個(gè)過(guò)程中將產(chǎn)生多個(gè)基準(zhǔn)幀。

在本實(shí)施例中,所述第二數(shù)量可以小于所述第一數(shù)量。拼接得到的該語(yǔ)音信號(hào)聲學(xué)特征,可以視為相應(yīng)的基準(zhǔn)幀的語(yǔ)音信號(hào)聲學(xué)特征,后文中提及的時(shí)間戳,則可以是所述相應(yīng)的基準(zhǔn)幀的在語(yǔ)音信號(hào)中的相對(duì)時(shí)序次序,即該基準(zhǔn)幀在時(shí)間軸上的排列位置。

也就是說(shuō),為了提高深度神經(jīng)網(wǎng)絡(luò)模型的泛化預(yù)測(cè)能力,一般將當(dāng)前幀(也即,基準(zhǔn)幀)與其上下文的左l幀,右r幀拼接起來(lái),組成一個(gè)大小為(l+1 +r)*n的特征向量(其中,數(shù)字“1”表示當(dāng)前幀本身),作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。通常地,l>r,也即,左右不對(duì)稱(chēng)的幀數(shù)。這里之所以用到不對(duì)稱(chēng)的左、右上下文幀數(shù),是因?yàn)榱魇揭纛l存在延時(shí)解碼問(wèn)題,不對(duì)稱(chēng)的上下文幀可以盡量減少或避免延時(shí)解碼的影響。

例如,在本申請(qǐng)實(shí)施例中,以當(dāng)前幀作為基準(zhǔn)幀,那么,可以選定該當(dāng)前幀及其前30幀、后10幀拼接起來(lái),形成了41幀(包含當(dāng)前幀本身)組成的語(yǔ)音信號(hào)聲學(xué)特征,作為深度神經(jīng)網(wǎng)絡(luò)輸入層的輸入。

以上內(nèi)容是本申請(qǐng)中語(yǔ)音信號(hào)聲學(xué)特征的詳細(xì)描述,在獲得了上述的語(yǔ)音信號(hào)聲學(xué)特征后,就會(huì)輸入至訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行計(jì)算。那么,對(duì)于本申請(qǐng)中的神經(jīng)網(wǎng)絡(luò)模型而言,可以是一種深度神經(jīng)網(wǎng)絡(luò)模型,該模型的結(jié)構(gòu)比如如圖2所示。

在圖2中,深度神經(jīng)網(wǎng)絡(luò)模型具有輸入層、隱層和輸出層三部分。語(yǔ)音特征向量從輸入層中輸入至隱層進(jìn)行計(jì)算處理。每一層隱層中包括128個(gè)或者256個(gè)節(jié)點(diǎn)(也稱(chēng)為神經(jīng)元),每個(gè)節(jié)點(diǎn)中設(shè)置有相應(yīng)的激活函數(shù),實(shí)現(xiàn)具體的計(jì)算過(guò)程,作為本申請(qǐng)實(shí)施例中的一種可選方式,以線性修正函數(shù)(rectifiedlinearunits,relu)作為隱層節(jié)點(diǎn)的激活函數(shù),并在輸出層中設(shè)置softmax回歸函數(shù),對(duì)隱層的輸出進(jìn)行規(guī)整化處理。

建立了上述的深度神經(jīng)網(wǎng)絡(luò)模型后,便要對(duì)該深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。在本申請(qǐng)中,采用下述方式,訓(xùn)練上述的深度神經(jīng)網(wǎng)絡(luò)模型:

根據(jù)所述設(shè)定詞對(duì)應(yīng)的音素樣本的數(shù)量,確定待訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中輸出層的節(jié)點(diǎn)數(shù)量,循環(huán)執(zhí)行下述步驟,直至深度神經(jīng)網(wǎng)絡(luò)模型收斂(深度神經(jīng)網(wǎng)絡(luò)模型收斂是指:深度神經(jīng)網(wǎng)絡(luò)所輸出的概率分布中的最大概率值,對(duì)應(yīng)的是所述語(yǔ)音信號(hào)聲學(xué)特征樣本對(duì)應(yīng)的正確發(fā)音的音素):

將訓(xùn)練樣本輸入至所述深度神經(jīng)網(wǎng)絡(luò)模型,使得所述深度神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入的樣本的特征進(jìn)行前向傳播計(jì)算直至輸出層,并使用預(yù)設(shè)目標(biāo)函數(shù)(一般是基于交叉熵(crossentropy)準(zhǔn)則)計(jì)算誤差,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型從 輸出層開(kāi)始反向傳播誤差,并根據(jù)誤差逐層調(diào)節(jié)所述深度神經(jīng)網(wǎng)絡(luò)模型的權(quán)重。

當(dāng)算法收斂時(shí),深度神經(jīng)網(wǎng)絡(luò)模型中存在的誤差降至最低。

經(jīng)過(guò)上述步驟,訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)便可以采用芯片方式嵌入到相應(yīng)的設(shè)備中進(jìn)行應(yīng)用。這里針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型在嵌入式設(shè)備的應(yīng)用需要說(shuō)明的是,一方面,在應(yīng)用時(shí)需要用到輕量級(jí)的模型,即:神經(jīng)網(wǎng)絡(luò)中隱層數(shù)量和每個(gè)隱層的節(jié)點(diǎn)數(shù)量需要有所限制,故采用適當(dāng)規(guī)模的深度神經(jīng)網(wǎng)絡(luò)模型即可;另一方面,還需要根據(jù)特定的平臺(tái)利用優(yōu)化指令集(如:arm平臺(tái)上的neon)對(duì)深度神經(jīng)網(wǎng)絡(luò)模型的計(jì)算進(jìn)行性能提升的優(yōu)化,以滿(mǎn)足實(shí)時(shí)性的要求。

本申請(qǐng)中,經(jīng)過(guò)訓(xùn)練后的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的節(jié)點(diǎn)的數(shù)量,與設(shè)定詞對(duì)應(yīng)的音素的數(shù)量以及1個(gè)“garbage”節(jié)點(diǎn)相對(duì)應(yīng),也即,假設(shè)設(shè)定詞為上例中的“啟動(dòng)”,對(duì)應(yīng)4個(gè)音素,那么,經(jīng)過(guò)訓(xùn)練后的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的節(jié)點(diǎn)數(shù)量就為5。其中“garbage”節(jié)點(diǎn)對(duì)應(yīng)于除了設(shè)定詞音素之外的其他音素,也即,對(duì)應(yīng)于與設(shè)定詞的音素不相同的其他音素。

為了能夠準(zhǔn)確地得到與設(shè)定詞對(duì)應(yīng)的音素以及與設(shè)定詞的音素不相符的其他音素,在訓(xùn)練過(guò)程中,可以基于大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)(largevocabularycontinuousspeechrecognition,lvcsr),為訓(xùn)練樣本中的每一幀特征強(qiáng)對(duì)齊(forcedalign)至音素級(jí)別。

其中,對(duì)于訓(xùn)練樣本而言,一般可以包括正樣本(包含設(shè)定詞)和負(fù)樣本(不包含設(shè)定詞)。本申請(qǐng)實(shí)施例中,通常選擇發(fā)音以元音開(kāi)頭(或包含元音)的設(shè)定詞,這樣的設(shè)定詞發(fā)音飽滿(mǎn),有助于提高喚醒系統(tǒng)的誤拒比率。鑒于此,訓(xùn)練樣本的設(shè)定詞可以例如:“大白,你好”,其對(duì)應(yīng)的音素分別為:d、a4、b、ai2、n、i3、h、ao3。這里舉例說(shuō)明的設(shè)定詞只是一種示例,并不構(gòu)成對(duì)本申請(qǐng)的限定,在實(shí)際應(yīng)用中還可以類(lèi)推至其他有價(jià)值的設(shè)定詞。

經(jīng)過(guò)上述訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練后,將獲得一個(gè)收斂?jī)?yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型,其可以最大概率將語(yǔ)音聲學(xué)特征映射到正確的音素上。

另外,為了使得神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)達(dá)到最優(yōu)狀態(tài),可以采用遷移學(xué) 習(xí)(transferlearning)的方式,利用互聯(lián)網(wǎng)語(yǔ)音大數(shù)據(jù)訓(xùn)練拓?fù)浣Y(jié)構(gòu)合適的dnn,作為目標(biāo)深度神經(jīng)網(wǎng)絡(luò)(主要是除了輸出層之外的其他層)參數(shù)的初始值。這樣處理的好處是為了獲得魯棒性更好的“特征表示”,避免訓(xùn)練過(guò)程中陷入局部最優(yōu)?!斑w移學(xué)習(xí)”的概念很好地利用了深度神經(jīng)網(wǎng)絡(luò)“特征學(xué)習(xí)”的強(qiáng)大能力。當(dāng)然,這里并不構(gòu)成對(duì)本申請(qǐng)的限定。

經(jīng)過(guò)上述內(nèi)容,便得到了本申請(qǐng)中訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。從而可以進(jìn)行實(shí)際使用。下面將針對(duì)實(shí)際使用的場(chǎng)景進(jìn)行說(shuō)明。

在實(shí)際應(yīng)用時(shí),設(shè)備可接收用戶(hù)發(fā)出的語(yǔ)音信號(hào),并獲取該語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征輸入至訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,從而神經(jīng)網(wǎng)絡(luò)模型經(jīng)過(guò)計(jì)算后,輸出所述設(shè)定詞對(duì)應(yīng)的音素與所述各語(yǔ)音信號(hào)聲學(xué)特征分別相匹配的概率,進(jìn)而判斷是否執(zhí)行設(shè)定操作。

具體而言,根據(jù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率,判斷是否執(zhí)行喚醒操作,包括:確定所述神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率中的最大似然概率,確定獲得的各最大似然概率與相應(yīng)的音素的映射關(guān)系,根據(jù)所述映射關(guān)系,以及置信度閾值,判斷是否執(zhí)行喚醒操作。

這里需要說(shuō)明的是,當(dāng)各語(yǔ)音信號(hào)聲學(xué)特征經(jīng)過(guò)上述的神經(jīng)網(wǎng)絡(luò)模型的計(jì)算處理后,神經(jīng)網(wǎng)絡(luò)模型輸出各語(yǔ)音信號(hào)聲學(xué)特征的概率分布,概率分布反映了語(yǔ)音信號(hào)聲學(xué)特征與設(shè)定詞對(duì)應(yīng)的音素相匹配的各種可能性分布,顯然,對(duì)于任一語(yǔ)音信號(hào)聲學(xué)特征而言,其概率分布中的最大值(即,最大似然概率),就表示該語(yǔ)音信號(hào)聲學(xué)特征與設(shè)定詞對(duì)應(yīng)的音素相匹配的可能性的最大,故在本申請(qǐng)的上述步驟中,將確定出各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率中最大的似然概率。

另外,在上述步驟中,根據(jù)所述映射關(guān)系,以及置信度閾值,判斷是否執(zhí)行喚醒操作,具體包括:針對(duì)每一設(shè)定詞對(duì)應(yīng)的音素,統(tǒng)計(jì)與該音素具有映射關(guān)系的最大似然概率的數(shù)量,作為該音素對(duì)應(yīng)的置信度,判斷每一音素的置信 度是否均大于置信度閾值,若是,則執(zhí)行所述設(shè)定操作;否則,則不執(zhí)行所述設(shè)定操作。

至此,在本申請(qǐng)中,當(dāng)語(yǔ)音設(shè)備獲得了語(yǔ)音信號(hào)聲學(xué)特征之后,可將該語(yǔ)音信號(hào)聲學(xué)特征輸入至語(yǔ)音喚醒模塊神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行計(jì)算,得到語(yǔ)音信號(hào)聲學(xué)特征可能表征的各音素的概率分布,并且,神經(jīng)網(wǎng)絡(luò)模型會(huì)將語(yǔ)音信號(hào)聲學(xué)特征映射到概率最大的音素,這樣一來(lái),在統(tǒng)計(jì)了一個(gè)歷史窗口內(nèi)各幀語(yǔ)音信號(hào)聲學(xué)特征的音素規(guī)律特性,以確定所述語(yǔ)音信號(hào)是否與設(shè)定詞相對(duì)應(yīng)。本申請(qǐng)中所采用的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行計(jì)算的方式,可以有效降低計(jì)算量級(jí),減少耗費(fèi)的處理資源,同時(shí),神經(jīng)網(wǎng)絡(luò)模型易于訓(xùn)練,能夠有效提升其適用性。

為了清楚地說(shuō)明上述設(shè)定操作操作的執(zhí)行過(guò)程,下面以設(shè)定詞為喚醒詞、設(shè)定操作為針對(duì)語(yǔ)音設(shè)備的喚醒操作的場(chǎng)景進(jìn)行詳細(xì)說(shuō)明:

在本場(chǎng)景中,假設(shè)語(yǔ)音設(shè)備預(yù)先設(shè)定的喚醒詞為“大白,你好”,該喚醒詞對(duì)應(yīng)的標(biāo)準(zhǔn)音素(為了區(qū)分識(shí)別過(guò)程中用戶(hù)說(shuō)出的詞組所對(duì)應(yīng)的音素,這里將預(yù)設(shè)的喚醒詞對(duì)應(yīng)的音素稱(chēng)為標(biāo)準(zhǔn)音素)分別為:d、a4、b、ai2、n、i3、h、ao3。

首先,為了能夠直觀地表示各音素的概率分布,可以采用諸如直方圖的圖形方式進(jìn)行表示,本示例中以直方圖為例,即,將通過(guò)上述深度神經(jīng)網(wǎng)絡(luò)模型建立每個(gè)音素和“garbage”節(jié)點(diǎn)對(duì)應(yīng)的直方圖。如圖3a所示,每一個(gè)音素(包括“garbage”節(jié)點(diǎn))對(duì)應(yīng)一個(gè)直方圖柱(由于還未進(jìn)行語(yǔ)音信號(hào)識(shí)別處理過(guò)程,所以圖3a中,每個(gè)音素的直方圖柱的高度為零),直方圖柱的高度反映了語(yǔ)音信號(hào)聲學(xué)特征映射到該音素的統(tǒng)計(jì)值。這里的統(tǒng)計(jì)值,便可以看作該音素的置信度。

之后,語(yǔ)音喚醒設(shè)備中的語(yǔ)音喚醒模塊接收待識(shí)別語(yǔ)音信號(hào)。通常地,在語(yǔ)音喚醒模塊執(zhí)行前,通常由vad模塊執(zhí)行語(yǔ)音信號(hào)的檢測(cè)操作,目的是為了檢測(cè)語(yǔ)音信號(hào)是否存在(以區(qū)別于靜音狀態(tài))。一旦檢測(cè)語(yǔ)音信號(hào),語(yǔ)音喚醒系統(tǒng)開(kāi)始工作,即,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行計(jì)算處理。

在深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行計(jì)算的過(guò)程中,語(yǔ)音喚醒模塊會(huì)從用戶(hù)發(fā)出的語(yǔ)音信號(hào)中獲得的語(yǔ)音信號(hào)聲學(xué)特征(其中包含采用前文所述方式對(duì)若干幀語(yǔ)音特征向量進(jìn)行拼接得到的語(yǔ)音信號(hào)聲學(xué)特征)輸入到深度神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行前向傳播計(jì)算。為了提高計(jì)算的效率,這里也可以采用“塊計(jì)算”的方式,即:將連續(xù)若干語(yǔ)音信號(hào)幀(形成一個(gè)活動(dòng)窗口)的語(yǔ)音特征向量同時(shí)輸入到深度神經(jīng)網(wǎng)絡(luò)模型,接著進(jìn)行矩陣計(jì)算。當(dāng)然,這里并不構(gòu)成對(duì)本申請(qǐng)的限定。

深度神經(jīng)網(wǎng)絡(luò)模型的輸出層所輸出的數(shù)值,表示基于給定語(yǔ)音特征向量對(duì)應(yīng)音素的概率分布。顯然,喚醒詞對(duì)應(yīng)的發(fā)音音素覆蓋非“garbage”節(jié)點(diǎn)的概率是更大的。取輸出層最大似然概率對(duì)應(yīng)的音素,其直方圖增加一個(gè)單位,并記錄相應(yīng)的時(shí)間戳(以幀為單位)。

具體而言,假設(shè),對(duì)于某一語(yǔ)音信號(hào)幀的語(yǔ)音特征向量而言,其輸出層最大概率對(duì)應(yīng)的發(fā)音音素為喚醒詞發(fā)音音素“d”,那么,在如圖3a所示的直方圖中,對(duì)應(yīng)于標(biāo)準(zhǔn)音素“d”的直方圖的高度就增加一個(gè)單位;而如果其輸出層最大概率對(duì)應(yīng)的發(fā)音音素不是喚醒詞的任何發(fā)音音素,那么,“garbage”對(duì)應(yīng)的直方圖將增加一個(gè)單位,表示這一語(yǔ)音信號(hào)幀的語(yǔ)音特征向量不對(duì)應(yīng)于喚醒詞的任何發(fā)音音素。按照這樣的方式,最終可以形成如圖3b所示的直方圖。

在一個(gè)歷史窗口內(nèi),每個(gè)直方圖的覆蓋占比可以視作每個(gè)音素的置信度。本申請(qǐng)實(shí)施例中,可以預(yù)設(shè)置信度閾值,比如可以在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,在一個(gè)驗(yàn)證集上進(jìn)行交叉實(shí)驗(yàn)獲得該置信度閾值。該置信度閾值的作用在于:針對(duì)某個(gè)語(yǔ)音信號(hào)而言,若按照上文介紹的過(guò)程,確定出該語(yǔ)音信號(hào)對(duì)應(yīng)的喚醒詞的各發(fā)音音素的直方圖,那么,可以根據(jù)該直方圖以及該置信度閾值,判斷喚醒詞的各發(fā)音音素的直方圖高度(即置信度)是否均超過(guò)置信度閾值,若是,那么可以確定該語(yǔ)音信號(hào)是喚醒詞對(duì)應(yīng)的語(yǔ)音信號(hào),也就可以執(zhí)行相應(yīng)的語(yǔ)音喚醒操作。

此外需要說(shuō)明的是,直方圖中每增加一個(gè)單位,語(yǔ)音喚醒設(shè)備都會(huì)記錄相應(yīng)的時(shí)間戳。其中,該時(shí)間戳以幀為單位,表示語(yǔ)音聲學(xué)特征所屬的語(yǔ)音信號(hào) 幀在語(yǔ)音信號(hào)中的相對(duì)時(shí)序次序,即該語(yǔ)音聲學(xué)特征所屬的語(yǔ)音信號(hào)幀在時(shí)間軸上的排列位置。若針對(duì)語(yǔ)音聲學(xué)特征,在直方圖中增加一個(gè)單位時(shí),記錄了時(shí)間戳為x,則該時(shí)間戳可以表示該幀語(yǔ)音聲學(xué)特征所屬的語(yǔ)音信號(hào)幀為第x幀。根據(jù)時(shí)間戳,可以確定出不同語(yǔ)音聲學(xué)特征所屬的語(yǔ)音信號(hào)幀在時(shí)間軸上的排列位置??梢哉J(rèn)為,如果待識(shí)別語(yǔ)音信號(hào)中也包含著“大白,你好”這個(gè)喚醒詞,那么,如圖3b所示的直方圖中,針對(duì)與“d”至“ao3”的直方圖對(duì)應(yīng)記錄的時(shí)間戳應(yīng)該單調(diào)遞增。

在實(shí)際應(yīng)用中,若引入時(shí)間戳作為是否執(zhí)行喚醒操作的判定條件,則若“d”至“ao3”的直方圖高度均超過(guò)置信度閾值,且根據(jù)記錄的時(shí)間戳,判斷出與“d”至“ao3”的直方圖對(duì)應(yīng)的時(shí)間戳單調(diào)遞增時(shí),才認(rèn)為語(yǔ)音信號(hào)是喚醒詞對(duì)應(yīng)的語(yǔ)音信號(hào),從而執(zhí)行喚醒操作。

引入時(shí)間戳作為是否執(zhí)行喚醒操作的判定條件的方式,比較適合于要求對(duì)喚醒詞包含的各個(gè)字進(jìn)行依次發(fā)音,才能執(zhí)行喚醒操作的場(chǎng)景。

在實(shí)際應(yīng)用中,上述內(nèi)容并不限于語(yǔ)音喚醒操作,同樣適用于不同場(chǎng)景下以語(yǔ)音方式觸發(fā)的設(shè)定操作。這里不再過(guò)多贅述。

以上為本申請(qǐng)實(shí)施例提供的設(shè)定操作操作的執(zhí)行方法,基于同樣的思路,本申請(qǐng)實(shí)施例還提供一種設(shè)定操作的執(zhí)行裝置,如圖4所示。

在圖4中,設(shè)定操作的執(zhí)行裝置包括:獲取模塊401、神經(jīng)網(wǎng)絡(luò)模塊402、判斷確認(rèn)模塊403,其中,

獲取模塊401,用于獲得語(yǔ)音信號(hào)聲學(xué)特征。

神經(jīng)網(wǎng)絡(luò)模塊402,用于將獲得的各語(yǔ)音信號(hào)聲學(xué)特征輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型;其中,對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練所用的樣本,至少包含設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本。

判斷確認(rèn)模塊403,用于根據(jù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率,判斷是否執(zhí)行設(shè)定操作。

獲取模塊401,具體用于從語(yǔ)音信號(hào)幀中獲得所述語(yǔ)音信號(hào)聲學(xué)特征。

更為具體地,獲取模塊401,具體用于采用以當(dāng)前采樣的語(yǔ)音信號(hào)幀作為基準(zhǔn)幀的方式,從第一數(shù)量的語(yǔ)音信號(hào)幀之后的第一幀開(kāi)始,逐幀對(duì)后續(xù)各語(yǔ)音信號(hào)幀執(zhí)行:獲取各語(yǔ)音信號(hào)幀中的、在時(shí)間軸上排列在該基準(zhǔn)幀之前的第一數(shù)量的語(yǔ)音信號(hào)幀的聲學(xué)特征,以及各語(yǔ)音信號(hào)幀中的、在時(shí)間軸上排列在該基準(zhǔn)幀之后的第二數(shù)量的語(yǔ)音信號(hào)幀的聲學(xué)特征,并對(duì)獲取的各聲學(xué)特征進(jìn)行拼接,得到所述語(yǔ)音信號(hào)聲學(xué)特征。

對(duì)于上述內(nèi)容而言,其中,所述第二數(shù)量小于所述第一數(shù)量。

此外,所述裝置還包括:語(yǔ)音活動(dòng)檢測(cè)模塊404,用于在獲得語(yǔ)音信號(hào)聲學(xué)特征之前,通過(guò)執(zhí)行語(yǔ)音活動(dòng)檢測(cè)vad,判斷是否存在語(yǔ)音信號(hào),在判斷為是時(shí),獲得語(yǔ)音信號(hào)聲學(xué)特征。

在本申請(qǐng)實(shí)施例中,神經(jīng)網(wǎng)絡(luò)模塊402,具體用于采用下述方式,訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型:根據(jù)所述設(shè)定詞對(duì)應(yīng)的音素樣本的數(shù)量確定待訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中輸出層的節(jié)點(diǎn)數(shù)量;

循環(huán)執(zhí)行下述步驟,直至待訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)所輸出的、設(shè)定詞對(duì)應(yīng)的語(yǔ)音信號(hào)聲學(xué)特征樣本對(duì)應(yīng)的音素的概率分布中的最大概率值,為所述語(yǔ)音信號(hào)聲學(xué)特征樣本對(duì)應(yīng)的正確發(fā)音的音素:將訓(xùn)練樣本輸入至所述待訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),使得所述待訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)對(duì)輸入的樣本的特征進(jìn)行前向傳播計(jì)算直至輸出層,使用預(yù)設(shè)目標(biāo)函數(shù)計(jì)算該誤差,并通過(guò)所述深度神經(jīng)網(wǎng)絡(luò)模型從輸出層反向傳播誤差,根據(jù)誤差逐層調(diào)節(jié)所述深度神經(jīng)網(wǎng)絡(luò)模型的權(quán)重。

在上述神經(jīng)網(wǎng)絡(luò)模塊402完成訓(xùn)練的基礎(chǔ)上,判斷確認(rèn)模塊403,具體用于確定所述神經(jīng)網(wǎng)絡(luò)模型輸出的、所述各語(yǔ)音信號(hào)聲學(xué)特征對(duì)應(yīng)于與所述設(shè)定詞對(duì)應(yīng)的音素的概率中的最大似然概率,確定獲得的各最大似然概率與相應(yīng)的音素的映射關(guān)系,根據(jù)所述映射關(guān)系,以及置信度閾值,判斷是否執(zhí)行喚醒操作。

更為具體地,判斷確認(rèn)模塊403,具體用于針對(duì)每一設(shè)定詞對(duì)應(yīng)的音素,統(tǒng)計(jì)與該音素具有映射關(guān)系的最大似然概率的數(shù)量,作為該音素對(duì)應(yīng)的置信度, 判斷每一音素的置信度是否均大于置信度閾值,若是,則執(zhí)行所述設(shè)定操作;否則,則不執(zhí)行所述設(shè)定操作。

在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性?xún)?nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(pán)(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。

還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。

本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算 機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

以上所述僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1