用于檢測(cè)目標(biāo)關(guān)鍵詞的方法和設(shè)備的制造方法
【專利說(shuō)明】
[0001] 相關(guān)申請(qǐng)案的奪叉參考
[0002] 本申請(qǐng)案主張共同擁有的2013年5月7日遞交的第61/820,498號(hào)美國(guó)臨時(shí)專利 申請(qǐng)案、2013年7月26日遞交的第61/859, 058號(hào)美國(guó)臨時(shí)專利申請(qǐng)案,以及2013年11月 22日遞交的第14/087, 939號(hào)美國(guó)非臨時(shí)專利申請(qǐng)案的優(yōu)先權(quán),所述申請(qǐng)案中的每一個(gè)的 內(nèi)容以全文引用的方式明確地并入本文中。
技術(shù)領(lǐng)域
[0003] 本發(fā)明大體上涉及音頻處理,并且更確切地說(shuō)涉及從電子裝置的音頻輸入中檢測(cè) 目標(biāo)關(guān)鍵詞。
【背景技術(shù)】
[0004] 近年來(lái),例如智能電話、平板計(jì)算機(jī)和智能電視等具有聲音捕獲能力的電子裝置 的使用已經(jīng)穩(wěn)定地逐漸增加。此類(lèi)電子裝置可允許響應(yīng)于話音關(guān)鍵詞激活一或多個(gè)應(yīng)用或 功能。由于此類(lèi)裝置的用戶通常在隨機(jī)時(shí)間幀中使用此類(lèi)話音激活特征,所以這些裝置通 常連續(xù)地以激活狀態(tài)操作以使得能夠捕獲和處理此類(lèi)輸入聲音。
[0005] 連續(xù)地以激活狀態(tài)操作操作此類(lèi)裝置通常允許在從輸入聲音中檢測(cè)關(guān)鍵詞中接 收整個(gè)關(guān)鍵詞。然而,在移動(dòng)裝置的情況下使用此類(lèi)裝置連續(xù)地捕獲和處理輸入聲音以用 于檢測(cè)關(guān)鍵詞通常導(dǎo)致增大的電力消耗或縮短的電池壽命。一些裝置已經(jīng)實(shí)施工作循環(huán)以 在接收和處理輸入聲音流時(shí)減少時(shí)間。然而,如果來(lái)自用戶的關(guān)鍵詞的開(kāi)始落入工作循環(huán) 的非激活狀態(tài)中,那么可能引起無(wú)法檢測(cè)關(guān)鍵詞,需要用戶重復(fù)關(guān)鍵詞。
[0006] 另外,當(dāng)不同用戶說(shuō)出相同的關(guān)鍵詞以激活電子裝置中的功能時(shí),他們通常以不 同速度說(shuō)出關(guān)鍵詞使得不同的時(shí)間周期可能貢獻(xiàn)于關(guān)鍵詞的每個(gè)部分中。為了解決根據(jù)用 戶的差異,一些電子裝置已經(jīng)針對(duì)檢測(cè)關(guān)鍵詞處理所有可能的時(shí)間周期的所有組合。然而, 此類(lèi)聲音處理方法通常增加了計(jì)算復(fù)雜性并且需要相當(dāng)大的計(jì)算資源。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供用于檢測(cè)目標(biāo)關(guān)鍵詞以激活功能或應(yīng)用的方法和設(shè)備。
[0008] 根據(jù)本發(fā)明的一個(gè)方面,公開(kāi)了一種檢測(cè)包含多個(gè)部分的目標(biāo)關(guān)鍵詞的方法以用 于激活電子裝置中的功能。所述方法接收從目標(biāo)關(guān)鍵詞的多個(gè)部分中的一個(gè)起始的輸入聲 音并且從輸入聲音中提取多個(gè)聲音特征。另外,所述方法獲得描述狀態(tài)網(wǎng)絡(luò)的數(shù)據(jù),其中狀 態(tài)網(wǎng)絡(luò)包含單個(gè)起始狀態(tài)、多個(gè)輸入狀態(tài)以及從單個(gè)起始狀態(tài)到多個(gè)輸入狀態(tài)中的每一個(gè) 的過(guò)渡?;谒崛〉穆曇籼卣骱蜖顟B(tài)網(wǎng)絡(luò),輸入聲音可以被檢測(cè)為目標(biāo)關(guān)鍵詞。本發(fā)明 還描述了涉及此方法的設(shè)備、裝置、系統(tǒng)、構(gòu)件的組合以及計(jì)算機(jī)可讀媒體。
[0009] 根據(jù)本發(fā)明的另一方面,用于檢測(cè)目標(biāo)關(guān)鍵詞以激活功能的電子裝置包含聲音傳 感器和話音激活單元。目標(biāo)關(guān)鍵詞包含多個(gè)部分。聲音傳感器經(jīng)配置以接收從目標(biāo)關(guān)鍵詞 的多個(gè)部分中的一個(gè)起始的輸入聲音。話音激活單元經(jīng)配置以從輸入聲音中提取多個(gè)聲音 特征、獲得描述狀態(tài)網(wǎng)絡(luò)的數(shù)據(jù),并且基于所提取的聲音特征和狀態(tài)網(wǎng)絡(luò)確定輸入聲音是 否對(duì)應(yīng)于目標(biāo)關(guān)鍵詞。所述狀態(tài)網(wǎng)絡(luò)包含單個(gè)起始狀態(tài)、多個(gè)輸入狀態(tài)以及從單個(gè)起始狀 態(tài)到多個(gè)輸入狀態(tài)中的每一個(gè)的過(guò)渡。
[0010] 根據(jù)本發(fā)明的又一方面,公開(kāi)了一種用于檢測(cè)電子裝置中的目標(biāo)關(guān)鍵詞的方法。 目標(biāo)關(guān)鍵詞包含多個(gè)部分。所述方法接收輸入聲音并且從輸入聲音中提取多個(gè)聲音特征。 另外,所述方法獲得與目標(biāo)關(guān)鍵詞的多個(gè)部分相關(guān)聯(lián)的狀態(tài)信息。狀態(tài)信息包含用于與目 標(biāo)關(guān)鍵詞的部分相關(guān)聯(lián)的多個(gè)狀態(tài)的多個(gè)持續(xù)時(shí)間范圍?;谒崛〉穆曇籼卣骱蜖顟B(tài)信 息,輸入聲音被檢測(cè)為目標(biāo)關(guān)鍵詞。本發(fā)明還描述了涉及此方法的設(shè)備、裝置、系統(tǒng)、構(gòu)件的 組合以及計(jì)算機(jī)可讀媒體。
[0011] 根據(jù)本發(fā)明的再一方面,公開(kāi)了一種用于檢測(cè)包含多個(gè)部分的目標(biāo)關(guān)鍵詞的電子 裝置。所述電子裝置包含聲音傳感器和話音激活單元。聲音傳感器經(jīng)配置以接收輸入聲 音。話音激活單元經(jīng)配置以從輸入聲音中提取多個(gè)聲音特征并且獲得與目標(biāo)關(guān)鍵詞的多個(gè) 部分相關(guān)聯(lián)的狀態(tài)信息。狀態(tài)信息包含用于與目標(biāo)關(guān)鍵詞的部分相關(guān)聯(lián)的多個(gè)狀態(tài)的多個(gè) 持續(xù)時(shí)間范圍。話音激活單元進(jìn)一步經(jīng)配置以基于所提取的聲音特征和狀態(tài)信息將輸入聲 音檢測(cè)為目標(biāo)關(guān)鍵詞。
【附圖說(shuō)明】
[0012] 當(dāng)結(jié)合附圖讀取時(shí),通過(guò)參考以下詳細(xì)描述將理解本發(fā)明的發(fā)明性方面的實(shí)施 例。
[0013] 圖1說(shuō)明根據(jù)本發(fā)明的一個(gè)實(shí)施例的當(dāng)在輸入聲音中檢測(cè)到目標(biāo)關(guān)鍵詞時(shí)激活 話音助理應(yīng)用的移動(dòng)裝置。
[0014] 圖2描繪根據(jù)本發(fā)明的一個(gè)實(shí)施例的經(jīng)配置以檢測(cè)輸入聲音流中的目標(biāo)關(guān)鍵詞 以用于激活電子裝置中的功能的電子裝置的框圖。
[0015] 圖3描述根據(jù)本發(fā)明的一個(gè)實(shí)施例的經(jīng)配置以激活話音激活單元并且連續(xù)地提 供輸入聲音流給話音激活單元的聲音傳感器和語(yǔ)音檢測(cè)器的框圖。
[0016] 圖4說(shuō)明根據(jù)本發(fā)明的一個(gè)實(shí)施例的輸入聲音流的圖,所述輸入聲音流最初基于 工作循環(huán)接收并且一旦在工作循環(huán)的激活狀態(tài)期間接收的部分確定為包含足夠強(qiáng)度的且 感興趣的聲音則連續(xù)地接收。
[0017] 圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的經(jīng)配置以接收輸入聲音并且檢測(cè)輸入聲音中 的目標(biāo)關(guān)鍵詞的話音激活單元的更詳細(xì)的框圖。
[0018] 圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于檢測(cè)輸入聲音中的目標(biāo)關(guān)鍵詞以用于激 活話音助理單元的方法的流程圖。
[0019] 圖7描述根據(jù)一個(gè)實(shí)施例的確定用于針對(duì)目標(biāo)關(guān)鍵詞的多個(gè)狀態(tài)的多個(gè)聲音特 征中的每一個(gè)的一組觀察分?jǐn)?shù)的圖。
[0020] 圖8示出了根據(jù)一個(gè)實(shí)施例的用于包含多個(gè)輸入狀態(tài)以用于檢測(cè)目標(biāo)關(guān)鍵詞的 馬爾可夫鏈模型下的目標(biāo)關(guān)鍵詞的多個(gè)狀態(tài)順序的圖。
[0021] 圖9是示出根據(jù)一個(gè)實(shí)施例的用于以與每個(gè)聲音特征相關(guān)聯(lián)的多個(gè)狀態(tài)中的每 一個(gè)結(jié)尾的每個(gè)狀態(tài)順序的最大關(guān)鍵詞分?jǐn)?shù)的圖。
[0022] 圖10是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于確定狀態(tài)順序的關(guān)鍵詞分?jǐn)?shù)以檢測(cè)輸入 聲音中的目標(biāo)關(guān)鍵詞的方法的流程圖。
[0023] 圖11描繪根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于在確定用于目標(biāo)關(guān)鍵詞的輸入狀態(tài)的 數(shù)目中使用的目標(biāo)關(guān)鍵詞的參考狀態(tài)順序的圖。
[0024] 圖12是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于通過(guò)對(duì)用于目標(biāo)關(guān)鍵詞的參考輸入聲音 進(jìn)行處理確定用于目標(biāo)關(guān)鍵詞的輸入狀態(tài)的數(shù)目的方法的流程圖。
[0025] 圖13是根據(jù)本發(fā)明的另一實(shí)施例的話音激活單元的框圖,所述話音激活單元經(jīng) 配置以接收輸入聲音并且基于用于與目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的多個(gè)狀態(tài)中的每一個(gè)的持續(xù)時(shí) 間的預(yù)先確定的范圍檢測(cè)輸入聲音中的目標(biāo)關(guān)鍵詞。
[0026] 圖14示出了根據(jù)一個(gè)實(shí)施例在馬爾可夫鏈模型下用于目標(biāo)關(guān)鍵詞的多個(gè)狀態(tài)順 序的框圖,所述狀態(tài)順序是基于用于與目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的每個(gè)狀態(tài)的持續(xù)時(shí)間的范圍生 成的。
[0027] 圖15是根據(jù)一個(gè)實(shí)施例用于基于每個(gè)狀態(tài)的持續(xù)時(shí)間的預(yù)先確定的范圍確定最 大關(guān)鍵詞分?jǐn)?shù)以檢測(cè)目標(biāo)關(guān)鍵詞的方法的流程圖。
[0028] 圖16說(shuō)明無(wú)線通信系統(tǒng)中的移動(dòng)裝置的框圖,在所述移動(dòng)裝置中可以根據(jù)本發(fā) 明的一些實(shí)施例實(shí)施用于從輸入聲音中檢測(cè)目標(biāo)關(guān)鍵詞以激活功能的方法和設(shè)備。
【具體實(shí)施方式】
[0029] 現(xiàn)在將詳細(xì)參考各種實(shí)施例,在附圖中說(shuō)明所述實(shí)施例的實(shí)例。在以下詳細(xì)描述 中,陳述眾多具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。然而,對(duì)于所屬領(lǐng)域的一般技術(shù)人員 將是顯而易見(jiàn)的是可在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐本發(fā)明。在其它情況下,未詳細(xì)描 述眾所周知的方法、程序、系統(tǒng)和組件,以便不會(huì)不必要地混淆各種實(shí)施例的各方面。
[0030] 圖1說(shuō)明根據(jù)本發(fā)明的一個(gè)實(shí)施例的當(dāng)在輸入聲音中檢測(cè)到目標(biāo)關(guān)鍵詞時(shí)激活 話音助理應(yīng)用130的移動(dòng)裝置120。最初,移動(dòng)裝置120存儲(chǔ)目標(biāo)關(guān)鍵詞以用于激活應(yīng)用或 功能,例如,移動(dòng)裝置120中的話音助理應(yīng)用130。在所說(shuō)明的實(shí)施例中,當(dāng)用戶110向移動(dòng) 裝置120說(shuō)出例如"起始助理"等目標(biāo)關(guān)鍵詞時(shí),移動(dòng)裝置120捕獲輸入聲音并且在輸入聲 音中檢測(cè)目標(biāo)關(guān)鍵詞。
[0031] 在檢測(cè)目標(biāo)關(guān)鍵詞之后,移動(dòng)裝置120激活話音助理應(yīng)用130,其可以響應(yīng)于來(lái)自 用戶110的其它命令執(zhí)行額外功能。在一些實(shí)施例中,移動(dòng)裝置120可存儲(chǔ)多個(gè)目標(biāo)關(guān)鍵 詞以用于從用戶的聲音輸入中檢測(cè)目標(biāo)關(guān)鍵詞。目標(biāo)關(guān)鍵詞中的每一個(gè)可經(jīng)配置以激活與 移動(dòng)裝置120中的目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的應(yīng)用或功能。
[0032] 圖2描繪根據(jù)本發(fā)明的一個(gè)實(shí)施例的經(jīng)配置以檢測(cè)輸入聲音流中的目標(biāo)關(guān)鍵詞 以用于激活電子裝置200中的功能的電子裝置200的框圖。如本文所用,術(shù)語(yǔ)"聲音流"是 指一或多個(gè)聲音信號(hào)或聲音數(shù)據(jù)的順序。另外,術(shù)語(yǔ)"目標(biāo)關(guān)鍵詞"是指可用于激活電子裝 置200中的功能或應(yīng)用的一或多個(gè)詞語(yǔ)或聲音的任何數(shù)字或模擬表示。電子裝置200包含 聲音傳感器210、I/O單元220、存儲(chǔ)單元230、通信單元240和處理器250。電子裝置200可 以是配備有聲音捕獲和處理能力的任何合適的裝置,例如,蜂窩式電話、智能電話(例如, 移動(dòng)裝置120)、個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板個(gè)人計(jì)算機(jī)、智能電視、游戲裝置、多媒體 播放器等。
[0033] 處理器250包含數(shù)字信號(hào)處理器(DSP) 252和話音助理單元260,并且可以是用于 管理和操作電子裝置200的應(yīng)用程序處理器或中央處理單元(CPU)。DSP 252包含語(yǔ)音檢 測(cè)器254和話音激活單元256。在一個(gè)實(shí)施例中,DSP 252是低功率處理器以用于減少處理 聲音流中的電力消耗。在此配置中,DSP 252中的話音激活單元256經(jīng)配置以當(dāng)在輸入聲 音流中檢測(cè)到目標(biāo)關(guān)鍵詞時(shí)激活話音助理單元260。雖然在所說(shuō)明的實(shí)施例中話音激活單 元256經(jīng)配置以激活話音助理單元260,但是它也可以激活可能與目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的任 何功能或應(yīng)用。
[0034] 聲音傳感器210可經(jīng)配置以接收輸入聲音流并且將它提供給DSP 252中的語(yǔ)音檢 測(cè)器254。聲音傳感器210可以包含可用于接收、捕獲、感測(cè)和/或檢測(cè)到電子裝置200的 聲音輸入的一或多個(gè)麥克風(fēng)或任何其它類(lèi)型的聲音傳感器。另外,聲音傳感器210可采用 任何合適的軟件和/或硬件以用于執(zhí)行此類(lèi)功能。
[0035] 在一個(gè)實(shí)施例中,聲音傳感器210可經(jīng)配置以根據(jù)工作循環(huán)周期性地接收輸入聲 音流。在這種情況下,聲音傳感器210可確