分?jǐn)?shù)。在一個(gè)實(shí)施例 中,觀察分?jǐn)?shù)確定單元1350基于包含持續(xù)時(shí)間的幀信息確定持續(xù)時(shí)間是否在用于每個(gè)狀 態(tài)的持續(xù)時(shí)間的預(yù)定的范圍內(nèi)。如果持續(xù)時(shí)間確定為不在持續(xù)時(shí)間的預(yù)定的范圍內(nèi),那么 觀察分?jǐn)?shù)確定單元1350決定不確定觀察分?jǐn)?shù)。否則的話,觀察分?jǐn)?shù)確定單元1350著手確 定觀察分?jǐn)?shù)。
[0094] 在確定觀察分?jǐn)?shù)中,用于狀態(tài)中的每一個(gè)的概率值可以是根據(jù)用于相關(guān)聯(lián)狀態(tài)的 概率模型計(jì)算的。計(jì)算出的概率值可用作用于相關(guān)聯(lián)狀態(tài)的觀察分?jǐn)?shù)。觀察分?jǐn)?shù)確定單元 1350隨后將用于每個(gè)聲音特征的所確定的觀察分?jǐn)?shù)提供給最大關(guān)鍵詞分?jǐn)?shù)確定單元1360 以用于確定用于多個(gè)狀態(tài)順序的關(guān)鍵詞分?jǐn)?shù),所述關(guān)鍵詞分?jǐn)?shù)可能用于目標(biāo)關(guān)鍵詞。
[0095] 最大關(guān)鍵詞分?jǐn)?shù)確定單元1360隨后接收用于聲音特征中的每一個(gè)的觀察分?jǐn)?shù)以 及包含分別與聲音特征相關(guān)聯(lián)的幀的持續(xù)時(shí)間和位置的幀信息。另外,最大關(guān)鍵詞分?jǐn)?shù)確 定單元1360接收包含過渡分?jǐn)?shù)(如上文結(jié)合圖5所述)的狀態(tài)信息以及包含持續(xù)時(shí)間的 預(yù)定的范圍的持續(xù)時(shí)間信息。在一個(gè)實(shí)施例中,過渡分?jǐn)?shù)包含從非關(guān)鍵詞狀態(tài)到單個(gè)輸入 狀態(tài)的過渡分?jǐn)?shù)。替代地,過渡分?jǐn)?shù)可以包含從非關(guān)鍵詞狀態(tài)到多個(gè)輸入狀態(tài)中的每一個(gè) 的過渡分?jǐn)?shù)。
[0096] 對(duì)于所述狀態(tài)中的每一個(gè),持續(xù)時(shí)間信息進(jìn)一步包含確定用于持續(xù)時(shí)間中的每一 個(gè)的持續(xù)時(shí)間分?jǐn)?shù)。用于每個(gè)狀態(tài)的預(yù)定的持續(xù)時(shí)間分?jǐn)?shù)可以設(shè)置成分別與狀態(tài)落入持續(xù) 時(shí)間中的概率值相關(guān)聯(lián)。通過基于幀信息和持續(xù)時(shí)間的預(yù)定的范圍使用接收到的觀察分?jǐn)?shù) 計(jì)算過渡分?jǐn)?shù)和持續(xù)時(shí)間分?jǐn)?shù),最大關(guān)鍵詞分?jǐn)?shù)確定單元1360確定用于可能的狀態(tài)順序 的關(guān)鍵詞分?jǐn)?shù)。在所確定的關(guān)鍵詞分?jǐn)?shù)當(dāng)中,最大關(guān)鍵詞分?jǐn)?shù)確定單元1360確定用于檢測(cè) 目標(biāo)關(guān)鍵詞的最大關(guān)鍵詞分?jǐn)?shù)。
[0097] 最大關(guān)鍵詞分?jǐn)?shù)確定單元1360可根據(jù)持續(xù)時(shí)間受限半馬爾可夫模型方案確定關(guān) 鍵詞分?jǐn)?shù)。舉例來說,如果可能的狀態(tài)順序中的一個(gè)包含其持續(xù)時(shí)間并不在用于狀態(tài)的持 續(xù)時(shí)間的預(yù)定的范圍內(nèi)的狀態(tài),那么最大關(guān)鍵詞分?jǐn)?shù)確定單元1360可能無法確定用于狀 態(tài)順序的關(guān)鍵詞分?jǐn)?shù)同時(shí)確定用于不包含此類狀態(tài)的其它狀態(tài)順序的關(guān)鍵詞分?jǐn)?shù)。在此實(shí) 例中,最大關(guān)鍵詞分?jǐn)?shù)確定單元1360可通過使用例如如下的維特比算法等任何合適的方 法在所確定的關(guān)鍵詞分?jǐn)?shù)當(dāng)中選擇最大關(guān)鍵詞。
[0098] V(t-dy)+T(s'rS)+o(Us) +Dfd,sj )
[0099] 其中t表示當(dāng)前輸入聲音的幀大小,s表示當(dāng)前狀態(tài),V(t, s)表示用于將狀態(tài)s作 為從時(shí)間幀1到t中的一個(gè)起始的最后狀態(tài)的所有可能的狀態(tài)順序的最大關(guān)鍵詞分?jǐn)?shù),d 表示狀態(tài)s的持續(xù)時(shí)間,dmin(s)表示用于狀態(tài)s的持續(xù)時(shí)間的預(yù)定的范圍當(dāng)中狀態(tài)s的 最小持續(xù)時(shí)間,dmax(s)表示用于狀態(tài)s的持續(xù)時(shí)間的預(yù)定的范圍當(dāng)中狀態(tài)s的最大持續(xù) 時(shí)間,s'表示狀態(tài)s的先前狀態(tài),T (s,s')表示從先前狀態(tài)s'到當(dāng)前狀態(tài)s的過渡分?jǐn)?shù), 0 (t,d,s)表示用于從用于狀態(tài)s的幀t-d+Ι到幀t的時(shí)間幀的觀察分?jǐn)?shù),并且D (d,s)表示 當(dāng)狀態(tài)s的持續(xù)時(shí)間是d時(shí)用于s的持續(xù)時(shí)間分?jǐn)?shù)。
[0100] 如在SMM方案下等式1中所示,用于目標(biāo)關(guān)鍵詞的最大關(guān)鍵詞分?jǐn)?shù)是基于用于每 個(gè)狀態(tài)的持續(xù)時(shí)間的受限范圍計(jì)算的。通過使用持續(xù)時(shí)間的此類受限范圍,最大關(guān)鍵詞分 數(shù)確定單元1360可以相對(duì)低的計(jì)算復(fù)雜性實(shí)施。另外,由于持續(xù)時(shí)間的受限范圍是考慮到 用戶的不同說話速度預(yù)定的,所以關(guān)鍵詞檢測(cè)性能基本上并未降級(jí)。
[0101] 在確定最大關(guān)鍵詞分?jǐn)?shù)之后,最大關(guān)鍵詞分?jǐn)?shù)確定單元1360將最大關(guān)鍵詞分?jǐn)?shù) 提供給關(guān)鍵詞檢測(cè)單元1340。在從最大關(guān)鍵詞分?jǐn)?shù)確定單元1360中接收最大關(guān)鍵詞分?jǐn)?shù) 之后,關(guān)鍵詞檢測(cè)單元1340基于最大關(guān)鍵詞分?jǐn)?shù)檢測(cè)輸入聲音中的目標(biāo)關(guān)鍵詞。舉例來 說,關(guān)鍵詞檢測(cè)單元1340可使用閾值分?jǐn)?shù)以用于從存儲(chǔ)單元230中檢測(cè)目標(biāo)關(guān)鍵詞,如上 文參考圖5所述。在檢測(cè)目標(biāo)關(guān)鍵詞之后,關(guān)鍵詞檢測(cè)單元1340生成且提供激活信號(hào)("開 啟信號(hào)")以開啟與目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的功能或應(yīng)用。
[0102] 在一個(gè)實(shí)施例中,為了確定用于所述狀態(tài)中的每一個(gè)的持續(xù)時(shí)間的范圍,分?jǐn)?shù)確 定單元1330可接收多個(gè)參考輸入聲音以用于目標(biāo)關(guān)鍵詞。對(duì)于參考輸入聲音中的每一個(gè), 分?jǐn)?shù)確定單元1330確定參考狀態(tài)順序,并且通過回溯參考狀態(tài)順序還以如上文結(jié)合圖11 和12所述的類似方式確定與參考狀態(tài)順序中的狀態(tài)中的每一個(gè)相關(guān)聯(lián)的持續(xù)時(shí)間。因此, 分?jǐn)?shù)確定單元1330可基于用于所述狀態(tài)的所確定的持續(xù)時(shí)間從所述參考狀態(tài)順序中確定 用于每個(gè)狀態(tài)的持續(xù)時(shí)間的范圍(例如,通過對(duì)所確定的持續(xù)時(shí)間進(jìn)行平均)。因此所確定 的持續(xù)時(shí)間的范圍可隨后存儲(chǔ)于存儲(chǔ)單元230中。
[0103] 圖14示出了根據(jù)一個(gè)實(shí)施例在馬爾可夫鏈模型下用于目標(biāo)關(guān)鍵詞的多個(gè)狀態(tài)順 序的框圖1400,所述狀態(tài)順序是基于用于與目標(biāo)關(guān)鍵詞相關(guān)聯(lián)的多個(gè)狀態(tài)"S"、"T"、"A"、 "R"、"T"等中的每一個(gè)的持續(xù)時(shí)間的范圍生成的。用于所述狀態(tài)中的每一個(gè)的持續(xù)時(shí)間的 范圍可以是預(yù)定的以采用如上文相對(duì)于圖13所述的方式受到限制。為便于說明,可假設(shè)在 圖1400中時(shí)間點(diǎn)(例如,"T1")與下一個(gè)時(shí)間點(diǎn)(例如,"T2")之間的周期是IOms并且分 段聲音特征具有IOXN ms的持續(xù)時(shí)間,其中N是正整數(shù)并且分段聲音特征的持續(xù)時(shí)間并不 大于輸入聲音的時(shí)間周期。
[0104] 在所說明的實(shí)施例中,從先前狀態(tài)到當(dāng)前狀態(tài)的過渡線的橫越次數(shù)可指示用于所 述狀態(tài)中的每一個(gè)的預(yù)定的范圍中的持續(xù)時(shí)間。舉例來說,在狀態(tài)"A"的情況下在時(shí)間T4 和T5處,從在時(shí)間T2處的先前狀態(tài)"T"到在時(shí)間T4和T5處的當(dāng)前狀態(tài)"A"的過渡線分 別在20ms和30ms中橫越。在這種情況下,狀態(tài)"A"的持續(xù)時(shí)間的預(yù)定的范圍是在狀態(tài)順 序中從20ms到30ms。因此,對(duì)于狀態(tài)"A",可以確定觀察分?jǐn)?shù)并且可以僅針對(duì)20ms或30ms 的分段特征預(yù)定持續(xù)時(shí)間分?jǐn)?shù)??呻S后使用觀察分?jǐn)?shù)和預(yù)定的持續(xù)時(shí)間分?jǐn)?shù)以確定關(guān)鍵詞 分?jǐn)?shù)并且隨后確定其中的最大關(guān)鍵詞分?jǐn)?shù)以檢測(cè)目標(biāo)關(guān)鍵詞。因此,由于用于檢測(cè)目標(biāo)關(guān) 鍵詞的關(guān)鍵詞分?jǐn)?shù)是基于持續(xù)時(shí)間的受限范圍計(jì)算的,所以用于檢測(cè)目標(biāo)關(guān)鍵詞的計(jì)算時(shí) 間可以在SMM方案下顯著減少。
[0105] 圖15是根據(jù)一個(gè)實(shí)施例通過分?jǐn)?shù)確定單元1330執(zhí)行的方法1500的流程圖,以用 于基于在SMM下的持續(xù)時(shí)間的預(yù)定的范圍檢測(cè)輸入聲音中的目標(biāo)關(guān)鍵詞。最初,在1510處, 分?jǐn)?shù)確定單元1330接收從可變時(shí)間范圍中提取的聲音特征以及關(guān)于每個(gè)幀的持續(xù)時(shí)間和 位置的幀信息。在1520處,分?jǐn)?shù)確定單元1330接收關(guān)于多個(gè)狀態(tài)和用于每個(gè)狀態(tài)的概率 模型的狀態(tài)信息、在對(duì)于目標(biāo)關(guān)鍵詞是可能的多個(gè)狀態(tài)順序中從所述狀態(tài)中的每一個(gè)到下 一個(gè)狀態(tài)的過渡信息,以及關(guān)于持續(xù)時(shí)間的預(yù)定的范圍和確定用于持續(xù)時(shí)間中的每一個(gè)的 持續(xù)時(shí)間分?jǐn)?shù)的持續(xù)時(shí)間信息。
[0106] 在1530處,對(duì)于聲音特征中的每一個(gè),分?jǐn)?shù)確定單元1330基于每個(gè)狀態(tài)的概率模 型確定所述狀態(tài)中的每一個(gè)的觀察分?jǐn)?shù)。在1540處,基于過渡信息,分?jǐn)?shù)確定單元1330獲 得在可能的狀態(tài)順序中從所述狀態(tài)中的每一個(gè)到下一個(gè)狀態(tài)的過渡分?jǐn)?shù)。在1550處,分?jǐn)?shù) 確定單元1330從持續(xù)時(shí)間信息中獲得持續(xù)時(shí)間的預(yù)定的范圍以及針對(duì)持續(xù)時(shí)間中的每一 個(gè)確定的持續(xù)時(shí)間分?jǐn)?shù)。在1560處,通過基于幀信息和持續(xù)時(shí)間的預(yù)定的范圍使用接收到 的觀察分?jǐn)?shù)、過渡分?jǐn)?shù)和持續(xù)時(shí)間分?jǐn)?shù)進(jìn)行計(jì)算,分?jǐn)?shù)確定單元1330確定針對(duì)可能的狀態(tài) 順序的關(guān)鍵詞分?jǐn)?shù)并且在所確定的關(guān)鍵詞分?jǐn)?shù)當(dāng)中選擇最大關(guān)鍵詞分?jǐn)?shù)。
[0107] 圖16說明無線通信系統(tǒng)中的移動(dòng)裝置1600的框圖,在所述移動(dòng)裝置中可以根據(jù) 一些實(shí)施例實(shí)施用于從輸入聲音中檢測(cè)目標(biāo)關(guān)鍵詞以激活功能的本發(fā)明的方法和設(shè)備。移 動(dòng)裝置1600可以是蜂窩式電話、終端、手機(jī)、個(gè)人數(shù)字助理(PDA)、無線調(diào)制解調(diào)器、無繩電 話、平板電腦等。無線通信系統(tǒng)可以是碼分多址(CDM)系統(tǒng)、全球移動(dòng)通信系統(tǒng)(GSM)系 統(tǒng)、寬帶CDM(W-CDM)系統(tǒng)、長(zhǎng)期演進(jìn)(LTE)系統(tǒng)、LTE高級(jí)系統(tǒng)等等。
[0108] 移動(dòng)裝置1600能夠經(jīng)由接收路徑和發(fā)射路徑提供雙向通信。在接收路徑上,基站 發(fā)射的信號(hào)被天線1612接收,并且被提供到接收器(RCVR) 1614。接收器1614調(diào)節(jié)和數(shù)字 化所接收信號(hào),并且將經(jīng)調(diào)節(jié)和數(shù)字化的信號(hào)提供到數(shù)字區(qū)段1620以用于進(jìn)一步處理。在 發(fā)射路徑上,發(fā)射器(TMTR)從數(shù)字區(qū)段1620接收待發(fā)射的數(shù)據(jù),處理并調(diào)節(jié)所述數(shù)據(jù),且 生成經(jīng)調(diào)制信號(hào),所述經(jīng)調(diào)制信號(hào)經(jīng)由天線1612發(fā)射到基站。接收器1614和發(fā)射器1616 是支持CDMA、GSM、W-CDMA、LTE、LTE高級(jí)等的收發(fā)器的一部分。
[0109] 數(shù)字區(qū)段1620包含多種處理、接□和存儲(chǔ)器單元,舉例來說,例如,調(diào)制解調(diào)器處 理器1622、精簡(jiǎn)指令集計(jì)算機(jī)/數(shù)字信號(hào)處理器(RISC/DSP) 1624、控制器/處理器1626、 內(nèi)部存儲(chǔ)器1628、廣義音頻編碼器1632、廣義音頻解碼器1634、圖形/顯示處理器1636,和 /或外部總線接口(EBI) 1638。調(diào)制解調(diào)器處理器1622執(zhí)行對(duì)數(shù)據(jù)發(fā)射及接收的處理,例 如,編碼、調(diào)制、解調(diào)和解碼。RISC/DSP 1624執(zhí)行移動(dòng)裝置1600的通用和專業(yè)化處理。控 制器/處理器1626控制數(shù)字區(qū)段1620內(nèi)的各種處理和接口單元的操作。內(nèi)部存儲(chǔ)器1628 存儲(chǔ)用于數(shù)字區(qū)段1620內(nèi)的各種單元的數(shù)據(jù)和/或指令。
[0110] 一般化的音頻編碼器1632執(zhí)行對(duì)來自音頻源1642、麥克風(fēng)1643等的輸入信號(hào)的 編碼。一般化的音頻解碼器1634執(zhí)行對(duì)經(jīng)譯碼音頻數(shù)據(jù)的解碼,并且可將輸出信號(hào)提供到 揚(yáng)聲器/頭戴式耳機(jī)1644。應(yīng)注意一般化的音頻編碼器1632和一般化的音頻解碼器1634 不一定需要與音頻源、麥克風(fēng)1643和揚(yáng)聲器/頭戴式耳機(jī)1644介接,并且因此未在所述移 動(dòng)裝置1600中示出。圖形/顯示處理器1636執(zhí)行針對(duì)圖形、視頻、圖像和文本的處理,其 呈現(xiàn)給顯示單元1646。EBI 1638促進(jìn)數(shù)字區(qū)段1620與主存儲(chǔ)器1648之間的數(shù)據(jù)傳送。
[0111] 數(shù)字區(qū)段1620通過一或多個(gè)處理器、DSP、微處理器、RISC等來實(shí)施。還可在一或 多個(gè)專用集成電路(ASIC)和/或一些其它類型的集成電路(IC)上制造數(shù)字區(qū)段1620。