與遙控裝置有關(guān)的聲音識別方法與裝置的制作方法

文檔序號：2821787閱讀：193來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：與遙控裝置有關(guān)的聲音識別方法與裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及可以預(yù)先準備觸發(fā)某種識別階段的聲音識別裝置。本發(fā)明還涉及實現(xiàn)觸發(fā)的裝置，特別是實現(xiàn)遙控觸發(fā)的裝置。本發(fā)明特別適用于電視領(lǐng)域。
典型的聲音識別系統(tǒng)一方面包括結(jié)合有用于獲取并處理代表待識別的聲音數(shù)據(jù)的音頻信號的裝置的音頻處理器；另一方面包括語言解碼器，該語言解碼器包括聲音識別引擎本身。根據(jù)音頻處理器預(yù)處理的音頻信號，該引擎利用聲音模型和語言模型進行識別。
特別是，對于基于語法的語言模型，只有在不接收音頻信號的預(yù)定時間終止后，識別引擎才開始對語句進行分析。這樣就可以認為系統(tǒng)演講者已結(jié)束播出語句。
根據(jù)設(shè)想的應(yīng)用，時間的選擇變成光玉髓。如果選擇時間過長，就會減少在處理語句方面的延遲。如果選擇時間過短，則用戶在說話發(fā)聲期間的暫?？赡軙谡f話發(fā)聲結(jié)束前觸發(fā)處理過程。例如，在他開始他的句子的同時，當講話者意識到顯示在屏幕上的數(shù)據(jù)是對應(yīng)于先前的行為時，將出現(xiàn)猶豫。
為了避免不適時觸發(fā)暫停之后的處理過程，可以設(shè)想加大預(yù)定時間長度，該時間長度可以超過5秒或6秒。在這里所設(shè)想的應(yīng)用中，在這種情況下，電視接收機及其相關(guān)應(yīng)用的聲音控制，時間數(shù)量級與用戶的期望時間相矛盾。
本發(fā)明涉及聲音識別裝置，其特征在于包括·獲取電路，用于獲取包括用戶發(fā)出的聲音數(shù)據(jù)的信號；·檢測裝置，用于檢測由用戶干預(yù)產(chǎn)生的聲音數(shù)據(jù)信號；·分析裝置，用于分析可以隨聲音數(shù)據(jù)信號終止符調(diào)節(jié)分析進度的聲音數(shù)據(jù)。
因此，通過表明用戶已經(jīng)結(jié)束讀文本，用戶可以直接干預(yù)分析。
根據(jù)特定實施例，基于接收到的聲音數(shù)據(jù)信號的終止符，分析聲音數(shù)據(jù)的分析裝置結(jié)束對先前存儲的聲音數(shù)據(jù)進行分析。
根據(jù)特定實施例，基于接收到聲音數(shù)據(jù)信號的終止符，分析裝置完成維特比算法，并且為了確定一個或多個可靠響應(yīng)聲音數(shù)據(jù)的字序列而開始通過過去的狀態(tài)進行追溯。
根據(jù)特定實施例，數(shù)據(jù)信號的終止符是通過用戶手控激活信號發(fā)生裝置產(chǎn)生的。
根據(jù)特定實施例，數(shù)據(jù)信號終止符發(fā)生裝置包括遙控開關(guān)。
根據(jù)特定實施例，通過無線傳輸接收包括聲音數(shù)據(jù)的信號。
本發(fā)明還涉及遙控裝置，該遙控裝置包括用于產(chǎn)生包括聲音數(shù)據(jù)的信號的麥克風(fēng)和用于發(fā)送包括聲音數(shù)據(jù)的信號的電路，其特征在于，進一步包括用于產(chǎn)生并發(fā)送聲音數(shù)據(jù)信號終止符的用戶控制裝置。
根據(jù)特定實施例，聲音數(shù)據(jù)信號終止符產(chǎn)生裝置包括用戶控制開關(guān)。
根據(jù)特定實施例，可以以這樣的方式設(shè)置用戶控制開關(guān)以致可以控制電路運行來實現(xiàn)發(fā)送包括聲音數(shù)據(jù)的信號。
根據(jù)特定實施例，聲音數(shù)據(jù)信號終止符包括從包括聲音數(shù)據(jù)的信號的載波的存在到載波的不存在的轉(zhuǎn)換。
本發(fā)明還涉及聲音識別方法，其中包括步驟·獲取包括聲音數(shù)據(jù)的信號；·為了搜索代表獲取的信號的字或字序列，分析獲取的信號，分析方法包括幾個連續(xù)階段；·基于接收到的用戶觸發(fā)的聲音數(shù)據(jù)信號終止符，對至少一個階段的超前進行調(diào)節(jié)。
根據(jù)特定實施例，分析獲取信號的步驟包括并行確定代表獲取信號的多個字或候選字序列的階段，以及從候選字中選擇字或字序列的階段。
通過對特定非限制性典型實施例進行說明，本發(fā)明的其它特征和優(yōu)點會變得更明顯?，F(xiàn)在，將結(jié)合

此實例，其中圖1示出實現(xiàn)聲音識別子系統(tǒng)的電視接收系統(tǒng)的示意圖；圖2示出根據(jù)本發(fā)明的典型實現(xiàn)過程的流程圖1所示的系統(tǒng)包括遙控器1和電視接收機2。
遙控器1包括已知方式的按鈕小鍵盤10；微處理器11，配置成接收小鍵盤10發(fā)出的信號；以及電路12，用于利用紅外波進行模擬調(diào)制和傳輸以發(fā)送到電視機2。
遙控器1進一步包括連接到射頻調(diào)制電路14的麥克風(fēng)13。射頻電路14被連接到天線15以將射頻信號發(fā)送到電視機2。由微處理器對調(diào)制電路14和麥克風(fēng)13進行控制。
遙控器上還設(shè)置了開關(guān)16，開關(guān)16與微處理器11相連。
遙控器的紅外通路常規(guī)地操作。射頻通路的操作過程如下當用戶操縱開關(guān)16時，微處理器11適當控制調(diào)制電路和麥克風(fēng)以對用戶聲音信號進行處理并通過天線15發(fā)送。未操縱開關(guān)16時，為了減少耗電，切斷對射頻通路的所有裝置的供電。
因此，只在操縱開關(guān)時，才將射頻信號發(fā)送到電視機。
在1998年4月17日湯姆森多媒體的申請?zhí)枮镕R9804547的法國專利申請并在1999年10月22日以FR2777681號公報的專利中公開了類似的遙控器。
遙控器的原則就是簡單地獲取音頻信號并以模擬形式將它發(fā)送到電視機。在本實例范圍內(nèi)，為了限制其耗電，將需要遙控器完成的處理過程減少到最少。
電視接收機2包括用于接收遙控器天線發(fā)送的信號的天線20以及紅外接收電路21。天線20連接到調(diào)諧與解調(diào)電路22。將解調(diào)信號發(fā)送到音頻處理器23，音頻處理器23包括獲取電路24和語音解碼器25。獲取電路由模數(shù)轉(zhuǎn)換器(未示出)實現(xiàn)以對頻率為22KHz的基帶音頻信號進行采樣。
語音解碼器將數(shù)字采樣編譯為預(yù)定字母表中的聲音符號。
語言解碼器26為了對A符號序列確定最可能的已知A序列字的W序列而對這些符號進行處理。語言解碼器26包括采用了聲音模型28和語言模型29的識別引擎27。例如，語音模型即所謂“內(nèi)藏馬爾可夫模型”(HMM)，它以本來已知的方式計算相關(guān)字序列的聲音等級。在本典型實施例中實現(xiàn)的語言模型以借助于巴科斯-諾爾范式句法規(guī)則所描述的語法為基礎(chǔ)。語言模型用于確定多個字序列假定并計算語言等級。
識別引擎基于維特比算法即"n-best"算法。在句子分析的各步驟，"n-best"算法確定最具可能的n個字序列。根據(jù)聲音模型和語言模型所提供的等級，在句子的末尾，最可能的解決方案是從n個候選字中選擇。
電視接收機進一步包括微處理器30、隨機存取存儲器31以及只讀存儲器32，它們均連接到內(nèi)部總線33。盡管音頻處理器和語言解碼器出現(xiàn)在圖1所示的不同電路中，但是，至少語音解碼器和語言解碼器可以以軟件的形式實現(xiàn)，并將該軟件存儲到只讀存儲器32而且微處理器30可以執(zhí)行該軟件。
電視接收機還包括屏幕顯示電路("OSD")34，屏幕顯示電路可以產(chǎn)生代表用于控制接收機的菜單、文本和/或圖形的視頻信號。屏幕顯示電路34還受電子節(jié)目導(dǎo)視應(yīng)用程序的控制，導(dǎo)視應(yīng)用程序由微處理器30執(zhí)行。適當時，屏幕顯示電路34產(chǎn)生的信號將部分或全部代替由處理從天線接收的視頻信號的電路(未示出)產(chǎn)生的信號。配置了適當偏轉(zhuǎn)電路的陰極射線管(未示出)可以使它顯示視頻信號。
這里不對識別引擎的操作方式做更具體的說明。如上所述，識別引擎利用維特比算法(n-best算法)來分析由聲音符號序列(向量)組成的句子。如果當前符號之前所觀察到的聲音符號的A序列已知，該算法確定最具可能的N個字序列。通過隨機文法語言模型，確定最具可能的字序列。結(jié)合基于HMM(內(nèi)藏馬爾可夫模型)的文法終端單元聲音模型，產(chǎn)生全局內(nèi)藏馬爾可夫模型用于應(yīng)用程序。該應(yīng)用程序包括語言模型以及例如終端單元之間的協(xié)同發(fā)音。并行進行維特比算法，而不是在反復(fù)說i期間保持單獨變遷到各種狀態(tài)，對各狀態(tài)保持N個最具可能的變遷。
在下列著作中說明了與維特比有關(guān)的信息、波束搜索以及"n-best"算法“語言識別的統(tǒng)計學(xué)方法”，作者Frederick Jelinek,MIT出版社，1999 ISBN 0-262-10066-5，在第2章和第5章進行了詳細說明。
對與句子有關(guān)的聲音符號集處理后，識別引擎就停止分析。識別引擎具有格子結(jié)構(gòu)，該格子結(jié)構(gòu)包括算法的先前的各迭代狀態(tài)和在最后狀態(tài)出現(xiàn)前這些狀態(tài)之前的變遷。歸根結(jié)底，在終態(tài)與其N個相關(guān)變遷之間，保留N個最具可能的變遷。通過從終態(tài)中自動記錄變遷，確定與聲音符號對應(yīng)的N個最具可能的字序列。然后，為了根據(jù)語法原則選擇最佳終序列，利用語法分析器對這些序列進行處理。
根據(jù)本典型實施例，假定揚聲器釋放遙控器的開關(guān)16后立即接收在開始自動記錄之前待分析的最后一個符號。此后，遙控器不再發(fā)射射頻載波信號。調(diào)諧電路22以公知的方法檢測到?jīng)]有載波信號，調(diào)諧通路22通過進行適當中斷通知接收機中的微處理器。識別引擎結(jié)束基于所接收的聲音符號的分析并提供能夠利用最具可能的字序列來控制節(jié)目導(dǎo)視的應(yīng)用程序。
這使得可以考慮預(yù)先準備的用戶信號來結(jié)束正在進行的語句的分析。因此，音頻信號和語句信息結(jié)束標號無關(guān)。
根據(jù)變化的實施例，當下列事件中的第一個事件發(fā)生時，接收機就認為講話者已結(jié)束了他的正本沒有檢測到載波信號或在規(guī)定的時間間隔內(nèi)沒有檢測到聲音。
根據(jù)特定實施例，為了有助于接收機檢測釋放，在釋放開關(guān)16之后而在切斷麥克風(fēng)和發(fā)送電路的電源之前，遙控器發(fā)射特定信號。例如，該特定信號是特定頻率的脈沖信號。
根據(jù)本發(fā)明的特定實施例，為了避免由于疏忽而無意暫時釋放開關(guān)16產(chǎn)生的影響，僅在預(yù)定超時時間之后切斷電源。例如，該預(yù)定超時時間為半秒數(shù)量級。如果在此超時時間期間操作開關(guān)16，那么保持對遙控器的麥克風(fēng)和發(fā)送電路供電。
盡管在上述典型實施例中，借助于遙控器來控制聲音數(shù)據(jù)信號的終止符，但是也可以使用其它裝置，特別是接收機裝置的按鈕。
權(quán)利要求
1．一種聲音識別裝置，其特征在于包括·獲取電路(23、24、25)，用于獲取用戶發(fā)出的包括聲音數(shù)據(jù)的信號，·檢測裝置(22、30)，用于檢測由用戶干預(yù)產(chǎn)生的聲音數(shù)據(jù)信號的終止符，·分析裝置(26)，用于分析可以隨聲音數(shù)據(jù)信號的終止符調(diào)節(jié)分析的進度的聲音數(shù)據(jù)。
2．根據(jù)權(quán)利要求1所述的裝置，其特征在于，用于分析聲音數(shù)據(jù)的分析裝置基于接收到聲音數(shù)據(jù)信號終止符結(jié)束對先前存儲的聲音數(shù)據(jù)的分析。
3．根據(jù)權(quán)利要求1或權(quán)利要求2所述的裝置，其特征在于，分析裝置完成維特比算法并且基于接收到的聲音數(shù)據(jù)信號終止符，為了確定一個或多個與聲音數(shù)據(jù)可靠對應(yīng)的字序列，開始通過過去狀態(tài)進行追溯。
4．根據(jù)權(quán)利要求1至3中的任何一項所述的裝置，其特征在于，數(shù)據(jù)信號的終止符由用戶通過手控激活信號發(fā)生裝置(16)產(chǎn)生。
5．根據(jù)權(quán)利要求4所述的裝置，其特征在于，數(shù)據(jù)信號終止符發(fā)生裝置包括遙控器(1)的開關(guān)(16)。
6．根據(jù)權(quán)利要求1至5中的任何一項所述的裝置，其特征在于，通過無線傳輸接收包括聲音數(shù)據(jù)的信號。
7．遙控裝置(1)包括用于產(chǎn)生含有聲音數(shù)據(jù)的信號的麥克風(fēng)(13)和用于發(fā)送包括聲音數(shù)據(jù)的信號的電路(14、15)，其特征在于，進一步包括用于產(chǎn)生并發(fā)送聲音數(shù)據(jù)信號終止符的用戶激活裝置(11、14、15、16)。
8．根據(jù)權(quán)利要求7所述的裝置，其特征在于，聲音數(shù)據(jù)信號終止符發(fā)生裝置包括用戶激活開關(guān)(16)。
9．根據(jù)權(quán)利要求8所述的裝置，其特征在于，以這樣的方式設(shè)置開關(guān)(16)以致可以控制電路(14、15)的操作來發(fā)送包括聲音數(shù)據(jù)的信號。
10．根據(jù)權(quán)利要求7或8之一所述的方法，其特征在于，聲音數(shù)據(jù)信號的終止符包括從存在包括聲音數(shù)據(jù)的信號的載波到載波不存在的轉(zhuǎn)換。
11．聲音識別處理方法，其特征在于包括步驟·獲取包括聲音數(shù)據(jù)的信號；·為了搜索代表獲取的信號的字或字序列，對獲取的信號進行分析，該分析包括多個連續(xù)階段；·基于接收到的用戶觸發(fā)的聲音數(shù)據(jù)信號終止符，對至少一個階段的超前進行調(diào)節(jié)。
12．根據(jù)權(quán)利要求11所述的處理過程，其特征在于，分析獲取信號的步驟包括并行確定多個代表獲取信號的字或候選字序列的階段，以及從候選字中選擇字或字序列的階段。
全文摘要
本發(fā)明涉及聲音識別裝置。根據(jù)本發(fā)明,該裝置包括:獲取電路(23、24、25),用于獲取由用戶發(fā)出的包括聲音數(shù)據(jù)的信號;分析裝置(26),用于分析可以調(diào)節(jié)隨聲音數(shù)據(jù)信號的終止符變化的分析進度的聲音數(shù)據(jù)。本發(fā)明還涉及用于觸發(fā)聲音數(shù)據(jù)信號終止符的遙控裝置以及處理過程。
文檔編號G10L25/87GK1301007SQ0013570
公開日2001年6月27日申請日期2000年12月15日優(yōu)先權(quán)日1999年12月17日
發(fā)明者皮埃里克·茹埃, 弗雷德里克·蘇夫萊申請人:湯姆森多媒體公司

完整全部詳細技術(shù)資料下載