專(zhuān)利名稱(chēng):一種語(yǔ)音識(shí)別遙控器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字家庭技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音識(shí)別遙控器。
背景技術(shù):
現(xiàn)階段市面上主流的電視遙控器都是基于簡(jiǎn)單的電子線路及其上的按鈕來(lái)實(shí)現(xiàn) 控制功能的。其最大的優(yōu)點(diǎn)就是成本低廉,質(zhì)量可靠;但缺點(diǎn)也是顯而易見(jiàn)的,那就是按鈕 繁多,不夠直觀,不便于用戶(hù)記憶使用。一個(gè)復(fù)雜的遙控器會(huì)讓用戶(hù)有一種望而生畏的感 覺(jué)。隨著科技的不斷進(jìn)步,語(yǔ)音識(shí)別技術(shù)逐漸的出現(xiàn)在我們的生活之中,如手機(jī)、個(gè)人 電腦。家用電器發(fā)展的一個(gè)重要方面是讓用戶(hù)界面更加人性化,更加方便自然,做到老年人 和殘疾人可以無(wú)障礙地使用。利用語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)語(yǔ)音控制是提高家電產(chǎn)品用戶(hù)界面質(zhì) 量的一條重要途徑。帶有語(yǔ)音識(shí)別功能的遙控器,將能極大地提高家電產(chǎn)品的可用性。以電視遙控器 為例,假如用戶(hù)想收看“中央一套”節(jié)目,他要么逐個(gè)頻道瀏覽直到出現(xiàn)他想看的節(jié)目,要么 記憶“中央一套”的臺(tái)號(hào)數(shù)字,這不便于使用。加入了語(yǔ)音識(shí)別功能的電視遙控器,只需要 說(shuō)出“中央一套”,遙控器便會(huì)自動(dòng)識(shí)別并向電視機(jī)發(fā)出轉(zhuǎn)臺(tái)的控制信號(hào)。帶有語(yǔ)音識(shí)別功能的遙控器也有難題,就是遇到多源輸入信號(hào)的識(shí)別問(wèn)題。以電 視遙控器為例。用戶(hù)在收看電視的時(shí)候,通過(guò)語(yǔ)音向遙控器發(fā)出指令,這時(shí),遙控器接收到 語(yǔ)音信號(hào)并不是單純用戶(hù)說(shuō)出的語(yǔ)音指令,而是電視喇叭與用戶(hù)的語(yǔ)音指令的混合信號(hào)。 雖然用戶(hù)的語(yǔ)音指令強(qiáng)度可能大于電視喇叭的聲音,但混合的信號(hào)對(duì)于語(yǔ)音識(shí)別的影響很 大,極大的影響其識(shí)別率。
發(fā)明內(nèi)容
本發(fā)明提供一種基于盲源分離的語(yǔ)音識(shí)別遙控器,使得語(yǔ)音識(shí)別前混合信號(hào)得以 分離,提高識(shí)別率。為了實(shí)現(xiàn)發(fā)明目的,本發(fā)明實(shí)施例公開(kāi)了一種語(yǔ)音識(shí)別遙控器,包括常規(guī)遙控器 按鈕與芯片,傳感器組,數(shù)模轉(zhuǎn)換模塊,盲源分離模塊,語(yǔ)音識(shí)別模塊,控制與響應(yīng)模塊,其 中常規(guī)遙控器按鈕與芯片,使得遙控器具有一般遙控器所具有的功能,包括菜單鍵, 音量調(diào)節(jié)鍵,+/_鍵,信號(hào)發(fā)射模塊;傳感器組,在遙控器上為一組用于接收語(yǔ)音信號(hào)的孔狀麥克風(fēng);數(shù)模轉(zhuǎn)換模塊,用于接收傳來(lái)自于感器組接收輸入的語(yǔ)音信號(hào),并轉(zhuǎn)化成數(shù)字芯 片可處理的數(shù)字采集信號(hào);盲源分離模塊,接收來(lái)自數(shù)模轉(zhuǎn)換模塊的數(shù)字采集信號(hào),通過(guò)盲源分離算法,把混 合的信號(hào)分離;語(yǔ)音識(shí)別模塊,接收來(lái)自盲源分離模塊分離后的信號(hào),識(shí)別出有用的信號(hào),并根據(jù)識(shí)別出的語(yǔ)音向控制與響應(yīng)模塊發(fā)出響應(yīng)語(yǔ)音指令代號(hào);控制與響應(yīng)模塊,預(yù)先設(shè)定有人機(jī)交互的規(guī)則,用于通過(guò)語(yǔ)音識(shí)別模塊接收信息, 通過(guò)喇叭發(fā)出信息,并且確認(rèn)了指令后向遙控器芯片發(fā)出控制指令。所述傳感器組中的麥克風(fēng)個(gè)數(shù)不少于兩個(gè)。所述盲源分離模塊用于接收到多路混合信號(hào)后,首先進(jìn)行中心化和白化處理,然 后迭代優(yōu)化分離矩陣,收斂后通過(guò)分離矩陣求得分離信號(hào),最后輸出分離后的信號(hào)。本發(fā)明具有以下優(yōu)點(diǎn)利用語(yǔ)音識(shí)別技術(shù),可以使得人機(jī)交互更人性化。利用盲源 分離技術(shù),把混合的聲音信號(hào)進(jìn)行分離,提高后續(xù)識(shí)別率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例中的語(yǔ)音識(shí)別遙控器結(jié)構(gòu)示意圖;圖2為圖1中的盲源分離模塊工作流程圖;圖3為本發(fā)明實(shí)施例中的用戶(hù)使用本發(fā)明遙控器的流程。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。遙控器功能結(jié)構(gòu)圖如附圖1所示,遙控器由傳感器組,數(shù)模轉(zhuǎn)換模塊,盲源分離模 塊,語(yǔ)音識(shí)別模塊,控制與響應(yīng)模塊,常規(guī)功能模塊組成。傳感器接收語(yǔ)音信號(hào)后經(jīng)由數(shù)模 轉(zhuǎn)換模塊把模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),然后通過(guò)盲源分離模塊把混合信號(hào)分離,然后語(yǔ)音 識(shí)別模塊識(shí)別有用的指令信號(hào),并發(fā)送給控制與響應(yīng)模塊,控制與響應(yīng)模塊根據(jù)設(shè)定的規(guī) 則與用戶(hù)交互,最后發(fā)送控制命令到常規(guī)功能模塊,完成用語(yǔ)音控制遙控器的過(guò)程。具體的,這里的常規(guī)遙控器按鈕與芯片,使得遙控器具有一般遙控器所具有的功 能,包括菜單鍵,音量調(diào)節(jié)鍵,+/_鍵,信號(hào)發(fā)射模塊等等。傳感器組,在遙控器上為一組用于接收語(yǔ)音信號(hào)的孔狀麥克風(fēng);根據(jù)盲源分離的 理論,為了順利實(shí)現(xiàn)信號(hào)的盲源分離,接收的信號(hào)數(shù)不得少于聲源的個(gè)數(shù),所以麥克風(fēng)個(gè)數(shù) 不少于兩個(gè),才能分辨電視的聲音和用戶(hù)的聲音。數(shù)模轉(zhuǎn)換模塊,用于接收傳來(lái)自于感器組接收輸入的語(yǔ)音信號(hào),并轉(zhuǎn)化成數(shù)字芯 片可處理的數(shù)字采集信號(hào)。盲源分離模塊,接收來(lái)自數(shù)模轉(zhuǎn)換模塊的數(shù)字采集信號(hào),通過(guò)盲源分離算法,把混 合的信號(hào)分離。語(yǔ)音識(shí)別模塊,接收來(lái)自盲源分離模塊分離后的信號(hào),識(shí)別出有用的信號(hào),并根據(jù) 識(shí)別出的語(yǔ)音向控制與響應(yīng)模塊發(fā)出響應(yīng)語(yǔ)音指令代號(hào)。
控制與響應(yīng)模塊,里面設(shè)定有人機(jī)交互的規(guī)則,通過(guò)語(yǔ)音識(shí)別模塊接收信息,通過(guò) 喇叭發(fā)出信息,通過(guò)這種方式與用戶(hù)進(jìn)行交互。并且確認(rèn)了指令后向遙控器芯片發(fā)出控制 指令。盲源分離模塊工作流程圖如圖2所示,在多路混合信號(hào)輸入本模塊后,首先進(jìn)行 中心化和白化處理,然后迭代優(yōu)化分離矩陣,收斂后通過(guò)分離矩陣求得分離信號(hào),最后輸
出ο這里用S表示源信號(hào)矩陣,A表示混合矩陣,X表示觀測(cè)信號(hào)矩陣,W表示分離矩陣, Y表示結(jié)果信號(hào)矩陣,則,X = AS就是傳感器組接收到的信號(hào),我們就是要求出分離矩陣W, 使得γ = WS接近于S,那樣就實(shí)現(xiàn)了混合信號(hào)的分離。下面具體描述每一步原理。信號(hào)中心化就是使得信號(hào)的均值為零。設(shè)χ為均值不為零的隨機(jī)變量,只需要用 X0 = X-E (χ)代替X即可。在實(shí)際中則用算術(shù)平均代替其數(shù)學(xué)期望來(lái)實(shí)現(xiàn)零均值化。信號(hào)的白化就是通過(guò)一定的線性變換T :χ ‘= Tx使得變換后的隨機(jī)變量χ ‘的相 關(guān)矩陣滿足Rx,= E[x’ x’H] = I。設(shè)混合信號(hào)向量χ的相關(guān)矩陣為Rx,由相關(guān)矩陣的性質(zhì)可知,Rx存在特征值分解 為Rx = Q Σ 2Qt式中Σ 2為對(duì)角矩陣。令T =Σ -1QtJ^x ‘= Τχ,則可以使得變換后的χ ‘的相關(guān)矩陣為I,從而實(shí)現(xiàn)了 信號(hào)的白化。下面以最大熵法來(lái)描述迭代優(yōu)化分離矩陣的過(guò)程。熵是信息論里面的一個(gè)概念。定義A的熵H㈧為事件自信息的平均值,離散隨機(jī) 變量的熵的數(shù)學(xué)表達(dá)式為
ηH(A) = E(I) = -YjPiAog(Pk)兩個(gè)隨機(jī)變量χ和y的聯(lián)合熵定義為H(x, y)=-Σ P^x =Pix=a^y=h)隨機(jī)變量χ與y之間的互信息定義為I (x, y) =H(χ) +H(y) -H(χ,y)即為邊緣熵之和減去聯(lián)合熵。最大熵法其特點(diǎn)是在輸出u之后逐分量地引入一個(gè)非線性函數(shù)yi = gi (Ui)來(lái)代 替對(duì)高階統(tǒng)計(jì)量的估計(jì)。該法的判據(jù)是在給定合適的gi (ui)后,使輸出y = [yl,y2,..., yn]的總熵量H(y)極大。這里gi (ui)是一個(gè)可逆的單調(diào)非線性函數(shù),且U = Wx。輸出信 號(hào)的聯(lián)合熵是H(yl,...yN) =H(yl)+. ..+H (yN) -I (y 1,· · · yN)式中H(yi)是各輸出地邊緣熵,,而I (yl,. . . yN)是他們的互信息。聯(lián)合熵的最 大化意味著互信息的最小化和邊緣熵的最大化。對(duì)有界的隨機(jī)變量yl,... yN,當(dāng)互信息為 零時(shí),H(yl,. . . yN)達(dá)到最大值,邊緣分布是均勻的。 有兩個(gè)參數(shù)是用來(lái)確定最大聯(lián)合熵的,也就是非線性函數(shù)yi = gi (ui)和權(quán)系數(shù) W。在選定非線性函數(shù)后,余下的參數(shù)就是W。對(duì)W求導(dǎo)得
語(yǔ)音識(shí)別模塊。用戶(hù)使用流程圖如圖3所示,該圖描述的是用戶(hù)使用本發(fā)明遙控器的流程。首 先,用戶(hù)說(shuō)出指令,比如“調(diào)整亮度”,遙控器的傳感器組接收到的將會(huì)是用戶(hù)的語(yǔ)音指令和 電視機(jī)的聲音的混合信號(hào)。混合信號(hào)經(jīng)過(guò)數(shù)模轉(zhuǎn)換后,發(fā)送給盲源分離模塊進(jìn)行信號(hào)的分 離。分離后的信號(hào)傳遞給語(yǔ)音識(shí)別模塊,識(shí)別后的信息傳遞給控制與響應(yīng)模塊,這是控制與 響應(yīng)模塊根據(jù)設(shè)定的規(guī)則,響應(yīng)傳遞過(guò)來(lái)的信息。如果控制與響應(yīng)模塊確認(rèn)需要發(fā)送的指 令,則直接向常規(guī)功能模塊發(fā)送指令,如果不確定,則記錄當(dāng)前交互狀態(tài),繼續(xù)與用戶(hù)進(jìn)行 交互。當(dāng)收到““調(diào)整亮度”消息后,遙控器發(fā)出“請(qǐng)調(diào)整亮度”,用戶(hù)再次說(shuō)出指令“變亮”, 此時(shí)控制與響應(yīng)模塊則可以明確指令了,則向常規(guī)功能模塊發(fā)送指令。常規(guī)功能模塊則根 據(jù)指令完成對(duì)家電的控制。綜上,通過(guò)實(shí)施本發(fā)明實(shí)施例,利用語(yǔ)音識(shí)別技術(shù),可以使得人機(jī)交互更人性化。 利用盲源分離技術(shù),把混合的聲音信號(hào)進(jìn)行分離,提高后續(xù)識(shí)別率以上對(duì)本發(fā)明實(shí)施例所提供的基于盲源分離的語(yǔ)音識(shí)別遙控器進(jìn)行了詳細(xì)介紹, 本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用 于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的 思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為 對(duì)本發(fā)明的限制。
BW BW
其中D(.)表示KL距離。 定義非線性或評(píng)價(jià)函數(shù)為
最終迭代的式子是
通過(guò)多次迭代,收斂后就得到分離矩陣W。
求得分離矩陣后,通過(guò)Y = WX就可以實(shí)現(xiàn)混合信號(hào)的分離,分離后的信號(hào)傳遞給
權(quán)利要求
一種語(yǔ)音識(shí)別遙控器,其特征在于,包括常規(guī)遙控器按鈕與芯片,傳感器組,數(shù)模轉(zhuǎn)換模塊,盲源分離模塊,語(yǔ)音識(shí)別模塊,控制與響應(yīng)模塊,其中常規(guī)遙控器按鈕與芯片,使得遙控器具有一般遙控器所具有的功能,包括菜單鍵,音量調(diào)節(jié)鍵,+/-鍵,信號(hào)發(fā)射模塊;傳感器組,在遙控器上為一組用于接收語(yǔ)音信號(hào)的孔狀麥克風(fēng);數(shù)模轉(zhuǎn)換模塊,用于接收傳來(lái)自于感器組接收輸入的語(yǔ)音信號(hào),并轉(zhuǎn)化成數(shù)字芯片可處理的數(shù)字采集信號(hào);盲源分離模塊,接收來(lái)自數(shù)模轉(zhuǎn)換模塊的數(shù)字采集信號(hào),通過(guò)盲源分離算法,把混合的信號(hào)分離;語(yǔ)音識(shí)別模塊,接收來(lái)自盲源分離模塊分離后的信號(hào),識(shí)別出有用的信號(hào),并根據(jù)識(shí)別出的語(yǔ)音向控制與響應(yīng)模塊發(fā)出響應(yīng)語(yǔ)音指令代號(hào);控制與響應(yīng)模塊,預(yù)先設(shè)定有人機(jī)交互的規(guī)則,用于通過(guò)語(yǔ)音識(shí)別模塊接收信息,通過(guò)喇叭發(fā)出信息,并且確認(rèn)了指令后向遙控器芯片發(fā)出控制指令。
2.如權(quán)利要求1所述的語(yǔ)音識(shí)別遙控器,其特征在于,所述傳感器組中的麥克風(fēng)個(gè)數(shù) 不少于兩個(gè)。
3.如權(quán)利要求2所述的語(yǔ)音識(shí)別遙控器,其特征在于,所述盲源分離模塊用于接收到 多路混合信號(hào)后,首先進(jìn)行中心化和白化處理,然后迭代優(yōu)化分離矩陣,收斂后通過(guò)分離矩 陣求得分離信號(hào),最后輸出分離后的信號(hào)。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了一種語(yǔ)音識(shí)別遙控器,包括常規(guī)遙控器按鈕與芯片,傳感器組,數(shù)模轉(zhuǎn)換模塊,盲源分離模塊,語(yǔ)音識(shí)別模塊,控制與響應(yīng)模塊,其中傳感器組,在遙控器上為一組用于接收語(yǔ)音信號(hào)的孔狀麥克風(fēng);數(shù)模轉(zhuǎn)換模塊,用于接收傳來(lái)自于感器組接收輸入的語(yǔ)音信號(hào),并轉(zhuǎn)化成數(shù)字芯片可處理的數(shù)字采集信號(hào);盲源分離模塊,接收來(lái)自數(shù)模轉(zhuǎn)換模塊的數(shù)字采集信號(hào),通過(guò)盲源分離算法,把混合的信號(hào)分離;語(yǔ)音識(shí)別模塊,接收來(lái)自盲源分離模塊分離后的信號(hào),識(shí)別出有用的信號(hào),并根據(jù)識(shí)別出的語(yǔ)音向控制與響應(yīng)模塊發(fā)出響應(yīng)語(yǔ)音指令代號(hào)。通過(guò)實(shí)施本發(fā)明,利用盲源分離技術(shù),把混合的聲音信號(hào)進(jìn)行分離,提高后續(xù)識(shí)別率。
文檔編號(hào)G10L15/00GK101882370SQ20101021499
公開(kāi)日2010年11月10日 申請(qǐng)日期2010年6月30日 優(yōu)先權(quán)日2010年6月30日
發(fā)明者劉廣發(fā), 吳其澤, 羅笑南 申請(qǐng)人:中山大學(xué)