語(yǔ)音識(shí)別方法和系統(tǒng)的制作方法

文檔序號(hào)：2828074閱讀：331來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音識(shí)別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種語(yǔ)音識(shí)別方法，在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果；對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果；計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。本發(fā)明還公開(kāi)了一種語(yǔ)音識(shí)別系統(tǒng)。本發(fā)明提高了語(yǔ)音識(shí)別的準(zhǔn)確性。
【專利說(shuō)明】語(yǔ)音識(shí)別方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音控制領(lǐng)域，尤其涉及語(yǔ)音識(shí)別方法和系統(tǒng)。

【背景技術(shù)】
[0002] 隨著語(yǔ)音交互的飛速發(fā)展，通過(guò)語(yǔ)音的方式控制終端（如電視以及空調(diào)器等），或者通過(guò)語(yǔ)音的方式進(jìn)行數(shù)據(jù)輸入已成為應(yīng)用非常廣泛的方式。目前，語(yǔ)音交互仍存在諸多問(wèn)題，如語(yǔ)音識(shí)別不準(zhǔn)確，易受環(huán)境影響較大，例如周?chē)腥寺曕须s或者有背景音樂(lè)的話，語(yǔ)音采集裝置采集到的語(yǔ)音信號(hào)包括人發(fā)出的語(yǔ)音信號(hào)以及周?chē)脑胍粜盘?hào)，使得終端無(wú) 法準(zhǔn)確識(shí)別接受到的語(yǔ)音信號(hào)，導(dǎo)致語(yǔ)音識(shí)別不夠準(zhǔn)確。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的主要目的在于提出一種語(yǔ)音識(shí)別方法和系統(tǒng)，旨在解決語(yǔ)音識(shí)別不夠準(zhǔn) 確的技術(shù)問(wèn)題。
[0004] 為實(shí)現(xiàn)上述目的，本發(fā)明提供的一種語(yǔ)音識(shí)別方法，所述語(yǔ)音識(shí)別方法包括以下步驟：
[0005] 在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；
[0006] 對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果；
[0007] 對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果；
[0008] 計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
[0009] 優(yōu)選地，所述對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果的步驟包括：
[0010] 確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；
[0011] 根據(jù)每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0012] 基于每一幀所述有效圖像對(duì)應(yīng)的字符組成唇語(yǔ)識(shí)別結(jié)果。
[0013] 優(yōu)選地，所述確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置的步驟包括：
[0014] 確定采集到的每幀圖像中臉部輪廓；
[0015] 將臉部輪廓內(nèi)的各個(gè)像素點(diǎn)色度值與預(yù)存的人臉中各個(gè)像素點(diǎn)的色度值進(jìn)行比對(duì)，以確定采集到的每幀圖像中臉部位置；
[0016] 確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對(duì)位置確定唇部區(qū)域；
[0017] 將唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值進(jìn)行比對(duì)；
[0018] 在唇部區(qū)域存在RGB色度值滿足預(yù)設(shè)條件的像素點(diǎn)時(shí)，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0019] 基于唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值確定唇部的位置。
[0020] 優(yōu)選地，所述對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果的步驟包括：
[0021] 將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成字符串，并按照預(yù)設(shè)的關(guān)鍵詞庫(kù)，將所述字符串拆分為多個(gè)關(guān)鍵詞；
[0022] 標(biāo)注各個(gè)所述關(guān)鍵詞的詞性，確定各個(gè)相鄰的關(guān)鍵詞之間的詞性是否匹配；
[0023] 在有相鄰的關(guān)鍵詞之間的詞性不匹配時(shí)，將所述不匹配關(guān)鍵詞作為第一關(guān)鍵詞，并確定預(yù)設(shè)的混淆音詞庫(kù)是否存在所述第一關(guān)鍵詞；
[0024] 在所述混淆音詞庫(kù)存在所述不匹配的關(guān)鍵詞時(shí)，確定所述混淆音詞庫(kù)中所述第一關(guān)鍵詞對(duì)應(yīng)的第-關(guān)鍵詞；
[0025] 將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞，并在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性匹配時(shí)，將替換后的第二關(guān)鍵詞以及其它關(guān)鍵詞重新組合成為語(yǔ)音信號(hào)識(shí)別結(jié)果，并將重新組合的唇語(yǔ)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
[0026] 優(yōu)選地，所述計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果的步驟包括：
[0027] 將所述語(yǔ)音信號(hào)識(shí)別以及唇語(yǔ)識(shí)別結(jié)果拆分為多個(gè)關(guān)鍵詞；
[0028] 確定所述語(yǔ)音信號(hào)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第一關(guān)聯(lián)度，并確定所述唇語(yǔ)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第二關(guān)聯(lián) 度；
[0029] 對(duì)確定的第一關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度，并對(duì)確定的第二關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度；
[0030] 將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
[0031] 此外，為實(shí)現(xiàn)上述目的，本發(fā)明還提出一種語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述語(yǔ)音識(shí)別系統(tǒng)包括：
[0032] 控制模塊，用于在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；
[0033] 語(yǔ)音信號(hào)識(shí)別模塊，用于對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié) 果；
[0034] 唇語(yǔ)識(shí)別模塊，用于對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果；
[0035] 處理模塊，用于計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
[0036] 優(yōu)選地，所述唇語(yǔ)識(shí)別模塊包括：
[0037] 唇部定位子模塊，用于確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置；
[0038] 確定子模塊，用于根據(jù)每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0039] 重組子模塊，用于基于每一幀所述有效圖像對(duì)應(yīng)的字符組成唇語(yǔ)識(shí)別結(jié)果。
[0040] 優(yōu)選地，所述唇部定位子模塊包括：
[0041] 臉部輪廓確定單元，用于確定采集到的每幀圖像中臉部輪廓；
[0042] 臉部位置定位單元，用于將確定的臉部輪廓內(nèi)的各個(gè)像素點(diǎn)色度值與預(yù)存的人臉中各個(gè)像素點(diǎn)的色度值進(jìn)行比對(duì)，以確定采集到的每幀圖像中臉部位置；
[0043] 唇部區(qū)域定位單元，用于確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對(duì)位置確定唇部區(qū)域；
[0044] 比對(duì)單元，用于將唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值進(jìn)行比對(duì)；
[0045] 處理單元，用于在唇部區(qū)域存在RGB色度值滿足預(yù)設(shè)條件的像素點(diǎn)時(shí)，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0046] 唇部位置定位單元，用于基于唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值確定唇部的位置。
[0047] 優(yōu)選地，所述語(yǔ)音信號(hào)識(shí)別模塊包括：
[0048] 轉(zhuǎn)換子模塊，用于將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成字符串；
[0049] 拆分子模塊，按照預(yù)設(shè)的關(guān)鍵詞庫(kù)，將所述字符串拆分為多個(gè)關(guān)鍵詞；
[0050] 詞性匹配子模塊，用于標(biāo)注各個(gè)所述關(guān)鍵詞的詞性，，確定各個(gè)相鄰的關(guān)鍵詞之間的詞性是否匹配；
[0051] 確定子模塊，用于在有相鄰的關(guān)鍵詞之間的詞性不匹配時(shí)，將所述不匹配關(guān)鍵詞作為第一關(guān)鍵詞，并確定預(yù)設(shè)的混淆音詞庫(kù)是否存在所述第一關(guān)鍵詞，以及在所述混淆音詞庫(kù)存在所述不匹配的關(guān)鍵詞時(shí)，確定所述混淆音詞庫(kù)中所述第一關(guān)鍵詞對(duì)應(yīng)的第二關(guān)鍵詞；
[0052] 處理子模塊，用于將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞，并在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性匹配時(shí)，將替換后的第二關(guān)鍵詞以及其它關(guān)鍵詞重新組合成為語(yǔ) 音信號(hào)識(shí)別結(jié)果，并將重新組合的唇語(yǔ)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
[0053] 優(yōu)選地，所述處理模塊包括：
[0054] 拆分子模塊，用于將所述語(yǔ)音信號(hào)識(shí)別以及唇語(yǔ)識(shí)別結(jié)果拆分為多個(gè)關(guān)鍵詞；
[0055] 關(guān)聯(lián)度計(jì)算子模塊，用于確定所述語(yǔ)音信號(hào)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第一關(guān)聯(lián)度，并確定所述唇語(yǔ)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān) 鍵詞的之間的第二關(guān)聯(lián)度；
[0056] 準(zhǔn)確度計(jì)算子模塊，用于對(duì)確定的第一關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度，并對(duì)確定的第二關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度；
[0057] 處理子模塊，用于將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
[0058] 本發(fā)明提出的語(yǔ)音識(shí)別方法和系統(tǒng)，同時(shí)進(jìn)行語(yǔ)音信號(hào)以及唇語(yǔ)的識(shí)別，并計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的識(shí) 別結(jié)果，而不是僅僅單一識(shí)別語(yǔ)音信號(hào)，提高了語(yǔ)音識(shí)別的準(zhǔn)確性。

【專利附圖】

【附圖說(shuō)明】
[0059] 圖1為本發(fā)明語(yǔ)音識(shí)別方法較佳實(shí)施例的流程示意圖；
[0060] 圖2為圖1中步驟S20的細(xì)化流程示意圖；
[0061] 圖3為圖1中步驟S30的細(xì)化流程示意圖；
[0062] 圖4為圖3中步驟S31的細(xì)化流程示意圖；
[0063] 圖5為圖1中步驟S40的細(xì)化流程示意圖；
[0064] 圖6為本發(fā)明語(yǔ)音識(shí)別系統(tǒng)較佳實(shí)施例的功能模塊示意圖；
[0065] 圖7為圖6中語(yǔ)音信號(hào)識(shí)別模塊的細(xì)化功能模塊示意圖；
[0066] 圖8為圖6中唇語(yǔ)識(shí)別模塊的細(xì)化功能模塊示意圖；
[0067] 圖9為圖8中唇部定位子模塊的細(xì)化功能模塊示意圖；
[0068] 圖10為圖6中處理模塊的細(xì)化功能模塊示意圖。
[0069] 本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例，參照附圖做進(jìn)一步說(shuō)明。

【具體實(shí)施方式】
[0070] 應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0071] 本發(fā)明提供一種語(yǔ)音識(shí)別方法。
[0072] 參照?qǐng)D1，圖1為本發(fā)明語(yǔ)音識(shí)別方法較佳實(shí)施例的流程示意圖。
[0073] 本實(shí)施例提出的語(yǔ)音識(shí)別方法優(yōu)選運(yùn)行于被控終端（如電視機(jī)以及空調(diào)器等）中，被控終端基于語(yǔ)音識(shí)別接收進(jìn)行相應(yīng)的操作；或者語(yǔ)音識(shí)別方法可運(yùn)行于控制終端，控制終端將語(yǔ)音信號(hào)識(shí)別結(jié)果對(duì)應(yīng)的代碼傳輸至相應(yīng)的被控終端。
[0074] 本實(shí)施例提出一種語(yǔ)音識(shí)別方法，所述語(yǔ)音識(shí)別方法包括：
[0075] 步驟S10,在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；
[0076] 在本實(shí)施例中，僅在接收到語(yǔ)音信號(hào)時(shí)才控制圖像采集裝置進(jìn)行圖像采集，而在未接受語(yǔ)音信號(hào)時(shí)處于休眠狀態(tài)，以減少能耗，例如，在預(yù)設(shè)時(shí)間間隔內(nèi)未接受到語(yǔ)音信號(hào) 時(shí)，控制所述圖像采集裝置進(jìn)入休眠狀態(tài)。
[0077] 本領(lǐng)域技術(shù)人員可以理解的是，可控制圖像采集裝置實(shí)時(shí)或定時(shí)進(jìn)行圖像采集，在接收到語(yǔ)音信號(hào)時(shí)，確定接收到的語(yǔ)音信號(hào)的第一時(shí)間點(diǎn)以及語(yǔ)音信號(hào)結(jié)束的第二時(shí)間點(diǎn)，獲取圖像采集裝置在該第一時(shí)間點(diǎn)以及第二時(shí)間點(diǎn)之間采集到的圖像。
[0078] 步驟S20,對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果；
[0079] 在本實(shí)施例中，可通過(guò)將語(yǔ)音信號(hào)轉(zhuǎn)換為字符信號(hào)得到語(yǔ)音信號(hào)識(shí)別結(jié)果。進(jìn)一步地，為提高語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確性，可對(duì)語(yǔ)音信號(hào)轉(zhuǎn)換的字符串進(jìn)行糾錯(cuò)，具體糾錯(cuò) 過(guò)程參照?qǐng)D2,所述步驟S20包括：
[0080] 步驟S21，將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成字符串，并按照預(yù)設(shè)的關(guān)鍵詞庫(kù)，將所述字符串拆分為多個(gè)關(guān)鍵詞；
[0081] 可預(yù)設(shè)包括多個(gè)關(guān)鍵詞的關(guān)鍵詞庫(kù)，將語(yǔ)音信號(hào)轉(zhuǎn)換得到的字符串與詞庫(kù)中存儲(chǔ) 的關(guān)鍵詞進(jìn)行比對(duì)，并確定預(yù)設(shè)的關(guān)鍵詞庫(kù)中與字符串匹配的關(guān)鍵詞，并將該字符串拆分為各個(gè)匹配的關(guān)鍵詞。本領(lǐng)域技術(shù)人員可以理解的是，關(guān)鍵詞庫(kù)中可不用設(shè)置數(shù)字類(lèi)的關(guān) 鍵詞，在確定與字符串匹配的關(guān)鍵詞后，可先提取字符串中匹配的關(guān)鍵詞，并將字符串中剩余的不匹配的部分作為一個(gè)關(guān)鍵詞。例如，語(yǔ)音信號(hào)轉(zhuǎn)換得到的字符串為"電視機(jī)，切換至 23頻道"，則該字符串與預(yù)設(shè)的關(guān)鍵詞庫(kù)中的關(guān)鍵詞匹配的為"電視機(jī)、切換、至以及頻道"，則由字符串中直接提取出"電視機(jī)、切換、至以及頻道"，然后將剩余的"23"作為一個(gè)關(guān)鍵 T^lJ〇
[0082] 步驟S22,標(biāo)注各個(gè)所述關(guān)鍵詞的詞性，確定各個(gè)相鄰的關(guān)鍵詞之間的詞性是否匹配；
[0083] 該關(guān)鍵詞的詞性可為名詞、動(dòng)詞、形容詞、副詞以及介詞等，可預(yù)約各類(lèi)詞性的搭配，例如在相鄰的關(guān)鍵詞為動(dòng)詞+形容詞時(shí)，則認(rèn)為相鄰的關(guān)鍵詞之間詞性不匹配，可能存在識(shí)別錯(cuò)誤。
[0084] 步驟S23,在有相鄰的關(guān)鍵詞之間的詞性不匹配時(shí)，將所述不匹配關(guān)鍵詞作為第一關(guān)鍵詞，并確定預(yù)設(shè)的混淆音詞庫(kù)是否存在所述第一關(guān)鍵詞；
[0085] 步驟S24,在所述混淆音詞庫(kù)存在所述不匹配的關(guān)鍵詞時(shí)，確定所述混淆音詞庫(kù)中所述第一關(guān)鍵詞對(duì)應(yīng)的第二關(guān)鍵詞；
[0086] 在本實(shí)施例中，可預(yù)設(shè)混淆音詞庫(kù)，該混淆音詞庫(kù)中可設(shè)置在語(yǔ)音信號(hào)轉(zhuǎn)換為字符串時(shí)容易混渚的關(guān)鍵詞，各個(gè)易混渚的關(guān)鍵詞關(guān)聯(lián)保存。在相鄰的關(guān)鍵詞不匹配時(shí)，可將該不配的關(guān)鍵詞作為第一關(guān)鍵詞與混淆音詞庫(kù)中的關(guān)鍵詞進(jìn)行比對(duì)，以對(duì)錯(cuò)誤的關(guān)鍵詞進(jìn) 行糾錯(cuò)。
[0087] 本領(lǐng)域技術(shù)人員可以理解的是，在所述混淆音詞庫(kù)中不存在所述不匹配的關(guān)鍵詞時(shí)，可將轉(zhuǎn)換得到的字符串作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
[0088] 步驟S25,將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞，并在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性匹配時(shí)，將替換后的第二關(guān)鍵詞以及其它關(guān)鍵詞重新組合成為語(yǔ)音信號(hào)識(shí) 別結(jié)果，并將重新組合的唇語(yǔ)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
[0089] 本領(lǐng)域技術(shù)人員可以理解的是，在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性不匹配，且所述第二關(guān)鍵詞存在多個(gè)時(shí)，將所述第一關(guān)鍵詞替換為其它第二關(guān)鍵詞，并確定替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性是否匹配，直至替換完所有的第二關(guān)鍵詞，將轉(zhuǎn) 換得到的字符串作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
[0090] 步驟S30,對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié) 果；
[0091] 在本實(shí)施例中，唇語(yǔ)識(shí)別結(jié)果可根據(jù)每一幀圖像中的唇形以及與上一幀的圖像中的唇形確定得到，具體過(guò)程如圖3所示，所述步驟S30包括：
[0092] 步驟S31，確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；
[0093] 在本實(shí)施例中，確定采集到的每幀圖像中唇部的位置具體過(guò)程如圖4所示，具體過(guò)程如下：
[0094] 步驟S311，確定采集到的每幀圖像中臉部輪廓；
[0095] 由于采集到的圖像中的各個(gè)像素點(diǎn)對(duì)應(yīng)的色度值不同，可直接根據(jù)每幀圖像中的像素點(diǎn)的色度值分布以及預(yù)設(shè)的臉部輪廓得到每幀圖像中臉部位置。
[0096] 本領(lǐng)域技術(shù)人員可以理解的是，在圖像采集裝置的圖像采集區(qū)域中有多個(gè)人存在時(shí)，可基于接收到語(yǔ)音信號(hào)對(duì)聲源方向進(jìn)行定位，基于確定的聲源方向確定用戶在采集到的圖像中的位置，基于聲源方向確定用戶在采集到的圖像中的位置屬于現(xiàn)有技術(shù)，在此不再贅述。
[0097] 在采集到的圖像中沒(méi)有臉部輪廓時(shí)，直接將語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音信號(hào)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果，或者可提示用戶重新輸入語(yǔ)音信號(hào)。
[0098] 步驟S312,將確定的臉部輪廓內(nèi)的各個(gè)像素點(diǎn)色度值與預(yù)存的人臉中各個(gè)像素點(diǎn) 的色度值進(jìn)行比對(duì)，以確定采集到的每幀圖像中臉部位置；
[0099] 確定臉部輪廓內(nèi)各個(gè)像素點(diǎn)的YUV色度值至與預(yù)存的人臉中各個(gè)像素點(diǎn)的YUV色度值之間的相似度，在相似度大于預(yù)設(shè)值時(shí)，認(rèn)為該像素點(diǎn)為臉部像素點(diǎn)，還相似度的計(jì)算公式為現(xiàn)有技術(shù)，在此不再贅述。
[0100] 步驟S313,確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對(duì) 位置確定唇部區(qū)域；
[0101] 在本實(shí)施例中，由于眼部的像素點(diǎn)的灰度值小于臉部其它位置的灰度值，可根據(jù) 各個(gè)像素點(diǎn)之間的灰度值確定眼部位置，在眼部位置的下方以及臉部的下三分之一出，即可容易確定出唇部所在的區(qū)域。
[0102] 步驟S314,在唇部區(qū)域存在RGB色度值滿足預(yù)設(shè)條件的像素點(diǎn)時(shí)，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；
[0103] 步驟S315,基于唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值確定唇部的位置
[0104] 但由于當(dāng)前確定的唇部區(qū)域僅僅為初步確定，該區(qū)域內(nèi)有唇部的像素點(diǎn)以及臉部的像素點(diǎn)，則需要在該區(qū)域內(nèi)確定唇部位置。由于唇部像素點(diǎn)的RGB色度值中，B(藍(lán)色）分量的遠(yuǎn)遠(yuǎn)大于G(綠色）分量，則預(yù)設(shè)的條件可設(shè)置為B(藍(lán)色）分量與G(綠色）分量之間的差值大于預(yù)設(shè)值，而臉部的像素點(diǎn)中B(藍(lán)色）分量的小于G(綠色）分量，則可通過(guò)對(duì)各個(gè)像素點(diǎn)的B分量以及G分量進(jìn)行比對(duì)，以確定唇部位置。
[0105] 步驟S32,根據(jù)每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；
[0106] 步驟S33,基于每一幀所述有效圖像對(duì)應(yīng)的字符組成唇語(yǔ)識(shí)別結(jié)果。
[0107] 本領(lǐng)域技術(shù)人員可以理解的是，采集到的圖像中第一幀圖像的上一幀圖像的唇形默認(rèn)為閉嘴唇形，用戶可基于上一幀圖像以及該幀圖像對(duì)應(yīng)的唇形可得出用戶的唇部走勢(shì)，將得到的唇部走勢(shì)與預(yù)存的唇部走勢(shì)進(jìn)行比對(duì)，以得到當(dāng)前輸出的字符。按照每一幀圖像的采集順序，將每一幀圖像的文件組合成唇語(yǔ)識(shí)別結(jié)果
[0108] 步驟S40,計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的識(shí)別結(jié)果。
[0109] 在本實(shí)施例中，計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度的具體過(guò)程如圖5所示，具體過(guò)程如下：
[0110] 步驟S41，將所述語(yǔ)音信號(hào)識(shí)別以及唇語(yǔ)識(shí)別結(jié)果拆分為多個(gè)關(guān)鍵詞；
[0111] 關(guān)鍵詞拆分的過(guò)程見(jiàn)上述語(yǔ)音信號(hào)關(guān)鍵詞拆分過(guò)程，在此不再贅述。
[0112] 步驟S42,確定所述語(yǔ)音信號(hào)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第一關(guān)聯(lián)度，并確定所述唇語(yǔ)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第二關(guān)聯(lián)度；
[0113] 在本實(shí)施例中，第一關(guān)聯(lián)度的計(jì)算公式為：

【權(quán)利要求】
1. 一種語(yǔ)音識(shí)別方法，其特征在于，所述語(yǔ)音識(shí)別方法包括以下步驟：在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果；對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果；計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
2. 如權(quán)利要求1所述的語(yǔ)音識(shí)別方法，其特征在于，所述對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí)別結(jié)果的步驟包括：確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部的位置；根據(jù)每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；基于每一幀所述有效圖像對(duì)應(yīng)的字符組成唇語(yǔ)識(shí)別結(jié)果。
3. 如權(quán)利要求2所述的語(yǔ)音識(shí)別方法，其特征在于，所述確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置的步驟包括：確定采集到的每幀圖像中臉部輪廓；將臉部輪廓內(nèi)的各個(gè)像素點(diǎn)色度值與預(yù)存的人臉中各個(gè)像素點(diǎn)的色度值進(jìn)行比對(duì)，以確定采集到的每幀圖像中臉部位置；確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對(duì)位置確定唇部區(qū) 域；將唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值進(jìn)行比對(duì)；在唇部區(qū)域存在RGB色度值滿足預(yù)設(shè)條件的像素點(diǎn)時(shí)，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；基于唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值確定唇部的位置。
4. 如權(quán)利要求1-3任一項(xiàng)所述的語(yǔ)音識(shí)別方法，其特征在于，所述對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果的步驟包括：將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成字符串，并按照預(yù)設(shè)的關(guān)鍵詞庫(kù)，將所述字符串拆分為多個(gè)關(guān)鍵詞；標(biāo)注各個(gè)所述關(guān)鍵詞的詞性，確定各個(gè)相鄰的關(guān)鍵詞之間的詞性是否匹配；在有相鄰的關(guān)鍵詞之間的詞性不匹配時(shí)，將所述不匹配關(guān)鍵詞作為第一關(guān)鍵詞，并確定預(yù)設(shè)的混淆音詞庫(kù)是否存在所述第一關(guān)鍵詞；在所述混淆音詞庫(kù)存在所述不匹配的關(guān)鍵詞時(shí)，確定所述混淆音詞庫(kù)中所述第一關(guān)鍵詞對(duì)應(yīng)的第二關(guān)鍵詞；將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞，并在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性匹配時(shí)，將替換后的第二關(guān)鍵詞以及其它關(guān)鍵詞重新組合成為語(yǔ)音信號(hào)識(shí)別結(jié)果，并將重新組合的唇語(yǔ)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
5. 如權(quán)利要求1-3任一項(xiàng)所述的語(yǔ)音識(shí)別方法，其特征在于，所述計(jì)算所述語(yǔ)音信號(hào) 識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果的步驟包括：將所述語(yǔ)音信號(hào)識(shí)別以及唇語(yǔ)識(shí)別結(jié)果拆分為多個(gè)關(guān)鍵詞；確定所述語(yǔ)音信號(hào)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第一關(guān)聯(lián) 度，并確定所述唇語(yǔ)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第二關(guān)聯(lián)度；對(duì)確定的第一關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度，并對(duì)確定的第二關(guān) 聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度；將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
6. -種語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述語(yǔ)音識(shí)別系統(tǒng)包括：控制模塊，用于在接收到語(yǔ)音信號(hào)時(shí)，控制圖像采集裝置進(jìn)行圖像采集，并在所述語(yǔ)音信號(hào)結(jié)束時(shí)，控制所述圖像采集裝置停止圖像采集；語(yǔ)音信號(hào)識(shí)別模塊，用于對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別，以得到語(yǔ)音信號(hào)識(shí)別結(jié)果；唇語(yǔ)識(shí)別模塊，用于對(duì)采集到的圖像中包含唇部的圖像進(jìn)行唇語(yǔ)識(shí)別，以得到唇語(yǔ)識(shí) 別結(jié)果；處理模塊，用于計(jì)算所述語(yǔ)音信號(hào)識(shí)別結(jié)果和唇語(yǔ)識(shí)別結(jié)果的準(zhǔn)確度，將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
7. 如權(quán)利要求6所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述唇語(yǔ)識(shí)別模塊包括：唇部定位子模塊，用于確定采集到的圖像中包含唇部的圖像，將所述包含唇部的圖像作為有效圖像，并確定所述有效圖像中唇部位置；確定子模塊，用于根據(jù)每一幀所述有效圖像的唇形以及上一幀所述有效圖像的唇形確定用戶輸出的字符；重組子模塊，用于基于每一幀所述有效圖像對(duì)應(yīng)的字符組成唇語(yǔ)識(shí)別結(jié)果。
8. 如權(quán)利要求7所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述唇部定位子模塊包括：臉部輪廓確定單元，用于確定采集到的每幀圖像中臉部輪廓；臉部位置定位單元，用于將確定的臉部輪廓內(nèi)的各個(gè)像素點(diǎn)色度值與預(yù)存的人臉中各個(gè)像素點(diǎn)的色度值進(jìn)行比對(duì)，以確定采集到的每幀圖像中臉部位置；唇部區(qū)域定位單元，用于確定臉部位置中眼部位置，并基于眼部位置以及唇部位置之間的相對(duì)位置確定唇部區(qū)域；比對(duì)單元，用于將唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值進(jìn)行比對(duì)；處理單元，用于在唇部區(qū)域存在RGB色度值滿足預(yù)設(shè)條件的像素點(diǎn)時(shí)，確定該幀圖像為包含唇部的圖像，將所述包含唇部的圖像作為有效圖像；唇部位置定位單元，用于基于唇部區(qū)域中各個(gè)像素點(diǎn)的RGB色度值確定唇部的位置。
9. 如權(quán)利要求6-8所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述語(yǔ)音信號(hào)識(shí)別模塊包括：轉(zhuǎn)換子模塊，用于將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成字符串；拆分子模塊，按照預(yù)設(shè)的關(guān)鍵詞庫(kù)，將所述字符串拆分為多個(gè)關(guān)鍵詞；詞性匹配子模塊，用于標(biāo)注各個(gè)所述關(guān)鍵詞的詞性，，確定各個(gè)相鄰的關(guān)鍵詞之間的詞性是否匹配；確定子模塊，用于在有相鄰的關(guān)鍵詞之間的詞性不匹配時(shí)，將所述不匹配關(guān)鍵詞作為第一關(guān)鍵詞，并確定預(yù)設(shè)的混淆音詞庫(kù)是否存在所述第一關(guān)鍵詞，以及在所述混淆音詞庫(kù) 存在所述不匹配的關(guān)鍵詞時(shí)，確定所述混淆音詞庫(kù)中所述第一關(guān)鍵詞對(duì)應(yīng)的第二關(guān)鍵詞；處理子模塊，用于將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞，并在替換后的第二關(guān)鍵詞與相鄰關(guān)鍵詞之間詞性匹配時(shí)，將替換后的第二關(guān)鍵詞以及其它關(guān)鍵詞重新組合成為語(yǔ)音信號(hào)識(shí)別結(jié)果，并將重新組合的唇語(yǔ)識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音信號(hào)識(shí)別結(jié)果。
10.如權(quán)利要求6-8任一項(xiàng)所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述處理模塊包括：拆分子模塊，用于將所述語(yǔ)音信號(hào)識(shí)別以及唇語(yǔ)識(shí)別結(jié)果拆分為多個(gè)關(guān)鍵詞；關(guān)聯(lián)度計(jì)算子模塊，用于確定所述語(yǔ)音信號(hào)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān) 鍵詞的之間的第一關(guān)聯(lián)度，并確定所述唇語(yǔ)識(shí)別結(jié)果拆分成的關(guān)鍵詞中，各個(gè)相鄰關(guān)鍵詞的之間的第二關(guān)聯(lián)度；準(zhǔn)確度計(jì)算子模塊，用于對(duì)確定的第一關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn) 確度，并對(duì)確定的第二關(guān)聯(lián)度求和，得到所述語(yǔ)音信號(hào)識(shí)別結(jié)果的準(zhǔn)確度；處理子模塊，用于將準(zhǔn)確度較高的識(shí)別結(jié)果作為當(dāng)前的語(yǔ)音識(shí)別結(jié)果。
【文檔編號(hào)】G10L15/26GK104409075SQ201410714386
【公開(kāi)日】2015年3月11日申請(qǐng)日期:2014年11月28日優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】付春元申請(qǐng)人:深圳創(chuàng)維－Rgb電子有限公司

完整全部詳細(xì)技術(shù)資料下載