一種可自定義指令識(shí)別的語音拍照系統(tǒng)的制作方法

文檔序號(hào)：10571088閱讀：291來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種可自定義指令識(shí)別的語音拍照系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種可自定義指令識(shí)別的語音拍照系統(tǒng)，所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊，所述語音指令采集模塊采集語音指令的音頻信號(hào)；采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??；語音定義訓(xùn)練模塊建立語音特征模式庫，將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫；語言識(shí)別控制模塊通過搜索最小匹配誤差得到識(shí)別結(jié)果，執(zhí)行相應(yīng)的語音指令。本發(fā)明所公開的技術(shù)方案一方面可以提升語音拍照功能的實(shí)用性，另一方面也實(shí)現(xiàn)了用戶個(gè)性化的定制，增強(qiáng)了用戶與設(shè)備之間的交互性。
【專利說明】
一種可自定義指令識(shí)別的語音拍照系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明公開了一種可自定義指令識(shí)別的語音拍照系統(tǒng)，涉及音頻信號(hào)處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著信息產(chǎn)業(yè)的飛速發(fā)展，智能化的產(chǎn)品已廣泛受到人們的青睞。語音識(shí)別作為人機(jī)交互的一項(xiàng)關(guān)鍵技術(shù)，其應(yīng)用已經(jīng)涉及我們生活的諸多方面，例如車載語音導(dǎo)航、手機(jī)聲控?fù)芴?hào)、家電控制及語音數(shù)據(jù)庫檢索服務(wù)等等。
[0003]在智能化產(chǎn)品市場中，手機(jī)因其輕便、靈巧及其豐富的APP功能占有重要一席，其中，各種各樣的拍照軟件得到了廣大用戶的青睞，其功能也不在不斷地演變和完善。不難發(fā)現(xiàn)，在眾多拍照軟件中基本都有語音拍照的功能，其主要通過語音命令的識(shí)別來控制相機(jī)拍照程序的執(zhí)行，這一設(shè)計(jì)給手機(jī)用戶帶來了更多的方便和交互體驗(yàn)。但是，這些語音命令一般都由系統(tǒng)指定，也就是說用戶只能通過固定的語音指令來實(shí)現(xiàn)語音拍照。這必然會(huì)造成一定的局限，首先，每個(gè)人的說話方式不同、發(fā)音不同以及方言的存在都有可能導(dǎo)致采用的指定語音命令識(shí)別不成功。其次，當(dāng)用戶希望通過語音來實(shí)現(xiàn)自拍的時(shí)候，考慮到每個(gè)人的笑容也不是千篇一律的，因此，使用同一個(gè)語音指令實(shí)現(xiàn)的自拍效果可能不能同時(shí)滿足每個(gè)用戶的要求，例如:有的人用“茄子”這個(gè)語音指令時(shí)可以達(dá)到最美的微笑，而有的人則喜歡用“番茄”、“Cheese”或“Kimci”(韓語中“泡菜”的發(fā)音)等等?，F(xiàn)有技術(shù)中還比較少見用戶可自定義語音指令進(jìn)行識(shí)別和控制相機(jī)拍照的方法或系統(tǒng)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明所要解決的技術(shù)問題是:針對(duì)現(xiàn)有技術(shù)的缺陷，提供一種可自定義指令識(shí)別的語音拍照系統(tǒng)。
[0005]本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
[0006]—種可自定義指令識(shí)別的語音拍照系統(tǒng)，所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊，
[0007]所述語音指令采集模塊采集語音指令的音頻信號(hào)；
[0008]采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??；
[0009]語音定義訓(xùn)練模塊建立語音特征模式庫，將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫；
[0010]語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量，通過搜索最小匹配誤差得到識(shí)別結(jié)果，執(zhí)行相應(yīng)的語音指令。
[0011]作為本發(fā)明的進(jìn)一步優(yōu)選方案，所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊，上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。
[0012]作為本發(fā)明的進(jìn)一步優(yōu)選方案，所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊，音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù)，所述參數(shù)為梅爾頻率倒譜系數(shù)。
[0013]作為本發(fā)明的進(jìn)一步優(yōu)選方案，所述語言識(shí)別控制模塊采用模板匹配的方法，通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì)，進(jìn)行失真度測量。
[0014]本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下技術(shù)效果:本發(fā)明提出了用戶可自定義語音指令進(jìn)行識(shí)別和控制相機(jī)拍照的方法，一方面可以提升語音拍照功能的實(shí)用性，另一方面也實(shí)現(xiàn)了用戶個(gè)性化的定制，增強(qiáng)了用戶與手機(jī)之間的交互性。
【附圖說明】
[0015]圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0016]下面詳細(xì)描述本發(fā)明的實(shí)施方式，所述實(shí)施方式的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施方式是示例性的，僅用于解釋本發(fā)明，而不能解釋為對(duì)本發(fā)明的限制。
[0017]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說明:
[0018]本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖如圖1所示，所述可自定義指令識(shí)別的語音拍照系統(tǒng)，所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊，
[0019]所述語音指令采集模塊采集語音指令的音頻信號(hào)；
[0020]采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??；
[0021]語音定義訓(xùn)練模塊建立語音特征模式庫，將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫；
[0022]語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量，通過搜索最小匹配誤差得到識(shí)別結(jié)果，執(zhí)行相應(yīng)的語首指令。
[0023]更進(jìn)一步的，所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊，上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。
[0024]更進(jìn)一步的，所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊，音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù)，所述參數(shù)為梅爾頻率倒譜系數(shù)。
[0025]更進(jìn)一步的，所述語言識(shí)別控制模塊采用模板匹配的方法，通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì)，進(jìn)行失真度測量。
[0026]語音拍照系統(tǒng)設(shè)計(jì)大體上包括定義訓(xùn)練和識(shí)別控制兩個(gè)步驟。在定義訓(xùn)練部分，用戶可以根據(jù)自己需要通過麥克風(fēng)錄入自定義的語音指令，并對(duì)這些指令進(jìn)行預(yù)處理，即預(yù)加重、分幀加窗和端點(diǎn)檢測，再提取具有抗噪性的特征參數(shù)一梅爾頻率倒譜系數(shù)(MelFrequency Cepstrum Coefficient，簡稱MFCC)，為所有輸入的語音指令建立一個(gè)語音特征模式庫。在系統(tǒng)的這一部分，用戶可以自定義多個(gè)指令，也可以隨時(shí)更新語音指令庫。
[0027]在識(shí)別控制部分，考慮到指令一般為字、單詞等孤立詞，在對(duì)用戶輸入的待識(shí)別語音指令進(jìn)行同樣的預(yù)處理和特征提取操作后，采用模板匹配的方法，即通過動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping，簡稱為DTW)將待識(shí)別語音指令參數(shù)與參考特征模式庫進(jìn)行失真度測量，通過搜索最小匹配誤差得到識(shí)別結(jié)果，執(zhí)行相應(yīng)的語音指令進(jìn)行拍照。
[0028]上面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式作了詳細(xì)說明，但是本發(fā)明并不限于上述實(shí)施方式，在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi)，還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。以上所述，僅是本發(fā)明的較佳實(shí)施例而已，并非對(duì)本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實(shí)施例揭露如上，然而并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術(shù)人員，在不脫離本發(fā)明技術(shù)方案范圍內(nèi)，當(dāng)可利用上述揭示的技術(shù)內(nèi)容做出些許更動(dòng)或修飾為等同變化的等效實(shí)施例，但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容，依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)，在本發(fā)明的精神和原則之內(nèi)，對(duì)以上實(shí)施例所作的任何簡單的修改、等同替換與改進(jìn)等，均仍屬于本發(fā)明技術(shù)方案的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種可自定義指令識(shí)別的語音拍照系統(tǒng)，其特征在于:所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊，所述語音指令采集模塊采集語音指令的音頻信號(hào)；采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提取；語音定義訓(xùn)練模塊建立語音特征模式庫，將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫；語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量，通過搜索最小匹配誤差得到識(shí)別結(jié)果，執(zhí)行相應(yīng)的語音指令。2.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng)，其特征在于:所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊，上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。3.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng)，其特征在于:所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊，音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù)，所述參數(shù)為梅爾頻率倒譜系數(shù)。4.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng)，其特征在于:所述語言識(shí)別控制模塊采用模板匹配的方法，通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì)，進(jìn)行失真度測量。
【文檔編號(hào)】G10L15/06GK105931637SQ201610204445
【公開日】2016年9月7日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】王丹丹, 臧嫻
【申請(qǐng)人】金陵科技學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王丹丹;臧嫻;
技術(shù)所有人：金陵科技學(xué)院;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音指令識(shí)別相關(guān)技術(shù)

csgo自定義模式指令相關(guān)技術(shù)

自定義指令相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種可自定義指令識(shí)別的語音拍照系統(tǒng)的制作方法