一種可自定義指令識(shí)別的語音拍照系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種可自定義指令識(shí)別的語音拍照系統(tǒng),所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊,所述語音指令采集模塊采集語音指令的音頻信號(hào);采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??;語音定義訓(xùn)練模塊建立語音特征模式庫,將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫;語言識(shí)別控制模塊通過搜索最小匹配誤差得到識(shí)別結(jié)果,執(zhí)行相應(yīng)的語音指令。本發(fā)明所公開的技術(shù)方案一方面可以提升語音拍照功能的實(shí)用性,另一方面也實(shí)現(xiàn)了用戶個(gè)性化的定制,增強(qiáng)了用戶與設(shè)備之間的交互性。
【專利說明】
一種可自定義指令識(shí)別的語音拍照系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明公開了一種可自定義指令識(shí)別的語音拍照系統(tǒng),涉及音頻信號(hào)處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著信息產(chǎn)業(yè)的飛速發(fā)展,智能化的產(chǎn)品已廣泛受到人們的青睞。語音識(shí)別作為人機(jī)交互的一項(xiàng)關(guān)鍵技術(shù),其應(yīng)用已經(jīng)涉及我們生活的諸多方面,例如車載語音導(dǎo)航、手機(jī)聲控?fù)芴?hào)、家電控制及語音數(shù)據(jù)庫檢索服務(wù)等等。
[0003]在智能化產(chǎn)品市場中,手機(jī)因其輕便、靈巧及其豐富的APP功能占有重要一席,其中,各種各樣的拍照軟件得到了廣大用戶的青睞,其功能也不在不斷地演變和完善。不難發(fā)現(xiàn),在眾多拍照軟件中基本都有語音拍照的功能,其主要通過語音命令的識(shí)別來控制相機(jī)拍照程序的執(zhí)行,這一設(shè)計(jì)給手機(jī)用戶帶來了更多的方便和交互體驗(yàn)。但是,這些語音命令一般都由系統(tǒng)指定,也就是說用戶只能通過固定的語音指令來實(shí)現(xiàn)語音拍照。這必然會(huì)造成一定的局限,首先,每個(gè)人的說話方式不同、發(fā)音不同以及方言的存在都有可能導(dǎo)致采用的指定語音命令識(shí)別不成功。其次,當(dāng)用戶希望通過語音來實(shí)現(xiàn)自拍的時(shí)候,考慮到每個(gè)人的笑容也不是千篇一律的,因此,使用同一個(gè)語音指令實(shí)現(xiàn)的自拍效果可能不能同時(shí)滿足每個(gè)用戶的要求,例如:有的人用“茄子”這個(gè)語音指令時(shí)可以達(dá)到最美的微笑,而有的人則喜歡用“番茄”、“Cheese”或“Kimci”(韓語中“泡菜”的發(fā)音)等等?,F(xiàn)有技術(shù)中還比較少見用戶可自定義語音指令進(jìn)行識(shí)別和控制相機(jī)拍照的方法或系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是:針對(duì)現(xiàn)有技術(shù)的缺陷,提供一種可自定義指令識(shí)別的語音拍照系統(tǒng)。
[0005]本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
[0006]—種可自定義指令識(shí)別的語音拍照系統(tǒng),所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊,
[0007]所述語音指令采集模塊采集語音指令的音頻信號(hào);
[0008]采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??;
[0009]語音定義訓(xùn)練模塊建立語音特征模式庫,將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫;
[0010]語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量,通過搜索最小匹配誤差得到識(shí)別結(jié)果,執(zhí)行相應(yīng)的語音指令。
[0011]作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊,上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。
[0012]作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊,音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù),所述參數(shù)為梅爾頻率倒譜系數(shù)。
[0013]作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述語言識(shí)別控制模塊采用模板匹配的方法,通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì),進(jìn)行失真度測量。
[0014]本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:本發(fā)明提出了用戶可自定義語音指令進(jìn)行識(shí)別和控制相機(jī)拍照的方法,一方面可以提升語音拍照功能的實(shí)用性,另一方面也實(shí)現(xiàn)了用戶個(gè)性化的定制,增強(qiáng)了用戶與手機(jī)之間的交互性。
【附圖說明】
[0015]圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0016]下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0017]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說明:
[0018]本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖如圖1所示,所述可自定義指令識(shí)別的語音拍照系統(tǒng),所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊,
[0019]所述語音指令采集模塊采集語音指令的音頻信號(hào);
[0020]采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提??;
[0021]語音定義訓(xùn)練模塊建立語音特征模式庫,將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫;
[0022]語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量,通過搜索最小匹配誤差得到識(shí)別結(jié)果,執(zhí)行相應(yīng)的語首指令。
[0023]更進(jìn)一步的,所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊,上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。
[0024]更進(jìn)一步的,所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊,音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù),所述參數(shù)為梅爾頻率倒譜系數(shù)。
[0025]更進(jìn)一步的,所述語言識(shí)別控制模塊采用模板匹配的方法,通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì),進(jìn)行失真度測量。
[0026]語音拍照系統(tǒng)設(shè)計(jì)大體上包括定義訓(xùn)練和識(shí)別控制兩個(gè)步驟。在定義訓(xùn)練部分,用戶可以根據(jù)自己需要通過麥克風(fēng)錄入自定義的語音指令,并對(duì)這些指令進(jìn)行預(yù)處理,即預(yù)加重、分幀加窗和端點(diǎn)檢測,再提取具有抗噪性的特征參數(shù)一梅爾頻率倒譜系數(shù)(MelFrequency Cepstrum Coefficient,簡稱MFCC),為所有輸入的語音指令建立一個(gè)語音特征模式庫。在系統(tǒng)的這一部分,用戶可以自定義多個(gè)指令,也可以隨時(shí)更新語音指令庫。
[0027]在識(shí)別控制部分,考慮到指令一般為字、單詞等孤立詞,在對(duì)用戶輸入的待識(shí)別語音指令進(jìn)行同樣的預(yù)處理和特征提取操作后,采用模板匹配的方法,即通過動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,簡稱為DTW)將待識(shí)別語音指令參數(shù)與參考特征模式庫進(jìn)行失真度測量,通過搜索最小匹配誤差得到識(shí)別結(jié)果,執(zhí)行相應(yīng)的語音指令進(jìn)行拍照。
[0028]上面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式作了詳細(xì)說明,但是本發(fā)明并不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的技術(shù)內(nèi)容做出些許更動(dòng)或修飾為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì),在本發(fā)明的精神和原則之內(nèi),對(duì)以上實(shí)施例所作的任何簡單的修改、等同替換與改進(jìn)等,均仍屬于本發(fā)明技術(shù)方案的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種可自定義指令識(shí)別的語音拍照系統(tǒng),其特征在于:所述系統(tǒng)包括語音指令采集模塊、音頻信號(hào)預(yù)處理模塊、音頻信號(hào)特征提取模塊、語音定義訓(xùn)練模塊和語言識(shí)別控制模塊, 所述語音指令采集模塊采集語音指令的音頻信號(hào); 采集到的音頻信號(hào)依次經(jīng)過音頻信號(hào)預(yù)處理模塊和音頻信號(hào)特征提取模塊進(jìn)行預(yù)處理和特征提取; 語音定義訓(xùn)練模塊建立語音特征模式庫,將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令均錄入所述特征模式庫; 語言識(shí)別控制模塊將經(jīng)過預(yù)處理和特征提取的音頻信號(hào)所對(duì)應(yīng)的語音指令與特征模式庫中存儲(chǔ)的語音指令進(jìn)行失真度測量,通過搜索最小匹配誤差得到識(shí)別結(jié)果,執(zhí)行相應(yīng)的語音指令。2.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng),其特征在于:所述音頻信號(hào)預(yù)處理模塊包括預(yù)加重模塊、分幀模塊、加窗模塊和端點(diǎn)檢測模塊,上述模塊依次對(duì)語音指令的音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理。3.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng),其特征在于:所述音頻信號(hào)特征提取模塊包括快速傅立葉變換模塊、Mel濾波器組、對(duì)數(shù)能量模塊、離散余弦變換模塊,音頻信號(hào)特征提取模塊從語音指令的音頻信號(hào)中提取具有抗噪性的特征參數(shù),所述參數(shù)為梅爾頻率倒譜系數(shù)。4.如權(quán)利要求1所述的一種可自定義指令識(shí)別的語音拍照系統(tǒng),其特征在于:所述語言識(shí)別控制模塊采用模板匹配的方法,通過動(dòng)態(tài)時(shí)間規(guī)整將待識(shí)別語音指令的音頻信號(hào)參數(shù)與特征模式庫存儲(chǔ)的數(shù)據(jù)進(jìn)行比對(duì),進(jìn)行失真度測量。
【文檔編號(hào)】G10L15/06GK105931637SQ201610204445
【公開日】2016年9月7日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】王丹丹, 臧嫻
【申請(qǐng)人】金陵科技學(xué)院