專利名稱:語音數(shù)據(jù)的提取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域,尤其涉及一種語音數(shù)據(jù)的提取方法和裝置。
背景技術(shù):
隨著智能科技的發(fā)展,人類已經(jīng)不再滿足于通過鼠標(biāo)、按鍵等方式和設(shè)備進(jìn)行交互,而是希望可以通過語音的方式與設(shè)備進(jìn)行交互,實(shí)現(xiàn)設(shè)備的語音控制。語音識別技術(shù)作為語音交互技術(shù)的核心技術(shù)之一,已日趨成熟,并逐漸應(yīng)用在信息處理、教育與商務(wù)應(yīng)用、消費(fèi)電子等領(lǐng)域。語音數(shù)據(jù)提取是語音識別一個(gè)重要的輸入環(huán)節(jié)。用戶啟動(dòng)語音裝置后,現(xiàn)有技術(shù)語音數(shù)據(jù)提取的過程包括依次搜索用戶輸入的信號中的能量;根據(jù)該能量的位置從用戶輸入的信號中獲取語音數(shù)據(jù)。然而,由于用戶輸入的信號中的能量可能來自于用戶發(fā)出的聲音,也可能來自環(huán)境中的工業(yè)生產(chǎn)、交通運(yùn)輸?shù)仍肼?;如果語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種語音數(shù)據(jù)的提取方法和裝置,能夠提高語音識別的準(zhǔn)確率。一方面,提供了一種語音數(shù)據(jù)的提取方法,包括獲取語音裝置所在環(huán)境的平均噪聲值;用戶啟動(dòng)所述語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。另一方面,提供了一種語音數(shù)據(jù)的提取裝置,包括噪聲值獲取單元,用于獲取語音裝置所在環(huán)境的平均噪聲值;分段單元,用于用戶啟動(dòng)所述語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;數(shù)據(jù)提取單元,用于根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法和裝置,通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段,并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí),需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響,從而提高語音識別的準(zhǔn)確率;解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確的問題。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一提供的語音數(shù)據(jù)的提取方法的流程圖;圖2為本發(fā)明實(shí)施例二提供的語音數(shù)據(jù)的提取方法的流程圖;圖3為本發(fā)明實(shí)施例三提供的語音數(shù)據(jù)的提取方法的流程圖;圖4為本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖二 ;圖6為圖4所示的語音數(shù)據(jù)的提取裝置中數(shù)據(jù)提取單元的結(jié)構(gòu)示意圖;圖7為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖一;圖8為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖二 ;圖9為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖三。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例提供一種語音數(shù)據(jù)的提取方法和裝置,能夠解決現(xiàn)有技術(shù)造成語音識別不準(zhǔn)確的問題。如圖1所示,本發(fā)明實(shí)施例一提供的語音數(shù)據(jù)的提取方法,包括步驟101,獲取語音裝置所在環(huán)境的平均噪聲值。在本實(shí)施例中,在語音裝置啟動(dòng)之前,步驟101可以通過分貝檢測的方式檢測語音裝置所在環(huán)境各個(gè)時(shí)間點(diǎn)的噪聲值,并根據(jù)該各個(gè)時(shí)間點(diǎn)的噪聲值獲取平均噪聲值;步驟101還可以通過其他方式獲取語音裝置所在的環(huán)境的平均噪聲值,在此不再一一贅述;其中,語音裝置,既可以為具有語音錄入和傳輸功能的裝置,也可以為具有語音識別功能的裝置,還可以為其他裝置,在此不作限制。步驟102,用戶啟動(dòng)語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段。在本實(shí)施例中,用戶啟動(dòng)語音裝置后,可以根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段。其中,該預(yù)設(shè)時(shí)間,可以任意設(shè)置;優(yōu)選的,為了防止語音數(shù)據(jù)的遺漏,可以將該時(shí)間設(shè)置為一個(gè)較短的時(shí)間值,如0.1秒等,在此不再一一贅述。步驟103,根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中,通過步驟102得到至少一個(gè)信號片段后,可以對分別獲取每個(gè)信號片段中每幀信號的音頻值,并根據(jù)該每幀信號的音頻值獲取平均音頻值;也可以通過其他方式獲取平均音頻值,在此不作限制。
5
在本實(shí)施例中,步驟103根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)的過程可以包括首先,分別將至少一個(gè)信號片段對應(yīng)的平均音頻值與平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列;然后根據(jù)該第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。步驟103還可以通過其他方式根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),在此不再一一贅述。在本實(shí)施例中,根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn),根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn),根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn),根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,確定語音數(shù)據(jù)的起始點(diǎn)時(shí),可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間,也可以首先過濾瞬態(tài)噪聲的干擾,在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法,通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段,并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí),需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響,從而提高語音識別的準(zhǔn)確率;解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確的問題。如圖2所示,本發(fā)明實(shí)施例二提供的語音數(shù)據(jù)的提取方法,該方法與如圖1所示的方法相似,區(qū)別在于,本實(shí)施例提供的語音數(shù)據(jù)的提取方法,在根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分片之前,還包括步驟100,用戶啟動(dòng)語音裝置后,獲取并存儲(chǔ)用戶輸入的信號。在本實(shí)施例中,用戶啟動(dòng)語音裝置后,可以自動(dòng)啟動(dòng)該語音裝置的錄音功能,從而獲取并存儲(chǔ)用戶輸入的信號;步驟100也可以通過其他方式獲取并存儲(chǔ)用戶輸入的信號,在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法,通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段,并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí),需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響,從而提高語音識別的準(zhǔn)確率;解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確的問題。如圖3所示,本發(fā)明實(shí)施例三提供的語音數(shù)據(jù)的提取方法,包括步驟301至步驟302,獲取平均噪聲值,并對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;具體過程與圖1所示的步驟101至步驟102相似,在此不再一一贅述。
步驟303,將至少一個(gè)信號片段對應(yīng)的平均音頻值分別與平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列。在本實(shí)施例中,通過步驟302得到至少一個(gè)信號片段后,可以對分別獲取每個(gè)信號片段中每幀信號的音頻值,并根據(jù)該每幀信號的音頻值獲取平均音頻值;也可以通過其他方式獲取平均音頻值,在此不作限制。步驟304,根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中,步驟304中根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn),根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn),根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn),根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,確定語音數(shù)據(jù)的起始點(diǎn)時(shí),可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間,也可以首先過濾瞬態(tài)噪聲的干擾,在此不再一一贅述。在本實(shí)施例中,步驟304根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)的過程,可以包括從第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值,該第一差值為第一差值序列中大于預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值;根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為通過其他方式根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,步驟304也可以包括從第一差值序列中獲取小于預(yù)設(shè)強(qiáng)度閾值的第二差值,該第二差值為第一差值序列中第一差值之后首個(gè)小于預(yù)設(shè)強(qiáng)度閾值的差值;根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第二差值對應(yīng)的時(shí)間點(diǎn)為終點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為通過其他方式根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,步驟304還可以包括從第一差值序列中獲取大于預(yù)設(shè)閾值的第一差值,以及獲取小于預(yù)設(shè)閾值的第二差值;根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)、第二差值對應(yīng)的時(shí)間點(diǎn)為終端,從用戶輸入的信號中獲取語音數(shù)據(jù),也可以為通過其他方式根據(jù)第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,步驟304中包括從第一差值序列中獲取大于預(yù)設(shè)閾值的第一差值時(shí),在根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)之前,還可以包括判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲;第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲時(shí),重新獲取第一差值并判斷;第一差值相應(yīng)的平均音頻值不為瞬態(tài)噪聲時(shí),直接根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值的方式,可以為判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值,該第一音頻信號為以第一差值為起點(diǎn)、由連續(xù)大于預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng);也可以為判斷第一強(qiáng)度差值對應(yīng)的音頻信號是否包含預(yù)先設(shè)置的語音特征,該預(yù)先設(shè)置的語音特征可以包括濁音語音片段或非濁音語音片段,在此不作限制;還可以通過其他方式判斷第一強(qiáng)度差值對應(yīng)的音頻信號的能量是否由瞬態(tài)噪聲所引起,在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法,通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段,并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí),需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響,從而提高語音識別的準(zhǔn)確率;解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確的問題。如圖4所示,本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置,包括噪聲值獲取單元401,用于獲取語音裝置所在環(huán)境的平均噪聲值。在本實(shí)施例中,在語音裝置啟動(dòng)之前,噪聲值獲取單元401可以通過分貝檢測的方式檢測語音裝置所在環(huán)境各個(gè)時(shí)間點(diǎn)的噪聲值,并根據(jù)該各個(gè)時(shí)間點(diǎn)的噪聲值獲取平均噪聲值;噪聲值獲取單元401還可以通過其他方式獲取語音裝置所在的環(huán)境的平均噪聲值,在此不再一一贅述;其中,語音裝置,既可以為具有語音錄入和傳輸功能的裝置,也可以為具有語音識別功能的裝置,還可以為其他裝置,在此不作限制。分段單元402,用于用戶啟動(dòng)語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段。在本實(shí)施例中,用戶啟動(dòng)語音裝置后,可以根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段。其中,該預(yù)設(shè)時(shí)間,可以任意設(shè)置;優(yōu)選的,為了防止語音數(shù)據(jù)的遺漏,可以將該時(shí)間設(shè)置為一個(gè)較短的時(shí)間值,如0.1秒等,在此不再一一贅述。數(shù)據(jù)提取單元403,用于根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中,通過分段單元402得到至少一個(gè)信號片段后,可以對分別獲取每個(gè)信號片段中每幀信號的音頻值,并根據(jù)該每幀信號的音頻值獲取平均音頻值;也可以通過其他方式獲取平均音頻值,在此不作限制。在本實(shí)施例中,數(shù)據(jù)提取單元403根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)的過程可以包括首先,分別將至少一個(gè)信號片段對應(yīng)的平均音頻值與平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列;然后根據(jù)該第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。數(shù)據(jù)提取單元403還可以通過其他方式根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),在此不再一一贅述。在本實(shí)施例中,根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn),根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn),根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn),根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,確定語音數(shù)據(jù)的起始點(diǎn)時(shí),可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間,也可以首先過濾瞬態(tài)噪聲的干擾,在此不再一一贅述。如圖5所示,本實(shí)施例中語音數(shù)據(jù)的提取裝置,還可以包括存儲(chǔ)單元400,用于獲取并存儲(chǔ)用戶輸入的信號。在本實(shí)施例中,用戶啟動(dòng)語音裝置后,可以自動(dòng)啟動(dòng)該語音裝置的錄音功能,從而獲取并存儲(chǔ)用戶輸入的信號;存儲(chǔ)單元400也可以通過其他方式獲取并存儲(chǔ)用戶輸入的信號,在此不再一一贅述。進(jìn)一步的,如圖6所示,本實(shí)施例提供的語音數(shù)據(jù)的提取裝置中數(shù)據(jù)提取單元403,可以包括減法子單元4031,用于將至少一個(gè)信號片段對應(yīng)的平均音頻值分別與平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列;提取子單元4032,用于根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中,通過分段單元402得到至少一個(gè)信號片段后,可以對分別獲取每個(gè)信號片段中每幀信號的音頻值,并根據(jù)該每幀信號的音頻值獲取平均音頻值;也可以通過其他方式獲取平均音頻值,在此不作限制。在本實(shí)施例中,如圖7所示,提取子單元4032可以包括第一獲取模塊40321,用于從第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值,第一差值為第一差值序列中大于預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值;第一提取模塊40322,用于根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為通過其他方式根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,如圖8所示,提取子單元4032也可以包括第二獲取模塊40323,用于從第一差值序列中獲取小于預(yù)設(shè)強(qiáng)度閾值的第二差值,第二差值為第一差值序列中第一差值之后首個(gè)小于預(yù)設(shè)強(qiáng)度閾值的差值;第二提取模塊40324,用于根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中,根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第二差值對應(yīng)的時(shí)間點(diǎn)為終點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù);也可以為通過其他方式根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,如圖9所示,提取子單元4032還可以既包括第一獲取模塊40321、第一提取模塊40322,又包括第二獲取模塊40323、第二提取模塊40324 ;此時(shí),語音數(shù)據(jù)為根據(jù)第一差值和第二差值從用戶輸入的信號中獲取的。其中,根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)、第二差值對應(yīng)的時(shí)間點(diǎn)為終端,從用戶輸入的信號中獲取語音數(shù)據(jù),也可以為通過其他方式根據(jù)第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù),在此不作限制。在本實(shí)施例中,提取子單元4032包括第一獲取模塊40321時(shí),如圖7所示,該提取
9子單元4032還包括判斷模塊40325,用于判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值。該判斷模塊可以通過判斷子模塊實(shí)現(xiàn)相應(yīng)的功能,該判斷子模塊,用于判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值的結(jié)構(gòu),判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值;該第一音頻信號與以第一差值為起點(diǎn)、由連續(xù)大于預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。該判斷模塊40325也可以通過其他方式判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值,如判斷第一強(qiáng)度差值對應(yīng)的音頻信號是否包含預(yù)先設(shè)置的語音特征等,該預(yù)先設(shè)置的語音特征可以包括濁音語音片段或非濁音語音片段,在此不作限制。在本實(shí)施例中,第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲時(shí),重新獲取第一差值并判斷;第一差值相應(yīng)的平均音頻值不為瞬態(tài)噪聲時(shí),直接根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取裝置,通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段,并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,從用戶輸入的信號中獲取語音數(shù)據(jù),從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí),需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系,使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響,從而提高語音識別的準(zhǔn)確率;解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲,該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取,造成語音識別不準(zhǔn)確的問題。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法和裝置,可以應(yīng)用在語音識別系統(tǒng)中。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種語音數(shù)據(jù)的提取方法,其特征在于,包括獲取語音裝置所在環(huán)境的平均噪聲值;用戶啟動(dòng)所述語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的語音數(shù)據(jù)的提取方法,其特征在于,在所述根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段之前,所述方法還包括獲取并存儲(chǔ)用戶輸入的信號。
3.根據(jù)權(quán)利要求1所述的語音數(shù)據(jù)的提取方法,其特征在于,所述根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù),包括將所述至少一個(gè)信號片段對應(yīng)的平均音頻值分別與所述平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列;根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的語音數(shù)據(jù)的提取方法,其特征在于,根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù),包括從所述第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值,所述第一差值為所述第一差值序列中大于所述預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值;根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù);和/或從所述第一差值序列中獲取小于所述預(yù)設(shè)強(qiáng)度閾值的第二差值,所述第二差值為所述第一差值序列中第一差值之后首個(gè)小于所述預(yù)設(shè)強(qiáng)度閾值的差值;根據(jù)所述第二差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的語音數(shù)據(jù)的提取方法,其特征在于,在根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)之前,所述方法還包括判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值;所述第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲值時(shí),重新獲取第一差值并判斷。
6.根據(jù)權(quán)利要求5所述的語音數(shù)據(jù)的提取方法,其特征在于,所述判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值,包括判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值,所述第一音頻信號與以所述第一差值為起點(diǎn)、由連續(xù)大于所述預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。
7.一種語音數(shù)據(jù)的提取裝置,其特征在于,包括噪聲值獲取單元,用于獲取語音裝置所在環(huán)境的平均噪聲值;分段單元,用于用戶啟動(dòng)所述語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;數(shù)據(jù)提取單元,用于根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的語音數(shù)據(jù)的提取裝置,其特征在于,還包括存儲(chǔ)單元,用于獲取并存儲(chǔ)用戶輸入的信號。
9.根據(jù)權(quán)利要求8所述的語音數(shù)據(jù)的提取裝置,其特征在于,所述數(shù)據(jù)提取單元,包括減法子單元,用于將所述至少一個(gè)信號片段對應(yīng)的平均音頻值分別與所述平均噪聲值進(jìn)行減法運(yùn)算,得到第一差值序列;提取子單元,用于根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的語音數(shù)據(jù)的提取裝置,其特征在于,所述提取子單元,包括第一獲取模塊,用于從所述第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值,所述第一差值為所述第一差值序列中大于所述預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值;第一提取模塊,用于根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
11.根據(jù)權(quán)利要求9或10所述的語音數(shù)據(jù)的提取裝置,其特征在于,所述提取子單元,包括第二獲取模塊,用于從所述第一差值序列中獲取小于所述預(yù)設(shè)強(qiáng)度閾值的第二差值,所述第二差值為所述第一差值序列中第一差值之后首個(gè)小于所述預(yù)設(shè)強(qiáng)度閾值的差值;所述第二提取模塊,用于根據(jù)所述第二差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
12.根據(jù)權(quán)利要求10所述的語音數(shù)據(jù)的提取裝置,其特征在于,還包括判斷模塊,用于判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值。
13.根據(jù)權(quán)利要求12所述的語音數(shù)據(jù)的提取裝置,其特征在于,所述判斷模塊包括判斷子模塊,用于判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值,所述第一音頻信號與以所述第一差值為起點(diǎn)、由連續(xù)大于所述預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。
全文摘要
本發(fā)明公開了一種語音數(shù)據(jù)的提取方法和裝置,涉及語音識別領(lǐng)域。為解決現(xiàn)有技術(shù)造成語音識別不準(zhǔn)確的問題而發(fā)明。本發(fā)明實(shí)施例公開的技術(shù)方案包括獲取語音裝置所在環(huán)境的平均噪聲值;用戶啟動(dòng)所述語音裝置后,根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段,得到至少一個(gè)信號片段;根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系,從所述用戶輸入的信號中獲取語音數(shù)據(jù)。發(fā)明實(shí)施例提供的技術(shù)方案可以應(yīng)用在語音識別系統(tǒng)中。
文檔編號G10L15/00GK102592592SQ20111045433
公開日2012年7月18日 申請日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者王力劭, 程輝, 邵穎 申請人:深圳市車音網(wǎng)科技有限公司