語音數(shù)據(jù)的提取方法和裝置的制作方法

文檔序號：2836186閱讀：249來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音數(shù)據(jù)的提取方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別領(lǐng)域，尤其涉及一種語音數(shù)據(jù)的提取方法和裝置。
背景技術(shù)：
隨著智能科技的發(fā)展，人類已經(jīng)不再滿足于通過鼠標(biāo)、按鍵等方式和設(shè)備進(jìn)行交互，而是希望可以通過語音的方式與設(shè)備進(jìn)行交互，實(shí)現(xiàn)設(shè)備的語音控制。語音識別技術(shù)作為語音交互技術(shù)的核心技術(shù)之一，已日趨成熟，并逐漸應(yīng)用在信息處理、教育與商務(wù)應(yīng)用、消費(fèi)電子等領(lǐng)域。語音數(shù)據(jù)提取是語音識別一個(gè)重要的輸入環(huán)節(jié)。用戶啟動(dòng)語音裝置后，現(xiàn)有技術(shù)語音數(shù)據(jù)提取的過程包括依次搜索用戶輸入的信號中的能量；根據(jù)該能量的位置從用戶輸入的信號中獲取語音數(shù)據(jù)。然而，由于用戶輸入的信號中的能量可能來自于用戶發(fā)出的聲音，也可能來自環(huán)境中的工業(yè)生產(chǎn)、交通運(yùn)輸?shù)仍肼?；如果語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確。

發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種語音數(shù)據(jù)的提取方法和裝置，能夠提高語音識別的準(zhǔn)確率。一方面，提供了一種語音數(shù)據(jù)的提取方法，包括獲取語音裝置所在環(huán)境的平均噪聲值；用戶啟動(dòng)所述語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。另一方面，提供了一種語音數(shù)據(jù)的提取裝置，包括噪聲值獲取單元，用于獲取語音裝置所在環(huán)境的平均噪聲值；分段單元，用于用戶啟動(dòng)所述語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；數(shù)據(jù)提取單元，用于根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法和裝置，通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段，并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí)，需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響，從而提高語音識別的準(zhǔn)確率；解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確的問題。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一提供的語音數(shù)據(jù)的提取方法的流程圖；圖2為本發(fā)明實(shí)施例二提供的語音數(shù)據(jù)的提取方法的流程圖；圖3為本發(fā)明實(shí)施例三提供的語音數(shù)據(jù)的提取方法的流程圖；圖4為本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖一；圖5為本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖二；圖6為圖4所示的語音數(shù)據(jù)的提取裝置中數(shù)據(jù)提取單元的結(jié)構(gòu)示意圖；圖7為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖一；圖8為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖二；圖9為圖6所示的語音數(shù)據(jù)的提取裝置中提取子單元的結(jié)構(gòu)示意圖三。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例提供一種語音數(shù)據(jù)的提取方法和裝置，能夠解決現(xiàn)有技術(shù)造成語音識別不準(zhǔn)確的問題。如圖1所示，本發(fā)明實(shí)施例一提供的語音數(shù)據(jù)的提取方法，包括步驟101，獲取語音裝置所在環(huán)境的平均噪聲值。在本實(shí)施例中，在語音裝置啟動(dòng)之前，步驟101可以通過分貝檢測的方式檢測語音裝置所在環(huán)境各個(gè)時(shí)間點(diǎn)的噪聲值，并根據(jù)該各個(gè)時(shí)間點(diǎn)的噪聲值獲取平均噪聲值；步驟101還可以通過其他方式獲取語音裝置所在的環(huán)境的平均噪聲值，在此不再一一贅述；其中，語音裝置，既可以為具有語音錄入和傳輸功能的裝置，也可以為具有語音識別功能的裝置，還可以為其他裝置，在此不作限制。步驟102，用戶啟動(dòng)語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段。在本實(shí)施例中，用戶啟動(dòng)語音裝置后，可以根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段。其中，該預(yù)設(shè)時(shí)間，可以任意設(shè)置；優(yōu)選的，為了防止語音數(shù)據(jù)的遺漏，可以將該時(shí)間設(shè)置為一個(gè)較短的時(shí)間值，如0.1秒等，在此不再一一贅述。步驟103，根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中，通過步驟102得到至少一個(gè)信號片段后，可以對分別獲取每個(gè)信號片段中每幀信號的音頻值，并根據(jù)該每幀信號的音頻值獲取平均音頻值；也可以通過其他方式獲取平均音頻值，在此不作限制。
5
在本實(shí)施例中，步驟103根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)的過程可以包括首先，分別將至少一個(gè)信號片段對應(yīng)的平均音頻值與平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列；然后根據(jù)該第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。步驟103還可以通過其他方式根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不再一一贅述。在本實(shí)施例中，根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)，根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn)，根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn)，根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，確定語音數(shù)據(jù)的起始點(diǎn)時(shí)，可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間，也可以首先過濾瞬態(tài)噪聲的干擾，在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法，通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段，并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí)，需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響，從而提高語音識別的準(zhǔn)確率；解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確的問題。如圖2所示，本發(fā)明實(shí)施例二提供的語音數(shù)據(jù)的提取方法，該方法與如圖1所示的方法相似，區(qū)別在于，本實(shí)施例提供的語音數(shù)據(jù)的提取方法，在根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分片之前，還包括步驟100，用戶啟動(dòng)語音裝置后，獲取并存儲(chǔ)用戶輸入的信號。在本實(shí)施例中，用戶啟動(dòng)語音裝置后，可以自動(dòng)啟動(dòng)該語音裝置的錄音功能，從而獲取并存儲(chǔ)用戶輸入的信號；步驟100也可以通過其他方式獲取并存儲(chǔ)用戶輸入的信號，在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法，通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段，并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí)，需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響，從而提高語音識別的準(zhǔn)確率；解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確的問題。如圖3所示，本發(fā)明實(shí)施例三提供的語音數(shù)據(jù)的提取方法，包括步驟301至步驟302，獲取平均噪聲值，并對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；具體過程與圖1所示的步驟101至步驟102相似，在此不再一一贅述。
步驟303，將至少一個(gè)信號片段對應(yīng)的平均音頻值分別與平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列。在本實(shí)施例中，通過步驟302得到至少一個(gè)信號片段后，可以對分別獲取每個(gè)信號片段中每幀信號的音頻值，并根據(jù)該每幀信號的音頻值獲取平均音頻值；也可以通過其他方式獲取平均音頻值，在此不作限制。步驟304，根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中，步驟304中根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)，根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn)，根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn)，根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，確定語音數(shù)據(jù)的起始點(diǎn)時(shí)，可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間，也可以首先過濾瞬態(tài)噪聲的干擾，在此不再一一贅述。在本實(shí)施例中，步驟304根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)的過程，可以包括從第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值，該第一差值為第一差值序列中大于預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值；根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為通過其他方式根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，步驟304也可以包括從第一差值序列中獲取小于預(yù)設(shè)強(qiáng)度閾值的第二差值，該第二差值為第一差值序列中第一差值之后首個(gè)小于預(yù)設(shè)強(qiáng)度閾值的差值；根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第二差值對應(yīng)的時(shí)間點(diǎn)為終點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為通過其他方式根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，步驟304還可以包括從第一差值序列中獲取大于預(yù)設(shè)閾值的第一差值，以及獲取小于預(yù)設(shè)閾值的第二差值；根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)、第二差值對應(yīng)的時(shí)間點(diǎn)為終端，從用戶輸入的信號中獲取語音數(shù)據(jù)，也可以為通過其他方式根據(jù)第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，步驟304中包括從第一差值序列中獲取大于預(yù)設(shè)閾值的第一差值時(shí)，在根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)之前，還可以包括判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲；第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲時(shí)，重新獲取第一差值并判斷；第一差值相應(yīng)的平均音頻值不為瞬態(tài)噪聲時(shí)，直接根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值的方式，可以為判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值，該第一音頻信號為以第一差值為起點(diǎn)、由連續(xù)大于預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)；也可以為判斷第一強(qiáng)度差值對應(yīng)的音頻信號是否包含預(yù)先設(shè)置的語音特征，該預(yù)先設(shè)置的語音特征可以包括濁音語音片段或非濁音語音片段，在此不作限制；還可以通過其他方式判斷第一強(qiáng)度差值對應(yīng)的音頻信號的能量是否由瞬態(tài)噪聲所引起，在此不再一一贅述。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法，通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段，并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí)，需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響，從而提高語音識別的準(zhǔn)確率；解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確的問題。如圖4所示，本發(fā)明實(shí)施例四提供的語音數(shù)據(jù)的提取裝置，包括噪聲值獲取單元401，用于獲取語音裝置所在環(huán)境的平均噪聲值。在本實(shí)施例中，在語音裝置啟動(dòng)之前，噪聲值獲取單元401可以通過分貝檢測的方式檢測語音裝置所在環(huán)境各個(gè)時(shí)間點(diǎn)的噪聲值，并根據(jù)該各個(gè)時(shí)間點(diǎn)的噪聲值獲取平均噪聲值；噪聲值獲取單元401還可以通過其他方式獲取語音裝置所在的環(huán)境的平均噪聲值，在此不再一一贅述；其中，語音裝置，既可以為具有語音錄入和傳輸功能的裝置，也可以為具有語音識別功能的裝置，還可以為其他裝置，在此不作限制。分段單元402，用于用戶啟動(dòng)語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段。在本實(shí)施例中，用戶啟動(dòng)語音裝置后，可以根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段。其中，該預(yù)設(shè)時(shí)間，可以任意設(shè)置；優(yōu)選的，為了防止語音數(shù)據(jù)的遺漏，可以將該時(shí)間設(shè)置為一個(gè)較短的時(shí)間值，如0.1秒等，在此不再一一贅述。數(shù)據(jù)提取單元403，用于根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中，通過分段單元402得到至少一個(gè)信號片段后，可以對分別獲取每個(gè)信號片段中每幀信號的音頻值，并根據(jù)該每幀信號的音頻值獲取平均音頻值；也可以通過其他方式獲取平均音頻值，在此不作限制。在本實(shí)施例中，數(shù)據(jù)提取單元403根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)的過程可以包括首先，分別將至少一個(gè)信號片段對應(yīng)的平均音頻值與平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列；然后根據(jù)該第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。數(shù)據(jù)提取單元403還可以通過其他方式根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不再一一贅述。在本實(shí)施例中，根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)，根據(jù)該起始點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的結(jié)束點(diǎn)，根據(jù)該結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；還可以為根據(jù)至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系確定語音數(shù)據(jù)的起始點(diǎn)和結(jié)束點(diǎn)，根據(jù)該起始點(diǎn)和結(jié)束點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，確定語音數(shù)據(jù)的起始點(diǎn)時(shí)，可以直接將該起始點(diǎn)作為語音數(shù)據(jù)的初始時(shí)間，也可以首先過濾瞬態(tài)噪聲的干擾，在此不再一一贅述。如圖5所示，本實(shí)施例中語音數(shù)據(jù)的提取裝置，還可以包括存儲(chǔ)單元400，用于獲取并存儲(chǔ)用戶輸入的信號。在本實(shí)施例中，用戶啟動(dòng)語音裝置后，可以自動(dòng)啟動(dòng)該語音裝置的錄音功能，從而獲取并存儲(chǔ)用戶輸入的信號；存儲(chǔ)單元400也可以通過其他方式獲取并存儲(chǔ)用戶輸入的信號，在此不再一一贅述。進(jìn)一步的，如圖6所示，本實(shí)施例提供的語音數(shù)據(jù)的提取裝置中數(shù)據(jù)提取單元403，可以包括減法子單元4031，用于將至少一個(gè)信號片段對應(yīng)的平均音頻值分別與平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列；提取子單元4032，用于根據(jù)第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)。在本實(shí)施例中，通過分段單元402得到至少一個(gè)信號片段后，可以對分別獲取每個(gè)信號片段中每幀信號的音頻值，并根據(jù)該每幀信號的音頻值獲取平均音頻值；也可以通過其他方式獲取平均音頻值，在此不作限制。在本實(shí)施例中，如圖7所示，提取子單元4032可以包括第一獲取模塊40321，用于從第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值，第一差值為第一差值序列中大于預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值；第一提取模塊40322，用于根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為通過其他方式根據(jù)該第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，如圖8所示，提取子單元4032也可以包括第二獲取模塊40323，用于從第一差值序列中獲取小于預(yù)設(shè)強(qiáng)度閾值的第二差值，第二差值為第一差值序列中第一差值之后首個(gè)小于預(yù)設(shè)強(qiáng)度閾值的差值；第二提取模塊40324，用于根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)。其中，根據(jù)該第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第二差值對應(yīng)的時(shí)間點(diǎn)為終點(diǎn)從用戶輸入的信號中獲取語音數(shù)據(jù)；也可以為通過其他方式根據(jù)第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，如圖9所示，提取子單元4032還可以既包括第一獲取模塊40321、第一提取模塊40322，又包括第二獲取模塊40323、第二提取模塊40324 ；此時(shí)，語音數(shù)據(jù)為根據(jù)第一差值和第二差值從用戶輸入的信號中獲取的。其中，根據(jù)該第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，可以為以第一差值對應(yīng)的時(shí)間點(diǎn)為起點(diǎn)、第二差值對應(yīng)的時(shí)間點(diǎn)為終端，從用戶輸入的信號中獲取語音數(shù)據(jù)，也可以為通過其他方式根據(jù)第一差值和第二差值從用戶輸入的信號中獲取語音數(shù)據(jù)，在此不作限制。在本實(shí)施例中，提取子單元4032包括第一獲取模塊40321時(shí)，如圖7所示，該提取
9子單元4032還包括判斷模塊40325，用于判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值。該判斷模塊可以通過判斷子模塊實(shí)現(xiàn)相應(yīng)的功能，該判斷子模塊，用于判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值的結(jié)構(gòu)，判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值；該第一音頻信號與以第一差值為起點(diǎn)、由連續(xù)大于預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。該判斷模塊40325也可以通過其他方式判斷第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值，如判斷第一強(qiáng)度差值對應(yīng)的音頻信號是否包含預(yù)先設(shè)置的語音特征等，該預(yù)先設(shè)置的語音特征可以包括濁音語音片段或非濁音語音片段，在此不作限制。在本實(shí)施例中，第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲時(shí)，重新獲取第一差值并判斷；第一差值相應(yīng)的平均音頻值不為瞬態(tài)噪聲時(shí)，直接根據(jù)第一差值從用戶輸入的信號中獲取語音數(shù)據(jù)。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取裝置，通過獲取語音裝置所在環(huán)境的平均噪聲值和至少一個(gè)信號片段，并根據(jù)該至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，從用戶輸入的信號中獲取語音數(shù)據(jù)，從而實(shí)現(xiàn)語音數(shù)據(jù)的提取。由于提取語音數(shù)據(jù)時(shí)，需要考慮至少一個(gè)信號片段對應(yīng)的平均音頻值和平均噪聲值的關(guān)系，使得本發(fā)明實(shí)施例提供的技術(shù)方案能夠減少噪聲對語音數(shù)據(jù)提取的影響，從而提高語音識別的準(zhǔn)確率；解決了現(xiàn)有技術(shù)中語音數(shù)據(jù)提取時(shí)存在噪聲，該噪聲會(huì)被當(dāng)作語音數(shù)據(jù)進(jìn)行提取，造成語音識別不準(zhǔn)確的問題。本發(fā)明實(shí)施例提供的語音數(shù)據(jù)的提取方法和裝置，可以應(yīng)用在語音識別系統(tǒng)中。以上所述，僅為本發(fā)明的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種語音數(shù)據(jù)的提取方法，其特征在于，包括獲取語音裝置所在環(huán)境的平均噪聲值；用戶啟動(dòng)所述語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的語音數(shù)據(jù)的提取方法，其特征在于，在所述根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段之前，所述方法還包括獲取并存儲(chǔ)用戶輸入的信號。
3.根據(jù)權(quán)利要求1所述的語音數(shù)據(jù)的提取方法，其特征在于，所述根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)，包括將所述至少一個(gè)信號片段對應(yīng)的平均音頻值分別與所述平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列；根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的語音數(shù)據(jù)的提取方法，其特征在于，根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)，包括從所述第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值，所述第一差值為所述第一差值序列中大于所述預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值；根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)；和/或從所述第一差值序列中獲取小于所述預(yù)設(shè)強(qiáng)度閾值的第二差值，所述第二差值為所述第一差值序列中第一差值之后首個(gè)小于所述預(yù)設(shè)強(qiáng)度閾值的差值；根據(jù)所述第二差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的語音數(shù)據(jù)的提取方法，其特征在于，在根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)之前，所述方法還包括判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值；所述第一差值相應(yīng)的平均音頻值為瞬態(tài)噪聲值時(shí)，重新獲取第一差值并判斷。
6.根據(jù)權(quán)利要求5所述的語音數(shù)據(jù)的提取方法，其特征在于，所述判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值，包括判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值，所述第一音頻信號與以所述第一差值為起點(diǎn)、由連續(xù)大于所述預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。
7.一種語音數(shù)據(jù)的提取裝置，其特征在于，包括噪聲值獲取單元，用于獲取語音裝置所在環(huán)境的平均噪聲值；分段單元，用于用戶啟動(dòng)所述語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；數(shù)據(jù)提取單元，用于根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的語音數(shù)據(jù)的提取裝置，其特征在于，還包括存儲(chǔ)單元，用于獲取并存儲(chǔ)用戶輸入的信號。
9.根據(jù)權(quán)利要求8所述的語音數(shù)據(jù)的提取裝置，其特征在于，所述數(shù)據(jù)提取單元，包括減法子單元，用于將所述至少一個(gè)信號片段對應(yīng)的平均音頻值分別與所述平均噪聲值進(jìn)行減法運(yùn)算，得到第一差值序列；提取子單元，用于根據(jù)所述第一差值序列中至少一個(gè)差值與預(yù)設(shè)強(qiáng)度閾值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的語音數(shù)據(jù)的提取裝置，其特征在于，所述提取子單元，包括第一獲取模塊，用于從所述第一差值序列中獲取大于預(yù)設(shè)強(qiáng)度閾值的第一差值，所述第一差值為所述第一差值序列中大于所述預(yù)設(shè)強(qiáng)度閾值的第一個(gè)差值；第一提取模塊，用于根據(jù)所述第一差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
11.根據(jù)權(quán)利要求9或10所述的語音數(shù)據(jù)的提取裝置，其特征在于，所述提取子單元，包括第二獲取模塊，用于從所述第一差值序列中獲取小于所述預(yù)設(shè)強(qiáng)度閾值的第二差值，所述第二差值為所述第一差值序列中第一差值之后首個(gè)小于所述預(yù)設(shè)強(qiáng)度閾值的差值；所述第二提取模塊，用于根據(jù)所述第二差值從所述用戶輸入的信號中獲取語音數(shù)據(jù)。
12.根據(jù)權(quán)利要求10所述的語音數(shù)據(jù)的提取裝置，其特征在于，還包括判斷模塊，用于判斷所述第一差值相應(yīng)的平均音頻值是否為瞬態(tài)噪聲值。
13.根據(jù)權(quán)利要求12所述的語音數(shù)據(jù)的提取裝置，其特征在于，所述判斷模塊包括判斷子模塊，用于判斷第一音頻信號對應(yīng)的時(shí)間段是否大于預(yù)設(shè)閾值，所述第一音頻信號與以所述第一差值為起點(diǎn)、由連續(xù)大于所述預(yù)設(shè)強(qiáng)度閾值的強(qiáng)度差值組成的第二差值序列對應(yīng)。
全文摘要
本發(fā)明公開了一種語音數(shù)據(jù)的提取方法和裝置，涉及語音識別領(lǐng)域。為解決現(xiàn)有技術(shù)造成語音識別不準(zhǔn)確的問題而發(fā)明。本發(fā)明實(shí)施例公開的技術(shù)方案包括獲取語音裝置所在環(huán)境的平均噪聲值；用戶啟動(dòng)所述語音裝置后，根據(jù)預(yù)設(shè)時(shí)間對用戶輸入的信號進(jìn)行分段，得到至少一個(gè)信號片段；根據(jù)所述至少一個(gè)信號片段對應(yīng)的平均音頻值和所述平均噪聲值的關(guān)系，從所述用戶輸入的信號中獲取語音數(shù)據(jù)。發(fā)明實(shí)施例提供的技術(shù)方案可以應(yīng)用在語音識別系統(tǒng)中。
文檔編號G10L15/00GK102592592SQ20111045433
公開日2012年7月18日申請日期2011年12月30日優(yōu)先權(quán)日2011年12月30日
發(fā)明者王力劭, 程輝, 邵穎申請人:深圳市車音網(wǎng)科技有限公司

完整全部詳細(xì)技術(shù)資料下載