本申請涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語音信號檢測方法與裝置。
背景技術(shù):
在實際生活中,人們會經(jīng)常使用智能設(shè)備(例如智能手機(jī)、平板電腦等)來發(fā)送語音消息。但是人們在使用智能設(shè)備發(fā)送語音消息時,往往需要點擊智能設(shè)備屏幕中的開始或結(jié)束按鈕,才能夠完成語音消息的發(fā)送,而這些點擊操作,會給用戶造成諸多不便。
若用戶無需點擊按鈕便可完成語音消息的發(fā)送,那么智能設(shè)備需要一直進(jìn)行錄音或者按照預(yù)設(shè)周期進(jìn)行錄音,并判斷獲取到的音頻信號中是否包含語音信號,若包含語音信號,便將該語音信號提取出來,然后進(jìn)行后續(xù)處理并發(fā)送出去,這樣便完成了語音消息的發(fā)送。
現(xiàn)有技術(shù)中,一般采用雙門限方法、基于自相關(guān)極大值的檢測方法或基于小波變換的檢測方法等語音信號檢測方法,來檢測獲取到的音頻信號中是否包含語音信號。但是該些方法基本都是通過傅里葉變換等復(fù)雜的計算,獲取音頻信息的頻率特征,進(jìn)而根據(jù)該頻率特征來確定是否包含語音信號的,需要計算較大緩沖數(shù)據(jù),內(nèi)存占用較高,計算量偏大,處理速度較慢,且耗電量較大。
技術(shù)實現(xiàn)要素:
本申請實施例提供一種語音信號檢測方法與裝置,用于解決現(xiàn)有技術(shù)中的語音信號檢測方法存在的處理速度較慢,且耗費(fèi)資源較多的問題。
本申請實施例采用下述技術(shù)方案:
一種語音信號檢測方法,所述方法包括:
獲取音頻信號;
根據(jù)預(yù)設(shè)語音信號的頻率,將所述音頻信號劃分為多個短時能量幀;
確定每個短時能量幀的能量;
根據(jù)每個短時能量幀的能量,檢測所述音頻信號中是否包含語音信號。
一種語音信號檢測裝置,所述裝置包括:
獲取模塊,獲取音頻信號;
劃分模塊,根據(jù)預(yù)設(shè)語音信號的頻率,將所述音頻信號劃分為多個短時能量幀;
確定模塊,確定每個短時能量幀的能量;
檢測模塊,根據(jù)每個短時能量幀的能量,檢測所述音頻信號中是否包含語音信號。
本申請實施例采用的上述至少一個技術(shù)方案能夠達(dá)到以下有益效果:
與現(xiàn)有技術(shù)中的通過傅里葉變換等復(fù)雜計算來確定音頻信號中是否包含語音信號的檢測方法相比,本申請實施例采用的語音信號檢測方法,無需進(jìn)行傅里葉變換等復(fù)雜計算,通過根據(jù)預(yù)設(shè)語音信號的頻率,將獲取到的音頻信號劃分為多個短時能量幀,進(jìn)而確定出每個短時能量幀的能量,并根據(jù)每個短時能量幀的能量,便可檢測出獲取到的音頻信號中是否包含語音信號。因此,本申請實施例提供的語音信號檢測方法,能夠解決現(xiàn)有技術(shù)中的語音信號檢測方法存在的處理速度較慢,且耗費(fèi)資源較多的問題。
附圖說明
此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
圖1為本申請實施例提供的一種語音信號檢測方法的具體流程圖;
圖2為本申請實施例提供的另一種語音信號檢測方法的具體流程圖;
圖3為本申請實施例提供的預(yù)設(shè)時長的音頻信號顯示圖;
圖4為本申請實施例提供的一種語音信號檢測裝置的具體結(jié)構(gòu)示意圖。
具體實施方式
為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及相應(yīng)的附圖對本申請技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護(hù)的范圍。
以下結(jié)合附圖,詳細(xì)說明本申請實施例提供的技術(shù)方案。
為了解決現(xiàn)有技術(shù)中的語音信號檢測方法存在的處理速度較慢,且耗費(fèi)資源較多的問題,本申請實施例提供一種語音信號檢測方法。
該方法的執(zhí)行主體,可以但不限于為手機(jī)、平板電腦或個人電腦(Personal Computer,PC)等用戶終端,或者該些用戶終端上運(yùn)行的應(yīng)用(application,APP),或者,還可以是服務(wù)器等設(shè)備。
為便于描述,下文以該方法的執(zhí)行主體為APP為例,對該方法的實施方式進(jìn)行介紹。可以理解,該方法的執(zhí)行主體為APP只是一種示例性的說明,并不應(yīng)理解為對該方法的限定。
該方法的具體流程示意圖如圖1所示,包括下述步驟:
步驟101,獲取音頻信號。
上述音頻信號,可以為APP通過音頻采集設(shè)備采集到的音頻信號,也可以為APP接收到的音頻信號,比如可以是由其他APP或者設(shè)備傳輸?shù)囊纛l信號,本申請實施例對此不進(jìn)行任何限定。APP在獲取到音頻信號之后,可以將該音頻信號保存在本地。
本申請對上述音頻信號對應(yīng)的采樣率、時長、格式或聲道等也不作任何限制。
上述APP可以為任意類型的APP,比如聊天APP或支付APP等,只要該APP可以獲取到音頻信號,并且可以利用本申請實施例提供的語音信號檢測方法對獲取到的音頻信號進(jìn)行語音信號的檢測即可。
步驟102,根據(jù)預(yù)設(shè)語音信號的頻率,將所述音頻信號劃分為多個短時能量幀。
上述短時能量幀實際上是步驟101獲取到的音頻信號中的一部分音頻信號。
具體的,可以根據(jù)預(yù)設(shè)語音信號的頻率,確定出該預(yù)設(shè)語音信號的周期,按照確定出的周期,將步驟101獲取到的音頻信號劃分為對應(yīng)的時長均為所述周期的多個短時能量幀。例如,假設(shè)該預(yù)設(shè)語音信號的周期為0.01S,則可根據(jù)步驟101獲取到的音頻信號的時長,將該音頻信號劃分為若干個時長均為0.01S的短時能量幀。需要說明的是,在劃分步驟101獲取到的音頻信號時,也可以根據(jù)實際情況,根據(jù)預(yù)設(shè)語音信號的頻率,將該音頻信號劃分為至少兩個短時能量幀。為了后續(xù)描述方便,本申請實施例后文中以將音頻信號劃分為多個短時能量幀為例進(jìn)行說明。
另外,當(dāng)步驟101中由該APP自身通過音頻采集設(shè)備采集音頻信號時,由于采集音頻信號一般是將實際上是模擬信號的音頻信號以一定的采樣率采集成數(shù)字信號,即脈沖編碼調(diào)制(Pulse Code Modulation,PCM)格式的音頻信號,因此,還可以根據(jù)該音頻信號的采樣率和預(yù)設(shè)語音信號的頻率,將該音頻信號劃分為多個短時能量幀。
具體的,可確定該音頻信號的采樣率與預(yù)設(shè)語音信號的頻率的比值m,再根據(jù)該比值m,將采集到的數(shù)字形式的音頻信號中每m個采樣點劃分為一個短時能量幀。若m為正整數(shù),則可根據(jù)m將該音頻信號劃分為最大數(shù)量的短時能量幀;若m不為正整數(shù),則可根據(jù)按照四舍五入原則轉(zhuǎn)化為正整數(shù)的m,將該音頻信號劃分為最大數(shù)量的短時能量幀。其中,需要特別說明的是,若步驟101獲取到的音頻信號包含的采樣點數(shù)量并非為m的整數(shù)倍,將該音頻信號劃分為最大數(shù)量的短時能量幀后,可將剩余的采樣點丟棄,也可將剩余的采樣點也作為一個短時能量幀進(jìn)行后續(xù)處理。其中,上述m,用于表示在一個預(yù)設(shè)語音信號的周期內(nèi),步驟101獲取到的音頻信號包含的采樣點數(shù)量。
例如,若預(yù)設(shè)語音信號的頻率為82HZ,步驟101獲取到的音頻信號的時長為1S,采樣率為16000HZ,那么m=16000/82=195.1。其中,m不是正整數(shù),將195.1按照四舍五入原則轉(zhuǎn)化成正整數(shù)195。根據(jù)上述音頻信號的時長以及采樣率,可以確定出該音頻信號包含的采樣點數(shù)量為16000,那么,由于上述音頻信號包含的采樣點的數(shù)量并非是195的整數(shù)倍,因此,可以在將該音頻信號劃分為82個短時能量幀后,將剩余的10個采樣點丟棄。其中,上述每個短時能量幀包含的采樣點數(shù)量均為195。
當(dāng)步驟101獲取到的音頻信號是接收到的其他APP或設(shè)備傳輸?shù)囊纛l信號時,可以采用上述任一方法將該音頻信號劃分為多個短時能量幀。需要特別說明的是,上述音頻信號的格式可能并非為PCM格式。若采用上述方法根據(jù)音頻信號的采樣率和預(yù)設(shè)語音信號的頻率來劃分短時能量幀,便需將接收到的音頻信號轉(zhuǎn)化為PCM格式的音頻信號,另外,在接收到音頻信號時,也需識別出該音頻信號的采樣率,具體識別出音頻信號的采樣率的方法均可采用現(xiàn)有技術(shù)的方法來識別,這里就不再一一贅述。
步驟103,確定每個短時能量幀的能量。
在本申請實施例中,當(dāng)采用上述方法將PCM格式的音頻信號劃分為若干同樣為PCM格式的短時能量幀時,則可以根據(jù)短時能量幀中的每個采樣點對應(yīng)的音頻信號的幅值,來確定短時能量幀的能量。具體的,可以根據(jù)短時能量幀中的每個采樣點對應(yīng)的音頻信號的幅值,確定出每個采樣點的能量,然后將該些能量相加,將最終得到的能量之和,做為該短時能量幀的能量。
例如,可以采用下述公式來確定短時能量幀的能量:其中,i表示音頻信號的第i個采樣點;n為短時能量幀中包含的采樣點的數(shù)量;Ai[t]為第i個采樣點對應(yīng)的音頻信號的幅值,其中,短時能量幀的幅值的取值范圍為-32768~32767。
另外,本申請實施例中,為了簡化計算,節(jié)省資源,還可以將采集音頻信號時獲取到的幅值除以32768的值,作為短時能量幀的歸一化幅值,那么短時能量幀的歸一化幅值的取值范圍為-1~1。
若短時能量幀的格式不為PCM格式,可以根據(jù)短時能量幀每一時刻的振幅,確定出計算振幅的函數(shù),針對該函數(shù)的平方進(jìn)行積分,最終得到的積分結(jié)果便為該短時能量幀的能量。
步驟104,根據(jù)每個短時能量幀的能量,檢測所述音頻信號中是否包含語音信號。
具體的,可以采用下述兩種方法,來確定是否檢測到音頻信號中包含語音信號:
方法1:確定能量大于預(yù)設(shè)閾值的短時能量幀的數(shù)量占所有短時能量幀總數(shù)量的比率(后稱高能量幀比率),并判斷確定出的高能量幀比率是否大于預(yù)設(shè)比率。若是,則確定檢測到所述音頻信號中包含語音信號;若否,則確定未檢測到音頻信號中包含語音信號。
其中,可以根據(jù)實際需要設(shè)置預(yù)設(shè)閾值以及預(yù)設(shè)比率的大小,在本申請實施例中,可以將預(yù)設(shè)閾值設(shè)置為2,預(yù)設(shè)比率設(shè)置為20%,若高能量幀比率大于20%,則確定檢測到所述音頻信號中包含語音信號;否則,則確定未檢測到音頻信號中包含語音信號。
本申請實施例中,之所以可以采用方法1來確定是否檢測到音頻信號中包含語音信號,是因為在現(xiàn)實生活中,人們說話時,外部環(huán)境中多多少少會存在一些噪聲,而噪聲一般相對于人們說的話來說能量較低。那么若一段音頻信號中,存在能量高于預(yù)設(shè)閾值的短時能量幀,且該些短時能量幀在這一段音頻信號中占據(jù)一定的比率,便可認(rèn)為該音頻信號中包含語音信號。
方法2:為了使得最終檢測結(jié)果更加準(zhǔn)確,可采用方法1提及的方法來確定高能量幀比率,并判斷確定出的高能量幀比率是否大于預(yù)設(shè)比率,若否,則確定未檢測到音頻信號中包含語音信號;若是,則當(dāng)能量大于預(yù)設(shè)閾值的短時能量幀中存在至少N個連續(xù)短時能量幀時,確定檢測到音頻信號中包含語音信號,當(dāng)能量大于預(yù)設(shè)閾值的短時能量幀中不存在至少N個連續(xù)短時能量幀時,確定未檢測到音頻信號中包含語音信號。其中,N可以為任意正整數(shù)。在本申請實施例中,可以將N設(shè)置為10。
也就是說,方法2在方法1的基礎(chǔ)上,增加了一個判定音頻信號中是否包含語音信號的條件:能量大于預(yù)設(shè)閾值的短時能量幀中是否存在至少N個連續(xù)短時能量幀。這樣做可以有效降噪。由于在實際生活中,噪音相對于人類所說的話來說能量較低,且信號隨機(jī),因此利用方法2,便可以有效排除音頻信號中噪聲過多的情況,降低外部環(huán)境中噪音的影響,達(dá)到降噪的作用。
需要特別說明的是,本申請實施例提供的上述語音信號檢測方法,可適用于檢測單聲道音頻信號、雙聲道音頻信號或多聲道音頻信號等。其中,通過一個聲道來采集的音頻信號為單聲道音頻信號;通過兩個聲道來采集的音頻信號為雙聲道音頻信號,通過多個聲道來采集的音頻信號為多聲道音頻信號。
在采用如圖1所示的方法來檢測雙聲道音頻信號和多聲道音頻信號時,可按照步驟101~104提及的操作,分別針對獲取到的每一路聲道的音頻信號進(jìn)行檢測,最終根據(jù)對每一路聲道的音頻信號的檢測結(jié)果,判斷獲取到的音頻信號中是否包含語音信號。
具體的,若步驟101獲取到的音頻信號為單聲道音頻信號,便可針對該音頻信號,直接執(zhí)行步驟101~104中提及的操作,將檢測結(jié)果作為最終檢測結(jié)果。
若步驟101獲取到的音頻信號不為單聲道音頻信號,而為雙聲道或多聲道音頻信號,那么便分別對每一路聲道的音頻信號按照步驟101~104中的操作進(jìn)行處理。若檢測出每一路聲道的音頻信號均不包含語音信號,則確定步驟101獲取到的音頻信號不包含語音信號。若檢測出至少一路聲道的音頻信號包含語音信號,則確定步驟101獲取到的音頻信號包含語音信號。
另外,步驟102中所提及的預(yù)設(shè)語音信號的頻率可以為任意語音的頻率,本申請對此不進(jìn)行任何限定。在實際應(yīng)用中,可以根據(jù)實際情況,針對步驟101獲取到的不同的音頻信號,設(shè)置不同的預(yù)設(shè)語音信號的頻率。需要特別說明的是,不管預(yù)設(shè)語音的頻率是哪一種語音信號的頻率,比如女高音的頻率,或男低音的頻率,只要使得最終劃分出來的短時能量幀滿足下述條件即可:短時能量幀對應(yīng)的時長不小于步驟101獲取到的音頻信號對應(yīng)的周期。為了達(dá)到比較好的檢測效果、盡可能節(jié)省資源、提高處理速度,本申請實施例中,可以將預(yù)設(shè)語音信號的頻率設(shè)置為最小人聲頻率,即82HZ。因為周期為頻率的倒數(shù),若預(yù)設(shè)語音信號的頻率為最小人聲頻率,那么預(yù)設(shè)語音信號的周期便為最大人聲周期,因此,不管步驟101獲取到的音頻信號的周期是多大,短時能量幀對應(yīng)的時長均不小于上述獲取到的音頻信號的周期。
需要特別說明的是,本申請實施例中,之所以要使得短時能量幀對應(yīng)的時長均不小于步驟101獲取到的音頻信號的周期,是因為本申請實施例所提供的檢測方法,是基于人類所說的話的特點來檢測音頻信號中是否包含語音信號的。人類所說的話相較于噪聲來說,能量較高、較穩(wěn)定且連續(xù)。若短時能量幀對應(yīng)的時長小于步驟101獲取到的音頻信號的周期,那么短時能量幀對應(yīng)的波形中不存在一個完整周期的波形,該短時能量幀的時長便相對較短。這一情況下,即便高能量幀比率大于預(yù)設(shè)比率,且能量大于預(yù)設(shè)閾值的短時能量幀中存在至少N個連續(xù)短時能量幀,僅僅可以表明音頻信號中包含聲音信號,卻無法表明該聲音信號為語音信號。因此,本申請實施例中,步驟101獲取到的音頻信號的時長應(yīng)大于一個人聲最大周期。
另外,本申請實施例提供的語音信號檢測方法尤其適用于在無需用戶進(jìn)行任何點擊操作,聊天APP便可完成語音消息的發(fā)送這一應(yīng)用場景。那么下面便針對該場景,詳細(xì)說明本申請實施例提供的語音信號檢測方法。其中,這一場景下,該方法的具體流程示意圖如圖2所示,包括下述步驟:
步驟201,實時采集音頻信號。
若用戶希望開啟聊天APP之后,無需進(jìn)行任何點擊操作,該APP便可完成語音消息的發(fā)送,于是,當(dāng)用戶開啟該APP之后,該APP便可開始不間斷地針對外部環(huán)境進(jìn)行錄音,實時采集音頻信號,以盡量避免漏掉用戶所說的話。另外,在采集到音頻信號之后,可以實時將該音頻信號保存在本地。當(dāng)用戶關(guān)閉該APP之后,該APP便停止錄音。
步驟202,實時從采集到的音頻信號中截取預(yù)設(shè)時長的音頻信號。
若APP一直進(jìn)行錄音,卻并非實時進(jìn)行語音信號的檢測,便會導(dǎo)致語音消息的時效性較差。因此,APP可以實時截取步驟201采集到的音頻信號中的、預(yù)設(shè)時長的音頻信號,并針對該預(yù)設(shè)時長的音頻信號進(jìn)行后續(xù)檢測。
其中,可以將當(dāng)前截取的預(yù)設(shè)時長的音頻信號稱為當(dāng)前音頻信號,可以將上一次截取的預(yù)設(shè)時長的音頻信號稱為上一次獲取到的音頻信號。
步驟203,根據(jù)預(yù)設(shè)語音信號的頻率,將預(yù)設(shè)時長的音頻信號劃分為多個短時能量幀。
步驟204,確定每個短時能量幀的能量。
步驟205,根據(jù)每個短時能量幀的能量,檢測預(yù)設(shè)時長的音頻信號中是否包含語音信號。
若檢測出當(dāng)前音頻信號中包含語音信號,便判斷上一次獲取到的音頻信號中是否包含語音信號,若判斷出上一次獲取到的音頻信號中不包含語音信號,則可將當(dāng)前音頻信號的起始點確定為語音信號的起始點;若判斷出上一次獲取到的音頻信號中包含語音信號,那么當(dāng)前音頻信號的起始點不為語音信號的起始點。
若檢測出當(dāng)前音頻信號中不包含語音信號,便判斷上一次獲取到的音頻信號中是否包含語音信號,若判斷出上一次獲取到的音頻信號中包含語音信號,則可將上一次獲取到的音頻信號的終點確定為語音信號的終點;若上一次獲取到的音頻信號中不包含語音信號,那么當(dāng)前音頻信號或者上一次獲取到的音頻信號的終點,均不為語音信號的終點。
例如,如圖3所示,其中A、B、C、D為四段相鄰的預(yù)設(shè)時長的音頻信號,A和D中不包含語音信號,B和C中包含語音信號,那么可以將B的開始點確定為語音信號的起始點,可以將C的終點確定為語音信號的終點。
有時,當(dāng)前音頻信號剛好為用戶一句話的開始或結(jié)尾部分,該音頻信號中包含的語音信號比較少,這一情況下,APP有可能會誤將該音頻信號判定為不包含語音信號。那么為了盡量避免誤判而導(dǎo)致遺漏掉用戶所說的話,可以在檢測出當(dāng)前音頻信號中包含語音信號后,判斷上一次獲取到的音頻信號中是否包含語音信號,若判斷出上一次獲取到的音頻信號中不包含語音信號,則可將上一次獲取到的音頻信號的起始點確定為語音信號的起始點。另外,可以在檢測出當(dāng)前音頻信號中不包含語音信號后,判斷上一次獲取到的音頻信號中是否包含語音信號,若判斷出上一次獲取到的音頻信號中包含語音信號,則可將當(dāng)前音頻信號的終點確定為語音信號的終點。沿用上例,可以將A的起始點確定為語音信號的起始點,可以將D的終點確定為語音信號的終點。
在APP檢測出當(dāng)前音頻信號包含語音信號之后,可以將該音頻信號發(fā)送給語音識別裝置,以使得該語音識別裝置可以對該音頻信號進(jìn)行語音處理,獲取到語音結(jié)果,然后語音識別裝置再將該音頻信號發(fā)送給后續(xù)處理裝置,最終將該音頻信號以語音消息的形式發(fā)送出去。其中,為了使得發(fā)送出去的語音消息中包含的用戶所說的話是完整的句子,APP可以將確定出的語音信號的起始點與終點之間的所有音頻信號都發(fā)送給語音識別裝置之后,向語音識別裝置發(fā)送音頻終止信號,用以告知語音識別裝置用戶當(dāng)前所說的這一句話已經(jīng)完結(jié),以使得語音識別裝置將該些音頻信號一并發(fā)送給后續(xù)處理裝置,最終將該些音頻信號以語音消息的形式發(fā)送出去。
另外,為了盡量避免誤判情況的發(fā)生,還可以在獲取到當(dāng)前音頻信號之后,在上一次獲取到的音頻信號中,截取預(yù)設(shè)時段的子信號,將當(dāng)前音頻信號和截取的子信號進(jìn)行拼接,作為獲取到的音頻信號(后稱拼接音頻信號),并針對該拼接音頻信號進(jìn)行后續(xù)語音信號的檢測。
其中,可以將子信號拼接在當(dāng)前音頻信號之前。預(yù)設(shè)時段可以為上一次獲取到的音頻信號的尾部時段,該時段對應(yīng)的時長可以為任意時長。為了使得最終檢測結(jié)果更加準(zhǔn)確,在本申請實施例中,可以將該預(yù)設(shè)時段對應(yīng)的時長設(shè)置為不大于拼接音頻信號對應(yīng)的時長與預(yù)設(shè)比率的乘積。
若在檢測出拼接音頻信號中包含語音信號后,可判斷上一次獲取到的拼接音頻信號中是否包含語音信號,若判斷出上一次獲取到的拼接音頻信號中不包含語音信號,則可將拼接音頻信號的起始點作為語音信號的起始點。若檢測出拼接音頻信號中不包含語音信號后,可判斷上一次獲取到的拼接音頻信號中是否包含語音信號,若判斷出上一次獲取到的拼接音頻信號中包含語音信號,則可將拼接音頻信號的終點作為語音信號的終點。
在本申請實施例中,APP除了可以一直不間斷的進(jìn)行錄音外,還可以周期性進(jìn)行錄音,本申請實施例對此不進(jìn)行任何限定。
本申請實施例提供的語音信號檢測方法,還可以通過語音信號檢測裝置來實現(xiàn),該裝置的具體結(jié)構(gòu)示意圖如圖4所示,主要包括下述裝置:
獲取模塊41,獲取音頻信號;
劃分模塊42,根據(jù)預(yù)設(shè)語音信號的頻率,將所述音頻信號劃分為多個短時能量幀;
確定模塊43,確定每個短時能量幀的能量;
檢測模塊44,根據(jù)每個短時能量幀的能量,檢測所述音頻信號中是否包含語音信號。
在一種實施方式中,獲取模塊41獲取當(dāng)前音頻信號;在上一次獲取到的音頻信號中,截取預(yù)設(shè)時段的子信號;
將所述當(dāng)前音頻信號和截取的子信號進(jìn)行拼接,作為獲取到的音頻信號。
在一種實施方式中,劃分模塊42,根據(jù)預(yù)設(shè)語音信號的頻率,確定出所述預(yù)設(shè)語音信號的周期;
按照確定出的周期,將所述音頻信號劃分為對應(yīng)的時長均為所述周期的多個短時能量幀。
在一種實施方式中,檢測模塊44,確定能量大于預(yù)設(shè)閾值的短時能量幀的數(shù)量占所有短時能量幀總數(shù)量的比率;
判斷所述比率是否大于預(yù)設(shè)比率;
若是,則確定檢測到所述音頻信號中包含語音信號;
若否,則確定未檢測到所述音頻信號中包含語音信號。
在一種實施方式中,檢測模塊44,確定能量大于預(yù)設(shè)閾值的短時能量幀的數(shù)量占所有短時能量幀總數(shù)量的比率;
判斷所述比率是否大于預(yù)設(shè)比率;
若否,則確定未檢測到所述音頻信號中包含語音信號;
若是,則當(dāng)能量大于預(yù)設(shè)閾值的短時能量幀中存在至少N個連續(xù)短時能量幀時,確定檢測到所述音頻信號中包含語音信號,當(dāng)能量大于預(yù)設(shè)閾值的短時能量幀中不存在至少N個連續(xù)短時能量幀時,確定未檢測到所述音頻信號中包含語音信號。
與現(xiàn)有技術(shù)中的通過傅里葉變換等復(fù)雜計算來確定音頻信號中是否包含語音信號的檢測方法相比,本申請實施例采用的語音信號檢測方法,無需進(jìn)行傅里葉變換等復(fù)雜計算,通過根據(jù)預(yù)設(shè)語音信號的頻率,將獲取到的音頻信號劃分為多個短時能量幀,進(jìn)而確定出每個短時能量幀的能量,并根據(jù)每個短時能量幀的能量,便可檢測出獲取到的音頻信號中是否包含語音信號。因此,本申請實施例提供的語音信號檢測方法,能夠解決現(xiàn)有技術(shù)中的語音信號檢測方法存在的處理速度較慢,且耗費(fèi)資源較多的問題。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機(jī)可讀介質(zhì)的示例。
計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。
以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。