本發(fā)明涉及音視頻處理技術(shù)領(lǐng)域,特別涉及一種笑聲檢測方法及裝置。
背景技術(shù):
隨著我國經(jīng)濟(jì)的飛速發(fā)展,民眾對衣食住行體驗的要求越來越高,而先進(jìn)的語音檢測系統(tǒng)是提高民眾體驗的一種有效途徑。笑聲檢測系統(tǒng)更是語音檢測系統(tǒng)中的關(guān)鍵,而且笑聲檢測系統(tǒng)不僅可以提取語音中的精彩片段,減少語音剪切中的工作量和提高準(zhǔn)確性,還可以根據(jù)笑聲檢測識別出情緒的變化,制定差異化的體驗方案。
目前笑聲檢測領(lǐng)域在進(jìn)行笑聲檢測時,根據(jù)笑聲檢測模型,判斷每個語音幀是否笑聲幀,并根據(jù)判斷結(jié)果確定每個語音幀是否為笑聲幀。該方法中通過笑聲檢測模型,判斷每個語音幀是否為笑聲幀,而笑聲模型是通過訓(xùn)練獲取的,雖然笑聲檢測模型具有較高的檢測精確度,但是通過笑聲檢測模型確定每一幀是否為笑聲幀的方式,還是在很大程度上受笑聲檢測模型精確度的限制。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例公開了一種笑聲檢測方法及裝置,用以提高笑聲檢測的準(zhǔn)確性。
為達(dá)到上述目的,本發(fā)明實施例公開了一種笑聲檢測方法,應(yīng)用于電子設(shè)備,該方法包括:
針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù);
根據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀;
識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;
當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。
進(jìn)一步地,所述笑聲檢測模型的訓(xùn)練過程包括:
針對訓(xùn)練集中每個語音信號,將所述語音信號劃分為多個語音幀;
獲取每個語音幀的基因頻率及多維語音特征參數(shù);
識別每個語音幀是否為笑聲幀,如果是,在所述語音幀中添加第一標(biāo)簽,否則,在所述語音幀中添加第二標(biāo)簽;
將添加標(biāo)簽后的語音幀的基因頻率及多維語音特征參數(shù)輸入到笑聲檢測模型中,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
進(jìn)一步地,所述對所述笑聲檢測模型進(jìn)行訓(xùn)練包括:
采用支持向量機(jī)SVM方法,對所述笑聲檢測模型進(jìn)行訓(xùn)練;或,
采用極限學(xué)習(xí)機(jī)ELM方法,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
進(jìn)一步地,所述針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀包括:
對所述語音信號進(jìn)行預(yù)加重處理,將預(yù)處理后的待檢測語音信號劃分為多個語音幀。
進(jìn)一步地,所述將所述待檢測語音信號劃分為多個語音幀之后,所述獲取每個語音幀的基因頻率及多維語音特征參數(shù)之前,所述方法還包括:
對每個語音幀進(jìn)行端點檢測,去除所述語音幀中的噪聲幀和靜音幀。
進(jìn)一步地,所述識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量包括:
識別當(dāng)前的語音幀的位置,判斷當(dāng)前的語音幀是否位于語音信號的前端;
如果是,識別所述當(dāng)前的語音幀之后的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;
如果否,判斷當(dāng)前的語音幀是否位于語音信號的后端;
如果是,識別所述當(dāng)前的語音幀之前的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;否則,識別所述當(dāng)前的語音幀之前第四設(shè)定數(shù)量和所述當(dāng)前的語音幀之后的第五設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,其中第四設(shè)定數(shù)量和第五設(shè)定數(shù)量的和為所述第一設(shè)定數(shù)量。
另一方面,本發(fā)明實施例公開了一種笑聲檢測裝置,所述裝置包括:
劃分獲取模塊,用于針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù);
預(yù)測模塊,用于據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀;
識別檢測模塊,用于識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。
進(jìn)一步地,所述裝置還包括:
訓(xùn)練模塊,用于針對訓(xùn)練集中每個語音信號,將所述語音信號劃分為多個語音幀;獲取每個語音幀的基因頻率及多維語音特征參數(shù);識別每個語音幀是否為笑聲幀,如果是,在所述語音幀中添加第一標(biāo)簽,否則,在所述語音幀中添加第二標(biāo)簽;將添加標(biāo)簽后的語音幀的基因頻率及多維語音特征參數(shù)輸入到笑聲檢測模型中,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
進(jìn)一步地,所述劃分獲取模塊,具體用于對所述語音信號進(jìn)行預(yù)加重處理,將預(yù)處理后的待檢測語音信號劃分為多個語音幀;
所述裝置還包括:
過濾模塊,用于對每個語音幀進(jìn)行端點檢測,去除所述語音幀中的噪聲幀和靜音幀。
進(jìn)一步地,所述識別檢測模塊,具體用于識別當(dāng)前的語音幀的位置,判斷當(dāng)前的語音幀是否位于語音信號的前端;如果是,識別所述當(dāng)前的語音幀之后的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;如果否,判斷當(dāng)前的語音幀是否位于語音信號的后端;如果是,識別所述當(dāng)前的語音幀之前的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;否則,識別所述當(dāng)前的語音幀之前第四設(shè)定數(shù)量和所述當(dāng)前的語音幀之后的第五設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,其中第四設(shè)定數(shù)量和第五設(shè)定數(shù)量的和為所述第一設(shè)定數(shù)量。
本發(fā)明實施例提供了一種笑聲檢測方法及裝置,該方法用于電子設(shè)備,該方法包括:針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù);根據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀;識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。由于在本發(fā)明實施例中,根據(jù)當(dāng)前語音幀及其相鄰第一設(shè)定數(shù)量的語音幀共同判定當(dāng)前幀是否為笑聲幀,從一定程度上弱化了對笑聲檢測模型的誤差率,并且也充分考慮到了笑聲的連續(xù)性,使得笑聲檢測結(jié)果更加的準(zhǔn)確。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種笑聲檢測方法的檢測過程;
圖2A-圖2B為本發(fā)明實施例提供的在檢測語音信號中,當(dāng)前檢測幀所在的位置的示意圖;
圖3為本發(fā)明實施例提供的一種笑聲檢測方法的檢測裝置結(jié)構(gòu)示意圖。
具體實施方式
為了提高笑聲檢測的準(zhǔn)確性,本發(fā)明實施例提供了一種笑聲檢測方法及裝置
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明實施例提供的一種笑聲檢測方法的檢測過程,該過程包括以下步驟:
S101:針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù)。
本發(fā)明實施例提供的笑聲檢測方法應(yīng)用于電子設(shè)備,該電子設(shè)備可以為音頻采集設(shè)備,如錄音筆、錄音機(jī)等,也可以是手機(jī)、平板電腦、個人電腦等設(shè)備。
具體的,針對待檢測語音信號進(jìn)行分幀處理,將待檢測語音信號劃分為多個語音幀,并對每個語音幀的基因頻率及多維語音特征參數(shù)進(jìn)行獲取。
在本發(fā)明實施例中將語音信號劃分為多個語音幀和獲取每個語音幀的基因頻率及多維語音特征(MFCC)參數(shù),屬于現(xiàn)有技術(shù),在本發(fā)明實施例中對該過程不進(jìn)行說明。相應(yīng)的下述各實施例中也同樣存在該情況,也就不再一一贅述。
S102:根據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀。
在本發(fā)明實施例中預(yù)先對笑聲檢測模型進(jìn)行訓(xùn)練,并且在對笑聲檢測模型進(jìn)行訓(xùn)練時,也是根據(jù)訓(xùn)練集中每個語音信號的每個語音幀的基因頻率及多維語音特征參數(shù),對笑聲檢測模型訓(xùn)練完成的。訓(xùn)練完成的笑聲檢測模型可以根據(jù)輸入的語音幀的基因頻率及多維語音特征參數(shù),預(yù)測該語音幀是否笑聲幀。具體的笑聲檢測模型針對該語音幀會輸出相應(yīng)的結(jié)果,即該語音幀是笑聲幀還是語音幀,在本發(fā)明實施例中將笑聲檢測模型針對每個語音幀輸入的結(jié)果,作為該語音幀對應(yīng)的預(yù)測結(jié)果。
S103:識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量。
具體的,在本發(fā)明實施例中在檢測當(dāng)前的語音幀是否為笑聲幀時,根據(jù)該語音幀及與該語音幀相鄰的第一數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,確定該當(dāng)前的語音幀是否為笑聲幀。識別當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,其中第一設(shè)定數(shù)量為不小于1的整數(shù),例如可以為2、3、10、20等等。
因為本發(fā)明實施例中在確定與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀時,可以將當(dāng)前語音幀之前的第一設(shè)定數(shù)量的語音幀作為與當(dāng)前的語音幀相鄰的語音幀;也可以是將當(dāng)前語音幀之后的第一設(shè)定數(shù)量的語音幀作為與當(dāng)前的語音幀相鄰的語音幀;也可以是將當(dāng)前語音幀之前及之后的第一設(shè)定數(shù)量的語音幀作為與當(dāng)前的語音幀相鄰的語音幀,當(dāng)前語音幀之前和之后的語音幀的數(shù)量不進(jìn)行限定,只要保證相鄰語音幀的數(shù)量為第一設(shè)定數(shù)量即可。
例如第一設(shè)定數(shù)量為20,當(dāng)前語音幀的編號為060,則可以將當(dāng)前語音幀之前的編號為040-059的語音幀作為與當(dāng)前語音幀相鄰的語音幀,也可以將當(dāng)前語音幀之后的編號為061-080的語音幀作為與當(dāng)前語音幀相鄰的語音幀,也可以將當(dāng)前語音幀之前的編號為055-059的語音幀,以及當(dāng)前語音幀之后的編號為061-075的語音幀作為與當(dāng)前語音幀相鄰的語音幀,當(dāng)然也可以是其他方式,例如當(dāng)前語音幀之前的10幀及之后的10幀,或者之前的13幀之后的7幀等等,在進(jìn)行確定時可以任意選擇。
S104:當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。
所述的數(shù)量閾值為根據(jù)第一設(shè)定數(shù)量設(shè)定的,如預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。例如第一設(shè)定數(shù)量為40幀,數(shù)量閾值為20,與當(dāng)前語音幀相鄰的40幀中預(yù)測結(jié)果為笑聲幀的語音幀的幀數(shù)為25,當(dāng)前語音幀的預(yù)測結(jié)果為笑聲幀,笑聲幀的數(shù)量為26,大于數(shù)量閾值20,確定當(dāng)前的語音幀為笑聲幀。
由于在本發(fā)明實施例中,根據(jù)當(dāng)前語音幀及其相鄰第一設(shè)定數(shù)量的語音幀共同判定當(dāng)前幀是否為笑聲幀,從一定程度上弱化了對笑聲檢測模型的誤差率,并且也充分考慮到了笑聲的連續(xù)性,使得笑聲檢測結(jié)果更加的準(zhǔn)確。
本發(fā)明實施例中該笑聲檢測模型是根據(jù)訓(xùn)練集中的每個語音信號,訓(xùn)練得到的,具體的在本發(fā)明的一個實施例中,笑聲檢測模型的訓(xùn)練過程包括:
針對訓(xùn)練集中每個語音信號,將所述語音信號劃分為多個語音幀;
獲取每個語音幀的基因頻率及多維語音特征參數(shù);
識別每個語音幀是否為笑聲幀,如果是,在所述語音幀中添加第一標(biāo)簽,否則,在所述語音幀中添加第二標(biāo)簽;
將添加標(biāo)簽后的語音幀的基因頻率及多維語音特征參數(shù)輸入到笑聲檢測模型中,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
具體的,所述訓(xùn)練集中包含大量的語音信號,每個語音信號的長度相同或不同,對于訓(xùn)練集中的每個語音信號,對每個語音信號進(jìn)行分幀處理,將每個語音信號劃分為多個語音幀,
獲取每個語音幀的每個語音幀的基因頻率及多維語音特征參數(shù),根據(jù)每個語音幀是否為笑聲幀,對笑聲幀添加第一標(biāo)簽,對不是笑聲幀的添加第二標(biāo)簽,將每個語音幀添加的標(biāo)簽及該語音幀的基因頻率、多維語音特征參數(shù)輸入到笑聲檢測模型中,對所述笑聲檢測模型進(jìn)行訓(xùn)練。具體的,對笑聲檢測模型進(jìn)行訓(xùn)練的過程屬于現(xiàn)有技術(shù),在本發(fā)明實施例中對該過程不進(jìn)行贅述。
笑聲檢測模型訓(xùn)練完成后,當(dāng)將待檢測的語音信號的每一語音幀的基因頻率及多維語音特征參數(shù)輸入到笑聲檢測模型后,笑聲檢測模型可以識別每一語音幀是否為笑聲幀,當(dāng)語音幀為笑聲幀時,其對應(yīng)的輸出結(jié)果攜帶第一標(biāo)簽,當(dāng)語音幀非笑聲幀時,其對應(yīng)的輸出結(jié)果攜帶第二標(biāo)簽。
在本發(fā)明實施例中對所述笑聲檢測模型進(jìn)行訓(xùn)練包括:
采用支持向量機(jī)(Support Vector Machine,SVM)方法,對所述笑聲檢測模型進(jìn)行訓(xùn)練;或,
采用極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)方法,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
在本發(fā)明實施例中使用支持向量機(jī)SVM或極限學(xué)習(xí)機(jī)ELM,屬于現(xiàn)有技術(shù),在本發(fā)明實施例中對該過程不進(jìn)行說明。為了在不降低檢測精度的前提下,提高訓(xùn)練的效率,在本發(fā)明實施例中可以采用ELM方法對笑聲檢測模型進(jìn)行訓(xùn)練。
為了提高檢測效率,并且提高檢測的準(zhǔn)確性,在本發(fā)明上述實施例的基礎(chǔ)上,本發(fā)明的另一實施例中針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀包括:
對所述語音信號進(jìn)行預(yù)加重處理,將預(yù)處理后的待檢測語音信號劃分為多個語音幀;
當(dāng)將待檢測語音信號劃分為多個語音幀后,獲取每個語音幀的基因頻率及多維語音特征參數(shù)之前,所述方法還包括:
對每個語音幀進(jìn)行端點檢測,去除所述語音幀中的噪聲幀和靜音幀。
具體的,為了便于對語音信號進(jìn)行分幀處理,消除語音信號受字長的影響,在對語音信號進(jìn)行分幀處理之前,首先對語音信號進(jìn)行預(yù)加重處理,即使語音信號通過一個一階有限的激勵加響應(yīng)高通濾波器,使信號變得平坦,對處理過的語音信號進(jìn)行分幀處理,將其劃分為多個語音幀。對語音信號進(jìn)行預(yù)加重處理及分幀處理的過程屬于現(xiàn)有技術(shù),在本發(fā)明實施例中對此不進(jìn)行贅述。
將語音信號劃分為多個語音幀后,對每個語音幀進(jìn)行端點檢測,找出每個語音幀中語音的開始和終止點,從而去除語音幀中的噪聲幀和靜音幀。對語音幀進(jìn)行端點檢測,去除語音幀中的噪聲幀和靜音幀屬于現(xiàn)有技術(shù),在本發(fā)明實施例中對該過程不進(jìn)行說明。
本發(fā)明實施例充分考慮笑聲的連續(xù)性,在進(jìn)行檢測時,針對待檢測的當(dāng)前幀,根據(jù)當(dāng)前幀及與該當(dāng)前幀相鄰的第一設(shè)定數(shù)量的語音幀的預(yù)測結(jié)果,確定當(dāng)前幀是否為笑聲幀。具體的,在本發(fā)明圖1所示實施例的基礎(chǔ)上,在本發(fā)明的另一實施例中,所述識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量包括:
識別當(dāng)前的語音幀的位置,判斷當(dāng)前的語音幀是否位于語音信號的前端;
如果是,識別所述當(dāng)前的語音幀之后的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;
如果否,判斷當(dāng)前的語音幀是否位于語音信號的后端;
如果是,識別所述當(dāng)前的語音幀之前的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;否則,識別所述當(dāng)前的語音幀之前第四設(shè)定數(shù)量和所述當(dāng)前的語音幀之后的第五設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,其中第四設(shè)定數(shù)量和第五設(shè)定數(shù)量的和為所述第一設(shè)定數(shù)量。
在上述實施例中充分考慮了笑聲的連續(xù)性,針對每個語音幀,如果根據(jù)該語音幀之前及之后第一設(shè)定數(shù)量的語音幀的預(yù)測結(jié)果,確定當(dāng)前幀是否為笑聲幀,能夠較準(zhǔn)確的實現(xiàn)對當(dāng)前幀的檢測,并且可以降低因為檢測模型的檢測精度帶來的影響。但如果當(dāng)前語音幀為語音信號中位置靠前的語音幀,該語音幀之前沒有相應(yīng)數(shù)量的語音幀,因此在進(jìn)行檢測時,需要根據(jù)當(dāng)前的語音幀位于語音信號的位置,確定采用怎樣的方式識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量。
在進(jìn)行位置識別時,因為在對每個語音信號進(jìn)行分幀處理后,每個語音幀對應(yīng)的標(biāo)識信息可以根據(jù)每一幀的時間順序進(jìn)行標(biāo)識,該標(biāo)識信息可以是語音幀的編號,并且語音信號中劃分的總的語音幀的數(shù)量也已知,因此根據(jù)當(dāng)前的語音幀的標(biāo)識信息,可以確定當(dāng)前的語音幀是位于語音信號的前端還是后端。在具體劃分前端和后端時,可以設(shè)置位于前端的語音信號的標(biāo)識信息的范圍,例如將標(biāo)識信息位于000-020范圍的語音幀作為位于語音信號前端的語音幀,將標(biāo)識信息位于A-B范圍的語音幀作為位于語音信號后端的語音幀,其中,B為語音信號的末端語音幀對應(yīng)的標(biāo)識信息,A為語音信號的末端語音幀對應(yīng)的標(biāo)識信息減去15,或其他數(shù)值。
另外,當(dāng)對語音信號進(jìn)行了端點檢測,去除了語音信號中的噪聲幀和靜音幀,因此語音信號可能不連續(xù),但采用上述方式依然能夠檢測每個語音幀是否為笑聲幀。但為了進(jìn)一步提高檢測的準(zhǔn)確性,因為語音信號中出現(xiàn)的靜音幀一般會連續(xù)出現(xiàn),靜音幀的標(biāo)識信息也是可以預(yù)先知道的,因此在對語音幀進(jìn)行檢測的,位于靜音幀之前的語音幀也可以將其作為位于語音信號的后端的語音幀進(jìn)行處理,將位于靜音幀之后的語音幀也可以將其作為位于語音信號的前端的語音幀進(jìn)行處理。
圖2A-2B為發(fā)明實施例提供的在檢測語音信號中,當(dāng)前檢測幀所在的位置的示意圖。
結(jié)合圖2A-2B對本發(fā)明的上述實施例進(jìn)行說明。在進(jìn)行位置識別時,因為在對每個語音信號進(jìn)行分幀處理后,每個語音幀對應(yīng)的標(biāo)識信息可以根據(jù)每一幀的時間順序進(jìn)行標(biāo)識,該標(biāo)識信息可以是語音幀的編號,并且語音信號中劃分的總的語音幀的數(shù)量也已知,可以根據(jù)語音幀的標(biāo)識信息及總的語音幀的數(shù)量設(shè)置位于前端的語音信號的標(biāo)識信息的范圍和位于前端的語音信號的標(biāo)識信息的范圍。
如圖2A所示,M所示陰影范圍可以為將標(biāo)識信息位于000-020范圍的語音幀作為位于語音信號前端的語音幀,也可以為標(biāo)識信息位于000-015范圍的語音幀作為位于語音信號前端的語音幀,或者從000至其他數(shù)值的語音幀作為位于語音信號前端的語音幀;N所示陰影范圍可以為將標(biāo)識信息位于A-B范圍的語音幀作為位于語音信號后端的語音幀,其中,B為語音信號的末端語音幀對應(yīng)的標(biāo)識信息,A為語音信號的末端語音幀對應(yīng)的標(biāo)識信息減去15,或其他數(shù)值;L所示范圍為除去前端范圍和后端范圍的中間范圍。
如圖2B所示,語音信號中存在靜音幀,因為一般靜音幀會連續(xù)出現(xiàn),靜音幀的標(biāo)識信息也是可以預(yù)先知道的,因此在對語音幀進(jìn)行檢測時,位于靜音幀之前的語音幀也可以將其作為位于語音信號的后端的語音幀進(jìn)行處理,將位于靜音幀之后的語音幀也可以將其作為位于語音信號的前端的語音幀進(jìn)行處理。如可以將圖中O、Q看做與圖2A中M相同的語音信號的前端;可以將圖中P、R看做與圖2A中N相同的語音信號的后端;可以將圖中S、T看做與圖2A中L相同的除去前端范圍和后端范圍的中間范圍。
圖3為本發(fā)明實施例提供的一種笑聲檢測方法的檢測裝置結(jié)構(gòu)示意圖應(yīng)用于電子設(shè)備,該裝置包括:
劃分獲取模塊32,用于針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù);
預(yù)測模塊33,用于據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀;
識別檢測模塊34,用于識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。
所述裝置還包括:
訓(xùn)練模塊31,用于針對訓(xùn)練集中每個語音信號,將所述語音信號劃分為多個語音幀;獲取每個語音幀的基因頻率及多維語音特征參數(shù);識別每個語音幀是否為笑聲幀,如果是,在所述語音幀中添加第一標(biāo)簽,否則,在所述語音幀中添加第二標(biāo)簽;將添加標(biāo)簽后的語音幀的基因頻率及多維語音特征參數(shù)輸入到笑聲檢測模型中,對所述笑聲檢測模型進(jìn)行訓(xùn)練。
所述劃分獲取模塊32,具體用于對所述語音信號進(jìn)行預(yù)加重處理,將預(yù)處理后的待檢測語音信號劃分為多個語音幀;
所述裝置還包括:
過濾模塊35,用于對每個語音幀進(jìn)行端點檢測,去除所述語音幀中的噪聲幀和靜音幀。
所述識別檢測模塊34,具體用于識別當(dāng)前的語音幀的位置,判斷當(dāng)前的語音幀是否位于語音信號的前端;如果是,識別所述當(dāng)前的語音幀之后的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;如果否,判斷當(dāng)前的語音幀是否位于語音信號的后端;如果是,識別所述當(dāng)前的語音幀之前的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;否則,識別所述當(dāng)前的語音幀之前第四設(shè)定數(shù)量和所述當(dāng)前的語音幀之后的第五設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量,其中第四設(shè)定數(shù)量和第五設(shè)定數(shù)量的和為所述第一設(shè)定數(shù)量。
本發(fā)明實施例提供了一種笑聲檢測方法及裝置,該方法用于電子設(shè)備,該方法包括:針對待檢測語音信號,將所述待檢測語音信號劃分為多個語音幀,并獲取每個語音幀的基因頻率及多維語音特征參數(shù);根據(jù)預(yù)先訓(xùn)練完成的笑聲檢測模型及獲取的每個語音幀的基因頻率及多維語音特征參數(shù),預(yù)測每個語音幀是否為笑聲幀;識別與所述當(dāng)前的語音幀相鄰的第一設(shè)定數(shù)量的語音幀中,預(yù)測結(jié)果為笑聲幀的語音幀的數(shù)量;當(dāng)所述數(shù)量大于設(shè)定的數(shù)量閾值時,將所述當(dāng)前的語音幀確定為笑聲幀。由于在本發(fā)明實施例中,根據(jù)當(dāng)前語音幀及其相鄰第一設(shè)定數(shù)量的語音幀共同判定當(dāng)前幀是否為笑聲幀,從一定程度上弱化了對笑聲檢測模型的誤差率,并且也充分考慮到了笑聲的連續(xù)性,使得笑聲檢測結(jié)果更加的準(zhǔn)確。
對于系統(tǒng)/裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。
本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本申請進(jìn)行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。