語音端點(diǎn)檢測方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種語音端點(diǎn)檢測方法和裝置。其中,語音端點(diǎn)檢測方法包括:獲取目標(biāo)環(huán)境下的待測音頻;利用預(yù)先生成的語音訓(xùn)練模型對待測音頻中的音頻片段進(jìn)行標(biāo)記,將待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,語音訓(xùn)練模型為對目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型;以及從標(biāo)記的待測音頻中查找具有第一預(yù)設(shè)標(biāo)識的整段音頻,其中,整段音頻為一整段標(biāo)記有第一預(yù)設(shè)標(biāo)識的語音;將具有第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,具有第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為一段語音的端點(diǎn)。通過本發(fā)明,解決了現(xiàn)有技術(shù)中在噪音大的情況下語音端點(diǎn)檢測的準(zhǔn)確性較低的問題,達(dá)到了提高語音端點(diǎn)檢測的準(zhǔn)確性。
【專利說明】語音端點(diǎn)檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音檢測領(lǐng)域,具體而言,涉及一種語音端點(diǎn)檢測方法和裝置。
【背景技術(shù)】
[0002]目前,對于語音識別大都利用音頻頻率例如倒頻譜系數(shù)特征來對來實(shí)現(xiàn)端點(diǎn)檢測,這樣的檢測方式通常在背景噪音較小時,效果比較好。然而,當(dāng)語音背景的噪音很大時(比如信噪比為O分貝),其端點(diǎn)檢測效果明顯降低,語音端點(diǎn)檢測的準(zhǔn)確性較低。
[0003]針對現(xiàn)有技術(shù)中語音端點(diǎn)檢測的準(zhǔn)確性較低的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的主要目的在于提供一種語音端點(diǎn)檢測方法和裝置,以解決現(xiàn)有技術(shù)中語音端點(diǎn)檢測的準(zhǔn)確性較低的問題。
[0005]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種語音端點(diǎn)檢測方法。根據(jù)本發(fā)明的語音端點(diǎn)檢測方法包括:獲取目標(biāo)環(huán)境下的待測音頻;利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記,將所述待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,所述語音訓(xùn)練模型為對所述目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型;以及從標(biāo)記的待測音頻中查找具有所述第一預(yù)設(shè)標(biāo)識的整段音頻,其中,所述整段音頻為一整段標(biāo)記有所述第一預(yù)設(shè)標(biāo)識的語音;將所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為所述一段語音的端點(diǎn)。
[0006]進(jìn)一步地,在獲取目標(biāo)環(huán)境下的待測音頻之前,所述語音端點(diǎn)檢測方法還包括:采集所述目標(biāo)環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù);以預(yù)設(shè)單位時間對所述語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段;依次判斷所述多個音頻段中是否包含有語音;將包含有語音的音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型。
[0007]進(jìn)一步地,從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型包括:從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本;從標(biāo)記有所述第二預(yù)設(shè)標(biāo)記的音頻段中提取多個所述預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本;使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
[0008]進(jìn)一步地,使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型包括:使用所述支持向量機(jī),添加高斯核函數(shù)和松弛因子對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
[0009]進(jìn)一步地,利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記包括:按照所述預(yù)設(shè)單位時間對所述待測音頻進(jìn)行劃分,得到多個待測音頻段;利用所述語音訓(xùn)練模型對所述多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為所述第二預(yù)設(shè)標(biāo)識。
[0010]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種語音端點(diǎn)檢測裝置。根據(jù)本發(fā)明的語音端點(diǎn)檢測裝置包括:獲取單元,用于獲取目標(biāo)環(huán)境下的待測音頻;第一標(biāo)記單元,用于利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記,將所述待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,所述語音訓(xùn)練模型為對所述目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型;以及查找單元,用于從標(biāo)記的待測音頻中查找具有所述第一預(yù)設(shè)標(biāo)識的整段音頻,其中,所述整段音頻為一整段標(biāo)記有所述第一預(yù)設(shè)標(biāo)識的語音;確定單元,用于將所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為所述一段語音的端點(diǎn)。
[0011]進(jìn)一步地,所述語音端點(diǎn)檢測裝置還包括:采集單元,用于在獲取目標(biāo)環(huán)境下的待測音頻之前,采集所述目標(biāo)環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù);劃分單元,用于以預(yù)設(shè)單位時間對所述語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段;判斷單元,用于依次判斷所述多個音頻段中是否包含有語音;第二標(biāo)記單元,用于將包含有語音的音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及訓(xùn)練單元,用于從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型。
[0012]進(jìn)一步地,所述訓(xùn)練單元包括:第一提取模塊,用于從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本;第二提取模塊,用于從標(biāo)記有所述第二預(yù)設(shè)標(biāo)記的音頻段中提取多個所述預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本;訓(xùn)練模塊,用于使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
[0013]進(jìn)一步地,所述訓(xùn)練模塊包括:訓(xùn)練子模塊,用于使用所述支持向量機(jī),添加高斯核函數(shù)和松弛因子對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
[0014]進(jìn)一步地,所述第一標(biāo)記單元包括:劃分模塊,用于按照所述預(yù)設(shè)單位時間對所述待測音頻進(jìn)行劃分,得到多個待測音頻段;標(biāo)記模塊,用于利用所述語音訓(xùn)練模型對所述多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為所述第二預(yù)設(shè)標(biāo)識。
[0015]根據(jù)本發(fā)明實(shí)施例,通過利用對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到語音訓(xùn)練集來檢測待測音頻中的語音,從而確定出語音端點(diǎn)。由于語音訓(xùn)練模型為對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的,無論在具有多大噪音的環(huán)境下的待測音頻,該模型均能夠識別并標(biāo)記出語音片段,解決了現(xiàn)有技術(shù)中在噪音大的情況下語音端點(diǎn)檢測的準(zhǔn)確性較低的問題,達(dá)到了提高語音端點(diǎn)檢測的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0016]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0017]圖1是根據(jù)本發(fā)明實(shí)施例的語音端點(diǎn)檢測方法的流程圖;以及
[0018]圖2是根據(jù)本發(fā)明實(shí)施例的語音端點(diǎn)檢測裝置的示意圖。
【具體實(shí)施方式】
[0019]需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0020]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0021]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0022]本發(fā)明實(shí)施例提供了一種語音端點(diǎn)檢測方法。
[0023]圖1是根據(jù)本發(fā)明實(shí)施例的語音端點(diǎn)檢測方法的流程圖。如圖1所示,該語音端點(diǎn)檢測方法包括步驟如下:
[0024]步驟S102,獲取目標(biāo)環(huán)境下的待測音頻。
[0025]待測音頻可以是任意背景復(fù)雜或者不復(fù)雜的目標(biāo)環(huán)境下的音頻段,該音頻段可以包含有人的語音。獲取該待測音頻,以便于從待測音頻中檢測出語音音頻。
[0026]步驟S104,利用預(yù)先生成的語音訓(xùn)練模型對待測音頻中的音頻片段進(jìn)行標(biāo)記,將待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識。該語音訓(xùn)練模型為對目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型。
[0027]語音訓(xùn)練模型的建立可以是基于各種目標(biāo)環(huán)境下的包含有語音的音頻數(shù)據(jù)進(jìn)行訓(xùn)練得到的訓(xùn)練模型,具體地,可以是先采集大量的包含有語音的音頻數(shù)據(jù),然后對采集的音頻數(shù)據(jù)按照固定的時間長度tl進(jìn)行切分,切分為多個音頻段,并進(jìn)行人工標(biāo)記,將音頻數(shù)據(jù)中所有包含有語音的每個音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識,所有不包含語音的每個音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)識;最后,利用隨機(jī)算法抽取只包含第一預(yù)設(shè)標(biāo)識的若干固定單位時間t2長度的連續(xù)音頻段和只包含第二預(yù)設(shè)標(biāo)識的若干固定單位時間長度的連續(xù)音頻段,其中t2包含多個tl,作為語音訓(xùn)練集數(shù)據(jù),進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型,從而可以利用該語音訓(xùn)練模型來識別待測音頻中的語音片段。
[0028]步驟S106,從標(biāo)記的待測音頻中查找具有第一預(yù)設(shè)標(biāo)識的整段音頻。其中,整段音頻為一整段標(biāo)記有第一預(yù)設(shè)標(biāo)識的語音。
[0029]具體地,向語音訓(xùn)練模型輸入待測語音,利用語音訓(xùn)練模型標(biāo)記待測音頻中若干具有第一預(yù)設(shè)標(biāo)識的長度為t2的音頻段。整段音頻為具有多個連續(xù)第一預(yù)設(shè)標(biāo)識的語音段。
[0030]步驟S108,將具有第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,具有第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為一段語音的端點(diǎn)。
[0031]具體地,第一個具有第一預(yù)設(shè)標(biāo)識的音頻的起點(diǎn)作為整段音頻的起始點(diǎn),將最后一個具有第一預(yù)設(shè)標(biāo)識音頻的終點(diǎn)作為音頻的結(jié)束點(diǎn),所有起始點(diǎn)和結(jié)束點(diǎn)為這一段語音的端點(diǎn)。
[0032]由于語音訓(xùn)練模型標(biāo)記和輸出的是語音片段,其中,連續(xù)的兩段或者多段標(biāo)記有第一預(yù)設(shè)標(biāo)識的語音片段屬于同一段語音即上述定義的整段音頻,將連續(xù)的標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段做一段語音,將音頻段語音的起始點(diǎn)和結(jié)束點(diǎn)作為語音的端點(diǎn)。
[0033]根據(jù)本發(fā)明實(shí)施例,通過利用對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到語音訓(xùn)練集來檢測待測音頻中的語音,從而確定出語音端點(diǎn)。由于語音訓(xùn)練模型為對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的,無論在具有多大噪音的環(huán)境下的待測音頻,該模型均能夠識別并標(biāo)記出語音片段,解決了現(xiàn)有技術(shù)中在噪音大的情況下語音端點(diǎn)檢測的準(zhǔn)確性較低的問題,達(dá)到了提高語音端點(diǎn)檢測的準(zhǔn)確性。
[0034]優(yōu)選地。在獲取目標(biāo)環(huán)境下的待測音頻之前,語音端點(diǎn)檢測方法還包括:采集目標(biāo)環(huán)境的語音數(shù)據(jù),將語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù);以預(yù)設(shè)單位時間對語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段;依次判斷多個音頻段中是否包含有語音;將包含有語音的音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及從標(biāo)記有第一預(yù)設(shè)標(biāo)記和第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到語音訓(xùn)練模型。
[0035]目標(biāo)環(huán)境可以是任意具有復(fù)雜或者不復(fù)雜背景的環(huán)境,獲取語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù),用以訓(xùn)練的到語音訓(xùn)練模型。
[0036]具體地,在獲取到語音數(shù)據(jù)之后,首先按照預(yù)設(shè)單位時間對語音數(shù)據(jù)劃分成多個音頻段,其中,預(yù)設(shè)單位時間可以是微秒,即上述中所提到的tl。然后,按照預(yù)先設(shè)置的標(biāo)記對劃分的音頻段進(jìn)行標(biāo)記,將語音的音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識(如“I”),反之,則標(biāo)記為第二預(yù)設(shè)標(biāo)識(如“-1”)。然后從標(biāo)記好的音頻段中提取用于訓(xùn)練的樣本,訓(xùn)練樣本是多個固定單位時間t (如I毫秒)音頻段,且訓(xùn)練樣本為利用隨機(jī)算法抽取的只包含第一預(yù)設(shè)標(biāo)識的若干t長度的連續(xù)音頻段的正樣本,和只包含第二預(yù)設(shè)標(biāo)識的若干t長度的連續(xù)音頻段的負(fù)樣本,以訓(xùn)練出語音訓(xùn)練模型。
[0037]通過訓(xùn)練之后,該語音訓(xùn)練模型即可利用訓(xùn)練得到的參數(shù)來對待測音頻進(jìn)行標(biāo)記,將待測音頻中語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,非語音片段標(biāo)記為第二預(yù)設(shè)標(biāo)識。這樣,可以將通過語音訓(xùn)練模型輸出的音頻中具有第一預(yù)設(shè)標(biāo)識的音頻片段與具有第二預(yù)設(shè)標(biāo)識的音頻片段的交界點(diǎn)作為語音端點(diǎn),從而快速地檢測出語音端點(diǎn)。
[0038]進(jìn)一步地,從標(biāo)記有第一預(yù)設(shè)標(biāo)記和第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到語音訓(xùn)練模型包括:從標(biāo)記有第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本;從標(biāo)記有第二預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本;使用支持向量機(jī)對正樣本和負(fù)樣本進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型。
[0039]在對多個音頻段進(jìn)行標(biāo)記之后,根據(jù)需要設(shè)定一個預(yù)設(shè)時間長度即上述所提到的t2(如I秒),然后從標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,將其作為正樣本,其中,一個預(yù)設(shè)時間長度的音頻段中包括多個標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段;從標(biāo)記有第二預(yù)設(shè)標(biāo)識的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,將其作為負(fù)樣本,其中,該一個預(yù)設(shè)時間長度的音頻段中包括多個標(biāo)記有第二預(yù)設(shè)標(biāo)識的音頻段。最后,使用支持向量機(jī)(SVM)訓(xùn)練得到語音訓(xùn)練模型。
[0040]上述訓(xùn)練得到的語音訓(xùn)練模型對待測音頻片段進(jìn)行檢測標(biāo)記時,可以以預(yù)設(shè)單位時間來對待測音頻中的音頻段進(jìn)行標(biāo)記。輸出的時候則可以以待測音頻中標(biāo)記的預(yù)設(shè)時間長度的音頻段輸出。
[0041]進(jìn)一步地,使用支持向量機(jī)對正樣本和負(fù)樣本進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型包括:使用支持向量機(jī),添加高斯核函數(shù)和松弛因子對正樣本和負(fù)樣本進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型。
[0042]本發(fā)明實(shí)施例中,為了使語音訓(xùn)練模型具有語音抗噪功能,減少由于語音不連續(xù)性對語音訓(xùn)練模型的參數(shù)的影響,并使得語音訓(xùn)練模型快速穩(wěn)定,在使用支持向量機(jī)訓(xùn)練模型時,向模型中加入高斯函數(shù)和松弛因子,從而進(jìn)一步提高語音端點(diǎn)檢測的準(zhǔn)確性。
[0043]具體地,本發(fā)明實(shí)施例的一種語音訓(xùn)練模型的建立過程如下:
[0044]步驟SI,采集語音訓(xùn)練集數(shù)據(jù);
[0045]步驟S2,導(dǎo)入原始訓(xùn)練語音數(shù)據(jù),以毫秒為單位標(biāo)注語段時間段(含有人語段的時間點(diǎn)上標(biāo)注為1,否則標(biāo)注為-1);
[0046]步驟S3,設(shè)定合理時間長度t,隨機(jī)從所有標(biāo)注為I的語段內(nèi),抽取若干長度t的語音片段作為正樣本;從標(biāo)注為-1的音頻內(nèi),抽取若干長度t的語音片段作為負(fù)樣本;
[0047]步驟S4,使用SVM(支持向量機(jī))訓(xùn)練模型,并采用高斯核,加入松弛因子,使模型具有語音抗噪功能;
[0048]步驟S5,對標(biāo)注后的訓(xùn)練集進(jìn)行訓(xùn)練,得到訓(xùn)練后的模型;
[0049]當(dāng)獲取到待測音頻之后,用訓(xùn)練好的模型計(jì)算待測音頻每個長度為t的音頻片段的分類(I或-1),統(tǒng)計(jì)分析,機(jī)器去除異常干擾,整體連續(xù)標(biāo)注為I的時間點(diǎn)上都是人語音。
[0050]優(yōu)選地,利用預(yù)先生成的語音訓(xùn)練模型對待測音頻中的音頻片段進(jìn)行標(biāo)記包括:按照預(yù)設(shè)單位時間對待測音頻進(jìn)行劃分,得到多個待測音頻段;利用語音訓(xùn)練模型對多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)識。
[0051]本發(fā)明實(shí)施例中,將在利用語音訓(xùn)練模型對待測音頻進(jìn)行標(biāo)記時,先按照之前訓(xùn)練得到語音訓(xùn)練模型時的規(guī)則對待測音頻進(jìn)行劃分,即按照上述中預(yù)設(shè)單位時間來對待測音頻進(jìn)行劃分,得到多個待測音頻段。然后,利用語音訓(xùn)練模型訓(xùn)練得到的參數(shù)來確定劃分得到的多個待測音頻段中每個音頻段標(biāo)記的標(biāo)識,即第一預(yù)設(shè)標(biāo)識和第二預(yù)設(shè)標(biāo)識,實(shí)現(xiàn)對待測音頻的標(biāo)記。
[0052]本發(fā)明實(shí)施例還提供了一種語音端點(diǎn)檢測裝置。需要說明的是,本發(fā)明實(shí)施例的語音端點(diǎn)檢測裝置可以用于執(zhí)行本發(fā)明實(shí)施例所提供的語音端點(diǎn)檢測方法,本發(fā)明實(shí)施例的語音端點(diǎn)檢測方法也可以通過本發(fā)明實(shí)施例所提供的語音端點(diǎn)檢測裝置來執(zhí)行。
[0053]圖2是根據(jù)本發(fā)明實(shí)施例的語音端點(diǎn)檢測裝置的示意圖。如圖2所示,該語音端點(diǎn)檢測裝置包括:獲取單元10、第一標(biāo)記單元20、查找單元30和確定單元40。
[0054]獲取單元10用于獲取目標(biāo)環(huán)境下的待測音頻。
[0055]待測音頻可以是任意背景復(fù)雜或者不復(fù)雜的目標(biāo)環(huán)境下的音頻段,該音頻段可以包含有人體語音。獲取該待測音頻,以便于從待測音頻中檢測出語音音頻。
[0056]第一標(biāo)記單元20用于利用預(yù)先生成的語音訓(xùn)練模型對待測音頻中的音頻片段進(jìn)行標(biāo)記,將待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,語音訓(xùn)練模型為對目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型。
[0057]語音訓(xùn)練模型的建立可以是基于各種目標(biāo)環(huán)境下的包含有語音的音頻數(shù)據(jù)進(jìn)行訓(xùn)練得到的訓(xùn)練模型,具體地,可以是先采集大量的包含有語音的音頻數(shù)據(jù),然后對采集的音頻數(shù)據(jù)按照固定的時間長度tl進(jìn)行切分,切分為多個音頻段,并進(jìn)行人工標(biāo)記,將音頻數(shù)據(jù)中所有包含有語音的每個音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識,所有不包含語音的每個音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)識;最后,利用隨機(jī)算法抽取只包含第一預(yù)設(shè)標(biāo)識的若干固定單位時間t2長度的連續(xù)音頻段和只包含第二預(yù)設(shè)標(biāo)識的若干固定單位時間長度的連續(xù)音頻段,其中t2包含多個tl,作為語音訓(xùn)練集數(shù)據(jù),進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型,從而可以利用該語音訓(xùn)練模型來識別待測音頻中的語音片段。
[0058]查找單元30用于從標(biāo)記的待測音頻中查找具有第一預(yù)設(shè)標(biāo)識的整段音頻,其中,整段音頻為一整段標(biāo)記有第一預(yù)設(shè)標(biāo)識的語音。
[0059]具體地,向語音訓(xùn)練模型輸入待測語音,利用語音訓(xùn)練模型標(biāo)記待測音頻中若干具有第一預(yù)設(shè)標(biāo)識的長度為t2的音頻段。整段音頻為具有多個連續(xù)第一預(yù)設(shè)標(biāo)識的語音段。
[0060]確定單元40用于將具有第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,具有第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為一段語音的端點(diǎn)。
[0061]具體地,第一個具有第一預(yù)設(shè)標(biāo)識的音頻的起點(diǎn)作為整段音頻的起始點(diǎn),將最后一個具有第一預(yù)設(shè)標(biāo)識音頻的終點(diǎn)作為音頻的結(jié)束點(diǎn),所有起始點(diǎn)和結(jié)束點(diǎn)為這一段語音的端點(diǎn)。
[0062]由于語音訓(xùn)練模型標(biāo)記和輸出的是語音片段,其中,連續(xù)的兩段或者多段標(biāo)記有第一預(yù)設(shè)標(biāo)識的語音片段屬于同一段語音即上述定義的整段音頻,將連續(xù)的標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段做一段語音,將音頻段語音的起始點(diǎn)和結(jié)束點(diǎn)作為語音的端點(diǎn)。
[0063]根據(jù)本發(fā)明實(shí)施例,通過利用對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到語音訓(xùn)練集來檢測待測音頻中的語音,從而確定出語音端點(diǎn)。由于語音訓(xùn)練模型為對各種環(huán)境下的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的,無論在具有多大噪音的環(huán)境下的待測音頻,該模型均能夠識別并標(biāo)記出語音片段,解決了現(xiàn)有技術(shù)中在噪音大的情況下語音端點(diǎn)檢測的準(zhǔn)確性較低的問題,達(dá)到了提高語音端點(diǎn)檢測的準(zhǔn)確性。
[0064]優(yōu)選地,語音端點(diǎn)檢測裝置還包括:采集單元,用于在獲取目標(biāo)環(huán)境下的待測音頻之前,采集目標(biāo)環(huán)境的語音數(shù)據(jù),將語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù);劃分單元,用于以預(yù)設(shè)單位時間對語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段;判斷單元,用于依次判斷多個音頻段中是否包含有語音;第二標(biāo)記單元,用于將包含有語音的音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及訓(xùn)練單元,用于從標(biāo)記有第一預(yù)設(shè)標(biāo)記和第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到語音訓(xùn)練模型。
[0065]目標(biāo)環(huán)境可以是任意具有復(fù)雜或者不復(fù)雜背景的環(huán)境,獲取語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù),用以訓(xùn)練的到語音訓(xùn)練模型。
[0066]具體地,在獲取到語音數(shù)據(jù)之后,首先按照預(yù)設(shè)單位時間對語音數(shù)據(jù)劃分成多個音頻段,其中,預(yù)設(shè)單位時間可以是微秒,即上述中所提到的tl。然后,按照預(yù)先設(shè)置的標(biāo)記對劃分的音頻段進(jìn)行標(biāo)記,將語音的音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識(如“I”),反之,則標(biāo)記為第二預(yù)設(shè)標(biāo)識(如“-1”)。然后從標(biāo)記好的音頻段中提取用于訓(xùn)練的樣本,訓(xùn)練樣本是多個固定單位時間t (如I毫秒)音頻段,且訓(xùn)練樣本為利用隨機(jī)算法抽取的只包含第一預(yù)設(shè)標(biāo)識的若干t長度的連續(xù)音頻段的正樣本,和只包含第二預(yù)設(shè)標(biāo)識的若干t長度的連續(xù)音頻段的負(fù)樣本,以訓(xùn)練出語音訓(xùn)練模型。
[0067]通過訓(xùn)練之后,該語音訓(xùn)練模型即可利用訓(xùn)練得到的參數(shù)來對待測音頻進(jìn)行標(biāo)記,將待測音頻中語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,非語音片段標(biāo)記為第二預(yù)設(shè)標(biāo)識。這樣,可以將通過語音訓(xùn)練模型輸出的音頻中具有第一預(yù)設(shè)標(biāo)識的音頻片段與具有第二預(yù)設(shè)標(biāo)識的音頻片段的交界點(diǎn)作為語音端點(diǎn),從而快速地檢測出語音端點(diǎn)。
[0068]進(jìn)一步地,訓(xùn)練單元包括:第一提取模塊,用于從標(biāo)記有第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本;第二提取模塊,用于從標(biāo)記有第二預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本;訓(xùn)練模塊,用于使用支持向量機(jī)對正樣本和負(fù)樣本進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型。
[0069]在對多個音頻段進(jìn)行標(biāo)記之后,根據(jù)需要設(shè)定一個預(yù)設(shè)時間長度(如I秒),然后從標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,將其作為正樣本,其中,一個預(yù)設(shè)時間長度的音頻段中包括多個標(biāo)記有第一預(yù)設(shè)標(biāo)識的音頻段;從標(biāo)記有第二預(yù)設(shè)標(biāo)識的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,將其作為負(fù)樣本,其中,該一個預(yù)設(shè)時間長度的音頻段中包括多個標(biāo)記有第二預(yù)設(shè)標(biāo)識的音頻段。最后,使用支持向量機(jī)(SVM)訓(xùn)練得到語音訓(xùn)練模型。
[0070]上述訓(xùn)練得到的語音訓(xùn)練模型對待測音頻片段進(jìn)行檢測標(biāo)記時,可以以預(yù)設(shè)單位時間來對待測音頻中的音頻段進(jìn)行標(biāo)記。輸出的時候則可以以待測音頻中標(biāo)記的預(yù)設(shè)時間長度的音頻段輸出。
[0071]進(jìn)一步地,訓(xùn)練模塊包括:訓(xùn)練子模塊,用于使用支持向量機(jī),添加高斯核函數(shù)和松弛因子對正樣本和負(fù)樣本進(jìn)行訓(xùn)練,得到語音訓(xùn)練模型。
[0072]本發(fā)明實(shí)施例中,為了使語音訓(xùn)練模型具有語音抗噪功能,減少由于語音不連續(xù)性對語音訓(xùn)練模型的參數(shù)的影響,并使得語音訓(xùn)練模型快速穩(wěn)定,在使用支持向量機(jī)訓(xùn)練模型時,向模型中加入高斯函數(shù)和松弛因子,從而進(jìn)一步提高語音端點(diǎn)檢測的準(zhǔn)確性。
[0073]優(yōu)選地,第一標(biāo)記單元包括:劃分模塊,用于按照預(yù)設(shè)單位時間對待測音頻進(jìn)行劃分,得到多個待測音頻段;標(biāo)記模塊,用于利用語音訓(xùn)練模型對多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)識。
[0074]本發(fā)明實(shí)施例中,將在利用語音訓(xùn)練模型對待測音頻進(jìn)行標(biāo)記時,先按照之前訓(xùn)練得到語音訓(xùn)練模型時規(guī)則對待測音頻進(jìn)行劃分,即按照上述中預(yù)設(shè)單位時間來對待測音頻進(jìn)行劃分,得到多個待測音頻段。然后,利用語音訓(xùn)練模型訓(xùn)練得到的參數(shù)來確定劃分得到的多個待測音頻段中每個音頻段標(biāo)記的標(biāo)識,即第一預(yù)設(shè)標(biāo)識和第二預(yù)設(shè)標(biāo)識,實(shí)現(xiàn)對待測音頻的標(biāo)記。
[0075]需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0076]在上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0077]在本申請所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0078]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0079]另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0080]所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可為個人計(jì)算機(jī)、移動終端、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM, Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0081]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種語音端點(diǎn)檢測方法,其特征在于,包括: 獲取目標(biāo)環(huán)境下的待測音頻; 利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記,將所述待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,所述語音訓(xùn)練模型為對所述目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型;以及 從標(biāo)記的待測音頻中查找具有所述第一預(yù)設(shè)標(biāo)識的整段音頻,其中,所述整段音頻為一整段標(biāo)記有所述第一預(yù)設(shè)標(biāo)識的語音; 將所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為所述一段語音的端點(diǎn)。
2.根據(jù)權(quán)利要求1所述的語音端點(diǎn)檢測方法,其特征在于,在獲取目標(biāo)環(huán)境下的待測音頻之前,所述語音端點(diǎn)檢測方法還包括: 采集所述目標(biāo)環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù); 以預(yù)設(shè)單位時間對所述語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段; 依次判斷所述多個音頻段中是否包含有語音; 將包含有語音的音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及 從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型。
3.根據(jù)權(quán)利要求2所述的語音端點(diǎn)檢測方法,其特征在于,從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型包括: 從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本; 從標(biāo)記有所述第二預(yù)設(shè)標(biāo)記的音頻段中提取多個所述預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本; 使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
4.根據(jù)權(quán)利要求3所述的語音端點(diǎn)檢測方法,其特征在于,使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型包括: 使用所述支持向量機(jī)并添加高斯核函數(shù)和松弛因子對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
5.根據(jù)權(quán)利要求2所述的語音端點(diǎn)檢測方法,其特征在于,利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記包括: 按照所述預(yù)設(shè)單位時間對所述待測音頻進(jìn)行劃分,得到多個待測音頻段; 利用所述語音訓(xùn)練模型對所述多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為所述第二預(yù)設(shè)標(biāo)識。
6.一種語音端點(diǎn)檢測裝置,其特征在于,包括: 獲取單元,用于獲取目標(biāo)環(huán)境下的待測音頻; 第一標(biāo)記單元,用于利用預(yù)先生成的語音訓(xùn)練模型對所述待測音頻中的音頻片段進(jìn)行標(biāo)記,將所述待測音頻中的語音片段標(biāo)記為第一預(yù)設(shè)標(biāo)識,其中,所述語音訓(xùn)練模型為對所述目標(biāo)環(huán)境的語音數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型;以及 查找單元,用于從標(biāo)記的待測音頻中查找具有所述第一預(yù)設(shè)標(biāo)識的整段音頻,其中,所述整段音頻為一整段標(biāo)記有所述第一預(yù)設(shè)標(biāo)識的語音; 確定單元,用于將所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的作為一段語音,所述具有所述第一預(yù)設(shè)標(biāo)識的整段音頻的起始點(diǎn)和結(jié)束點(diǎn)作為所述一段語音的端點(diǎn)。
7.根據(jù)權(quán)利要求6所述的語音端點(diǎn)檢測裝置,其特征在于,所述語音端點(diǎn)檢測裝置還包括: 采集單元,用于在獲取目標(biāo)環(huán)境下的待測音頻之前,采集所述目標(biāo)環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓(xùn)練集數(shù)據(jù); 劃分單元,用于以預(yù)設(shè)單位時間對所述語音數(shù)據(jù)進(jìn)行劃分,得到多個音頻段; 判斷單元,用于依次判斷所述多個音頻段中是否包含有語音; 第二標(biāo)記單元,用于將包含有語音的音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)記,并將不包含有語音的音頻段標(biāo)記為第二預(yù)設(shè)標(biāo)記;以及 訓(xùn)練單元,用于從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記和所述第二預(yù)設(shè)標(biāo)記的音頻段中提取樣本,利用提取的樣本訓(xùn)練得到所述語音訓(xùn)練模型。
8.根據(jù)權(quán)利要求7所述的語音端點(diǎn)檢測裝置,其特征在于,所述訓(xùn)練單元包括: 第一提取模塊,用于從標(biāo)記有所述第一預(yù)設(shè)標(biāo)記的音頻段中提取多個預(yù)設(shè)時間長度的音頻段,作為正樣本; 第二提取模塊,用于從標(biāo)記有所述第二預(yù)設(shè)標(biāo)記的音頻段中提取多個所述預(yù)設(shè)時間長度的音頻段,作為負(fù)樣本; 訓(xùn)練模塊,用于使用支持向量機(jī)對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
9.根據(jù)權(quán)利要求8所述的語音端點(diǎn)檢測裝置,其特征在于,所述訓(xùn)練模塊包括: 訓(xùn)練子模塊,用于使用所述支持向量機(jī),添加高斯核函數(shù)和松弛因子對所述正樣本和所述負(fù)樣本進(jìn)行訓(xùn)練,得到所述語音訓(xùn)練模型。
10.根據(jù)權(quán)利要求7所述的語音端點(diǎn)檢測裝置,其特征在于,所述第一標(biāo)記單元包括: 劃分模塊,用于按照所述預(yù)設(shè)單位時間對所述待測音頻進(jìn)行劃分,得到多個待測音頻段; 標(biāo)記模塊,用于利用所述語音訓(xùn)練模型對所述多個待測音頻段進(jìn)行標(biāo)記,將包含有語音的待測音頻段標(biāo)記為所述第一預(yù)設(shè)標(biāo)識,將不包含有語音的待測音頻段標(biāo)記為所述第二預(yù)設(shè)標(biāo)識。
【文檔編號】G10L15/06GK104409080SQ201410779544
【公開日】2015年3月11日 申請日期:2014年12月15日 優(yōu)先權(quán)日:2014年12月15日
【發(fā)明者】劉粉香 申請人:北京國雙科技有限公司