本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種識(shí)別模型訓(xùn)練方法及系統(tǒng)以及智能終端。
背景技術(shù):
聲紋識(shí)別是一種利用人的聲音實(shí)現(xiàn)的識(shí)別技術(shù),由于人在講話時(shí)使用的發(fā)聲器官存在一定的差異性,任何兩個(gè)人聲音的聲紋圖譜都有差異,所以聲紋可以作為表征個(gè)體差異的生物特征,因此可以通過(guò)建立識(shí)別模型來(lái)表征不同的個(gè)體,進(jìn)而利用該識(shí)別模型識(shí)別不同的個(gè)體。目前識(shí)別模型的應(yīng)用存在一個(gè)兩難的選擇,主要體現(xiàn)在訓(xùn)練語(yǔ)料的長(zhǎng)度選取上。一般而言,聲紋訓(xùn)練無(wú)法自動(dòng)識(shí)別進(jìn)行訓(xùn)練,需要人為手動(dòng)設(shè)定,訓(xùn)練過(guò)程繁瑣,用戶(hù)體驗(yàn)效果差,且聲紋訓(xùn)練的語(yǔ)料越長(zhǎng),建立的特征模型越精確,識(shí)別準(zhǔn)確率也就越高,但是這種模型建立的方式的實(shí)用性不強(qiáng);相反地,聲紋訓(xùn)練語(yǔ)料較短,能保證較好的實(shí)用性,但相對(duì)而言其訓(xùn)練生成的模型的識(shí)別準(zhǔn)確率不高。而在實(shí)際應(yīng)用中,例如應(yīng)用到一些智能設(shè)備中進(jìn)行語(yǔ)音操作的聲紋識(shí)別時(shí),既要求有較高的識(shí)別準(zhǔn)確率,又要求訓(xùn)練語(yǔ)料不能太長(zhǎng),從而保證較好的實(shí)用性,則以現(xiàn)有技術(shù)中的聲紋識(shí)別模型建立的技術(shù)方案難以實(shí)現(xiàn)上述目的。
同樣地,現(xiàn)有技術(shù)中,需要由用戶(hù)手動(dòng)多次錄入一定時(shí)長(zhǎng)的訓(xùn)練語(yǔ)料來(lái)輔助建立識(shí)別模型,因此會(huì)給用戶(hù)較差的體驗(yàn),不具備較高的實(shí)用性;同時(shí),組合起來(lái)的訓(xùn)練語(yǔ)料的長(zhǎng)度仍然有限,不能生成較精確的特征模型,識(shí)別準(zhǔn)確率無(wú)法進(jìn)一步提升;語(yǔ)速語(yǔ)調(diào)的變化、情緒波動(dòng)等也都會(huì)影響模型建立的精確度。所以,如何在保證較高的實(shí)用性前提下,提高識(shí)別模型精確度,進(jìn)而提高識(shí)別準(zhǔn)確率是急需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
根據(jù)現(xiàn)有技術(shù)中存在的上述問(wèn)題,現(xiàn)提供一種識(shí)別模型訓(xùn)練方法及系統(tǒng) 以及智能終端的技術(shù)方案,具體包括:
一種識(shí)別模型訓(xùn)練方法,其中,所述方法包括:
獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流;
將所述初始語(yǔ)音信號(hào)流與一預(yù)設(shè)的聲紋模型進(jìn)行匹配,獲取匹配成功的識(shí)別語(yǔ)音流,并輸出所述識(shí)別語(yǔ)音流;
獲取所述說(shuō)話人的反饋語(yǔ)音流;
根據(jù)預(yù)設(shè)的說(shuō)話人分割算法和說(shuō)話人聚類(lèi)算法,獲取所述反饋語(yǔ)音流關(guān)聯(lián)于所述說(shuō)話人的所述語(yǔ)音信號(hào)流;
判斷所有所述語(yǔ)音信號(hào)流中是否存在能夠作為識(shí)別對(duì)象的所述語(yǔ)音信號(hào)流,并將能夠作為識(shí)別對(duì)象的所述語(yǔ)音信號(hào)流作為識(shí)別信號(hào)流輸出;
將所述識(shí)別信號(hào)流分別與預(yù)先形成的復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型;
將所述識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)所述訓(xùn)練樣本對(duì)與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,該識(shí)別模型訓(xùn)練方法,其中,所述方法在獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流之前還包括:
根據(jù)預(yù)設(shè)的所述訓(xùn)練樣本建立復(fù)數(shù)個(gè)所述初始識(shí)別模型。
優(yōu)選的,根據(jù)所述說(shuō)話人分割算法與所述說(shuō)話人聚類(lèi)算法,分別獲取所述反饋語(yǔ)音流關(guān)聯(lián)于所述說(shuō)話人的所述語(yǔ)音信號(hào)流的方法具體包括:
根據(jù)所述說(shuō)話人分割算法,將所述反饋語(yǔ)音流分割成多個(gè)語(yǔ)音分段;
根據(jù)所述說(shuō)話人聚類(lèi)算法,將多個(gè)所述語(yǔ)音分段進(jìn)行聚類(lèi),生成關(guān)聯(lián)于所述說(shuō)話人的所述語(yǔ)音信號(hào)流。
優(yōu)選的,將所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取匹配成功的所述識(shí)別信號(hào)流的方法具體包括:
將所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取所述識(shí)別信號(hào)流與每個(gè)所述初始識(shí)別模型的匹配度;
選取大于預(yù)設(shè)的匹配閾值的多個(gè)所述匹配度中最高的所述匹配度所對(duì)應(yīng)的所述初始識(shí)別模型。
優(yōu)選的,將所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取匹配成功的所述識(shí)別信號(hào)流的方法具體包括:
將所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取所述識(shí)別信號(hào)流與每個(gè)所述初始識(shí)別模型的匹配度;
選取大于預(yù)設(shè)的匹配閾值的多個(gè)所述匹配度中最高的所述匹配度所對(duì)應(yīng)的所述初始識(shí)別模型。
優(yōu)選的,將所述識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)所述訓(xùn)練樣本對(duì)與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型進(jìn)行更新的方法具體包括:
根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型,預(yù)設(shè)的所述訓(xùn)練樣本為生成所述初始識(shí)別模型的所述識(shí)別信號(hào)流;
以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,將所述識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)所述訓(xùn)練樣本對(duì)與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型進(jìn)行更新的方法具體包括:
根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型,預(yù)設(shè)的所述訓(xùn)練樣本為生成所述初始識(shí)別模型的所述識(shí)別信號(hào)流;
以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,將所述識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)所述訓(xùn)練樣本對(duì)與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型進(jìn)行更新的方法具體包括:
根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型,預(yù)設(shè)的所述訓(xùn)練樣本為生成所述初始識(shí)別模型的所述識(shí)別信號(hào)流;
以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
一種識(shí)別模型訓(xùn)練系統(tǒng),其中,包括:獲取單元、處理單元、判斷單元、第一匹配單元、第二匹配單元以及模型更新單元;
所述獲取單元用于獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流并發(fā)送給與所述獲取單元連接的所述第一匹配單元;
所述第一匹配單元用于將所述初始語(yǔ)音信號(hào)流與一預(yù)設(shè)的聲紋模型進(jìn)行匹配,獲取匹配成功的識(shí)別語(yǔ)音流,并輸出所述識(shí)別語(yǔ)音流;
所述獲取單元還用于獲取所述說(shuō)話人的反饋語(yǔ)音流,并發(fā)送所述反饋語(yǔ)音流至與所述獲取單元連接的所述處理單元;
所述處理單元用于接收所述獲取單元發(fā)送的所述反饋語(yǔ)音流,并根據(jù)預(yù)設(shè)的說(shuō)話人分割算法與說(shuō)話人聚類(lèi)算法,獲取所述反饋語(yǔ)音流關(guān)聯(lián)于所述說(shuō)話人的所述語(yǔ)音信號(hào)流,并將所述語(yǔ)音信號(hào)流發(fā)送給與所述處理單元連接的所述判斷單元;
所述判斷單元用于判斷所述處理單元發(fā)送的所有所述語(yǔ)音信號(hào)流中是否存在能夠作為識(shí)別對(duì)象的所述語(yǔ)音信號(hào)流,并將能夠作為識(shí)別對(duì)象的所述語(yǔ)音信號(hào)流作為識(shí)別信號(hào)流輸出至與所述判斷單元連接的所述第二匹配單元;
所述第二匹配單元用于接收所述判斷單元發(fā)送的關(guān)聯(lián)于所述說(shuō)話人的所述識(shí)別信號(hào)流,且將所述識(shí)別信號(hào)流分別與一預(yù)先形成的復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型,并將匹配成功的所述識(shí)別信號(hào)流發(fā)送給與所述第二匹配單元連接的所述模型更新單元;以及
所述模型更新單元用于接收所述第二匹配單元發(fā)送的匹配成功的所述初始識(shí)別模型,并將匹配成功的所述識(shí)別信號(hào)流作為追加的所述識(shí)別信號(hào)流的訓(xùn)練樣本,以對(duì)與所述識(shí)別信號(hào)流匹配成功的所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,還包括:
樣本獲取單元,用于獲取預(yù)設(shè)的所述訓(xùn)練樣本并發(fā)送給與所述樣本獲取單元連接的模型建立單元;以及
所述模型建立單元用于接收所述樣本獲取單元發(fā)送的預(yù)設(shè)的所述訓(xùn)練樣本并根據(jù)預(yù)設(shè)的所述訓(xùn)練樣本建立復(fù)數(shù)個(gè)所述初始識(shí)別模型。
優(yōu)選的,所述處理單元具體包括:
分割模塊,用于根據(jù)預(yù)設(shè)的所述說(shuō)話人分割算法,將所述反饋語(yǔ)音流分割成多個(gè)語(yǔ)音分段,并將所有所述語(yǔ)音分段發(fā)送給與所述分割模塊連接的聚類(lèi)模塊;以及
所述聚類(lèi)模塊用于接收所述分割模塊發(fā)送的所述語(yǔ)音分段,并根據(jù)預(yù)設(shè)的所述說(shuō)話人聚類(lèi)算法,將多個(gè)所述語(yǔ)音分段進(jìn)行聚類(lèi),生成關(guān)聯(lián)于所述說(shuō)話人的語(yǔ)音信號(hào)流。
優(yōu)選的,所述第二匹配單元具體包括:
匹配度獲取模塊,用于將每個(gè)所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取所述識(shí)別信號(hào)流與每個(gè)所述初始識(shí)別模型的匹 配度,并將所有所述匹配度發(fā)送至與所述匹配度獲取模塊連接的信號(hào)流獲取模塊;以及
所述信號(hào)流獲取模塊用于接收所述匹配度獲取模塊發(fā)送的所有所述匹配度,并選取大于預(yù)設(shè)的匹配閾值的多個(gè)所述匹配度中最高的所述匹配度所對(duì)應(yīng)的所述初始識(shí)別模型。
優(yōu)選的,所述匹配單元具體包括:
匹配度獲取模塊,用于將每個(gè)所述說(shuō)話人的所述識(shí)別信號(hào)流與復(fù)數(shù)個(gè)所述初始識(shí)別模型進(jìn)行匹配,獲取所述識(shí)別信號(hào)流與每個(gè)所述初始識(shí)別模型的匹配度,并將所有所述匹配度發(fā)送至與所述匹配度獲取模塊連接的信號(hào)流獲取模塊;以及
所述信號(hào)流獲取模塊用于接收所述匹配度獲取模塊發(fā)送的所有所述匹配度,并選取大于預(yù)設(shè)的匹配閾值的多個(gè)所述匹配度中最高的所述匹配度所對(duì)應(yīng)的所述初始識(shí)別模型。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識(shí)別模型,并以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識(shí)別模型,并以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
優(yōu)選的,所述模型更新單元具體包括:
修正模塊,用于根據(jù)匹配成功的所述初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型并發(fā)送至與所述修正模塊連接的更新模塊;以及
所述更新模塊用于接收所述修正模塊發(fā)送的所述修正識(shí)別模型,并以所述修正識(shí)別模型對(duì)所述初始識(shí)別模型進(jìn)行更新。
一種智能終端,其中,采用上述的識(shí)別模型訓(xùn)練方法。
一種智能終端,其中,包括上述的識(shí)別模型訓(xùn)練系統(tǒng)。
上述技術(shù)方案的有益效果是:
1)提供一種識(shí)別模型訓(xùn)練方法,能夠自動(dòng)識(shí)別說(shuō)話人的語(yǔ)音信號(hào)流,無(wú)需用戶(hù)手動(dòng)操作即可實(shí)現(xiàn)識(shí)別模型的訓(xùn)練,操作簡(jiǎn)單,且同時(shí)兼顧應(yīng)用于一般智能終端中形成識(shí)別模型所需的較好的實(shí)用性以及聲紋識(shí)別所需的準(zhǔn)確度。
2)提供一種識(shí)別模型訓(xùn)練系統(tǒng),能夠支持實(shí)現(xiàn)上述識(shí)別模型訓(xùn)練方法。
附圖說(shuō)明
圖1是本發(fā)明的實(shí)施例一中,一種識(shí)別模型訓(xùn)練方法的流程示意圖;
圖2是本發(fā)明的實(shí)施例二中,一種識(shí)別模型訓(xùn)練方法的流程示意圖;
圖3是本發(fā)明的實(shí)施例三中,一種識(shí)別模型訓(xùn)練系統(tǒng)的結(jié)構(gòu)示意圖;
圖4是本發(fā)明的實(shí)施例四中,識(shí)別模型訓(xùn)練系統(tǒng)中的處理單元的結(jié)構(gòu)示意圖;
圖5是本發(fā)明的實(shí)施例五中,識(shí)別模型訓(xùn)練系統(tǒng)中的匹配單元的結(jié)構(gòu)示意圖;
圖6是本發(fā)明的實(shí)施例六中,識(shí)別模型訓(xùn)練系統(tǒng)中的模型更新單元的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實(shí)施例通過(guò)獲取至少一個(gè)說(shuō)話人時(shí)的初始語(yǔ)音信號(hào)流,根據(jù)預(yù)設(shè)的說(shuō)話人分割與聚類(lèi)算法,獲取該初始語(yǔ)音信號(hào)流中該至少一個(gè)說(shuō)話人中每一個(gè)說(shuō)話人的分別的語(yǔ)音信號(hào)流,進(jìn)而獲取與初始識(shí)別模型相匹配的語(yǔ)音信號(hào)流,并將該匹配的語(yǔ)音信號(hào)流作為生成該初始識(shí)別模型的追加語(yǔ)音信號(hào)流訓(xùn)練樣本,以更新該初始識(shí)別模型,使得識(shí)別模型精確度得到提高,用戶(hù)體驗(yàn)效果得到提升等。
以下結(jié)合具體實(shí)施例對(duì)本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
實(shí)施例一:
圖1示出了本發(fā)明第一實(shí)施例提供的識(shí)別模型訓(xùn)練方法的實(shí)現(xiàn)流程,詳述如下:
步驟s1,獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流。
該實(shí)施例中,該識(shí)別模型訓(xùn)練方法可能用于一處于私人空間的智能終端例如智能機(jī)器人,因此該初始語(yǔ)音信號(hào)流可以為用戶(hù)通過(guò)該智能終端進(jìn)行語(yǔ)音聊天或者發(fā)出語(yǔ)音指令等產(chǎn)生的語(yǔ)音信號(hào)流,也可以為通過(guò)錄音等方式獲取的語(yǔ)音信號(hào)流等。具體地,上述識(shí)別模型訓(xùn)練方法同樣可以應(yīng)用在一個(gè)較為開(kāi)放的空間內(nèi),即初始語(yǔ)音信號(hào)流的來(lái)源可能為有限的多個(gè),因此有可能會(huì)收錄到包括多人的初始語(yǔ)音信號(hào)流。
步驟s2,將初始語(yǔ)音信號(hào)流與一預(yù)設(shè)的聲紋模型進(jìn)行匹配,獲取匹配成功的識(shí)別語(yǔ)音流,并輸出識(shí)別語(yǔ)音流;
步驟s3,獲取說(shuō)話人的反饋語(yǔ)音流;
上述反饋語(yǔ)音流可以為再智能終端中設(shè)置有是否自動(dòng)在語(yǔ)音交互的過(guò)程中啟用聲紋學(xué)習(xí)功能的開(kāi)關(guān),用戶(hù)根據(jù)需要自行設(shè)置;或者在智能終端中設(shè)置有聲紋學(xué)習(xí)功能,用戶(hù)可以自行錄制語(yǔ)音信號(hào)流。上述反饋語(yǔ)音流通常為音頻流。
步驟s4,根據(jù)預(yù)設(shè)的說(shuō)話人分割算法和說(shuō)話人聚類(lèi)算法,獲取反饋語(yǔ)音流關(guān)聯(lián)于說(shuō)話人的語(yǔ)音信號(hào)流。
該實(shí)施例中,將獲得的反饋語(yǔ)音流首先經(jīng)過(guò)說(shuō)話人分割算法的處理得到多個(gè)語(yǔ)音分段;
隨后,將同屬于同一個(gè)說(shuō)話人相關(guān)的語(yǔ)音信息的語(yǔ)音分段進(jìn)行說(shuō)話人聚類(lèi)算法的處理,以得到關(guān)聯(lián)于說(shuō)話人的語(yǔ)音信號(hào)流。
步驟s5,判斷所有語(yǔ)音信號(hào)流中是否存在能夠作為識(shí)別對(duì)象的語(yǔ)音信號(hào)流,并將能夠作為識(shí)別對(duì)象的語(yǔ)音信號(hào)流作為識(shí)別信號(hào)流輸出。
其中,分別判斷每個(gè)語(yǔ)音信號(hào)流是否能夠作為識(shí)別對(duì)象的語(yǔ)音信號(hào)流,其方法可以包括下文中的一種或幾種的結(jié)合:
1)設(shè)定一個(gè)標(biāo)準(zhǔn)聲音強(qiáng)度,并分別判斷每個(gè)語(yǔ)音信號(hào)流對(duì)應(yīng)的聲音強(qiáng)度大于上述標(biāo)準(zhǔn)聲音強(qiáng)度:若是,則表示該語(yǔ)音信號(hào)流可以作為識(shí)別對(duì)象的識(shí)別信號(hào)流,反之則忽略該語(yǔ)音信號(hào)流。
2)設(shè)定一個(gè)標(biāo)準(zhǔn)音頻時(shí)長(zhǎng),并分別判斷每個(gè)語(yǔ)音信號(hào)流對(duì)應(yīng)的連續(xù)時(shí)長(zhǎng)是否大于上述標(biāo)準(zhǔn)音頻時(shí)長(zhǎng):若是,則表示該語(yǔ)音信號(hào)流可以作為識(shí)別對(duì)象的識(shí)別信號(hào)流,反之則忽略該語(yǔ)音信號(hào)流。
3)設(shè)定一個(gè)標(biāo)準(zhǔn)頻段,并分別判斷每個(gè)語(yǔ)音信號(hào)流對(duì)應(yīng)的接收頻率是否處于該標(biāo)準(zhǔn)頻段內(nèi):若是,則表示該語(yǔ)音信號(hào)流可以作為識(shí)別對(duì)象的識(shí)別信號(hào)流,反之則忽略該語(yǔ)音信號(hào)流。
4)預(yù)先通過(guò)聲紋匹配設(shè)定一個(gè)或多個(gè)作為訓(xùn)練者的說(shuō)話人,并根據(jù)預(yù)先的模糊聲紋匹配的方式確定該一個(gè)或多個(gè)說(shuō)話人的語(yǔ)音信號(hào)流,以作為識(shí)別對(duì)象的識(shí)別信號(hào)流。
上述步驟s5能夠在進(jìn)行識(shí)別模型的更新之前首先對(duì)獲取的多個(gè)語(yǔ)音信號(hào)流進(jìn)行篩選,排除一些原本就不需要用來(lái)作為訓(xùn)練樣本的語(yǔ)音信號(hào)流,從而保證識(shí)別模型訓(xùn)練的訓(xùn)練樣本來(lái)源的精確性,進(jìn)一步保證根據(jù)識(shí)別模型進(jìn)行聲紋識(shí)別的準(zhǔn)確度。
步驟s6,將識(shí)別信號(hào)流分別與預(yù)先形成的復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型。
其中,該初始識(shí)別模型為根據(jù)預(yù)設(shè)的語(yǔ)音信號(hào)流的訓(xùn)練樣本預(yù)先建立的識(shí)別模型,即預(yù)先提供關(guān)聯(lián)于預(yù)設(shè)的語(yǔ)音信號(hào)流的多個(gè)訓(xùn)練樣本,并根據(jù)這些訓(xùn)練樣本訓(xùn)練形成初始識(shí)別模型。該初始識(shí)別模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過(guò)程后形成的特征模型,該注冊(cè)過(guò)程對(duì)訓(xùn)練語(yǔ)料或稱(chēng)語(yǔ)音信號(hào)流的訓(xùn)練樣本的長(zhǎng)短沒(méi)有要求。此時(shí),可以根據(jù)每一個(gè)說(shuō)話人的識(shí)別信號(hào)流與該初始識(shí)別模型的匹配度,來(lái)選取匹配成功的識(shí)別信號(hào)流(下文中會(huì)詳述)。
步驟s7,將識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)訓(xùn)練樣本對(duì)與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型進(jìn)行更新。
具體地,在獲取該匹配成功的初始識(shí)別模型后,根據(jù)該匹配成功的初始識(shí)別模型以及預(yù)設(shè)的識(shí)別信號(hào)流的訓(xùn)練樣本,調(diào)用聲紋注冊(cè)算法接口,生成修正識(shí)別模型。其中,該預(yù)設(shè)的訓(xùn)練樣本也即為生成上述初始識(shí)別模型所使用的訓(xùn)練樣本。上述修正識(shí)別模型則為更為精確的識(shí)別模型,利用該修正識(shí)別模型對(duì)上述初始識(shí)別模型進(jìn)行更新(也就是將修正識(shí)別模型作為初始識(shí)別模型進(jìn)行保存,以替換之前的初始識(shí)別模型),能夠達(dá)到模型自適應(yīng)與智能化 的目的。
本發(fā)明的優(yōu)選的實(shí)施例中,對(duì)于多個(gè)說(shuō)話人中每個(gè)說(shuō)話人的識(shí)別信號(hào)流都無(wú)法與初始識(shí)別模型進(jìn)行匹配的情況,可以根據(jù)用戶(hù)的預(yù)先設(shè)置新建識(shí)別模型并進(jìn)行記錄。例如,對(duì)于首次使用的智能終端,其初始識(shí)別模型為空值(null),因此任何新獲取的識(shí)別信號(hào)流都不可能與其進(jìn)行匹配。此時(shí)可以根據(jù)用戶(hù)的設(shè)置,識(shí)別其中某一個(gè)說(shuō)話人的識(shí)別信號(hào)流,調(diào)用聲紋注冊(cè)算法接口新建識(shí)別模型,并將其更新為初始識(shí)別模型。
本發(fā)明的優(yōu)選實(shí)施例中,通過(guò)獲取至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流,根據(jù)預(yù)設(shè)的說(shuō)話人分割與聚類(lèi)算法,并且經(jīng)過(guò)判斷分別獲取該初始語(yǔ)音信號(hào)流中該每個(gè)說(shuō)話人的識(shí)別信號(hào)流,進(jìn)而獲取與初始識(shí)別模型相匹配的識(shí)別信號(hào)流,并將匹配的初始識(shí)別模型的追加的識(shí)別信號(hào)流的訓(xùn)練樣本,對(duì)該初始識(shí)別模型進(jìn)行更新,達(dá)到了可以不斷地修正、更新識(shí)別模型,不斷提高識(shí)別模型的精確度,用戶(hù)體驗(yàn)效果得到提升等的目的。
實(shí)施例二:
圖2示出了本發(fā)明第二實(shí)施例提供的識(shí)別模型訓(xùn)練方法的實(shí)現(xiàn)流程,詳述如下:
步驟s21,根據(jù)預(yù)設(shè)的訓(xùn)練樣本建立復(fù)數(shù)個(gè)初始識(shí)別模型。
其中,該初始識(shí)別模型為通過(guò)調(diào)用聲紋注冊(cè)算法接口,根據(jù)預(yù)設(shè)的語(yǔ)音信號(hào)流的訓(xùn)練樣本建立的識(shí)別模型,該初始識(shí)別模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過(guò)程后形成的識(shí)別模型,該注冊(cè)過(guò)程對(duì)訓(xùn)練語(yǔ)料或稱(chēng)語(yǔ)音信號(hào)的流訓(xùn)練樣本的長(zhǎng)短沒(méi)有要求。且因?yàn)楸景l(fā)明實(shí)施例提供的方法可以實(shí)現(xiàn)對(duì)修正后的模型繼續(xù)動(dòng)態(tài)修正等操作,因此該初始識(shí)別模型可以為利用現(xiàn)有方法獲取的識(shí)別模型,也可以為利用本發(fā)明實(shí)施例的提供的方法進(jìn)行修正后的識(shí)別模型。
步驟s22,獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流。
具體實(shí)施例中,由于用戶(hù)在說(shuō)話過(guò)程或者多人會(huì)話等過(guò)程中,一般會(huì)出現(xiàn)變化較大的語(yǔ)速、語(yǔ)調(diào)、情緒波動(dòng)等,則通過(guò)不斷收集通話過(guò)程中的語(yǔ)料能夠盡量消除用戶(hù)的各種語(yǔ)調(diào)、語(yǔ)速、情緒等因素對(duì)于識(shí)別模型精確度的偏移,將會(huì)大大減少語(yǔ)調(diào)、語(yǔ)速、情緒等因素對(duì)識(shí)別模型精確度的影響,也能夠降低對(duì)聲紋識(shí)別準(zhǔn)確度的影響。
步驟s23,根據(jù)說(shuō)話人分割算法,將反饋語(yǔ)音流分割成多個(gè)語(yǔ)音分段。
步驟s24,根據(jù)說(shuō)話人聚類(lèi)算法,將多個(gè)語(yǔ)音分段進(jìn)行聚類(lèi),生成關(guān)聯(lián)于說(shuō)話人的語(yǔ)音信號(hào)流。
步驟s25,將識(shí)別信號(hào)流分別與預(yù)先形成的復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型。
該步驟s25具體包括:
將說(shuō)話人的識(shí)別信號(hào)流與復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取識(shí)別信號(hào)流與每個(gè)初始識(shí)別模型的匹配度;
選取符合預(yù)設(shè)條件的匹配度相關(guān)的初始識(shí)別模型作為匹配成功的初始識(shí)別模型。該預(yù)設(shè)條件包括:1)相關(guān)的匹配度大于一預(yù)設(shè)的匹配閾值;2)相關(guān)的匹配度在所有匹配度中的數(shù)值最高。
步驟s26,將識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,并依據(jù)訓(xùn)練樣本對(duì)與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型進(jìn)行更新。
該步驟s26具體包括:
根據(jù)該匹配成功的初始識(shí)別模型以及預(yù)設(shè)的語(yǔ)音信號(hào)流的訓(xùn)練樣本,生成修正識(shí)別模型;預(yù)設(shè)的語(yǔ)音信號(hào)流的訓(xùn)練樣本為生成初始識(shí)別模型的語(yǔ)音信號(hào)流;
更新該初始識(shí)別模型為該修正識(shí)別模型。
具體地,將識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,也即根據(jù)該匹配成功的識(shí)別信號(hào)流以及預(yù)設(shè)的語(yǔ)音信號(hào)流的訓(xùn)練樣本,調(diào)用聲紋注冊(cè)算法接口,生成修正識(shí)別模型,該修正識(shí)別模型為更為精確的識(shí)別模型(如上文中),達(dá)到了模型自適應(yīng)與智能化的目的。
進(jìn)一步地,還可以將更新后的識(shí)別模型作為初始識(shí)別模型,重復(fù)上述步驟,不斷地修正、更新識(shí)別模型,不斷提高識(shí)別模型的精確度。
本發(fā)明的優(yōu)選的實(shí)施例中,上述初始識(shí)別模型可以有多個(gè),對(duì)于每個(gè)初始識(shí)別模型都可以執(zhí)行上文中的步驟,即通過(guò)說(shuō)話人分割算法及說(shuō)話人聚類(lèi)算法獲得不同的識(shí)別信號(hào)流,并根據(jù)匹配度選擇最匹配的初始識(shí)別模型來(lái)生成關(guān)聯(lián)于該初始識(shí)別模型的修正識(shí)別模型,并對(duì)該初始識(shí)別模型進(jìn)行更新。上述多個(gè)初始識(shí)別模型分別對(duì)應(yīng)于不同的說(shuō)話人,即對(duì)應(yīng)于不同的初始識(shí)別模型的匹配度最高的識(shí)別信號(hào)流可以來(lái)源于不同的說(shuō)話人。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,的存儲(chǔ)介質(zhì),如rom/ram、磁盤(pán)、光盤(pán)等。
實(shí)施例三:
圖3示出了本發(fā)明第三實(shí)施例提供的識(shí)別模型訓(xùn)練系統(tǒng)的結(jié)構(gòu),本發(fā)明實(shí)施例三提供的終端可以用于實(shí)施本發(fā)明實(shí)施例一至二實(shí)現(xiàn)的方法,為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,具體技術(shù)細(xì)節(jié)未揭示的,請(qǐng)參照本發(fā)明實(shí)施例一與實(shí)施例二。
該識(shí)別模型訓(xùn)練系統(tǒng)可以為應(yīng)用于私人空間或者半開(kāi)放空間中并支持語(yǔ)音操作的智能終端,例如智能機(jī)器人等,則該實(shí)施例中以識(shí)別模型訓(xùn)練系統(tǒng)應(yīng)用于智能機(jī)器人中為例,圖3示出的是與本發(fā)明實(shí)施例提供的識(shí)別模型訓(xùn)練系統(tǒng)相關(guān)的結(jié)構(gòu)框圖。
如圖3所示,上述識(shí)別模型訓(xùn)練系統(tǒng)a具體包括:
獲取單元1,用于獲取包含至少一個(gè)說(shuō)話人的初始語(yǔ)音信號(hào)流并發(fā)送給與獲取單元1連接的第一匹配單元8;
第一匹配單元8用于將初始語(yǔ)音信號(hào)流與一預(yù)設(shè)的聲紋模型進(jìn)行匹配,獲取匹配成功的識(shí)別語(yǔ)音流,并輸出識(shí)別語(yǔ)音流;
獲取單元1還用于獲取說(shuō)話人的反饋語(yǔ)音流,并發(fā)送反饋語(yǔ)音流至與獲取單元連接的處理單元2;
處理單元2用于接收獲取單元1發(fā)送的反饋語(yǔ)音流,并根據(jù)預(yù)設(shè)的說(shuō)話人分割算法與說(shuō)話人聚類(lèi)算法,獲取反饋語(yǔ)音流關(guān)聯(lián)于說(shuō)話人的語(yǔ)音信號(hào)流,并將語(yǔ)音信號(hào)流發(fā)送給與處理單元2連接的判斷單元3;
判斷單元3用于判斷處理單元2發(fā)送的所有語(yǔ)音信號(hào)流中是否存在能夠作為識(shí)別對(duì)象的語(yǔ)音信號(hào)流,并將能夠作為識(shí)別對(duì)象的語(yǔ)音信號(hào)流作為識(shí)別信號(hào)流輸出至與判斷單元3連接的第二匹配單元4;
第二匹配單元4用于接收判斷單元3發(fā)送的關(guān)聯(lián)于說(shuō)話人的識(shí)別信號(hào)流,且將識(shí)別信號(hào)流分別與一預(yù)先形成的復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型,并將匹配成功的識(shí)別信號(hào)流發(fā)送給與第二匹配單元4連接的模型更新單元5;以及
模型更新單元5用于接收第二匹配單元4發(fā)送的匹配成功的初始識(shí)別模 型,并將匹配成功的識(shí)別信號(hào)流作為追加的識(shí)別信號(hào)流的訓(xùn)練樣本,以對(duì)與識(shí)別信號(hào)流匹配成功的初始識(shí)別模型進(jìn)行更新。
該實(shí)施例中,上述識(shí)別模型訓(xùn)練系統(tǒng)a進(jìn)一步包括:
樣本獲取單元6,用于獲取預(yù)設(shè)的訓(xùn)練樣本并發(fā)送給與樣本獲取單元連接的模型建立單元7;以及
模型建立單元7用于接收樣本獲取單元發(fā)送的預(yù)設(shè)的訓(xùn)練樣本并根據(jù)預(yù)設(shè)的訓(xùn)練樣本建立復(fù)數(shù)個(gè)初始識(shí)別模型。
實(shí)施例四:
圖4示出了本發(fā)明第四實(shí)施例提供的識(shí)別模型訓(xùn)練系統(tǒng)的結(jié)構(gòu)。如圖4所示,識(shí)別模型訓(xùn)練系統(tǒng)中的處理單元2具體包括:
分割模塊21,用于根據(jù)預(yù)設(shè)的說(shuō)話人分割算法,將反饋語(yǔ)音流分割成多個(gè)語(yǔ)音分段,并將所有語(yǔ)音分段發(fā)送給與分割模塊連接的聚類(lèi)模塊21;以及
聚類(lèi)模塊22用于接收分割模塊21發(fā)送的語(yǔ)音分段,并根據(jù)預(yù)設(shè)的說(shuō)話人聚類(lèi)算法,將多個(gè)語(yǔ)音分段進(jìn)行聚類(lèi),生成關(guān)聯(lián)于說(shuō)話人的語(yǔ)音信號(hào)流。
實(shí)施例五:
圖5示出了本發(fā)明第五實(shí)施例提供的識(shí)別模型訓(xùn)練系統(tǒng)的結(jié)構(gòu)。如圖5所示,識(shí)別模型訓(xùn)練系統(tǒng)中的第二匹配單元4具體包括:
匹配度獲取模塊41,用于將每個(gè)說(shuō)話人的識(shí)別信號(hào)流與復(fù)數(shù)個(gè)初始識(shí)別模型進(jìn)行匹配,獲取識(shí)別信號(hào)流與每個(gè)初始識(shí)別模型的匹配度,并將所有匹配度發(fā)送至與匹配度獲取模塊連接的信號(hào)流獲取模塊42;以及
信號(hào)流獲取模塊42用于接收匹配度獲取模塊41發(fā)送的所有匹配度,并選取大于預(yù)設(shè)的匹配閾值的多個(gè)匹配度中最高的匹配度所對(duì)應(yīng)初始識(shí)別模型。
實(shí)施例六:
圖6示出了本發(fā)明第六實(shí)施例提供的識(shí)別模型訓(xùn)練系統(tǒng)的結(jié)構(gòu)。如圖6所示,識(shí)別模型訓(xùn)練系統(tǒng)中的模型更新單元5具體包括:
修正模塊51,用于根據(jù)匹配成功的初始識(shí)別模型以及預(yù)設(shè)的訓(xùn)練樣本,生成修正識(shí)別模型并發(fā)送至與修正模塊連接的更新模塊52;以及
更新模塊52用于接收修正模塊51發(fā)送的修正識(shí)別模型,并以修正識(shí)別模型對(duì)初始識(shí)別模型進(jìn)行更新。
需要說(shuō)明的是,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開(kāi)的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來(lái)實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(ram)、內(nèi)存、只讀存儲(chǔ)器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。
以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。