本發(fā)明屬于智能家居技術(shù)領(lǐng)域,特別涉及一種智能家居語(yǔ)音交互系統(tǒng)。
背景技術(shù):
在實(shí)際家庭環(huán)境、辦公環(huán)境中,多人同時(shí)說(shuō)話的場(chǎng)合很多。用戶做語(yǔ)音控制時(shí),其他在場(chǎng)人員的語(yǔ)音會(huì)干擾系統(tǒng)造成誤判。所以,現(xiàn)有技術(shù)中,對(duì)于智能家庭設(shè)備語(yǔ)音控制,語(yǔ)音使用場(chǎng)景中如果同時(shí)有多人說(shuō)話時(shí),難以辨識(shí)出真正與系統(tǒng)語(yǔ)音交互的用戶語(yǔ)音。如果同時(shí)有多個(gè)用戶與系統(tǒng)語(yǔ)音交互時(shí),系統(tǒng)也難以分別響應(yīng)的問(wèn)題。如果用戶要求其他人員不說(shuō)話,會(huì)造成極大極大不便,也不太現(xiàn)實(shí)。
技術(shù)實(shí)現(xiàn)要素:
為了解決多人聲場(chǎng)景下難以準(zhǔn)確識(shí)別語(yǔ)音指令使語(yǔ)音交互控制智能家居的適用場(chǎng)景大受限制這一問(wèn)題,本發(fā)明基于此提出了一種基于多人聲分離的智能家居語(yǔ)音交互系統(tǒng),使語(yǔ)音控制的適用場(chǎng)合更為廣泛。
一種智能家居語(yǔ)音交互系統(tǒng),包括以下步驟:
A1,使用麥克風(fēng)陣列采集聲音樣本后,經(jīng)過(guò)信號(hào)降噪和語(yǔ)音檢測(cè);
A2,如果聲音樣本中包含語(yǔ)音信號(hào),則采用2D_MUSIC算法估計(jì)信號(hào)源數(shù)目和方位;
A3,根據(jù)信號(hào)源方位,依照MV_Bearnforning計(jì)算信號(hào)的權(quán)向量,做加權(quán)處理,形成聲音樣本的語(yǔ)音波束;
A4,與已經(jīng)保存在系統(tǒng)的語(yǔ)音波束系列進(jìn)行聲紋匹配,如果有未匹配成功的,則將未匹配成功的語(yǔ)音波束加入系列列表;
A5,定時(shí)根據(jù)聲紋聚類,將近似的語(yǔ)音波束聚合為同一類語(yǔ)音信號(hào),系統(tǒng)對(duì)同一類語(yǔ)音信號(hào)認(rèn)為是同一人語(yǔ)音。
系統(tǒng)為每一個(gè)人創(chuàng)建單獨(dú)的處理線程,分別對(duì)聲源進(jìn)行語(yǔ)音識(shí)別,對(duì)于每一個(gè)說(shuō)話人,系統(tǒng)創(chuàng)建一個(gè)單獨(dú)的語(yǔ)義上下文環(huán)境;
如果系統(tǒng)識(shí)別到用戶的語(yǔ)義與系統(tǒng)提供指令功能匹配時(shí),則認(rèn)為是用戶指令,系統(tǒng)分析用戶意圖,執(zhí)行指令;
當(dāng)有多個(gè)用戶同時(shí)發(fā)出指令時(shí),系統(tǒng)分別執(zhí)行;
當(dāng)用戶發(fā)出指令有沖突時(shí),系統(tǒng)給予用戶語(yǔ)音反饋。
本發(fā)明集合了現(xiàn)有的聲紋識(shí)別、話人跟蹤、麥克風(fēng)陣列采樣分析、波束形成、語(yǔ)音識(shí)別、基于上下文的語(yǔ)義理解、語(yǔ)義關(guān)鍵詞匹配等技術(shù)。
本發(fā)明的有益效果是:在室內(nèi)有多人同時(shí)說(shuō)話時(shí),系統(tǒng)通過(guò)分離出不同人的聲音信息,分別進(jìn)行語(yǔ)音識(shí)別、語(yǔ)義處理、獨(dú)立出各自的上下文對(duì)話場(chǎng)景,提高多人聲場(chǎng)景語(yǔ)音交互時(shí),指令識(shí)別的準(zhǔn)確率。當(dāng)多人說(shuō)話的語(yǔ)音聲源同時(shí)處在麥克風(fēng)陣列監(jiān)聽范圍內(nèi),意圖和系統(tǒng)語(yǔ)音交互的用戶不必刻意提高音量、不必刻意靠近麥克風(fēng)陣列,不必要求周圍人降低音量或暫停說(shuō)話,可以直接和系統(tǒng)正常語(yǔ)音交互。從而使語(yǔ)音交互真正成為能適應(yīng)復(fù)雜場(chǎng)合的短距離非接觸的交互方式,減少了使用語(yǔ)音交互的限制,大幅度提高語(yǔ)音控制的使用場(chǎng)合,為現(xiàn)代人室內(nèi)生活提供一種無(wú)需隨身設(shè)備載體、簡(jiǎn)便智能的人機(jī)交互。
本發(fā)明點(diǎn)的創(chuàng)新點(diǎn)還在于:本系統(tǒng)不僅將語(yǔ)音別處理,而且能在一段時(shí)間的多人對(duì)話中,分析出人與人的對(duì)話、人與系統(tǒng)的對(duì)話,再通過(guò)多人場(chǎng)景語(yǔ)境語(yǔ)義分析,獲取多人場(chǎng)景下用戶的一個(gè)或多個(gè)指令,給出統(tǒng)一或區(qū)別回復(fù)。如此實(shí)現(xiàn)一個(gè)人機(jī)共生的良好交互手段,進(jìn)一步將智能家居的語(yǔ)音交互智能化、廣適化。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中的步驟流程示意圖。
具體實(shí)施方式
麥克風(fēng)陣列采集聲音樣本后,經(jīng)過(guò)先進(jìn)行信號(hào)降噪、多人語(yǔ)音分離。麥克風(fēng)陣列中各個(gè)麥克風(fēng)接收到的聲音聲源強(qiáng)弱,結(jié)合2D_MUSIC算法估計(jì)信源數(shù)目和方位,再根據(jù)方位信息,依照MV_Bearnforning計(jì)算各個(gè)麥克風(fēng)收到信號(hào)的權(quán)向量,做加權(quán)處理,形成波束。隨后按照?qǐng)D1所示,將聲音波束先按定位聚類。對(duì)于有間斷且方位信息不同的聲源,做聲紋相似度聚類。系統(tǒng)將聚為同一類的聲源信號(hào)認(rèn)為是同一人的語(yǔ)音信息。至此,實(shí)現(xiàn)了多人語(yǔ)音聲源分離、說(shuō)話人識(shí)別。
完成聲源分離、話人識(shí)別的語(yǔ)音信息,系統(tǒng)將為每一個(gè)人創(chuàng)建單獨(dú)的處理線程,分別對(duì)聲源進(jìn)行語(yǔ)音識(shí)別。對(duì)于每一個(gè)說(shuō)話人,系統(tǒng)創(chuàng)建一個(gè)單獨(dú)的語(yǔ)義上下文環(huán)境。如果系統(tǒng)識(shí)別到用戶的語(yǔ)義與系統(tǒng)提供功能匹配,則認(rèn)為是用戶指令,系統(tǒng)分析用戶意圖,執(zhí)行指令。當(dāng)有多個(gè)用戶同時(shí)發(fā)出指令時(shí),系統(tǒng)分別執(zhí)行。當(dāng)用戶發(fā)出指令有沖突時(shí),系統(tǒng)給予用戶語(yǔ)音反饋。
本發(fā)明涉及的2D_MUSIC算法和MV_Bearnforning算法可以參考文獻(xiàn):
[1][2]林靜然,基于麥克風(fēng)陣列的說(shuō)話人跟蹤及語(yǔ)音分離實(shí)現(xiàn)技術(shù)的研究,電子科技大學(xué),碩士學(xué)位論文,2005