本發(fā)明涉及語音交互,具體為一種語音交互系統(tǒng)及語音交互方法。
背景技術(shù):
1、音箱是整個(gè)音響系統(tǒng)的終端,其作用是把音頻電能轉(zhuǎn)換成相應(yīng)的聲能,并把它輻射到空間去。它是音響系統(tǒng)極其重要的組成部分,因?yàn)樗鼡?dān)負(fù)著把電信號轉(zhuǎn)變成聲信號供人的耳朵直接聆聽這么一個(gè)關(guān)鍵任務(wù),可以認(rèn)為,音箱的性能高低對一個(gè)音響系統(tǒng)的放音質(zhì)量是起著關(guān)鍵作用。一般的音箱接上電源,接上外部設(shè)備,如手機(jī)、電腦、mp3等,向其輸送音頻數(shù)據(jù)時(shí),音箱能夠根據(jù)數(shù)據(jù)進(jìn)行播放。
2、經(jīng)檢索,中國專利號為cn110503943b的專利,公開了一種語音交互方法以及語音交互系統(tǒng)。該方法包括:預(yù)處理步驟,對輸入的語音信息進(jìn)行預(yù)處理并輸出語音段;語義識別步驟,對所述預(yù)處理步驟輸出的語音段進(jìn)行語義識別并輸出語義信息;性別分類步驟,對所述預(yù)處理步驟輸出的語音段識別出用戶性別并輸出性別信息;以及融合處理步驟,融合所述性別信息和所述語義信息而獲得對于所述語音信息的個(gè)性化回復(fù)信息。根據(jù)本發(fā)明的音交互方法以及語音交互系統(tǒng),能夠根據(jù)用戶的性別進(jìn)行區(qū)分回復(fù),提高用戶體驗(yàn),提高語音交互的智能化。
3、經(jīng)檢索,中國專利號為cn110503943a的專利,公開了一種語音交互方法以及語音交互系統(tǒng)。該方法包括:預(yù)處理步驟,對輸入的語音信息進(jìn)行預(yù)處理并輸出語音段;語義識別步驟,對所述預(yù)處理步驟輸出的語音段進(jìn)行語義識別并輸出語義信息;性別分類步驟,對所述預(yù)處理步驟輸出的語音段識別出用戶性別并輸出性別信息;以及融合處理步驟,融合所述性別信息和所述語義信息而獲得對于所述語音信息的個(gè)性化回復(fù)信息。根據(jù)本發(fā)明的音交互方法以及語音交互系統(tǒng),能夠根據(jù)用戶的性別進(jìn)行區(qū)分回復(fù),提高用戶體驗(yàn),提高語音交互的智能化。
4、但現(xiàn)有的語音交互系統(tǒng)對于用戶的個(gè)性化需求支持不足,每個(gè)用戶都有自己的語言習(xí)慣和表達(dá)方式,而傳統(tǒng)的語音交互系統(tǒng)往往只能識別和處理標(biāo)準(zhǔn)化的語音指令,對于用戶的個(gè)性化需求難以滿足,限制了語音交互系統(tǒng)的應(yīng)用場景和用戶體驗(yàn)。基于此,本發(fā)明設(shè)計(jì)了一種語音交互系統(tǒng)及語音交互方法,以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種語音交互系統(tǒng)及語音交互方法,解決了背景技術(shù)中個(gè)性化難以滿足的問題。
2、為了解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種語音交互系統(tǒng),包括語音采集模塊、語音識別模塊、語義理解模塊、響應(yīng)生成模塊、輸出模塊和控制模塊;
3、所述語音采集模塊用于采集用戶的語音輸入,并將采集到的語音信號轉(zhuǎn)換為數(shù)字信號;
4、所述語音識別模塊與語音采集模塊配合,用于接收數(shù)字信號,對數(shù)字信號進(jìn)行語音識別處理,將數(shù)字信號轉(zhuǎn)換為文本信息;
5、所述語義理解模塊與語音識別模塊配合,用于接收文本信息,對文本信息進(jìn)行語義分析和理解,確定用戶的意圖和需求;
6、所述響應(yīng)生成模塊與語義理解模塊連接,根據(jù)用戶的意圖和需求,生成相應(yīng)的響應(yīng)文本或語音信號;
7、所述輸出模塊與響應(yīng)生成模塊配合,用于將響應(yīng)文本或語音信號輸出給用戶;
8、所述控制模塊與其他各所述模塊連接,用于協(xié)調(diào)和控制各模塊之間的數(shù)據(jù)交互和功能執(zhí)行。
9、一種語音交互系統(tǒng)的語音交互方法,
10、步驟s1:通過所述語音采集模塊采集用戶的語音輸入,并將采集到的語音信號轉(zhuǎn)換為數(shù)字信號,并輸入至所述語音識別模塊進(jìn)行語音識別處理;
11、步驟s2:所述語音識別模塊處理接收數(shù)字信號后,將語音信號轉(zhuǎn)換為文本信息,便于后續(xù)的分析與理解;
12、步驟s3:將文本信息輸入至所述語義理解模塊進(jìn)行語義分析和理解,確定用戶的意圖和需求;
13、步驟s4:根據(jù)用戶的意圖和需求,通過所述響應(yīng)生成模塊生成相應(yīng)的響應(yīng)文本或語音信號;
14、步驟s5:將響應(yīng)文本或語音信號通過所述輸出模塊輸出給用戶,所述控制模塊與各模塊連接,用于協(xié)調(diào)和控制各模塊之間的數(shù)據(jù)交互和功能執(zhí)行。
15、優(yōu)選的,所述語音采集模塊包括拾音模塊與第一主控模塊,所述拾音模塊包括多個(gè)以陣列方式排布的麥克風(fēng),用于聲音的接收;所述語音識別模塊還包括usb接入判斷模塊。
16、優(yōu)選的,所述語音識別模塊包括cpu控制處理模塊與第二主控模塊,采用深度學(xué)習(xí)算法進(jìn)行語音識別處理,能夠識別多種語言和口音的語音信號。
17、優(yōu)選的,所述語義理解模塊包括知識庫子模塊與第三主控模塊,用于存儲與用戶意圖和關(guān)鍵信息相關(guān)的領(lǐng)域知識,輔助所述語義理解模塊進(jìn)行意圖識別和關(guān)鍵信息提取,所述第三主控模塊與cpu控制處理模塊之間為電性連接;所述語音識別處理還包括性別分類處理與統(tǒng)一處理,識別出用戶性別并輸出性別信息,并統(tǒng)一處理性別信息和語義信息而獲得對于所述語音信息的個(gè)性化回復(fù)信息。
18、優(yōu)選的,所述響應(yīng)生成模塊包括個(gè)性化響應(yīng)子模塊,用于根據(jù)用戶的個(gè)人偏好和歷史交互記錄生成個(gè)性化的響應(yīng)內(nèi)容;所述輸出模塊包括音頻口與喇叭,用于聲音的最終傳遞。
19、優(yōu)選的,所述控制模塊與cpu控制處理模塊之間為電性連接,所述控制模塊還包括濾波器模塊,用于提取與構(gòu)造濾波器的輸出聲學(xué)特征,將濾波器的輸出聲學(xué)特征以及文件輸入整體模型中進(jìn)行模型訓(xùn)練直至模型收斂。
20、優(yōu)選的,所述步驟s2中,所述語音識別模塊還包括噪聲抑制子模塊,用于對數(shù)字信號進(jìn)行噪聲抑制處理,以提高語音識別的準(zhǔn)確性。
21、優(yōu)選的,所述步驟s3中,還包括利用知識庫子模塊中的領(lǐng)域知識輔助語義理解模塊進(jìn)行意圖識別和關(guān)鍵信息提取。
22、優(yōu)選的,所述步驟s4中,還包括利用個(gè)性化響應(yīng)子模塊根據(jù)用戶的個(gè)人偏好和歷史交互記錄生成個(gè)性化的響應(yīng)內(nèi)容。
23、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果是:
24、1、本發(fā)明,語義理解模塊的知識庫子模塊用于存儲與用戶意圖和關(guān)鍵信息相關(guān)的領(lǐng)域知識,為語義理解和意圖識別提供豐富的背景信息,而第三主控模塊負(fù)責(zé)控制語義理解過程,將文本信息輸入到知識庫中進(jìn)行比對和分析,確定用戶的意圖和需求,提高對使用者的適配度,滿足用戶的個(gè)性化需求。
25、2、本發(fā)明,語音識別模塊的cpu控制處理模塊作為該模塊的核心處理器,負(fù)責(zé)執(zhí)行語音識別算法,將數(shù)字信號轉(zhuǎn)換為文本信息。第二主控模塊與cpu控制處理模塊協(xié)同工作,管理整個(gè)識別過程,包括數(shù)據(jù)的接收、處理和輸出。噪聲抑制子模塊對數(shù)字信號進(jìn)行噪聲抑制處理,去除背景噪聲、回聲等干擾因素,提高語音識別的準(zhǔn)確性。
1.一種語音交互系統(tǒng),包括語音采集模塊、語音識別模塊、語義理解模塊、響應(yīng)生成模塊、輸出模塊和控制模塊,其特征在于:
2.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng)的語音交互方法,其特征在于:包括以下步驟:
3.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng),其特征在于:所述語音采集模塊包括拾音模塊與第一主控模塊,所述拾音模塊包括多個(gè)以陣列方式排布的麥克風(fēng),用于聲音的接收;所述語音識別模塊還包括usb接入判斷模塊。
4.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng),其特征在于:所述語音識別模塊包括cpu控制處理模塊與第二主控模塊,采用深度學(xué)習(xí)算法進(jìn)行語音識別處理,能夠識別多種語言和口音的語音信號。
5.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng),其特征在于:所述語義理解模塊包括知識庫子模塊與第三主控模塊,用于存儲與用戶意圖和關(guān)鍵信息相關(guān)的領(lǐng)域知識,輔助所述語義理解模塊進(jìn)行意圖識別和關(guān)鍵信息提取,所述第三主控模塊與cpu控制處理模塊之間為電性連接;所述語音識別處理還包括性別分類處理與統(tǒng)一處理,識別出用戶性別并輸出性別信息,并統(tǒng)一處理性別信息和語義信息而獲得對于所述語音信息的個(gè)性化回復(fù)信息。
6.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng),其特征在于:所述響應(yīng)生成模塊包括個(gè)性化響應(yīng)子模塊,用于根據(jù)用戶的個(gè)人偏好和歷史交互記錄生成個(gè)性化的響應(yīng)內(nèi)容;所述輸出模塊包括音頻口與喇叭,用于聲音的最終傳遞。
7.根據(jù)權(quán)利要求1所述的一種語音交互系統(tǒng),其特征在于:所述控制模塊與cpu控制處理模塊之間為電性連接,所述控制模塊還包括濾波器模塊,用于提取與構(gòu)造濾波器的輸出聲學(xué)特征,將濾波器的輸出聲學(xué)特征以及文件輸入整體模型中進(jìn)行模型訓(xùn)練直至模型收斂。
8.根據(jù)權(quán)利要求2所述的一種語音交互方法,其特征在于:所述步驟s2中,所述語音識別模塊還包括噪聲抑制子模塊,用于對數(shù)字信號進(jìn)行噪聲抑制處理,以提高語音識別的準(zhǔn)確性。
9.根據(jù)權(quán)利要求2所述的一種語音交互方法,其特征在于:所述步驟s3中,還包括利用知識庫子模塊中的領(lǐng)域知識輔助語義理解模塊進(jìn)行意圖識別和關(guān)鍵信息提取。
10.根據(jù)權(quán)利要求2所述的一種語音交互方法,其特征在于:所述步驟s4中,還包括利用個(gè)性化響應(yīng)子模塊根據(jù)用戶的個(gè)人偏好和歷史交互記錄生成個(gè)性化的響應(yīng)內(nèi)容。