本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種基于語義識(shí)別的語音交互方法及裝置。
背景技術(shù):
目前,用戶在駕駛的過程中使用的導(dǎo)航軟件基本是手動(dòng)操作的,在用戶駕駛車輛的過程中手動(dòng)操作導(dǎo)航軟件完成輸入等操作,不僅操作不便,同時(shí)也存在很大的安全隱患。
現(xiàn)有的語音導(dǎo)航都是基于用戶輸入的目的地信息與導(dǎo)航內(nèi)存儲(chǔ)的地點(diǎn)信息進(jìn)行匹配,若匹配成功,將該地點(diǎn)的導(dǎo)航數(shù)據(jù)以語音播報(bào)的形式反饋給用戶。使用該類語音導(dǎo)航的前提是用戶必須知道明確的目的地,如果用戶處于不熟悉的環(huán)境或者不知道明確的目的地,或者對(duì)于目的地只有模糊意圖,那么現(xiàn)有的語音導(dǎo)航則不能滿足用戶需求。
基于上述情況,亟需一種能夠識(shí)別用戶的模糊意圖,并基于該識(shí)別結(jié)果為用戶提供導(dǎo)航路線的語音導(dǎo)航。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種基于語義識(shí)別的語音交互方法及裝置,可以在用戶僅有模糊意圖的情況下,通過服務(wù)器識(shí)別用戶的語音輸入,并基于該識(shí)別結(jié)果,與用戶進(jìn)行多輪語音交互,最終為用戶提供準(zhǔn)確的導(dǎo)航服務(wù)。
為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
第一方面,本發(fā)明實(shí)施例提供了一種基于語義識(shí)別的語音交互方法,包括:
響應(yīng)于用戶對(duì)語音交互指令的觸發(fā),開啟語音交互功能;
接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
優(yōu)選地,所述基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答,包括:
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行多輪的語音對(duì)答;
基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖為所述用戶提供可選擇的導(dǎo)航策略。
優(yōu)選地,所述方法還包括:
在為所述用戶進(jìn)行導(dǎo)航的過程中,與所述用戶進(jìn)行語音對(duì)答;
基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖調(diào)整導(dǎo)航策略。
優(yōu)選地,所述方法還包括:
在所述服務(wù)器對(duì)所述語音信息的識(shí)別過程中發(fā)生異常時(shí),將所述語音交互切換為人工服務(wù)。
優(yōu)選地,在所述服務(wù)器對(duì)所述語音信息的識(shí)別過程中發(fā)生異常時(shí),將所述語音交互切換為人工服務(wù),包括:
在所述服務(wù)器對(duì)所述語音信息的識(shí)別時(shí)長超過設(shè)定閾值,和\或,所述服務(wù)器的軟硬件發(fā)生報(bào)錯(cuò)時(shí),將所述語音交互切換為人工服務(wù)。
優(yōu)選地,所述接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語音義識(shí)別,包括:
接收用戶的語音信息,所述語音信息為音頻格式;
將音頻格式的所述語音信息轉(zhuǎn)換為文本格式的文字信息,并將所述文字信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別。
優(yōu)選地,所述方法還包括:
人工服務(wù)系統(tǒng)對(duì)語音對(duì)答過程進(jìn)行監(jiān)控,并在確定所述服務(wù)器發(fā)生語義識(shí)別異常時(shí),將所述語音交互切換為人工服務(wù)。
優(yōu)選地,所述用戶觸發(fā)語音交互指令的方式,包括:
通過預(yù)設(shè)的語音觸發(fā),和\或,通過手動(dòng)觸發(fā)預(yù)設(shè)物理按鈕或人機(jī)交互界面上的預(yù)設(shè)觸控按鈕。
第二方面,本發(fā)明實(shí)施例提供了一種基于語義識(shí)別的語音交互裝置,包括:
開啟語音單元,用于響應(yīng)于用戶對(duì)語音交互單元的觸發(fā),開啟語音交互功能;
發(fā)送單元,用于接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
對(duì)答單元,用于基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
開啟導(dǎo)航單元,用于在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
優(yōu)選地,所述對(duì)答單元,包括:
對(duì)答子單元,用于基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行多輪的語音對(duì)答;
分析子單元,用于基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖為所述用戶提供可選擇的導(dǎo)航策略。
優(yōu)選地,所述裝置還包括:
導(dǎo)航對(duì)答單元,用于在為所述用戶進(jìn)行導(dǎo)航的過程中,與所述用戶進(jìn)行語音對(duì)答;
調(diào)整單元,用于基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖調(diào)整導(dǎo)航策略。
第三方面,本發(fā)明還提供一種用于基于語義識(shí)別的語音交互的裝置,包括有存儲(chǔ)器,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一個(gè)以上程序存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
響應(yīng)于用戶觸發(fā)的語音交互指令,開啟語音交互功能;
接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
本發(fā)明實(shí)施例提供的基于語義識(shí)別的語音交互方法中,語音導(dǎo)航終端響應(yīng) 于用戶觸發(fā)的語音交互指令,開啟語音交互功能。在所述語音導(dǎo)航終端接收到用戶的語音信息后,將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別?;谒龇?wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,所述語音導(dǎo)航終端與所述用戶進(jìn)行語音對(duì)答。在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),所述語音導(dǎo)航指令開啟導(dǎo)航模式。利用本發(fā)明提供的基于語義識(shí)別的語音交互方法,可以在用戶僅有模糊意圖的情況下,通過服務(wù)器識(shí)別用戶的語音輸入,并基于該識(shí)別結(jié)果,與用戶進(jìn)行多輪語音交互,最終為用戶提供準(zhǔn)確的導(dǎo)航服務(wù)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的基于語義識(shí)別的語音交互方法流程圖;
圖2為本發(fā)明另一實(shí)施例提供的基于語義識(shí)別的語音交互方法流程圖;
圖3為本發(fā)明一實(shí)施例提供的基于語義識(shí)別的語音交互裝置示意圖;
圖4是根據(jù)一示例性實(shí)施例示出的一種用于基于語義識(shí)別的語音交互裝置的框圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種基于語義識(shí)別的語音交互方法及裝置,可以在用戶僅有模糊意圖的情況下,通過服務(wù)器識(shí)別用戶的語音輸入,并基于該識(shí)別結(jié)果,與用戶進(jìn)行多輪語音交互,最終為用戶提供準(zhǔn)確的導(dǎo)航服務(wù)。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供的基于語義識(shí)別的語音交互方法可以應(yīng)用于語音導(dǎo)航 終端,其中,所述語音導(dǎo)航終端用于為駕駛中的用戶提供語音導(dǎo)航服務(wù)。所述語音導(dǎo)航終端可以包括車載終端、智能手機(jī)、平板電腦等現(xiàn)有的、或者正在研發(fā)的設(shè)備。所述語音導(dǎo)航終端通過網(wǎng)絡(luò)與用于語義識(shí)別的服務(wù)器進(jìn)行數(shù)據(jù)通信,在與用戶進(jìn)行語音對(duì)答的過程中,通過網(wǎng)絡(luò)將用戶通過語音輸入的語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別,所述服務(wù)器在分析出語義識(shí)別結(jié)果后,將其通過網(wǎng)絡(luò)返回至語音導(dǎo)航終端,最終由語音導(dǎo)航終端以語音的形式將語義識(shí)別結(jié)果播報(bào)出來,實(shí)現(xiàn)語音導(dǎo)航終端與用戶的語音交互。需要注意的是,上述應(yīng)用場(chǎng)景僅是為了便于理解本發(fā)明而示出,本發(fā)明的實(shí)施方式在此方面不受任何限制。相反,本發(fā)明的實(shí)施方式可以應(yīng)用于適用的任何場(chǎng)景。
下面將結(jié)合附圖1和附圖2對(duì)本發(fā)明示例性實(shí)施例示出的基于語義識(shí)別的語音交互方法進(jìn)行介紹。
參見圖1,為本發(fā)明一實(shí)施例提供的基于語義識(shí)別的語音交互方法流程圖。如圖1所示,可以包括:
s101:語音導(dǎo)航終端響應(yīng)于用戶觸發(fā)的語音交互指令,開啟語音交互功能。
實(shí)際應(yīng)用中,當(dāng)語音導(dǎo)航終端在檢測(cè)到用戶觸發(fā)的語音交互指令時(shí),為了響應(yīng)于所述語音交互指令,所述語音導(dǎo)航終端開啟語音交互功能。
具體的,用戶觸發(fā)語音交互指令的方式可以包括但不限定于以下兩種:
第一種:用戶通過預(yù)設(shè)的語音觸發(fā)語音交互指令,具體的,語音導(dǎo)航終端中預(yù)先設(shè)置可以觸發(fā)語音交互指令的語音,如“語音交互開啟”,當(dāng)用戶說出“語音交互開啟”,且語音導(dǎo)航終端檢測(cè)到“語音交互開啟”的語音時(shí),將語音導(dǎo)航終端的語音交互功能開啟,此時(shí)所述語音導(dǎo)航終端處于實(shí)時(shí)檢測(cè)是否存在語音信息的狀態(tài)。
第二種:用戶通過手動(dòng)觸發(fā)預(yù)設(shè)物理按鈕或人機(jī)交互界面上的預(yù)設(shè)觸控按鈕,對(duì)語音交互指令進(jìn)行觸發(fā)。
s102:語音導(dǎo)航終端接收用戶的語音信息后,將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別。
當(dāng)語音導(dǎo)航終端檢測(cè)到用戶的語音信息后,通過網(wǎng)絡(luò)將所述語音信息發(fā)送至預(yù)先連接的服務(wù)器進(jìn)行語義識(shí)別。為了節(jié)約網(wǎng)絡(luò)的帶寬,語音導(dǎo)航終端可以 在發(fā)送語音信息之前,先將音頻格式的語音信息轉(zhuǎn)換為文本格式的文字信息,然后通過網(wǎng)絡(luò)將所述文本格式的文字信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別,所述服務(wù)器用于對(duì)用戶通過語音輸入的語音信息進(jìn)行模糊語義識(shí)別。
s103:基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,語音導(dǎo)航終端與所述用戶進(jìn)行語音對(duì)答。
一種實(shí)施方式中,通過統(tǒng)計(jì)大量用戶針對(duì)同一個(gè)關(guān)鍵詞的問答信息,并利用合適的融合算法將統(tǒng)計(jì)的信息進(jìn)行融合,最終得到各種關(guān)鍵詞的信息融合模型。用于語義識(shí)別的服務(wù)器中安裝有各種關(guān)鍵詞的信息融合模型,當(dāng)所述服務(wù)器接收到任一語音信息時(shí),首先對(duì)該語音信息進(jìn)行詞組切分處理,如對(duì)將“我要去北航”切分成“我要去\北航”后得到“北航”這個(gè)關(guān)鍵詞,其次利用信息融合模型匹配“北航”對(duì)應(yīng)的信息,并確定出“我要去北航”的語義識(shí)別結(jié)果。
實(shí)際應(yīng)用中,針對(duì)一個(gè)用戶需求,語音導(dǎo)航終端可能會(huì)與用戶進(jìn)行多次語音交互,形成用戶與語音導(dǎo)航終端對(duì)答的模式。舉例說明,u表示用戶,s表示語音導(dǎo)航終端,具體的:
u:我要去北航。
s:您要去主校區(qū)還是沙河校區(qū)?
u:學(xué)院路那個(gè)
s:北航主校區(qū)位于學(xué)院路,東門是正門,北門離您較近,您要去東門還是北門?
u:車能開進(jìn)去的
s:東南門是車行門,確認(rèn)去這里嗎?
u:好
上述例子說明,針對(duì)用戶去北航的需求,語音導(dǎo)航終端與用戶進(jìn)行了四次語音對(duì)答,期間語音導(dǎo)航終端每次接收到用戶的語音信息后均會(huì)發(fā)送至服務(wù)器,由所述服務(wù)器進(jìn)行語義識(shí)別后向語音導(dǎo)航終端返回語義識(shí)別結(jié)果后,最終由語音導(dǎo)航終端將語義識(shí)別結(jié)果播報(bào)出來作為對(duì)用戶語音信息的應(yīng)答。
實(shí)際應(yīng)用中,語音導(dǎo)航終端在與用戶進(jìn)行多輪的語音對(duì)答時(shí),用于語音識(shí)別的服務(wù)器能夠根據(jù)語音導(dǎo)航終端與用戶的語音對(duì)答內(nèi)容分析出所述用戶的 意圖,并能夠根據(jù)分析出的用戶的意圖,為所述用戶提供可選擇的多條導(dǎo)航策略,用戶可以從中選擇出一條最滿意的導(dǎo)航策略,用于所述語音導(dǎo)航終端為用戶提供導(dǎo)航服務(wù)。
s104:在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),語音導(dǎo)航終端開啟導(dǎo)航模式。
實(shí)際應(yīng)用中,語音導(dǎo)航終端中預(yù)先設(shè)置有能夠觸發(fā)導(dǎo)航指令的語義識(shí)別結(jié)果,如上述例子中的“好”。也就是說,如果語音導(dǎo)航終端收到來自用于語義識(shí)別的服務(wù)器的語義識(shí)別結(jié)果為“好”,則會(huì)觸發(fā)預(yù)設(shè)的導(dǎo)航指令,最終使得語音導(dǎo)航終端開始導(dǎo)航模式,開始為用戶提供導(dǎo)航服務(wù)。
實(shí)際應(yīng)用中,在所述語音導(dǎo)航終端為用戶提供導(dǎo)航服務(wù)的過程中,如果用戶想要更換導(dǎo)航策略,也可以與所述語音導(dǎo)航終端再次進(jìn)行語音對(duì)答,并根據(jù)與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,最終為所述用戶調(diào)整導(dǎo)航策略。
本發(fā)明實(shí)施例提供的基于語義識(shí)別的語音交互方法中,語音導(dǎo)航終端響應(yīng)于用戶觸發(fā)的語音交互指令,開啟語音交互功能。在所述語音導(dǎo)航終端接收到用戶的語音信息后,將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別?;谒龇?wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,所述語音導(dǎo)航終端與所述用戶進(jìn)行語音對(duì)答。在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),所述語音導(dǎo)航指令開啟導(dǎo)航模式。利用本發(fā)明提供的基于語義識(shí)別的語音交互方法,可以在用戶僅有模糊意圖的情況下,不能直接提供準(zhǔn)確目的地的情況下,通過服務(wù)器識(shí)別用戶的語音輸入,并基于該識(shí)別結(jié)果與用戶進(jìn)行多輪的語音交互,最終為用戶提供準(zhǔn)確的導(dǎo)航服務(wù)。
基于模糊語義識(shí)別技術(shù)的成熟度限制,本發(fā)明中的用于語義識(shí)別的服務(wù)器可能出現(xiàn)對(duì)語音信息識(shí)別的異常情況,為此,本發(fā)明實(shí)施例將語音導(dǎo)航終端的語音交互功能與人工服務(wù)功能靈活切換,在所述服務(wù)器進(jìn)行語義識(shí)別的過程中發(fā)生異常時(shí),所述語音導(dǎo)航終端將語音交互切換為人工服務(wù),繼續(xù)為用戶提供準(zhǔn)確的導(dǎo)航服務(wù)。
參見圖2,為本發(fā)明另一實(shí)施例提供的基于語義識(shí)別的語音交互方法流程 圖。如圖2所示,可以包括:
s201:語音導(dǎo)航終端響應(yīng)于用戶對(duì)語音交互指令的觸發(fā),開啟語音交互功能。
s202:語音導(dǎo)航終端接收用戶的語音信息后,將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別。
s203:當(dāng)所述語音導(dǎo)航終端檢測(cè)到所述服務(wù)器對(duì)所述語音信息的識(shí)別過程中發(fā)生異常時(shí),將所述語音交互切換為人工服務(wù)。
具體的,所述服務(wù)器進(jìn)行語義識(shí)別的過程中發(fā)生異常的情況包括但不僅限于以下兩種:
第一種,所述服務(wù)器對(duì)所述語音信息進(jìn)行語義識(shí)別的過程中發(fā)生超時(shí),即對(duì)所述語音信息的識(shí)別時(shí)長超過設(shè)定閾值。
第二種,所述服務(wù)器的軟硬件發(fā)生報(bào)錯(cuò),即在用戶使用語音導(dǎo)航終端的過程中,由于服務(wù)器的軟硬件的問題而發(fā)生的報(bào)錯(cuò)。
s204:人工服務(wù)系統(tǒng)對(duì)語音對(duì)答過程進(jìn)行監(jiān)控的過程中,在確定所述服務(wù)器發(fā)生語義識(shí)別異常時(shí),客服人員將所述語音交互切換為人工服務(wù)。
一種實(shí)施方式中,人工服務(wù)系統(tǒng)通過監(jiān)控用戶與語音導(dǎo)航終端的交互問答過程,能夠很快的識(shí)別出用于語義識(shí)別的服務(wù)器是否發(fā)生語義識(shí)別錯(cuò)誤,此時(shí)無需系統(tǒng)報(bào)錯(cuò),而是由客服人員直接將語音交互切換為人工服務(wù),實(shí)現(xiàn)無縫切換,用戶不會(huì)感覺到遲滯,不影響用戶的使用體驗(yàn)。
具體的,人工服務(wù)系統(tǒng)中一般一個(gè)客服人員可同時(shí)監(jiān)控多個(gè)用戶,一旦識(shí)別出服務(wù)器發(fā)生語義識(shí)別錯(cuò)誤,客服人員直接介入接管,實(shí)現(xiàn)無縫切換,不影響用戶體驗(yàn)。舉例說明,u表示用戶,s表示語音導(dǎo)航終端,c表示客服人員,具體的:
u:我要去航天醫(yī)院(用戶的需求是一院)
s:航天部醫(yī)院位于海淀區(qū)玉泉路(語義識(shí)別服務(wù)器識(shí)別后的回復(fù))
u:不是那個(gè)看病的醫(yī)院,是一二三的一
c:為您找到航天一院,位于豐臺(tái)區(qū)萬源路,您要去這里嗎?(語義識(shí)別服務(wù)器發(fā)生語義識(shí)別錯(cuò)誤,切換人工服務(wù)功能,有客服人員介入接管)
u:對(duì),就這(開啟導(dǎo)航模式)
另外,客服人員會(huì)對(duì)致使服務(wù)器發(fā)生語義識(shí)別錯(cuò)誤的語音信息進(jìn)行整理,標(biāo)注語義不能識(shí)別的內(nèi)容,提供給服務(wù)端進(jìn)行學(xué)習(xí),以便后續(xù)用戶再次發(fā)出該語音信息時(shí)能夠?yàn)橛脩籼峁?zhǔn)確智能的服務(wù)。
s205:如果所述服務(wù)器進(jìn)行語義識(shí)別的過程中未發(fā)生異常,則基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,所述語音導(dǎo)航終端與所述用戶進(jìn)行語音對(duì)答。
s206:在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),所述語音導(dǎo)航終端開啟導(dǎo)航模式。
本發(fā)明實(shí)施例提供的基于語義識(shí)別的語音交互方法,可以實(shí)現(xiàn)語音導(dǎo)航終端的語音交互功能與人工服務(wù)功能的靈活無縫切換,在服務(wù)器進(jìn)行語義識(shí)別的過程中發(fā)生異常時(shí),所述語音導(dǎo)航終端將語音交互功能切換為人工服務(wù)功能,由客服人員繼續(xù)為用戶提供準(zhǔn)確的服務(wù),不影響用戶的使用體驗(yàn)。
參見圖3,為本發(fā)明一實(shí)施例提供的基于語義識(shí)別的語音交互裝置示意圖。
一種基于語義識(shí)別的語音交互裝置300,包括:
開啟語音單元310,用于響應(yīng)于用戶對(duì)語音交互指令的觸發(fā),開啟語音交互功能;
發(fā)送單元320,用于接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
對(duì)答單元330,用于基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
開啟導(dǎo)航單元340,用于在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
實(shí)際應(yīng)用中,所述對(duì)答單元可以包括:
對(duì)答子單元,用于基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行多輪的語音對(duì)答;
分析子單元,用于基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖為所述用戶提供可選擇的導(dǎo)航策略。
所述裝置還可以包括:
導(dǎo)航對(duì)答單元,用于在為所述用戶進(jìn)行導(dǎo)航的過程中,與所述用戶進(jìn)行語音對(duì)答;
調(diào)整單元,用于基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖調(diào)整導(dǎo)航策略。
基于模糊語義識(shí)別技術(shù)的成熟度限制,本發(fā)明中的用于語義識(shí)別的服務(wù)器可能出現(xiàn)對(duì)語音信息識(shí)別的異常情況,為此,本發(fā)明實(shí)施例實(shí)現(xiàn)語音導(dǎo)航終端的語音交互功能與人工服務(wù)功能的靈活切換,所述裝置還可以包括:
切換單元,用于在所述服務(wù)器對(duì)所述語音信息的識(shí)別過程中發(fā)生異常時(shí),將所述語音交互切換為人工服務(wù)。
具體的,所述切換單元包括:
第一切換子單元,用于在所述服務(wù)器對(duì)所述語音信息的識(shí)別時(shí)長超過設(shè)定閾值,將所述語音交互切換為人工服務(wù);
和\或,
第二切換子單元,用于在所述服務(wù)器的軟硬件發(fā)生報(bào)錯(cuò)時(shí),將所述語音交互切換為人工服務(wù)。
為了節(jié)約網(wǎng)絡(luò)的帶寬,語音導(dǎo)航終端可以在發(fā)送語音信息之前,先將音頻格式的語音信息轉(zhuǎn)換為文本格式的文字信息,為此,所述發(fā)送單元可以包括:
接收子單元,用于接收用戶的語音信息,所述語音信息為音頻格式;
轉(zhuǎn)換子單元,用于將音頻格式的所述語音信息轉(zhuǎn)換為文本格式的文字信息,并將所述文字信息發(fā)送至語義識(shí)別服務(wù)器進(jìn)行語義識(shí)別。
其中,本發(fā)明裝置各單元或模塊的設(shè)置可以參照?qǐng)D1和圖2所示的方法而實(shí)現(xiàn),在此不贅述。
參見圖4,為根據(jù)一示例性實(shí)施例示出的一種用于基于語義識(shí)別的語音交互裝置的框圖。例如,裝置400可以是移動(dòng)電話,計(jì)算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺(tái),平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個(gè)人數(shù)字助理、車載終端等。
參照?qǐng)D4,裝置400可以包括以下一個(gè)或多個(gè)組件:處理組件402,存儲(chǔ)器404,電源組件406,多媒體組件408,音頻組件410,輸入/輸出(i/o)的接口412,傳感器組件414,以及通信組件416。
處理組件402通??刂蒲b置400的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件402可以包括一個(gè)或多個(gè)處理器420來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件602可以包括一個(gè)或多個(gè)模塊,便于處理組件402和其他組件之間的交互。例如,處理部件402可以包括多媒體模塊,以方便多媒體組件408和處理組件402之間的交互。
存儲(chǔ)器404被配置為存儲(chǔ)各種類型的數(shù)據(jù)以支持在設(shè)備400的操作。這些數(shù)據(jù)的示例包括用于在裝置400上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲(chǔ)器404可以由任何類型的易失性或非易失性存儲(chǔ)設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲(chǔ)器(sram),電可擦除可編程只讀存儲(chǔ)器(eeprom),可擦除可編程只讀存儲(chǔ)器(eprom),可編程只讀存儲(chǔ)器(prom),只讀存儲(chǔ)器(rom),磁存儲(chǔ)器,快閃存儲(chǔ)器,磁盤或光盤。
電源組件406為裝置400的各種組件提供電力。電源組件406可以包括電源管理系統(tǒng),一個(gè)或多個(gè)電源,及其他與為裝置400生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件408包括在所述裝置400和用戶之間的提供一個(gè)輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來自用戶的輸入信號(hào)。觸摸面板包括一個(gè)或多個(gè)觸摸傳感器以感測(cè)觸摸、滑動(dòng)和觸摸面板上的手勢(shì)。所述觸摸傳感器可以不僅感測(cè)觸摸或滑動(dòng)動(dòng)作的邊界,而且還檢測(cè)與所述觸摸或滑動(dòng)操作相關(guān)的持續(xù)時(shí)間和壓力。在一些實(shí)施例中,多媒體組件408包括一個(gè)前置攝像頭和/或后置攝像頭。當(dāng)設(shè)備400處于操作模式,如拍攝模式或視頻模式時(shí),前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個(gè)前置攝像頭和后置攝像頭可以是一個(gè)固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
音頻組件410被配置為輸出和/或輸入音頻信號(hào)。例如,音頻組件410包括一個(gè)麥克風(fēng)(mic),當(dāng)裝置400處于操作模式,如呼叫模式、記錄模式和語音識(shí)別模式時(shí),麥克風(fēng)被配置為接收外部音頻信號(hào)。所接收的音頻信號(hào)可以 被進(jìn)一步存儲(chǔ)在存儲(chǔ)器404或經(jīng)由通信組件416發(fā)送。在一些實(shí)施例中,音頻組件410還包括一個(gè)揚(yáng)聲器,用于輸出音頻信號(hào)。
i/o接口412為處理組件402和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動(dòng)按鈕和鎖定按鈕。
傳感器組件414包括一個(gè)或多個(gè)傳感器,用于為裝置400提供各個(gè)方面的狀態(tài)評(píng)估。例如,傳感器組件414可以檢測(cè)到設(shè)備400的打開/關(guān)閉狀態(tài),組件的相對(duì)定位,例如所述組件為裝置400的顯示器和小鍵盤,傳感器組件414還可以檢測(cè)裝置400或裝置400一個(gè)組件的位置改變,用戶與裝置400接觸的存在或不存在,裝置400方位或加速/減速和裝置400的溫度變化。傳感器組件414可以包括接近傳感器,被配置用來在沒有任何的物理接觸時(shí)檢測(cè)附近物體的存在。傳感器組件414還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件414還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件416被配置為便于裝置400和其他設(shè)備之間有線或無線方式的通信。裝置400可以接入基于通信標(biāo)準(zhǔn)的無線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個(gè)示例性實(shí)施例中,通信部件416經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信部件416還包括近場(chǎng)通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識(shí)別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(huì)(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來實(shí)現(xiàn)。
在示例性實(shí)施例中,裝置400可以被一個(gè)或多個(gè)應(yīng)用專用集成電路(asic)、數(shù)字信號(hào)處理器(dsp)、數(shù)字信號(hào)處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場(chǎng)可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。
具體地,本發(fā)明實(shí)施例提供了一種用于基于語義識(shí)別的語音交互裝置400,包括有存儲(chǔ)器404,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一個(gè)以上程序存儲(chǔ)于存儲(chǔ)器404中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器420執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
響應(yīng)于用戶對(duì)語音交互指令的觸發(fā),開啟語音交互功能;
接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行多輪的語音對(duì)答;
基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖為所述用戶提供可選擇的導(dǎo)航策略。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
在為所述用戶進(jìn)行導(dǎo)航的過程中,與所述用戶進(jìn)行語音對(duì)答;
基于與所述用戶的語音對(duì)答內(nèi)容分析出所述用戶的意圖,并根據(jù)所述用戶的意圖調(diào)整導(dǎo)航策略。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
在所述服務(wù)器對(duì)所述語音信息的識(shí)別過程中發(fā)生異常時(shí),將所述語音交互切換為人工服務(wù)。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
在所述服務(wù)器對(duì)所述語音信息的識(shí)別時(shí)長超過設(shè)定閾值,和\或,所述服務(wù)器的軟硬件發(fā)生報(bào)錯(cuò)時(shí),將所述語音交互切換為人工服務(wù)。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
接收用戶的語音信息,所述語音信息為音頻格式;
將音頻格式的所述語音信息轉(zhuǎn)換為文本格式的文字信息,并將所述文字信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別。
進(jìn)一步地,所述處理器420具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
通過預(yù)設(shè)的語音觸發(fā),和\或,通過手動(dòng)觸發(fā)預(yù)設(shè)物理按鈕或人機(jī)交互界面上的預(yù)設(shè)觸控按鈕。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如包括指令的存儲(chǔ)器404,上述指令可由裝置400的處理器420執(zhí)行以完成上述方法。例如,所述非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲(chǔ)設(shè)備等。
一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行一種基于語義識(shí)別的語音交互方法,所述方法包括:
響應(yīng)于用戶對(duì)語音交互指令的觸發(fā),開啟語音交互功能;
接收用戶的語音信息,并將所述語音信息發(fā)送至服務(wù)器進(jìn)行語義識(shí)別;
基于所述服務(wù)器對(duì)所述語音信息的語義識(shí)別結(jié)果,與所述用戶進(jìn)行語音對(duì)答;
在所述服務(wù)器的語義識(shí)別結(jié)果觸發(fā)預(yù)設(shè)的導(dǎo)航指令時(shí),開啟導(dǎo)航模式。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本發(fā)明旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些 實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上所述僅是本發(fā)明的具體實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。