本發(fā)明涉及人機(jī)交互技術(shù),尤其涉及一種交互式語音應(yīng)答方法及應(yīng)答系統(tǒng)。
背景技術(shù):
IVR(Interactive Voice Response)即互動式語音應(yīng)答,用戶只須用電話即可進(jìn)入服務(wù)中心,可以根據(jù)操作提示收聽手機(jī)娛樂產(chǎn)品,也可以根據(jù)用戶輸入的內(nèi)容播放有關(guān)的信息,或者可以基于用戶的問題提供咨詢或業(yè)務(wù)辦理。
隨著語音識別技術(shù)的不斷發(fā)展,目前不少企業(yè)已經(jīng)將語音識別技術(shù)應(yīng)用于傳統(tǒng)的IVR系統(tǒng)中,但是這些應(yīng)用大部分還停留在智能語音導(dǎo)航的層面。首先,將用戶的意圖導(dǎo)航到傳統(tǒng)的IVR節(jié)點,交互不夠精準(zhǔn)或者不能直接導(dǎo)航到葉子節(jié)點。其次,傳統(tǒng)的IVR系統(tǒng)一般也就幾十個業(yè)務(wù),如果客戶并不僅僅想要查詢或辦理業(yè)務(wù),而是咨詢業(yè)務(wù),一般都直接轉(zhuǎn)人工了,這增加了人工客戶的工作量。
因此,本領(lǐng)域需要一種改善的智能交互式語音應(yīng)答方案。
技術(shù)實現(xiàn)要素:
以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
本發(fā)明提供了一種交互式語音應(yīng)答方法及系統(tǒng),以提高不同業(yè)務(wù)的交互精準(zhǔn)性。
根據(jù)本發(fā)明的一方面,提供了一種交互式語音應(yīng)答方法,包括:
對用戶的語音輸入執(zhí)行語音識別;
從語音識別結(jié)果確定目標(biāo)業(yè)務(wù);
比較該語音識別結(jié)果的置信度和執(zhí)行該目標(biāo)業(yè)務(wù)所需要的置信度范圍;以及
基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行。
在一實例中,該基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行包括:至少響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,該至少響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限執(zhí)行該目標(biāo)業(yè)務(wù)包括:響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限,判斷該目標(biāo)業(yè)務(wù)是否屬于強制確認(rèn)類型;響應(yīng)于該目標(biāo)業(yè)務(wù)屬于強制確認(rèn)類型,向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,該基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行包括:響應(yīng)于該語音識別結(jié)果的置信度介于該目標(biāo)業(yè)務(wù)所需置信度的上限與下限之間,向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,若用戶未確認(rèn)該目標(biāo)業(yè)務(wù),則向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
在一實例中,該執(zhí)行業(yè)務(wù)確認(rèn)包括:向用戶輸出要求用戶確認(rèn)該目標(biāo)業(yè)務(wù)的話術(shù)語音;對用戶的再次語音輸入執(zhí)行語音識別;以及從該再次的語音識別結(jié)果確定用戶是否確認(rèn)該目標(biāo)業(yè)務(wù)。
在一實例中,該對用戶的再次語音輸入執(zhí)行語音識別包括:采用針對確認(rèn)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別。
在一實例中,該基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行包括:響應(yīng)于該語音識別結(jié)果的置信度低于該目標(biāo)業(yè)務(wù)所需置信度的下限,采用全量語言模型對該語音輸入進(jìn)行識別。
在一實例中,該方法還包括:基于全量語言模型的語音識別結(jié)果執(zhí)行相應(yīng)應(yīng)答。
在一實例中,該對用戶的語音輸入執(zhí)行語音識別包括:采用針對業(yè)務(wù)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別。
根據(jù)本發(fā)明的另一方面,提供了一種交互式語音應(yīng)答系統(tǒng),包括:
語音識別模塊,用于對用戶的語音輸入執(zhí)行語音識別;
語義識別模塊,用于從語音識別結(jié)果確定目標(biāo)業(yè)務(wù);以及
控制模塊,用于比較該語音識別結(jié)果的置信度和執(zhí)行該目標(biāo)業(yè)務(wù)所需要的置信度范圍,并基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行。
在一實例中,該控制模塊至少響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限控制業(yè)務(wù)操作模塊執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,該控制模塊響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限,判斷該目標(biāo)業(yè)務(wù)是否屬于強制確認(rèn)類型,并且響應(yīng)于該目標(biāo)業(yè)務(wù)屬于強制確認(rèn)類型控制輸出模塊向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,該控制模塊響應(yīng)于該語音識別結(jié)果的置信度介于該目標(biāo)業(yè)務(wù)所需置信度的上限與下限之間,控制輸出模塊向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù)。
在一實例中,若用戶未確認(rèn)該目標(biāo)業(yè)務(wù),則該控制模塊控制該輸出模塊向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
在一實例中,該輸出模塊向用戶輸出要求用戶確認(rèn)該目標(biāo)業(yè)務(wù)的話術(shù)語音,該語音識別模塊對用戶的再次語音輸入執(zhí)行語音識別,該語義識別模塊從該再次的語音識別結(jié)果確定用戶是否確認(rèn)該目標(biāo)業(yè)務(wù)。
在一實例中,該語音識別模塊采用針對確認(rèn)需要定制的語言模型對用戶的該再次語音輸入執(zhí)行語音識別。
在一實例中,該控制模塊響應(yīng)于該語音識別結(jié)果的置信度低于該目標(biāo)業(yè)務(wù)所需置信度的下限控制該語音識別模塊采用全量語言模型對該語音輸入進(jìn)行識別。
在一實例中,該系統(tǒng)還包括:應(yīng)答模塊,用于基于全量語言模型的語音識別結(jié)果執(zhí)行相應(yīng)應(yīng)答。
在一實例中,該語音識別模塊采用針對業(yè)務(wù)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益技術(shù)效果是:
利用了語音識別結(jié)果的置信度,對業(yè)務(wù)接下來的交互給出不同話術(shù),對業(yè)務(wù)進(jìn)行了區(qū)分,提高不同業(yè)務(wù)的交互精準(zhǔn)性,一些非常重要的業(yè)務(wù)規(guī)定必須要讓用戶進(jìn)行確認(rèn),而無論先前的語音識別結(jié)果的置信度有多高,以確保安全性。
附圖說明
在結(jié)合以下附圖閱讀本公開的實施例的詳細(xì)描述之后,能夠更好地理解本發(fā)明的上述特征和優(yōu)點。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關(guān)特性或特征的組件可能具有相同或相近的附圖標(biāo)記。
圖1是示出了根據(jù)本發(fā)明的一方面的交互式語音應(yīng)答方法的流程圖;
圖2是示出了根據(jù)本發(fā)明的一方面的執(zhí)行業(yè)務(wù)確認(rèn)的流程圖;
圖3是示出了根據(jù)本發(fā)明的一方面的交互式語音應(yīng)答系統(tǒng)的一實施例的框圖;以及
圖4是示出了根據(jù)本發(fā)明的一方面的交互式語音應(yīng)答系統(tǒng)的第二實施例的框圖。
具體實施方式
以下結(jié)合附圖和具體實施例對本發(fā)明作詳細(xì)描述。注意,以下結(jié)合附圖和具體實施例描述的諸方面僅是示例性的,而不應(yīng)被理解為對本發(fā)明的保護(hù)范圍進(jìn)行任何限制。
圖1是示出了根據(jù)本發(fā)明的一方面的交互式語音應(yīng)答方法100的流程圖。
如圖1所示,該交互式語音應(yīng)答方法100可包括如下步驟:
步驟110:對用戶的語音輸入執(zhí)行語音識別。
語音識別步驟的作用在將用戶通過語音形式輸入的問題識別為文本。語音識別技術(shù)主要包括兩個部分:語言模型訓(xùn)練階段和使用語言模型的識別階段。
語言模型訓(xùn)練階段是通過大量語料的訓(xùn)練進(jìn)行語言模型的建模。在建立語言模型后,利用該語言模型對用戶輸入的語音進(jìn)行識別。語音識別過程中,語言模型準(zhǔn)確與否對于識別結(jié)果至關(guān)重要。
語言模型訓(xùn)練階段,使用越大量的語料,得到的語言模型越準(zhǔn)確。然而,隨著語料數(shù)量的增加,訓(xùn)練以及識別的計算成本也隨之增加。因此,實踐中,往往會針對特定的應(yīng)用場合,訓(xùn)練不同的語言模型。例如,針對體育類的應(yīng)用場合,可以使用與體育相關(guān)的大量術(shù)語作為語料進(jìn)行訓(xùn)練,針對金融類的應(yīng)用場合,可以使用與金融相關(guān)的大量術(shù)語作為語料進(jìn)行訓(xùn)練。以此方式,在一定的成本下獲得更準(zhǔn)確的語言模型。
在步驟110中,采用針對業(yè)務(wù)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別。這里的“業(yè)務(wù)”是指系統(tǒng)能夠為用戶提供的業(yè)務(wù)。用戶接入系統(tǒng)后所提到的初始輸入一般與希望辦理的業(yè)務(wù)有關(guān),因此,針對業(yè)務(wù)需要定制的語言模型能夠獲得最準(zhǔn)確的語音識別結(jié)果。
步驟120:從語音識別結(jié)果確定目標(biāo)業(yè)務(wù)。
該步驟是語義識別的過程。語音識別結(jié)果為文本形式的用戶輸入,步驟120的作用在于理解該文本形式的用戶輸入,以判斷用戶需要辦理何種業(yè)務(wù)。
為了實現(xiàn)語義識別,常用辦法是設(shè)置一套知識庫。知識庫中的基本知識點最原始和最簡單的形式就是平時常用的FAQ,一般的形式是“問-答”對。在本發(fā)明中,“標(biāo)準(zhǔn)問”是用來表示某個知識點的文字,主要目標(biāo)是表達(dá)清晰,便于維護(hù)。例如,“彩鈴的資費”就是表達(dá)清晰的標(biāo)準(zhǔn)問描述。這里的“問”不應(yīng)被狹義地理解為“詢問”,而應(yīng)廣義地來理解一“輸入”,該“輸入”具有對應(yīng)的“輸出”。例如,對于用于控制系統(tǒng)的語義識別而言,用戶的一個指令,例如“打開收音機(jī)”也應(yīng)可以被理解為是一個“問”,此時對應(yīng)的“答”可以是用于執(zhí)行相應(yīng)控制的控制程序的調(diào)用。
因此,語義識別的過程即為基于語音識別結(jié)果從知識庫中尋找標(biāo)準(zhǔn)問的過程,找到與其匹配的標(biāo)準(zhǔn)問,即可認(rèn)為是“理解”了該語音識別結(jié)果的語義,從而可以將該匹配的標(biāo)準(zhǔn)問對應(yīng)的“答”提供給用戶。
實踐中,可以通過語音識別結(jié)果與知識庫中所有標(biāo)準(zhǔn)問的語義相似度計算來確定匹配的標(biāo)準(zhǔn)問。例如,具有最高語義相似度的標(biāo)準(zhǔn)問可以被確定為是所匹配的標(biāo)準(zhǔn)問,進(jìn)而可以從該匹配的標(biāo)準(zhǔn)問確定用戶希望辦理的目標(biāo)業(yè)務(wù)。
例如,若所匹配的標(biāo)準(zhǔn)問為“彩鈴的資費”,則可以了解用戶希望辦理彩鈴相關(guān)業(yè)務(wù)。
步驟130:比較該語音識別結(jié)果的置信度和執(zhí)行該目標(biāo)業(yè)務(wù)所需要的置信度范圍。
上述對用戶的語音輸入執(zhí)行語音識別時,獲得的語音識別結(jié)果具有相關(guān)聯(lián)的置信度。該置信度表示該語音識別結(jié)果的可靠性。置信度越高,表示該語音識別結(jié)果的可靠性越高。
根據(jù)本發(fā)明的方案,對每一個業(yè)務(wù)設(shè)置一所需要的置信度范圍,該置信度范圍與業(yè)務(wù)的類型相關(guān)。對于相對重要的業(yè)務(wù),為其設(shè)置的所需要的置信度范圍總體較高,例如,對于涉及費用的業(yè)務(wù)。
步驟140:基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行。
在第一實施例中,當(dāng)該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限時,則直接執(zhí)行該目標(biāo)業(yè)務(wù)。
在第二實施例中,當(dāng)該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限時,尚需判斷該目標(biāo)業(yè)務(wù)是否屬于強制確認(rèn)類型的業(yè)務(wù)。在本發(fā)明中,對業(yè)務(wù)進(jìn)行了區(qū)分,一些非常重要的業(yè)務(wù)規(guī)定必須要讓用戶進(jìn)行確認(rèn),而無論先前的語音識別結(jié)果的置信度有多高,以確保安全性。
在此情形下,若目標(biāo)業(yè)務(wù)不屬于強制確認(rèn)類型的業(yè)務(wù),則可以直接執(zhí)行該目標(biāo)業(yè)務(wù)。反之,若目標(biāo)業(yè)務(wù)屬于強制確認(rèn)類型的業(yè)務(wù),則向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù),否則可向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
在一實例中,執(zhí)行任務(wù)確認(rèn)可包括如圖2所示的流程。如圖2所示,執(zhí)行任務(wù)確認(rèn)包括以下步驟:
步驟210:向用戶輸出要求用戶確認(rèn)該目標(biāo)業(yè)務(wù)的話術(shù)語音。
在此步驟中,向用戶詢問其意圖是否確實為該目標(biāo)業(yè)務(wù)。
步驟220:對用戶的再次語音輸入執(zhí)行語音識別。
用戶在聽到系統(tǒng)輸出的讓其確認(rèn)是否為該目標(biāo)業(yè)務(wù)的話術(shù)后,再次輸入語音以確認(rèn)或否認(rèn)該目標(biāo)業(yè)務(wù)。
例如,若用戶確實希望辦理該目標(biāo)業(yè)務(wù),則可以回答“是”,否則可以回答“不是”。
步驟230:從該再次的語音識別結(jié)果確定用戶是否確認(rèn)該目標(biāo)業(yè)務(wù)。
此步驟也是為語音識別的步驟,在本發(fā)明中,特別為此語音識別步驟采用針對確認(rèn)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別。換言之,這里所使用的語言模型是專門針對與“確認(rèn)”相關(guān)的語料訓(xùn)練而成,這樣大大地提高了語音識別的準(zhǔn)確性。
上文描述了該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限的情況,若語音識別結(jié)果的置信度介于該目標(biāo)業(yè)務(wù)所需置信度的上限與下限之間,必須向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行該目標(biāo)業(yè)務(wù),否則可向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
最后,若該語音識別結(jié)果的置信度低于該目標(biāo)業(yè)務(wù)所需置信度的下限,則采用全量語言模型對該語音輸入進(jìn)行識別。
若語音識別結(jié)果的置信度低于該目標(biāo)業(yè)務(wù)所需置信度的下限,說明此語音識別結(jié)果的置信度對于該目標(biāo)業(yè)務(wù)而言是不可接受的,因此,需要重新對其進(jìn)行語音識別。
首次采用針對業(yè)務(wù)需要定制的語言模型的語言識別過程未能得到滿意的結(jié)果,表明用戶的語音輸入可能并非與業(yè)務(wù)相關(guān),有可能涉及其他方面的問題。因此,采用全量語言模型對用戶語音進(jìn)行識別。這里的術(shù)語“全量語言模型”可以是針對通用場景訓(xùn)練的語言模型,該語言模型的訓(xùn)練涉及使用通用場景下的語料,應(yīng)用涵蓋面廣,當(dāng)然對于特定場景的語音識別效果相比于針對該特定場景訓(xùn)練而成的語言模型的效果會稍差。然而,在先前使用針對業(yè)務(wù)需要定制的語言模型進(jìn)行語言識別失效的情況下,采用全量語言模型識別會取得更好的效果。
在獲得全量語言模型的語音識別結(jié)果后,基于該語音識別結(jié)果進(jìn)行相應(yīng)的應(yīng)答。例如,將識別結(jié)果送到語義識別系統(tǒng)進(jìn)行語義識別,給出對應(yīng)的答案。
盡管為使解釋簡單化將上述方法圖示并描述為一系列動作,但是應(yīng)理解并領(lǐng)會,這些方法不受動作的次序所限,因為根據(jù)一個或多個實施例,一些動作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領(lǐng)域技術(shù)人員可以理解的其他動作并發(fā)地發(fā)生。
圖3是示出了根據(jù)本發(fā)明的一方面的交互式語音應(yīng)答系統(tǒng)300的框圖。
如圖3所示,該交互式語音應(yīng)答系統(tǒng)300可包括語音識別模塊310、語義識別模塊320、以及控制模塊330。
語音識別模塊310可對用戶的語音輸入執(zhí)行語音識別。在一實例中,語音識別模塊310可首先采用針對業(yè)務(wù)需要定制的語言模型對用戶的語音輸入執(zhí)行語音識別,以提高識別的準(zhǔn)確率。
獲得語音識別結(jié)果后,語義識別模塊320從該語音識別結(jié)果確定目標(biāo)業(yè)務(wù)。語義識別的過程即為基于語音識別結(jié)果從知識庫中尋找標(biāo)準(zhǔn)問的過程,找到與其匹配的標(biāo)準(zhǔn)問,即可認(rèn)為是“理解”了該語音識別結(jié)果的語義,從而可以將該匹配的標(biāo)準(zhǔn)問對應(yīng)的“答”提供給用戶。因此,語義識別模塊320可以通過語音識別結(jié)果與知識庫中所有標(biāo)準(zhǔn)問的語義相似度計算來確定匹配的標(biāo)準(zhǔn)問,從而確定目標(biāo)業(yè)務(wù)。
控制模塊330可比較該語音識別結(jié)果的置信度和執(zhí)行該目標(biāo)業(yè)務(wù)所需要的置信度范圍,并基于置信度比較結(jié)果控制該目標(biāo)業(yè)務(wù)的執(zhí)行。該置信度表示該語音識別結(jié)果的可靠性。置信度越高,表示該語音識別結(jié)果的可靠性越高。
根據(jù)本發(fā)明的方案,對每一個業(yè)務(wù)設(shè)置一所需要的置信度范圍,該置信度范圍與業(yè)務(wù)的類型相關(guān)。對于相對重要的業(yè)務(wù),為其設(shè)置的所需要的置信度范圍總體較高,例如,對于涉及費用的業(yè)務(wù)。
在第一實施例中,控制模塊330可響應(yīng)于該語音識別結(jié)果的置信度高于該目標(biāo)業(yè)務(wù)所需置信度的上限,則控制業(yè)務(wù)操作模塊執(zhí)行該目標(biāo)業(yè)務(wù)。
如圖4所示,在第二實施例中,控制模塊330可響應(yīng)于該語音識別結(jié)果的置信度高于所述目標(biāo)業(yè)務(wù)所需置信度的上限,繼續(xù)判斷該目標(biāo)業(yè)務(wù)是否屬于強制確認(rèn)類型,并且若該目標(biāo)業(yè)務(wù)屬于強制確認(rèn)類型,則控制輸出模塊340向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行所述目標(biāo)業(yè)務(wù)。若未確認(rèn),控制模塊330則控制輸出模塊340向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
若語音識別結(jié)果的置信度介于該目標(biāo)業(yè)務(wù)所需置信度的上限與下限之間,則控制模塊330控制輸出模塊340向用戶執(zhí)行業(yè)務(wù)確認(rèn),若用戶確認(rèn)該目標(biāo)業(yè)務(wù),則執(zhí)行所述目標(biāo)業(yè)務(wù)。若未確認(rèn),控制模塊330則控制輸出模塊340向用戶輸出要求用戶重新輸入語音指示的話術(shù)語音。
在執(zhí)行業(yè)務(wù)確認(rèn)時,輸出模塊340首先向用戶輸出要求用戶確認(rèn)該目標(biāo)業(yè)務(wù)的話術(shù)語音,然后,語音識別模塊310對用戶的再次語音輸入執(zhí)行語音識別,此時,語音識別模塊310可采用針對確認(rèn)需要定制的語言模型對用戶的該再次語音輸入執(zhí)行語音識別。語義識別模塊330則從該再次的語音識別結(jié)果確定用戶是否確認(rèn)該目標(biāo)業(yè)務(wù)。
若語音識別結(jié)果的置信度低于該目標(biāo)業(yè)務(wù)所需置信度的下限,控制模塊330則控制語音識別模塊310采用全量語言模型對該語音輸入進(jìn)行識別。交互式語音應(yīng)答系統(tǒng)300的應(yīng)答模塊350可基于全量語言模型的語音識別結(jié)果執(zhí)行相應(yīng)應(yīng)答。例如應(yīng)答模塊350可以是由語義識別模塊320和輸出模塊340的組合,語義識別模塊320確定其語義及其答案,并由輸出模塊340輸出給用戶。
本發(fā)明實施例中交互式語音應(yīng)答系統(tǒng)的具體實現(xiàn)和有益效果可參見交互式語音應(yīng)答方法,在此不再贅述。
根據(jù)本發(fā)明的方案,利用了語音識別結(jié)果的置信度,對業(yè)務(wù)接下來的交互給出不同話術(shù),比如一些需要扣款的業(yè)務(wù)辦理,無論識別的置信度值有多高,都應(yīng)該和用戶進(jìn)行再次確認(rèn);諸如一些查詢類業(yè)務(wù),如果置信度高就直接給出查詢結(jié)果,如果置信度介于上限和下限之間,則可和用戶進(jìn)行二次確認(rèn)的交互,如果低于下限,則用戶很可能不是想要查詢業(yè)務(wù),可能是一些其他業(yè)務(wù)咨詢或者聊天,此時可以使用另一個全量通用的領(lǐng)域語言模型進(jìn)行識別,進(jìn)一步識別用戶意圖,增加用戶交互體驗。根據(jù)本發(fā)明的方案,還結(jié)合了語義理解引擎,進(jìn)一步理解用戶真正的意圖。
本領(lǐng)域技術(shù)人員將可理解,信息、信號和數(shù)據(jù)可使用各種不同技術(shù)和技藝中的任何技術(shù)和技藝來表示。例如,以上描述通篇引述的數(shù)據(jù)、指令、命令、信息、信號、位(比特)、碼元、和碼片可由電壓、電流、電磁波、磁場或磁粒子、光場或光學(xué)粒子、或其任何組合來表示。
本領(lǐng)域技術(shù)人員將進(jìn)一步領(lǐng)會,結(jié)合本文中所公開的實施例來描述的各種解說性邏輯板塊、模塊、電路、和算法步驟可實現(xiàn)為電子硬件、計算機(jī)軟件、或這兩者的組合。為清楚地解說硬件與軟件的這一可互換性,各種解說性組件、框、模塊、電路、和步驟在上面是以其功能性的形式作一般化描述的。此類功能性是被實現(xiàn)為硬件還是軟件取決于具體應(yīng)用和施加于整體系統(tǒng)的設(shè)計約束。技術(shù)人員對于每種特定應(yīng)用可用不同的方式來實現(xiàn)所描述的功能性,但這樣的實現(xiàn)決策不應(yīng)被解讀成導(dǎo)致脫離了本發(fā)明的范圍。
結(jié)合本文所公開的實施例描述的各種解說性邏輯模塊、和電路可用通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其它可編程邏輯器件、分立的門或晶體管邏輯、分立的硬件組件、或其設(shè)計成執(zhí)行本文所描述功能的任何組合來實現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,該處理器可以是任何常規(guī)的處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器還可以被實現(xiàn)為計算設(shè)備的組合,例如DSP與微處理器的組合、多個微處理器、與DSP核心協(xié)作的一個或多個微處理器、或任何其他此類配置。
結(jié)合本文中公開的實施例描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件模塊中、或在這兩者的組合中體現(xiàn)。軟件模塊可駐留在RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移動盤、CD-ROM、或本領(lǐng)域中所知的任何其他形式的存儲介質(zhì)中。示例性存儲介質(zhì)耦合到處理器以使得該處理器能從/向該存儲介質(zhì)讀取和寫入信息。在替換方案中,存儲介質(zhì)可以被整合到處理器。處理器和存儲介質(zhì)可駐留在ASIC中。ASIC可駐留在用戶終端中。在替換方案中,處理器和存儲介質(zhì)可作為分立組件駐留在用戶終端中。
在一個或多個示例性實施例中,所描述的功能可在硬件、軟件、固件或其任何組合中實現(xiàn)。如果在軟件中實現(xiàn)為計算機(jī)程序產(chǎn)品,則各功能可以作為一條或更多條指令或代碼存儲在計算機(jī)可讀介質(zhì)上或藉其進(jìn)行傳送。計算機(jī)可讀介質(zhì)包括計算機(jī)存儲介質(zhì)和通信介質(zhì)兩者,其包括促成計算機(jī)程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲介質(zhì)可以是能被計算機(jī)訪問的任何可用介質(zhì)。作為示例而非限定,這樣的計算機(jī)可讀介質(zhì)可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲、磁盤存儲或其它磁存儲設(shè)備、或能被用來攜帶或存儲指令或數(shù)據(jù)結(jié)構(gòu)形式的合意程序代碼且能被計算機(jī)訪問的任何其它介質(zhì)。任何連接也被正當(dāng)?shù)胤Q為計算機(jī)可讀介質(zhì)。例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)、或諸如紅外、無線電、以及微波之類的無線技術(shù)從web網(wǎng)站、服務(wù)器、或其它遠(yuǎn)程源傳送而來,則該同軸電纜、光纖電纜、雙絞線、DSL、或諸如紅外、無線電、以及微波之類的無線技術(shù)就被包括在介質(zhì)的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(CD)、激光碟、光碟、數(shù)字多用碟(DVD)、軟盤和藍(lán)光碟,其中盤(disk)往往以磁的方式再現(xiàn)數(shù)據(jù),而碟(disc)用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。上述的組合也應(yīng)被包括在計算機(jī)可讀介質(zhì)的范圍內(nèi)。
提供對本公開的先前描述是為使得本領(lǐng)域任何技術(shù)人員皆能夠制作或使用本公開。對本公開的各種修改對本領(lǐng)域技術(shù)人員來說都將是顯而易見的,且本文中所定義的普適原理可被應(yīng)用到其他變體而不會脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設(shè)計,而是應(yīng)被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。