一種語音驅(qū)動(dòng)的智能人機(jī)交互方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語音驅(qū)動(dòng)的智能人機(jī)交互方法,技術(shù)應(yīng)用領(lǐng)域?yàn)殡娮由虅?wù)與信息查詢。
【背景技術(shù)】
[0002]自然語言符合人類認(rèn)知習(xí)慣,是一種最為自然和方便快捷的交流方式。隨著語音識別、語音合成、自然語言處理和人工智能等技術(shù)的發(fā)展,人與計(jì)算機(jī)之間語音方式的交流成為可能。語音驅(qū)動(dòng)的人機(jī)交互方式為人機(jī)交互提供了一種新途徑,解放了人們的雙手,能有效提高人機(jī)交互的便捷性和易用性。
[0003]由于語音識別存在一定誤差以及口語交流過程中用戶意圖往往存在一定模糊性,人機(jī)自然語言交互是一種非精確的信息交互。一次人機(jī)語音對話一般需要人機(jī)之間的多次往復(fù)交流,因此人機(jī)對話系統(tǒng)需要循環(huán)執(zhí)行語音識別和理解、對話生成、語音合成等各個(gè)環(huán)節(jié),以完成與用戶的溝通。自20世紀(jì)90年代以來,出現(xiàn)了三代人機(jī)對話系統(tǒng)。第一代系統(tǒng)為信息型,其交互模式比較固定,即系統(tǒng)提供一些信息查詢的選項(xiàng),用戶指定查詢哪些信息,系統(tǒng)以語音方式將信息返回給用戶,主要應(yīng)用于包裹追蹤、簡單的金融應(yīng)用、以及航班狀態(tài)信息查詢等方面。第二代系統(tǒng)為交易型,多面向流程比較固定的應(yīng)用、采用預(yù)先定義的流程進(jìn)行人機(jī)交互,例如銀行間移動(dòng)資金、股票交易。第三代系統(tǒng)為問題解決型,其交互形式從嚴(yán)格的指導(dǎo)對話轉(zhuǎn)向使用更加自然的語言,人機(jī)對話方式更為靈活,系統(tǒng)也更為智能化,但目前第三類系統(tǒng)尚處于研究階段,尚未出現(xiàn)成熟的語音驅(qū)動(dòng)智能人機(jī)交互方法及相關(guān)系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明解決的技術(shù)問題是:為克服現(xiàn)有技術(shù)存在的缺陷,針對當(dāng)前人機(jī)交互方式復(fù)雜,智能化程度低的問題,提出了一種語音驅(qū)動(dòng)的基于知識的智能人機(jī)交互方法,該方法采用語音的方式,基于主題知識進(jìn)行智能交互,使得用戶能夠以一種類似于人與人之間自然流暢的交流方式進(jìn)行信息查詢等操作。
[0005]本發(fā)明的技術(shù)解決方案為:一種語音驅(qū)動(dòng)的智能人機(jī)交互方法,步驟如下:
[0006](I)語音輸入界面接收用戶輸入的語音;
[0007](2)語音識別模塊識別用戶語音輸入,得到識別結(jié)果:字符串S;
[0008](3)語義理解模塊對字符串S進(jìn)行分詞,并根據(jù)文法對分詞結(jié)果中的每個(gè)短語添加語義標(biāo)簽;文法包括語言模型和語義分類器:語言模型定義了所有可能由語音識別器處理的詞匯空間,由文法的規(guī)則描述或統(tǒng)計(jì)文法領(lǐng)域的η元組集合定義;語義分類器將詞匯短語映射到語義標(biāo)簽的一個(gè)有限集,由訓(xùn)練好的統(tǒng)計(jì)分類器實(shí)現(xiàn);
[0009](4)對話管理器根據(jù)語義理解模塊的語義解析結(jié)果,結(jié)合知識庫確定將要執(zhí)行的操作:①如果用戶的語音輸入指定了所感興趣事物的屬性,對話管理器將查詢后臺的領(lǐng)域知識庫,確定對話主題的必要屬性信息、可選屬性信息和屬性優(yōu)先級;如果用戶提供的屬性信息不足,對話管理器下一步將詢問用戶缺少的必要屬性信息;如果用戶提供的屬性信息覆蓋了對話主題的必要屬性信息,對話管理器下一步將讓用戶確認(rèn)所感興趣事物的信息;
②如果用戶的語音輸入為查詢某一問題或名詞,對話管理器將調(diào)用第三方搜索引擎查詢、篩選和重新組織相關(guān)信息,并在下一步將結(jié)果返回給用戶;
[0010](5)對話管理器根據(jù)步驟(4)確定的操作組織回答語句,并調(diào)用語音播放引擎向用戶播放語句;組織回答語句的過程分為查找語句模板和填充信息兩步,在查找語句模板的步驟中,語句模板的類型由上一步所確定的操作類型決定:如果系統(tǒng)需要向用戶詢問相關(guān)信息,需使用詢問疑問句,如“請問[事物名稱]的[屬性名稱]是什么?”(中括號內(nèi)的內(nèi)容需根據(jù)實(shí)際情況進(jìn)行替換);如果系統(tǒng)需要讓用戶確認(rèn)信息,使用確認(rèn)疑問句,如“請問您所要[操作類型](如購買)的[事物名稱]是[屬性信息列表]嗎?”;如果系統(tǒng)需要將結(jié)果返回給用戶,則使用陳述句,如“[事物名稱]是指[對事物的解釋]”;如果交互過程中出現(xiàn)語音識別拒識(如因網(wǎng)絡(luò)或識別引擎等問題造成用戶語音輸入后未返回識別結(jié)果)、超時(shí)(如用戶未在指定時(shí)間內(nèi)說話)、低可信度(返回的識別結(jié)果的可信度參數(shù)值低于可信度閾值)等問題,對話管理器將調(diào)用這些問題對應(yīng)的提示語句;以上所有語句的模板均存儲在知識庫中,對話管理器根據(jù)對話主題和查詢類型提取語句模板;對話管理器確定語句模板之后,根據(jù)語義設(shè)置模板中的參數(shù)值,從而生成回答語句。
[0011](6)用戶接收到語音播放引擎的語音提示后,根據(jù)提示進(jìn)一步輸入語音進(jìn)行對話,直到對話管理器確認(rèn)用戶的需要已得到滿足,并結(jié)束當(dāng)前會(huì)話;
[0012](7)將會(huì)話所涉及的關(guān)鍵信息存儲到用戶案例庫中,用于提高系統(tǒng)的智能化水平。
[0013]本發(fā)明以語音識別(SpeechRecognit1n,SR)、語音合成(Text To Speech,TTS) n自然語言處理(Natural Language Processing,NLP)等技術(shù)為基礎(chǔ),通過語音對話方式實(shí)現(xiàn)智能化的人機(jī)互動(dòng)交流,為用戶使用計(jì)算機(jī)和互聯(lián)網(wǎng)提供方便快捷的交互界面。同傳統(tǒng)的人機(jī)交互途徑(如鼠標(biāo)、鍵盤、觸摸屏等)相比,本發(fā)明的方法解放了人們的雙手,使人機(jī)交互更加方便快捷,更符合人們的認(rèn)知和語言習(xí)慣,提高了人機(jī)交互的智能化程度和易用性,在網(wǎng)絡(luò)購物、信息查詢等所有需要與計(jì)算機(jī)和互聯(lián)網(wǎng)進(jìn)行交互的領(lǐng)域均具有廣闊應(yīng)用前景。
【附圖說明】
[0014]圖1為本發(fā)明的總體流程圖;
[0015]圖2為本發(fā)明的知識庫中主題知識組織結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0016]下面結(jié)合如圖1所示的流程圖,以通過網(wǎng)絡(luò)購買電視的應(yīng)用情景為例,說明本發(fā)明的具體實(shí)施過程:
[0017](I)打開系統(tǒng)后,系統(tǒng)會(huì)提示“請問有什么可以幫您?”,用戶通過根據(jù)需要輸入語音,本案例中假設(shè)用戶輸入為:“我需要買臺電視”;
[0018](2)語音識別模塊識別用戶語音輸入,得到字符串S “我需要買臺電視”;
[0019](3)語義理解模塊對字符串S進(jìn)行分詞,得到分詞結(jié)果:“我/需要/買/臺/電視”,提取的關(guān)鍵詞為“買”、“電視”;然后,根據(jù)文法為分詞結(jié)果添加語義標(biāo)簽,“買”的語義標(biāo)簽為“BUY”,“電視”的語義標(biāo)簽“TV” ;
[0020](4)對話管理器根據(jù)用戶輸入的語義上下文和后臺領(lǐng)域知識庫,確定需要詢問用戶或者與用戶確定的信息。在接收到語義理解模塊得到的語義參數(shù)(BUY、TV)后,對話管理器發(fā)起一個(gè)主題為“BUY TV”的會(huì)話。首先,通過查詢系統(tǒng)知識庫(知識庫具有可擴(kuò)展性,可根據(jù)需要不斷添加相關(guān)領(lǐng)域的知識,當(dāng)前情景所用的知識庫是電子商務(wù)類別下、家用電器子類下的電視知識庫,如圖2所示),找到電視知識庫中與“BUY”相關(guān)的信息,包括電視的價(jià)格、尺寸、品牌、類型、服務(wù)等屬性信息;然后,根據(jù)知識節(jié)點(diǎn)中屬性的