亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

人機互動的口語對話系統(tǒng)及其實現(xiàn)方法

文檔序號:2585380閱讀:204來源:國知局
專利名稱:人機互動的口語對話系統(tǒng)及其實現(xiàn)方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種采用語音識別(ASR, Automatic Speech Recognition)、對話管理 系統(tǒng)(Dialog Management System)、自然語言理角軍(NLU,NatureLanguage Understanding) 技術(shù)的人機互動的口語對話系統(tǒng)。
背景技術(shù)
本說明書中的技術(shù)術(shù)語定義如下
語音識別,是讓機器將語音轉(zhuǎn)換為相應(yīng)文本的技術(shù)。
語義,是指文本(語句)的含義。由于表述方式不同,不同的語句可能是同一語義。
語料,是指大量文本的集合,其中的文本是經(jīng)過整理并按特定的格式標注過的。
詞法,是指文本內(nèi)詞語的構(gòu)成法則,如詞性。
詞性標簽,是一種對名詞、動詞、形容詞等詞性進行標注的方法。
語法,是指文本語句的構(gòu)成規(guī)律。
口語對話對于提高外語水平至關(guān)重要,目前市場上的外語口語學(xué)習(xí)產(chǎn)品,一般以 跟讀為主。系統(tǒng)設(shè)定主題場景,用戶跟著系統(tǒng)練習(xí)相關(guān)句型,系統(tǒng)對用戶的發(fā)音進行評分。 其對話模式僅限于在固定的2 3種回答語句中選擇。發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種人機互動的口語對話系統(tǒng),該系統(tǒng)中人和 機器均可自由主導(dǎo)對話過程(Mixed Initiative Conversation)。用戶可以主動談?wù)撟约?感興趣的話題,機器會順著用戶的話題進行對話。一旦用戶無話可談,機器會自動挑選相關(guān) 話題和用戶對話,從而營造一種真實的口語對話語言環(huán)境。為此,本發(fā)明還要提供所述人機 互動的口語對話系統(tǒng)的實現(xiàn)方法。
為解決以上技術(shù)問題,本發(fā)明人機互動的口語對話系統(tǒng)包括
語音識別模塊,將用戶的語音識別為文字;
糾錯模塊,將語音識別模塊輸出的文字進行詞法和語法層面的糾錯;
自然語言理解模塊,將糾錯模塊輸出的糾錯后的文字識別為語義;
對話管理模塊,根據(jù)自然語言理解模塊輸出的語義,生成對話的語義;
自然語言生成模塊,將對話管理模塊輸出的對話語義生成為對話文字;
語音合成模塊,將自然語言生成模塊輸出的對話文字生成為對話語音。
所述人機互動的口語對話系統(tǒng)的實現(xiàn)方法包括如下步驟
第I步,收集口語語料形成語料庫;
第2步,用戶的語音通過語音識別模塊I被識別為文字;
第3步,所述文字通過糾錯模塊2進行詞法和語法層面的糾錯;
第4步,糾錯后的文字通過自然語言理解模塊3被識別為語義;
第5步,對話管理模塊4根據(jù)所述語義,生成對話的語義;
第6步,所述對話語義通過自然語言生成模塊5生成為對話文字;
第7步,所述對話文字通過語音合成模塊6生成為對話語音。
本發(fā)明人機互動的口語對話系統(tǒng)具有如下有益效果
首先,對話管理模塊能回答用戶提問,也能主動和用戶談?wù)撓嚓P(guān)話題,從而營造一 種真實的口語對話語言環(huán)境;
其次,糾錯模塊能彌補語音的誤識別、口語語法的不嚴密,減少自然語言理解的無 法理解情況,使得人機對話更順暢;
最后,語音合成模塊還可增加多媒體視聽效果,加深用戶的記憶。


圖1為本發(fā)明人機互動的口語對話系統(tǒng)的結(jié)構(gòu)示意圖2為形成語料庫的流程圖3為糾錯模塊進行糾錯的流程圖4為對話管理模塊生成對話語義的流程圖。
圖中附圖標記說明
I為語音識別模塊;2為自動糾錯模塊;3為自然語言理解模塊;4為對話管理模 塊;5為自然語言生成模塊;6為語音合成模塊。
具體實施方式
下模塊

請參閱圖1,這是本發(fā)明人機互動的口語對話系統(tǒng)的結(jié)構(gòu)示意圖。該系統(tǒng)包括有以-語音識別模塊1,將用戶的語音識別為文字-糾錯模塊2,將語音識別模塊I輸出的文字進行詞法和語法層面的糾錯; -自然語言理解模塊3,將糾錯模塊2輸出的糾錯后的文字識別為語義;-對話管理模塊4,根據(jù)自然語言理解模塊3輸出的語義,生成對話的語義; -自然語言生成模塊5,將對話管理模塊4輸出的對話語義生成為對話文字; -語音合成模塊6,將自然語言生成模塊5輸出的對話文字生成為對話語音。所述人機互動的口語對話系統(tǒng)的實現(xiàn)方法包括如下步驟第I步,收集口語語料形成語料庫;第2步,用戶的語音通過語音識別模塊I被識別為文字;第3步,所述文字通過糾錯模塊2進行詞法和語法層面的糾錯;第4步,糾錯后的文字通過自然語言理解模塊3被識別為語義;第5步,對話管理模塊4根據(jù)所述語義,生成對話的語義;第6步,所述對話語義通過自然語言生成模塊5生成為對話文字;第7步,所述對話文字通過語音合成模塊6生成為對話語音。請參閱圖2,上述人機互動的口語對話系統(tǒng)的實現(xiàn)方法的第I步具體包括如下步第1.1步,收集口語語句,例如可采用人工編輯、Wizard of OZ等方法。第1. 2步,分析、識別口語對話的規(guī)劃(Agenda),即識別出各個語句的語義。所有語句的語義可分為問題語義和回答語義兩大類。
第1. 3步,將所有問題語義的語義分為多個對話主題,每個對話主題用一顆語義樹表示;語義樹是一種樹狀的數(shù)據(jù)結(jié)構(gòu),包括一個根節(jié)點、多個子節(jié)點、多個孫節(jié)點……,每個節(jié)點表示一個問題語義;
語義樹的一個節(jié)點包括它所表示的問題語義的名稱、該節(jié)點的類型、該節(jié)點的子節(jié)點的名稱等。
下面就是語義樹的一個節(jié)點的示例
QA_GREETING
type = OR
next = 0R(Q_FIRST_MEET, Q_L0NG_TIME, Q_NICEMEET)
其中QA_GREETING是問題語義(該節(jié)點)的名稱,該節(jié)點的類型是0R。該節(jié)點的子節(jié)點的名稱是Q_FIRST_MEET、Q_L0NG_TIME, Q_NICEMEET中的一個且僅為一個,分別表示初次見面、好久未見和一般見面的情況。
語義樹上的節(jié)點根據(jù)其與子節(jié)點的鏈接關(guān)系可以分為三種類型,分別是順序類型 (SEQ)、或者類型(OR)、任意類型(ANY)。
順序類型表示該節(jié)點之后按順序跟著一個子節(jié)點,即當前問題語義之后按順序跟著一個問題語義。
或者類型表示該節(jié)點之后跟著多個子節(jié)點,只能選擇這多個子節(jié)點中的一個且僅有一個子節(jié)點,即當前問題語義之后根據(jù)不同情況從多個問題語義中只能選擇一個。
任意類型表示該節(jié)點之后跟著多個子節(jié)點,可以以任意順序選擇這多個子節(jié)點中的一個或多個子節(jié)點,即當前問題語義之后可以從多個問題語義中任意選擇。
或者類型與任意類型的區(qū)別在于假設(shè)節(jié)點A有三個子節(jié)點Al、A2、A3,當節(jié)點A 為或者類型,則對話管理模塊只能選擇子節(jié)點Al、A2、A3中的一個,一旦選擇完畢,其余子節(jié)點就不能再選擇了。而當節(jié)點A為任意類型,則對話管理模塊只能選擇子節(jié)點A1、A2、A3 中的一個,一旦選擇完畢,對話管理模塊還可以選擇其余子節(jié)點。
第1. 4步,將所收集的語句編譯為多個二進制文件,至少包括
主題定義文件,用于將所有語句分為多個對話主題;
語義樹定義文件,用于將每個對話主題中的所有問題語義形成一個樹狀的數(shù)據(jù)結(jié)構(gòu)即語義樹,語義樹的每個節(jié)點表示一個問題語義,每個節(jié)點包括語義ID號、類型、各子節(jié)點的名稱等。
語義定義文件,用于每個問題語義及其對應(yīng)的回答語義,以及每個問題語義所對應(yīng)的一組具體語句、每個回答語義所對應(yīng)的一組具體語句。
語句定義文件,管理所有語句以及各語句的部分發(fā)音標注和全部發(fā)音標注。部分發(fā)音標注的標注內(nèi)容較少,效率高但不精確,例如為Double Metaphone發(fā)音標注法。 全部發(fā)音標注的標注內(nèi)容較多,效率低但很精確,例如為IPA(International Phonetic Association)發(fā)音標注法。
BK樹定義文件,建立所有語句間的部分發(fā)音標注的Levenshtein距離,以及所有語句間的全部發(fā)音標注的Levenshtein距離。這可以采用Burkhard-Keller樹算法實現(xiàn)。
所形成的多個二進制文件經(jīng)過一系列數(shù)據(jù)轉(zhuǎn)換后,便可用于不同的語音識別引擎1,并具體應(yīng)用于糾錯模塊2和對話管理模塊4。
總而言之,語料庫是大量語句(文本)的集合,并且語料庫對這些語句進行了加工處理,形成了多個二進制文件。所述加工處理例如提取各語句語義,對所有語句按照內(nèi)容分為多個主題,每個主題中的各個問題語義之間的關(guān)系用語義樹描述等。
所述語音識別模塊I將用戶的語音識別為文字,該功能由語音識別引擎完成。語音識別引擎的識別效果和語言模型直接相關(guān),對口語對話的大詞匯量連續(xù)語音識別,一般采用SLM(Statistical Language Model)語言模型。對主題詞搜索的語音識別,一般采 M SRGS (Speech Recognition Grammar Specification)語言模型,特別是該模型中的 Hotword(也稱 Magic Word)模式。
本發(fā)明所述語音識別模塊I例如可采用3元(3-gram) SLM模型作為主要的語音識別引擎,這是一種現(xiàn)有技術(shù),其優(yōu)點是適合于大詞匯量連續(xù)語音識別、語料增加時語言識別模型便于維護。
根據(jù)本發(fā)明人機互動的口語對話系統(tǒng)部署的硬件設(shè)備的不同,可采用桌面版語音識別引擎、嵌入式語音識別引擎或服務(wù)器版語音識別引擎,分別對應(yīng)于個人計算機、便攜式電子設(shè)備、服務(wù)器——客戶端系統(tǒng)。
所述糾錯模塊2將語音識別模塊I輸出的文字進行詞法和語法層面的糾錯。詞法層面可采用諸如Levenshtein Distance算法,比對語料庫中相關(guān)語句,糾正語音識別文字的錯誤單詞。語法層面對單詞進行詞性標簽(Part of Speech Tagging),并分析語法結(jié)構(gòu) (Grammatical Structure)糾正語音識別文字的基本語法錯誤。
請參閱圖3,本發(fā)明人機互動的口語對話系統(tǒng)的實現(xiàn)方法的第3步具體包括如下步驟
第3.1步,當語音識別模塊I識別出的文字與語料庫中的語句相匹配,則糾錯模塊 2認為沒有發(fā)生錯誤,原樣輸出;
當語音識別模塊I識別出的文字與語料庫中的所有語句都不匹配,則糾錯模塊2 認為發(fā)生了錯誤,進入第3. 2步 糾錯;
第3. 2步,糾錯模塊2將該錯誤語句作為輸入,利用Burkhard-Keller樹算法找到在語料庫中與該錯誤語句的部分發(fā)音標注法的距離小于或等于η的所有語句;η根據(jù)語句長度不同而不同,一般為該錯誤語句所含單詞數(shù)的四分之一到三分之一,例如語句由12個單詞組成,則η取值為3或4。
第3. 3步,糾錯模塊2計算該錯誤語句與第3. 2步找到的各個語句之間的全部發(fā)音標注法間的距離,例如計算該錯誤語句與找到的各個語句之間的IPA發(fā)音標注間的 Levenshtein距離。并按計算出的距離按由小到大的順序排序;
第3. 4步,如果第3. 3步計算出的距離的最小值超過閥值,則糾錯模塊2認為糾錯失敗,輸出錯誤提示信息;該錯誤提示信息例如要求重新向語音識別模塊I輸入新的語音信號。
如果第3. 3步計算出的距離的最小值在閥值以內(nèi),則糾錯模塊2將與該錯誤語句具有最小的全部發(fā)音標注法的距離的語句作為糾錯結(jié)果輸出;
所述閥值的取值一般為該錯誤語句所含字符數(shù)的四分之一到三分之一,例如語句由48個字符組成,則所述閥值的取值范圍為12至16。。
本發(fā)明所述糾錯模塊2采用詞法糾錯作為主要糾錯方式,并采用UCREL CLAWS7詞 性標簽法進行語法結(jié)構(gòu)分析。該糾錯模塊2能將文字中的單詞錯誤(可能是用戶發(fā)音錯 誤,也可能是語音識別引擎導(dǎo)致的相似音識別錯誤)、語法錯誤(如第三人稱單數(shù)等)自動 糾正。該糾錯模塊2能彌補語音識別模塊I的誤識別、口語語法的不嚴密,減少自然語言理 解模塊3無法理解的情況,使得人機對話更順暢。
所述自然語言理解模塊3將糾錯模塊2輸出的糾錯后的文字識別為語義,也就 是理解文字的語義。該自然語言理解模塊3將糾錯后的文字歸納為該語句所表達的語義 (Semantic)。說法不同、意思相同的語句歸納為相同語義。該功能可采用喬姆斯基語言學(xué) 理論,根據(jù)詞匯、句法規(guī)則、語義規(guī)則并結(jié)合邏輯推導(dǎo)規(guī)則和知識庫來理解語義。該功能也 可采用SSM(Statistical Semantic Model),使用統(tǒng)計學(xué)原理對事先標注的大量語料通過 機器學(xué)習(xí)算法(Machine Learning Algorithm)進行訓(xùn)練(Training),經(jīng)訓(xùn)練后的語義模型 用于文字的語義識別。
本發(fā)明所述自然語言理解模塊3例如可采用SSM方式,這是一種現(xiàn)有技術(shù),其優(yōu)點 是語料增加時便于維護,且隨著語料增長,所述人機互動的口語系統(tǒng)的用戶體驗同步增長。
所述對話管理模塊4根據(jù)自然語言理解模塊3輸出的語義,生成對話的語義,也 就是在人機對話過程中自動產(chǎn)生計算機方的所有語義。該對話管理模塊4根據(jù)對話上下 文(Context)及用戶輸入語義,推導(dǎo)出機器的答復(fù)語義。此處答復(fù)是泛指即如果用戶是提 問,機器為回答語義;如果用戶是回答,則機器可能是下一個相關(guān)問題語義。答復(fù)語義也稱 對話語義。
對話管理一般分為基于知識(Knowledge-based)的對話管理系統(tǒng)和數(shù)據(jù)驅(qū)動 (Data-driven)的對話管理系統(tǒng)。前者主要采用規(guī)劃(Agenda)的方式,規(guī)劃模型要求從語 句中事先分析、識別出規(guī)劃。后者通過對事先標注的大量語料采用馬爾科夫決策過程處理 (Markov Decision Processing)生成對話模型。
請參閱圖4,所述人機互動的口語對話系統(tǒng)的實現(xiàn)方法的第5步具體包括
第5.1步,當用戶提出問題,則對話管理模塊首先判斷用戶所提問題屬于哪一個 主題,再從該主題的語義樹中找到用戶所提問題的語義對應(yīng)的節(jié)點,并從該節(jié)點中找到該 問題語義的回答語義輸出;后續(xù)的自然語言生成模塊5再從該回答語義對應(yīng)的一組語句中 挑選一句回答用戶。
當用戶未提出問題,則進入第5. 2步;
第5. 2步,對話管理模塊判斷用戶最近回答的問題屬于哪一個主題,再從該主題 的語義樹中找到用戶最近回答的問題的語義對應(yīng)的節(jié)點,再將該節(jié)點作為當前節(jié)點;
第5. 3步,如果當前節(jié)點是順序類型,選擇當前節(jié)點的下一子節(jié)點作為候選節(jié)點;
當前節(jié)點是或者類型,選擇當前節(jié)點的下多個子節(jié)點的一個且僅為一個子節(jié)點作 為候選節(jié)點;
當前節(jié)點是任意類型,選擇當前節(jié)點的下多個子節(jié)點的任意一個子節(jié)點作為候選 節(jié)點;
第5. 4步,判斷候選節(jié)點對應(yīng)的問題語義是否為用戶曾提問過的、或用戶曾回答 過的、或與用戶之前的回答相矛盾的、或與之前選擇的節(jié)點類型相矛盾的(主要指之前對 話管理模塊對于或者類型的節(jié)點,一旦選擇一個子節(jié)點后,其余子節(jié)點就被排除在后續(xù)選擇之外的情況);
如有一項為是,則將候選節(jié)點作為當前節(jié)點,返回第5. 3步;
如果全部為否,則將候選節(jié)點的問題語義輸出。
進一步地,如果當前節(jié)點的所有子節(jié)點都不符合第5. 4步(即都至少有一項為 是),則回溯處理當前節(jié)點的父節(jié)點。如果當前語義樹上已沒有可以處理的父節(jié)點,則對話 管理模塊4主動向用戶說再見。
本發(fā)明所述對話管理模塊4采用基于知識的對話管理系統(tǒng),其優(yōu)點是形成了人機 雙向互動的對話環(huán)境,且隨著語料增長,所述人機互動的口語對話系統(tǒng)的用戶體驗同步增 長。
所述自然語言生成模塊5將對話管理模塊4輸出的對話語義生成為對話文字,也 就是生成表達特定語義的文字。該自然語言生成模塊5模塊根據(jù)機器答復(fù)語義,對話上下 文及相關(guān)參數(shù)(如用戶英語水平),從語料庫(Corpora)中挑選生成具體的對話文字。
本發(fā)明所述自然語言生成模塊5例如采用語句模板的方式實現(xiàn),可根據(jù)語義從對 應(yīng)的多個語句中選擇一句,選擇的依據(jù)包括上下文關(guān)系、用戶的外語水平等。這是一種現(xiàn)有 技術(shù),優(yōu)點是實現(xiàn)簡便。
語音合成模塊6將自然語言生成模塊5輸出的對話文字生成為對話語音,也 就是實時生成文字對應(yīng)的語音。該功能由語音合成引擎完成,語音合成引擎的呈現(xiàn) (Presentation)模塊采用語音合成(Text To Speech)和/或預(yù)錄音方式將對話語音播放 給用戶聽,還可同時通過多媒體動畫、視頻等形式在用戶界面展示。
本發(fā)明所述語音合成模塊6采用第三方語音合成引擎,這是一種現(xiàn)有技術(shù),在此 不再贅述。
以上僅為本發(fā)明的優(yōu)選實施例,并不用于限定本發(fā)明。對于本領(lǐng)域的技術(shù)人員來 說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同 替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種人機互動的口語對話系統(tǒng),其特征是,包括 語音識別模塊,將用戶的語音識別為文字; 糾錯模塊,將語音識別模塊輸出的文字進行詞法和語法層面的糾錯; 自然語言理解模塊,將糾錯模塊輸出的糾錯后的文字識別為語義; 對話管理模塊,根據(jù)自然語言理解模塊輸出的語義,生成對話的語義; 自然語言生成模塊,將對話管理模塊輸出的對話語義生成為對話文字; 語音合成模塊,將自然語言生成模塊輸出的對話文字生成為對話語音。
2.如權(quán)利要求1所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,包括如下步驟 第I步,收集口語語料形成語料庫; 第2步,用戶的語音通過語音識別模塊被識別為文字; 第3步,所述文字通過糾錯模塊進行詞法和語法層面的糾錯; 第4步,糾錯后的文字通過自然語言理解模塊被識別為語義; 第5步,對話管理模塊根據(jù)所述語義,生成對話的語義; 第6步,所述對話語義通過自然語言生成模塊生成為對話文字; 第7步,所述對話文字通過語音合成模塊生成為對話語音。
3.根據(jù)權(quán)利要求2所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,所述方法第I步具體包括如下步驟 第1.1步,收集口語語句; 第1. 2步,識別出各個語句的語義;所有語句的語義可分為問題語義和回答語義兩大類; 第1. 3步,將所有問題語義的語義分為多個對話主題,每個對話主題用一顆語義樹表示;語義樹是一種樹狀的數(shù)據(jù)結(jié)構(gòu),包括一個根節(jié)點、多個子節(jié)點、多個孫節(jié)點……,每個節(jié)點表示一個問題語義; 語義樹的一個節(jié)點包括它所表示的問題語義的名稱、該節(jié)點的類型、該節(jié)點的子節(jié)占. 語義樹上的節(jié)點根據(jù)其與子節(jié)點的鏈接關(guān)系分為三種類型,分別是順序類型、或者類型、任意類型 順序類型表示該節(jié)點之后按順序跟著一個子節(jié)點; 或者類型表示該節(jié)點之后跟著多個子節(jié)點,只能選擇這多個子節(jié)點中的一個且僅有一個子節(jié)點; 任意類型表示該節(jié)點之后跟著多個子節(jié)點,可以以任意順序選擇這多個子節(jié)點中的一個或多個子節(jié)點; 第1. 4步,將所收集的語句編譯為多個二進制文件,至少包括 主題定義文件,用于將所有語句分為多個對話主題; 語義樹定義文件,用于將每個對話主題中的所有問題語義形成一個樹狀的數(shù)據(jù)結(jié)構(gòu)即語義樹,語義樹的每個節(jié)點表示一個問題語義,每個節(jié)點包括語義ID號、類型、各子節(jié)點;語義定義文件,用于每個問題語義及其對應(yīng)的回答語義,以及每個問題語義所對應(yīng)的一組具體語句、每個回答語義所對應(yīng)的一組具體語句;語句定義文件,管理所有語句以及各語句的部分發(fā)音標注和全部發(fā)音標注; BK樹定義文件,建立所有語句間的部分發(fā)音標注的Levenshtein距離,以及所有語句間的全部發(fā)音標注的Levenshtein距離。
4.根據(jù)權(quán)利要求2所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,所述方法第3步具體包括如下步驟 第3.1步,當語音識別模塊識別出的文字與語料庫中的語句相匹配,則糾錯模塊認為沒有發(fā)生錯誤,原樣輸出; 當語音識別模塊識別出的文字與語料庫中的所有語句都不匹配,則糾錯模塊認為發(fā)生了錯誤,進入第3. 2步糾錯; 第3. 2步,糾錯模塊將該錯誤語句作為輸入,利用Burkhard-Keller樹算法找到在語料庫中與該錯誤語句的部分發(fā)音標注法的距離小于或等于η的所有語句;η的取值范圍為所述錯誤語句所含單詞數(shù)的四分之一到三分之一; 第3. 3步,糾錯模塊計算該錯誤語句與第3. 2步找到的各個語句之間的全部發(fā)音標注法間的距離,并按計算出的距離按由小到大的順序排序; 第3. 4步,如果第3. 3步計算出的距離的最小值超過閥值,則糾錯模塊認為糾錯失敗,輸出錯誤提示信息; 如果第3. 3步計算出的距離的最小值在閥值以內(nèi),則糾錯模塊將與該錯誤語句具有最小的全部發(fā)音標注法的距離的語句作為糾錯結(jié)果輸出; 所述閥值的取值范圍為所述錯誤語句所含字符數(shù)的四分之一到三分之一。
5.根據(jù)權(quán)利要求3或4所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,所述部分發(fā)音標注法為Double Metaphone發(fā)音標注法,所述全部發(fā)音標注法為IPA發(fā)音標注法。
6.根據(jù)權(quán)利要求2所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,所述方法第5步具體包括 第5.1步,當用戶提出問題,則對話管理模塊首先判斷用戶所提問題屬于哪一個主題,再從該主題的語義樹中找到用戶所提問題的語義對應(yīng)的節(jié)點,并從該節(jié)點中找到該問題語義的回答語義輸出; 當用戶未提出問題,則進入第5. 2步; 第5. 2步,對話管理模塊判斷用戶最近回答的問題屬于哪一個主題,再從該主題的語義樹中找到用戶最近回答的問題的語義對應(yīng)的節(jié)點,再將該節(jié)點作為當前節(jié)點; 第5. 3步,如果當前節(jié)點是順序類型,選擇當前節(jié)點的下一子節(jié)點作為候選節(jié)點;當前節(jié)點是或者類型,選擇當前節(jié)點的下多個子節(jié)點的一個且僅為一個子節(jié)點作為候選節(jié)點; 當前節(jié)點是任意類型,選擇當前節(jié)點的下多個子節(jié)點的任意一個子節(jié)點作為候選節(jié)占. 第5. 4步,判斷候選節(jié)點對應(yīng)的問題語義是否為用戶曾提問過的、或用戶曾回答過的、或與用戶之前的回答相矛盾的、或與之前選擇的節(jié)點類型相矛盾的; 如有一項為是,則將候選節(jié)點作為當前節(jié)點,返回第5. 3步; 如果全部為否,則將候選節(jié)點的問題語義輸出。
7.根據(jù)權(quán)利要求6所述的人機互動的口語對話系統(tǒng)的實現(xiàn)方法,其特征是,所述方法第5. 4步中,如果當前節(jié)點的所有子節(jié)點都至少有一項為是,則回溯處理當前節(jié)點的父節(jié)點;如果當·前語義樹上已沒有可以處理的父節(jié)點,則對話管理模塊主動向用戶說再見。
全文摘要
本發(fā)明公開了一種人機互動的口語對話系統(tǒng),包括語音識別模塊,將用戶的語音識別為文字;糾錯模塊,將語音識別模塊輸出的文字進行詞法和語法層面的糾錯;自然語言理解模塊,將糾錯模塊輸出的糾錯后的文字識別為語義;對話管理模塊,根據(jù)自然語言理解模塊輸出的語義,生成對話的語義;自然語言生成模塊,將對話管理模塊輸出的對話語義生成為對話文字;語音合成模塊,將自然語言生成模塊輸出的對話文字生成為對話語音。本發(fā)明還公開了所述人機互動的口語對話系統(tǒng)的實現(xiàn)方法。該系統(tǒng)能回答用戶提問,也能主動和用戶談?wù)撓嚓P(guān)話題,從而營造一種真實的口語對話語言環(huán)境。
文檔編號G09B5/04GK103000052SQ201110275440
公開日2013年3月27日 申請日期2011年9月16日 優(yōu)先權(quán)日2011年9月16日
發(fā)明者張國順 申請人:上海先先信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1