本發(fā)明涉及一種語音語義識別方法,尤其涉及一種服務(wù)機(jī)器人的語音語義識別方法。
背景技術(shù):
計(jì)算機(jī)科學(xué)領(lǐng)域的一個重要分支就是“人工智能”,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
在自然語言處理方面,如何讓機(jī)器人識別和理解人類的語言,并且模擬人類思維方式去思考、推理問題,是完成“人工智能”這個人類偉大理想的重要舉措。不管是中文,還是英文的語言環(huán)境中,除了“你”“我”“他”等這類個別的例外之外,詞組才是人類表達(dá)語義的最小單位。
什么是語義?語義就是自然語言文本的涵義。對機(jī)器人來說,就是當(dāng)機(jī)器人遇到這個文本輸入的時候,應(yīng)該進(jìn)行的回答或響應(yīng)。例如,當(dāng)用戶問“北京明天什么天氣”,計(jì)算機(jī)能夠理解這句話的意圖是問天氣信息,且城市是北京,時間是明天,從而執(zhí)行的操作是從特定數(shù)據(jù)源中查詢到北京明天的天氣信息并呈現(xiàn)給用戶。
語義技術(shù)比較適合的應(yīng)用類型至少有兩種:一是操控類的應(yīng)用,通過語音可以直接發(fā)出指令,如語音撥號,發(fā)短信等;二是信息查詢類的應(yīng)用,特別是查詢條件比較多的情況,傳統(tǒng)的交互方式需要用戶用文字輸入很多查詢條件,這對用戶來說很繁瑣。而語義的交互方式可以讓用戶通過一句話或者多回合的對話方式獲取其所要的信息。
中國服務(wù)機(jī)器人的應(yīng)用領(lǐng)域包括金融、家庭服務(wù)、教育、醫(yī)療、物流、國防、住宿餐飲、電子商務(wù)等。對于服務(wù)型機(jī)器人我們現(xiàn)階段主要有的就是餐飲機(jī)器人、家居機(jī)器人、娛樂機(jī)器人以及醫(yī)療看護(hù)機(jī)器人等。而且現(xiàn)在的這種類型的機(jī)器人已經(jīng)逐漸被人們接受,使用率也越來越高。
對于服務(wù)機(jī)器人來說,語音語義技術(shù)需要實(shí)現(xiàn)的技術(shù)目標(biāo),是使服務(wù)機(jī)器人能夠理解人類對他輸入的句子的意思,這里需要強(qiáng)調(diào)的是“理解”,而不是“識別”。識別指的是語音識別,具體是指通過語音識別分析出這句話說的是什么;而理解指的是語義識別,具體是指語義識別分析出這句話是什么意思。機(jī)器人要正確理解用戶的意思并作出反應(yīng),語義識別實(shí)際上更為關(guān)鍵。
現(xiàn)有的服務(wù)機(jī)器人大部分設(shè)置有攝像頭,通過攝像頭的視頻錄制和實(shí)施人工監(jiān)控,使得即使在嘈雜的環(huán)境中,語音識別的正確率仍能保持,在多音源的情況下,識別的準(zhǔn)確度需要 其他功能的輔助提升語音語義識別的準(zhǔn)確度。目前的服務(wù)機(jī)器人在語音語義識別過程中,仍存在諸多的問題,例如語音設(shè)備在采集過程或采集設(shè)備本身會帶來干擾,導(dǎo)致其準(zhǔn)確率不高,或者語音識別基本能涵蓋準(zhǔn)確識別結(jié)果,但是在實(shí)時識別過程中需要采用大型的計(jì)算機(jī)硬件設(shè)備,計(jì)算量大。
因此,對于服務(wù)機(jī)器人來說,不僅如何快速、準(zhǔn)確識別用戶發(fā)出的語音指令并對指令的語義進(jìn)行理解后,做出相應(yīng)的響應(yīng)或者回復(fù)是體現(xiàn)一個服務(wù)機(jī)器人性能的重要指標(biāo),能否將識別設(shè)備變得輕巧、可移動和便攜,是一個新的客體要求。
對比文件1:CN102681982A公開一種可讓計(jì)算機(jī)理解的自然語言句子的自動語義識別的方法,涉及到一種可以準(zhǔn)確的識別漢語語言的方法。具體它包括以下步聚:a、在某個領(lǐng)域建立本體庫;b、基于領(lǐng)域本體建立語義框架知識庫;c、基于語義框架的本體映射,實(shí)現(xiàn)自然語言句子到語義結(jié)構(gòu)的直觀匹配;根據(jù)框架模式進(jìn)行匹配性識別。在出現(xiàn)干擾時,其語音語義識別度容易出現(xiàn)誤差,具有局限性。
對比文件2:CN104409075 A公開一種語音識別方法,在接收到語音信號時,控制圖像采集裝置進(jìn)行圖像采集,并在所述語音信號結(jié)束時,控制所述圖像采集裝置停止圖像采集;對接收到的語音信號進(jìn)行識別,以得到語音信號識別結(jié)果;對采集到的圖像中包含唇部的圖像進(jìn)行唇語識別,以得到唇語識別結(jié)果;計(jì)算所述語音信號識別結(jié)果和唇語識別結(jié)果的準(zhǔn)確度,將準(zhǔn)確度較高的識別結(jié)果作為當(dāng)前的語音識別結(jié)果。其通過對所采集的視頻進(jìn)行唇語識別,耗費(fèi)時間長,計(jì)算機(jī)計(jì)算量大,且需要較大型計(jì)算機(jī)硬件設(shè)備進(jìn)行支持。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種服務(wù)機(jī)器人的語音語義識別方法,該語音語義識別方法能快速、準(zhǔn)確地識別用戶發(fā)出的語音指令,并對語音指令的語義進(jìn)行理解后作出相應(yīng)的回復(fù)或者響應(yīng);通過唇語識別,對語音語義識別進(jìn)行輔助后匹配,使得準(zhǔn)確率更高。
為了解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
提供一種服務(wù)機(jī)器人的語音語義識別方法,具體包括如下步驟:
S1、系統(tǒng)詞庫建模:
S101、建立詞庫數(shù)據(jù)庫,所述詞庫數(shù)據(jù)庫包括代詞數(shù)據(jù)庫、動詞數(shù)據(jù)庫和名詞數(shù)據(jù)庫,將中文漢字中為代詞、動詞和名詞屬性的詞語和成語分別存入相應(yīng)的代詞數(shù)據(jù)庫、動詞數(shù)據(jù)庫和名詞數(shù)據(jù)庫;
S102、同時,建立語義框架數(shù)據(jù)庫,所述語義框架數(shù)據(jù)庫包括存入的詞語可能的組合方式及組合在一起對應(yīng)的中文意思;
S103、同時建立唇語模式庫,所建立模式庫由面部唇語視頻運(yùn)算識別得到模式特征碼或由中文文字反推得到標(biāo)準(zhǔn)模式特征碼;
S2、系統(tǒng)通過語音識別系統(tǒng)采集用戶輸入的語音指令和面部視頻,將語音指令識別為中文語句,然后將中文語句進(jìn)行拆解,拆解形式為:代詞+動詞+名詞,并對應(yīng)詞庫數(shù)據(jù)庫和語義框架數(shù)據(jù)庫,得到該語音指令的中文語義;
S3、根據(jù)語義解析矯正語音識別結(jié)果,并輸出綜合評價概率Pa,其中,Pa為歸一化值;
S4、取參數(shù)C0,當(dāng)Pa<C0時,進(jìn)入S5;否則進(jìn)入S10;
S5、輸出各語義片段識別結(jié)果可信概率Ps(1)~Ps(N);
S6、取參數(shù)C1、K,當(dāng)某語音片段識別結(jié)果可信概率Ps(n)<C1(n=1~N)時,語義識別輸出可信概率最大的K個識別結(jié)果(K≥2),否則進(jìn)入S9;
S7、獲取步驟S6中K個識別結(jié)果的唇語模式特征RTs(k),其中k=1~K;
S8、根據(jù)語音識別系統(tǒng)截取的對應(yīng)的面部視頻片段,通過視頻唇部運(yùn)動模式提取,并形成唇部運(yùn)動模式特征碼RTs0;
S8、使用模式匹配算法,以RTs0和RTs(1)~RTs(k)作為輸入,獲得VP(1)~VP(K),并取最小值,即Vpmin(k)=min//PTs(k)-PT0//(k=1~K),其中//為距離算子;
S9、輸出Vpmin對應(yīng)的結(jié)果作為識別結(jié)果,進(jìn)入S5循環(huán)直至N片段識別完成,進(jìn)入S10;
S10、所述中文語義通過顯示界面顯示。
進(jìn)一步地,
所述步驟S101中所述名詞數(shù)據(jù)庫中的名詞按不同服務(wù)領(lǐng)域進(jìn)行分類存儲,所述服務(wù)領(lǐng)域包括餐飲、醫(yī)療、購物、運(yùn)動、住宿、交通;步驟S102中對應(yīng)的語音框架數(shù)據(jù)庫也根據(jù)不同服務(wù)領(lǐng)域進(jìn)行分類存儲。
比如:我要吃“飯/小龍蝦”,對應(yīng)的是餐飲領(lǐng)域;
比如:我要看“病”,對應(yīng)的是醫(yī)療領(lǐng)域;
比如:我要買“手機(jī)/書本”,對應(yīng)的是購物領(lǐng)域;
比如:我要打“球/健身”,對應(yīng)的是運(yùn)動領(lǐng)域;
比如:我要找“酒店/住宿”,對應(yīng)的是住宿領(lǐng)域;
再比如:我要去“機(jī)場”,對應(yīng)的是交通領(lǐng)域。
進(jìn)一步地,
步驟S2中,當(dāng)系統(tǒng)識別的語音指令的中文語義中包含用戶“要”、“想要”、“需要”某件物品或者做某件事情或者“將要”做某件事情的語義時;
所述語音語義識別方法還包括步驟:
S11、系統(tǒng)獲取當(dāng)前用戶的位置,同時在該位置附近對包含某件事情或者某件物品的名詞相關(guān)的事務(wù)進(jìn)行搜索,搜索結(jié)果通過顯示界面顯示。
例如:當(dāng)用戶輸入的語音指令為“我要買書”時,系統(tǒng)會獲取到用戶的當(dāng)前位置,將附近可以的書店或者可以買書的商家關(guān)聯(lián)對接起來,再查詢出價格和庫存等信息后對用戶進(jìn)行反饋,并將結(jié)果顯示在顯示界面上。
進(jìn)一步地,
語音語義識別方法還包括步驟:
S12、用戶根據(jù)顯示界面的搜索結(jié)果,進(jìn)行進(jìn)一步確認(rèn),服務(wù)機(jī)器人對用戶輸入的確認(rèn)指令做出相應(yīng)回復(fù)或響應(yīng)。
以買書為例,用戶根據(jù)顯示界面上反饋的搜索結(jié)果,根據(jù)書店或者商家的位置及書的價格等,確定在哪個書店購買書后,可以直接通過服務(wù)機(jī)器人進(jìn)行進(jìn)一步的確認(rèn)后,直接下單或購買完成。
進(jìn)一步地,
步驟S1中的詞庫數(shù)據(jù)庫通過人工錄入或者字典采集的方式分類存入不同屬性的成語或者詞語。
進(jìn)一步地,
所述步驟S4中,當(dāng)C0=1時,進(jìn)入S5;當(dāng)C0=0時,進(jìn)入S10。
進(jìn)一步地,
所述語音語義識別方法還包括系統(tǒng)對每次語音指令識別并轉(zhuǎn)化成中文語義后作出的相應(yīng)操作進(jìn)行記錄和統(tǒng)計(jì)并存儲,以便于后續(xù)操作中的修正和優(yōu)化。
進(jìn)一步地,
所述步驟S2中的語音指令通過麥克風(fēng)輸入,為了使語音指令輸入更加清晰準(zhǔn)確,用戶距離麥克風(fēng)的距離優(yōu)選在15m范圍內(nèi)。
進(jìn)一步地,
所述步驟S10中的中文語義也可以進(jìn)一步轉(zhuǎn)化成語音信息,通過服務(wù)機(jī)器人的揚(yáng)聲器輸出,方便用戶進(jìn)一步確認(rèn),服務(wù)機(jī)器人對語音指令的識別是否準(zhǔn)確。
例如:當(dāng)用戶輸入的語音指令為“我要買書”時,服務(wù)機(jī)器人系統(tǒng)會將該語音指令識別成中文語義“用戶要買書”,這一中文語義可以通過文本信息顯示在顯示界面上,也可以進(jìn)一步轉(zhuǎn)化成語音信息“您是要買書嗎?”通過揚(yáng)聲器輸出,以便與用戶做更進(jìn)一步確認(rèn)。
進(jìn)一步地,
所述服務(wù)機(jī)器人的系統(tǒng)通過網(wǎng)絡(luò)與云平臺或者后臺管理服務(wù)器連接,所述云平臺或者后 臺管理服務(wù)器存儲有包含某件事情或者某件物品的名詞相關(guān)的信息,當(dāng)系統(tǒng)輸入搜索指令后,系統(tǒng)會通過網(wǎng)絡(luò)獲取相關(guān)信息。
進(jìn)一步地,
所述步驟S8中,設(shè)定Vpmin小于常數(shù)C2,否則給出識別提示。
本發(fā)明的有益效果:
本發(fā)明針對不同服務(wù)領(lǐng)域設(shè)置名詞數(shù)據(jù)庫,可以解決以往漢語語言中,由于前提不明確,語境不清楚等原因造成的語義模糊的問題;以語音語義識別為基礎(chǔ)獲得中間特征碼,然后運(yùn)用某種距離算子來對語音識別的結(jié)果進(jìn)行判別和選取。
本發(fā)明中針對不同的服務(wù)領(lǐng)域建立相應(yīng)的名詞數(shù)據(jù)庫,讓其在特定的服務(wù)環(huán)境下,具備明確的語義,然后再建立相應(yīng)的語義框架數(shù)據(jù)庫,機(jī)器人通過詞庫數(shù)據(jù)庫與語義框架數(shù)據(jù)庫的結(jié)合,來理解所識別的語音指令所需要表達(dá)的中文含義,同時對識別的含義進(jìn)行相應(yīng)的評估,而后進(jìn)行唇語識別,通過對評價概率低的片段進(jìn)行唇語識別,實(shí)現(xiàn)對語音語義識別的輔助識別。
本發(fā)明中的語音語義識別方法中采用唇語識別作為輔助識別手段,解決現(xiàn)有技術(shù)中在嘈雜的環(huán)境或較遠(yuǎn)的距離下,使用語音語音語義識別時準(zhǔn)確率低的問題;采用片段式唇語識別,對于后續(xù)研發(fā)輕便、可攜帶或便攜式設(shè)備來說,具有重要的意義。
語音和片段視頻的結(jié)合使用,大大減輕計(jì)算量,可以滿足可結(jié)束的實(shí)時需求;使得服務(wù)機(jī)器人對于用戶的語音指令做出更加智能化的響應(yīng),提高服務(wù)機(jī)器人的人工智能化程度。
本發(fā)明提供的多個可調(diào)整的參數(shù)和反饋,為更廣泛適配語音識別和唇語識別帶來了新的方向。
具體實(shí)施方式
下面結(jié)合實(shí)施例對發(fā)明進(jìn)一步說明,但不用來限制本發(fā)明的范圍。
實(shí)施例1
本實(shí)施例提供一種服務(wù)機(jī)器人的語音語義識別方法,具體包括如下步驟:
S1、系統(tǒng)詞庫建模:
S101、建立詞庫數(shù)據(jù)庫,所述詞庫數(shù)據(jù)庫包括代詞數(shù)據(jù)庫、動詞數(shù)據(jù)庫和名詞數(shù)據(jù)庫,將中文漢字中為代詞、動詞和名詞屬性的詞語和成語分別存入相應(yīng)的代詞數(shù)據(jù)庫、動詞數(shù)據(jù)庫和名詞數(shù)據(jù)庫;
S102、同時,建立語義框架數(shù)據(jù)庫,所述語義框架數(shù)據(jù)庫包括存入的詞語可能的組合方式及組合在一起對應(yīng)的中文意思;
S103、同時建立唇語模式庫,所建立模式庫由面部唇語視頻運(yùn)算識別得到模式特征碼或由中文文字反推得到標(biāo)準(zhǔn)模式特征碼;
步驟S101中所述名詞數(shù)據(jù)庫中的名詞進(jìn)一步按不同服務(wù)領(lǐng)域進(jìn)行分類存儲,所述服務(wù)領(lǐng)域包括餐飲、醫(yī)療、購物、運(yùn)動、住宿、交通等;步驟S102中對應(yīng)的語音框架數(shù)據(jù)庫也根據(jù)不同服務(wù)領(lǐng)域進(jìn)行分類存儲。
比如:我要吃“飯/小龍蝦”,對應(yīng)的是餐飲領(lǐng)域;
比如:我要看“病”,對應(yīng)的是醫(yī)療領(lǐng)域;
比如:我要買“手機(jī)/書本”,對應(yīng)的是購物領(lǐng)域;
比如:我要打“球/健身”,對應(yīng)的是運(yùn)動領(lǐng)域;
比如:我要找“酒店/住宿”,對應(yīng)的是住宿領(lǐng)域;
再比如:我要去“機(jī)場”,對應(yīng)的是交通領(lǐng)域。
S2、打開設(shè)備的攝像頭,啟動語音識別系統(tǒng),通過語音識別系統(tǒng)采集用戶輸入的語音指令和面部視頻;系統(tǒng)將語音指令識別為中文語句,然后將中文語句進(jìn)行拆解,拆解形式為:代詞+動詞+名詞,并對應(yīng)詞庫數(shù)據(jù)庫和語義框架數(shù)據(jù)庫,得到該語音指令的中文語義。
S3、根據(jù)語義解析矯正語音識別結(jié)果,并輸出綜合評價概率Pa,其中,Pa為歸一化值;
S4、取參數(shù)C0,當(dāng)Pa<C0時,進(jìn)入S5;否則進(jìn)入S10;特別地,當(dāng)C0=1時,進(jìn)入S5;當(dāng)C0=0時,進(jìn)入S10;C0為唇語識別綜合介入系數(shù);特別的,當(dāng)C0=1時,必定進(jìn)入下一步;當(dāng)C0=0時,必定直接輸出語音識別結(jié)果。根據(jù)語音識別的正確率來選取,當(dāng)語音識別正確率低時,C0可適當(dāng)取小一些,當(dāng)語音識別正確率高時,可適當(dāng)取大一些,其為可調(diào)節(jié)參數(shù);
S5、輸出各語義片段識別結(jié)果可信概率Ps(1)~Ps(N);
S6、取參數(shù)C1、K,當(dāng)某語音片段識別結(jié)果可信概率Ps(n)<C1(n=1~N)時,語義識別輸出可信概率最大的K個識別結(jié)果(K≥2),否則進(jìn)入S9;C1語音片段唇語識別介入系數(shù),類似C0;K為唇語識別判別深度,即語音識別可能性最大的詞語并參與唇語識別判別的個數(shù)。其中C1的選取標(biāo)準(zhǔn)同C0;K則正好跟C0的選取模式相反;
S7、獲取步驟S6中K個識別結(jié)果的唇語模式特征RTs(k),其中k=1~K;語音識別根據(jù)不同的方法,需要改進(jìn)算法使得其輸出可能性最大的K個語音識別結(jié)果;
S8、根據(jù)語音識別系統(tǒng)截取的對應(yīng)的面部視頻片段,通過視頻唇部運(yùn)動模式提取,并形成唇部運(yùn)動模式特征碼RTs0;RTs0反映唇部運(yùn)動模式的一串類似指紋數(shù)據(jù)的編碼;特別地,設(shè)定Vpmin小于常數(shù)C2,否則給出識別提示;
S8、使用模式匹配算法,以RTs0和RTs(1)~RTs(k)作為輸入,獲得VP(1)~VP (K),并取最小值,即Vpmin(k)=min//PTs(k)-PT0//(k=1~K),其中////為距離算子;
S9、輸出Vpmin對應(yīng)的結(jié)果作為識別結(jié)果,進(jìn)入S5循環(huán)直至N片段識別完成(循環(huán)往復(fù)完成N個片段,即重復(fù)S6~S9步驟N次),進(jìn)入S10;
S10、所述中文語義通過顯示界面顯示。
為了進(jìn)一步與用戶確認(rèn)中文語義的準(zhǔn)確性,步驟S10中的中文語義也可以進(jìn)一步轉(zhuǎn)化成語音信息,通過服務(wù)機(jī)器人的揚(yáng)聲器輸出,方便用戶進(jìn)一步確認(rèn),服務(wù)機(jī)器人對語音指令的識別是否準(zhǔn)確。
例如:當(dāng)用戶輸入的語音指令為“我要買書”時,服務(wù)機(jī)器人系統(tǒng)會將該語音指令識別成中文語義“用戶要買書”,這一中文語義可以通過文本信息顯示在顯示界面上,也可以進(jìn)一步轉(zhuǎn)化成語音信息“您是要買書嗎?”通過揚(yáng)聲器輸出,以便與用戶做更進(jìn)一步確認(rèn)。
步驟S2中,當(dāng)系統(tǒng)識別的語音指令的中文語義中包含用戶“要”、“想要”、“需要”某件物品或者做某件事情或者“將要”做某件事情的語義時;
所述語音語義識別方法還包括步驟:
S11、系統(tǒng)獲取當(dāng)前用戶的位置,同時在該位置附近對包含某件事情或者某件物品的名詞相關(guān)的事務(wù)進(jìn)行搜索,搜索結(jié)果通過顯示界面顯示。
例如:當(dāng)用戶輸入的語音指令為“我要買書”時,系統(tǒng)會獲取到用戶的當(dāng)前位置,將附近可以的書店或者可以買書的商家關(guān)聯(lián)對接起來,再查詢出價格和庫存等信息后對用戶進(jìn)行反饋,并將結(jié)果顯示在顯示界面上。
本實(shí)施例中的語音語義識別方法還包括步驟:
S12、用戶根據(jù)顯示界面的搜索結(jié)果,進(jìn)行進(jìn)一步確認(rèn),服務(wù)機(jī)器人對用戶輸入的確認(rèn)指令做出相應(yīng)回復(fù)或響應(yīng)。
以買書為例,用戶根據(jù)顯示界面上反饋的搜索結(jié)果,根據(jù)書店或者商家的位置及書的價格等,確定在哪個書店購買書后,可以直接通過服務(wù)機(jī)器人進(jìn)行進(jìn)一步的確認(rèn)后,直接下單或購買完成。
步驟S1中的詞庫數(shù)據(jù)庫可以通過人工錄入或者字典采集的方式分類存入不同屬性的成語或者詞語。
本實(shí)施例中為了方便后續(xù)操作中對于語義識別的修正和優(yōu)化,提高語義識別的準(zhǔn)確性,所述語音語義識別方法還包括系統(tǒng)對每次語音指令識別并轉(zhuǎn)化成中文語義后作出的相應(yīng)操作進(jìn)行記錄和統(tǒng)計(jì)并存儲。
所述步驟S2中的語音指令通過麥克風(fēng)輸入,為了使語音指令輸入更加清晰準(zhǔn)確,用戶距離麥克風(fēng)的距離優(yōu)選在15m范圍內(nèi)。
所述服務(wù)機(jī)器人的系統(tǒng)通過網(wǎng)絡(luò)與云平臺或者后臺管理服務(wù)器連接,所述云平臺或者后臺管理服務(wù)器存儲有包含某件事情或者某件物品的名詞相關(guān)的信息,當(dāng)系統(tǒng)輸入搜索指令后,系統(tǒng)會通過網(wǎng)絡(luò)獲取相關(guān)信息。
語音語義與唇語進(jìn)行匹配,若匹配結(jié)果有誤,則提示本次命令無效,提示使用者重新輸入。通過語音語義識別和唇語識別的結(jié)果匹配相同,則在界面顯示該命令,同時服務(wù)機(jī)器人執(zhí)行該命令。通過二者的相互印證和補(bǔ)充,使得識別效果更好。
在識別過程中,涉及目前公知的高清圖像處理技術(shù)和特征提取技術(shù)。在本文中未提及的,視為公知常識。
本實(shí)施例針對不同服務(wù)領(lǐng)域設(shè)置名詞數(shù)據(jù)庫,可以解決以往漢語語言中,由于前提不明確,語境不清楚等原因造成的語義模糊的問題。本發(fā)明中針對不同的服務(wù)領(lǐng)域建立相應(yīng)的名詞數(shù)據(jù)庫,讓其在特定的服務(wù)環(huán)境下,具備明確的語義,然后再建立相應(yīng)的語義框架數(shù)據(jù)庫,機(jī)器人通過詞庫數(shù)據(jù)庫與語義框架數(shù)據(jù)庫的結(jié)合,來理解所識別的語音指令所需要表達(dá)的中文含義,使得語音語義的識別更加準(zhǔn)確。
本實(shí)施例中的語音語義識別方法可以通過網(wǎng)絡(luò)連接到云平臺或者后臺管理服務(wù)器,對識別的中文語義中包含的用戶需要的某件物品或想要做的某件事情在用戶當(dāng)前位置的附近進(jìn)行相關(guān)信息的搜索,并將搜索結(jié)果反饋給用戶做出進(jìn)一步確認(rèn)。使得服務(wù)機(jī)器人對于用戶的語音指令做出更加智能化的響應(yīng),提高服務(wù)機(jī)器人的人工智能化程度。
本實(shí)施例中的語音語義識別方法中識別語音指令得到的中文語義既可以轉(zhuǎn)化成轉(zhuǎn)化成文本信息通過服務(wù)機(jī)器人的顯示界面顯示,也可以進(jìn)一步轉(zhuǎn)化成語音信息通過服務(wù)機(jī)器人的揚(yáng)聲器輸出,以便用戶做出進(jìn)一步確認(rèn)中文語義的識別是否準(zhǔn)確,并且系統(tǒng)會對每次語音語義識別后作出的相應(yīng)操作進(jìn)行記錄和統(tǒng)計(jì)并存儲,以便于后續(xù)操作中的修正和優(yōu)化,提高語義識別的準(zhǔn)確性,提高機(jī)器人的人工智能化。
通過語音語義和唇語的相互配合,提高服務(wù)機(jī)器人的人機(jī)交互能力,在一定程度上擴(kuò)展現(xiàn)有人機(jī)交互能力。
對于目前語音識別方法,采用與語音識別的同步視頻進(jìn)行唇語識別,其需要采用大型的計(jì)算機(jī)硬件設(shè)備進(jìn)行,計(jì)算量可想而知。本發(fā)明提供的方法是以語音語義識別的結(jié)果為基礎(chǔ),對篩選的部分片段進(jìn)行唇語識別,將語音語義識別的結(jié)果作為中間特征碼,然后運(yùn)用某種距離算子對云因識別的多個詞組進(jìn)行對應(yīng)的判別和截取,相比現(xiàn)有直接對語音識別和唇語識別進(jìn)行獨(dú)立評價的運(yùn)算,本發(fā)明的運(yùn)算量明顯減少,本發(fā)明一語音語義識別為主,以片段唇語識別為輔,降低運(yùn)算量同時,為可移動設(shè)備或便攜設(shè)備實(shí)時識別帶來方向。
目前的語音識別處于一個臨界態(tài),即準(zhǔn)確率較高,但是若語音采集設(shè)備和采集過程中收 到多音源或外界干擾時,其準(zhǔn)確率出現(xiàn)波動;本發(fā)明使用唇語識別的特征碼對語音識別進(jìn)行輔助識別可以解決該問題。
本發(fā)明通過語音識別,輔助唇語識別,大大減輕計(jì)算量,且本發(fā)明提供的方法有多個可調(diào)整的參數(shù)和反饋,為廣泛適配語音語義識別和唇語識別帶來了益處。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等同物界定。