地理信息的語音識別方法及其在導航系統(tǒng)中的應用的制作方法

文檔序號：2820249閱讀：258來源：國知局

專利名稱：地理信息的語音識別方法及其在導航系統(tǒng)中的應用的制作方法
技術(shù)領域：
本發(fā)明涉及一種語音識別方法，具體說是一種地理信息的語音識別方法及其在導航系統(tǒng)中的應用。
背景技術(shù)：
語音識別技術(shù)就是一個讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)，它可以為電子地圖和地理信息系統(tǒng)(GIS)的應用提供智能化的人機交互界面服務。地理信息具有應用廣泛的特點，對一個地理信息產(chǎn)品，通常使用者眾多且頻繁變動，外部環(huán)境噪聲干擾大，隨機性強，另外在我國地名信息一般采用漢字，文字之間有時缺乏語義關(guān)聯(lián)，都直接影響了語音識別軟件的應用。一些優(yōu)秀的語音識別軟件和模塊，如IBM ViaVoice、NaturallySpeaking、Microsoft Speech SDK等，漢語語音識別率與英文相比偏低，受環(huán)境噪聲影響大，易生成錯誤文字或者無效文字，難以在電子地圖和GIS中得到較好的應用。在2686930專利公開的機載GPS語音導航系統(tǒng)中，語音主要用于導航信息的提示，無法進一步發(fā)揮語音識別的作用。
由于噪聲對語音識別的影響大，目前主要通過對語音信號的處理來解決，包括語音增強、噪聲屏蔽、提取特征參數(shù)和自適應處理等。據(jù)1542737專利公開了一種語音識別噪聲自適應系統(tǒng)和方法，能夠?qū)υS多類型的噪聲數(shù)據(jù)進行最優(yōu)聚類并且提高對輸入語音的語音模型序列估計的精確度。哈爾濱工業(yè)大學的韓紀慶等人提出了在高噪聲環(huán)境下應用環(huán)境特征學習方法針對特定人孤立詞的語音識別方法。但是這些方法都是直接面對語音的底層處理，易導致系統(tǒng)的不靈活。對電子地圖和GIS應用而言，盡管采用互聯(lián)網(wǎng)上免費提供的開放的語音識別軟件模塊獲取的數(shù)據(jù)可能帶有噪聲，但在已有地理信息數(shù)據(jù)庫的情況下，可以利用現(xiàn)有的先驗數(shù)據(jù)，通過近似的模糊匹配，來提高語音識別的效率。這些軟件模塊成本低，占用空間少，容易獲取與更新，適合于要求功能靈活、快捷的電子地圖與GIS系統(tǒng)的需要。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)存在的缺陷，針對目前漢語語音識別軟件在噪聲環(huán)境下存在的識別率低的情況，以現(xiàn)有語音識別模塊為語音數(shù)據(jù)采集與識別的基礎工具，對由其獲取的隨機帶噪字符串，利用已有的地理信息名稱字符串，建立在噪聲破壞下它們之間存在的更加反映細節(jié)近似程度的相近匹配度指標，提供一種地理信息的語音識別方法，并將其應用于導航系統(tǒng)中。
由于在我國地理信息名稱的文字之間有時缺乏關(guān)聯(lián)性，漢字的語音表達很難保證完全正確，本發(fā)明是基于地理信息的語音識別方法，因此采用拼音字符串比較的方法，以提高語言匹配的效率。拼音字符串為漢字字符串的拼音轉(zhuǎn)換，其中每個漢字所對應的拼音字符串稱為音節(jié)字符串，每個音節(jié)字符串由聲母字符串和韻母字符串構(gòu)成，其中聲母字符串的字符不能分解，最多只能計算成1個字符，稱為有效字符，如b、p、s、sh、ch、zh都是1個有效字符，韻母字符串可以分解，如iu、ao都是2個有效字符，iong、uang都是4個有效字符。音節(jié)字符串之間用特定字符(如空格)分割。針對拼音中存在模糊拼音的情況，應將模糊拼音視為相同，以提高識別率。
本發(fā)明方法是再現(xiàn)有語音識別方法的基礎上，增加語言獲取和語言匹配兩個步驟；語言獲取——是利用現(xiàn)有語音識別模塊及其調(diào)用接口，加入到地理信息的應用處理程序中，運行該程序，啟動語音采集和識別功能，得到識別后的隨機帶噪字符串，將其轉(zhuǎn)換為拼音字符串；漢語到拼音字符串的轉(zhuǎn)換是通過現(xiàn)有漢字-拼音對照文件直接編寫轉(zhuǎn)換函數(shù)實現(xiàn)；語言的匹配——考慮到隨機噪音的存在，從現(xiàn)有的地理信息數(shù)據(jù)庫中取出地理信息字符串，同樣轉(zhuǎn)換為拼音字符串(簡稱為源串)，與帶噪拼音字符串(簡稱目標串)匹配，計算基于拼音字符串的相近匹配度，從中得到最大相近匹配度的源串為語音識別的結(jié)果字符串，即需要查詢的地理信息名稱；所述相近匹配度計算的基本過程是a、設定源串的音節(jié)數(shù)、有效字符數(shù)為M1、N1，目標串的音節(jié)數(shù)、有效字符數(shù)為M2、N2；源串的音節(jié)字符串集合為S1={S1′|i=1，M1and ∑ Len(S1′)＝N1}，目標串的音節(jié)字符串集合為S2={S2′|i=1，M1and ∑ Len(S2′)＝N2}；Len(S)表示字符串S的長度，分割符不在計算范圍內(nèi)；
b、將源串的拼音字符串遞次從前面去掉1個音節(jié)字符串，得到M1個新拼音字符串集合T＝{Tk|k=1，M1and Tk＝{S1′|i=k，M1}}c、依次從T中取出新拼音字符串(Tj，j＝1，M1)，分別與目標串進行匹配運算；d、從Tj中依次取出音節(jié)字符串Yn＝S1n+j-1，n＝1，M1-j+1；e、對于Yn，與目標串S2的音節(jié)字符串比較時，必須從S2的第m個音節(jié)字符串S2m開始一直到S2M2(最后一個音節(jié)字符串)，得到(M2-m+1)個匹配值，其中最大的一個匹配值記為Mat(Yn)，該匹配值對應的音節(jié)字符串在S2中的音節(jié)位置記為Loc(Yn)；設初始化時Loc(Y0)＝0，對于m，則有m=1n=1Loc(Yn-2)+1M1-j+1&GreaterEqual;n>1and Mat(Yn-1)=0Loc(Yn-1)+1M1-j+1&GreaterEqual;n>1and Mat(Yn-1)>0]]>對于兩個音節(jié)字符串的匹配比較，設其匹配值為p，初始化為0，應遵循三個原則①兩個音節(jié)字符串的聲母、韻母字符串分開比較；②無論是聲母比較，還是韻母比較，模糊拼音文件中記錄的模糊拼音應確定為完全匹配；③兩個音節(jié)字符串的聲母字符串相互比較，如果完全匹配，p加1，否則不計；兩個音節(jié)字符串的韻母字符串相互比較，如果完全匹配或者部分匹配，p增加匹配正確的有效字符數(shù)，否則不計；部分匹配是指兩個字符串中部分字符相同，且前后順序一致的情況，如iong和ing就有三個字符匹配，分別為i、n、g；f、轉(zhuǎn)到d，直到Tj的所有音節(jié)字符串結(jié)束；g、對于Tj和S2比較的結(jié)果，得到一組{Mat(Yn)|n＝1，M1-j+1}序列，從中找出最大匹配值Qj＝MAX{Mat(Yn)|n＝1，M1-j+1}作為Tj與目標串S2的匹配值；從{Loc(Yn)|n＝1，M1-j+1}序列中計算當Tj時，目標串S2的有效匹配區(qū)域的上下限音節(jié)位置分別為Locmax＝MAX{Loc(Yn)|n＝1，M1-j+1}Locmin＝MIN{Loc(Yn)|n＝1，M1-j+1}MIN{}表示取集合中的最小值，MAX{}表示取集合中的最大值；匹配區(qū)域內(nèi)的有效字符總數(shù)為N2j′=Σk=LocminLocmaxLen(S2k)]]>h、轉(zhuǎn)到d，直到T中所有的新拼音字符串比較結(jié)束；i、得到一組{(Qj，N2j′)|j＝1，M1}序列，其中{Qj|j＝1，M1}中的最大值Q為源串S1與目標串S2的結(jié)果匹配值，對應的N2j′值為目標串S2的匹配區(qū)域內(nèi)的有效字符總數(shù)，記為N2′；j、計算基于源串和目標串的相近匹配度，其大小為S1與S2經(jīng)過匹配運算后的最大匹配字符數(shù)和總有效字符數(shù)的比值的兩倍，其中總有效字符數(shù)是S1的有效字符串數(shù)N1與S2的匹配區(qū)域內(nèi)有效字符數(shù)N2′之和，即相近匹配度f=2QN1+N2′.]]>本發(fā)明公開的方法是以地理信息應用為目的，以地理名稱信息為對象，在傳統(tǒng)的基于語音信號的模式匹配基礎之上，通過對得到的隨機帶噪語言和地理信息名稱數(shù)據(jù)的細部結(jié)構(gòu)相近程度比較，在二次匹配的基礎上提高了語音識別的靈敏度，提高了語音識別的能力，且算法簡單易行，可以和各種語音識別軟件配合使用。
相近匹配度的概念提供了一個在正確拼音字符串和帶噪拼音字符串之間比較相近程度的量化指標，其核心思想是承認語音輸入和識別過程中噪聲的客觀存在和隨機性，同時該指標也解決了輸入信息不足情況下的模糊識別問題。
本方法針對地理信息的語音識別，采用了如下的策略(1)以拼音字符串為處理對象，避免了漢字匹配度相對較低的問題；(2)在隨機噪聲干擾下，針對用戶語音被部分破壞(包括聲母破壞或韻母破壞)或者完全破壞的情況，在匹配運算時采用以音節(jié)為單位進行聲母字符串與韻母字符串獨立比較的方法，既考慮了音節(jié)字符串的完整性，又同時提高了匹配的靈敏度；(3)在最大匹配字符數(shù)計算時，采用了遞次從源串的前面去掉一個音節(jié)字符串，作為一個新拼音字符串，并重新和目標串比較，提高了后面音節(jié)字符串的匹配率，避免由于目標串前面音節(jié)被噪聲破壞的影響；(4)在相近匹配度計算時以總有效字符數(shù)為分母，總有效字符數(shù)同時考慮了源串和目標串的匹配有效區(qū)，從而進一步起到降低噪聲和提高模糊匹配能力的作用。
本方法沒有從語音的聲音模型分析開始，而是用一般常用的語音輸入識別模塊為基礎，將重點放在語言的匹配與理解上，隨著語音輸入設備和識別軟件的進一步完善，結(jié)合本方法的匹配與理解功能，將具有更好的效果，對于提高交通導航系統(tǒng)的智能化程度發(fā)揮更大的作用。

圖1本發(fā)明方法計算機軟件流程框圖；圖2兩個拼音字符串相近匹配度算法流程圖；圖3兩個單音節(jié)字符串匹配值算法流程圖；圖4～15為測試的一些典型例圖，拼音為Microsoft Speech SDK識別結(jié)果，中文名稱為采用本發(fā)明的方法在拼音基礎上重新匹配的結(jié)果。
具體實施例方式
下面結(jié)合附圖和實施例，對本發(fā)明作進一步詳細說明。
實施例以電子地圖支持下的交通導航系統(tǒng)為例，通過采集城市電子地圖數(shù)據(jù)庫，包括城市地圖(尤其包括城市交通)的空間數(shù)據(jù)和地名信息等，建立導航句法—關(guān)鍵詞規(guī)則庫，運用本發(fā)明的語音識別方法，從依次取出每條句法的關(guān)鍵詞字符串轉(zhuǎn)換為拼音字符串作為源串，與語音輸入的目標串進行匹配，得到一組相近匹配度值，取其中最大的值所對應的拼音字符串作為關(guān)鍵字，以此為基礎截取帶噪的地理信息名稱字符串。從電子地圖數(shù)據(jù)庫中依次取出地理信息名稱字符串轉(zhuǎn)換為拼音字符串作為源串，將帶噪的地理信息名稱字符串作為目標串進行相近匹配度計算，得到一組相近匹配度，取其中最大值，記錄對應的字符串作為名稱字符串。根據(jù)功能的要求，通過記錄的名稱從電子地圖數(shù)據(jù)庫中取出地圖目標，進行目標查詢或路徑分析處理，并將運算結(jié)果顯示在電子地圖中。
表1～2為Microsoft Speech SDK與經(jīng)過本發(fā)明方法匹配后的識別率比較，其中表1在白天測試，運行環(huán)境噪聲顯著，表2在深夜測試，噪聲不顯著。測試人員使用頭戴式麥克風，每人讀相同的25組地名。
表1

表2

權(quán)利要求
1.一種地理信息的語音識別方法，其特征是在現(xiàn)有語音識別方法的基礎上，增加語言獲取和語言匹配兩個步驟；語言獲取——是利用現(xiàn)有語音識別模塊及其調(diào)用接口，加入到地理信息的應用處理程序中，運行該程序，啟動語音采集和識別功能，得到識別后的隨機帶噪字符串，將其轉(zhuǎn)換為拼音字符串；漢語到拼音字符串的轉(zhuǎn)換是通過現(xiàn)有漢字-拼音對照文件直接編寫轉(zhuǎn)換函數(shù)實現(xiàn)；語言的匹配——考慮到隨機噪音的存在，從現(xiàn)有的地理信息數(shù)據(jù)庫中取出地理信息字符串，同樣轉(zhuǎn)換為拼音字符串(簡稱為源串)，與帶噪拼音字符串(簡稱目標串)匹配，計算基于拼音字符串的相近匹配度，從中得到最大相近匹配度的源串為語音識別的結(jié)果字符串，即需要查詢的地理信息名稱；所述相近匹配度計算的基本過程是a、設定源串的音節(jié)數(shù)、有效字符數(shù)為M1、N1，目標串的音節(jié)數(shù)、有效字符數(shù)為M2、N2；源串的音節(jié)字符串集合為S1＝{S1i|i＝1，M1and∑Len(S1i)＝N1}，目標串的音節(jié)字符串集合為S2＝{S2i|i＝1，M1and∑Len(S2i)＝N2}；Len(S)表示字符串S的長度，分割符不在計算范圍內(nèi)；b、將源串的拼音字符串遞次從前面去掉1個音節(jié)字符串，得到M1個新拼音字符串集合T＝{Tk|k＝1，M1andTk＝{S1i|i＝k，M1}}；c、依次從T中取出新拼音字符串(Tj，j＝1，M1)，分別與目標串進行匹配運算；d、從Tj中依次取出音節(jié)字符串Yn＝S1n+j-1，n＝1，M1-j+1；e、對于Yn，與目標串S2的音節(jié)字符串比較時，必須從S2的第m個音節(jié)字符串S2m開始一直到S2M2(最后一個音節(jié)字符串)，得到(M2-m+1)個匹配值，其中最大的一個匹配值記為Mat(Yn)，該匹配值對應的音節(jié)字符串在S2中的音節(jié)位置記為Loc(Yn)；設初始化時Loc(Y0)＝0，對于m，則有m=1n=1Loc(Yn-2)+1M1-j+1&GreaterEqual;n>1andMat(Yn-1)=0Loc(Yn-1)+1M1-j+1&GreaterEqual;n>1andMat(Yn-1)>0]]>對于兩個音節(jié)字符串的匹配比較，設其匹配值為p，初始化為0，應遵循三個原則①兩個音節(jié)字符串的聲母、韻母字符串分開比較；②無論是聲母比較，還是韻母比較，模糊拼音文件中記錄的模糊拼音應確定為完全匹配；③兩個音節(jié)字符串的聲母字符串相互比較，如果完全匹配，p加1，否則不計；兩個音節(jié)字符串的韻母字符串相互比較，如果完全匹配或者部分匹配，p增加匹配正確的有效字符數(shù)，否則不計；部分匹配是指兩個字符串中部分字符相同，且前后順序一致的情況，如iong和ing就有三個字符匹配，分別為i、n、g；f、轉(zhuǎn)到d，直到Tj的所有音節(jié)字符串結(jié)束；g、對于Tj和S2比較的結(jié)果，得到一組{Mat(Yn)|n＝1，M1-j+1}序列，從中找出最大匹配值Qj＝MAX{Mat(Yn)|n＝1，M1-j+1}作為Tj與目標串S2的匹配值；從{Loc(Yn)|n＝1，M1-j+1}序列中計算當Tj時，目標串S2的有效匹配區(qū)域的上下限音節(jié)位置分別為Locmax＝MAX{Loc(Yn)|n＝1，M1-j+1}Locmin＝MIN{Loc(Yn)|n＝1，M1-j+1}MIN{}表示取集合中的最小值，MAX{}表示取集合中的最大值；匹配區(qū)域內(nèi)的有效字符總數(shù)為N2j′=Σk=LocminLocmaxLen(S2k)]]>h、轉(zhuǎn)到d，直到T中所有的新拼音字符串比較結(jié)束；i、得到一組{(Qj，N2j′)|j＝1，M1}序列，其中{Qj|j＝1，M1}中的最大值Q為源串S1與目標串S2的結(jié)果匹配值，對應的N2j′值為目標串S2的匹配區(qū)域內(nèi)的有效字符總數(shù)，記為N2′；j、計算基于源串和目標串的相近匹配度，其大小為S1與S2經(jīng)過匹配運算后的最大匹配字符數(shù)和總有效字符數(shù)的比值的兩倍，其中總有效字符數(shù)是S1的有效字符串數(shù)N1與S2的匹配區(qū)域內(nèi)有效字符數(shù)N2′之和，即相近匹配度f=2QN1+N2′·]]>
2.權(quán)利要求1所述的地理信息的語音識別方法在導航系統(tǒng)中的應用。
全文摘要
本發(fā)明公開了一種地理信息的語音識別方法，其特征是再現(xiàn)有語音識別方法的基礎上，增加語言獲取和語言匹配兩個步驟；語言獲取是利用現(xiàn)有語音識別模塊及其調(diào)用接口，加入到地理信息的應用處理程序中，得到識別后的隨機帶噪字符串，將其轉(zhuǎn)換為拼音字符串；語言的匹配是從現(xiàn)有的地理信息數(shù)據(jù)庫中取出地理信息字符串轉(zhuǎn)換為拼音字符串，與帶噪拼音字符串匹配，計算基于拼音字符串的相近匹配度，從中得到最大相近匹配度的源串為語音識別的結(jié)果字符串，即需要查詢的地理信息名稱。本方法提高了語音識別的靈敏度和語音識別的能力，算法簡單易行，可以和各種語音識別軟件配合使用。將其應用到導航系統(tǒng)中，可以提高交通導航系統(tǒng)的智能化程度。
文檔編號G10L21/02GK1674091SQ20051003893
公開日2005年9月28日申請日期2005年4月18日優(yōu)先權(quán)日2005年4月18日
發(fā)明者張亮, 龍毅申請人:南京師范大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張亮;龍毅
技術(shù)所有人：南京師范大學
我是此專利的發(fā)明人

上一篇：音質(zhì)檢測方法
上一篇：液壓泵有源噪聲控制系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

地理信息系統(tǒng)的應用相關(guān)技術(shù)

地理信息系統(tǒng)及其應用相關(guān)技術(shù)

地理信息系統(tǒng)應用相關(guān)技術(shù)

地理信息系統(tǒng)應用領域相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

地理信息的語音識別方法及其在導航系統(tǒng)中的應用的制作方法