專(zhuān)利名稱(chēng)::基于嵌入式環(huán)境下的中文大詞匯量語(yǔ)音查詢(xún)方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息技術(shù)中的語(yǔ)音查詢(xún)領(lǐng)域,特別涉及一種嵌入式環(huán)境下的中文大詞匯量語(yǔ)音査詢(xún)方法。
背景技術(shù):
:語(yǔ)音査詢(xún)是利用語(yǔ)音識(shí)別技術(shù),根據(jù)用戶(hù)語(yǔ)音從指定詞匯庫(kù)中識(shí)別并選定出特定詞匯。語(yǔ)音識(shí)別的研究工作大約開(kāi)始于50年代,以AT&TBdl實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)一Audry系統(tǒng)為標(biāo)志。IBM公司于1997年開(kāi)發(fā)出漢語(yǔ)ViaVoice語(yǔ)音識(shí)別系統(tǒng),次年又開(kāi)發(fā)出可以識(shí)別上海話(huà)、廣東話(huà)和四川話(huà)等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32000詞的基本詞匯表,可以擴(kuò)展到65000詞,還包括辦公常用詞條,具有"糾錯(cuò)機(jī)制",其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。我國(guó)語(yǔ)音識(shí)別研究工作始于二十世紀(jì)80年代初,一直緊跟國(guó)際水平,受到國(guó)家的高度重視,大詞匯量.語(yǔ)音識(shí)別的研究被列入了國(guó)家"863"計(jì)劃,由中科院聲學(xué)所、自動(dòng)化所及清華大學(xué)、;lt京大學(xué)等單位研究開(kāi)發(fā),取得了高水平的科研成果,如中科院自動(dòng)化所研制的非特定人、連續(xù)語(yǔ)音聽(tīng)寫(xiě)系統(tǒng)和漢語(yǔ)語(yǔ)音人機(jī)對(duì)話(huà)系統(tǒng),其準(zhǔn)確率可達(dá)90%以上。在嵌入式硬件環(huán)境中,由于受到運(yùn)算能力和存儲(chǔ)資源限制,目前僅有中小詞匯量中文語(yǔ)音識(shí)別引擎達(dá)到了實(shí)用的程度。中小詞匯量中文語(yǔ)音識(shí)別引擎加載中小詞匯量詞庫(kù),以語(yǔ)音信號(hào)為輸入,輸出識(shí)別結(jié)果。其中,中小詞匯量詞庫(kù)和識(shí)別結(jié)果都是中文詞匯的集合。通常的中小詞匯量中文語(yǔ)音識(shí)別引擎可以加載最多約500個(gè)中文詞匯的詞庫(kù),根據(jù)輸入的語(yǔ)音信號(hào)從詞庫(kù)中挑出和語(yǔ)音信號(hào)最匹配的若干(如10個(gè))詞匯,并且按照匹配度的高低排列,作為識(shí)別結(jié)果。利用中小詞匯量中文語(yǔ)音識(shí)別引擎可以在中小詞匯量范圍內(nèi)實(shí)現(xiàn)中文語(yǔ)音查詢(xún)功能。然而,對(duì)于大詞匯量的語(yǔ)音査詢(xún)需求,如導(dǎo)航系統(tǒng)中地址(也稱(chēng)興趣點(diǎn),POI)的語(yǔ)音查詢(xún)還存在一定困難。
發(fā)明內(nèi)容本發(fā)明的目的是針對(duì)目前應(yīng)用的需求,提出一種嵌入式環(huán)境的中文大詞匯量語(yǔ)音查詢(xún)方法。可以在僅使用中小詞匯量中文語(yǔ)音識(shí)別引擎的情況下對(duì)中文大詞匯量詞庫(kù)進(jìn)行語(yǔ)音査詢(xún)。使用本發(fā)明的語(yǔ)音查詢(xún)方法,在保證較高識(shí)別準(zhǔn)確率的情況下使査詢(xún)功能突破了語(yǔ)音識(shí)別引擎本身的詞庫(kù)數(shù)量限制,使它能夠完成本身所不具有的中文大詞匯量語(yǔ)音查詢(xún)功能。本發(fā)明提出的一種基于嵌入式環(huán)境的中文大詞匯量語(yǔ)音査詢(xún)方法,該方法包括1)生成語(yǔ)音識(shí)別引擎所用的中小詞匯量詞庫(kù),該詞庫(kù)由無(wú)音調(diào)音節(jié)表構(gòu)成;2)利用語(yǔ)音識(shí)別引擎對(duì)無(wú)音調(diào)音節(jié)表中單個(gè)音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算該音節(jié)與無(wú)音調(diào)音節(jié)表中其他音節(jié)的相似度,并生成音節(jié)相似度表;3)實(shí)時(shí)監(jiān)測(cè)輸入的語(yǔ)音信號(hào),利用語(yǔ)音活動(dòng)檢測(cè)算法判斷輸入詞匯語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而完整地提取出用戶(hù)表達(dá)詞匯內(nèi)容的連續(xù)的詞匯語(yǔ)音信號(hào);4)將連續(xù)的詞匯語(yǔ)音信號(hào)切分為多個(gè)單音節(jié)的詞匯語(yǔ)音;5)從中文大詞匯量詞庫(kù)中提取出長(zhǎng)度大于等于所述詞匯語(yǔ)音的音節(jié)個(gè)數(shù)的所有詞匯,并截去該詞匯尾部大于所述音節(jié)個(gè)數(shù)的音節(jié),使該詞匯音節(jié)個(gè)數(shù)與詞匯語(yǔ)音的音節(jié)個(gè)數(shù)相同,構(gòu)成等長(zhǎng)詞庫(kù);6)利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算所述詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度;7)將步驟6)計(jì)算的匹配度按從大到小排序,選出排在前面的多個(gè)詞匯即為最終的查詢(xún)結(jié)果。本發(fā)明的特點(diǎn)及有益效果該方法使用普通的中小詞匯量中文語(yǔ)音識(shí)別引擎,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行實(shí)施監(jiān)測(cè)和識(shí)別,在中文大詞匯量詞庫(kù)中查詢(xún)出識(shí)別結(jié)果。該方法的特點(diǎn)是針對(duì)中小詞匯量中文語(yǔ)音識(shí)別引擎的詞氾數(shù)量限制,采用有限個(gè)數(shù)的無(wú)音調(diào)音節(jié)構(gòu)成語(yǔ)音識(shí)別引擎的詞庫(kù)。利用語(yǔ)音識(shí)別引擎計(jì)算各個(gè)音節(jié)與無(wú)音調(diào)音節(jié)表中所有音節(jié)的相似度,生成一個(gè)音節(jié)相似度表。將輸入的連續(xù)的詞匯語(yǔ)音信號(hào)按音節(jié)切分,對(duì)詞匯語(yǔ)音的音節(jié)進(jìn)行識(shí)別,同時(shí)利用音節(jié)相似度表計(jì)算這些詞匯語(yǔ)音的音節(jié)與詞庫(kù)中所有音節(jié)的匹配度。根據(jù)詞匯語(yǔ)音的音節(jié)數(shù)在中文大詞匯量詞庫(kù)中選取詞匯構(gòu)成,長(zhǎng)詞庫(kù),減小詞匯匹配范圍。計(jì)算詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中各詞匯的匹配度,并根據(jù)該匹配度輸出識(shí)別結(jié)果,完成中文大詞匯量語(yǔ)音查詢(xún)功能。該方法的優(yōu)點(diǎn)是在嵌入式環(huán)境下,使中文語(yǔ)音査詢(xún)的詞匯數(shù)量能夠在很大程度上突破語(yǔ)音識(shí)別引擎本身的詞庫(kù)數(shù)目限制,同時(shí)保證了較高的識(shí)別準(zhǔn)確率。圖1是本發(fā)明方法的流程框圖2是本發(fā)明方法中語(yǔ)音活動(dòng)檢測(cè)流程框具體實(shí)施例方式本發(fā)明提出的中文大詞匯量語(yǔ)音査詢(xún)方法,結(jié)合附圖詳細(xì)說(shuō)明如下本發(fā)明方法,如圖1所示,包括以下步驟1)生成語(yǔ)音識(shí)別引擎所用的中小詞匯量詞庫(kù),該詞庫(kù)由無(wú)音調(diào)音節(jié)表構(gòu)成;2)利用語(yǔ)音識(shí)別引擎對(duì)無(wú)音調(diào)音節(jié)表中單個(gè)音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算該音節(jié)與無(wú)音調(diào)音節(jié)表中其他音節(jié)的相似度,并生成音節(jié)相似度表;3)實(shí)時(shí)監(jiān)測(cè)輸入的語(yǔ)音信號(hào),利用語(yǔ)音活動(dòng)檢測(cè)算法判斷輸入詞匯語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而完整地提取出用戶(hù)表達(dá)詞匯內(nèi)容的連續(xù)的詞匯語(yǔ)音信號(hào);4)將連續(xù)的詞匯語(yǔ)音信號(hào)切分為多個(gè)單音節(jié)的詞匯語(yǔ)音;5)從中文大詞匯量詞庫(kù)中提取出長(zhǎng)度大于等于所述詞匯語(yǔ)音的音節(jié)個(gè)數(shù)的所有詞匯,并截去該詞匯尾部大于所述音節(jié)個(gè)數(shù)的音節(jié),使該詞匯音節(jié)個(gè)數(shù)與詞匯語(yǔ)音的音節(jié)個(gè)數(shù)相同,構(gòu)成等長(zhǎng)詞庫(kù);6)利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算所述詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度;7)將步驟6)計(jì)算的匹配度按從大到小排序,選出排在前面的多個(gè)詞匯即為最終的査詢(xún)結(jié)果(一般取前10個(gè))。上述各步驟的具體實(shí)現(xiàn)方法分別說(shuō)明如下所述步驟1)中的中小詞匯量詞庫(kù)是語(yǔ)音識(shí)別引擎識(shí)別時(shí)所需的候選詞匯集合,一般可包含總數(shù)不多于500個(gè)的任意詞匯;無(wú)音調(diào)音節(jié)表包括所有漢字的無(wú)音調(diào)音節(jié),共計(jì)398個(gè),如表1所示。表1無(wú)音調(diào)音節(jié)表<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>的相似度其中,a為經(jīng)驗(yàn)參數(shù).(通常取值為0.03)。24)重復(fù)步驟21)到23),直到取遍無(wú)音調(diào)音節(jié)表中所有音節(jié)S,完成相似度計(jì)算,所有結(jié)果構(gòu)成音節(jié)相似度表,如表2所示。表2音節(jié)相似度表(單位%)<table>tableseeoriginaldocumentpage9</column></row><table>所述步驟3)中利用語(yǔ)音活動(dòng)檢測(cè)算法判斷輸入詞匯語(yǔ)音的起始點(diǎn)和終止點(diǎn)的具體流程如圖2所示,包括以下步驟31)對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,取出其中固定時(shí)間長(zhǎng)度(本實(shí)施例為一幀,一般為1530毫秒)的一段采樣數(shù)據(jù)。32)計(jì)算采樣數(shù)據(jù)的特征參數(shù),包括短時(shí)平均能量五和短時(shí)平均過(guò)零率Z,分別如下式所示£=+|>(0,其中丄是一幀采樣數(shù)據(jù)的總個(gè)數(shù),^是釆樣數(shù)據(jù)的序號(hào)'X。(r)是序號(hào)為f的采樣數(shù)據(jù)的值;Z=|i>gnG[xa(0]-sgnG[^^-l)]l,其中sgriG(w)為零線(xiàn)擴(kuò)展的符號(hào)函數(shù)'"為函Z丄,=2數(shù)自變量,該函數(shù)定義如下<formula>formulaseeoriginaldocumentpage10</formula>其中G為門(mén)限值(一般取背景噪聲的最大幅值為門(mén)限<formula>formulaseeoriginaldocumentpage10</formula>33)根據(jù)采樣數(shù)據(jù)的特征參數(shù)進(jìn)行詞匯語(yǔ)音判別,判別準(zhǔn)則為,若平均能量<formula>formulaseeoriginaldocumentpage10</formula>,或平均過(guò)零率Z〉Z^則判斷該幀語(yǔ)音信號(hào)為詞匯語(yǔ)音幀,否則為噪聲幀;其中Ee,Ze均為經(jīng)驗(yàn)參數(shù),一般五e(cuò)取值為稍大于背景噪聲的平均能量,Z。取值為稍大于背景噪聲的平均過(guò)零率。34)當(dāng)連續(xù)有^幀被判定為詞匯語(yǔ)音幀時(shí)認(rèn)為語(yǔ)音信號(hào)進(jìn)入活動(dòng)期,此A^幀詞匯語(yǔ)音幀中第一個(gè)詞匯語(yǔ)音幀的起始點(diǎn)即為詞匯語(yǔ)音的起始點(diǎn),直到出現(xiàn)連續(xù)A^幀的噪聲幀時(shí)才退出活動(dòng)期,此iV,幀噪聲幀中最后一個(gè)噪聲幀的終止點(diǎn)即詞匯語(yǔ)音的終止點(diǎn);將起始點(diǎn)到終止點(diǎn)之間的所有語(yǔ)音信號(hào)存儲(chǔ)下來(lái),得到詞匯語(yǔ)音。所述步驟4)中詞匯語(yǔ)音切分的結(jié)果為詞匯語(yǔ)音的音節(jié)人的序列,即<formula>formulaseeoriginaldocumentpage10</formula>二,其中a為詞匯語(yǔ)音,丄為詞匯語(yǔ)音的音節(jié)的個(gè)數(shù),"為音節(jié)的序號(hào)。所述步驟5)的中文大詞匯量詞庫(kù)是語(yǔ)音查詢(xún)的候選詞匯集合,一般包含總數(shù)為數(shù)萬(wàn)個(gè)的任意詞匯。'所述步驟6)中利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音的音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度,具體包括以下步驟61)利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音音節(jié);i進(jìn)行識(shí)別,識(shí)別出M個(gè)候選音節(jié)&,62)根據(jù)下式計(jì)算詞匯語(yǔ)音音節(jié)A與無(wú)音調(diào)音節(jié)表中的音節(jié)S,的匹配度其中,"S,1&)是候選音節(jié)&與S,的相似度,如表2所示。63)取將等長(zhǎng)詞庫(kù)中的一個(gè)詞匯r,將它按照音節(jié)切分,其音節(jié)個(gè)數(shù)與詞匯語(yǔ)音A的音節(jié)個(gè)數(shù)相同,即7={&}:=1。根據(jù)下式計(jì)算詞匯語(yǔ)音A與詞匯T的匹配度<formula>formulaseeoriginaldocumentpage10</formula>其中<formula>formulaseeoriginaldocumentpage10</formula>為詞匯語(yǔ)音a的音節(jié)義"與詞匯r的音節(jié)&的匹配度;64)重復(fù)步驟63)直到取遍等長(zhǎng)詞庫(kù)中的所有詞匯,計(jì)算出詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度。采用上述方法可在一臺(tái)帶話(huà)筒的嵌入式微機(jī)中實(shí)現(xiàn),一種實(shí)施例的技術(shù)效果詳細(xì)說(shuō)明如下本實(shí)施例是利用本發(fā)明的語(yǔ)音查詢(xún)方法設(shè)計(jì)的語(yǔ)音查詢(xún)軟件程序應(yīng)用于某款車(chē)載帶話(huà)筒的嵌入式微機(jī)上,組成語(yǔ)音査詢(xún)系統(tǒng)。該系統(tǒng)以北京市電子地圖中的興趣點(diǎn)(POI)名稱(chēng)集合(共有46112個(gè)名稱(chēng))作為中文大詞匯量詞庫(kù),用戶(hù)通過(guò)話(huà)筒說(shuō)出詞庫(kù)中的任意名稱(chēng),系統(tǒng)根據(jù)語(yǔ)音輸入在詞庫(kù)中進(jìn)行查詢(xún),將最有可能的前10個(gè)查詢(xún)結(jié)果按可能性高低順序顯示出來(lái)。邀請(qǐng)6名用戶(hù)從興趣點(diǎn)名稱(chēng)集合中隨機(jī)選出50個(gè)進(jìn)行測(cè)試。如果用戶(hù)語(yǔ)音表達(dá)的興趣點(diǎn)出現(xiàn)在查詢(xún)結(jié)果中則認(rèn)為査詢(xún)成功。測(cè)試結(jié)果如下表3所示。表3興趣點(diǎn)語(yǔ)音查詢(xún)統(tǒng)計(jì)結(jié)果<table>tableseeoriginaldocumentpage11</column></row><table>表3的測(cè)試結(jié)果表明本發(fā)明的語(yǔ)音查詢(xún)方法具有一定的準(zhǔn)確性,基本可以滿(mǎn)足大詞匯量語(yǔ)音査詢(xún)的要求。權(quán)利要求1、一種基于嵌入式環(huán)境的中文大詞匯量語(yǔ)音查詢(xún)方法,其特征在于,該方法包括1)生成語(yǔ)音識(shí)別引擎所用的中小詞匯量詞庫(kù),該詞庫(kù)由無(wú)音調(diào)音節(jié)表構(gòu)成;2)利用語(yǔ)音識(shí)別引擎對(duì)無(wú)音調(diào)音節(jié)表中單個(gè)音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算該音節(jié)與無(wú)音調(diào)音節(jié)表中其他音節(jié)的相似度,并生成音節(jié)相似度表;3)實(shí)時(shí)監(jiān)測(cè)輸入的語(yǔ)音信號(hào),利用語(yǔ)音活動(dòng)檢測(cè)算法判斷輸入詞匯語(yǔ)音的起始點(diǎn)和終止點(diǎn),從而完整地提取出用戶(hù)表達(dá)詞匯內(nèi)容的連續(xù)的詞匯語(yǔ)音信號(hào);4)將連續(xù)的詞匯語(yǔ)音信號(hào)切分為多個(gè)單音節(jié)的詞匯語(yǔ)音;5)從中文大詞匯量詞庫(kù)中提取出長(zhǎng)度大于等于所述詞匯語(yǔ)音的音節(jié)個(gè)數(shù)的所有詞匯,并截去該詞匯尾部大于所述音節(jié)個(gè)數(shù)的音節(jié),使該詞匯音節(jié)個(gè)數(shù)與詞匯語(yǔ)音的音節(jié)個(gè)數(shù)相同,構(gòu)成等長(zhǎng)詞庫(kù);6)利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音的音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算所述詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度;7)將步驟6)計(jì)算的匹配度按從大到小排序,選出排在前面的多個(gè)詞匯即為最終的查詢(xún)結(jié)果。2、如權(quán)利要求l所述的方法,其特征在于,所述步驟2)中生成音節(jié)相似度表,具體包括以下步驟''21)取無(wú)音調(diào)音節(jié)表中的一個(gè)音節(jié)S,用語(yǔ)音合成方法生成該音節(jié)語(yǔ)音,/為該音節(jié)在無(wú)音調(diào)音節(jié)表中的序號(hào),1,2,…398;22)在語(yǔ)音識(shí)別引擎加載無(wú)音調(diào)音節(jié)表,對(duì)上述步驟l)生成的音節(jié)語(yǔ)音進(jìn)行識(shí)別,識(shí)別結(jié)果為無(wú)音調(diào)音節(jié)表中所有音節(jié)&與音節(jié)S,.按照相似程度的排序,序號(hào)記為KS|《),j'為無(wú)音調(diào)音節(jié)表中所有音節(jié)的序號(hào),j'=1,2,…398;23)根據(jù)步驟22)的排序結(jié)果,按照下式計(jì)算音節(jié)S,與無(wú)音調(diào)音節(jié)表中所有音節(jié)A的相似度<formula>formulaseeoriginaldocumentpage2</formula>其中,a為經(jīng)驗(yàn)參數(shù);24)重復(fù)步驟21)到23),直到取遍無(wú)音調(diào)音節(jié)表中所有音節(jié)S,完成相似度計(jì)算,所有結(jié)果構(gòu)成音節(jié)相似度表。3、如權(quán)利要求l所述的方法,其特征在于,所述步驟3)中利用語(yǔ)音活動(dòng)檢測(cè)算法判斷輸入詞匯語(yǔ)音的起始點(diǎn)和終止點(diǎn),具體包括以下步驟31)對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,取出其中固定時(shí)間長(zhǎng)度的一段采樣數(shù)據(jù);32)計(jì)算采樣數(shù)據(jù)的特征參數(shù),包括短時(shí)平均能量五和短時(shí)平均過(guò)零率Z,分別如下式所示<formula>formulaseeoriginaldocumentpage3</formula>(0,其中丄是一幀采樣數(shù)據(jù)的總個(gè)數(shù),^是采樣數(shù)據(jù)的序號(hào),X。W是序號(hào)為f的采樣數(shù)據(jù)的值;<formula>formulaseeoriginaldocumentpage3</formula>其中sgiiG(w)為零線(xiàn)擴(kuò)展的符號(hào)函數(shù),"為函數(shù)自變量,該函數(shù)定義如下<formula>formulaseeoriginaldocumentpage3</formula>,其中G為門(mén)限值;<formula>formulaseeoriginaldocumentpage3</formula>33)根據(jù)采樣數(shù)據(jù)的特征參數(shù)進(jìn)行詞匯語(yǔ)音判別,判別準(zhǔn)則為,若平均能量£>£c,或平均過(guò)零率Z〉Zc,則判斷該幀語(yǔ)音信號(hào)為詞匯語(yǔ)音幀,否則為噪聲幀;其中五e(cuò),4均為經(jīng)驗(yàn)參數(shù);34)當(dāng)連續(xù)有^幀被判定為詞匯語(yǔ)音幀時(shí)認(rèn)為語(yǔ)音信號(hào)進(jìn)入活動(dòng)期,該7V,幀詞匯語(yǔ)音幀中第一個(gè)詞匯語(yǔ)音幀的起始點(diǎn)即為詞匯語(yǔ)音的起始點(diǎn),直到出現(xiàn)連續(xù)^幀的噪聲幀時(shí)才退出活動(dòng)期,該A^幀噪聲幀中最后一個(gè)噪聲幀的終止點(diǎn)即詞匯語(yǔ)音的終止點(diǎn);將起始點(diǎn)到終止點(diǎn)之間的所有語(yǔ)音信號(hào)存儲(chǔ)下來(lái),得到詞匯語(yǔ)音。4、如權(quán)利要求l所述的方法,其特征在于,所述步驟6)中利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音音節(jié)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果計(jì)算詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度,具體包括以下步驟61)利用語(yǔ)音識(shí)別引擎對(duì)詞匯語(yǔ)音音節(jié)義進(jìn)行識(shí)別,識(shí)別出M個(gè)候選音節(jié)&,62)根據(jù)下式計(jì)算詞匯語(yǔ)音音節(jié);i與無(wú)音調(diào)音節(jié)表中的音節(jié)s,的匹配度其中,"S,I&)是候選音節(jié)&與S,的相似度;63)取將等長(zhǎng)詞庫(kù)中的一個(gè)詞匯r,將它按照音節(jié)切分,其音節(jié)個(gè)數(shù)與詞匯語(yǔ)音A的音節(jié)個(gè)數(shù)相同,即7={&}","為音節(jié)序號(hào),根據(jù)下式計(jì)算詞匯語(yǔ)音八與詞匯r的匹配度z(A|r)=+tcj其中《(AIS)為詞匯語(yǔ)音A的音節(jié)A與詞匯71的音節(jié)&的匹配度;64)重復(fù)步驟63)直到取遍等長(zhǎng)詞庫(kù)中的所有詞匯,計(jì)算出詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度。全文摘要本發(fā)明涉及基于嵌入式環(huán)境下的中文大詞匯量語(yǔ)音查詢(xún)方法,屬于信息技術(shù)中的語(yǔ)音查詢(xún)領(lǐng)域,該方法包括生成語(yǔ)音識(shí)別引擎所用的無(wú)音調(diào)音節(jié)表;并生成音節(jié)相似度表;實(shí)時(shí)監(jiān)測(cè)輸入的語(yǔ)音信號(hào),提取出用戶(hù)表達(dá)詞匯內(nèi)容的連續(xù)的詞匯語(yǔ)音信號(hào);將連續(xù)的詞匯語(yǔ)音信號(hào)切分為多個(gè)單音節(jié)的詞匯語(yǔ)音;從中文大詞匯量詞庫(kù)中提取出長(zhǎng)度大于等于所述詞匯語(yǔ)音音節(jié)個(gè)數(shù)的所有詞匯,并構(gòu)成等長(zhǎng)詞庫(kù);計(jì)算所述詞匯語(yǔ)音與等長(zhǎng)詞庫(kù)中所有詞匯的匹配度;將計(jì)算的匹配度按從大到小排序,選出最終的查詢(xún)結(jié)果。本發(fā)明在保證較高識(shí)別準(zhǔn)確率的情況下使查詢(xún)功能突破了語(yǔ)音識(shí)別引擎本身的詞庫(kù)數(shù)量限制,使它能夠完成本身所不具有的中文大詞匯量語(yǔ)音查詢(xún)功能。文檔編號(hào)G10L15/10GK101290768SQ200810115269公開(kāi)日2008年10月22日申請(qǐng)日期2008年6月20日優(yōu)先權(quán)日2008年6月20日發(fā)明者旺劉,濤張,李克強(qiáng),楊殿閣,王建強(qiáng),羅禹貢,連小珉,鄭四發(fā)申請(qǐng)人:清華大學(xué)