專利名稱::低速存儲器判定樹的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及根據(jù)所附的獨立權(quán)利要求1的前序部分的用于管理樹形數(shù)據(jù)結(jié)構(gòu)的方法,本發(fā)明還涉及根據(jù)所附的獨立權(quán)利要求13的前序部分的用于實施上述方法的系統(tǒng)。此外,本發(fā)明涉及根據(jù)所附的獨立權(quán)利要求23的前序部分的設(shè)備。本發(fā)明還涉及根據(jù)所附的獨立權(quán)利要求28的前序部分的樹形數(shù)據(jù)結(jié)構(gòu),以及涉及根據(jù)所附的獨立權(quán)利要求32的前序部分的用于利用上述樹形數(shù)據(jù)結(jié)構(gòu)的計算機程序產(chǎn)品。
背景技術(shù):
:多語言方面在自動語音識別系統(tǒng)中變得越來越重要。語音識別系統(tǒng)的類型包括語音識別引擎,該語音識別引擎例如可以包括用于自動語言識別、在線發(fā)音模型建立(文本-音素)和多語言聲音模型建立的單元。語音識別引擎的操作工作在以文本形式給定詞匯項的假設(shè)上。首先,語言識別模塊根據(jù)詞匯項的書寫表示來識別語言。一旦這已被確定,則應(yīng)用合適的在線文本-音素模型建立方案來獲得與該詞匯項相關(guān)聯(lián)的音素序列。音素是將一個單詞的發(fā)音與另一個單詞的發(fā)音區(qū)分開來的最小項。任何語言中的任何詞匯項可以被呈現(xiàn)為一組對應(yīng)于人類語音產(chǎn)生系統(tǒng)中變化的音素。多語言聲音模型被級聯(lián),以便為每個詞匯項構(gòu)建識別模型。利用這些基本模型,識別器能夠原則上自動地處理多語言詞匯項,而不需要用戶的任何協(xié)助。文本-音素對于在自動語音識別以及文本-語音兩者中為詞匯項提供精確音素序列具有關(guān)鍵作用。神經(jīng)網(wǎng)絡(luò)或判定樹方案經(jīng)常被用作文本-音素映射。在用于語言和說話者無關(guān)的語音識別的解決方案中,基于判定樹的方案已提供最精確的因素序列。用于安排樹結(jié)構(gòu)的方法的一個實例呈現(xiàn)在US6411957B1中。在該判定樹方案中,語言的字母表中的每個字母的發(fā)音被分別建模,并且為每個字母訓(xùn)練單獨的判定樹。當找到單詞的發(fā)音時,一次一個字母地處理該單詞,并根據(jù)當前字母的判定樹文本-音素模型找到當前字母的發(fā)音。判定樹的一個實例被顯示在圖1中。該判定樹由可以是內(nèi)部節(jié)點I或葉L的多個節(jié)點組成。分支是諸多節(jié)點的集合,這些節(jié)點從根R一起被鏈接到葉L。節(jié)點可以是父(parent)節(jié)點或者是子(child)節(jié)點。父節(jié)點是能夠從中進一步遍歷樹的節(jié)點,換句話說,它具有子節(jié)點。樹中的子節(jié)點是可以從父節(jié)點到達的節(jié)點。內(nèi)部節(jié)點I可以是父節(jié)點和子節(jié)點,但葉只是子節(jié)點。判定樹中的每個節(jié)點都存儲信息。存儲的信息根據(jù)判定樹的上下文而變化。在語音識別系統(tǒng)中,內(nèi)部節(jié)點I通常具有有關(guān)被識別的單詞和該單詞的發(fā)音的信息。單詞的字母的發(fā)音可以由某些上下文中的音素(Pi)來指定。上下文例如指單詞中在感興趣的字母的右邊和左邊的字母。當在判定樹中爬升(climb)時,上下文信息的類型由考慮其上下文的屬性(ai)(也被稱作屬性類型)指定??梢越柚鷮傩灾祦韺崿F(xiàn)爬升,在假定給定字母的上下文信息時,該屬性值定義分支,其中搜索算法應(yīng)當進行到該分支中。自根節(jié)點R開始爬升樹結(jié)構(gòu)。在每個節(jié)點上,應(yīng)當檢查屬性類型(ai),并且應(yīng)將對應(yīng)信息用于確定當前字母的上下文。利用該信息,匹配上下文信息的分支可以向前移動到樹中的下一個節(jié)點。爬樹,直至找到葉節(jié)點L,或者在樹中對于當前上下文沒有匹配屬性值。在圖2中示出了基于判定樹文本-音素映射的一個簡化實例。該圖中的判定樹用于字母‘a(chǎn)’,其中節(jié)點代表字母‘a(chǎn)’的音素。應(yīng)當注意,該圖示被簡化并且不包含字母‘a(chǎn)’的所有音素。在根節(jié)點中,存在關(guān)于屬性類型的信息,這是右邊的第一字母并利用r1表示。對于兩個其它的內(nèi)部節(jié)點,屬性類型是左邊的由I1表示的第一字母和右邊的由r2表示的第二字母。對于葉節(jié)點,沒有屬性類型被分配。當搜索單詞‘Ada’的發(fā)音時,可以利用該實例中呈現(xiàn)的判定樹和用于字母‘d’的判定樹生成用于該單詞的音素序列。在該實例中,用于字母‘d’的樹僅僅由根節(jié)點組成,并且分配給根節(jié)點的音素是音素/d/。當生成音素序列時,從左到右每次一個字母處理該單詞。第一字母是‘a(chǎn)’,因此首先考慮用于字母‘a(chǎn)’的判定樹(參見圖2)。屬性r1被附加到根節(jié)點上?!產(chǎn)’后面的下一個字母是‘d’,因此我們前進到對應(yīng)于屬性值‘d’的根節(jié)點之后的分支。該節(jié)點是被附加了屬性r2的內(nèi)部節(jié)點。右邊的第二字母是‘a(chǎn)’,并且我們前進到相應(yīng)分支,而且進一步前進到是葉的相應(yīng)節(jié)點上。對應(yīng)于葉的音素是/e1/。因此,序列中的第一音素是/e1/。該實例單詞中的下一個字母是‘d’。用于字母‘d’的判定樹如上所述由根節(jié)點組成,其中最頻繁的音素是/d/。因此,該序列中的第二音素是/d/。該單詞中的最后的字母是‘a(chǎn)’,并且再次考慮字母‘a(chǎn)’的判定樹(參見圖2)。附加到根節(jié)點的屬性是r1。對于該單詞的最后字母,字母‘a(chǎn)’右邊的下一個字母是語義圖ε’-’。沿著相應(yīng)的分支爬樹直至是葉的節(jié)點。附加到葉節(jié)點上的音素是/V/,這是序列中的最后音素。最后,用于單詞‘Ada’的完整音素序列是/e1//d//V/。在對于字母表中的所有字母訓(xùn)練判定樹之后,可以以類似方式生成用于任何單詞的音素序列。判定樹訓(xùn)練是在包含單詞及其發(fā)音的發(fā)音字典上完成的。判定樹的強度在于利用信息理論原理從訓(xùn)練詞典中學(xué)習緊映射(compactmapping)的能力。如所述的,基于判定樹的實施已經(jīng)提供最精確的音素序列,但是缺點在于當使用判定樹方案作為文本-音素映射時的大存儲器消耗。大存儲器消耗是由于鏈接列表判定樹方案中使用的眾多指針造成的。存儲器的量尤其隨著諸如英語或類似的其中發(fā)音不規(guī)則性頻繁發(fā)生的語言而增加。對于所述問題的現(xiàn)有技術(shù)解決方案可以被分類為有損耗的和無損耗的方法。當試圖降低判定樹的存儲器需求時,大部分使用有損耗方法。這些方案例如是組合判定樹的屬性值,最佳化判定樹訓(xùn)練處理的停止準則,根據(jù)錯誤計數(shù)修剪判定樹,和其它類似方法。對于現(xiàn)有技術(shù)的低速存儲器(lowmemory)判定樹方法,當為了存儲器而最佳化系統(tǒng)時,總是降低性能??偸谴嬖诰扰c存儲器消耗之間的折衷。與此相反,由于根據(jù)本發(fā)明的方案,幾乎沒有精度的任何惡化并且使存儲器消耗最佳化。可以顯著降低存儲器需求而沒有性能的惡化。
發(fā)明內(nèi)容為了實現(xiàn)這一目的,用于管理樹形數(shù)據(jù)結(jié)構(gòu)的方法包括用于創(chuàng)建由父節(jié)點和至少一個葉節(jié)點組成的判定樹的步驟,并且也包括用于從所述節(jié)點中搜索數(shù)據(jù)的步驟。所述方法的特征在于判定樹,其中通過以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲節(jié)點來創(chuàng)建該判定樹,其中可以到達精選(refine)可搜索數(shù)據(jù)的上下文的節(jié)點而沒有來自其父節(jié)點的鏈路。對于用于管理樹形數(shù)據(jù)結(jié)構(gòu)的系統(tǒng),其特征在于創(chuàng)建器,其適用于通過以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲節(jié)點來創(chuàng)建判定樹,其中精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的而沒有來自其父節(jié)點的鏈路。根據(jù)本發(fā)明的設(shè)備包括用于存儲樹形數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)的存儲媒體和用于處理所述結(jié)構(gòu)中數(shù)據(jù)的處理器,所述處理器包括判定樹創(chuàng)建器和用于從所述節(jié)點中搜索數(shù)據(jù)的搜索器。該設(shè)備的特征在于創(chuàng)建器適用于通過以諸多節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序存儲節(jié)點來創(chuàng)建判定樹,其中沒有來自其父節(jié)點的鏈路,精選可搜索數(shù)據(jù)的上下文的節(jié)點也是可達的。所述樹形數(shù)據(jù)結(jié)構(gòu)由父節(jié)點和至少一個葉節(jié)點組成,所述節(jié)點包括可搜索數(shù)據(jù),所述樹形數(shù)據(jù)結(jié)構(gòu)的特征在于節(jié)點,以這些節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式來順序地定位這些節(jié)點,其中沒有來自父節(jié)點的鏈路,也可以到達精選可搜索數(shù)據(jù)的上下文的節(jié)點。根據(jù)本發(fā)明的計算機程序產(chǎn)品包括計算機存儲媒體和寫在計算機存儲媒體上的計算機可讀代碼,用于利用所述存儲媒體中存儲的樹形數(shù)據(jù)結(jié)構(gòu),所述樹形數(shù)據(jù)結(jié)構(gòu)包括父節(jié)點和至少一個葉節(jié)點。計算機可讀代碼包括用于從節(jié)點搜索數(shù)據(jù)的指令。計算機程序產(chǎn)品的特征在于計算機可讀代碼具有用于以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地安排節(jié)點的指令,其中沒有來自其父節(jié)點的鏈路,精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的。本發(fā)明的第一部分描述了在訓(xùn)練判定樹時使用的剪切對準(clippedalignment)方法。該方法能夠根據(jù)語言知識制作高質(zhì)量對準詞典。如現(xiàn)有技術(shù)方法中那樣,沒有剪切方法,就不會充分使用語言知識。此外,由于本發(fā)明,可以容易地找出錯誤項(音素-字母對)。因此,不規(guī)則性被減少,并且改善對已對準字典訓(xùn)練的判定樹的存儲和精度。同樣,如果外來詞和姓名服從不同于英語的發(fā)音規(guī)則,本發(fā)明提供了可能性來除去這些外來詞和姓名的項目。顯然,不規(guī)則性也被降低。剪切對準方法在某種程度上還可以檢測錯誤抄錄,并且進一步丟棄它們。由于包含不可能映射對的項目被剪切掉,因此可以正確利用具有小概率的可能的映射對。在附圖、隨后的詳細描述以及所附的權(quán)利要求中提出了本發(fā)明的優(yōu)選實施例。在描述中還考慮了本發(fā)明的其它目的和優(yōu)點。在權(quán)利要求中利用特殊性定義了發(fā)明本身。圖1顯示具有節(jié)點和葉的示范性判定樹,具有屬性和音素;圖2顯示在文本-音素映射中使用的字母‘a(chǎn)’的示范性判定樹;圖3顯示語義圖隱藏式馬爾可夫(Markov)模型的一個實例;圖4顯示根據(jù)本發(fā)明方法的原理圖;圖5顯示鏈接列表方案的一個實例,其中節(jié)點包括指針表;圖6a-6d顯示用于存儲判定樹的四種方法的實例;和圖7顯示利用根據(jù)本發(fā)明方法的設(shè)備的非常原理的實例。具體實施例方式根據(jù)本發(fā)明的方法對與約束維特比(Viterbi)算法相結(jié)合的判定樹應(yīng)用無損耗編碼。本發(fā)明對于其中一個字母可以對應(yīng)于零個、一個或兩個音素的語言諸如英語是有利的。圖4中展現(xiàn)了基于判定樹的所建議的發(fā)音模型建立方案的高級描述。該方案基于利用剪切對準算法對準的發(fā)音字典。判定樹的訓(xùn)練基于對準的發(fā)音字典,并且訓(xùn)練的結(jié)果是基于判定樹的發(fā)音模型。在訓(xùn)練之后,把樹轉(zhuǎn)換成低速存儲器格式,以最小化判定樹的存儲器需求。低速存儲器判定樹表示包括把判定樹的節(jié)點轉(zhuǎn)換成合適的格式,并利用產(chǎn)生最低存儲器消耗的壓縮方案壓縮判定樹的變量。本發(fā)明提供用于執(zhí)行剪切訓(xùn)練對準和用于把判定樹轉(zhuǎn)換成低速存儲器格式的方法。發(fā)音字典包含單詞及其發(fā)音。判定樹通過利用信息理論原理能夠從訓(xùn)練字典中學(xué)習緊映射。為了闡明本發(fā)明,將本發(fā)明分成以下部分1.剪切對準方法2.低速存儲器判定樹方法3.用于判定樹數(shù)據(jù)元素的比特分配。根據(jù)本發(fā)明的剪切對準方法的第一部分被設(shè)計用于在部分2中進一步描述的低速存儲器判定樹的訓(xùn)練。在第三部分中提供了用于壓縮判定樹的數(shù)據(jù)元素以實現(xiàn)最低存儲器需求的方法。但是,首先,在訓(xùn)練判定樹之前,對準項目或如說明書中所涉及的發(fā)音字典中的表項目,以找到字母與音素之間的對應(yīng)關(guān)系。通過把音素空(null)(稱之為音素ε,用“_”標記)插入不發(fā)音的那些字母的音素序列和產(chǎn)生兩個音素的那些字母的偽音素(pseudophoneme)中,能夠獲得對準。通過級聯(lián)公知為對應(yīng)于單個字母的兩個音素(/eI/,/oU/,…)獲得偽音素。HMM-維特比算法適于供對準使用。HMM-維特比算法的使用確保在統(tǒng)計意義上以最佳方式執(zhí)行對準,并因此最小化字典項目的剩余熵。此外,使用HMM-維特比算法用于對準的優(yōu)點是能夠在統(tǒng)計意義上達到最佳對準。在表1給出了對準的發(fā)音字典的一個實例單詞對準的音素序列aaron_Er2s@nabrahameIbr2s@hmaccolaA_koU1s@ackerman_k_s@rms@nadaeIds@adelaideds@1eI_d_ahmansonA_ms@nss@naikmaneI_kms@nalabamasA1AbAms@z表1對準的發(fā)音字典的一個實例。隱藏式馬爾可夫模型(HMM)是公知的并且被廣泛用于例如已經(jīng)在語音識別中應(yīng)用的統(tǒng)計方法中。該模型還能夠被稱為馬爾可夫源或馬爾可夫鏈的概率函數(shù)。HMM的基礎(chǔ)假設(shè)是信號可以被很好地表征為參量隨機處理,并且可以以精確、明確定義的方式確定/估算隨機處理的參數(shù)。可以根據(jù)分配給每個狀態(tài)的可觀測事件是離散(比如碼字)的還是連續(xù)的,將HMM分類成離散模型或連續(xù)模型。利用任何一種方式,觀測是概率的。該模型具有基礎(chǔ)隨機處理,該隨機處理不是直接可觀測的,而是僅僅通過另一組產(chǎn)生觀測序列的隨機處理才能夠被看。HMM由具有狀態(tài)之間轉(zhuǎn)換的隱藏狀態(tài)組成。數(shù)學(xué)表示包括三項狀態(tài)之間的狀態(tài)轉(zhuǎn)換概率,每個狀態(tài)的觀測概率和初始狀態(tài)分布。給定HMM和觀測,則維特比算法用來通過跟隨最佳路徑給出觀測狀態(tài)對準。為了對準發(fā)音字典,如果在用于字母1的允許音素的列表中能夠找到音素f,則用零初始化用于給定的字母-音素對的懲罰(penalty)P(f,1),否則利用大的正值來初始化。給定初始懲罰值,則分兩步對準字典。在第一步中,為字典中的每個項,生成所有可能的對準。隨后根據(jù)所有對準的項,重新計算懲罰值。在第二步中,僅為每個項查找單個最佳對準。對于每個項,在語義圖HMM上可以利用維特比算法找到最佳對準。圖3中顯示了隱藏馬爾可夫模型的一個實例。語義圖HMM具有表目E,出口X和字母S1、S2、S3狀態(tài)??梢杂成涞絺我羲氐淖帜竿ㄟ^具有持續(xù)時間狀態(tài)D來處理的。圖2中的狀態(tài)S1-S3是對應(yīng)于單詞中發(fā)音字母的狀態(tài)。狀態(tài)S2對應(yīng)于可以產(chǎn)生偽音素的字母,并且這就是狀態(tài)S2為什么具有持續(xù)時間狀態(tài)D的原因。允許從所有以前狀態(tài)跳躍到當前狀態(tài),以支持音素ε。每個狀態(tài)和持續(xù)時間狀態(tài)持有權(quán)標和對應(yīng)于累積計分的狀態(tài)序列,其中權(quán)標包含相對語義圖HMM使音素序列對準的累積懲罰。通過從頭到尾每次一個音素地通過(gothrough)音素序列,使音素序列相對字母對準。權(quán)標傳遞被執(zhí)行,以查找字母與音素之間的維特比對準。最后,在HMM所有的狀態(tài)上找到具有最低累積懲罰的權(quán)標。根據(jù)權(quán)標的狀態(tài)序列,能夠確定單詞的字母和音素之間的對準。對準的字典可以包含如下列出的項目a)外來姓名和外來詞,如“Juan,Xiong等”被包含在英語發(fā)音字典中。最好在文本-音素映射中與除英語之外的相應(yīng)語言一起使用那些姓名和單詞。那些詞使發(fā)音更不規(guī)則,并且不規(guī)則發(fā)音使判定樹更大和更不精確。b)錯誤抄錄。由于打字錯誤和某些不可預(yù)見的原因在字典中具有某些錯誤抄錄是不可避免的。這也使發(fā)音更加無規(guī)則和不精確。c)錯誤對準,例如““apple-pV1_”。利用基本語言知識,知道字母“p”從不映射到元音音素“V”。此外,這使得發(fā)音更不規(guī)則和不精確。為了解決上述問題,建議根據(jù)本發(fā)明利用維特比算法的剪切對準方法。借此,高質(zhì)量對準發(fā)音將更加規(guī)則,從而導(dǎo)致根據(jù)本發(fā)明的基于判定樹文本-音素模型的低存儲要求。1.用于訓(xùn)練低速存儲器判定樹的剪切對準方法根據(jù)本發(fā)明,基于上述的從對準的字典中估算的重新估算的懲罰P(f,1)完成對準。顯然,所形成的對準產(chǎn)生非常粗的對準,所以懲罰P(f,1)決不是非常精確的。在語言上不可能的情況下,還將值分配給P(f,1)。例如,P(“V”,“p”)具有一個值,但這明顯違反語言知識。為了避免這一情況并且為了克服上述困難(a-c),把定義為剪切方法的約束應(yīng)用于維特比解碼。所建議的剪切對準算法需要為目標語言定義字母和語音集。表2中的列表規(guī)定了字母可以在語言上對應(yīng)的音素和偽音素(基于人類專家的語言知識)。下表2包括真實的語言相關(guān)信息。字母對應(yīng)(偽)音素aV,A,,eI,e,O,_bb,_ck,s,tS,S,_……11,V,V_1,_……zz,s,tS,t,t_s,dZ,S,_表2字母表的音素和偽音素定義的一個實例。表2可以利用不同的方式來實施,但是這些實施用于相同目的。根據(jù)所有對準項,重新計算懲罰值。這樣,對于每一項,僅找到單個最佳對準。如果在表2中能夠找到音素f,則如常估算P(f,1),這意味著用于字母1的音素f在語言上是允許的。如果不能在表2中找到用于給定字母1的音素f,則應(yīng)用約束將P(f,1)設(shè)置為最高值而不進行任何估算。現(xiàn)在,在對準字典中僅允許在上表中找到的字母-音素對用于訓(xùn)練基于判定樹的文本-音素映射。由于該方法,可以相當容易地考慮語言信息。因為對準中的剪切方法,將某些項剪切掉。通過檢驗剪切的項列表,容易發(fā)現(xiàn)或者調(diào)諧語言信息,例如定義新的偽音素,把丟失音素添加到字母相關(guān)音素集,等等。如果涉及更好的語言信息,可以改善對準并可以降低存儲器使用。2.判定樹模型結(jié)構(gòu)通過最小化所有字母的判定樹文本-音素模型的存儲器需求,最小化用于給定語言的文本-語音模型的尺寸。因此,考慮單一判定樹文本-音素模型的存儲器需求的最小化。最好不使用圖1和圖2中展示的判定樹模型的直接鏈接列表實施。這是因為以下事實在鏈接列表方案中,樹的每個節(jié)點將包含指針表作為開銷。為了除去該開銷,最好以允許將樹的節(jié)點用于文本-音素轉(zhuǎn)換的這樣的順序把樹的節(jié)點存儲在存儲器中。該順序必須是當正在為字母精選正確的上下文時,下一匹配上下文也是在緊接后一級上的上下文。換言之,盡管根據(jù)現(xiàn)有技術(shù)的鏈接列表樹可以按任何順序存儲到存儲器中,但是根據(jù)本發(fā)明的樹卻不能。現(xiàn)有技術(shù)鏈接列表樹的結(jié)構(gòu)自動注意校正參考當搜索下一級節(jié)點時,算法通過使用節(jié)點中存儲的鏈路(指針)找出信息。這些鏈路使用存儲器,并且其目的僅僅是啟動樹的遍歷。鏈接列表方案的一個實例可以在圖5中看到,其中節(jié)點(10)包括指針表,從此到達對應(yīng)于字母的子節(jié)點(11,12,13,14,15,16)。除非子節(jié)點是葉節(jié)點(諸如12,15),否則該子節(jié)點仍然包括指針表。本發(fā)明基于這樣一種認識通過在存儲器中以適當順序存儲樹節(jié)點,可以從節(jié)點中省去鏈路或指針,從而節(jié)省存儲器。這樣的結(jié)構(gòu)是例如圖6a-6d所示的深度優(yōu)先(depth-first)和寬度優(yōu)先(breadth-first)存儲方案或其某些組合。換言之,本發(fā)明在于以適合于文本-音素轉(zhuǎn)換的特定順序存儲樹內(nèi)容,以便即使在樹中沒有鏈路,也可以適當搜索樹。在深度優(yōu)先存儲方案中,通過首先一直跟隨樹結(jié)構(gòu)到最后的最左邊葉來存儲樹的節(jié)點。然后,一直遍歷右邊的下一個分支直至最后的葉。圖6a顯示了圖1的判定樹結(jié)構(gòu)的一個實例,其中節(jié)點和葉被轉(zhuǎn)換成低速存儲器深度優(yōu)先格式。在深度優(yōu)先存儲格式中,最好僅存儲每個節(jié)點一次。例如,僅存儲根節(jié)點一次。顯然,也可以兩次或多次存儲每個節(jié)點,如根節(jié)點(如圖6a所示)。在寬度優(yōu)先存儲方案中,首先存儲樹的根R,然后到達第一層上的所有節(jié)點,再到達第二層上的所有節(jié)點,等等。圖6b顯示了圖1的判定樹結(jié)構(gòu)的一個實例,其中節(jié)點和葉被轉(zhuǎn)換成低速存儲器寬度優(yōu)先格式。在混合存儲方案中,可以混合深度優(yōu)先和寬度優(yōu)先方案。圖6c和6d顯示了利用較低節(jié)點層(M,N,O)繼續(xù)的判定樹1的混合存儲方案的實例。例如,如圖6c所示,寬度優(yōu)先方案可以被用到層三(L),并從那點開始使用深度優(yōu)先方案。作為選擇,如圖6d所示,全寬度優(yōu)先方案可以被用到層三(L),并且然后以寬度優(yōu)先順序單獨存儲層三(L)上的每個節(jié)點的子樹。這可以進行以允許可能需要的節(jié)點的更快速存儲器存取。這些存儲方案的主要目的是允許樹的存儲而在樹結(jié)構(gòu)中不使用鏈路或者指針。為了確保適當操作,存儲方案必須使得在鏈路除去之后,以可以用來精選上下文的節(jié)點總是按照存儲順序跟隨父節(jié)點的方式,順序地在存儲器中安排這些節(jié)點。在上述方式中,逐個分支地存儲樹的節(jié)點。來自判定樹的單個內(nèi)部節(jié)點I包含具有以下信息的數(shù)據(jù)元素-屬性值,比如字母-區(qū)分內(nèi)部節(jié)點I/葉L的一個比特-屬性類型ai-對應(yīng)于特定上下文的音素pi。單一葉L節(jié)點包含具有以下信息的數(shù)據(jù)元素-屬性值,比如字母-區(qū)分內(nèi)部節(jié)點I/葉L的一個比特-對應(yīng)于特定上下文的音素pi-指示這是否為父節(jié)點的最后葉的一個比特。利用所建議的方案,可以最小化判定樹模型的存儲器需求。為了后面的用途,定義判定樹的數(shù)據(jù)元素為屬性類型、屬性值或音素。3.用于表示判定樹中數(shù)據(jù)元素的方法本發(fā)明的這一部分描述用于表示判定樹的數(shù)據(jù)元素以實現(xiàn)最小存儲器需求的三種方法。所建議的方法是固定比特分配、用于判定樹數(shù)據(jù)元素的可變比特分配以及判定樹數(shù)據(jù)元素的霍夫曼(Huffman)編碼。用于判定樹數(shù)據(jù)元素的固定比特分配判定樹的尺寸是所有內(nèi)部節(jié)點和葉的尺寸之和。下面分析內(nèi)部節(jié)點和葉的尺寸。這里所述的數(shù)量用于英語語言。a)屬性值的數(shù)量存在26個字母,少于64個音素以及少于16個音素類別。其中的最大值是64,因此把6個比特分配用于屬性值。b)屬性類型的數(shù)量對于4的上下文長度,在當前字母左邊和右邊具有4個字母、在左邊具有4個音素和在當前字母左邊具有4個音素類別。這使得總數(shù)為16,并因此把4個比特分配用于屬性類型。c)音素的數(shù)量對于英語語言,數(shù)量在32和64之間,所以6個比特被分配給音素。d)表示內(nèi)部節(jié)點/葉的標志僅需要一個比特。e)表示用于給定內(nèi)部節(jié)點的葉的尾部的標志僅需要一個比特。上述的比特分配被稱作固定比特分配,因為比特數(shù)量是預(yù)定的和固定的。內(nèi)部節(jié)點和葉的尺寸可以如下確定對于內(nèi)部節(jié)點,尺寸是條目a)、b)、c)和d)之和Internal_node_size(內(nèi)部節(jié)點尺寸)=6+4+6+1=17比特對于葉,尺寸是條目a)、b)、d)和e)之和Leave_size(葉尺寸)=6+6+1+1=14比特用于判定樹數(shù)據(jù)元素的可變比特分配在基于判定樹文本-音素映射中,每個樹對應(yīng)于一個字母。在本發(fā)明的部分1中,建議剪切方法。對于給定字母,在對準字典中僅允許表2中列出的相應(yīng)音素。因此,對于每個樹,由表2限定音素的數(shù)量。例如,字母“a”具有7個可能的音素,其中需要3個比特分配用于音素,而不是如上(c)所述把6個比特分配給所有音素。這是因為只有7個音素用于字母“a”,所有其他的在對準期間被剪切掉?,F(xiàn)在,對于內(nèi)部節(jié)點和葉,比特數(shù)量都減少3。當然,分配給音素的比特數(shù)量對于不同的葉將是不同的。在剪切方法中,每個字母1僅僅可以映射到字母相關(guān)音素集。1?p,其中p∈{p1,p2,…,pn}.可以根據(jù)字母相關(guān)音素集,而不是根據(jù)整個語言相關(guān)音素集,對音素編碼。該方法被稱作可變比特分配,因為分配給音素的比特數(shù)量可以隨字母和樹而變化。例如,利用固定比特分配的方法,把“a”映射到整個集(40個音素),當利用可變比特分配的方法時,能夠把字母“a”映射到字母相關(guān)音素集(英語中的8個音素)。這樣,利用固定比特分配,需要[log2(40)]=6比特;而利用可變比特分配,需要[log2(8)]=3比特。把字母相關(guān)比特分配用于其它數(shù)據(jù)元素比如屬性類型和屬性值是可能的。為此,對于給定字母,需要發(fā)現(xiàn)所有可能的屬性類型和屬性值的集合。一旦獲知這些集合,就可以計算屬性類型和屬性值所需的比特數(shù)量。為了把可變比特分配用于判定樹數(shù)據(jù)元素,為每個字母找到允許的音素、屬性類型和屬性值的集合。一旦獲知這些集合,就把它們存儲到表中。如果用于數(shù)據(jù)元素的表的尺寸是n,則利用可變比特分配存儲數(shù)據(jù)元素所需的比特數(shù)量是[log2(n)]比特。該表需要被存儲在引入開銷的存儲器中。因此,只在由于可變比特分配而導(dǎo)致的節(jié)省(Saved_var_bits)大于存儲表的開銷(Overhead_var_bits)時,才使用可變比特分配。節(jié)省比特的數(shù)量按以下方式計算Saved_var_bits=(Num_bits_fixed-Num_bits_variable)Count_occurrenceNum_bits_fixed對應(yīng)于利用固定比特分配分配給數(shù)據(jù)元素的比特數(shù)量。Num_bits_variable對應(yīng)于利用可變比特分配分配給數(shù)據(jù)元素的比特數(shù)量。Count_occurrence是數(shù)據(jù)元素出現(xiàn)在判定樹中的總次數(shù)。用于數(shù)據(jù)元素的存儲表的開銷按以下方式計算Overhead_var_bits=(Size_table+l)Bits_in_byteSize_table對應(yīng)于表中元素的數(shù)量,以及Bits_in_byte為8。為每個數(shù)據(jù)元素(屬性類型,屬性值和音素)檢查Saved_var_bits與Overhead_var_bits之間的比較,并且如果Saved_var_bits大于Overhead_var_bits,則使用可變比特分配ifSaved_var_bits>Overhead_var_bits判定樹數(shù)據(jù)元素的霍夫曼編碼為了把二進制代碼分配用于判定樹數(shù)據(jù)元素,可以使用霍夫曼碼。如果判定樹數(shù)據(jù)元素的分布具有大變化,則霍夫曼碼的使用可以節(jié)省存儲器?;舴蚵幋a的基本思想是把短碼字分配給具有高概率的數(shù)據(jù)元素,并把長碼字分配給具有低概率的數(shù)據(jù)元素。霍夫曼碼是最佳的和無損耗的。該碼是可變長度碼,其中利用對應(yīng)于特定數(shù)據(jù)元素的碼字的長度給出用于編碼數(shù)據(jù)元素的比特數(shù)量?;舴蚵a必須單獨地為每個判定樹變量導(dǎo)出。下表3顯示了用于英語的字母“a”樹的音素的霍夫曼編碼的一個實例。音素的壓縮比是1.2554。表中的“FLC”代表固定長度碼。音素AaIEeIIV_概率0.22380.2770.00190.02500.12110.00750.26500.0780FLC000001010011100101110111霍夫曼碼100111000011001111110001001101表3判定樹中用于美國英語字母“a”的音素的編碼為了將霍夫曼編碼用于判定樹數(shù)據(jù)元素,霍夫曼碼字、用于每個碼字的比特數(shù)量和相應(yīng)的字母表需要被存儲在引入開銷的存儲器中。為每個數(shù)據(jù)元素,單獨進行是否使用霍夫曼編碼的判定。對于給定的數(shù)據(jù)元素,只在霍夫曼編碼帶來的節(jié)省(Saved_huff_bits)大于開銷(Overhead_huff_bits)時,才可以使用霍夫曼編碼?;舴蚵幋a帶來的節(jié)省比特的數(shù)量可以根據(jù)下式計算Saved_huff_bits=∑i(Num_bits_fixed-Num_bits_CWi)Count_CWiNum_bits_fixed是利用固定比特分配分配給數(shù)據(jù)元素的比特數(shù)量。Num_bits_CWi對應(yīng)于分配給出現(xiàn)在霍夫曼編碼樹的第i碼字的比特數(shù)量。存儲霍夫曼碼的開銷能夠根據(jù)下式計算Overhead_huff_bits=(3Num_huff_CW+l)Bits_per_byteNum_huff_CW是用于數(shù)據(jù)元素的霍夫曼碼字的數(shù)量,而Bits_per_byte是8。假定霍夫曼碼字、指示霍夫曼碼字中比特數(shù)量的變量和字母表的成員存儲在單個字節(jié)變量中。為每個數(shù)據(jù)元素(屬性類型,屬性值和音素)檢查Saved_huff_bits與Overhead_huff_bits之間的比較,并且如果確定的條件滿足為ifSaved_huff_bits>Overhead_huff_bits,則對于數(shù)據(jù)元素應(yīng)用霍夫曼編碼。存儲判定樹數(shù)據(jù)元素所需的存儲器的最小化如同在部分2的開頭所解釋的那樣,存儲樹的基本結(jié)構(gòu)是固定的,但是能夠以各種方式表示樹中的數(shù)據(jù)元素。比特分配可以是固定的,或者可以是可變的,或者可以使用霍夫曼編碼。為判定樹中的每個數(shù)據(jù)元素(屬性類型,屬性值和音素)進行這些編碼方法之間的判定。由于對于每個字母具有基于判定樹的文本-音素模型,因此可以為每個字母重復(fù)選擇。在可替代實施例中,利用使用所謂的截短霍夫曼編碼的可能性來輔助是使用固定長度編碼還是霍夫曼編碼的判定。在該編碼方法中,具有非常低概率的數(shù)據(jù)元素的某些值被組合在一起,并且把公用霍夫曼前綴碼分配給該組。然后利用固定長度碼對該組值中數(shù)據(jù)元素的實際值進行編碼。例如,8個非常不大可能的值的組可以用具有假定7比特、其后跟隨3比特的固定長度碼的霍夫曼碼進行編碼。對于給定樹中的給定數(shù)據(jù)元素,進行是使用固定比特分配、可變比特分配還是霍夫曼編碼的選擇,以便最小化用于低速存儲器判定樹模型的存儲器需求。因此,判定基于以下邏輯a)初始化假設(shè)固定比特分配用于數(shù)據(jù)元素;b)如果Saved_var_bits>Overhead_var_bits,則使用可變比特分配用于數(shù)據(jù)元素;c)如果霍夫曼編碼帶來的節(jié)省大于可變比特分配帶來的節(jié)省并大于霍夫曼碼引入的開銷,則將霍夫曼編碼用于數(shù)據(jù)元素Saved_huff_bits-Overhead_huff_bits>Saved_var_bits-Overhead_var_bits以及Saved_huff_bits>Overhead_huff_bits本發(fā)明利用該最小化方案來自動確定用于所有判定樹中的每個判定樹數(shù)據(jù)元素的最小比特分配。實驗本發(fā)明通過在從CUM(CarnegieMellonUniversity卡內(nèi)基梅隆大學(xué))字典中提取的美國Census(人口普查)姓名列表的發(fā)音上訓(xùn)練判定樹進行實驗。發(fā)音的總數(shù)是40,529?;緦嵤├门c判定樹數(shù)據(jù)元素的固定比特分配的原始對準。如下表4所示,判定樹模型尺寸被明顯減小(36%),并且在音素精度和串速率(stringrate)方面,文本-音素性能沒有任何惡化。這驗證本發(fā)明的有用性。表4現(xiàn)有技術(shù)方案與本發(fā)明方案之間的判定樹比較在本發(fā)明中已經(jīng)介紹了不同的創(chuàng)新技術(shù)對準中的剪切方法、判定樹結(jié)構(gòu)、用于判定樹數(shù)據(jù)元素的固定比特分配、用于判定樹數(shù)據(jù)元素的可變比特分配和用于判定樹數(shù)據(jù)元素的霍夫曼編碼比特。顯然,所有的技術(shù)可以被單獨地利用或者以不同方式進行組合,這就是為什么本發(fā)明的描述不應(yīng)被考慮為本發(fā)明的限制的原因。文本-音素系統(tǒng)可以被實施為電子設(shè)備中的語音識別系統(tǒng)的一部分,例如被實施為數(shù)字信號處理單元。電子設(shè)備可以包括其它功能,比如蜂窩電話T(圖7)中的用于電信的裝置。該設(shè)備最好包括揚聲器H、麥克風M。文本-音素系統(tǒng)還有可能在與電子設(shè)備一起使用的并發(fā)設(shè)備內(nèi)實現(xiàn)。如果把蜂窩電話考慮為電子設(shè)備,則并發(fā)設(shè)備可以是例如耳機或者視頻護目鏡。文本-音素系統(tǒng)可以另外在普遍存在的環(huán)境中使用,其中該系統(tǒng)可以被實施在住房的各個房間中、各種家用電器(例如,電視,洗衣機)中、家具中或者耐磨附件(例如衣服)中。顯然,上述實施例不應(yīng)解釋為本發(fā)明的限制,并且這些實施例可以在以下權(quán)利要求中所提出的發(fā)明特征的范圍內(nèi)變化。權(quán)利要求1.用于管理樹形數(shù)據(jù)結(jié)構(gòu)的一種方法,該方法包括創(chuàng)建包含父節(jié)點和至少一個葉節(jié)點的判定樹的步驟,所述方法還包括用于從所述節(jié)點中搜索數(shù)據(jù)的步驟,其特征在于通過以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲節(jié)點來創(chuàng)建判定樹,其中能夠到達精選可搜索數(shù)據(jù)的上下文的節(jié)點而沒有來自其父節(jié)點的鏈路。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過以下方案之一存儲判定樹的節(jié)點深度優(yōu)先方案,寬度優(yōu)先方案,或者所述方案的組合。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在存儲之前,利用對準的數(shù)據(jù)元素集訓(xùn)練判定樹,根據(jù)所述元素的有效性利用懲罰初始化所述元素,其中通過對于無效元素增加約束,根據(jù)所述元素的已知特征,進一步重新初始化該懲罰。4.根據(jù)權(quán)利要求1或2或3所述的方法,其特征在于,該方法用于文本-音素映射,其中所述數(shù)據(jù)包括諸如字母和音素的元素,其中為一個字母創(chuàng)建判定樹,并且節(jié)點包括所述字母的音素。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,節(jié)點還包括有關(guān)諸如周圍字母的所述字母的上下文的信息。6.根據(jù)權(quán)利要求3-5之一所述的方法,其特征在于,檢查音素的有效性,檢查它是否是允許的音素之一,其中利用零初始化所述懲罰;或者檢查它是否不是允許的音素,其中利用大的正值初始化所述懲罰。7.根據(jù)權(quán)利要求3-6之一所述的方法,其特征在于,進一步檢查音素的有效性,檢查它是否是語言上允許的,其中利用零重新初始化該懲罰;或者檢查該音素是否不是語言上允許的音素,其中利用大的正值重新初始化該懲罰。8.根據(jù)權(quán)利要求1-7之一所述的方法,其特征在于,以以下格式之一編碼節(jié)點的數(shù)據(jù)具有固定比特的格式,具有可變比特的格式,或者具有霍夫曼碼的格式。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,如果由于可變比特格式帶來的節(jié)省大于存儲由這些元素組成的表的開銷,則以可變比特格式提供這些元素;或者如果由于霍夫曼編碼帶來的節(jié)省大于由于可變比特格式帶來的節(jié)省并大于由于霍夫曼碼引入的開銷,則所述元素被霍夫曼編碼。10.根據(jù)權(quán)利要求9所述的方法,其中通過把利用固定比特格式分配給元素的比特數(shù)量(Num_bits_fixed)和利用可變比特格式分配給元素的比特數(shù)量(Num_bits_varible)之和與元素出現(xiàn)在判定樹中的總次數(shù)(Count_occurrence)相乘,確定由于可變比特格式帶來的節(jié)省。11.根據(jù)權(quán)利要求9所述的方法,其中通過把利用固定比特格式分配給元素的比特數(shù)量(Num_bits_fixed)和分配給碼字的比特數(shù)量(Num_bits_CW)之和與碼字出現(xiàn)在霍夫曼編碼樹中的次數(shù)(Count_CW)相乘,計算由于霍夫曼編碼帶來的節(jié)省。12.根據(jù)權(quán)利要求8-11所述的方法,其特征在于,實質(zhì)上對于每個元素單獨地選擇存儲格式。13.用于管理樹形數(shù)據(jù)結(jié)構(gòu)的一種系統(tǒng),該系統(tǒng)包括判定樹創(chuàng)建器,所述判定樹由父節(jié)點和至少一個葉節(jié)點組成,并且該系統(tǒng)還包括從所述節(jié)點搜索數(shù)據(jù)的數(shù)據(jù)搜索器,其特征在于該創(chuàng)建器適用于通過以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲節(jié)點來創(chuàng)建判定樹,其中精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的而沒有來自其父節(jié)點的鏈路。14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,存儲順序是以下方案之一深度優(yōu)先方案,寬度優(yōu)先方案,或者所述方案的組合。15.根據(jù)權(quán)利要求13或14所述的系統(tǒng),其特征在于,該系統(tǒng)還包括用于利用對準數(shù)據(jù)元素集訓(xùn)練判定樹的裝置,所述裝置能夠根據(jù)所述元素的有效性利用懲罰來初始化所述元素,并且通過對于無效元素增加約束,根據(jù)所述元素的已知特征進一步重新初始化該懲罰。16.根據(jù)權(quán)利要求13或14或15所述的系統(tǒng),其特征在于,該系統(tǒng)應(yīng)用文本-音素映射,其中所述數(shù)據(jù)包括諸如字母和音素的元素,其中判定樹對應(yīng)于一個字母,以及所述節(jié)點包括所述字母的音素。17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,節(jié)點還包括有關(guān)諸如周圍字母的所述字母的上下文的信息。18.根據(jù)權(quán)利要求13-17之一所述的系統(tǒng),其特征在于,該系統(tǒng)適用于檢查音素的有效性,檢查它是否是允許的音素之一,其中該系統(tǒng)適用于利用零初始化所述懲罰;或者如果該音素不是允許的音素,則該系統(tǒng)適用于利用大的正值初始化所述懲罰。19.根據(jù)權(quán)利要求13-18之一所述的系統(tǒng),其特征在于,該系統(tǒng)還適于檢查音素的有效性,檢查它是否是語言上允許的,其中該系統(tǒng)適于用零初始化所述懲罰;或者如果該音素不是語言上允許的音素,則該系統(tǒng)適用于利用大的正值初始化所述懲罰。20.根據(jù)權(quán)利要求13-19之一所述的系統(tǒng),其特征在于,以以下方式之一表示節(jié)點的數(shù)據(jù)可變或固定或霍夫曼編碼的二進制數(shù)字。21.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,該系統(tǒng)適用于通過一起比較所述格式來檢查所述格式中的哪個格式比其它的格式產(chǎn)生更大的節(jié)省,其中該系統(tǒng)適于使用那個二進制格式。22.根據(jù)權(quán)利要求13-20之一所述的系統(tǒng),其特征在于,該系統(tǒng)是語音識別系統(tǒng)。23.一種設(shè)備,包括用于在樹形數(shù)據(jù)結(jié)構(gòu)中存儲數(shù)據(jù)的存儲媒體,所述樹形數(shù)據(jù)結(jié)構(gòu)由父節(jié)點和至少一個葉節(jié)點組成,所述設(shè)備還包括用于處理所述結(jié)構(gòu)中數(shù)據(jù)的處理器,該處理器包括判定樹創(chuàng)建器和用于來自所述節(jié)點的數(shù)據(jù)的搜索器,其特征在于該創(chuàng)建器適用于通過以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲節(jié)點來創(chuàng)建判定樹,其中精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的而沒有來自其父節(jié)點的鏈路。24.根據(jù)權(quán)利要求23所述的設(shè)備,其特征在于,存儲順序是以下方案之一深度優(yōu)先方案,寬度優(yōu)先方案,或者所述方案的組合。25.根據(jù)權(quán)利要求23或24所述的設(shè)備,其特征在于,該設(shè)備應(yīng)用文本-音素映射,其中所述數(shù)據(jù)包括諸如字母和音素的元素,其中判定樹用于一個字母,以及節(jié)點包括所述字母的音素。26.根據(jù)權(quán)利要求23-25之一所述的設(shè)備,其特征在于,該設(shè)備還包括語言識別系統(tǒng)。27.根據(jù)權(quán)利要求23-26之一所述的設(shè)備,其特征在于,該設(shè)備還包括用于電信的裝置。28.一種樹形數(shù)據(jù)結(jié)構(gòu),由父節(jié)點和至少一個葉節(jié)點組成,其中所述節(jié)點包括可搜索數(shù)據(jù),其特征在于以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地定位這些節(jié)點,其中精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的而沒有來自其父節(jié)點的鏈路。29.根據(jù)權(quán)利要求28所述的樹形數(shù)據(jù)結(jié)構(gòu),其特征在于,以以下方式之一表示節(jié)點的數(shù)據(jù)可變或固定或霍夫曼編碼的二進制數(shù)字。30.根據(jù)權(quán)利要求28或29所述的樹形數(shù)據(jù)結(jié)構(gòu),其特征在于,所述結(jié)構(gòu)由文本-音素映射利用,其中判定樹包括一個字母的信息,其中節(jié)點包括其音素的信息。31.根據(jù)權(quán)利要求28-30之一所述的樹形數(shù)據(jù)結(jié)構(gòu),其特征在于,節(jié)點包括有關(guān)該字母的周圍字母的信息。32.一種計算機程序產(chǎn)品,包括計算機存儲媒體和寫在計算機存儲媒體上用于利用存儲在所述存儲媒體中的樹形數(shù)據(jù)結(jié)構(gòu)的計算機可讀代碼,所述樹形數(shù)據(jù)結(jié)構(gòu)包括父節(jié)點和至少一個葉節(jié)點,其中所述計算機可讀代碼包括用于從所述節(jié)點搜索內(nèi)容的指令,其特征在于該計算機可讀代碼具有用于以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地安排節(jié)點的指令,其中精選可搜索數(shù)據(jù)的上下文的節(jié)點是可達的而沒有來自其父節(jié)點的鏈路。全文摘要本發(fā)明涉及低速存儲器樹形數(shù)據(jù)結(jié)構(gòu)的管理。根據(jù)本發(fā)明的方法包括用于創(chuàng)建由父節(jié)點和至少一個葉節(jié)點組成的判定樹的步驟,和用于從所述節(jié)點搜索數(shù)據(jù)的步驟。以節(jié)點按照存儲順序跟隨父節(jié)點的這樣一種方式順序地存儲判定樹的節(jié)點,其中沒有來自其父節(jié)點的鏈路,也能夠到達精選可搜索數(shù)據(jù)的上下文的節(jié)點。最好能夠在語音識別系統(tǒng)中在文本-音素映射中利用該方法。文檔編號G10L15/187GK1781102SQ200480011576公開日2006年5月31日申請日期2004年4月22日優(yōu)先權(quán)日2003年4月30日發(fā)明者J·索恩陶斯塔,田繼雷申請人:諾基亞有限公司