亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

裁剪語(yǔ)言模型的方法及裝置的制作方法

文檔序號(hào):6461516閱讀:214來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):裁剪語(yǔ)言模型的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言的處理技術(shù),具體地,涉及語(yǔ)言模型裁剪技術(shù)。
技術(shù)背景語(yǔ)言模型在自然語(yǔ)言處理中得到了廣泛的應(yīng)用,例如亞洲語(yǔ)言分詞、語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸入(IMF)等。然而,在許多實(shí)際應(yīng)用中, 由于計(jì)算資源的限制,未經(jīng)過(guò)裁剪的語(yǔ)言模型往往由于尺寸太大而無(wú)法直 接應(yīng)用。因此,語(yǔ)言模型裁剪技術(shù)被用來(lái)將一個(gè)尺寸較大的模型裁剪成較 小的模型。裁剪的方法一般是根據(jù)一定的裁剪準(zhǔn)則,刪除語(yǔ)言模型中存儲(chǔ) 的一些參數(shù),從而達(dá)到減小模型尺寸的目的。以往的語(yǔ)言模型裁剪技術(shù)依據(jù)各種不同的裁剪準(zhǔn)則決定語(yǔ)言模型中每 一個(gè)參數(shù)是否被裁。已提出的裁剪準(zhǔn)則主要包括出現(xiàn)頻次(Count Cut-off) 和K-L距離(Kullback-Leibler Distance )。頻次準(zhǔn)則參見(jiàn)Fredrick Jelinek于1990年發(fā)表的文章"Self-organized language modeling for speech recognition" , In Alexander Waibel and Kai-Fu Lee ( Eds. ), Readings in Speech Recognition, pages 450-506,在 此通過(guò)參考51入其整個(gè)內(nèi)容。K-L距離準(zhǔn)則參見(jiàn)Andreas Stolcke于1998年發(fā)表的文章 "Entropy-based Pruning of Backoff Language Models", In Proc. of DARPA News Transcription and Understanding Workshop , pages 270-274,在此通過(guò)參考引入其整個(gè)內(nèi)容。然而,這些裁剪準(zhǔn)則都是一般性的準(zhǔn)則,沒(méi)有針對(duì)語(yǔ)言模型在實(shí)際應(yīng) 用中的性能進(jìn)行優(yōu)化,因而模型裁剪不可避免地帶來(lái)了性能損失。另外,在Reinhard Kneser和Hermann Hey于1995年發(fā)表的文章 "Improved Backing-Off for M國(guó)Gram Language Modeling" (IEEE, p. 181-184,在此通過(guò)參考引入其整個(gè)內(nèi)容)中公開(kāi)了一種語(yǔ)言模型建模的方 法。在隨機(jī)語(yǔ)言模型的建模中,回退(backing-off)被廣泛地使用以處理 稀疏數(shù)據(jù)的問(wèn)題。在該文獻(xiàn)中描述了回退的處理過(guò)程。發(fā)明內(nèi)容為了改善上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供了裁剪語(yǔ)言模型的 方法,以及裁剪語(yǔ)言模型的裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種裁剪語(yǔ)言模型的方法,其中,該 語(yǔ)言模型包括多個(gè)n元組及其概率,以及多個(gè)低階的元組及其概率;上述 方法包括根據(jù)上述語(yǔ)言模型生成初始的基礎(chǔ)模型,該基礎(chǔ)模型不包括上 述多個(gè)n元組及其概率,只包含上述低階的元組及其概率;利用訓(xùn)練語(yǔ)料 庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù) 包括訓(xùn)練數(shù)據(jù)和參考答案;以及將上述多個(gè)n元組中重要性高的至少一個(gè) n元組及其概率加入上述基礎(chǔ)模型,作為裁剪后的語(yǔ)言模型。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種裁剪語(yǔ)言模型的裝置,其中, 該語(yǔ)言模型包括多個(gè)n元組(n-gram )及其概率,以及多個(gè)低階的元組及 其概率;上述裝置包括基礎(chǔ)模型生成單元,根據(jù)上述語(yǔ)言模型生成初始 的基礎(chǔ)模型,該基礎(chǔ)模型不包括上述多個(gè)n元組及其概率,只包含上述低 階的元組及其概率;重要性計(jì)算單元,利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元 組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考 答案;以及添加單元,將上述多個(gè)n元組中重要性高的至少一個(gè)n元組及 其概率加入上述J^出模型,作為裁剪后的語(yǔ)言模型。


相信通過(guò)以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說(shuō)明,能夠使人們更 好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的裁剪語(yǔ)言模型的方法的流程圖; 圖2是根據(jù)本發(fā)明的實(shí)施例的計(jì)算二元組重要性的一個(gè)實(shí)例的流程圖;圖3是根據(jù)本發(fā)明的一個(gè)可選實(shí)施例的裁剪語(yǔ)言模型的方法的流程圖;以及圖4是根據(jù)本發(fā)明的另 一個(gè)實(shí)施例的裁剪語(yǔ)言模型的裝置的方框圖。
具體實(shí)施方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。 裁剪語(yǔ)言模型的方法圖l是根據(jù)本發(fā)明的一個(gè)實(shí)施例的裁剪語(yǔ)言模型的方法的流程圖。如 圖1所示,首先,在步驟101,根據(jù)語(yǔ)言模型生成初始的基礎(chǔ)模型。在本實(shí)施例中,上述語(yǔ)言模型是本領(lǐng)域的技術(shù)人員公知用于實(shí)際應(yīng)用, 例如亞洲語(yǔ)言分詞、語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸入等的任何n元語(yǔ)言 模型,本發(fā)明對(duì)此沒(méi)有任何限制。例如,參見(jiàn)Yoshihiko Gotoh和Steve Renals于2003年發(fā)表的文章"Statistical Language Modeling", Text and Speech Triggered Information Access, S. Renals and G. Grefenstette (eds.), pages 78-105, Springer, 2003,以及Jianfeng Gao, Mu Li和Chang-Ning Huang于2003年發(fā)表的文章 "Improved Source-channel Models for Chinese Word Segmentation", In Proc. of the 41st Annual Meeting of Association for Computational Linguis-tics (ACL-2003), pages 272-279,在 此通過(guò)參考引入其全部?jī)?nèi)容。更具體地說(shuō),語(yǔ)言模型是一種可以為任意詞串給出概率的模型。例如<formula>formula see original document page 11</formula>通常,頻率高的詞串具有高的概率而生僻詞串具有低的概率?,F(xiàn)有技術(shù)已有多種語(yǔ)言模型,其中最成功的語(yǔ)言模型是n-grarn語(yǔ)言 才莫型。n-gram i吾言模型利用了 HMM (Hidden Markov Model)理論, 一個(gè) 給定詞串的概率被分解為依賴(lài)于前n - 1個(gè)詞的每個(gè)詞的概率的積。例如, 當(dāng)n=2 (2元組)時(shí),有Pr( "I like playing football") = Pr(I) X Pr(like I I) X Pr(playing | like) X Pr(football I playing)當(dāng)n=3 (3元組)時(shí),每個(gè)詞的概率取絕于之前的2個(gè)詞,此時(shí),應(yīng) 使用Pr(playing | like, I)代替Pr(playing | like)。為了生成任意輸入詞串的概率,需要在2元語(yǔ)言模型中保存所有2元 組概率,在3元語(yǔ)言模型中保存所有3元組概率。然而,由于詞匯量的龐 大,這是不現(xiàn)實(shí)的。對(duì)于IOOK.詞的詞匯量來(lái)說(shuō),需要保存10G個(gè)概率值。 假設(shè)使用C++的浮點(diǎn)數(shù)(占4字節(jié))來(lái)表示一個(gè)概率值,那么需要40G 字節(jié)的存儲(chǔ)空間。為了解決這個(gè)問(wèn)題,模型中通常只保存頻率高的(常出現(xiàn)的)元組。 頻率低的(不常出現(xiàn)的)元組則通過(guò)回退方法在線計(jì)算得出。例如,如果 3元組(I, like, playing)沒(méi)有被包含在3元語(yǔ)言模型中,則可以利用以下方式 回退獲得Pr (playing | like, I) + Pr(playing | like)X alpha(like, I) 其中,alpha(like, I)是回退系數(shù)。進(jìn)而,如果(like,playing)的概率沒(méi)有出現(xiàn)在模型中,也可以回退獲得Pr(playing | like) ■> Pr(playing) X alpha(like)所有1元組(n=l)必須保存在n元語(yǔ)言模型中?;赝讼禂?shù)alpha可以以下列方式獲得1 - y ,Pr(w,. I /汰e)關(guān)于更多的現(xiàn)有技術(shù)的細(xì)節(jié),請(qǐng)參考Slava M. Katz著的"Estimation of Probabilities from Sparse Data for the Language Model Component of aSpeech Recognizer"(發(fā)表于IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL. ASP畫(huà)35, NO. 3, MARCH 1987 ) 因此,對(duì)于3元語(yǔ)言模型來(lái)說(shuō),其中包含一些3元組概率、 一些2元 組概率(以及回退系數(shù))以及全部1元組概率(以及回退系數(shù))。3元組概 率通常占用其中大部分存儲(chǔ)空間。裁剪一個(gè)3元語(yǔ)言模型即從該模型中去 除掉一些3元組概率。類(lèi)似地,2元語(yǔ)言模型包含2元組概率、單元組概 率以及回退系數(shù),其中2元組概率占用大部分存儲(chǔ)空間。裁剪一個(gè)2元語(yǔ) 言模型意味著從該模型中去除掉一些3元組概率。在本實(shí)施例中,通過(guò)去掉多個(gè)頂階n元組來(lái)對(duì)一個(gè)n元語(yǔ)言模型進(jìn)行 裁剪,其中,n可依是l、 2、 3…等。因此,裁剪可以針對(duì)任何n元語(yǔ)言 模型進(jìn)行,例如對(duì)二元語(yǔ)言模型(n=2)進(jìn)行裁剪,本發(fā)明對(duì)此沒(méi)有任何 限制。在步驟101,初始的基礎(chǔ)模型可以通過(guò)將上述n元語(yǔ)言模型中的全部 n元組及其概率去掉獲得,也就是說(shuō),該初始的基礎(chǔ)模型只包括上述語(yǔ)言 模型中的低階(小于n)的元組及其概率,而不包括上述多個(gè)n元組及其 概率。然而,可選地,也可以根據(jù)實(shí)際需要去掉上述語(yǔ)言模型中的部分n 元組來(lái)形成初始的基礎(chǔ)模型,本發(fā)明對(duì)此沒(méi)有任何限制。在本實(shí)施例中,基礎(chǔ)模型通過(guò)從未裁剪的語(yǔ)言模型中去除全部頂階元 組來(lái)獲得。例如當(dāng)n-2時(shí),未裁剪的2元語(yǔ)言模型包括2元組概率和1元 組概率(以及回退系數(shù)),基礎(chǔ)模型排除了 2元組概率。這樣,裁剪2元語(yǔ) 言模型就成為向基礎(chǔ)模型中添加一些最重要的2元組概率,并將添加后的 基礎(chǔ)模型作為裁剪后的語(yǔ)言模型。接著,在步驟105,利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算n元組對(duì)于實(shí)際應(yīng)用的重要 性。該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考答案,其中參考答案是實(shí)際應(yīng)用針 對(duì)訓(xùn)練數(shù)據(jù)的參考結(jié)果。在本實(shí)施例中,該訓(xùn)練語(yǔ)料庫(kù)中的參考答案可以 是利用上述未裁剪的語(yǔ)言模型或本領(lǐng)域的技術(shù)人員公知的其它方法獲得的 參考答案或通過(guò)手工獲得的正確答案,本發(fā)明對(duì)此沒(méi)有任何限制。訓(xùn)練數(shù)據(jù)和參考答案的具體細(xì)節(jié)將在下面針對(duì)每個(gè)具體的實(shí)際應(yīng)用進(jìn)行詳細(xì)說(shuō) 明。在本實(shí)施例中,實(shí)際應(yīng)用包括本領(lǐng)域的技術(shù)人員公知利用語(yǔ)言模型的 任何應(yīng)用,包括但不限于亞洲語(yǔ)言分詞、語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算才幾輸 入等,以及其它公知的和將來(lái)發(fā)展的任何其它應(yīng)用,本發(fā)明對(duì)此沒(méi)有任何 限制。下面參考圖2對(duì)步驟105中利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述n元組對(duì)于實(shí)際 應(yīng)用的重要性的過(guò)程進(jìn)行詳細(xì)描述。圖2是根據(jù)本發(fā)明的實(shí)施例的計(jì)算二 元組重要性的一個(gè)實(shí)例的流程圖。其中,以亞洲語(yǔ)言分詞為例對(duì)本實(shí)施例 進(jìn)行描述,亞洲語(yǔ)言分詞包括漢語(yǔ)分詞、日語(yǔ)分詞、韓語(yǔ)分詞等等,下面 以漢語(yǔ)分詞為例對(duì)本實(shí)施例進(jìn)行描述。此外,本實(shí)施例以二元語(yǔ)言模型為 例進(jìn)行描述。但是,應(yīng)該理解,本發(fā)明并不限于漢語(yǔ)分詞和二元語(yǔ)言模型, 而是同樣適用于其它實(shí)際應(yīng)用和任意n元語(yǔ)言模型。具體地,對(duì)于漢語(yǔ)分詞,上述訓(xùn)練語(yǔ)料庫(kù)(在此標(biāo)記為Ml)中的訓(xùn) 練數(shù)據(jù)是一個(gè)或多個(gè)未切分字串,其中,每個(gè)字串構(gòu)成一個(gè)句子。訓(xùn)練語(yǔ) 料庫(kù)Ml中的參考答案可以是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)未切分字 串進(jìn)行切分獲得的參考詞串,或者是人工進(jìn)行了切分的正確詞串。此外, 訓(xùn)練語(yǔ)料庫(kù)Ml中的參考答案也可以是從下面的候選詞串中選擇的參考詞 串,例如,可以對(duì)下面的候選詞串進(jìn)行本領(lǐng)域的技術(shù)人員公知的編輯距離 計(jì)算,然后選擇距離最近的候選詞串作為上述參考詞串。本發(fā)明對(duì)訓(xùn)練語(yǔ) 料庫(kù)M1中的參考答案沒(méi)有任何限制,只要能夠利用其根據(jù)實(shí)際應(yīng)用對(duì)語(yǔ) 言模型進(jìn)行裁剪即可。例如未切分字串包括已有的疑問(wèn) 參考詞串包括/已有/的/疑問(wèn)如圖2所示,首先,在步驟201,將需要計(jì)算重要性的多個(gè)二元組的 重要性初始化為0。接著,在步驟203,對(duì)訓(xùn)練語(yǔ)料庫(kù)Ml中的每一個(gè)句子,即每一個(gè)未切分字串,利用上述在步驟101中生成的初始的基礎(chǔ)模型(在此標(biāo)記為 M2),生成N個(gè)候選詞串。在本實(shí)施例中,生成N個(gè)候選詞串的方法可以 是本領(lǐng)域的技術(shù)人員公知的任何利用語(yǔ)言^^莫型分詞的方法,本發(fā)明對(duì)此沒(méi) 有任何限制,只要能夠生成候選詞串即可。具體地,例如,可以首先獲得所有的候選詞,對(duì)于上面的未切分字串, 候選詞包括包括已有的疑問(wèn)包括已有有的疑問(wèn)然后,獲得所有可能的切分組合,并計(jì)算每種組合的概率,將概率較 大的前N個(gè)組合作為上述N個(gè)候選詞串。在這里,計(jì)算每種組合的概率的 方法可以是本領(lǐng)域的技術(shù)人員公知的任何方法,本發(fā)明對(duì)此沒(méi)有任何限制。 例如,獲得的N個(gè)候選詞串包括包括/已有/的/疑問(wèn)包括/已/有的/疑問(wèn)接著,在步驟204,計(jì)算基礎(chǔ)模型M2在進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的可能 性。例如,在本實(shí)施例中,可以利用誤分類(lèi)函數(shù)來(lái)表示基礎(chǔ)模型M2在進(jìn) 行漢語(yǔ)分詞時(shí)出錯(cuò)的可能性。在本實(shí)施例中,誤分類(lèi)函數(shù)可以利用如下公 式(1)計(jì)算:其中,"表示誤分類(lèi)函數(shù)(即上述出錯(cuò)的可能性),^表示基礎(chǔ)模型 M2對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分,^表示基礎(chǔ)模型M2對(duì)上述N個(gè)候 選詞串中第r個(gè)候選詞串進(jìn)行評(píng)價(jià)的得分,1/是常數(shù)。在這里,!^出模型M2對(duì)參考詞串和候選詞串進(jìn)行評(píng)價(jià)的方法可以是 本領(lǐng)域的技術(shù)人員公知的任何方法,本發(fā)明對(duì)此沒(méi)有任何限制,只要能夠 對(duì)參考詞串和候選詞串的分詞結(jié)果的好壞作出評(píng)價(jià)并給出得分即可。例如,在中文分詞的應(yīng)用中,假i殳輸入的未分詞的字符串為"包括已有 的疑問(wèn)",對(duì)于這個(gè)字符串可能有兩個(gè)候選的分詞方式"包括/已有/的/疑問(wèn),, 和"包括/已/有的/疑問(wèn)"。它們都可以;敗標(biāo)記為詞的序列。哪一個(gè)^皮選中作為輸出取決于它們的得分,最簡(jiǎn)單的評(píng)價(jià)得分的方式是采用n元語(yǔ)言模型 的概率的對(duì)數(shù)。雖然還有一些考慮其它因素的復(fù)雜的評(píng)價(jià)得分的方法,但 是,對(duì)于語(yǔ)言模型裁減的任務(wù)來(lái)說(shuō),那些因素都是不變量,因此不會(huì)產(chǎn)生 影響。定義g, = 1ogPr(v^,W2,…,w")如果11 = 2,則有Pr("包括/已/有的/疑問(wèn)")=Pr(包括)xPr(已|包括)xPr(有的|已)x Pr(疑問(wèn)|有的).這時(shí),得分以下列方式被評(píng)價(jià)gf 二 logPrO,)十logPr(w2 I wJ +…+ logPr(w" | w")當(dāng)應(yīng)用未裁剪的2元語(yǔ)言模型并假設(shè)概率(m^, w,)在模型中存在(表 示為/M^lvO)時(shí),該概率被直接使用logPr(w少I(mǎi) wx) = 1og/V(vt^ I當(dāng)應(yīng)用基礎(chǔ)語(yǔ)言模型時(shí),由于沒(méi)有2元組概率,因此所有2元組概率 需要通過(guò)回退方法計(jì)算獲得,即這里,下標(biāo)"B"表示來(lái)自基礎(chǔ)模型的參數(shù)。對(duì)于一個(gè)具體的2元組(h^,h^),概率化g&…,》-^""wj差是用來(lái)計(jì)算該2元組重要性的基礎(chǔ)要素,并可以應(yīng)用到下面所述的公式(4 ) 中。基于基礎(chǔ)語(yǔ)言模型計(jì)算參考詞串的得分是g0 := log尸s (W)+ log 8 (Wl ) + l0g尸S (W2 ) + '。g "fi (W2 ) +…+ l0g尸S (W")=Z('。g尸sO,) + log"fi(w,))+ log尸s(vO其中, 是參考詞串。多個(gè)候選詞串的平均評(píng)價(jià)得分作為公式(1)的一部分被計(jì)算,即其中,g,以與&可用類(lèi)似的方式計(jì)算獲得。利用所述基礎(chǔ)模型計(jì)算該n元組的概率的方法是(對(duì)于2元語(yǔ)言模型 的裁剪)其中,<formula>formula see original document page 17</formula>此外,應(yīng)該理解,雖然在這里利用誤分類(lèi)函數(shù)來(lái)表示基礎(chǔ)模型M2在 進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的可能性,但是本發(fā)明并不限于此,可以利用本領(lǐng)域 的技術(shù)人員公知的任何方法來(lái)表示_^5出模型M2在進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的 可能性。優(yōu)選地,可以在步驟205,利用如下公式(2)將誤分類(lèi)函數(shù)轉(zhuǎn)換為損 失函數(shù)<formula>formula see original document page 17</formula>其中,丄(力表示上述損失函數(shù),)z是常數(shù),在這里表示斜率系數(shù)。在這里,損失函數(shù)將誤分類(lèi)函數(shù)映射在o-i之間,實(shí)際上,就是對(duì)誤分類(lèi)函數(shù)J的曲線進(jìn)行了平滑。應(yīng)該理解,步驟205是可選的步驟。接著,在步驟207,對(duì)每一個(gè)二元組,計(jì)算該二元組在參考詞串中出現(xiàn)的次數(shù),在本實(shí)施例中用"。表示。接著,在步驟208,對(duì)每一個(gè)二元組,計(jì)算該二元組在N個(gè)候選詞串中出現(xiàn)的平均次數(shù),在本實(shí)施例中用w'表示。具體地,可以利用如下公式(3)計(jì)算平均次數(shù)<formula>formula see original document page 17</formula>(3)其中,",表示該二元組在N個(gè)候選詞串中第/*個(gè)候選詞串中出現(xiàn)的次 數(shù),//是常數(shù),在這里表示偏向系數(shù),V越大,"'的計(jì)算越偏向第一個(gè)候選 詞串。接著,在步驟209,利用如下公式(4)計(jì)算該二元組對(duì)于當(dāng)前句子的重要性/<formula>formula see original document page 18</formula>其中,—p(WW&)表示上述二元組的重要性,M^表示上述二元組中的 第一個(gè)詞,H^表示上述二元組中的第二個(gè)詞,&表示訓(xùn)練語(yǔ)料庫(kù)中的第i個(gè)句子(即當(dāng)前句子),尸M^lw,》是該二元組在上述語(yǔ)言模型中的二元組 概率,1og/M^)+logctB(W;c)表示該二元組的根據(jù)基礎(chǔ)模型M2計(jì)算的概率, 其中尸M^)是1^出模型M2中的一元組概率,w是基礎(chǔ)模型M2中的回退 系數(shù)。在這里,利用回退方法根據(jù)基礎(chǔ)模型M2計(jì)算該二元組的概率,回退 方法可以是本領(lǐng)域的技術(shù)人員公知的任何方法,例如,參見(jiàn)Reinhard Kneser和Hermann Hey于1995年發(fā)表的文章"Improved Backing畫(huà)Off for M-Gram Language Modeling" (IEEE, p. 181-184 ),前面已經(jīng)進(jìn)行的詳細(xì) 說(shuō)明,在此不再重復(fù)。接著,在步驟210,利用如下公式(5)更新該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù) Ml的重要性= Z'm/7(M^W"&) ( 5 )在該步驟,將該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù)M1中的每一個(gè)句子的重要性 累加,獲得該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù)M1的重要性。接著,在步驟211,判斷是否計(jì)算完所有需要計(jì)算重要性的二元組的 重要性。如果在步驟211判斷還有二元組的重要性沒(méi)有計(jì)算,則返回步驟 206進(jìn)行計(jì)算。反之,方法進(jìn)行到步驟212。在步驟212,判斷是否針對(duì)訓(xùn)練語(yǔ)料庫(kù)Ml中的每一個(gè)句子對(duì)二元組 的重要性進(jìn)行了計(jì)算。如果在步驟212判斷還有訓(xùn)練語(yǔ)料沒(méi)有處理完,則 返回202,在步驟203繼續(xù)進(jìn)行計(jì)算。反之,方法結(jié)束。應(yīng)該理解,以上雖然描述了如何計(jì)算二元組的重要性,但是,對(duì)于其它任何n元組,同樣可以利用上述參考圖2的方法計(jì)算它們的重要性,在 此不再贅述。此外,應(yīng)該理解,以上雖然計(jì)算了 n元組對(duì)于漢語(yǔ)分詞的重要性,但 是,對(duì)于其它亞洲語(yǔ)言分詞,例如日語(yǔ)分詞、韓語(yǔ)分詞等等,同樣可以利 用上述參考圖2的方法計(jì)算n元組對(duì)于其它亞洲語(yǔ)言分詞的重要性,在此 不再贅述。此外,對(duì)于其它實(shí)際應(yīng)用,例如語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸入等 等,上述參考圖2的方法同樣適用。不同的是,對(duì)于語(yǔ)言識(shí)別,上述訓(xùn)練 語(yǔ)料庫(kù)中的訓(xùn)練數(shù)據(jù)為一個(gè)或多個(gè)輸入語(yǔ)音,上述訓(xùn)練語(yǔ)料庫(kù)中的參考答案是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)輸入語(yǔ)音進(jìn)行識(shí)別獲得的參考文 本,或者是人工進(jìn)行了識(shí)別獲得的正確文本,或者是從候選文本中選擇的 參考文本(例如,可以對(duì)候選文本進(jìn)行本領(lǐng)域的技術(shù)人員公知的編輯距離 計(jì)算,然后選擇距離最近的候選文本作為上述參考文本)。因此通過(guò)上述圖 2的方法流程同樣可以計(jì)算出n元組對(duì)于語(yǔ)音識(shí)別的重要性,在此不再贅 述。同樣,對(duì)于亞洲語(yǔ)言的計(jì)算機(jī)輸入,上述訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練數(shù)據(jù)為 一個(gè)或多個(gè)記音符號(hào)串,例如對(duì)于漢語(yǔ)的計(jì)算機(jī)輸入,記音符號(hào)串為拼音 串,對(duì)于日語(yǔ)的計(jì)算機(jī)輸入,記音符號(hào)串為平假名和片假名串。上述訓(xùn)練 語(yǔ)料庫(kù)中的參考答案是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)記音符號(hào)串進(jìn)行 轉(zhuǎn)換獲得的參考詞串,或者是人工進(jìn)行了轉(zhuǎn)換獲得的正確詞串,或者是從 候選詞串中選擇的參考詞串(例如,可以對(duì)候選詞串進(jìn)行本領(lǐng)域的技術(shù)人 員公知的編輯距離計(jì)算,然后選擇距離最近的候選詞串作為上述參考詞 串),例如,對(duì)于拼音串,經(jīng)過(guò)轉(zhuǎn)換獲得漢語(yǔ)詞串,對(duì)于平假名和片假名串, 經(jīng)過(guò)轉(zhuǎn)換獲得日語(yǔ)詞串。因此通過(guò)上述圖2的方法流程同樣可以計(jì)算出n 元組對(duì)于亞洲語(yǔ)言的計(jì)算機(jī)輸入的重要性,在此不再贅述。最后,在步驟110,將上述多個(gè)n元組中重要性高的一個(gè)或多個(gè)n元 組及其概率加入上述初始的基礎(chǔ)模型,獲得裁剪后的語(yǔ)言模型。此外,在本發(fā)明的一個(gè)可選實(shí)施例中,可以把步驟110中獲得的裁剪后的語(yǔ)言模型看作另一個(gè)基礎(chǔ)模型,并進(jìn)一步對(duì)其添加!l元組,以獲得希 望尺寸的語(yǔ)言模型。圖3是根據(jù)本發(fā)明的一個(gè)可選實(shí)施例的裁剪語(yǔ)言模型的方法的流程圖。在圖3中,首先,在步驟301,根據(jù)上述未裁減語(yǔ)言模型和上述裁剪 后的語(yǔ)言模型獲得待添加的多個(gè)n元組及其概率。在本實(shí)施例中,獲得的 待添加的多個(gè)n元組為在上述未裁減語(yǔ)言模型中包括而在上述裁剪后的語(yǔ) 言模型中不包括的所有n元組。接著,在步驟305,利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述待添加的多個(gè)n元組對(duì) 于實(shí)際應(yīng)用的重要性。在本實(shí)施例中,計(jì)算待添加的多個(gè)n元組對(duì)于實(shí)際 應(yīng)用的重要性的方法,與上述參考圖1的實(shí)施例中的步驟105利用訓(xùn)練語(yǔ) 料庫(kù)計(jì)算n元組對(duì)于實(shí)際應(yīng)用的重要性的方法相同,在此不再贅述。接著,在步驟310,將上述待添加的多個(gè)n元組中重要性高的一個(gè)或 多個(gè)n元組及其概率加入上述裁剪后的語(yǔ)言模型。接著,在步驟315,判斷裁剪后的語(yǔ)言模型是否達(dá)到預(yù)定尺寸。預(yù)定 尺寸是根據(jù)實(shí)際需要定義的任意尺寸,本發(fā)明對(duì)此沒(méi)有任何限制。如果在 步驟315確定裁剪后的語(yǔ)言模型小于預(yù)定尺寸,則返回301繼續(xù)進(jìn)行添加, 如果裁剪后的語(yǔ)言模型大于預(yù)定尺寸,則減少在上一步驟中添加的個(gè)數(shù), 從而達(dá)到預(yù)定尺寸。最后,在裁剪后的語(yǔ)言模型達(dá)到預(yù)定尺寸后,在步驟 320,方法結(jié)束。通過(guò)本實(shí)施例的裁剪語(yǔ)言模型的方法,由于裁剪準(zhǔn)則基于語(yǔ)言模型在 實(shí)際應(yīng)用中的性能進(jìn)行優(yōu)化,在裁剪到同樣大小的模型時(shí),語(yǔ)言模型的性 能損失更小。另一方面,在保持同樣的性能的條件下,相比其它已有的裁 剪方法,該方法可以^型裁剪得更小。裁剪語(yǔ)言模型的裝置在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的裁剪n元語(yǔ) 言模型的裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那 些與前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。如圖4所示,本實(shí)施例提供了一種裁剪語(yǔ)言模型的裝置400,其中, 該語(yǔ)言模型包括多個(gè)n元組及其概率,以及多個(gè)低階(小于n)的元組及 其概率;該裝置400包括基礎(chǔ)模型生成單元401,根據(jù)上述語(yǔ)言模型生 成初始的基礎(chǔ)模型,該基礎(chǔ)模型不包括上述多個(gè)n元組及其概率,只包含 低階的元組及其概率;重要性計(jì)算單元405,利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多 個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù) 和參考答案;以及添加單元410,將上述多個(gè)n元組中重要性高的至少一 個(gè)n元組及其概率加入上述1^出模型,作為裁剪后的語(yǔ)言模型在本實(shí)施例中,上述語(yǔ)言模型是本領(lǐng)域的技術(shù)人員7>知用于實(shí)際應(yīng)用, 例如亞洲語(yǔ)言分詞、語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸入等的任何n元語(yǔ)言 模型,本發(fā)明對(duì)此沒(méi)有任何限制。例如,參見(jiàn)Yoshihiko Gotoh和Steve Renals于2003年發(fā)表的文章"Statistical Language Modeling", Text and Speech Triggered Information Access, S. Renals and G. Grefenstette (eds.), pages 78-105, Springer, 2003,以及Jianfeng Gao, Mu Li和Chang-Ning Huang于2003年發(fā)表的文章 "Improved Source-channel Models for Chinese Word Segmentation", In Proc. of the 41st Annual Meeting of Association for Computational Linguis畫(huà)tics (ACL-2003), pages 272-279,在 此通過(guò)參考引入其全部?jī)?nèi)容。在本實(shí)施例中,通過(guò)去掉多個(gè)頂階n元來(lái)對(duì)一個(gè)n元語(yǔ)言模型進(jìn)行裁 剪,其中,n可依是l、 2、 3…等。因此,裁剪可以針對(duì)任何n元語(yǔ)言模 型進(jìn)行,例如對(duì)二元語(yǔ)言模型(11=2)進(jìn)行裁剪,本發(fā)明對(duì)此沒(méi)有任何限 制。在本實(shí)施例中,基礎(chǔ)模型生成單元401可以通過(guò)將上述n元語(yǔ)言模型 中的全部n元組及其概率去掉獲得初始的基礎(chǔ)模型,也就是說(shuō),該初始的 基礎(chǔ)模型只包括低階元組及其概率,而不包括上述多個(gè)n元組及其概率。 然而,可選地,也可以根據(jù)實(shí)際需要去掉上述語(yǔ)言模型中的部分n元組來(lái) 形成初始的基礎(chǔ)模型,本發(fā)明對(duì)此沒(méi)有任何限制。在本實(shí)施例中,重要性計(jì)算單元405利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算n元組對(duì)于實(shí)際應(yīng)用的重要性。該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考答案,其中參考答 案是實(shí)際應(yīng)用針對(duì)訓(xùn)練數(shù)據(jù)的參考結(jié)果。在本實(shí)施例中,該訓(xùn)練語(yǔ)料庫(kù)中 的參考答案可以是利用上述未裁剪的語(yǔ)言模型或本領(lǐng)域的技術(shù)人員公知的 其它方法獲得的參考答案或通過(guò)手工獲得的正確答案,本發(fā)明對(duì)此沒(méi)有任 何限制。訓(xùn)練數(shù)據(jù)和參考答案的具體細(xì)節(jié)將在下面針對(duì)每個(gè)具體的實(shí)際應(yīng) 用進(jìn)行詳細(xì)說(shuō)明。在本實(shí)施例中,實(shí)際應(yīng)用包括本領(lǐng)域的技術(shù)人員公知利用語(yǔ)言模型的 任何應(yīng)用,包括但不限于亞洲語(yǔ)言分詞、語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸 入等,以及其它公知的和將來(lái)發(fā)展的任何其它應(yīng)用,本發(fā)明對(duì)此沒(méi)有任何 限制。下面參考圖2對(duì)重要性計(jì)算單元405利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n 元組對(duì)于實(shí)際應(yīng)用的重要性的過(guò)程進(jìn)行詳細(xì)描述。圖2是根據(jù)本發(fā)明的實(shí) 施例的計(jì)算二元組重要性的一個(gè)實(shí)例的流程圖。其中,以亞洲語(yǔ)言分詞為 例對(duì)本實(shí)施例進(jìn)行描述,亞洲語(yǔ)言分詞包括漢語(yǔ)分詞、日語(yǔ)分詞、韓語(yǔ)分 詞等等,下面以漢語(yǔ)分詞為例對(duì)本實(shí)施例進(jìn)行描述。此外,本實(shí)施例以二 元語(yǔ)言模型為例進(jìn)行描述。但是,應(yīng)該理解,本發(fā)明并不限于漢語(yǔ)分詞和 二元語(yǔ)言模型,而是同樣適用于其它實(shí)際應(yīng)用和任意n元語(yǔ)言模型。具體地,對(duì)于漢語(yǔ)分詞,上述訓(xùn)練語(yǔ)料庫(kù)(在此標(biāo)記為Ml)中的訓(xùn)練數(shù)據(jù)是一個(gè)或多個(gè)未切分字串,其中,每個(gè)字串構(gòu)成一個(gè)句子。訓(xùn)練語(yǔ)料庫(kù)Ml中的參考答案可以是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)未切分字串進(jìn)行切分獲得的參考詞串,或者是人工進(jìn)行了切分的正確詞串。此外,訓(xùn)練語(yǔ)料庫(kù)Ml中的參考答案也可以是從下面的候選詞串中選擇的參考詞串,例如,可以對(duì)下面的候選詞串進(jìn)行本領(lǐng)域的技術(shù)人員公知的編輯距離計(jì)算,然后選擇距離最近的候選詞串作為上述參考詞串。本發(fā)明對(duì)訓(xùn)練語(yǔ)料庫(kù)M1中的參考答案沒(méi)有任何限制,只要能夠利用其根據(jù)實(shí)際應(yīng)用對(duì)語(yǔ)言模型進(jìn)行裁剪即可。 例如未切分字串包括已有的疑問(wèn)參考詞串包括/已有/的/疑問(wèn)如圖2所示,首先,在步驟201,將需要計(jì)算重要性的多個(gè)二元組的 重要性初始化為0。接著,在步驟203,對(duì)訓(xùn)練語(yǔ)料庫(kù)M1中的每一個(gè)句子,即每一個(gè)未 切分字串,利用上述在步驟101中生成的初始的基礎(chǔ)模型(在此標(biāo)記為 M2),生成N個(gè)候選詞串。在本實(shí)施例中,生成N個(gè)候選詞串的方法可以 是本領(lǐng)域的技術(shù)人員公知的任何利用語(yǔ)言模型分詞的方法,本發(fā)明對(duì)此沒(méi) 有任何限制,只要能夠生成候選詞串即可。具體地,例如,可以首先獲得所有的候選詞,對(duì)于上面的未切分字串, 候選詞包括包括已有的疑問(wèn)包括已有有的疑問(wèn)然后,獲得所有可能的切分組合,并計(jì)算每種組合的概率,將概率較 大的前N個(gè)組合作為上述N個(gè)候選詞串。在這里,計(jì)算每種組合的概率的 方法可以是本領(lǐng)域的技術(shù)人員公知的任何方法,本發(fā)明對(duì)此沒(méi)有任何限制。 例如,獲得的N個(gè)候選詞串包括包括/已有/的/疑問(wèn)包4舌/已/有的/疑問(wèn)接著,在步驟204,計(jì)算基礎(chǔ)模型M2在進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的可能 性。例如,在本實(shí)施例中,可以利用誤分類(lèi)函數(shù)來(lái)表示基礎(chǔ)模型M2在進(jìn) 行漢語(yǔ)分詞時(shí)出錯(cuò)的可能性。在本實(shí)施例中,誤分類(lèi)函數(shù)可以利用如下公 式(1)刊<formula>formula see original document page 23</formula>其中,d表示誤分類(lèi)函數(shù)(即上述出錯(cuò)的可能性),^表示^ 出模型M2對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分,g,表示基礎(chǔ)模型M2對(duì)上述N個(gè)候 選詞串中第,個(gè)候選詞串進(jìn)行評(píng)價(jià)的得分,iy是常數(shù)。在這里,^ 出才莫型M2對(duì)參考詞串和候選詞串進(jìn)行評(píng)價(jià)的方法可以是 本領(lǐng)域的技術(shù)人員公知的任何方法,本發(fā)明對(duì)此沒(méi)有任何限制,只要能夠?qū)⒖荚~串和候選詞串的分詞結(jié)果的好壞作出評(píng)價(jià)并給出得分即可。此外,應(yīng)該理解,雖然在這里利用誤分類(lèi)函數(shù)來(lái)表示基礎(chǔ)模型M2在 進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的可能性,但是本發(fā)明并不限于此,可以利用本領(lǐng)域 的技術(shù)人員公知的任何方法來(lái)表示1^出模型M2在進(jìn)行漢語(yǔ)分詞時(shí)出錯(cuò)的 可能性。優(yōu)選地,可以在步驟205,利用如下公式(2)將誤分類(lèi)函數(shù)轉(zhuǎn)換為損 失函數(shù)1 + exp卜y x d)其中,丄(句表示上述損失函數(shù),)/是常數(shù),在這里表示斜率系數(shù)。在 這里,損失函數(shù)將誤分類(lèi)函數(shù)映射在0-1之間,實(shí)際上,就是對(duì)誤分類(lèi)函 數(shù)d的曲線進(jìn)行了平滑。應(yīng)該理解,步驟205是可選的步驟。接著,在步驟207,對(duì)每一個(gè)二元組,計(jì)算該二元組在參考詞串中出 現(xiàn)的次數(shù),在本實(shí)施例中用 表示。接著,在步驟208,對(duì)每一個(gè)二元組,計(jì)算該二元組在N個(gè)候選詞串 中出現(xiàn)的平均次數(shù),在本實(shí)施例中用w'表示。具體地,可以利用如下公式 (3)計(jì)算平均次數(shù),"] (3)其中,w,表示該二元組在N個(gè)候選詞串中第r個(gè)候選詞串中出現(xiàn)的次 數(shù),i/是常數(shù),在這里表示偏向系數(shù),w越大,w'的計(jì)算越偏向第一個(gè)候選 詞串。接著,在步驟209,利用如下公式(4)計(jì)算該二元組對(duì)于當(dāng)前句子的 重要性<formula>formula see original document page 24</formula>(4)其中,/柳p(H^HV&)表示上述二元組的重要性,W;c表示上述二元組中的第一個(gè)詞,^表示上述二元組中的第二個(gè)詞,&表示訓(xùn)練語(yǔ)料庫(kù)中的第i個(gè)句子(即當(dāng)前句子),/M^i^)是該二元組在上述語(yǔ)言模型中的二元組概率,1og/VH^)+logc^(w,;c)表示該二元組的根據(jù)基礎(chǔ)模型M2計(jì)算的概率, 其中iV^)是^5出模型M2中的一元組概率,《5 AJ^出模型M2中的回退 系數(shù)。在這里,利用回退方法根據(jù)基礎(chǔ)模型M2計(jì)算該二元組的概率,回退 方法可以是本領(lǐng)域的技術(shù)人員公知的任何方法,例如,參見(jiàn)Reinhard Kneser和Hermann Hey于1995年發(fā)表的文章"Improved Backing-Off for M-Gram Language Modeling", IEEE, p. 181-184,在此通過(guò)參考引入其 整個(gè)內(nèi)容。接著,在步驟210,利用如下公式(5)更新該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù) Ml的重要小生二 fmp("v^M^;iS,) ( 5 )在該步驟,將該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù)M1中的每一個(gè)句子的重要性 累加,獲得該二元組對(duì)于訓(xùn)練語(yǔ)料庫(kù)Ml的重要性。接著,在步驟211,判斷是否計(jì)算完所有需要計(jì)算重要性的二元組的 重要性。如果在步驟211判斷還有二元組的重要性沒(méi)有計(jì)算,則返回步驟 206進(jìn)行計(jì)算。反之,方法進(jìn)行到步驟212。在步驟212,判斷是否針對(duì)訓(xùn)練語(yǔ)料庫(kù)Ml中的每一個(gè)句子對(duì)二元組 的重要性進(jìn)行了計(jì)算。如果在步驟212判斷還有訓(xùn)練語(yǔ)料沒(méi)有處理完,則 返回202,在步驟203繼續(xù)進(jìn)行計(jì)算。反之,方法結(jié)束。應(yīng)該理解,以上雖然描述了重要性計(jì)算單元405如何計(jì)算二元組的重 要性,但是,對(duì)于其它任何n元組,同樣可以利用上述參考圖2的方法計(jì) 算它們的重要性,在此不再贅述。此外,應(yīng)該理解,以上重要性計(jì)算單元405雖然計(jì)算了 n元組對(duì)于漢 語(yǔ)分詞的重要性,但是,對(duì)于其它亞洲語(yǔ)言分詞,例如日語(yǔ)分詞、韓語(yǔ)分 詞等等,同樣可以利用上述參考圖2的方法計(jì)算n元組對(duì)于其它亞洲語(yǔ)言分詞的重要性,在此不再贅述。此外,對(duì)于其它實(shí)際應(yīng)用,例如語(yǔ)音識(shí)別、亞洲語(yǔ)言的計(jì)算機(jī)輸入等等,上述參考圖2的方法同樣適用。不同的是,對(duì)于語(yǔ)言識(shí)別,上述訓(xùn)練 語(yǔ)料庫(kù)中的訓(xùn)練數(shù)據(jù)為 一個(gè)或多個(gè)輸入語(yǔ)音,上述訓(xùn)練語(yǔ)料庫(kù)中的參考答案是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)輸入語(yǔ)音進(jìn)行識(shí)別獲得的參考文 本,或者是人工進(jìn)行了識(shí)別獲得的正確文本,或者是從候選文本中選擇的 參考文本(例如,可以對(duì)候選文本進(jìn)行本領(lǐng)域的技術(shù)人員公知的編輯距離 計(jì)算,然后選擇距離最近的候選文本作為上述參考文本)。因此通過(guò)上述圖 2的方法流程同樣可以計(jì)算出n元組對(duì)于語(yǔ)音識(shí)別的重要性,在此不再贅 述。同樣,對(duì)于亞洲語(yǔ)言的計(jì)算機(jī)輸入,上述訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練數(shù)據(jù)為 一個(gè)或多個(gè)記音符號(hào)串,例如對(duì)于漢語(yǔ)的計(jì)算機(jī)輸入,記音符號(hào)串為拼音 串,對(duì)于日語(yǔ)的計(jì)算機(jī)輸入,記音符號(hào)串為平假名和片假名串。上述訓(xùn)練 語(yǔ)料庫(kù)中的參考答案是利用未裁剪的二元語(yǔ)言模型對(duì)每個(gè)記音符號(hào)串進(jìn)行 轉(zhuǎn)換獲得的參考詞串,或者是人工進(jìn)行了轉(zhuǎn)換獲得的正確詞串,或者是從 候選詞串中選擇的參考詞串(例如,可以對(duì)候選詞串進(jìn)行本領(lǐng)域的技術(shù)人 員公知的編輯距離計(jì)算,然后選擇距離最近的候選詞串作為上述參考詞 串),例如,對(duì)于拼音串,經(jīng)過(guò)轉(zhuǎn)換獲得漢語(yǔ)詞串,對(duì)于平假名和片假名串, 經(jīng)過(guò)轉(zhuǎn)換獲得日語(yǔ)詞串。因此通過(guò)上述圖2的方法流程同樣可以計(jì)算出n 元組對(duì)于亞洲語(yǔ)言的計(jì)算機(jī)輸入的重要性,在此不再贅述。在本實(shí)施例中,添加單元410將上述多個(gè)n元組中重要性高的一個(gè)或 多個(gè)n元組及其概率加入上述初始的基礎(chǔ)模型,獲得裁剪后的語(yǔ)言模型。此外,在本發(fā)明的一個(gè)可選實(shí)施例中,可以對(duì)添加單元410獲得的裁 剪后的語(yǔ)言模型進(jìn)行進(jìn)一步添加,以獲得希望尺寸的語(yǔ)言模型。在該可選實(shí)施例中,裁剪語(yǔ)言模型的裝置400還包括待添加n元組獲 得單元,根據(jù)上述語(yǔ)言模型和上迷裁剪后的語(yǔ)言模型獲得待添加的多個(gè)n 元組及其概率。在本實(shí)施例中,獲得的待添加的多個(gè)n元組為在上述語(yǔ)言 模型中包括而在上述裁剪后的語(yǔ)言模型中不包括的所有或部分n元組,本發(fā)明對(duì)此沒(méi)有任何限制。在該可選實(shí)施例中,重要性計(jì)算單元405利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述待 添加的多個(gè)n元組對(duì)于實(shí)際應(yīng)用的重要性。在本實(shí)施例中,計(jì)算待添加的 多個(gè)n元組對(duì)于實(shí)際應(yīng)用的重要性的方法,與上述參考圖l的實(shí)施例中的 步驟105利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算n元組對(duì)于實(shí)際應(yīng)用的重要性的方法相同, 在此不再贅述。在該可選實(shí)施例中,添加單元410將上述待添加的多個(gè)n元組中重要 性高的一個(gè)或多個(gè)n元組及其概率加入上述基礎(chǔ)模型,從而作為裁剪后的 i吾言模型。此外,在該可選實(shí)施例中,裁剪語(yǔ)言模型的裝置400可以利用上述待 添加n元組獲得單元、上述重要性計(jì)算單元405和上述添加單元410多次 重復(fù)對(duì)上述裁剪后的語(yǔ)言模型進(jìn)行添加,直到上述裁剪后的語(yǔ)言模型達(dá)到 預(yù)定尺寸。預(yù)定尺寸是根據(jù)實(shí)際需要定義的任意尺寸,本發(fā)明對(duì)此沒(méi)有任 何限制。本實(shí)施例的裁剪語(yǔ)言模型的裝置400及其各個(gè)組成部分,可以用專(zhuān)用 的電路或芯片構(gòu)成,也可以通過(guò)計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來(lái)實(shí)現(xiàn)。通過(guò)本實(shí)施例的裁剪語(yǔ)言模型的裝置400,由于裁剪準(zhǔn)則基于語(yǔ)言模 型在實(shí)際應(yīng)用中的性能進(jìn)行優(yōu)化,在裁剪到同樣大小的模型時(shí),語(yǔ)言模型 的性能損失更小。另一方面,在保持同樣的性能的條件下,相比其它已有 的裁剪方法,該方法可以M型裁剪得更小。以上雖然通過(guò)一些示例性的實(shí)施例詳細(xì)地描述了本發(fā)明的裁剪語(yǔ)言模 型的方法,以及裁剪語(yǔ)言模型的裝置,但是以上這些實(shí)施例并不是窮舉的, 本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此, 本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種裁剪語(yǔ)言模型的方法,其中,該語(yǔ)言模型包括多個(gè)n元組及其概率,以及多個(gè)低階的元組及其概率;上述方法包括根據(jù)上述語(yǔ)言模型生成初始的基礎(chǔ)模型,該基礎(chǔ)模型不包括上述多個(gè)n元組及其概率;利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考答案;以及將上述多個(gè)n元組中重要性高的至少一個(gè)n元組及其概率加入上述基礎(chǔ)模型,作為裁剪后的語(yǔ)言模型。
2. 根據(jù)權(quán)利要求l所述的裁剪語(yǔ)言模型的方法,其中,上述利用訓(xùn) 練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性的步驟包 括計(jì)算上述基礎(chǔ)模型對(duì)上述訓(xùn)練數(shù)據(jù)進(jìn)行上述實(shí)際應(yīng)用時(shí)出錯(cuò)的可能性;計(jì)算上述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù);以及 計(jì)算上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù); 其中根據(jù)上述出錯(cuò)的可能性、上述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的 次數(shù)、和上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù),計(jì)算上述重要性。
3. 根據(jù)權(quán)利要求2所述的裁剪語(yǔ)言模型的方法,其中,上述利用訓(xùn) 練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性的步驟還 包括利用上述^f出模型計(jì)算上述n元組的概率;其中根據(jù)上述出錯(cuò)的可能性、上述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的 次數(shù)、上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù)、上述n元組在上述語(yǔ)言 模型中的概率、和上述n元組的利用上述基礎(chǔ)模型計(jì)算出的概率,計(jì)算上 述重要性。
4. 根據(jù)權(quán)利要求3所述的裁剪語(yǔ)言模型的方法,其中,上述實(shí)際應(yīng)用是亞洲語(yǔ)言分詞,上述訓(xùn)練數(shù)據(jù)包括未切分字串,上述參考答案包括對(duì) 上述未切分字串進(jìn)行切分的參考詞串,以及上述計(jì)算上述基礎(chǔ)模型對(duì)上述訓(xùn)練數(shù)據(jù)進(jìn)行上述實(shí)際應(yīng)用時(shí)出錯(cuò)的可能性的步驟包括計(jì)算上述基礎(chǔ)模型對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分;以及 計(jì)算上述基礎(chǔ)模型對(duì)利用上述基礎(chǔ)模型對(duì)上述未切分字串進(jìn)行切分的多個(gè)候選詞串進(jìn)行評(píng)價(jià)的平均得分。
5. 根據(jù)權(quán)利要求4所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算上 述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在上述參考詞串中出現(xiàn)的次數(shù)。
6. 根據(jù)權(quán)利要求4所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算上 述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在利用上述J^i^莫型對(duì)上述未切分字串進(jìn)行切分的多 個(gè)候選詞串中出現(xiàn)的平均次數(shù)。
7. 根據(jù)權(quán)利要求3所述的裁剪語(yǔ)言模型的方法,其中,上述實(shí)際應(yīng) 用是語(yǔ)音識(shí)別,上述訓(xùn)練數(shù)據(jù)包括輸入語(yǔ)音,上述參考答案包括對(duì)上述輸 入語(yǔ)音進(jìn)行識(shí)別的參考文本,以及上述計(jì)算上迷基礎(chǔ)模型對(duì)上述訓(xùn)練數(shù)據(jù) 進(jìn)行上述實(shí)際應(yīng)用時(shí)出錯(cuò)的可能性的步驟包括計(jì)算上述基礎(chǔ)模型對(duì)上述參考文本進(jìn)行評(píng)價(jià)的得分;以及 計(jì)算上述基礎(chǔ)模型對(duì)利用上述基礎(chǔ)模型對(duì)上述輸入語(yǔ)音進(jìn)行識(shí)別的多 個(gè)候選文本進(jìn)行評(píng)價(jià)的平均得分。
8. 根據(jù)權(quán)利要求7所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算上 述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在上述參考文本中出現(xiàn)的次數(shù)。
9. 根據(jù)權(quán)利要求7所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算上 述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在利用上述^^5出模型對(duì)上述輸入語(yǔ)音進(jìn)行識(shí)別的多個(gè) 候選文本中出現(xiàn)的平均次數(shù)。
10. 根據(jù)權(quán)利要求3所述的裁剪語(yǔ)言模型的方法,其中,上述實(shí)際應(yīng)用是亞洲語(yǔ)言的計(jì)算機(jī)輸入,上述訓(xùn)練數(shù)據(jù)包括記音符號(hào)串,上述參考答 案包括對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的參考詞串,以及上述計(jì)算上述基礎(chǔ)模型對(duì)上述訓(xùn)練數(shù)據(jù)進(jìn)行上述實(shí)際應(yīng)用時(shí)出錯(cuò)的可能性的步驟包括 計(jì)算上述基礎(chǔ)模型對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分;以及 計(jì)算上述^f出模型對(duì)利用上述基礎(chǔ)模型對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的多個(gè)候選詞串進(jìn)行評(píng)價(jià)的平均得分。
11. 根據(jù)權(quán)利要求10所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算 上述n元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在上述參考詞串中出現(xiàn)的次數(shù)。
12. 根據(jù)權(quán)利要求10所述的裁剪語(yǔ)言模型的方法,其中,上述計(jì)算 上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù)的步驟包括計(jì)算上述n元組在利用上述基礎(chǔ)模型對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的多 個(gè)候選詞串中出現(xiàn)的平均次數(shù)。
13. 根據(jù)權(quán)利要求l所述的裁剪語(yǔ)言模型的方法,其中,上述初始的 基礎(chǔ)模型通過(guò)將上述語(yǔ)言模型中的上述多個(gè)n元組及其概率去掉獲得。
14. 根據(jù)權(quán)利要求l所述的裁剪語(yǔ)言模型的方法,其中,上述訓(xùn)練語(yǔ) 料庫(kù)中的上述參考答案包括利用上述語(yǔ)言模型獲得的參考答案或通過(guò)手工 獲得的正確答案。
15. 根據(jù)權(quán)利要求l所述的裁剪語(yǔ)言模型的方法,還包括 根據(jù)上述語(yǔ)言模型和上述裁剪后的語(yǔ)言模型獲得待添加的多個(gè)n元組及其概率;利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述待添加的多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng) 用的重要性;以及將上述待添加的多個(gè)n元組中重要性高的至少一個(gè)n元組及其概率加 入上述裁剪后的語(yǔ)言模型。
16. 根據(jù)權(quán)利要求15所述的裁剪語(yǔ)言模型的方法,其中,上述待添 加的多個(gè)n元組為在上述語(yǔ)言模型中包括而在上述裁剪后的語(yǔ)言模型中不 包括的多個(gè)n元組。
17. 根據(jù)權(quán)利要求15所述的裁剪語(yǔ)言模型的方法,還包括 重復(fù)上述根據(jù)上述語(yǔ)言模型和上述裁剪后的語(yǔ)言模型獲得待添加的多個(gè)n元組及其概率的步驟至上述將上述待添加的多個(gè)n元組中重要性高的 至少一個(gè)n元組及其概率加入上述裁剪后的語(yǔ)言模型的步驟。
18. 根據(jù)權(quán)利要求17所述的裁剪語(yǔ)言模型的方法,還包括 多次進(jìn)行上述重復(fù)步驟,直到上述裁剪后的語(yǔ)言模型達(dá)到預(yù)定尺寸。
19. 一種裁剪語(yǔ)言模型的裝置,其中,該語(yǔ)言模型包括多個(gè)n元組及 其概率,以及多個(gè)低階的元組及其概率;上述裝置包括基礎(chǔ)模型生成單元,根據(jù)上述語(yǔ)言模型生成初始的基礎(chǔ)模型,該基礎(chǔ) 模型不包括上述多個(gè)n元組及其概率;重要性計(jì)算單元,利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考答案;以及添加單元,將上述多個(gè)n元組中重要性高的至少一個(gè)n元組及其概率 加入上述基礎(chǔ)模型,作為裁剪后的語(yǔ)言模型。
20. 根據(jù)權(quán)利要求19所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述基礎(chǔ)模型對(duì)上述訓(xùn)練數(shù)據(jù)進(jìn)行上述實(shí)際應(yīng)用時(shí)出錯(cuò)的可能性;計(jì)算上述ii元組在上述訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù);以及 計(jì)算上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù);其中上述重要性計(jì)算單元根據(jù)上述出錯(cuò)的可能性、上述n元組在上述 訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、和上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù), 計(jì)算上述重要性。
21. 根據(jù)權(quán)利要求20所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元還用于利用上述基礎(chǔ)模型計(jì)算上述n元組的概率;其中上述重要性計(jì)算單元根據(jù)上述出錯(cuò)的可能性、上述n元組在上述 訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、上述n元組在上述實(shí)際應(yīng)用中出現(xiàn)的次數(shù)、上述n元組在上述語(yǔ)言模型中的概率、和上述n元組的利用上述基礎(chǔ)模型計(jì) 算出的概率,計(jì)算上述重要性。
22. 根據(jù)權(quán)利要求21所述的裁剪語(yǔ)言模型的裝置,其中,上述實(shí)際 應(yīng)用是亞洲語(yǔ)言分詞,上述訓(xùn)練數(shù)據(jù)包括未切分字串,上述參考答案包括 對(duì)上述未切分字串進(jìn)行切分的參考詞串,以及上述重要性計(jì)算單元用于計(jì)算上述基礎(chǔ)模型對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分;以及 計(jì)算上述基礎(chǔ)模型對(duì)利用上述基礎(chǔ)模型對(duì)上述未切分字串進(jìn)行切分的 多個(gè)候選詞串進(jìn)行評(píng)價(jià)的平均得分。
23. 根據(jù)權(quán)利要求22所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在上述參考詞串中出現(xiàn)的次數(shù)。
24. 根據(jù)權(quán)利要求22所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在利用上述基礎(chǔ)模型對(duì)上述未切分字串進(jìn)行切分的多 個(gè)候選詞串中出現(xiàn)的平均次數(shù)。
25. 根據(jù)權(quán)利要求21所述的裁剪語(yǔ)言模型的裝置,其中,上述實(shí)際 應(yīng)用是語(yǔ)音識(shí)別,上述訓(xùn)練數(shù)據(jù)包括輸入語(yǔ)音,上述參考答案包括對(duì)上述 輸入語(yǔ)音進(jìn)行識(shí)別的參考文本,以及上述重要性計(jì)算單元用于計(jì)算上述_^5出模型對(duì)上述參考文本進(jìn)行評(píng)價(jià)的得分;以及 計(jì)算上述^f出模型對(duì)利用上述基礎(chǔ)模型對(duì)上述輸入語(yǔ)音進(jìn)行識(shí)別的多 個(gè)候選文本進(jìn)行評(píng)價(jià)的平均得分。
26. 根據(jù)權(quán)利要求25所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在上述參考文本中出現(xiàn)的次數(shù)。
27. 根據(jù)權(quán)利要求25所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在利用上述基礎(chǔ)模型對(duì)上述輸入語(yǔ)音進(jìn)行識(shí)別的多個(gè) 候選文本中出現(xiàn)的平均次數(shù)。
28. 根據(jù)權(quán)利要求21所述的裁剪語(yǔ)言模型的裝置,其中,上述實(shí)際 應(yīng)用是亞洲語(yǔ)言的計(jì)算機(jī)輸入,上述訓(xùn)練數(shù)據(jù)包括記音符號(hào)串,上述參考 答案包括對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的參考詞串,以及上述重要性計(jì)算單 元用于計(jì)算上述基礎(chǔ)模型對(duì)上述參考詞串進(jìn)行評(píng)價(jià)的得分;以及計(jì)算上述^i^出模型對(duì)利用上述基礎(chǔ)模型對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的多個(gè)候選詞串進(jìn)行評(píng)價(jià)的平均得分。
29. 根據(jù)權(quán)利要求28所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在上述參考詞串中出現(xiàn)的次數(shù)。
30. 根據(jù)權(quán)利要求28所述的裁剪語(yǔ)言模型的裝置,其中,上述重要 性計(jì)算單元用于計(jì)算上述n元組在利用上述基礎(chǔ)模型對(duì)上述記音符號(hào)串進(jìn)行轉(zhuǎn)換的多 個(gè)候選詞串中出現(xiàn)的平均次數(shù)。
31. 根據(jù)權(quán)利要求19所述的裁剪語(yǔ)言模型的裝置,其中,上述初始 的基礎(chǔ)模型通過(guò)將上述語(yǔ)言模型中的上述多個(gè)n元組及其概率去掉獲得。
32. 根據(jù)權(quán)利要求19所述的裁剪語(yǔ)言模型的裝置,其中,上述訓(xùn)練 語(yǔ)料庫(kù)中的上述參考答案包括利用上述語(yǔ)言模型獲得的參考答案或通過(guò)手 工獲得的正確答案。
33. 根據(jù)權(quán)利要求19所述的裁剪語(yǔ)言模型的裝置,還包括 待添加n元組獲得單元,根據(jù)上述語(yǔ)言模型和上述裁剪后的語(yǔ)言模型獲得待添加的多個(gè)n元組及其概率;其中,上述重要性計(jì)算單元用于利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述待添加的多 個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性;以及上述添加單元用于將上述待添加的多個(gè)n元組中重要性高的至少一個(gè) n元組及其概率加入上述裁剪后的語(yǔ)言模型。
34. 根據(jù)權(quán)利要求33所述的裁剪語(yǔ)言模型的裝置,其中,上述待添 加的多個(gè)n元組為在上述語(yǔ)言模型中包括而在上述裁剪后的語(yǔ)言模型中不包括的多個(gè)n元組。
35. 根據(jù)權(quán)利要求33所述的裁剪語(yǔ)言模型的裝置,其中,利用上述 待添加n元組獲得單元、上述重要性計(jì)算單元和上述添加單元重復(fù)對(duì)上述 裁剪后的語(yǔ)言模型進(jìn)行添加。
36. 根據(jù)權(quán)利要求35所述的裁剪語(yǔ)言模型的裝置,其中,利用上述 待添加n元組獲得單元、上述重要性計(jì)算單元和上述添加單元多次重復(fù)對(duì) 上述裁剪后的語(yǔ)言模型進(jìn)行添加,直到上述裁剪后的語(yǔ)言模型達(dá)到預(yù)定尺 寸。
全文摘要
本發(fā)明提供了裁剪語(yǔ)言模型的方法及裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種裁剪語(yǔ)言模型的方法,其中,該語(yǔ)言模型包括多個(gè)n元組及其概率,以及多個(gè)低階(<n)的元組及其概率;上述方法包括根據(jù)上述語(yǔ)言模型生成初始的基礎(chǔ)模型,該基礎(chǔ)模型不包括上述多個(gè)n元組及其概率,只包含低于n階的元組及其概率;利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算上述多個(gè)n元組中的每一個(gè)對(duì)于實(shí)際應(yīng)用的重要性,該訓(xùn)練語(yǔ)料庫(kù)包括訓(xùn)練數(shù)據(jù)和參考答案;以及將上述多個(gè)n元組中重要性高的至少一個(gè)n元組及其概率加入上述基礎(chǔ)模型,作為裁剪后的語(yǔ)言模型。
文檔編號(hào)G06F17/27GK101271450SQ20081008461
公開(kāi)日2008年9月24日 申請(qǐng)日期2008年3月13日 優(yōu)先權(quán)日2007年3月19日
發(fā)明者任登君, 李劍峰, 李國(guó)華, 王海峰 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1