音節(jié)劃分方法和音節(jié)劃分設(shè)備的制作方法
【專利摘要】本發(fā)明公開了音節(jié)劃分方法和音節(jié)劃分設(shè)備。根據(jù)本發(fā)明的音節(jié)劃分方法包括:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
【專利說明】音節(jié)劃分方法和音節(jié)劃分設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及自然語言處理領(lǐng)域。具體而言,本發(fā)明涉及一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法和音節(jié)劃分設(shè)備。
【背景技術(shù)】
[0002]在使用不同語言的人們進(jìn)行交流的過程中,存在將源語言翻譯為目標(biāo)語言的需要。隨著社會(huì)和科技的發(fā)展,各種語言中都產(chǎn)生了越來越多的新詞匯。這些新詞匯往往由于其代表的內(nèi)容,如科技詞匯的新穎性和先進(jìn)性,或社會(huì)現(xiàn)象詞匯的流行性等因素,而在產(chǎn)生后的短期內(nèi)由使用與新詞匯所屬語言不同的語言的人們使用。
[0003]一般而言,人們在使用這樣的新詞匯時(shí)往往采用音譯,或者直接使用新詞匯本身,即使用新詞匯所屬的語言的發(fā)音來誦讀新詞匯。
[0004]另外,由于歷史的原因,有些已有詞匯的正規(guī)譯文,也是其音譯譯文。此外,人名、地名等單詞,也通常采用音譯。
[0005]對于多音節(jié)語言的單詞,無論是音譯還是按原文誦讀,都存在如何按音節(jié)劃分單詞的問題。例如,英文單詞“Dray”是讀作(譯作)“綴”還是“德瑞”,或是“德拉伊”。
[0006]多音節(jié)語言是指該語言中的一個(gè)基本單元(如英文單詞)中存在多個(gè)音節(jié)。多音節(jié)語言的示例包括英語、法語、俄語、西班牙語、拉丁語等。單音節(jié)語言是指該語言中的一個(gè)基本單元(如中文的字)中僅存在一個(gè)音節(jié)。單音節(jié)語言的示例包括中文、日語等。
[0007]對于多音節(jié)語言的單詞來說,音節(jié)的正確劃分有利于人們正確地拼寫、背誦、讀、音譯該單詞。
[0008]傳統(tǒng)的音節(jié)劃分方法多基于規(guī)則來劃分多音節(jié)語言單詞。由于規(guī)則的適用性和覆蓋面有限、規(guī)則與規(guī)則之間可能存在矛盾等原因,傳統(tǒng)方法的正確率不高。
[0009]因此,期望能夠以較高的正確率將適合音譯的多音節(jié)語言單詞按音節(jié)進(jìn)行劃分。
【發(fā)明內(nèi)容】
[0010]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0011]本發(fā)明的目的是針對現(xiàn)有技術(shù)的上述問題,提出了一種能夠以較高的正確率將適合音譯的多音節(jié)語言單詞按音節(jié)進(jìn)行劃分的音節(jié)劃分方法和音節(jié)劃分設(shè)備。
[0012]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法,該方法包括:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0013]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備,該設(shè)備包括:音節(jié)劃分枚舉裝置,被配置為:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;總得分計(jì)算裝置,被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;結(jié)果確定裝置,被配置為:選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果O
[0014]另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0015]此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
【專利附圖】
【附圖說明】
[0016]參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
[0017]圖1示出了根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表獲取方法的流程圖;
[0018]圖2示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程圖;
[0019]圖3示出了根據(jù)本發(fā)明的實(shí)施例的可能音節(jié)劃分方式的枚舉方法的流程圖;
[0020]圖4示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方式總得分計(jì)算方法的流程圖;
[0021]圖5示出了根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備的結(jié)構(gòu)方框圖;以及
[0022]圖6示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
【具體實(shí)施方式】
[0023]在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施方式的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0024]在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[0025]本發(fā)明的基本思想是利用經(jīng)訓(xùn)練過程得到的已知音節(jié)表和雙語資源來按音節(jié)劃分適合音譯的多音節(jié)語言單詞。在這個(gè)過程中,利用訓(xùn)練語料得到已知音節(jié)表,已知音節(jié)表給出了多音節(jié)語言的已知音節(jié)及其特征概率。已知音節(jié)示出了多音節(jié)語言的音節(jié)形式,可以用來推測多音節(jié)語言單詞的可能劃分方式。特征概率從音節(jié)在單詞中的位置和音節(jié)前后音節(jié)等方面體現(xiàn)了多音節(jié)語言的語言特點(diǎn),可以用來評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。與多音節(jié)語言單詞對應(yīng)的單音節(jié)語言譯文,能夠從雙語角度幫助評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度?;趶纳鲜鰞煞N途徑獲得的置信度,可以選擇最可能的音節(jié)劃分方式作為音節(jié)劃分結(jié)果。
[0026]本發(fā)明的方法假設(shè)的前提是已經(jīng)獲得多音節(jié)語言的已知音節(jié)表,并且具有待劃分音節(jié)的多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞。
[0027]顯然,對于每種多音節(jié)語言,存在一個(gè)已知音節(jié)表。多音節(jié)語言的已知音節(jié)表可通過下面詳述的訓(xùn)練過程獲得。多音節(jié)語言的已知音節(jié)表包含已知音節(jié)及其特征概率。
[0028]已知音節(jié)是指預(yù)先得到的多音節(jié)語言中已知的音節(jié)形式。由于多音節(jié)語言中的音節(jié)形式是有限種的,所以可以通過訓(xùn)練等手段預(yù)先獲取。訓(xùn)練語料庫越大,越全面,所得到的已知音節(jié)就越多,越全面。
[0029]已知音節(jié)的特征概率包括:位置概率和相鄰概率。
[0030]已知音節(jié)的位置概率反映了音節(jié)在單詞中的位置的可能性,其包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率。這樣的位置信息遵循多音節(jié)語言中已知音節(jié)的語言規(guī)律,能夠通過統(tǒng)計(jì)得到,可以用于評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。
[0031]已知音節(jié)的相鄰概率反映了相鄰音節(jié)的置信度,其包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。相鄰概率從音節(jié)的上下文角度給出音節(jié)與前后音節(jié)組合的可能性,能夠通過統(tǒng)計(jì)得到,可以用于評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。這里的相鄰概率可以是二元的,也即其它音節(jié)可以是一個(gè)音節(jié)。當(dāng)然,視計(jì)算量的大小和系統(tǒng)的要求,也可以選用三元的相鄰概率,即其它音節(jié)為兩個(gè)音節(jié)。
[0032]下面將參照圖1描述根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表的獲取方法的流程。
[0033]圖1示出了根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表獲取方法的流程圖。
[0034]如圖1所示,根據(jù)本發(fā)明的已知音節(jié)表獲取方法包括如下步驟:獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式(步驟Si);根據(jù)所述讀音形式,按音節(jié)劃分所述多音節(jié)語言字母串,從而獲得所述已知音節(jié)(步驟S2);以及根據(jù)劃分結(jié)果,通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率(步驟S3)。
[0035]在步驟SI中,獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式。
[0036]步驟SI實(shí)際上是訓(xùn)練語料獲取步驟。
[0037]首先,獲得彼此對應(yīng)的多音節(jié)語言單詞和單音節(jié)語言音譯文。
[0038]在一種可能的情形中,現(xiàn)有語料中同時(shí)包括多音節(jié)語言單詞及對應(yīng)單音節(jié)語言音譯文。
[0039]在另一種可能的情形中,現(xiàn)有語料中僅包括多音節(jié)語言單詞。此時(shí),可從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置等途徑獲得與多音節(jié)語言單詞對應(yīng)單音節(jié)語言音譯文。
[0040]多音節(jié)語言單詞是多音節(jié)語言字母串形式的。為便于后續(xù)處理,還需將單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式,讀音形式中包含多個(gè)讀音音節(jié)。以中文為例,就是需要將漢字轉(zhuǎn)換為拼音形式。
[0041]注意,這里轉(zhuǎn)換得到的拼音形式包含有漢字的分隔信息。也就是說,作為英文單詞“Elizabeth”的音譯文的中文詞“伊莉莎白”包含有該詞分為“伊”、“莉”、“莎”、“白”四個(gè)漢字的分隔信息。中文作為單音節(jié)語言,一個(gè)字對應(yīng)一個(gè)音節(jié),因此可以利用中文作為參考語言,幫助劃分英文單詞的音節(jié)。故而,將中文詞“伊莉莎白”轉(zhuǎn)換為拼音形式“yi Ii shabai"時(shí),每個(gè)拼音音節(jié)(即讀音音節(jié))是彼此分開的。
[0042]這里,為了將單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式,可以采用如下的方法:對于單音節(jié)語言音譯文中的單音字,根據(jù)單音字-讀音映射表,將其轉(zhuǎn)換為對應(yīng)的讀音字母;對于單音節(jié)語言音譯文中的多音字,根據(jù)多音字-讀音映射表,枚舉多音字對應(yīng)的多個(gè)候選讀音字母,以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式,以及將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式,作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0043]單音節(jié)語言音譯文中的單音字的情況比較簡單,例如,漢字“周”,可根據(jù)漢字-拼音映射表,直接轉(zhuǎn)換為“Zhou”。
[0044]單音節(jié)語言音譯文中的多音字由于存在一對多的問題,需要進(jìn)行篩選。
[0045]為便于說明,假設(shè)單音節(jié)語言音譯文中僅存在一個(gè)多音字。
[0046]例如,英文單詞“babulenka”所對應(yīng)的中文音譯文為“巴布倫卡”。其中,漢字“巴”、“布”、“倫”均為單音字,而“卡”為多音字,其拼音可能是“ka”,也可能是“qia”。
[0047]可以先根據(jù)多音字-讀音映射表,從“卡”確定“ka”和“qia”兩種候選讀音字母。然后,得到中文音譯文“巴布倫卡”的多個(gè)候選讀音形式“ba bu Iun ka”和“ba bu Iunqia”。最后,借助于英文單詞“babulenka”來判斷到底是“ba bu Iun ka”還是“ba bu Iunqia,,。
[0048]例如,可以比較多個(gè)候選讀音形式與對應(yīng)的多音節(jié)語言字母串的相似度,將相似度最大的候選讀音形式確定為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0049]相似度的計(jì)算,可借助于最短編輯距離。最短編輯距離越小,相似度越高。最短編輯距離是指從一個(gè)字符串變?yōu)榱硪粋€(gè)字符串,最少需要幾步字符刪除/字符增加操作。
[0050]舉例來說,從兩種候選讀音形式“ba bu Iun kalP“ba bu Iun qia”,通過字符刪除/字符增加操作,變?yōu)橛⑽膯卧~“babulenka”,分別需要I步和3步。顯然,讀音形式“babu Iun ka”與英文單詞“babulenka”的最短編輯距離更小,相似度更高。因此,中文音譯文“巴布倫卡”應(yīng)轉(zhuǎn)換為讀音形式“ba bu Iun ka”。
[0051]對于單音節(jié)語言音譯文中存在多個(gè)多音字的情況,只是候選讀音形式的種類更多一些,也是將候選讀音形式與對應(yīng)的多音節(jié)語言字母串比較而得到相似度,如基于最短編輯距離的相似度,并基于所得到的相似度確定最可能的讀音形式。
[0052]當(dāng)然,此處的相似度計(jì)算,也可采用字符串相似度等其它適當(dāng)?shù)挠?jì)算方式。
[0053]在步驟S2中,根據(jù)所述讀音形式,按音節(jié)劃分所述多音節(jié)語言字母串,從而獲得所述已知音節(jié)。
[0054]前文提到,讀音形式包括與單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié),并且多個(gè)讀音音節(jié)彼此分開。因此,讀音音節(jié)之間的間隔體現(xiàn)了音節(jié)的劃分方向。
[0055]在一種實(shí)施方式中,可以確定與多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母,并將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將多音節(jié)語言字母串按音節(jié)劃分。
[0056]舉例來說,確定讀音形式“ba bu Iun ka”中的讀音音節(jié)“ba”、“bu”、“l(fā)un”、“ ka”對應(yīng)的“babuIenka”中的字母為“ba”、“bu ”、“ Ien ”、“ ka”。這樣就可以將英文單詞“babulenka” 按音節(jié)劃分為 “ba bu Ien ka”。
[0057]此處的確定方法例如可以是:首先,由人工對少量多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行上述確定步驟(即確定與多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母),以得到訓(xùn)練語料。然后,利用訓(xùn)練語料來訓(xùn)練能夠執(zhí)行上述確定步驟的對齊器。最后,利用訓(xùn)練好的對齊器,對余下的多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行上述確定步驟。
[0058]當(dāng)然,此處也可以利用現(xiàn)有的對齊工具,如GIZA++。
[0059]此處的實(shí)施方式基于讀音音節(jié)整體,計(jì)算量較大,需要訓(xùn)練好的對齊器。考慮到中文的讀音音節(jié),即拼音音節(jié)的特點(diǎn),也可以采用如下的實(shí)施方式。
[0060]在另一種實(shí)施方式中,首先,識別所述讀音形式中的聲母和獨(dú)立韻母。然后,確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母。最后,將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0061]這是因?yàn)槠匆粢艄?jié)的開頭字母或開頭字母串要么是聲母,要么是獨(dú)立韻母,要么是整體認(rèn)讀。也就是說,拼音音節(jié)的首字母是聲母、獨(dú)立韻母或者整體認(rèn)讀的首字母。由于整體認(rèn)讀的開頭部分與聲母一致,因此,可合并入聲母統(tǒng)一處理。當(dāng)然,也可將聲母、獨(dú)立韻母、整體認(rèn)讀三個(gè)單獨(dú)處理。
[0062]這樣,就可以不基于整個(gè)拼音音節(jié),而是基于拼音音節(jié)的開頭字母或字母串,即聲母(含整體認(rèn)讀)或獨(dú)立韻母,來進(jìn)行對齊。這就減少了計(jì)算量。
[0063]識別所述讀音形式中的聲母和獨(dú)立韻母,可以借助于聲母表(可包含整體認(rèn)讀表)、獨(dú)立韻母表實(shí)現(xiàn)。
[0064]確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母,可以基于與聲母、獨(dú)立韻母相關(guān)的預(yù)定規(guī)則實(shí)現(xiàn),這就避免了需要訓(xùn)練和使用對齊器。
[0065]具體的規(guī)則可以由本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗(yàn)和語言學(xué)知識做出。例如漢語拼音的聲母“b”和英文字母“b”對齊等。
[0066]這一借助于聲母和獨(dú)立韻母以及規(guī)則的實(shí)施方式,可以提高音節(jié)劃分的準(zhǔn)確性、提高處理速度、減輕系統(tǒng)負(fù)擔(dān)并避免使用人工。
[0067]通過上述步驟S2,可以得到已知音節(jié)。
[0068]在步驟S3中,根據(jù)劃分結(jié)果,通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0069]如上所述,已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率。其中位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率。相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0070]這些概率都可以通過統(tǒng)計(jì)的方法,從訓(xùn)練語料中得到。
[0071]舉例來說,音節(jié)位于單詞的首部的概率等于音節(jié)位于單詞的首部的次數(shù)除以該音節(jié)出現(xiàn)的總次數(shù)。音節(jié)在其它音節(jié)緊前的概率=音節(jié)在其它音節(jié)緊前的次數(shù)除以該音節(jié)出現(xiàn)的總次數(shù)。
[0072]經(jīng)過上述步驟S1-S3,從訓(xùn)練語料獲得了體現(xiàn)多音節(jié)語言中音節(jié)及其特征的已知音節(jié)表。
[0073]下面,就可以借助于已知音節(jié)表和雙語信息來劃分適合音譯的多音節(jié)語言單詞的音節(jié)。
[0074]下面將參照圖2描述根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程。
[0075]圖2示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程圖。如圖2所示,根據(jù)本發(fā)明的音節(jié)劃分方法,用于按音節(jié)劃分適合音譯的多音節(jié)語言單詞,其包括如下步驟:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率(步驟S21);根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分(步驟S22);以及選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果(步驟S23)。
[0076]下面,將詳細(xì)描述圖2中示例的方法的各個(gè)步驟。
[0077]在步驟S21中,對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率。
[0078]上文提到多音節(jié)語言的已知音節(jié)表中記錄有已知音節(jié)及其特征概率,這些信息體現(xiàn)了多音節(jié)語言的語言特點(diǎn)。因此,可通過在給定的多音節(jié)語言單詞中找尋已知音節(jié),來猜測多音節(jié)語言單詞的可能的音節(jié)劃分方式。
[0079]下面將參照圖3說明具體的實(shí)現(xiàn)方式。
[0080]圖3示出了根據(jù)本發(fā)明的實(shí)施例的可能音節(jié)劃分方式的枚舉方法的流程圖。如圖3所示,根據(jù)本發(fā)明的音節(jié)劃分方式枚舉方法,包括:將構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)進(jìn)行匹配(步驟S31);將與所述已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié)(步驟S32);將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié)(步驟S33);所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述可能的音節(jié)劃分方式(步驟S34)。
[0081]在步驟S31中,將構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)進(jìn)行匹配。
[0082]已知音節(jié)表明了對于多音節(jié)語言而言,音節(jié)可能出現(xiàn)的形式。因此,如果構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)一致,則可能應(yīng)該將這個(gè)單個(gè)字母或字母串作為一個(gè)音節(jié)劃分出來。
[0083]在步驟S32中,將與已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié)。
[0084]顯然,同一個(gè)字母可能由于不同的分割方式而組成不同的音節(jié)。如該字母本身是一個(gè)已知音節(jié),該字母與其前面的一個(gè)字母組成一個(gè)已知音節(jié),該字母與其后面的兩個(gè)字母組成一個(gè)已知音節(jié)等等。這些符合已知音節(jié)表的劃分方式都要保留下來。
[0085]在步驟S34中,所有互不矛盾的劃分結(jié)果的組合構(gòu)成所有可能的音節(jié)劃分方式。
[0086]在理想情況下,某些組合(例如,正確的劃分方式)中,多音節(jié)語言單詞的所有字母都被劃分到一個(gè)已知音節(jié)中,各個(gè)已知音節(jié)彼此不交迭并且前后相鄰,并無多余字母。
[0087]當(dāng)然,經(jīng)過步驟S31和S32之后,在某些組合中,可能有的字母既不作為單個(gè)字母與已知音節(jié)匹配上,又不與前后的字母組合成已知音節(jié)。
[0088]并且,由于已知音節(jié)表依賴于訓(xùn)練語料生成,存在一定的局限性。如果語料覆蓋面不廣,可能導(dǎo)致已知音節(jié)表中的已知音節(jié)種類不全面,有些音節(jié)無法被識別出來。
[0089]對于這些情況,可以在步驟S33中,將不能與任何已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié)。
[0090]這樣,步驟S34中的每個(gè)組合都由若干個(gè)首尾相連的、連續(xù)的、彼此不交迭的音節(jié)構(gòu)成。
[0091]下面,需要對這些組合進(jìn)行評價(jià),以判斷何種音節(jié)劃分方式最有可能是正確的音節(jié)劃分方式。
[0092]在步驟S22中,根據(jù)已知音節(jié)的特征概率和與多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分。
[0093]也就是說,從已知首節(jié)表中蘊(yùn)含的語目知識和對應(yīng)單首節(jié)語目譯文的雙語參考/[目息,給出對于每種音節(jié)劃分方式的評價(jià)。
[0094]圖4示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方式總得分計(jì)算方法的流程圖。如圖4所示,根據(jù)本發(fā)明的音節(jié)劃分方式總得分計(jì)算方法,包括:根據(jù)已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分(步驟S41);根據(jù)對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分(步驟S42);根據(jù)所述概率得分和所述雙語得分,計(jì)算每種音節(jié)劃分方式的總得分(步驟S43)。
[0095]在步驟S41中,從已獲得的語言知識角度給出評價(jià)。即,根據(jù)已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分。
[0096]具體地,根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率,計(jì)算每種音節(jié)劃分方式的概率得分。
[0097]—方面,每種音節(jié)劃分方式中各個(gè)音節(jié)已經(jīng)固定,并且可以獲知其位置和其前后相鄰的音節(jié)信息。另一方面,已知音節(jié)表中,還包含有已知音節(jié)的統(tǒng)計(jì)信息,即特征概率,包括位置概率和相鄰概率。因此,可以針對每種音節(jié)劃分方式,計(jì)算其音節(jié)構(gòu)成的組合所對應(yīng)的聯(lián)合概率,即概率得分。
[0098]舉例來說,一種音節(jié)劃分方式為eie2e3e4,則概率得分可以為:P G1,首)*P (e2,中)*P (e3,中)*P (e4,尾)+P (e21 θι) *Ρ (e31 e2) *Ρ (e41 e3)。
[0099]Ρ(θι,首)為音節(jié)ei位于單詞的首部的概率,P(e2,中)、P(e3,中)分別為音節(jié)e2、e3位于單詞的中部的概率,P(e4,尾)為音節(jié)e4位于單詞的尾部的概率。P(e2|ei)為音節(jié)e2出現(xiàn)在音節(jié)ei緊后的概率。Ρ(θ3|θ2)、Ρ(θ4|θ3)類似。
[0100]上文提到,可能多音節(jié)語言單詞中的有些字母未能與已知音節(jié)表中的任何已知音節(jié)匹配上。對于這種字母,已經(jīng)將其按單個(gè)字母看作一個(gè)非已知音節(jié)。在步驟S41的計(jì)算中,可以將非已知音節(jié)的特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0101]在步驟S42中,從對應(yīng)單音節(jié)語言譯文的雙語參考信息角度給出評價(jià)。即,根據(jù)對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分。
[0102]由于每種音節(jié)劃分方式與對應(yīng)的單音節(jié)語言單詞的讀音形式都以字母形式出現(xiàn),可以從字母個(gè)數(shù)和最短編輯距離兩個(gè)角度來評估彼此的相似性。顯然,相似程度越高,雙語得分越高。
[0103]可以計(jì)算個(gè)數(shù)相似度、距離相似度,并基于兩種相似度計(jì)算雙語得分。當(dāng)然,也可直接將某一種相似度作為雙語得分,
[0104]個(gè)數(shù)相似度是對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度。
[0105]例如,個(gè)數(shù)相似度可以等于對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的字母個(gè)數(shù)的差的絕對值。
[0106]距離相似度是對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式在最短編輯距離上的相似度。
[0107]例如,距離相似度可以等于每種音節(jié)劃分方式中的各個(gè)音節(jié)與對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的相似度(如最短編輯距離)的總和。也就是說,可以逐個(gè)對應(yīng)音節(jié)計(jì)算最短編輯距離,并計(jì)算最短編輯距離的總和,作為距離相似度。在上面的示例中,英文單詞“babulenka”按音節(jié)劃分為“ba bu Ien ka”,中文譯文的拼音形式為“ba buIun ka”。分別計(jì)算“ba”與“ba”的最短編輯距離、“bu”與“bu”的最短編輯距離、“Iun”與“l(fā)en”的最短編輯距離、“ka”與“ka”的最短編輯距離,并計(jì)算上述4個(gè)最短編輯距離的總和。
[0108]其中,針對候選音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況,在計(jì)算相似度的總和之前,通過在音節(jié)個(gè)數(shù)較小的音節(jié)劃分方式或讀音形式的末端填充預(yù)定符號,使得候選音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。少幾個(gè)音節(jié),就填充幾個(gè)預(yù)定符號。預(yù)定符號顯然不能與多音節(jié)語言和單音節(jié)語言讀音形式中的字母相同。
[0109]在步驟S43中,綜合前述兩種評價(jià)方式的結(jié)果,給出總的評價(jià),即根據(jù)概率得分和雙語得分,計(jì)算每種音節(jié)劃分方式的總得分。
[0110]可以將概率得分和雙語得分線性組合,來計(jì)算每種音節(jié)劃分方式的總得分。線性組合的組合系數(shù),可以根據(jù)經(jīng)驗(yàn)指定。
[0111]經(jīng)過上述步驟S41-S43,可以獲得每種音節(jié)劃分方式的總得分。
[0112]在步驟S23中,選擇總得分最高的音節(jié)劃分方式,作為多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0113]至此,根據(jù)已知音節(jié)表和對應(yīng)的單音節(jié)語言譯文,得到了多音節(jié)語言單詞的最有可能的音節(jié)劃分方式。
[0114]下面,將參照圖5描述根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備。
[0115]圖5示出了根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備的結(jié)構(gòu)方框圖。如圖5所示,根據(jù)本發(fā)明的音節(jié)劃分設(shè)備500包括:音節(jié)劃分枚舉裝置51,被配置為:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;總得分計(jì)算裝置52,被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及結(jié)果確定裝置53,被配置為:選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0116]在一個(gè)實(shí)施例中,音節(jié)劃分枚舉裝置51被進(jìn)一步配置為:將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配;將與所述已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié);將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié);所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0117]在一個(gè)實(shí)施例中,所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率。
[0118]在一個(gè)實(shí)施例中,所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率;所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0119]在一個(gè)實(shí)施例中,總得分計(jì)算裝置52包括:概率得分計(jì)算單元,被配置為:根據(jù)所述已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分;雙語得分計(jì)算單元,被配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分;總得分計(jì)算單元,被配置為:根據(jù)所述概率得分和所述雙語得分,計(jì)算所述每種音節(jié)劃分方式的總得分。
[0120]在一個(gè)實(shí)施例中,概率得分計(jì)算單元被進(jìn)一步配置為:根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率,計(jì)算每種音節(jié)劃分方式的概率得分。
[0121]在一個(gè)實(shí)施例中,概率得分計(jì)算單元被進(jìn)一步配置為:對于每種音節(jié)劃分方式中的非已知音節(jié),將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0122]在一個(gè)實(shí)施例中,雙語得分計(jì)算單元被進(jìn)一步配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的個(gè)數(shù)相似度和/或距離相似度,計(jì)算所述雙語得分,所述個(gè)數(shù)相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度,所述距離相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度。
[0123]在一個(gè)實(shí)施例中,雙語得分計(jì)算單元被進(jìn)一步配置為:計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和,作為所述距離相似度。
[0124]在一個(gè)實(shí)施例中,雙語得分計(jì)算單元被進(jìn)一步配置為:針對所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況,在計(jì)算相似度的總和之前,通過在音節(jié)個(gè)數(shù)較小的所述音節(jié)劃分方式或所述讀音形式的末端填充預(yù)定符號,使得所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。
[0125]在一個(gè)實(shí)施例中,音節(jié)劃分設(shè)備500,還包括音節(jié)表獲取裝置,其被配置為得到所述已知音節(jié)表,所述音節(jié)表獲取裝置包括:第一獲得單元,被配置為:獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式;第二獲得單元,被配置為:根據(jù)所述讀音形式,按音節(jié)劃分所述多音節(jié)語言字母串,從而獲得所述已知音節(jié);概率計(jì)算單元,被配置為:根據(jù)劃分結(jié)果,通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0126]在一個(gè)實(shí)施例中,第一獲得單元包括:獲得子單元,被配置為:從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置、現(xiàn)有語料中的至少一個(gè),找到所述單音節(jié)語言音譯文;轉(zhuǎn)換子單元,被配置為:將所述單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式。
[0127]在一個(gè)實(shí)施例中,轉(zhuǎn)換子單元被進(jìn)一步配置為:對于單音節(jié)語言音譯文中的單音字,根據(jù)單音字-讀音映射表,將其轉(zhuǎn)換為對應(yīng)的讀音字母;對于單音節(jié)語言音譯文中的多音字,根據(jù)多音字-讀音映射表,枚舉多音字對應(yīng)的多個(gè)候選讀音字母,以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式;將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式,作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0128]在一個(gè)實(shí)施例中,候選讀音形式與對應(yīng)的多音節(jié)語言字母串的最短編輯距離越小,兩者的相似度越大。
[0129]在一個(gè)實(shí)施例中,讀音形式包括與所述單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié);并且其中所述第二獲得單元被進(jìn)一步配置為:確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母;將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0130]在一個(gè)實(shí)施例中,第二獲得單元被進(jìn)一步配置為:識別所述讀音形式中的聲母和獨(dú)立韻母;確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母;將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0131]由于在根據(jù)本發(fā)明的音節(jié)劃分設(shè)備中所包括的各個(gè)裝置和單元中的處理分別與上面描述的音節(jié)劃分方法中所包括的各個(gè)步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細(xì)描述。
[0132]此外,這里尚需指出的是,上述設(shè)備中各個(gè)組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖6所示的通用計(jì)算機(jī)600)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。
[0133]圖6示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
[0134]在圖6中,中央處理單元(CPU)601根據(jù)只讀存儲(chǔ)器(ROM)602中存儲(chǔ)的程序或從存儲(chǔ)部分608加載到隨機(jī)存取存儲(chǔ)器(RAM)603的程序執(zhí)行各種處理。在RAM603中,還根據(jù)需要存儲(chǔ)當(dāng)CPU601執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU601、R0M602和RAM603經(jīng)由總線604彼此連接。輸入/輸出接口 605也連接到總線604。
[0135]下述部件連接到輸入/輸出接口 605:輸入部分606 (包括鍵盤、鼠標(biāo)等等)、輸出部分607 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等,和揚(yáng)聲器等)、存儲(chǔ)部分608 (包括硬盤等)、通信部分609 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分609經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器610也可連接到輸入/輸出接口 605??刹鹦督橘|(zhì)611比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器610上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分608中。
[0136]在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)611安裝構(gòu)成軟件的程序。
[0137]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖6所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)611??刹鹦督橘|(zhì)611的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以是R0M602、存儲(chǔ)部分608中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
[0138]本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。
[0139]相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等坐寸ο
[0140]在上面對本發(fā)明具體實(shí)施例的描述中,針對一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。
[0141]應(yīng)該強(qiáng)調(diào),術(shù)語“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、要素、步驟或組件的存在或附加。
[0142]此外,本發(fā)明的方法不限于按照說明書中描述的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。
[0143]盡管上面已經(jīng)通過對本發(fā)明的具體實(shí)施例的描述對本發(fā)明進(jìn)行了披露,但是,應(yīng)該理解,上述的所有實(shí)施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對本發(fā)明的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本發(fā)明的保護(hù)范圍內(nèi)。
[0144]艦
[0145]1.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法,包括:
[0146]對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;
[0147]根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及
[0148]選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0149]2.如附記I所述的方法,其中所述對于給定的多音節(jié)語言單詞根據(jù)已知音節(jié)表枚舉所有可能的音節(jié)劃分方式包括:
[0150]將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配;
[0151]將與所述已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié);
[0152]將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié);
[0153]所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0154]3.如附記I所述的方法,其中所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率;
[0155]其中所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率;所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0156]4.如附記I所述的方法,其中所述根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分包括:
[0157]根據(jù)所述已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分;
[0158]根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分;
[0159]根據(jù)所述概率得分和所述雙語得分,計(jì)算所述每種音節(jié)劃分方式的總得分。
[0160]5.如附記4所述的方法,其中所述根據(jù)所述已知音節(jié)的特征概率計(jì)算每種音節(jié)劃分方式的概率得分包括:
[0161]根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率,計(jì)算每種音節(jié)劃分方式的概率得分。
[0162]6.如附記5所述的方法,其中對于每種音節(jié)劃分方式中的非已知音節(jié),將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0163]7.如附記4所述的方法,其中所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度包括:作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度的個(gè)數(shù)相似度、和/或作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度的距離相似度;并且
[0164]所述根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度計(jì)算每種音節(jié)劃分方式的雙語得分包括:根據(jù)所述個(gè)數(shù)相似度和/或所述距離相似度,計(jì)算所述雙語得分。
[0165]8.如附記7所述的方法,其中計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和,作為所述距離相似度。
[0166]9.如附記8所述的方法,其中針對所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況,在所述計(jì)算相似度的總和的步驟之前,通過在音節(jié)個(gè)數(shù)較小的所述音節(jié)劃分方式或所述讀音形式的末端填充預(yù)定符號,使得所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。
[0167]10.如附記I所述的方法,其中通過如下步驟來得到所述已知音節(jié)表:
[0168]獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式;
[0169]根據(jù)所述讀音形式,按音節(jié)劃分所述多音節(jié)語言字母串,從而獲得所述已知音節(jié);
[0170]根據(jù)劃分結(jié)果,通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0171]11.如附記10所述的方法,其中所述獲得多音節(jié)語言字母串以及對應(yīng)單音節(jié)語言音譯文的讀音形式包括:
[0172]從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置、現(xiàn)有語料中的至少一個(gè),找到所述單音節(jié)語言音譯文;
[0173]將所述單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式。
[0174]12.如附記11所述的方法,其中所述轉(zhuǎn)換步驟包括:
[0175]對于單音節(jié)語言音譯文中的單音字,
[0176]根據(jù)單音字-讀音映射表,將其轉(zhuǎn)換為對應(yīng)的讀音字母;對于單音節(jié)語言音譯文中的多音字,
[0177]根據(jù)多音字-讀音映射表,枚舉多音字對應(yīng)的多個(gè)候選讀音字母,以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式;
[0178]將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式,作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0179]13.如附記12所述的方法,其中所述候選讀音形式與對應(yīng)的多音節(jié)語言字母串的最短編輯距離越小,兩者的相似度越大。
[0180]14.如附記10所述的方法,其中所述讀音形式包括與所述單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié);并且
[0181]其中所述根據(jù)所述讀音形式按音節(jié)劃分所述多音節(jié)語言字母串包括:
[0182]確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母;
[0183]將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0184]15.如附記10所述的方法,其中所述根據(jù)所述讀音形式按音節(jié)劃分所述多音節(jié)語言字母串包括:
[0185]識別所述讀音形式中的聲母和獨(dú)立韻母;
[0186]確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母;
[0187]將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界,從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0188]16.如附記14所述的方法,其中所述確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母包括:
[0189]人工對少量多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行所述確定步驟,以得到訓(xùn)練語料;
[0190]利用訓(xùn)練語料來訓(xùn)練能夠執(zhí)行所述確定步驟的對齊器;
[0191]利用訓(xùn)練好的對齊器,對余下的多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行所述確定步驟。
[0192]17.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備,包括:
[0193]音節(jié)劃分枚舉裝置,被配置為:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率;
[0194]總得分計(jì)算裝置,被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及
[0195]結(jié)果確定裝置,被配置為:選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0196]18.如附記17所述的音節(jié)劃分設(shè)備,其中所述音節(jié)劃分枚舉裝置被進(jìn)一步配置為:
[0197]將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配;
[0198]將與所述已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié);
[0199]將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié);
[0200]所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0201]19.如附記17所述的音節(jié)劃分設(shè)備,其中所述總得分計(jì)算裝置包括:
[0202]概率得分計(jì)算單元,被配置為:根據(jù)所述已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分;
[0203]雙語得分計(jì)算單元,被配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分;
[0204]總得分計(jì)算單元,被配置為:根據(jù)所述概率得分和所述雙語得分,計(jì)算所述每種音節(jié)劃分方式的總得分。
[0205]20.如附記19所述的音節(jié)劃分設(shè)備,其中所述雙語得分計(jì)算單元被進(jìn)一步配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的個(gè)數(shù)相似度和/或距離相似度,計(jì)算所述雙語得分,所述個(gè)數(shù)相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度,所述距離相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度。
【權(quán)利要求】
1.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法,包括: 對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率; 根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及 選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
2.如權(quán)利要求1所述的方法,其中所述對于給定的多音節(jié)語言單詞根據(jù)已知音節(jié)表枚舉所有可能的音節(jié)劃分方式包括: 將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配; 將與所述已知音節(jié)匹配上的單個(gè)字母或字母串,劃分為一個(gè)音節(jié); 將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母,劃分為一個(gè)音節(jié); 所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
3.如權(quán)利要求1所述的方法,其中所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率; 其中所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率;所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
4.如權(quán)利要求1所述的方法,其中所述根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分包括: 根據(jù)所述已知音節(jié)的特征概率,計(jì)算每種音節(jié)劃分方式的概率得分; 根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度,計(jì)算每種音節(jié)劃分方式的雙語得分; 根據(jù)所述概率得分和所述雙語得分,計(jì)算所述每種音節(jié)劃分方式的總得分。
5.如權(quán)利要求4所述的方法,其中所述根據(jù)所述已知音節(jié)的特征概率計(jì)算每種音節(jié)劃分方式的概率得分包括: 根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率,計(jì)算每種音節(jié)劃分方式的概率得分。
6.如權(quán)利要求5所述的方法,其中對于每種音節(jié)劃分方式中的非已知音節(jié),將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
7.如權(quán)利要求4所述的方法,其中所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度包括:作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度的個(gè)數(shù)相似度、和/或作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度的距離相似度;并且 所述根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度計(jì)算每種音節(jié)劃分方式的雙語得分包括:根據(jù)所述個(gè)數(shù)相似度和/或所述距離相似度,計(jì)算所述雙語得分。
8.如權(quán)利要求7所述的方法,其中計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和,作為所述距離相似度。
9.如權(quán)利要求1所述的方法,其中通過如下步驟來得到所述已知音節(jié)表: 獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式; 根據(jù)所述讀音形式,按音節(jié)劃分所述多音節(jié)語言字母串,從而獲得所述已知音節(jié); 根據(jù)劃分結(jié)果,通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
10.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備,包括: 音節(jié)劃分枚舉裝置,被配置為:對于給定的多音節(jié)語言單詞,根據(jù)多音節(jié)語言的已知音節(jié)表,枚舉所有可能的音節(jié)劃分方式,所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率; 總得分計(jì)算裝置,被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式,計(jì)算每種音節(jié)劃分方式的總得分;以及 結(jié)果確定裝置,被配置為:選擇總得分最高的音節(jié)劃分方式,作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
【文檔編號】G06F17/28GK104239289SQ201310252998
【公開日】2014年12月24日 申請日期:2013年6月24日 優(yōu)先權(quán)日:2013年6月24日
【發(fā)明者】李賢華, 張姝, 孟遙, 于浩 申請人:富士通株式會(huì)社