音節(jié)劃分方法和音節(jié)劃分設(shè)備的制作方法

文檔序號：6504624閱讀：309來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

音節(jié)劃分方法和音節(jié)劃分設(shè)備的制作方法
【專利摘要】本發(fā)明公開了音節(jié)劃分方法和音節(jié)劃分設(shè)備。根據(jù)本發(fā)明的音節(jié)劃分方法包括：對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
【專利說明】音節(jié)劃分方法和音節(jié)劃分設(shè)備

【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及自然語言處理領(lǐng)域。具體而言，本發(fā)明涉及一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法和音節(jié)劃分設(shè)備。

【背景技術(shù)】
[0002]在使用不同語言的人們進(jìn)行交流的過程中，存在將源語言翻譯為目標(biāo)語言的需要。隨著社會(huì)和科技的發(fā)展，各種語言中都產(chǎn)生了越來越多的新詞匯。這些新詞匯往往由于其代表的內(nèi)容，如科技詞匯的新穎性和先進(jìn)性，或社會(huì)現(xiàn)象詞匯的流行性等因素，而在產(chǎn)生后的短期內(nèi)由使用與新詞匯所屬語言不同的語言的人們使用。
[0003]一般而言，人們在使用這樣的新詞匯時(shí)往往采用音譯，或者直接使用新詞匯本身，即使用新詞匯所屬的語言的發(fā)音來誦讀新詞匯。
[0004]另外，由于歷史的原因，有些已有詞匯的正規(guī)譯文，也是其音譯譯文。此外，人名、地名等單詞，也通常采用音譯。
[0005]對于多音節(jié)語言的單詞，無論是音譯還是按原文誦讀，都存在如何按音節(jié)劃分單詞的問題。例如，英文單詞“Dray”是讀作(譯作)“綴”還是“德瑞”，或是“德拉伊”。
[0006]多音節(jié)語言是指該語言中的一個(gè)基本單元(如英文單詞)中存在多個(gè)音節(jié)。多音節(jié)語言的示例包括英語、法語、俄語、西班牙語、拉丁語等。單音節(jié)語言是指該語言中的一個(gè)基本單元(如中文的字)中僅存在一個(gè)音節(jié)。單音節(jié)語言的示例包括中文、日語等。
[0007]對于多音節(jié)語言的單詞來說，音節(jié)的正確劃分有利于人們正確地拼寫、背誦、讀、音譯該單詞。
[0008]傳統(tǒng)的音節(jié)劃分方法多基于規(guī)則來劃分多音節(jié)語言單詞。由于規(guī)則的適用性和覆蓋面有限、規(guī)則與規(guī)則之間可能存在矛盾等原因，傳統(tǒng)方法的正確率不高。
[0009]因此，期望能夠以較高的正確率將適合音譯的多音節(jié)語言單詞按音節(jié)進(jìn)行劃分。

【發(fā)明內(nèi)容】

[0010]在下文中給出了關(guān)于本發(fā)明的簡要概述，以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解，這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分，也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念，以此作為稍后論述的更詳細(xì)描述的前序。
[0011]本發(fā)明的目的是針對現(xiàn)有技術(shù)的上述問題，提出了一種能夠以較高的正確率將適合音譯的多音節(jié)語言單詞按音節(jié)進(jìn)行劃分的音節(jié)劃分方法和音節(jié)劃分設(shè)備。
[0012]為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明的一個(gè)方面，提供了一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法，該方法包括:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0013]根據(jù)本發(fā)明的另一個(gè)方面，提供了一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備，該設(shè)備包括:音節(jié)劃分枚舉裝置，被配置為:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；總得分計(jì)算裝置，被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；結(jié)果確定裝置，被配置為:選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果O
[0014]另外，根據(jù)本發(fā)明的另一方面，還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼，當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí)，所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0015]此外，根據(jù)本發(fā)明的再一方面，還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令，當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí)，所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。

【專利附圖】

【附圖說明】
[0016]參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明，會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中，相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
[0017]圖1示出了根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表獲取方法的流程圖；
[0018]圖2示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程圖；
[0019]圖3示出了根據(jù)本發(fā)明的實(shí)施例的可能音節(jié)劃分方式的枚舉方法的流程圖；
[0020]圖4示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方式總得分計(jì)算方法的流程圖；
[0021]圖5示出了根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備的結(jié)構(gòu)方框圖；以及
[0022]圖6示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。

【具體實(shí)施方式】
[0023]在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起見，在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而，應(yīng)該了解，在開發(fā)任何這種實(shí)際實(shí)施方式的過程中必須做出很多特定于實(shí)施方式的決定，以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo)，例如，符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件，并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外，還應(yīng)該了解，雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的，但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說，這種開發(fā)工作僅僅是例行的任務(wù)。
[0024]在此，還需要說明的一點(diǎn)是，為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明，在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟，而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外，還需要指出的是，在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[0025]本發(fā)明的基本思想是利用經(jīng)訓(xùn)練過程得到的已知音節(jié)表和雙語資源來按音節(jié)劃分適合音譯的多音節(jié)語言單詞。在這個(gè)過程中，利用訓(xùn)練語料得到已知音節(jié)表，已知音節(jié)表給出了多音節(jié)語言的已知音節(jié)及其特征概率。已知音節(jié)示出了多音節(jié)語言的音節(jié)形式，可以用來推測多音節(jié)語言單詞的可能劃分方式。特征概率從音節(jié)在單詞中的位置和音節(jié)前后音節(jié)等方面體現(xiàn)了多音節(jié)語言的語言特點(diǎn)，可以用來評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。與多音節(jié)語言單詞對應(yīng)的單音節(jié)語言譯文，能夠從雙語角度幫助評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度?；趶纳鲜鰞煞N途徑獲得的置信度，可以選擇最可能的音節(jié)劃分方式作為音節(jié)劃分結(jié)果。
[0026]本發(fā)明的方法假設(shè)的前提是已經(jīng)獲得多音節(jié)語言的已知音節(jié)表，并且具有待劃分音節(jié)的多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞。
[0027]顯然，對于每種多音節(jié)語言，存在一個(gè)已知音節(jié)表。多音節(jié)語言的已知音節(jié)表可通過下面詳述的訓(xùn)練過程獲得。多音節(jié)語言的已知音節(jié)表包含已知音節(jié)及其特征概率。
[0028]已知音節(jié)是指預(yù)先得到的多音節(jié)語言中已知的音節(jié)形式。由于多音節(jié)語言中的音節(jié)形式是有限種的，所以可以通過訓(xùn)練等手段預(yù)先獲取。訓(xùn)練語料庫越大，越全面，所得到的已知音節(jié)就越多，越全面。
[0029]已知音節(jié)的特征概率包括:位置概率和相鄰概率。
[0030]已知音節(jié)的位置概率反映了音節(jié)在單詞中的位置的可能性，其包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率。這樣的位置信息遵循多音節(jié)語言中已知音節(jié)的語言規(guī)律，能夠通過統(tǒng)計(jì)得到，可以用于評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。
[0031]已知音節(jié)的相鄰概率反映了相鄰音節(jié)的置信度，其包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。相鄰概率從音節(jié)的上下文角度給出音節(jié)與前后音節(jié)組合的可能性，能夠通過統(tǒng)計(jì)得到，可以用于評價(jià)多音節(jié)語言單詞的可能劃分方式的置信度。這里的相鄰概率可以是二元的，也即其它音節(jié)可以是一個(gè)音節(jié)。當(dāng)然，視計(jì)算量的大小和系統(tǒng)的要求，也可以選用三元的相鄰概率，即其它音節(jié)為兩個(gè)音節(jié)。
[0032]下面將參照圖1描述根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表的獲取方法的流程。
[0033]圖1示出了根據(jù)本發(fā)明的實(shí)施例的已知音節(jié)表獲取方法的流程圖。
[0034]如圖1所示，根據(jù)本發(fā)明的已知音節(jié)表獲取方法包括如下步驟:獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式(步驟Si);根據(jù)所述讀音形式，按音節(jié)劃分所述多音節(jié)語言字母串，從而獲得所述已知音節(jié)(步驟S2);以及根據(jù)劃分結(jié)果，通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率(步驟S3)。
[0035]在步驟SI中，獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式。
[0036]步驟SI實(shí)際上是訓(xùn)練語料獲取步驟。
[0037]首先，獲得彼此對應(yīng)的多音節(jié)語言單詞和單音節(jié)語言音譯文。
[0038]在一種可能的情形中，現(xiàn)有語料中同時(shí)包括多音節(jié)語言單詞及對應(yīng)單音節(jié)語言音譯文。
[0039]在另一種可能的情形中，現(xiàn)有語料中僅包括多音節(jié)語言單詞。此時(shí)，可從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置等途徑獲得與多音節(jié)語言單詞對應(yīng)單音節(jié)語言音譯文。
[0040]多音節(jié)語言單詞是多音節(jié)語言字母串形式的。為便于后續(xù)處理，還需將單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式，讀音形式中包含多個(gè)讀音音節(jié)。以中文為例，就是需要將漢字轉(zhuǎn)換為拼音形式。
[0041]注意，這里轉(zhuǎn)換得到的拼音形式包含有漢字的分隔信息。也就是說，作為英文單詞“Elizabeth”的音譯文的中文詞“伊莉莎白”包含有該詞分為“伊”、“莉”、“莎”、“白”四個(gè)漢字的分隔信息。中文作為單音節(jié)語言，一個(gè)字對應(yīng)一個(gè)音節(jié)，因此可以利用中文作為參考語言，幫助劃分英文單詞的音節(jié)。故而，將中文詞“伊莉莎白”轉(zhuǎn)換為拼音形式“yi Ii shabai"時(shí)，每個(gè)拼音音節(jié)(即讀音音節(jié))是彼此分開的。
[0042]這里，為了將單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式，可以采用如下的方法:對于單音節(jié)語言音譯文中的單音字，根據(jù)單音字-讀音映射表，將其轉(zhuǎn)換為對應(yīng)的讀音字母；對于單音節(jié)語言音譯文中的多音字，根據(jù)多音字-讀音映射表，枚舉多音字對應(yīng)的多個(gè)候選讀音字母，以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式，以及將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式，作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0043]單音節(jié)語言音譯文中的單音字的情況比較簡單，例如，漢字“周”，可根據(jù)漢字-拼音映射表，直接轉(zhuǎn)換為“Zhou”。
[0044]單音節(jié)語言音譯文中的多音字由于存在一對多的問題，需要進(jìn)行篩選。
[0045]為便于說明，假設(shè)單音節(jié)語言音譯文中僅存在一個(gè)多音字。
[0046]例如，英文單詞“babulenka”所對應(yīng)的中文音譯文為“巴布倫卡”。其中，漢字“巴”、“布”、“倫”均為單音字，而“卡”為多音字，其拼音可能是“ka”，也可能是“qia”。
[0047]可以先根據(jù)多音字-讀音映射表，從“卡”確定“ka”和“qia”兩種候選讀音字母。然后，得到中文音譯文“巴布倫卡”的多個(gè)候選讀音形式“ba bu Iun ka”和“ba bu Iunqia”。最后，借助于英文單詞“babulenka”來判斷到底是“ba bu Iun ka”還是“ba bu Iunqia，，。
[0048]例如，可以比較多個(gè)候選讀音形式與對應(yīng)的多音節(jié)語言字母串的相似度，將相似度最大的候選讀音形式確定為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0049]相似度的計(jì)算，可借助于最短編輯距離。最短編輯距離越小，相似度越高。最短編輯距離是指從一個(gè)字符串變?yōu)榱硪粋€(gè)字符串，最少需要幾步字符刪除/字符增加操作。
[0050]舉例來說，從兩種候選讀音形式“ba bu Iun kalP“ba bu Iun qia”,通過字符刪除/字符增加操作，變?yōu)橛⑽膯卧~“babulenka”，分別需要I步和3步。顯然，讀音形式“babu Iun ka”與英文單詞“babulenka”的最短編輯距離更小，相似度更高。因此，中文音譯文“巴布倫卡”應(yīng)轉(zhuǎn)換為讀音形式“ba bu Iun ka”。
[0051]對于單音節(jié)語言音譯文中存在多個(gè)多音字的情況，只是候選讀音形式的種類更多一些，也是將候選讀音形式與對應(yīng)的多音節(jié)語言字母串比較而得到相似度，如基于最短編輯距離的相似度，并基于所得到的相似度確定最可能的讀音形式。
[0052]當(dāng)然，此處的相似度計(jì)算，也可采用字符串相似度等其它適當(dāng)?shù)挠?jì)算方式。
[0053]在步驟S2中，根據(jù)所述讀音形式，按音節(jié)劃分所述多音節(jié)語言字母串，從而獲得所述已知音節(jié)。
[0054]前文提到，讀音形式包括與單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié)，并且多個(gè)讀音音節(jié)彼此分開。因此，讀音音節(jié)之間的間隔體現(xiàn)了音節(jié)的劃分方向。
[0055]在一種實(shí)施方式中，可以確定與多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母，并將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將多音節(jié)語言字母串按音節(jié)劃分。
[0056]舉例來說，確定讀音形式“ba bu Iun ka”中的讀音音節(jié)“ba”、“bu”、“l(fā)un”、“ ka”對應(yīng)的“babuIenka”中的字母為“ba”、“bu ”、“ Ien ”、“ ka”。這樣就可以將英文單詞“babulenka” 按音節(jié)劃分為 “ba bu Ien ka”。
[0057]此處的確定方法例如可以是:首先，由人工對少量多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行上述確定步驟(即確定與多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母)，以得到訓(xùn)練語料。然后，利用訓(xùn)練語料來訓(xùn)練能夠執(zhí)行上述確定步驟的對齊器。最后，利用訓(xùn)練好的對齊器，對余下的多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行上述確定步驟。
[0058]當(dāng)然，此處也可以利用現(xiàn)有的對齊工具，如GIZA++。
[0059]此處的實(shí)施方式基于讀音音節(jié)整體，計(jì)算量較大，需要訓(xùn)練好的對齊器。考慮到中文的讀音音節(jié)，即拼音音節(jié)的特點(diǎn)，也可以采用如下的實(shí)施方式。
[0060]在另一種實(shí)施方式中，首先，識別所述讀音形式中的聲母和獨(dú)立韻母。然后，確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母。最后，將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0061]這是因?yàn)槠匆粢艄?jié)的開頭字母或開頭字母串要么是聲母，要么是獨(dú)立韻母，要么是整體認(rèn)讀。也就是說，拼音音節(jié)的首字母是聲母、獨(dú)立韻母或者整體認(rèn)讀的首字母。由于整體認(rèn)讀的開頭部分與聲母一致，因此，可合并入聲母統(tǒng)一處理。當(dāng)然，也可將聲母、獨(dú)立韻母、整體認(rèn)讀三個(gè)單獨(dú)處理。
[0062]這樣，就可以不基于整個(gè)拼音音節(jié)，而是基于拼音音節(jié)的開頭字母或字母串，即聲母(含整體認(rèn)讀)或獨(dú)立韻母，來進(jìn)行對齊。這就減少了計(jì)算量。
[0063]識別所述讀音形式中的聲母和獨(dú)立韻母，可以借助于聲母表(可包含整體認(rèn)讀表)、獨(dú)立韻母表實(shí)現(xiàn)。
[0064]確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母，可以基于與聲母、獨(dú)立韻母相關(guān)的預(yù)定規(guī)則實(shí)現(xiàn)，這就避免了需要訓(xùn)練和使用對齊器。
[0065]具體的規(guī)則可以由本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗(yàn)和語言學(xué)知識做出。例如漢語拼音的聲母“b”和英文字母“b”對齊等。
[0066]這一借助于聲母和獨(dú)立韻母以及規(guī)則的實(shí)施方式，可以提高音節(jié)劃分的準(zhǔn)確性、提高處理速度、減輕系統(tǒng)負(fù)擔(dān)并避免使用人工。
[0067]通過上述步驟S2，可以得到已知音節(jié)。
[0068]在步驟S3中，根據(jù)劃分結(jié)果，通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0069]如上所述，已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率。其中位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率。相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0070]這些概率都可以通過統(tǒng)計(jì)的方法，從訓(xùn)練語料中得到。
[0071]舉例來說，音節(jié)位于單詞的首部的概率等于音節(jié)位于單詞的首部的次數(shù)除以該音節(jié)出現(xiàn)的總次數(shù)。音節(jié)在其它音節(jié)緊前的概率=音節(jié)在其它音節(jié)緊前的次數(shù)除以該音節(jié)出現(xiàn)的總次數(shù)。
[0072]經(jīng)過上述步驟S1-S3，從訓(xùn)練語料獲得了體現(xiàn)多音節(jié)語言中音節(jié)及其特征的已知音節(jié)表。
[0073]下面，就可以借助于已知音節(jié)表和雙語信息來劃分適合音譯的多音節(jié)語言單詞的音節(jié)。
[0074]下面將參照圖2描述根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程。
[0075]圖2示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方法的流程圖。如圖2所示，根據(jù)本發(fā)明的音節(jié)劃分方法，用于按音節(jié)劃分適合音譯的多音節(jié)語言單詞，其包括如下步驟:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率(步驟S21);根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分(步驟S22);以及選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果(步驟S23)。
[0076]下面，將詳細(xì)描述圖2中示例的方法的各個(gè)步驟。
[0077]在步驟S21中，對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率。
[0078]上文提到多音節(jié)語言的已知音節(jié)表中記錄有已知音節(jié)及其特征概率，這些信息體現(xiàn)了多音節(jié)語言的語言特點(diǎn)。因此，可通過在給定的多音節(jié)語言單詞中找尋已知音節(jié)，來猜測多音節(jié)語言單詞的可能的音節(jié)劃分方式。
[0079]下面將參照圖3說明具體的實(shí)現(xiàn)方式。
[0080]圖3示出了根據(jù)本發(fā)明的實(shí)施例的可能音節(jié)劃分方式的枚舉方法的流程圖。如圖3所示，根據(jù)本發(fā)明的音節(jié)劃分方式枚舉方法，包括:將構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)進(jìn)行匹配(步驟S31);將與所述已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)(步驟S32);將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié)(步驟S33);所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述可能的音節(jié)劃分方式(步驟S34)。
[0081]在步驟S31中，將構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)進(jìn)行匹配。
[0082]已知音節(jié)表明了對于多音節(jié)語言而言，音節(jié)可能出現(xiàn)的形式。因此，如果構(gòu)成多音節(jié)語言單詞的單個(gè)字母或字母串與已知音節(jié)表中的已知音節(jié)一致，則可能應(yīng)該將這個(gè)單個(gè)字母或字母串作為一個(gè)音節(jié)劃分出來。
[0083]在步驟S32中，將與已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)。
[0084]顯然，同一個(gè)字母可能由于不同的分割方式而組成不同的音節(jié)。如該字母本身是一個(gè)已知音節(jié)，該字母與其前面的一個(gè)字母組成一個(gè)已知音節(jié)，該字母與其后面的兩個(gè)字母組成一個(gè)已知音節(jié)等等。這些符合已知音節(jié)表的劃分方式都要保留下來。
[0085]在步驟S34中，所有互不矛盾的劃分結(jié)果的組合構(gòu)成所有可能的音節(jié)劃分方式。
[0086]在理想情況下，某些組合(例如，正確的劃分方式)中，多音節(jié)語言單詞的所有字母都被劃分到一個(gè)已知音節(jié)中，各個(gè)已知音節(jié)彼此不交迭并且前后相鄰，并無多余字母。
[0087]當(dāng)然，經(jīng)過步驟S31和S32之后，在某些組合中，可能有的字母既不作為單個(gè)字母與已知音節(jié)匹配上，又不與前后的字母組合成已知音節(jié)。
[0088]并且，由于已知音節(jié)表依賴于訓(xùn)練語料生成，存在一定的局限性。如果語料覆蓋面不廣，可能導(dǎo)致已知音節(jié)表中的已知音節(jié)種類不全面，有些音節(jié)無法被識別出來。
[0089]對于這些情況，可以在步驟S33中，將不能與任何已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié)。
[0090]這樣，步驟S34中的每個(gè)組合都由若干個(gè)首尾相連的、連續(xù)的、彼此不交迭的音節(jié)構(gòu)成。
[0091]下面，需要對這些組合進(jìn)行評價(jià)，以判斷何種音節(jié)劃分方式最有可能是正確的音節(jié)劃分方式。
[0092]在步驟S22中，根據(jù)已知音節(jié)的特征概率和與多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分。
[0093]也就是說，從已知首節(jié)表中蘊(yùn)含的語目知識和對應(yīng)單首節(jié)語目譯文的雙語參考/[目息，給出對于每種音節(jié)劃分方式的評價(jià)。
[0094]圖4示出了根據(jù)本發(fā)明的實(shí)施例的音節(jié)劃分方式總得分計(jì)算方法的流程圖。如圖4所示，根據(jù)本發(fā)明的音節(jié)劃分方式總得分計(jì)算方法，包括:根據(jù)已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分(步驟S41);根據(jù)對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分(步驟S42);根據(jù)所述概率得分和所述雙語得分，計(jì)算每種音節(jié)劃分方式的總得分(步驟S43)。
[0095]在步驟S41中，從已獲得的語言知識角度給出評價(jià)。即，根據(jù)已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分。
[0096]具體地，根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率，計(jì)算每種音節(jié)劃分方式的概率得分。
[0097]—方面，每種音節(jié)劃分方式中各個(gè)音節(jié)已經(jīng)固定，并且可以獲知其位置和其前后相鄰的音節(jié)信息。另一方面，已知音節(jié)表中，還包含有已知音節(jié)的統(tǒng)計(jì)信息，即特征概率，包括位置概率和相鄰概率。因此，可以針對每種音節(jié)劃分方式，計(jì)算其音節(jié)構(gòu)成的組合所對應(yīng)的聯(lián)合概率，即概率得分。
[0098]舉例來說，一種音節(jié)劃分方式為eie2e3e4，則概率得分可以為:P G1，首)*P (e2，中)*P (e3，中)*P (e4，尾)+P (e21 θι) *Ρ (e31 e2) *Ρ (e41 e3)。
[0099]Ρ(θι，首)為音節(jié)ei位于單詞的首部的概率，P(e2，中)、P(e3，中)分別為音節(jié)e2、e3位于單詞的中部的概率，P(e4，尾)為音節(jié)e4位于單詞的尾部的概率。P(e2|ei)為音節(jié)e2出現(xiàn)在音節(jié)ei緊后的概率。Ρ(θ3|θ2)、Ρ(θ4|θ3)類似。
[0100]上文提到，可能多音節(jié)語言單詞中的有些字母未能與已知音節(jié)表中的任何已知音節(jié)匹配上。對于這種字母，已經(jīng)將其按單個(gè)字母看作一個(gè)非已知音節(jié)。在步驟S41的計(jì)算中，可以將非已知音節(jié)的特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0101]在步驟S42中，從對應(yīng)單音節(jié)語言譯文的雙語參考信息角度給出評價(jià)。即，根據(jù)對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分。
[0102]由于每種音節(jié)劃分方式與對應(yīng)的單音節(jié)語言單詞的讀音形式都以字母形式出現(xiàn)，可以從字母個(gè)數(shù)和最短編輯距離兩個(gè)角度來評估彼此的相似性。顯然，相似程度越高，雙語得分越高。
[0103]可以計(jì)算個(gè)數(shù)相似度、距離相似度，并基于兩種相似度計(jì)算雙語得分。當(dāng)然，也可直接將某一種相似度作為雙語得分，
[0104]個(gè)數(shù)相似度是對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度。
[0105]例如，個(gè)數(shù)相似度可以等于對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的字母個(gè)數(shù)的差的絕對值。
[0106]距離相似度是對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式在最短編輯距離上的相似度。
[0107]例如，距離相似度可以等于每種音節(jié)劃分方式中的各個(gè)音節(jié)與對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的相似度(如最短編輯距離)的總和。也就是說，可以逐個(gè)對應(yīng)音節(jié)計(jì)算最短編輯距離，并計(jì)算最短編輯距離的總和，作為距離相似度。在上面的示例中，英文單詞“babulenka”按音節(jié)劃分為“ba bu Ien ka”，中文譯文的拼音形式為“ba buIun ka”。分別計(jì)算“ba”與“ba”的最短編輯距離、“bu”與“bu”的最短編輯距離、“Iun”與“l(fā)en”的最短編輯距離、“ka”與“ka”的最短編輯距離，并計(jì)算上述4個(gè)最短編輯距離的總和。
[0108]其中，針對候選音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況，在計(jì)算相似度的總和之前，通過在音節(jié)個(gè)數(shù)較小的音節(jié)劃分方式或讀音形式的末端填充預(yù)定符號，使得候選音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。少幾個(gè)音節(jié)，就填充幾個(gè)預(yù)定符號。預(yù)定符號顯然不能與多音節(jié)語言和單音節(jié)語言讀音形式中的字母相同。
[0109]在步驟S43中，綜合前述兩種評價(jià)方式的結(jié)果，給出總的評價(jià)，即根據(jù)概率得分和雙語得分，計(jì)算每種音節(jié)劃分方式的總得分。
[0110]可以將概率得分和雙語得分線性組合，來計(jì)算每種音節(jié)劃分方式的總得分。線性組合的組合系數(shù)，可以根據(jù)經(jīng)驗(yàn)指定。
[0111]經(jīng)過上述步驟S41-S43，可以獲得每種音節(jié)劃分方式的總得分。
[0112]在步驟S23中，選擇總得分最高的音節(jié)劃分方式，作為多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0113]至此，根據(jù)已知音節(jié)表和對應(yīng)的單音節(jié)語言譯文，得到了多音節(jié)語言單詞的最有可能的音節(jié)劃分方式。
[0114]下面，將參照圖5描述根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備。
[0115]圖5示出了根據(jù)本發(fā)明實(shí)施例的音節(jié)劃分設(shè)備的結(jié)構(gòu)方框圖。如圖5所示，根據(jù)本發(fā)明的音節(jié)劃分設(shè)備500包括:音節(jié)劃分枚舉裝置51，被配置為:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；總得分計(jì)算裝置52，被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及結(jié)果確定裝置53，被配置為:選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0116]在一個(gè)實(shí)施例中，音節(jié)劃分枚舉裝置51被進(jìn)一步配置為:將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配；將與所述已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)；將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié)；所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0117]在一個(gè)實(shí)施例中，所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率。
[0118]在一個(gè)實(shí)施例中，所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率；所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0119]在一個(gè)實(shí)施例中，總得分計(jì)算裝置52包括:概率得分計(jì)算單元，被配置為:根據(jù)所述已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分；雙語得分計(jì)算單元，被配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分；總得分計(jì)算單元，被配置為:根據(jù)所述概率得分和所述雙語得分，計(jì)算所述每種音節(jié)劃分方式的總得分。
[0120]在一個(gè)實(shí)施例中，概率得分計(jì)算單元被進(jìn)一步配置為:根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率，計(jì)算每種音節(jié)劃分方式的概率得分。
[0121]在一個(gè)實(shí)施例中，概率得分計(jì)算單元被進(jìn)一步配置為:對于每種音節(jié)劃分方式中的非已知音節(jié)，將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0122]在一個(gè)實(shí)施例中，雙語得分計(jì)算單元被進(jìn)一步配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的個(gè)數(shù)相似度和/或距離相似度，計(jì)算所述雙語得分，所述個(gè)數(shù)相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度，所述距離相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度。
[0123]在一個(gè)實(shí)施例中，雙語得分計(jì)算單元被進(jìn)一步配置為:計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和，作為所述距離相似度。
[0124]在一個(gè)實(shí)施例中，雙語得分計(jì)算單元被進(jìn)一步配置為:針對所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況，在計(jì)算相似度的總和之前，通過在音節(jié)個(gè)數(shù)較小的所述音節(jié)劃分方式或所述讀音形式的末端填充預(yù)定符號，使得所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。
[0125]在一個(gè)實(shí)施例中，音節(jié)劃分設(shè)備500，還包括音節(jié)表獲取裝置，其被配置為得到所述已知音節(jié)表，所述音節(jié)表獲取裝置包括:第一獲得單元，被配置為:獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式；第二獲得單元，被配置為:根據(jù)所述讀音形式，按音節(jié)劃分所述多音節(jié)語言字母串，從而獲得所述已知音節(jié)；概率計(jì)算單元，被配置為:根據(jù)劃分結(jié)果，通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0126]在一個(gè)實(shí)施例中，第一獲得單元包括:獲得子單元，被配置為:從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置、現(xiàn)有語料中的至少一個(gè)，找到所述單音節(jié)語言音譯文；轉(zhuǎn)換子單元，被配置為:將所述單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式。
[0127]在一個(gè)實(shí)施例中，轉(zhuǎn)換子單元被進(jìn)一步配置為:對于單音節(jié)語言音譯文中的單音字，根據(jù)單音字-讀音映射表，將其轉(zhuǎn)換為對應(yīng)的讀音字母；對于單音節(jié)語言音譯文中的多音字，根據(jù)多音字-讀音映射表，枚舉多音字對應(yīng)的多個(gè)候選讀音字母，以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式；將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式，作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0128]在一個(gè)實(shí)施例中，候選讀音形式與對應(yīng)的多音節(jié)語言字母串的最短編輯距離越小，兩者的相似度越大。
[0129]在一個(gè)實(shí)施例中，讀音形式包括與所述單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié)；并且其中所述第二獲得單元被進(jìn)一步配置為:確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母；將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0130]在一個(gè)實(shí)施例中，第二獲得單元被進(jìn)一步配置為:識別所述讀音形式中的聲母和獨(dú)立韻母；確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母；將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0131]由于在根據(jù)本發(fā)明的音節(jié)劃分設(shè)備中所包括的各個(gè)裝置和單元中的處理分別與上面描述的音節(jié)劃分方法中所包括的各個(gè)步驟中的處理類似，因此為了簡潔起見，在此省略這些裝置和單元的詳細(xì)描述。
[0132]此外，這里尚需指出的是，上述設(shè)備中各個(gè)組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知，在此不再贅述。在通過軟件或固件實(shí)現(xiàn)的情況下，從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖6所示的通用計(jì)算機(jī)600)安裝構(gòu)成該軟件的程序，該計(jì)算機(jī)在安裝有各種程序時(shí)，能夠執(zhí)行各種功能等。
[0133]圖6示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
[0134]在圖6中，中央處理單元(CPU)601根據(jù)只讀存儲(chǔ)器(ROM)602中存儲(chǔ)的程序或從存儲(chǔ)部分608加載到隨機(jī)存取存儲(chǔ)器(RAM)603的程序執(zhí)行各種處理。在RAM603中，還根據(jù)需要存儲(chǔ)當(dāng)CPU601執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU601、R0M602和RAM603經(jīng)由總線604彼此連接。輸入/輸出接口 605也連接到總線604。
[0135]下述部件連接到輸入/輸出接口 605:輸入部分606 (包括鍵盤、鼠標(biāo)等等)、輸出部分607 (包括顯示器，比如陰極射線管(CRT)、液晶顯示器(IXD)等，和揚(yáng)聲器等)、存儲(chǔ)部分608 (包括硬盤等)、通信部分609 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分609經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要，驅(qū)動(dòng)器610也可連接到輸入/輸出接口 605?？刹鹦督橘|(zhì)611比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器610上，使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分608中。
[0136]在通過軟件實(shí)現(xiàn)上述系列處理的情況下，從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)611安裝構(gòu)成軟件的程序。
[0137]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，這種存儲(chǔ)介質(zhì)不局限于圖6所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)611?？刹鹦督橘|(zhì)611的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者，存儲(chǔ)介質(zhì)可以是R0M602、存儲(chǔ)部分608中包含的硬盤等等，其中存有程序，并且與包含它們的設(shè)備一起被分發(fā)給用戶。
[0138]本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí)，可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。
[0139]相應(yīng)地，用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等坐寸ο
[0140]在上面對本發(fā)明具體實(shí)施例的描述中，針對一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用，與其它實(shí)施方式中的特征相組合，或替代其它實(shí)施方式中的特征。
[0141]應(yīng)該強(qiáng)調(diào)，術(shù)語“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在，但并不排除一個(gè)或更多個(gè)其它特征、要素、步驟或組件的存在或附加。
[0142]此外，本發(fā)明的方法不限于按照說明書中描述的時(shí)間順序來執(zhí)行，也可以按照其他的時(shí)間順序地、并行地或獨(dú)立地執(zhí)行。因此，本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。
[0143]盡管上面已經(jīng)通過對本發(fā)明的具體實(shí)施例的描述對本發(fā)明進(jìn)行了披露，但是，應(yīng)該理解，上述的所有實(shí)施例和示例均是示例性的，而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對本發(fā)明的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本發(fā)明的保護(hù)范圍內(nèi)。
[0144]艦
[0145]1.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法，包括:
[0146]對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；
[0147]根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及
[0148]選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0149]2.如附記I所述的方法，其中所述對于給定的多音節(jié)語言單詞根據(jù)已知音節(jié)表枚舉所有可能的音節(jié)劃分方式包括:
[0150]將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配；
[0151]將與所述已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)；
[0152]將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié)；
[0153]所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0154]3.如附記I所述的方法，其中所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率；
[0155]其中所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率；所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
[0156]4.如附記I所述的方法，其中所述根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分包括:
[0157]根據(jù)所述已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分；
[0158]根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分；
[0159]根據(jù)所述概率得分和所述雙語得分，計(jì)算所述每種音節(jié)劃分方式的總得分。
[0160]5.如附記4所述的方法，其中所述根據(jù)所述已知音節(jié)的特征概率計(jì)算每種音節(jié)劃分方式的概率得分包括:
[0161]根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率，計(jì)算每種音節(jié)劃分方式的概率得分。
[0162]6.如附記5所述的方法，其中對于每種音節(jié)劃分方式中的非已知音節(jié)，將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
[0163]7.如附記4所述的方法，其中所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度包括:作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度的個(gè)數(shù)相似度、和/或作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度的距離相似度；并且
[0164]所述根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度計(jì)算每種音節(jié)劃分方式的雙語得分包括:根據(jù)所述個(gè)數(shù)相似度和/或所述距離相似度，計(jì)算所述雙語得分。
[0165]8.如附記7所述的方法，其中計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和，作為所述距離相似度。
[0166]9.如附記8所述的方法，其中針對所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)不同的情況，在所述計(jì)算相似度的總和的步驟之前，通過在音節(jié)個(gè)數(shù)較小的所述音節(jié)劃分方式或所述讀音形式的末端填充預(yù)定符號，使得所述每種音節(jié)劃分方式中的音節(jié)個(gè)數(shù)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式的音節(jié)個(gè)數(shù)相同。
[0167]10.如附記I所述的方法，其中通過如下步驟來得到所述已知音節(jié)表:
[0168]獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式；
[0169]根據(jù)所述讀音形式，按音節(jié)劃分所述多音節(jié)語言字母串，從而獲得所述已知音節(jié);
[0170]根據(jù)劃分結(jié)果，通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
[0171]11.如附記10所述的方法，其中所述獲得多音節(jié)語言字母串以及對應(yīng)單音節(jié)語言音譯文的讀音形式包括:
[0172]從因特網(wǎng)、音譯詞典、機(jī)器音譯裝置、現(xiàn)有語料中的至少一個(gè)，找到所述單音節(jié)語言音譯文；
[0173]將所述單音節(jié)語言音譯文轉(zhuǎn)換為對應(yīng)的讀音形式。
[0174]12.如附記11所述的方法，其中所述轉(zhuǎn)換步驟包括:
[0175]對于單音節(jié)語言音譯文中的單音字，
[0176]根據(jù)單音字-讀音映射表，將其轉(zhuǎn)換為對應(yīng)的讀音字母；對于單音節(jié)語言音譯文中的多音字，
[0177]根據(jù)多音字-讀音映射表，枚舉多音字對應(yīng)的多個(gè)候選讀音字母，以得到單音節(jié)語言音譯文的多個(gè)候選讀音形式；
[0178]將所述多個(gè)候選讀音形式中與對應(yīng)的多音節(jié)語言字母串的相似度最大的候選讀音形式，作為與單音節(jié)語言音譯文對應(yīng)的讀音形式。
[0179]13.如附記12所述的方法，其中所述候選讀音形式與對應(yīng)的多音節(jié)語言字母串的最短編輯距離越小，兩者的相似度越大。
[0180]14.如附記10所述的方法，其中所述讀音形式包括與所述單音節(jié)語言音譯文中的多個(gè)單音節(jié)語言字對應(yīng)的多個(gè)讀音音節(jié)；并且
[0181]其中所述根據(jù)所述讀音形式按音節(jié)劃分所述多音節(jié)語言字母串包括:
[0182]確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母；
[0183]將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0184]15.如附記10所述的方法，其中所述根據(jù)所述讀音形式按音節(jié)劃分所述多音節(jié)語言字母串包括:
[0185]識別所述讀音形式中的聲母和獨(dú)立韻母；
[0186]確定與所識別的聲母和獨(dú)立韻母的首個(gè)音素對應(yīng)的多音節(jié)語言字母；
[0187]將所確定的多音節(jié)語言字母前的位置確定為多音節(jié)語言音節(jié)的邊界，從而將所述多音節(jié)語言字母串按音節(jié)劃分。
[0188]16.如附記14所述的方法，其中所述確定與所述多個(gè)讀音音節(jié)對應(yīng)的多音節(jié)語言字母包括:
[0189]人工對少量多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行所述確定步驟，以得到訓(xùn)練語料；
[0190]利用訓(xùn)練語料來訓(xùn)練能夠執(zhí)行所述確定步驟的對齊器；
[0191]利用訓(xùn)練好的對齊器，對余下的多音節(jié)語言字母串以及對應(yīng)的讀音形式進(jìn)行所述確定步驟。
[0192]17.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備，包括:
[0193]音節(jié)劃分枚舉裝置，被配置為:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；
[0194]總得分計(jì)算裝置，被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及
[0195]結(jié)果確定裝置，被配置為:選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
[0196]18.如附記17所述的音節(jié)劃分設(shè)備，其中所述音節(jié)劃分枚舉裝置被進(jìn)一步配置為:
[0197]將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配；
[0198]將與所述已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)；
[0199]將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié)；
[0200]所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
[0201]19.如附記17所述的音節(jié)劃分設(shè)備，其中所述總得分計(jì)算裝置包括:
[0202]概率得分計(jì)算單元，被配置為:根據(jù)所述已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分；
[0203]雙語得分計(jì)算單元，被配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分；
[0204]總得分計(jì)算單元，被配置為:根據(jù)所述概率得分和所述雙語得分，計(jì)算所述每種音節(jié)劃分方式的總得分。
[0205]20.如附記19所述的音節(jié)劃分設(shè)備，其中所述雙語得分計(jì)算單元被進(jìn)一步配置為:根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的個(gè)數(shù)相似度和/或距離相似度，計(jì)算所述雙語得分，所述個(gè)數(shù)相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度，所述距離相似度是所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度。
【權(quán)利要求】
1.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分方法，包括: 對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
2.如權(quán)利要求1所述的方法，其中所述對于給定的多音節(jié)語言單詞根據(jù)已知音節(jié)表枚舉所有可能的音節(jié)劃分方式包括: 將構(gòu)成所述多音節(jié)語言單詞的單個(gè)字母或字母串與所述已知音節(jié)表中的已知音節(jié)進(jìn)行匹配；將與所述已知音節(jié)匹配上的單個(gè)字母或字母串，劃分為一個(gè)音節(jié)；將不能與任何所述已知音節(jié)匹配上的單個(gè)字母或字母串中的每個(gè)字母，劃分為一個(gè)音節(jié); 所有互不矛盾的劃分結(jié)果的組合構(gòu)成所述所有可能的音節(jié)劃分方式。
3.如權(quán)利要求1所述的方法，其中所述已知音節(jié)的特征概率包括:反映音節(jié)在單詞中的位置的可能性的位置概率、和/或反映相鄰音節(jié)的置信度的相鄰概率；其中所述位置概率包括:音節(jié)位于單詞的首部的概率、音節(jié)位于單詞的尾部的概率、音節(jié)位于單詞的首部和尾部之間的中部的概率；所述相鄰概率包括:音節(jié)在其它音節(jié)緊前的概率、音節(jié)在其它音節(jié)緊后的概率。
4.如權(quán)利要求1所述的方法，其中所述根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分包括: 根據(jù)所述已知音節(jié)的特征概率，計(jì)算每種音節(jié)劃分方式的概率得分；根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度，計(jì)算每種音節(jié)劃分方式的雙語得分；根據(jù)所述概率得分和所述雙語得分，計(jì)算所述每種音節(jié)劃分方式的總得分。
5.如權(quán)利要求4所述的方法，其中所述根據(jù)所述已知音節(jié)的特征概率計(jì)算每種音節(jié)劃分方式的概率得分包括: 根據(jù)每種音節(jié)劃分方式中的各個(gè)音節(jié)的位置概率和/或相鄰概率，計(jì)算每種音節(jié)劃分方式的概率得分。
6.如權(quán)利要求5所述的方法，其中對于每種音節(jié)劃分方式中的非已知音節(jié)，將其特征概率設(shè)置為默認(rèn)的小的數(shù)值或已知音節(jié)表中同類特征概率中的最小值。
7.如權(quán)利要求4所述的方法，其中所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度包括:作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在字母個(gè)數(shù)上的相似度的個(gè)數(shù)相似度、和/或作為所述對應(yīng)的單音節(jié)語言單詞的讀音形式與所述每種音節(jié)劃分方式在最短編輯距離上的相似度的距離相似度；并且所述根據(jù)所述對應(yīng)的單音節(jié)語言單詞的讀音形式與每種音節(jié)劃分方式的相似度計(jì)算每種音節(jié)劃分方式的雙語得分包括:根據(jù)所述個(gè)數(shù)相似度和/或所述距離相似度，計(jì)算所述雙語得分。
8.如權(quán)利要求7所述的方法，其中計(jì)算每種音節(jié)劃分方式中的各個(gè)音節(jié)與所述對應(yīng)的單音節(jié)語言單詞的讀音形式中的各個(gè)音節(jié)之間的在最短編輯距離上的相似度的總和，作為所述距離相似度。
9.如權(quán)利要求1所述的方法，其中通過如下步驟來得到所述已知音節(jié)表: 獲得作為多音節(jié)語言單詞的多音節(jié)語言字母串、以及對應(yīng)單音節(jié)語言音譯文的讀音形式；根據(jù)所述讀音形式，按音節(jié)劃分所述多音節(jié)語言字母串，從而獲得所述已知音節(jié)；根據(jù)劃分結(jié)果，通過統(tǒng)計(jì)來計(jì)算所述已知音節(jié)的特征概率。
10.一種適合音譯的多音節(jié)語言單詞的音節(jié)劃分設(shè)備，包括: 音節(jié)劃分枚舉裝置，被配置為:對于給定的多音節(jié)語言單詞，根據(jù)多音節(jié)語言的已知音節(jié)表，枚舉所有可能的音節(jié)劃分方式，所述已知音節(jié)表中記錄有已知音節(jié)及其特征概率；總得分計(jì)算裝置，被配置為:根據(jù)所述已知音節(jié)的特征概率和與所述多音節(jié)語言單詞對應(yīng)的單音節(jié)語言單詞的讀音形式，計(jì)算每種音節(jié)劃分方式的總得分；以及結(jié)果確定裝置，被配置為:選擇總得分最高的音節(jié)劃分方式，作為所述多音節(jié)語言單詞的音節(jié)劃分結(jié)果。
【文檔編號】G06F17/28GK104239289SQ201310252998
【公開日】2014年12月24日申請日期:2013年6月24日優(yōu)先權(quán)日:2013年6月24日
【發(fā)明者】李賢華, 張姝, 孟遙, 于浩申請人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李賢華;張姝;孟遙;于浩
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音節(jié)劃分方法和音節(jié)劃分設(shè)備的制作方法