專利名稱:語言信息翻譯裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語言信息翻譯裝置,其將基于某些表達(dá)的語言信息轉(zhuǎn)換為基于不同表達(dá)的語言信息,諸如語音合成裝置、假名-漢字翻譯裝置、機器翻譯裝置等,具體地,涉及一種語言信息翻譯裝置,其使得當(dāng)多個用戶使用一個系統(tǒng)時,其它用戶可以使用在其中一個用戶的字典中注冊的內(nèi)容。
背景技術(shù):
機器翻譯是一種將基于某些語言的輸入句子自動翻譯為基于另一種語言的句子的技術(shù)。例如,在用于將日文翻譯為英文的日文到英文機器翻譯中,通過參照字典來實現(xiàn)從日文到英文的翻譯,在此字典中注冊了大量成對的信息片(information piece),每一對都包括日文單詞和對應(yīng)的英文單詞。同樣地,在用于通過參照字典將某些語言的表達(dá)翻譯成另一種語言的表達(dá)的語言信息翻譯技術(shù)中,已知了語音合成和假名-漢字翻譯。語音合成是一種從包含了漢字和假名字符的混合的輸入句子來人工地生成語音的技術(shù)。在語音合成處理中,假名-漢字混合字符串被轉(zhuǎn)換為發(fā)音符號陣列。在這種情況下,由假名-漢字混合字符串和發(fā)音符號陣列所表達(dá)的單詞對的信息被注冊在字典中。此外,假名-漢字翻譯是將假名字符串翻譯為假名-漢字混合字符串的技術(shù)。在這種情況下,注冊由所述有關(guān)的單詞的假名字符串和假名-漢字混合字符串所表達(dá)的單詞的對。
在語言信息翻譯技術(shù)中,預(yù)先準(zhǔn)備了在其中收集和注冊了常用詞匯的字典(此后稱為“基本字典”)。然而,當(dāng)輸入了未在所述基本字典中注冊的單詞,諸如技術(shù)術(shù)語、新詞等時,在翻譯中會出現(xiàn)錯誤。因此,為了注冊沒有出現(xiàn)在字典中的單詞,并且實現(xiàn)正確的翻譯結(jié)果,通常提供了允許用戶進(jìn)行注冊的用戶字典功能。
目前為止已知了這樣的技術(shù),其允許多個用戶共同擁有用戶字典的內(nèi)容,從而當(dāng)所述多個用戶使用了利用上述語言信息翻譯技術(shù)的語言信息翻譯裝置時,所述多個用戶能夠省去將相同的單詞注冊到他們的用戶字典的徒勞的工作。例如,日本申請公開11-66059公開了一種將內(nèi)容注冊到公用字典的方法,其中一個用戶將所述內(nèi)容注冊到用戶字典,從而使得其他用戶能夠參照該公用字典,由此所有用戶都可以共用該用戶字典的內(nèi)容。
根據(jù)上述技術(shù),無需任何檢查,就對在用戶字典中注冊的內(nèi)容進(jìn)行共用。因此,當(dāng)用戶字典中的注冊內(nèi)容不正確時,該不正確的內(nèi)容也被共用。與公司中幾個特定用戶使用語言信息裝置的情況相比較,在一般公眾通過網(wǎng)絡(luò)使用所述語言信息翻譯裝置的情況下,在非特定用戶中,用戶的技術(shù)和知識水平差別很大,從而存在將不正確的信息注冊在用戶字典中的高危險性。
發(fā)明內(nèi)容
考慮到前述問題,已經(jīng)實現(xiàn)了本發(fā)明,本發(fā)明的目的在于提供一種語言信息翻譯裝置和方法,其統(tǒng)計地分析許多用戶的用戶字典的內(nèi)容,并且提取可靠的注冊內(nèi)容,使用戶可以共用所述注冊內(nèi)容。
根據(jù)本發(fā)明的實施例,一種語言信息翻譯裝置,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該裝置包括用戶字典注冊單元,其被配置成將注冊詞匯信息存儲到每一個注冊用戶的用戶字典,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞(direction word)以及與所述有關(guān)的指示詞相對應(yīng)的所述第二語言表達(dá);基本字典注冊單元,其被配置成將基本詞匯信息存儲到基本字典,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述有關(guān)的指示詞相對應(yīng)的所述第二語言表達(dá);語言信息翻譯單元,其被配置成參照所述基本字典的所述基本詞匯信息和由所述有關(guān)的用戶字典的有關(guān)用戶注冊的注冊詞匯信息,并且將由所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);重要單詞提取單元,其被配置成參照所述多個用戶字典的注冊詞匯信息,并且基于與所述相同的指示詞相關(guān)聯(lián)的注冊詞匯信息片的注冊詞匯信息數(shù)以及與所述相同的指示詞相關(guān)聯(lián)且該注冊詞匯信息的所述對應(yīng)的第二語言表達(dá)還相互一致的注冊詞匯信息片的注冊詞匯信息數(shù)中的至少一個,來提取將被加入所述基本字典的指示詞;以及字典更新單元,其被配置成將所述提取的指示詞的注冊詞匯信息作為基本詞匯信息注冊到所述基本字典。
根據(jù)本發(fā)明的實施例,一種語言信息翻譯裝置,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該裝置包括用戶字典注冊單元,其被配置成將注冊詞匯信息存儲到每一個注冊用戶的用戶字典,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述有關(guān)的指示詞相對應(yīng)的所述第二語言表達(dá);基本字典注冊單元,其被配置成將基本詞匯信息存儲到基本字典,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述有關(guān)的指示詞相對應(yīng)的所述第二語言表達(dá);公用字典注冊單元,其被配置成將公用詞匯信息存儲到一個或多個公用字典,所述公用詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述有關(guān)的指示詞相對應(yīng)的所述第二語言表達(dá);語言信息翻譯單元,其被配置成參照所述基本字典的基本詞匯信息,由所述有關(guān)的用戶字典的有關(guān)用戶注冊的注冊詞匯信息,以及由所述用戶指示的所述公用字典的公用詞匯信息,將由所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);重要單詞提取單元,其被配置成參照所述多個用戶字典的注冊詞匯信息,并且基于與所述相同的指示詞相關(guān)聯(lián)的注冊詞匯信息片的注冊詞匯信息數(shù)以及與所述相同的指示詞相關(guān)聯(lián)且該注冊詞匯信息的所述對應(yīng)的第二語言表達(dá)還相互一致的注冊詞匯信息片的注冊詞匯信息數(shù)中的至少一個,來提取將被加入所述公用字典的指示詞;以及字典更新單元,其被配置成將所述提取的指示詞的所述注冊詞匯信息作為公用詞匯信息注冊到所述公用字典。
根據(jù)本發(fā)明的實施例,從許多用戶的用戶字典中提取出可靠的內(nèi)容并對其進(jìn)行共用,由此能夠使用由其他用戶注冊的內(nèi)容來進(jìn)行高精度的翻譯,而不會受到不正確注冊內(nèi)容的不利影響。
圖1是框圖,其示出了根據(jù)本發(fā)明第一實施例的語音合成裝置的構(gòu)造;圖2是流程圖,其示出了第一實施例的語音合成單元11的操作;圖3是流程圖,其示出了根據(jù)第一實施例的重要單詞提取單元16和基本字典更新單元15的操作;圖4示出了根據(jù)第一實施例的基本字典的基本詞匯信息的例子;圖5示出了根據(jù)第一實施例的用戶字典的注冊詞匯信息的例子;圖6示出了根據(jù)第一實施例的統(tǒng)計信息的例子;圖7是框圖,其示出了根據(jù)第二實施例的語音合成裝置的構(gòu)造;圖8是框圖,其示出了根據(jù)第三實施例的語音合成裝置的構(gòu)造;圖9是根據(jù)第三實施例的用戶字典的注冊詞匯信息的例子;圖10示出了根據(jù)第三實施例的統(tǒng)計信息的例子;圖11是流程圖,其示出了根據(jù)第三實施例的重要單詞提取單元46和字典更新單元45的操作;圖12是框圖,其示出了機器翻譯裝置的構(gòu)造;圖13是框圖,其示出了假名-漢字翻譯裝置的構(gòu)造。
具體實施例方式
以下將參照附圖描述本發(fā)明的實施例。
(第一實施例)以下將參照圖1到6描述根據(jù)本發(fā)明第一實施例的語音合成裝置10。
(1)語音合成裝置10的構(gòu)造語音合成裝置10配備有語音合成單元11、基本字典14、用戶字典13、用戶字典注冊單元12、重要單詞提取單元16以及基本字典更新單元15。由多個用戶使用語音合成裝置10進(jìn)行文本-語音翻譯,并且每個用戶被分配了用戶ID。
語音合成單元11被提供了輸入文本101和用戶ID 102,并且參照存儲在基本字典14中的基本詞匯信息108和存儲在用戶字典13中的注冊詞匯信息109之中的對應(yīng)于用戶ID 102的詞匯信息,來生成合成語音105。
連同已準(zhǔn)備的單詞,基本字典14存儲每一個有關(guān)單詞的指示詞,以及所述有關(guān)單詞的一組發(fā)音符號陣列、重音位置、單詞類別等,作為基本詞匯信息。
連同由用戶注冊的單詞,每個用戶字典13存儲每一個有關(guān)單詞的指示詞,以及一組發(fā)音符號陣列、重音位置、單詞類別等,作為每個用戶的注冊詞匯信息。然而,可以將注冊詞匯信息和用戶ID成對存儲,而不是對每個用戶分別進(jìn)行注冊詞匯信息的存儲。
用戶字典注冊單元12根據(jù)所述有關(guān)的用戶的用戶ID 103,將用戶為字典注冊輸入的注冊內(nèi)容104作為注冊詞匯信息注冊在用戶字典13。
重要單詞提取單元16參照用戶字典13來提取將被注冊到基本字典14的單詞,并輸出重要單詞110。
基本字典更新單元15將所提取的重要單詞110的基本詞匯信息注冊到基本字典14。
也可以通過利用作為基本硬件的通用計算機裝置來實現(xiàn)語音合成裝置10、將在后面進(jìn)行描述的第四實施例的機器翻譯裝置71以及假名-漢字翻譯裝置80。
即,可以通過使得安裝在計算機裝置中的處理器執(zhí)行程序來實現(xiàn)這些裝置。此時,可以通過將上述程序預(yù)先安裝到所述計算機裝置中來實現(xiàn)語音合成裝置10、機器翻譯裝置71以及假名-漢字翻譯裝置80,或者通過將所述程序存儲在諸如CD-ROM的存儲介質(zhì)中或通過網(wǎng)絡(luò)分發(fā)所述程序,并且適當(dāng)?shù)貙⑺龀绦虬惭b在計算機裝置中,來實現(xiàn)上述裝置。此外,可以通過適當(dāng)利用計算機裝置的內(nèi)置存儲器或外部存儲器、硬盤或者諸如CD-R、CD-RW、DVD-RAM、DVD-R等存儲介質(zhì)來實現(xiàn)上述裝置。
(2)語音合成單元11的操作接下來,參照圖1和2描述語音合成單元11的操作。
在圖2的語言分析步驟21中,當(dāng)文本101被輸入到語音合成單元11中時,參照基本字典14以及用戶字典13之中的對應(yīng)于用戶ID 102的注冊詞匯,輸出所述文本的讀法(發(fā)音)、音節(jié)的斷開位置(重音短語)、重音位置。
接下來,在韻律控制步驟22中,從上述信息中輸出韻律信息,諸如,表示語音音調(diào)的時間變化的基頻模式、表示各音素的長度的音素持續(xù)時間長度、停頓(休止)的位置和長度等。
最后,在波形生成步驟23中,根據(jù)發(fā)音信息將作為諸如音素、音節(jié)等的短區(qū)間語音信號的語音片互相連接,并且在同時根據(jù)韻律信息變化語音的音調(diào)和長度,從而輸出合成語音105。
(3)語言分析步驟21的操作在此,通過將輸入“watashino jushowa miyagiken tomeguntoyomamachidesu(我的地址是Toyoma-machi,Tome-gun,Miyagi-ken)”作為文本101的情況作為例子,來詳細(xì)描述上述的語言分析步驟21的操作。
如圖4所示,在基本字典14中注冊了每個單詞的指示詞、讀法、重音類型(重音音節(jié)的位置)以及單詞類別。假設(shè)基本字典14中沒有指示詞“toyomamachi”,并且在用戶字典中也沒有任何注冊。在這種情況下,輸出是“watashino/ju’showa/miyagi’ken/tome’gun/tome’chodesu”。在此,片假名字符(羅馬字符)的字符串表示讀法,斜線“/”表示音節(jié)的斷開位置,而單引號表示重音位置。
在這種情況下,讀法是“tomecho”,其不同于正確的讀法“toyomamachi”。
因此,當(dāng)在用戶字典13中注冊圖5所示的內(nèi)容以使得讀法和重音正確時,所述輸出變成為“watashino/ju’showa/miyagi’ken/tome’gun/toyoma’machi”,從而得到所需要的結(jié)果。
圖5所示的內(nèi)容的信息和所述用戶ID被注冊到用戶字典注冊單元12中,并且用戶字典注冊單元12將該輸入內(nèi)容注冊到對應(yīng)于所述有關(guān)的用戶ID的用戶字典中,從而將圖5中所示的內(nèi)容注冊到用戶字典13。可以通過利用類似“toyoma’machi”的讀法符號陣列和重音符號來執(zhí)行讀法和重音類型的輸入,并且然后可以將所述讀法符號陣列和所述重音符號轉(zhuǎn)換為用戶字典注冊單元12中的讀法和重音類型的信息,并進(jìn)行注冊。
(4)重要單詞提取單元16和基本字典更新單元15的操作接下來,將參照圖1和3描述根據(jù)本實施例的重要單詞提取單元16和基本字典更新單元15的操作。
首先,在重要單詞提取單元16中,執(zhí)行注冊詞匯統(tǒng)計信息提取步驟31和重要單詞提取步驟32,并且提取重要單詞110。
在注冊詞匯統(tǒng)計信息提取步驟31中,檢查所有用戶的用戶字典13,并且當(dāng)存在指示詞彼此相同的多個詞匯時,計算與該指示詞相關(guān)聯(lián)的統(tǒng)計信息。圖6示出了有關(guān)指示詞“toyomamachi”的統(tǒng)計信息的例子。從圖6可明顯看出,在用戶字典13中有1352個關(guān)于指示詞“toyomamachi”的條目,并且注冊了“toyomamachi”、“tomemachi”和“toyomacho”這三種讀法作為讀法信息。此外,為每種讀法列出了出現(xiàn)的重音類型和單詞類別,并且計算了其出現(xiàn)次數(shù)??墒褂没谥甘驹~、讀法、重音類型和單詞類別的出現(xiàn)次數(shù)或比例以及這些因素的組合的出現(xiàn)次數(shù)和比例的規(guī)則作為判斷標(biāo)準(zhǔn)。例如,可以使用如下規(guī)則或由這些規(guī)則的組合所描述的規(guī)則。
(1)指示詞的出現(xiàn)次數(shù)是1000或更多。
(2)指示詞和讀法的組合的最大出現(xiàn)次數(shù)是800或更多。
(3)指示詞、讀法和重音類型的組合的最大出現(xiàn)次數(shù)是700或更多。
(4)所述讀法的最大出現(xiàn)次數(shù)在所述指示詞的出現(xiàn)次數(shù)中所占的比例是80%或更多。
(5)所述最大出現(xiàn)次數(shù)的單詞類別是地名或人名。
例如,如果定義滿足條件(1)、(3)和(5)是作為重要單詞的條件,圖6的“toyomamachi”滿足該全部條件,因而將其作為重要單詞進(jìn)行提取。作為替代,可以通過檢查是否已經(jīng)在基本字典14中注冊了指示詞來描述對于重要單詞的判斷規(guī)則。此外,系統(tǒng)管理員可以檢查統(tǒng)計信息,以作出關(guān)于是否將單詞判斷為重要單詞的最終判斷。
接下來,在基本字典更新單元15中,執(zhí)行基本詞匯信息生成步驟33和基本字典注冊步驟34,并且將重要單詞110注冊在基本字典14中。在基本詞匯信息生成步驟33中,通過參照統(tǒng)計信息來生成有關(guān)指示詞、讀法、重音類型以及單詞類別的信息。
例如,在圖6的“toyomamachi”的情況中,如果從指示詞、讀法、重音類型以及單詞類別的組合中選出具有最大出現(xiàn)次數(shù)的組合,則基本詞匯信息是“指示詞toyomamachi,讀法toyomamachi,重音類型3,單詞類別地名”。
在此,讀法和重音類型相互存在依賴關(guān)系,然而,單詞類別與其它信息沒有依賴關(guān)系。因此,可基于指示詞、讀法和重音類型的組合的出現(xiàn)次數(shù)來確定讀法和重音類型,而基于指示詞和單詞類別的組合的出現(xiàn)次數(shù)來確定單詞類別。
此外,可以允許系統(tǒng)管理者檢查和修改所生成的內(nèi)容。
即使當(dāng)加入正確內(nèi)容的基本詞匯信息時,仍然存在由于副作用而增加翻譯錯誤的可能性。因此,預(yù)先調(diào)查加入基本詞匯信息將導(dǎo)致的影響,并且當(dāng)負(fù)面影響很大時,停止該注冊。例如,預(yù)先從大量文本生成讀法和重音位置的翻譯結(jié)果。此外,加入基本詞匯信息,并且得到相同文本的翻譯結(jié)果。然后,提取在加入所述基本詞匯信息之前和之后的翻譯結(jié)果的差,并且基于所提取的差來檢查是否存在任何負(fù)面影響。
隨后,在基本字典注冊步驟34中,將所生成的基本詞匯信息107注冊在基本字典14中。此時,將與已注冊的基本詞匯信息107具有相同內(nèi)容的注冊詞匯信息從用戶字典中刪除。
如上所述,可以在諸如每天或每周的固定時間間隔內(nèi),或者在每次將用戶字典的注冊單詞的數(shù)目增加諸如100個單詞、1000個單詞等的固定數(shù)目時,由重要單詞提取單元16和基本字典更新單元15執(zhí)行基本字典14的更新。此外,遇必要時也可由系統(tǒng)管理者執(zhí)行所述更新。
(5)效果如上所述,根據(jù)本實施例的語音合成裝置10,通過參照在用戶字典中注冊的單詞的統(tǒng)計信息來提取所述重要單詞。因此,能夠防止將不常用的特殊術(shù)語和常被錯誤注冊的或其讀法還未確定的不可信術(shù)語注冊在基本字典中,并且因而僅能夠?qū)⒂杏玫暮涂尚诺膯卧~注冊在基本字典中。于是,所有用戶能夠有效地使用用戶字典的注冊內(nèi)容。
(6)變型在上述重要單詞提取單元16操作下的重要單詞提取步驟32中,可以搜索已經(jīng)注冊了作為重要單詞提取的指示詞的用戶,從而對每個用戶計數(shù)重要單詞的注冊情況的數(shù)目。
此外,在基本字典更新單元15的操作下在基本詞匯信息生成步驟33中生成的基本詞匯信息,以及在其之間不僅指示詞,而且讀法、重音類型以及單詞類別都一致的注冊詞匯被進(jìn)行計數(shù)。所計數(shù)的注冊情況的數(shù)目表示對基本字典的更新的貢獻(xiàn),并且因而可以將其看作每個用戶的貢獻(xiàn)度。因此,如果根據(jù)用戶的貢獻(xiàn)度,給予每個用戶激勵,例如,商品、獎金或者可以交換商品和獎金的點數(shù),則可以進(jìn)一步改進(jìn)所述用戶字典注冊,從而使基本字典的詞匯更加豐富。
此外,在重要單詞提取單元16操作下的注冊詞匯統(tǒng)計信息提取步驟31中,當(dāng)計算所述統(tǒng)計信息時,可以用上述貢獻(xiàn)度進(jìn)行加權(quán)來計算其出現(xiàn)次數(shù)。通過這種加權(quán)操作,可以將更多注意力置于具有更高貢獻(xiàn)度的可信用戶的注冊內(nèi)容之上,從而提高重要單詞提取的精度。
(第二實施例)接下來,將參照圖7描述根據(jù)本發(fā)明第二實施例的語音合成裝置52和字典更新裝置50。
(1)語音合成裝置52和字典更新裝置50的構(gòu)造圖7是框圖,其示出了語音合成裝置52和字典更新裝置50的構(gòu)造。
在此實施例中,各用戶的語音合成裝置52被通過網(wǎng)絡(luò)51連接到一個字典更新裝置50。
(2)語音合成裝置52和字典更新裝置50的操作下面描述本實施例的操作,將集中于與第一實施例的不同之處。在本實施例中,由特定用戶使用一個語音合成裝置52,并且因而在用戶字典注冊和語音合成時不需要用戶ID。
僅將有關(guān)的用戶的注冊單詞注冊到用戶字典13中。在語音合成單元55中,基本字典14和用戶字典13的所有注冊單詞都被參照,并且從文本101生成合成語音105。
接下來,將描述字典更新裝置50的操作。
重要單詞提取單元16通過網(wǎng)絡(luò)51參照各用戶的用戶字典13的注冊詞匯信息106,并且根據(jù)與第一實施例相同的處理過程來提取重要單詞110。
基本字典更新單元15還根據(jù)與第一實施例相同的處理過程來生成基本詞匯信息107,以及更新基本字典54。在字典更新裝置50中,可以通過網(wǎng)絡(luò)51參照用戶ID 103,以計算和使用所述用戶貢獻(xiàn)度。
在此,語音合成裝置52通過網(wǎng)絡(luò)51訪問字典更新裝置50的基本字典54,并且更新基本字典14。周期性地更新基本字典14,例如,每天或者每周,或者當(dāng)基本字典54被更新時對其進(jìn)行更新?;蛘?,用戶可以在任何時候更新基本字典14。
(3)效果根據(jù)本實施例,得到的效果是,由于用戶通過占用他/她旁邊的語音合成裝置來進(jìn)行語音合成,可以縮短從文本輸入到語音輸出所需要的等待時間。此外,由許多用戶共用的服務(wù)器僅進(jìn)行字典更新,因而減輕了處理負(fù)荷。
(4)變型在上述實施例中,重要單詞提取單元16通過網(wǎng)絡(luò)51參照每個用戶的用戶字典13的注冊詞匯信息106。然而,各用戶可以通過該網(wǎng)絡(luò)上載用戶字典13的注冊詞匯信息,并將用戶字典13的拷貝存儲在字典更新裝置50中。這種構(gòu)造帶來的效果在于,當(dāng)進(jìn)行字典更新時不需要通過網(wǎng)絡(luò)的訪問,從而減小了網(wǎng)絡(luò)的負(fù)荷,并且還縮短了字典更新的時間。
(第三實施例)接下來,將參照圖8到11描述根據(jù)第三實施例的語音合成裝置40。
(1)語音合成裝置的構(gòu)造圖8是框圖,其示出了語音合成裝置40。
本實施例與第一實施例的不同之處在于,設(shè)置了基于領(lǐng)域的(分部門的)字典47,并且在基本字典或基于領(lǐng)域的字典中注冊了從用戶字典提取的重要單詞。
(2)語音合成裝置40的操作下面描述本實施例的操作,并將集中于與第一實施例的不同之處。
對于在各個領(lǐng)域中頻繁使用的各個單詞,基于領(lǐng)域的字典47存儲所述有關(guān)的單詞的一組指示詞、發(fā)音符號陣列、重音位置、單詞類別等作為基于領(lǐng)域的詞匯信息。
諸如政治、經(jīng)濟、體育、娛樂、計算機、海外等新聞種類都可以作為領(lǐng)域。此外,“wakamono kotoba(新詞(young word))”等,其詞匯和重音不同于目前為止已知的日文單詞,也可以被用作為領(lǐng)域。
語音合成單元41的基本操作與圖2所示的第一實施例的語音合成單元11相同。然而,根據(jù)本實施例,除了用戶ID 102和文本101之外,還輸入了領(lǐng)域信息412。在語言分析步驟21中,除了基本字典14和用戶字典13之中的對應(yīng)于用戶ID 102的注冊詞匯外,還參照由領(lǐng)域信息412指示的基于領(lǐng)域的字典47,并且輸出讀法(發(fā)音)、音節(jié)的斷開位置(重音短語)以及文本101的重音位置。
對于由用戶注冊的單詞,用戶字典43存儲每個用戶有關(guān)的單詞的一組指示詞、發(fā)音符號陣列、重音位置、單詞類別、領(lǐng)域信息等,作為注冊詞匯信息。
由用戶字典注冊單元42根據(jù)所述有關(guān)的用戶的用戶ID 103將用戶為字典注冊所輸入的注冊內(nèi)容104和領(lǐng)域信息413作為注冊詞匯信息注冊在用戶字典43中。圖9示出了用戶字典43的例子。在此例子中,單詞“kareshi(男朋友)”是指示詞,其也存在于基本字典14中,然而,由于其重音類型不同于通常用法,因此將其注冊在用戶字典中。
(3)重要單詞提取單元46和字典更新單元45的操作接下來,將參照圖8到11描述本實施例的重要單詞提取單元46和字典更新單元45的操作。
首先,在重要單詞提取單元46中,執(zhí)行注冊詞匯統(tǒng)計信息提取步驟61和重要單詞提取步驟62,來提取重要單詞410。
在注冊詞匯統(tǒng)計信息提取步驟61中,檢查所有用戶的用戶字典43,并且當(dāng)存在具有相同指示詞的多個注冊詞匯時,計算關(guān)于所述有關(guān)的指示詞的統(tǒng)計信息。圖10示出了指示詞“kimoi(令人厭惡的)”的統(tǒng)計信息的例子。除了第一實施例的統(tǒng)計信息之外,也執(zhí)行對領(lǐng)域信息的統(tǒng)計計算。
隨后,在重要單詞提取步驟32中,參照所述統(tǒng)計信息,并且然后判斷是否應(yīng)該將所提取的指示詞“kimoi”設(shè)置為重要單詞。判斷標(biāo)準(zhǔn)與第一實施例相同,然而,例如,可以使用與領(lǐng)域相關(guān)的如下規(guī)則。
1)指示詞、讀法、重音類型和領(lǐng)域的組合的最大出現(xiàn)次數(shù)超過500。
2)所述領(lǐng)域的最大出現(xiàn)次數(shù)在所述指示詞的出現(xiàn)次數(shù)中所占的比例超過50%。
此外,可以通過檢查是否已經(jīng)將所述指示詞注冊在基本字典14或基于領(lǐng)域的字典47中來描述重要單詞的判斷規(guī)則。
另外,系統(tǒng)管理員可以檢查統(tǒng)計信息,以對是否將所述單詞設(shè)置為重要單詞進(jìn)行最終判斷。
隨后,在字典更新單元45中,執(zhí)行詞匯信息生成步驟63、注冊字典確定步驟64和字典注冊步驟65,并且將重要單詞410注冊在基本字典14或基于領(lǐng)域的字典47中。
在詞匯信息生成步驟63中,檢查統(tǒng)計信息,以生成有關(guān)指示詞、讀法、重音類型以及單詞類別的信息,作為詞匯信息407。例如,在圖10的“kimoi”的情況下,如果從指示詞、讀法、重音類型以及單詞類別的組合中選出具有最大出現(xiàn)次數(shù)的組合,基本詞匯信息是“指示詞kimoi,讀法kimoi,重音類型2,單詞類別形容詞”。
在此,讀法和重音類型具有依賴關(guān)系,然而,單詞類別與其它信息之間沒有依賴關(guān)系。因此,可以由指示詞、讀法以及重音類型的組合的出現(xiàn)次數(shù)來確定讀法和重音類型,并且可由指示詞和單詞類別的組合的出現(xiàn)次數(shù)來確定單詞類別。
此外,可以檢查和校正由系統(tǒng)管理員生成的內(nèi)容。
在注冊字典確定步驟64中,檢查統(tǒng)計信息,以確定在其中注冊了生成的詞匯信息的字典。例如,如果在統(tǒng)計信息中大多數(shù)對應(yīng)于所述生成的詞匯信息的領(lǐng)域信息互相一致,則可以注冊基于領(lǐng)域的字典47的所述對應(yīng)領(lǐng)域。
此外,當(dāng)對應(yīng)于所述生成的詞匯信息的領(lǐng)域信息分散,并且因而其沒有被固定到任何固定領(lǐng)域時,或者,當(dāng)領(lǐng)域信息集中于“一般”時,可以在基于領(lǐng)域的字典47的“一般”領(lǐng)域中,或者,在基本字典14中注冊所述生成的詞匯信息。從基于領(lǐng)域的字典47和基本字典14中選擇一個的處理類似于,當(dāng)指示詞的出現(xiàn)次數(shù)大于固定數(shù)目時,選擇基本字典,而在其它情況下,選擇基于領(lǐng)域的字典,或者,檢查單詞類別,當(dāng)其與名詞相關(guān)時,選擇基本字典,而在其它情況下選擇基于領(lǐng)域的字典。此外,系統(tǒng)管理員可以檢查和校正在其中應(yīng)該注冊了所生成的詞匯信息的字典。
在字典注冊步驟65中,在已確定(已選中)的注冊字典中注冊所生成的字典信息407。當(dāng)其被注冊在基本字典中時,可以從用戶字典中刪除具有與注冊詞匯信息407相同的內(nèi)容的注冊詞匯信息。
可以在諸如每天或每周等的固定時間間隔,或者在每次用戶字典的注冊單詞數(shù)目被增加諸如100個單詞、1000個單詞等的固定數(shù)目時,由上述的重要單詞提取單元46和字典更新單元45執(zhí)行字典的更新。在遇必要時的其它情況下,也可由系統(tǒng)管理者執(zhí)行所述更新。
(4)效果如上所述,根據(jù)本實施例的語音合成裝置40,在基于領(lǐng)域的字典中注冊從用戶字典提取的單詞,并且用戶能夠選擇將要使用的領(lǐng)域。于是,通過利用與用于語音合成的文本的內(nèi)容相匹配的字典,能夠生成具有適當(dāng)?shù)淖x法和重音的合成語音。
(5)變型在本實施例中,基于由用戶輸入的領(lǐng)域信息對從用戶字典提取的重要單詞進(jìn)行分類,并將其注冊在多個基于領(lǐng)域的字典中。然而,對所提取的重要單詞進(jìn)行分類的方法不限于以上實施例,可以通過在用戶中共同使用的各種方法來對它們進(jìn)行分類。例如,基于所提取的指示詞的出現(xiàn)次數(shù),當(dāng)所述有關(guān)的指示詞的出現(xiàn)次數(shù)超過10000時,將其分類和注冊到“高可靠性字典”,當(dāng)所述有關(guān)的指示詞的出現(xiàn)次數(shù)超過3000時,將其分類和注冊到“中可靠性字典”,以及當(dāng)所述有關(guān)的指示詞的出現(xiàn)次數(shù)超過1000時,將其分類和注冊到“低可靠性字典”,并且用戶可以選擇他們是否使用這些字典。通過以上分類方法,可以根據(jù)將被使用的詞匯的范圍來選出合適的字典,例如,當(dāng)頻繁使用特殊詞匯時,盡管可靠性較低,但所有字典都被用來增加詞匯的次數(shù),或者,當(dāng)僅使用一般詞匯時,則僅使用高可靠性字典。
(第四實施例)已經(jīng)描述了語音合成裝置的三種實施例,然而,本發(fā)明不限于所述語音合成裝置。例如,所述同樣的三個實施例可以被應(yīng)用于機器翻譯裝置和假名-漢字翻譯裝置。
(1)機器翻譯裝置70下面將參照圖12描述機器翻譯裝置70。
在圖12所示的機器翻譯裝置70中,語音合成裝置的語音合成單元11作為機器翻譯器71,并且其將輸入的日文文本701翻譯為英文,并輸出英文文本705。
基本字典14和用戶字典13的注冊內(nèi)容是日文指示詞及其英文翻譯。
其它部分的操作與所述語音合成裝置相同,通過檢查在用戶字典中注冊的單詞的統(tǒng)計信息,來提取重要單詞,由此能夠防止將不常用的特殊術(shù)語以及不可信的術(shù)語注冊在基本字典中,其中,所述不可信術(shù)語的不可信是由于其被頻繁地錯誤注冊或者還沒有確立其正確翻譯。因此,僅將有用的和可信的單詞注冊在基本字典中。
如上所述,與第一實施例的情況一樣,可以將第二和第三實施例實施為機器翻譯裝置,并且能夠?qū)崿F(xiàn)與語音合成裝置相同的效果。
(2)假名-漢字翻譯裝置80下面將參照圖13描述假名-漢字翻譯裝置80。
在根據(jù)圖13所示的本發(fā)明第一實施例的假名-漢字翻譯裝置80中,語音合成裝置的語音合成單元11作為假名-漢字翻譯器81。對輸入的假名字符串801進(jìn)行假名-漢字翻譯,并輸出假名-漢字混合字符串805。
此外,基本字典14和用戶字典13的注冊內(nèi)容是假名字符串的指示詞以及對應(yīng)于該指示詞的假名-漢字混合字符串。
其它部分的操作與語音合成裝置或機器翻譯裝置相同。檢查在用戶字典中注冊的單詞的統(tǒng)計信息以提取重要單詞,由此能夠防止將不常用的術(shù)語以及不可信的術(shù)語注冊在基本字典中,其中,所述不可信術(shù)語的不可信是由于其被頻繁地錯誤注冊或者還沒有為其確立正確的漢字表達(dá),以及,能夠僅將有用的和可信的術(shù)語注冊在基本字典中。
本實施例不限于日文的假名-漢字翻譯,還可將其應(yīng)用于將能夠通過鍵盤輸入的表達(dá)翻譯成基于諸如漢字等語言的適當(dāng)表達(dá),例如,中文的拼音-漢字翻譯。
與第一實施例的情況一樣,可以將第二和第三實施例實施為假名-漢字翻譯裝置,并且能夠?qū)崿F(xiàn)與語音合成裝置的相同效果。
(變型)本發(fā)明不限于以上實施例,無需脫離本發(fā)明的主旨,可以在實施階段修改其組成元件。
此外,通過適當(dāng)組合上述實施例中公開的多個組成元件,可以得到本發(fā)明的各種實施例。例如,可以從所述實施例中公開的全部組成元件中省略一些組成元件。
此外,可以適當(dāng)組合不同實施例中的組成元件。
權(quán)利要求
1.一種語言信息翻譯裝置,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該裝置包括用戶字典,其被配置成存儲注冊詞匯信息,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與各注冊用戶的所述指示詞相對應(yīng)的所述第二語言表達(dá);基本字典,其被配置成存儲基本詞匯信息,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述指示詞相對應(yīng)的所述第二語言表達(dá);語言信息翻譯單元,其被配置成參照所述基本字典的所述基本詞匯信息和所述用戶字典的由所述用戶注冊的注冊詞匯信息,將由所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);重要單詞提取單元,其被配置成參照所述多個用戶字典的所述注冊詞匯信息,并且基于與相同的指示詞相關(guān)聯(lián)的注冊詞匯信息片的數(shù)目以及與所述相同的指示詞相關(guān)聯(lián)且其所述對應(yīng)的第二語言表達(dá)還相互相一致的注冊詞匯信息片的數(shù)目中的至少一個,來提取將被加入所述基本字典的所述指示詞;以及字典更新單元,其被配置成將所述提取的指示詞的所述注冊詞匯信息作為基本詞匯信息注冊到所述基本字典中。
2.根據(jù)權(quán)利要求1的裝置,其中,當(dāng)具有所述相同的指示詞的注冊詞匯信息片的數(shù)目或者具有所述相同的指示詞且對應(yīng)于所述有關(guān)的注冊詞匯信息片的所述第二語言表達(dá)相互一致的所述注冊詞匯信息片的數(shù)目等于或超過閾值時,所述重要單詞提取單元提取所述指示詞。
3.根據(jù)權(quán)利要求1的裝置,其中,所述重要單詞提取單元、所述基本字典注冊單元以及所述字典更新單元被通過網(wǎng)絡(luò)連接到所述用戶字典注冊單元和所述語言信息翻譯單元。
4.根據(jù)權(quán)利要求1的裝置,其中,為每個領(lǐng)域設(shè)置公用字典注冊單元。
5.根據(jù)權(quán)利要求1的裝置,其中,所述重要單詞提取單元進(jìn)一步計算用戶貢獻(xiàn)度,所述用戶貢獻(xiàn)度對應(yīng)于每個用戶的由用戶注冊的注冊詞匯信息片之中的作為重要單詞提取的注冊詞匯信息片的數(shù)目。
6.根據(jù)權(quán)利要求5的裝置,其中,所述重要單詞提取單元進(jìn)一步基于所述用戶貢獻(xiàn)度提取將被加入的指示詞。
7.根據(jù)權(quán)利要求1的裝置,其中,所述第二語言表達(dá)包含至少對應(yīng)于所述對應(yīng)的第一語言表達(dá)的發(fā)音符號串。
8.根據(jù)權(quán)利要求1的裝置,其中,基于所述第一語言表達(dá)的語言不同于基于所述第二語言表達(dá)的語言。
9.根據(jù)權(quán)利要求1的裝置,其中,所述第一語言表達(dá)是發(fā)音符號串或假名字符串,且所述第二語言表達(dá)是漢字串、漢字-假名混合字符串以及單詞串中的任何一種。
10.根據(jù)權(quán)利要求1的裝置,進(jìn)一步包括用戶字典注冊單元,其被配置成將所述注冊詞匯信息注冊到對應(yīng)于用戶ID的所述用戶字典中。
11.一種語言信息翻譯裝置,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該裝置包括用戶字典,其被配置成存儲注冊詞匯信息,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與各注冊用戶的所述指示詞相對應(yīng)的所述第二語言表達(dá);基本字典注冊單元,其被配置成存儲基本詞匯信息,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述指示詞相對應(yīng)的所述第二語言表達(dá);公用字典,其被配置成存儲公用詞匯信息,所述公用詞匯信息包含至少所述第一語言表達(dá)的指示詞以及與所述指示詞相對應(yīng)的所述第二語言表達(dá);語言信息翻譯單元,其被配置成參照所述基本字典的基本詞匯信息,由所述有關(guān)的用戶字典的所述用戶注冊的注冊詞匯信息,以及由所述用戶指示的所述公用字典的公用詞匯信息,并且將由所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);重要單詞提取單元,其被配置成參照所述多個用戶字典的所述注冊詞匯信息,并且基于與相同的指示詞相關(guān)聯(lián)的注冊詞匯信息片的數(shù)目以及與所述相同的指示詞相關(guān)聯(lián)且其所述對應(yīng)的第二語言表達(dá)還相互一致的注冊詞匯信息片的數(shù)目中的至少一個,來提取將被加入所述基本字典的所述指示詞;以及字典更新單元,其被配置成將所述提取的指示詞的所述注冊詞匯信息作為公用詞匯信息注冊到所述公用字典中。
12.根據(jù)權(quán)利要求11的裝置,其中,當(dāng)具有所述相同的指示詞的注冊詞匯信息片的數(shù)目或者具有所述相同的指示詞且對應(yīng)于所述有關(guān)的注冊詞匯信息片的所述第二語言表達(dá)相互一致的注冊詞匯信息片的數(shù)目等于或超過閾值時,所述重要單詞提取單元提取所述指示詞。
13.根據(jù)權(quán)利要求11的裝置,其中,所述重要單詞提取單元、所述基本字典注冊單元以及所述字典更新單元被通過網(wǎng)絡(luò)連接到所述用戶字典注冊單元和所述語言信息翻譯單元。
14.根據(jù)權(quán)利要求11的裝置,其中,為每個領(lǐng)域設(shè)置公用字典注冊單元。
15.根據(jù)權(quán)利要求11的裝置,其中,所述重要單詞提取單元進(jìn)一步計算用戶貢獻(xiàn)度,所述用戶貢獻(xiàn)度對應(yīng)于每個用戶的由用戶注冊的注冊詞匯信息片之中的作為重要單詞提取的注冊詞匯信息片的數(shù)目。
16.根據(jù)權(quán)利要求15的裝置,其中,所述重要單詞提取單元進(jìn)一步基于所述用戶貢獻(xiàn)度提取將被加入的指示詞。
17.根據(jù)權(quán)利要求11的裝置,其中,所述第二語言表達(dá)包含至少對應(yīng)于所述對應(yīng)的第一語言表達(dá)的發(fā)音符號串。
18.根據(jù)權(quán)利要求11的裝置,其中,基于所述第一語言表達(dá)的語言不同于基于所述第二語言表達(dá)的語言。
19.根據(jù)權(quán)利要求11的裝置,其中,所述第一語言表達(dá)是發(fā)音符號串或假名字符串,且所述第二語言表達(dá)是漢字串、漢字-假名混合字符串以及單詞串中的任何一種。
20.根據(jù)權(quán)利要求11的裝置,進(jìn)一步包括用戶字典注冊單元,其被配置成將所述注冊詞匯信息注冊到對應(yīng)于用戶ID的所述用戶字典中。
21.一種語言信息翻譯方法,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該方法包括以下步驟將注冊詞匯信息存儲到各注冊用戶的用戶字典中,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞以及對應(yīng)的所述第二語言表達(dá);將基本詞匯信息存儲到基本字典中,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及對應(yīng)的所述第二語言表達(dá);通過參照所述基本字典的基本詞匯信息和所述有關(guān)的用戶字典的由所述用戶注冊的注冊詞匯信息,將利用所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);參照所述多個用戶字典的注冊詞匯信息,并且基于具有相同的指示詞的注冊詞匯信息片的數(shù)目以及具有所述相同的指示詞且對應(yīng)于所述有關(guān)的注冊詞匯信息片的所述第二語言表達(dá)相互一致的注冊詞匯信息片的數(shù)目中的至少一個,來提取將被加入所述基本字典的所述指示詞;以及將所述提取的指示詞的所述注冊詞匯信息作為基本詞匯信息注冊到所述基本字典中。
22.一種語言信息翻譯方法,其可由多個用戶使用并且將第一語言表達(dá)翻譯為第二語言表達(dá),該方法包括以下步驟將注冊詞匯信息存儲到各注冊用戶的用戶字典中,其中所述注冊詞匯信息包含至少所述第一語言表達(dá)的指示詞以及對應(yīng)的所述第二語言表達(dá);將基本詞匯信息存儲到基本字典中,其中所述基本詞匯信息包含至少所述第一語言表達(dá)的指示詞以及對應(yīng)的所述第二語言表達(dá);將公用詞匯信息存儲到一個或多個公用字典中,所述公用詞匯信息包含至少所述第一語言表達(dá)的指示詞以及對應(yīng)的所述第二語言表達(dá);通過參照所述基本字典的基本詞匯信息、由所述有關(guān)的用戶字典的所述用戶注冊的注冊詞匯信息以及由所述用戶指示的所述公用字典的所述公用詞匯信息,將利用所述第一語言表達(dá)所表達(dá)的輸入信息翻譯為所述第二語言表達(dá);參照所述多個用戶字典的注冊詞匯信息,并且基于具有相同的指示詞的注冊詞匯信息片的數(shù)目以及具有所述相同的指示詞且對應(yīng)于所述有關(guān)的注冊詞匯信息片的所述第二語言表達(dá)相互一致的注冊詞匯信息片的數(shù)目中的至少一個,來提取將被加入所述公用字典的所述指示詞;以及將所述提取的指示詞的所述注冊詞匯信息作為公用詞匯信息注冊到所述公用字典中。
全文摘要
在語言信息翻譯裝置和方法中,參照被注冊到用戶字典注冊單元的多個用戶的注冊詞匯信息片,并且當(dāng)存在具有相同的指示詞的多個詞匯信息片時,基于所述有關(guān)的指示詞的注冊詞匯信息片的數(shù)目以及所述有關(guān)的指示詞的且對應(yīng)于所述有關(guān)的注冊詞匯信息片的所述第二語言表達(dá)相互一致的注冊詞匯信息片的數(shù)目中的一個,提取將被加入基本字典的指示詞,以及將所述提取的指示詞的基本詞匯信息注冊到基本字典中。
文檔編號G06F17/28GK101013422SQ20071000699
公開日2007年8月8日 申請日期2007年2月1日 優(yōu)先權(quán)日2006年2月1日
發(fā)明者籠島岳彥, 平林剛, 清水勇詞, 徐大威 申請人:株式會社東芝