雙語語料庫的數(shù)據(jù)擴充方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種雙語語料庫的數(shù)據(jù)擴充方法和裝置。所述雙語語料庫的數(shù)據(jù)擴充方法包括:在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語言短語;在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語;在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語;將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合;將組合形成的源語言短語與目標語言短語之間的短語對存儲至源語言-目標語言語料庫。本發(fā)明對雙語語料庫中的數(shù)據(jù)進行擴充,解決了雙語語料庫中的數(shù)據(jù)稀疏問題。
【專利說明】雙語語料庫的數(shù)據(jù)擴充方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機器翻譯【技術(shù)領(lǐng)域】,尤其涉及一種雙語語料庫的數(shù)據(jù)擴充方法和裝置。
【背景技術(shù)】
[0002]機器翻譯系統(tǒng)可以分為基于規(guī)則的機器翻譯系統(tǒng)、基于實例的機器翻譯系統(tǒng)以及基于統(tǒng)計的機器翻譯系統(tǒng)。基于統(tǒng)計的機器翻譯系統(tǒng)是20世紀90年代興起的一種機器翻譯系統(tǒng),也是當前最為主要的機器翻譯系統(tǒng)。它不需要人工編寫規(guī)則,并且對所有語言都適用,因此應用比較廣泛。
[0003]基于統(tǒng)計的機器翻譯系統(tǒng)的翻譯質(zhì)量很大程度上取決于語料庫的質(zhì)量。即語料庫中的數(shù)據(jù)數(shù)量越多,質(zhì)量越高,則基于統(tǒng)計的機器翻譯系統(tǒng)的翻譯質(zhì)量就越高。而語料庫建立之初,大多數(shù)語料庫都面臨語料庫中數(shù)據(jù)稀疏的問題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提出一種雙語語料庫的數(shù)據(jù)擴充方法和裝置,以解決雙語語料庫的數(shù)據(jù)稀疏問題。
[0005]第一方面,本發(fā)明實施例提供了一種雙語語料庫的數(shù)據(jù)擴充方法,所述方法包括:
[0006]在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語目短語;
[0007]在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語言短語集合;
[0008]在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語,并由各所述第一目標語言短語組成目標語言短語集合;
[0009]將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合,形成至少一個源語言短語與目標語言短語之間的短語對;
[0010]將形成的至少一個源語言短語與目標語言短語之間的短語對存儲至源語言-目標語目語料庫。
[0011]第二方面,本發(fā)明實施例提供了一種雙語語料庫的數(shù)據(jù)擴充裝置,所述裝置包括:
[0012]樞軸語言短語查找模塊,用于在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語言短語;
[0013]源語言短語集合建立模塊,用于在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語H短語集合;
[0014]目標語言短語集合建立模塊,用于在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語,并由各所述第一目標語言短語組成目標語言短語集合;
[0015]短語對組合模塊,用于將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合,形成至少一個源語言短語與目標語言短語之間的短語對;
[0016]短語對存儲模塊,用于將形成的至少一個源語言短語與目標語言短語之間的短語對存儲至源語言-目標語言語料庫。
[0017]本發(fā)明實施例提供的雙語語料庫的數(shù)據(jù)擴充方法和裝置,通過對源語言-樞軸語言語料庫以及樞軸語言-目標語言語料庫進行雙向挖掘,對雙語語料庫中的數(shù)據(jù)進行擴充,解決了雙語語料庫中的數(shù)據(jù)稀疏問題。
【專利附圖】
【附圖說明】
[0018]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0019]圖1是本發(fā)明第一實施例提供的雙語語料庫的數(shù)據(jù)擴充方法的流程示意圖;
[0020]圖2是本發(fā)明第一實施例提供的雙語語料庫的數(shù)據(jù)擴充方法中源語言短語集合建立的流程示意圖;
[0021]圖3是本發(fā)明第一實施例提供的雙語語料庫的數(shù)據(jù)擴充方法中目標語言短語集合建立的流程示意圖;
[0022]圖4是本發(fā)明第二實施例提供的雙語語料庫的數(shù)據(jù)擴充裝置的結(jié)構(gòu)示意圖?!揪唧w實施方式】
[0023]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0024]圖1示出了本發(fā)明的第一實施例。
[0025]圖1是本發(fā)明第一實施例提供的雙語語料庫的數(shù)據(jù)擴充方法的流程示意圖。該方法適用于以源語言-樞軸語言語料庫和樞軸語言-目標語言語料庫為基礎,對源語言-目標語言語料庫這一雙語語料庫進行擴展的情況,具體可以由雙語語料庫的數(shù)據(jù)擴充裝置來實現(xiàn),該裝置可以配置于任意具有數(shù)據(jù)處理能力的設備中,與各語料庫能進行數(shù)據(jù)交互處理即可。參見圖1,所述雙語語料庫的數(shù)據(jù)擴充方法包括:
[0026]步驟S110,在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語言短語。
[0027]樞軸語言也稱作中介語言,是在多種語言之間進行翻譯時用作中間語言的人工語言或者自然語言。
[0028]所述源語言-樞軸語言語料庫是存儲了由源語言短語及與其語義匹配的樞軸語言短語的短語對的數(shù)據(jù)庫。在本實施例中,源語言-樞軸語言語料庫用于提供與源語言短語語義匹配的樞軸語言短語,并且對樞軸語言與源語言之間的語義匹配關(guān)系進行深層次挖掘。[0029]所述第一源語言短語是屬于源語言的短語,它是進行源語言-目標語言語料庫擴充的數(shù)據(jù)源。也就是說,本實施例提供的雙語語料庫的數(shù)據(jù)擴充方法利用源語言短語對源語目-目標語目語料庫進行擴充。
[0030]所述第一樞軸語言短語是屬于樞軸語言的短語。它的語義與源語言短語匹配,用于對源語言-樞軸語言語料庫及樞軸語言-目標語言語料庫進行挖掘。語義匹配的具體實現(xiàn)方式可以根據(jù)需要進行設定,例如可將語義相同的短語確定為匹配短語,或者將相似度達到設定閾值的短語作為匹配短語。
[0031 ] 示例的,給出對漢語-西班牙語雙語語料庫進行擴充的例子。在對漢語-西班牙語進行擴充時,以英語作為樞軸語言。其中,源語言短語是漢語短語“非常好吃”。使用源語言短語“非常好吃”在漢語-英語語料庫中查找得到了英語短語“very tasty”以及“reallydelicious,,。 [0032]步驟S120,在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語言短語集合。
[0033]查找得到第一樞軸語言短語后,利用得到的所述第一樞軸語言短語在源語言-樞軸語言語料庫中查找與所述第一樞軸語言短語匹配的第二源語言短語。所述第二源語言短語的數(shù)量為至少一個??梢詫γ總€第一樞軸語言短語分別進行匹配,也可以是從中篩選部分第一樞軸語言短語進行匹配。例如,可根據(jù)統(tǒng)計的短語使用頻率,選擇使用頻率高的短語進行匹配。
[0034]在上述對漢語-西班牙語雙語語料庫進行擴充的例子中,以英語短語“verytasty”以及“really delicious”在漢語-英語語料庫中查找與英語短語語義匹配的漢語短語。查找的結(jié)果在下表中顯示:
[0035]漢語-英語語料庫查找結(jié)果表
[0036]
【權(quán)利要求】
1.一種雙語語料庫的數(shù)據(jù)擴充方法,其特征在于,包括: 在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語H短語; 在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語言短語集合; 在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語,并由各所述第一目標語言短語組成目標語言短語集合; 將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合,形成至少一個源語言短語與目標語言短語之間的短語對; 將形成的至少一個源語言短語與目標語言短語之間的短語對存儲至源語言-目標語H語料庫。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語言短語集合包 括: 利用所述至少一個第一樞軸語言短語中的每一個在所述源語言-樞軸語言語料庫中查找與之語義相同的第二源語言短語; 在查找到的第二源語言短語中去除重復的源語言短語; 將去除重復后的第二源語言短語組成源語言短語集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語,并由各所述第一目標語言短語組成目標語言短語集合包括: 利用所述至少一個第一樞軸語言短語中的每一個在所述樞軸語言-目標語言語料庫中查找與之語義相同的第一目標語言短語; 在查找到的第一目標語言短語中去除重復的目標語言短語; 將去除重復后的第一目標語言短語組成目標語言短語集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合,形成至少一個源語言短語與目標語言短語之間的短語對包括: 將所述源語言短語集合中的每一個第二源語言短語作為鍵,并將所述目標語言短語集合中的每一個第一目標語言短語作為值,形成至少一個源語言短語與目標語言短語之間的短語對。
5.一種雙語語料庫的數(shù)據(jù)擴充裝置,其特征在于,包括: 樞軸語言短語查找模塊,用于在源語言-樞軸語言語料庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語言短語; 源語言短語集合建立模塊,用于在源語言-樞軸語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第二源語言短語,并由各所述第二源語言短語組成源語言短語集合; 目標語言短語集合建立模塊,用于在樞軸語言-目標語言語料庫中查找與各所述第一樞軸語言短語語義匹配的至少一個第一目標語言短語,并由各所述第一目標語言短語組成目標語言短語集合; 短語對組合模塊,用于將所述源語言短語集合中的第二源語言短語與所述目標語言短語集合中的第一目標語言短語進行組合,形成至少一個源語言短語與目標語言短語之間的短語對; 短語對存儲模塊,用于將形成的至少一個源語言短語與目標語言短語之間的短語對存儲至源語言-目標語言語料庫。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述源語言短語集合建立模塊包括: 源語言短語查找子模塊,用于利用所述至少一個第一樞軸語言短語中的每一個在所述源語言-樞軸語言語料庫中查找與之語義相同的第二源語言短語; 源語言短語去重子模塊,用于在查找到的第二源語言短語中去除重復的源語言短語; 源語言短語集合建立子模塊,用于將去除重復后的第二源語言短語組成源語言短語集口 ο
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述目標語言短語集合建立模塊包括: 目標語言短語查找子模塊,用于利用所述至少一個第一樞軸語言短語中的每一個在所述樞軸語言-目標語言語料庫中查找與之語義相同的第一目標語言短語; 目標語言短語去重子模塊,用于在查找到的第一目標語言短語中去除重復的目標語言短語; 目標語言短語集合建立子模塊,用于在查找到的第一目標語言短語中去除重復的目標再古紹五P 口口 Ml P 口 ο
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述短語對組合模塊具體用于將所述源語言短語集合中的每一個第二源語言短語作為鍵,并將所述目標語言短語集合中的每一個第一目標語言短語作為值,形成至少一個源語言短語與目標語言短語之間的短語對。
【文檔編號】G06F17/28GK103577399SQ201310544597
【公開日】2014年2月12日 申請日期:2013年11月5日 優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】朱曉寧, 何中軍, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司