亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)的處理方法與裝置與流程

文檔序號:12063659閱讀:264來源:國知局
數(shù)據(jù)的處理方法與裝置與流程

本發(fā)明涉及計算機技術,尤其涉及一種數(shù)據(jù)的處理方法與裝置。



背景技術:

機器翻譯是利用計算機將一種自然語言翻譯為另一種自然目標語言的過程,其核心是實現(xiàn)雙語在各個層次的對齊,即從平行雙語語料中的多個網(wǎng)絡文本中獲得與待翻譯文本的相似度最大的目標網(wǎng)絡文本。

目前,通常采用篇章對齊的方法來獲得待翻譯文本的目標網(wǎng)絡文本,具體是,獲得待翻譯文本的各特征值(例如,數(shù)字、標點和名稱等),判斷每個網(wǎng)絡文本中是否存在上述各特征值匹配的特征值,進而獲得待翻譯文本與每個網(wǎng)絡文本的相似度,從上述各相似度中獲得一個最大的相似度,將該相似度最大的網(wǎng)絡文本作為待翻譯文本的目標翻譯文本。

但是上述的雙語對齊方法都是針對篇章的整體對齊,其對齊誤差較大,使得翻譯結果不準確。



技術實現(xiàn)要素:

本發(fā)明提供一種數(shù)據(jù)的處理方法與裝置,用于解決現(xiàn)有的篇章對齊方法以整個文本為對象進行文本的整體對齊而造成的對齊誤差大,翻譯不準確的問題。

第一方面,本發(fā)明提供一種數(shù)據(jù)的處理方法,包括:

獲取待翻譯文本;

根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度;

根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本。

在第一方面的第二種可能的實現(xiàn)方式中,所述根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的平行雙語語料庫中的每個網(wǎng)絡文本的相似度,具體包括:

根據(jù)所述待翻譯文本的語句順序和預設的語句比對類型,從所述待翻譯文本中獲取第一語句,以及,從所述第一平行雙語語料庫中的每個網(wǎng)絡文本中獲取與所述第一語句對應的第二語句;其中,所述語句比對類型為所述第一語句中包括的句子數(shù)目與所述第二語句中包括的句子數(shù)目的比值;

獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度;

根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,確定所述待翻譯文本與每個所述網(wǎng)絡文本的相似度。

結合第一種實現(xiàn)方式,在第一方面的第三種可能的實現(xiàn)方式中,所述獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,具體包括:

根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù);

根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度。

結合第二種實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,具體包括:

根據(jù)公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),確定所述第一語句與每個所述第二語句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)為所述第一語句與所述第二語句的長度歸一化參數(shù),所述ls為所述第一語句的字符長度,所述lt為所述第二語句的字符長度,所述r為所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,所述type為所述語句比對類型。

結合第三種實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本,具體包括:

根據(jù)第一預設數(shù)目和所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,從所述第一平行雙語語料庫中確定所述待翻譯文本的第一網(wǎng)絡文本集合,所述第一網(wǎng)絡文本集合包括多個第一網(wǎng)絡文本;

獲取所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度;

根據(jù)所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

根據(jù)所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,確定所述目標網(wǎng)絡文本。

結合第一種實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式中,所述根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度之前,所述方法還包括:

將所述待翻譯文本與預設的第二平行雙語語料庫中的每個網(wǎng)絡文本進行篇章對齊,獲取所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度;

根據(jù)所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度,從所述第二平行雙語語料庫中確定所述第一平行雙語語料庫。

結合第三種實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式中,,所述根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與所述第二語句的長度歸一化參數(shù),具體包括:

根據(jù)公式確定所述第一語句與所述第二語句的長度歸一化參數(shù)δ(ls,lt);

其中,所述σ2是所述待翻譯文本的語言與所述網(wǎng)絡文本的語言的樣本方差。

結合第五種實現(xiàn)方式,在第一方面的第七種可能的實現(xiàn)方式中,,所述根據(jù)所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,具體包括:

根據(jù)公式獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

其中,所述s為所述第一語句中的字符,所述t為所述第二語句中與所述s對應的字符,所述l為所述第一語句中字符的個數(shù),所述m為所述第二語句中字符的個數(shù),所述ε為常量。

第二方面,本發(fā)明提供一種數(shù)據(jù)的處理裝置,包括:

獲取模塊,用于獲取待翻譯文本;

第一計算模塊,用于根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度;

確定模塊,用于根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本。

進一步的,所述第一計算模塊包括:第一獲取單元、第一計算單元、第一確定單元:

所述第一獲取單元,用于根據(jù)所述待翻譯文本的語句順序和預設的語句比對類型,從所述待翻譯文本中獲取第一語句,以及,從所述第一平行雙語語料庫中的每個網(wǎng)絡文本中獲取與所述第一語句對應的第二語句;其中,所述語句比對類型為所述第一語句中包括的句子數(shù)目與所述第二語句中包括的句子數(shù)目的比值;

所述第一計算單元,用于獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度;

所述第一確定單元,用于根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,確定所述待翻譯文本與每個所述網(wǎng)絡文本的相似度。

進一步的,所述第一計算單元,具體用于根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù);并根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度。

可選的,所述第一計算單元,還具體用于

根據(jù)公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),確定所述第一語句與每個所述第二語句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)為所述第一語句與所述第二語句的長度歸一化參數(shù),所述ls為所述第一語句的字符長度,所述lt為所述第二語句的字符長度,所述r為所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,所述type為所述語句比對類型。

進一步的,所述確定模塊包括:第二獲取單元、第二計算單元;

所述第獲取單元,用于根據(jù)第一預設數(shù)目和所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,從所述第一平行雙語語料庫中確定所述待翻譯文本的第一網(wǎng)絡文本集合,所述第一網(wǎng)絡文本集合包括多個第一網(wǎng)絡文本;

所述第二計算單元,用于獲取所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度;并根據(jù)所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

所述確定模塊,還用于根據(jù)所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,確定所述目標網(wǎng)絡文本。

進一步的,所述裝置還包括第二計算模塊;

所述第二計算模塊,用于在所述第一計算模塊根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度之前,將所述待翻譯文本與預設的第二平行雙語語料庫中的每個網(wǎng)絡文本進行篇章對齊,獲取所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度;并根據(jù)所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度,從所述第二平行雙語語料庫中確定所述第一平行雙語語料庫。

可選的,所述第一計算單元,具體用于:

根據(jù)公式確定所述一語句與所述第二語句的長度歸一化參數(shù)δ(ls,lt);

其中,所述σ2是所述待翻譯文本的語言與所述網(wǎng)絡文本的語言的樣本方差。

可選的,所述第二計算模塊,具體用于:

根據(jù)公式獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

其中,所述s為所述第一語句中的字符,所述t為所述第二語句中與所述s對應的字符,所述l為所述第一語句中字符的個數(shù),所述m為所述第二語句中字符的個數(shù),所述ε為常量。

本發(fā)明提供的數(shù)據(jù)的處理方法與裝置,通過待翻譯文本的語句順序和待翻譯文本的語句,獲取待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度,并根據(jù)待翻譯文本與每個網(wǎng)絡文本的相似度,確定待翻譯文本的目標網(wǎng)絡文本。即本實施例的方法,以語句為單位進行待翻譯文本與網(wǎng)絡文本的相似度計算,進而提高了獲得待翻譯文本的目標網(wǎng)絡文本的準確性。

附圖說明

為了更清楚地說明本發(fā)明或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明提供的數(shù)據(jù)的處理方法實施例一的流程示意圖;

圖2為本發(fā)明提供的數(shù)據(jù)的處理方法實施例二的流程示意圖;

圖3為本發(fā)明提供的數(shù)據(jù)的處理方法實施例三的流程示意圖;

圖4為本發(fā)明提供的數(shù)據(jù)的處理方法實施例四的流程示意圖;

圖5為本發(fā)明提供的數(shù)據(jù)的處理方法實施例五的流程示意圖;

圖6為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例一的結構示意圖;

圖7為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例二的結構示意圖;

圖8為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例三的結構示意圖。

具體實施方式

為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

平行語料(Parallel Texts)是指使用不同語言撰寫、相互間具有翻譯關系的文本。平行雙語語料為使用兩種語言撰寫、相互間具有翻譯關系的文本集合。

本發(fā)明提供一種數(shù)據(jù)的處理方法與裝置,適用于平行雙語語料庫,用于解決現(xiàn)有的篇章對齊方法以整個文本為對象進行文本的整體對齊而造成的對齊誤差大,翻譯不準確的問題。

本發(fā)明提供的方法,以文本的語句為單位進行語句的長度對齊,進而提高了獲得待翻譯文本的目標網(wǎng)絡文本的準確性。

需要說明的是,本實施例中的術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。

下面以具體地實施例對本發(fā)明的技術方案進行詳細說明。下面這幾個具體的實施例可以相互結合,對于相同或相似的概念或過程可能在某些實施例不再贅述。

圖1為本發(fā)明提供的數(shù)據(jù)的處理方法實施例一的流程示意圖。本實施例的執(zhí)行主體可以是數(shù)據(jù)的處理裝置,該數(shù)據(jù)的處理裝置可以通過軟件和/或硬件實現(xiàn),該數(shù)據(jù)的處理裝置可以設置在處理器中,或者為單獨的處理器,為了便于闡述,以下將本實施例的執(zhí)行主體簡稱為處理裝置。本實施例涉及的是處理裝置根據(jù)待翻譯文本的語句順序,獲取待翻譯文本與每個網(wǎng)絡文本的相似度,根據(jù)該相似度確定待翻譯文本的目標網(wǎng)絡文本的具體過程。如圖2所示,本實施例的方法可以包括:

S101、獲取待翻譯文本。

具體的,處理裝置獲取待翻譯文本,該待翻譯文本可以是用戶向處理裝置臨時輸入的,還可以是保存在其他的存儲設備中的文本,用戶指示處理裝置通過網(wǎng)絡等方法從該存儲設備中獲取的。

S102、根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度。

具體的,預設譯文類型的第一平行雙語語料庫中的網(wǎng)絡文本的語言類型均為待翻譯文本的目標語言類型,例如需要將中文的待翻譯文本翻譯成英文文本時,則預設的第一平行雙語語料庫中的每個網(wǎng)絡文本均為英文文本。處理裝置根據(jù)待翻譯文本的語句順序,以語句問單位計算待翻譯文本與第一平行雙語語料庫中每個網(wǎng)絡文本的相似度??蛇x的,處理裝置可以逐句計算待翻譯文本與每個網(wǎng)絡文本的相似度,例如,處理裝置根據(jù)待翻譯文本的語句順序,計算待翻譯文本的第一個句子與網(wǎng)絡文本A的第一個句子的相似度,記為p1,計算待翻譯文本的第二個句子與網(wǎng)絡文本A的第二個句子的相似度,記為p2,……計算待翻譯文本的第10個句子與網(wǎng)絡文本A的第10個句子的相似度,記為p10。接著,處理裝置可以根據(jù)上述10個相似度,確定待翻譯文本與網(wǎng)絡文本A的相似度,例如可以將上述10個相似度的和作為待翻譯文本與網(wǎng)絡文本A的相似度,或者將上述10個相似度的加權平均值作為待翻譯文本與網(wǎng)絡文本A的相似度。參照上述方法,即可獲得待翻譯文本與第一雙語語料庫中每個網(wǎng)絡文本的相似度。

參照上述例子,處理裝置還可以將待翻譯文本中的一個句子與網(wǎng)絡文本中的兩個句子進行相似度的計算,可選的,還可以將待翻譯文本中的兩個句子作為一個單位與網(wǎng)絡文本中的兩個句子進行相似度的計算,可選的,還可以將待翻譯文本中的多個句子作為一個單位與網(wǎng)絡文本中的一個或者多個句子進行相似度的計算。

上述第一平行雙語語料庫中的每個網(wǎng)絡文本都是經(jīng)過規(guī)范化處理的,例如經(jīng)過NekoHTML和XPath處理過的。其中,NekoHTML是一個簡單的HTML掃描器(scanner)和標簽補償器(tag balancer),使得程序能解析HTML文檔并用標準的XML接口來訪問其中的信息。簡單的講它可以解析、修整和凈化HTML文檔,可以自動關閉標記,修補一些常見的錯誤,也可以用NekoHTML從HTML文檔里抽取文本。XPath是一門在XML文檔中查找信息的語言,它可用來在XML文檔中對元素和屬性進行遍歷,進而獲取比較規(guī)范的網(wǎng)絡文本,便于后邊的對齊。同時,在該步驟中,處理裝置根據(jù)各網(wǎng)絡文本和待翻譯文本,構建詞典,以便后續(xù)使用,其構建詞典過程為現(xiàn)有技術在此不再贅述。

S103、根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本。

具體的,根據(jù)上述S102的方法即可獲得待翻譯文本與每個網(wǎng)絡文本之間的相似度,接著,處理裝置從上述各相似度中獲取最大的相似度,將該最大相似度對應的網(wǎng)絡文本作為該待翻譯文本的目標翻譯文本??蛇x的,還可以根據(jù)用戶的需求,對上述相似度進行順序排列,獲得一定數(shù)目的目標網(wǎng)絡文件。

本發(fā)明提供的數(shù)據(jù)的處理方法,通過待翻譯文本的語句順序和待翻譯文本的語句,獲取待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度,并根據(jù)待翻譯文本與每個網(wǎng)絡文本的相似度,確定待翻譯文本的目標網(wǎng)絡文本。即本實施例的方法,以語句為單位進行待翻譯文本與網(wǎng)絡文本的相似度計算,進而提高了獲得待翻譯文本的目標網(wǎng)絡文本的準確性。

圖2為本發(fā)明提供的數(shù)據(jù)的處理方法實施例二的流程示意圖。在上述實施例的基礎上,本實施例涉及的是處理裝置根據(jù)待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的平行雙語語料庫中的每個網(wǎng)絡文本的相似度的具體過程。即上述S102具體可以包括:

S201、根據(jù)所述待翻譯文本的語句順序和預設的語句比對類型,從所述待翻譯文本中獲取第一語句,以及,從所述第一平行雙語語料庫中的每個網(wǎng)絡文本中獲取與所述第一語句對應的第二語句;其中,所述語句比對類型為所述第一語句中包括的句子數(shù)目與所述第二語句中包括的句子數(shù)目的比值。

具體的,本實施例預設的語句比對類型可以是用戶根據(jù)實際需求輸入給處理裝置的,也可以是處理裝置根據(jù)待翻譯文本和網(wǎng)絡文本的特征自行確定的,例如,當待翻譯文本的篇章較長時,可以將該語句比對類型設置大一點,例如可以設置成2:2,即用待翻譯文本中的兩個句子與網(wǎng)絡文本中的兩個句子進行對齊。

本實施例的方法,處理裝置根據(jù)待翻譯文本的語句順序和預設的語句比對類型,從待翻譯文本中獲取第一語句,從每個網(wǎng)絡文本中獲取語句順序與第一語句對應的第二語句。假設,預設的語句比對類型為1:2時,按照語句順序,將待翻譯文本中的每個句子作為第一語句,將每個網(wǎng)絡文件中與第一語句對應的兩個句子作為第二語句,例如將待翻譯文本的第一個句子作為第一語句,將每個網(wǎng)絡文件的第一個句子和第二個句子作為該第一語句對應的第二語句。

S202、獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度。

具體的,處理裝置根據(jù)上述步驟選取的第一語句的第二語句,獲取第一語句與每個網(wǎng)絡文件的第二語句的第一相似度。其中,處理裝置可以根據(jù)第一語句包括的字符數(shù)目和第二語句包括的字符數(shù)目來確定第一語句與第二語句的第一相似度,例如當?shù)谝徽Z句包括的字符與第二語句包括的字符數(shù)目相等時,認為該第一語句與該第二語句的相似度高,可選的,處理裝置還可以根據(jù)其他的方法確定第一語句與每個網(wǎng)絡文本的第二語句的第一相似度。

S203、根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,確定所述待翻譯文本與每個所述網(wǎng)絡文本的相似度。

具體的,處理裝置根據(jù)上述S202的方法計算待翻譯文本中的第一語句與每個網(wǎng)絡文本的第二語句的第一相似度,接著,處理裝置將待翻譯文本中的第一語句與某一網(wǎng)絡文本的第二語句的第一相似度進行求和或者平均等處理,獲得待翻譯文本與該網(wǎng)絡文本的相似度。根據(jù)上述方法即可獲得待翻譯文本與每個網(wǎng)絡文本的相似度。

為了進一步闡釋本發(fā)明的技術方案,特此舉例說明:

參照上述例子,假設待翻譯文本有10個句子,預設的語句比對類型為1:2。則處理裝置將待翻譯文本的第一個句子作為第一語句,將網(wǎng)絡文件A的第一句子和第二句子作為第二語句,根據(jù)上述方法獲得第一語句與第二語句的第一相似度,記為P1。接著,將待翻譯文本的第二個句子作為新的第一語句,將網(wǎng)絡文本A的第二個句子和第三個句子作為新的第二語句,獲得此時的第一語句與第二語句的第一相似度,記為記為P2…..,最后,將待翻譯文本的第10個句子作為第一語句,將網(wǎng)絡文本A的第10個句子和第二11個句子作為第二語句,獲取第一語句與第二語句的第一相似度,記為P10。處理裝置根據(jù)上述P1、P2……P10,確定待翻譯文本與網(wǎng)絡文本A的相似度,例如,將P1、P2……P10的和作為待翻譯文本與網(wǎng)絡文本A的相似度,或者將P1、P2……P10的加權平均值等作為待翻譯文本與網(wǎng)絡文本A的相似度。參照上述步驟,即可準確獲得待翻譯文本與每個網(wǎng)絡文本的相似度,接著,

本發(fā)明提供的數(shù)據(jù)的處理方法,處理裝置根據(jù)待翻譯文本的語句順序和預設的語句比對類型,從所述待翻譯文本中獲取第一語句,從所述第一平行雙語語料庫中的每個網(wǎng)絡文本中獲取與所述第一語句對應的第二語句,計算第一語句與每個網(wǎng)絡文本的第二語句的第一相似度,并根據(jù)第一語句與每個網(wǎng)絡文本的第二語句的第一相似度,準確獲得待翻譯文本與每個所述網(wǎng)絡文本的相似度,進而提高了獲得待翻譯文本的目標網(wǎng)絡文本的準確性。

圖3為本發(fā)明提供的數(shù)據(jù)的處理方法實施例三的流程示意圖。在上述實施例的基礎上,本實施例涉及的處理裝置獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度的具體過程。即上述S202具體可以包括:

S301、根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)。

具體的,處理裝置根據(jù)第一語句的字符長度、第二語句的字符長度,以及待翻譯文本的語言長度和網(wǎng)絡文本的語言長度的比值,來確定第一語句與每個網(wǎng)絡文本的第二語句的長度歸一化參數(shù)。例如,假設第一語句為“打了他”,第二語句為“hit,him”,第一語句的字符長度為6,第二語句的字符長度也為6,而中文的語言長度與英文的語言長度為1.6,處理裝置根據(jù)上述各參數(shù),借助現(xiàn)有的長度歸一化方法(例如使用R語言歸一化函數(shù))獲得第一語句“打了他”和第二語句為“hit,him”的長度歸一化參數(shù)。

可選的,處理裝置根據(jù)公式確定所述第一語句與所述第二語句的長度歸一化參數(shù)δ(ls,lt),其中,所述σ2為所述待翻譯文本的語言與所述網(wǎng)絡文本的語言的樣本方差,所述ls為所述第一語句的字符長度,所述lt為所述第二語句的字符長度,所述r為所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值。而其中,為所用網(wǎng)絡文件的第二語句的平均字符長度,N為第一平行雙語語料庫中的網(wǎng)絡文件的數(shù)目。

參照上述例子,第一語句“打了他”的字符長度為ls=6,第二語句“hit,him”的字符長度為lt=6,而中文與英文的語言長度比值為r=1.6,中文與英文的樣本方差σ2=3.4。將上述各參數(shù)帶入上式,得

根據(jù)上述公式獲得第一語句“打了他”和第二語句為“hit,him”的長度歸一化參數(shù)為0.49。參照上述步驟,即可獲得第一語句與每個網(wǎng)絡文件的第二語句的長度歸一化參數(shù)。

S302、根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度。

具體的,處理裝置根據(jù)上述獲得的第一語句與每個網(wǎng)絡文件的第二語句的長度歸一化參數(shù)和預設的比對類型,確定第一語句與每個網(wǎng)絡文本的第二語句的第一相似度。

可選的,處理裝置根據(jù)公式

p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),確定所述第一語句與每個所述第二語句的第一相似度p(δ(ls,lt)|type),所述type為所述語句比對類型。

參照上述例子,將上述步驟獲得的各參數(shù)帶入上述公式中,即可獲得

可選的,處理裝置在根據(jù)上述公式計算第一語句與每個網(wǎng)絡文本的第二語句的第一相似度之前,處理裝置還可以使用高斯公式:或者使用泊松分布公式:計算第一語句和每個網(wǎng)絡文本的第二語句的相似度,對第一平行雙語語料庫中的網(wǎng)絡文本進行一次過濾,進而降低處理裝置的計算量。

本發(fā)明提供的數(shù)據(jù)的處理方法,處理裝置根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù),并根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,其整個過程簡單,可以準確獲得第一語句與每個網(wǎng)絡文件的第二語句的第一相似度。

圖4為本發(fā)明提供的數(shù)據(jù)的處理方法實施例四的流程示意圖。在上述實施例的基礎上,本實施例涉及的是處理裝置根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本的具體過程。即上述S101具體包括:

S401、根據(jù)第一預設數(shù)目和所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,從所述第一平行雙語語料庫中確定所述待翻譯文本的第一網(wǎng)絡文本集合,所述第一網(wǎng)絡文本集合包括多個第一網(wǎng)絡文本。

具體的,處理裝置對上述獲得的翻譯文本與每個網(wǎng)絡文本的相似度進行排序(例如從大到小排序),并根據(jù)第一預設數(shù)目(例如10),從第一平行雙語語料庫中獲取相似度前10的第一網(wǎng)絡文本,將該10個第一網(wǎng)絡文本作為第一網(wǎng)絡文本集合。

S402、獲取所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度。

S403、根據(jù)所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度。

具體的,為了進一步提高獲取目標網(wǎng)絡文本的準確性,則處理裝置獲取第一網(wǎng)絡文件集合中的每個第一網(wǎng)絡文本的第二語句的每個字符,根據(jù)翻譯關系,判斷每個第一網(wǎng)絡文本的第二語句的字符是否是第一語句的字符的翻譯字符,進而獲取所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度。

接著,處理裝置根據(jù)獲取的第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,即可獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度。例如,處理裝置可以根據(jù)IBM模型確定第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度。

可選的,處理裝置還可以根據(jù)公式

獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

其中,所述s為所述第一語句中的字符,所述t為所述第二語句中與所述s對應的字符,所述l為所述第一語句中字符的個數(shù),所述m為所述第二語句中字符的個數(shù),所述ε為常量。

S404、根據(jù)所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,確定所述目標網(wǎng)絡文本。

具體的,處理裝置根據(jù)上述步驟獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,并根據(jù)第二相似度來確定待翻譯文本的目標網(wǎng)絡文本。

本發(fā)明提供的數(shù)據(jù)的處理方法,通過第一預設數(shù)目和所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,從第一平行雙語語料庫中獲取多個第一網(wǎng)絡文本,獲取第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,并根據(jù)第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,進而根據(jù)第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,確定待翻譯文本的目標網(wǎng)絡文本,進一步提高了獲取目標網(wǎng)絡文本的準確性。

圖5為本發(fā)明提供的數(shù)據(jù)的處理方法實施例五的流程示意圖。在上述實施例的基礎上,本實施例涉及的是處理裝置在獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度之前,確定第一平行雙語語料庫的具體過程。即在上述S102之前,本實施例的方法還可以包括:

S501、將所述待翻譯文本與預設的第二平行雙語語料庫中的每個網(wǎng)絡文本進行篇章對齊,獲取所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度。

在本實施例中,為了降低處理裝置的計算復雜性,使用篇章對齊方法,對平行雙語料庫中的網(wǎng)絡文本進行一次過濾,獲得與待翻譯文本的匹配度較高的網(wǎng)絡文本,使用該匹配度較高的網(wǎng)絡文本進行上述步驟的相似度計算。

例如,處理裝置可以使用Cosine相似度法,獲得待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度cos(v1,v2):

其中v是矢量,包含了文檔中常見的數(shù)字、標點、和命名實體這些特征值(feature values),使用上述各特征值對篇章進行對齊。

S502、根據(jù)所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度,從所述第二平行雙語語料庫中確定所述第一平行雙語語料庫。

接著,根據(jù)待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度,從所述第二平行雙語語料庫中確定第一平行雙語語料庫,例如獲得50個第三相似度較大的網(wǎng)絡文本,使用該50個網(wǎng)絡文本組成第一平行雙語語料庫。

進一步的,當本實施例的第一語句與第二語句為同一個語系(例如英語和法語)時,本實施例的方法還可以再次進行單詞之間的相似性對齊。

可選的,處理裝置可以利用下列公式進行單詞之間的對齊:

該方法是從句子之間的詞中,找出共同出現(xiàn)的字母,然后根據(jù)上述Dice相似度計算單詞之間的相似度。

例如使用上述公式對下列短語進行對齊:

whitehOuse

|||///

vitahuset

其2-gram中的對齊現(xiàn)象為:

本發(fā)明的方法,從詞典的構建到最后的對齊,都沒有人工干預,而且可以不針對語言對的智能對齊平臺,這種自動化的對齊方法在實際中有很大的優(yōu)勢。極大的減少了人工工作量(例如,不需要人工編制詞典)。

本實施例的方法,充分利用IBM對齊模型、自然語言處理和信息檢索中的相關技術,自動獲取成千上萬級別的詞典。

構建的語料庫涵蓋多領域的平行語料庫,主要包括:新聞(News)、小說(Novels)、法律(Laws)、教育(Education)、科學術語(Science)、口語對話字幕(Speech/Dialog/Subtitle)、微博(Twitter)、議會(Parliament)。

語料庫獲取后,文件的存儲格式也是相當重要。為了適用不同后續(xù)的平臺搭建,本發(fā)明可以采取兩種格式進行存放,所有的文本以UTF-8格式編碼:

(1)純文本格式。這種存儲格式主要用于機器翻譯的訓練數(shù)據(jù)。

(2)標記文本格式。該種標記語言的存儲格式主要分為XML和SGML兩種格式。同時為了方便術語庫和記憶庫的采用,同時把純文本文件生成TMX格式文本。這種標記文本可以方便的查詢文本資源的一些其他屬性,包括文本的創(chuàng)建時間、作者、問題內(nèi)容等更加細化的內(nèi)容,方便數(shù)據(jù)庫查詢和索引。

本發(fā)明提供的數(shù)據(jù)的處理方法,通過篇章對齊放,對平行雙語料庫中的網(wǎng)絡文本進行一次過濾,進而降低處理裝置的計算復雜性。

本領域普通技術人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

圖6為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例一的結構示意圖。本實施例的數(shù)據(jù)的處理裝置可以是單獨的處理器,也可以集成在處理器中,例如集成在計算機等設備的處理器中。如圖6所示,本實施例的處理裝置可以包括:

獲取模塊10,用于獲取待翻譯文本;

第一計算模塊20,用于根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度;

確定模塊30,用于根據(jù)所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,確定所述待翻譯文本的目標網(wǎng)絡文本。

本實施例的裝置,可以用于執(zhí)行上述所示方法實施例的技術方案,其實現(xiàn)原理和技術效果類似,此處不再贅述。

圖7為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例二的結構示意圖。在上述實施例的基礎上,本實施例的第一計算模塊20包括:第一獲取單元201、第一計算單元202。

所述第一獲取單元201,用于根據(jù)所述待翻譯文本的語句順序和預設的語句比對類型,從所述待翻譯文本中獲取第一語句,以及,從所述第一平行雙語語料庫中的每個網(wǎng)絡文本中獲取與所述第一語句對應的第二語句;其中,所述語句比對類型為所述第一語句中包括的句子數(shù)目與所述第二語句中包括的句子數(shù)目的比值;

所述第一計算單元202,用于獲取所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度;并用于根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度,確定所述待翻譯文本與每個所述網(wǎng)絡文本的相似度。

進一步的,上述第一計算單元202,還具體用于根據(jù)所述第一語句的字符長度、第二語句的字符長度、和所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù);并根據(jù)所述第一語句與每個所述網(wǎng)絡文本的第二語句的長度歸一化參數(shù)和預設的比對類型,確定所述第一語句與每個所述網(wǎng)絡文本的第二語句的第一相似度。

可選的,上述第一計算單元202,還具體用于

根據(jù)公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),確定所述第一語句與每個所述第二語句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)為所述第一語句與所述第二語句的長度歸一化參數(shù),所述ls為所述第一語句的字符長度,所述lt為所述第二語句的字符長度,所述r為所述待翻譯文本的語言長度與所述網(wǎng)絡文本的語言長度的比值,所述type為所述語句比對類型。

本實施例的裝置,可以用于執(zhí)行上述所示方法實施例的技術方案,其實現(xiàn)原理和技術效果類似,此處不再贅述。

圖8為本發(fā)明提供的數(shù)據(jù)的處理裝置實施例三的結構示意圖。在上述實施例的基礎上,本實施例的確定模塊30包括:第二獲取單元301、第二計算單元302、確定單元303。

所述第二獲取單元301,用于根據(jù)第一預設數(shù)目和所述待翻譯文本與每個所述網(wǎng)絡文本的相似度,從所述第一平行雙語語料庫中確定所述待翻譯文本的第一網(wǎng)絡文本集合,所述第一網(wǎng)絡文本集合包括多個第一網(wǎng)絡文本;

所述第二計算單元302,用于獲取所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度;并根據(jù)所述第一語句的每個字符與每個所述第一網(wǎng)絡文本的第二語句的每個字符的相似度,獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

所述確定單元303,用于根據(jù)所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度,確定所述目標網(wǎng)絡文本。

進一步的,所述第二計算模塊302,用于在所述第一計算模塊20根據(jù)所述待翻譯文本的語句順序和所述待翻譯文本的語句,獲取所述待翻譯文本與預設譯文類型的第一平行雙語語料庫中的每個網(wǎng)絡文本的相似度之前,將所述待翻譯文本與預設的第二平行雙語語料庫中的每個網(wǎng)絡文本進行篇章對齊,獲取所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度;并根據(jù)所述待翻譯文本與所述第二平行雙語語料庫中的每個網(wǎng)絡文本的第三相似度,從所述第二平行雙語語料庫中確定所述第一平行雙語語料庫。

可選的,上述第一計算單元202,具體用于:

根據(jù)公式確定所述一語句與所述第二語句的長度歸一化參數(shù)δ(ls,lt);

其中,所述σ2是所述待翻譯文本的語言與所述網(wǎng)絡文本的語言的樣本方差。

可選的,上述第二計算模塊302,具體用于:

根據(jù)公式獲得所述第一語句與每個所述第一網(wǎng)絡文本的第二語句的第二相似度;

其中,所述s為所述第一語句中的字符,所述t為所述第二語句中與所述s對應的字符,所述l為所述第一語句中字符的個數(shù),所述m為所述第二語句中字符的個數(shù),所述ε為常量。

本實施例的裝置,可以用于執(zhí)行上述所示方法實施例的技術方案,其實現(xiàn)原理和技術效果類似,此處不再贅述。

最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明各實施例技術方案的范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1