一種基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法與流程

文檔序號(hào)：12719596閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法與流程

技術(shù)特征：

1.一種基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法，其特征在于，所述基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法為：利用規(guī)則機(jī)器翻譯引擎，將語(yǔ)料庫(kù)中的英語(yǔ)句子翻譯成中文；然后此中文和語(yǔ)料庫(kù)中的中文句子進(jìn)行匹配；根據(jù)匹配率，輔以距離、長(zhǎng)度、編號(hào)多維度數(shù)據(jù)分析特征，找出不匹配的句對(duì)，留下準(zhǔn)確的句對(duì)，從而校對(duì)出正確的語(yǔ)料庫(kù)。

2.如權(quán)利要求1所述的基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法，其特征在于，所述基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法具體包括以下步驟：

檢查英文句子中是否存在漢字，通過(guò)漢字內(nèi)碼表，自動(dòng)取出英文句子中存在漢字的句子；

檢查英中句子長(zhǎng)度是否匹配，計(jì)算英文句子的長(zhǎng)度和漢語(yǔ)句子的長(zhǎng)度的比值，其中英文句子長(zhǎng)度就是句子中英文字符的數(shù)量，漢語(yǔ)句子長(zhǎng)度就是句子中漢字的數(shù)量，就是然后設(shè)定一個(gè)閾值，超出該閾值范圍的不匹配，閾值比值范圍為：0.4≤閾值比值≤6；

檢查句子是否超長(zhǎng)，計(jì)算句子中英文句子的長(zhǎng)度和漢語(yǔ)句子的長(zhǎng)度，用于統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練的句子中，漢語(yǔ)句子長(zhǎng)度大于500或英語(yǔ)句子長(zhǎng)度大于800為超長(zhǎng)句子，去掉；

檢查漢語(yǔ)句子中的英文是否太多，計(jì)算漢語(yǔ)句子中英文字符的數(shù)量，用于統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練的句子，訓(xùn)練出的翻譯模型為中英短語(yǔ)對(duì)，一個(gè)漢語(yǔ)句子中含有非漢字和標(biāo)點(diǎn)的字符數(shù)超過(guò)40，將非漢字和標(biāo)點(diǎn)去掉；

檢查漢語(yǔ)句子中漢字是否太少，計(jì)算漢語(yǔ)句子中漢字的數(shù)量，用于統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練的句子，訓(xùn)練出的翻譯模型是中英短語(yǔ)對(duì)，漢語(yǔ)句子中漢字?jǐn)?shù)量少于2，該句子不合格；

檢查圓括號(hào)是否匹配，首先檢查英文句子的圓括號(hào)是否配對(duì)，然后檢查漢語(yǔ)句子的圓括號(hào)是否配對(duì)，再檢查英文句子和漢語(yǔ)句子雙方的圓括號(hào)是否配對(duì)；計(jì)算英文句子中左圓括號(hào)的數(shù)量，再計(jì)算英文句子中右圓括號(hào)的數(shù)量，看兩者數(shù)量是否相等；計(jì)算漢語(yǔ)句子中左圓括號(hào)的數(shù)量，再計(jì)算漢語(yǔ)句子中右圓括號(hào)的數(shù)量，看兩者數(shù)量是否相等；計(jì)算英語(yǔ)句子中左圓括號(hào)的數(shù)量，再計(jì)算漢語(yǔ)句子中左圓括號(hào)的數(shù)量，看兩者數(shù)量是否相等；計(jì)算英語(yǔ)句子中右圓括號(hào)的數(shù)量，再計(jì)算漢語(yǔ)句子中右圓括號(hào)的數(shù)量，看兩者數(shù)量是否相等；

檢查方括號(hào)是否匹配，首先檢查英文句子的方括號(hào)是否配對(duì)，然后檢查漢語(yǔ)句子的方括號(hào)是否配對(duì)，再檢查英文句子和漢語(yǔ)句子雙方的方括號(hào)是否配對(duì)；

檢查句首項(xiàng)目符號(hào)與編號(hào)是否匹配，對(duì)原文和譯文部分句首項(xiàng)目符號(hào)與編號(hào)不匹配的進(jìn)行校正；如果原文句首有項(xiàng)目符號(hào)與編號(hào)，而譯文句首沒(méi)有項(xiàng)目符號(hào)與編號(hào)，則將原文的句首項(xiàng)目符號(hào)與編號(hào)刪除掉；如果譯文句首有項(xiàng)目符號(hào)與編號(hào)，而原文句首沒(méi)有項(xiàng)目符號(hào)與編號(hào)，則將譯文的句首項(xiàng)目符號(hào)與編號(hào)刪除掉；

檢查數(shù)字是否正確，檢查語(yǔ)料庫(kù)中數(shù)字是否錯(cuò)誤，以及檢查原譯文數(shù)字不相匹配的錯(cuò)誤；采用查找關(guān)鍵詞“C:D:D||C:D：D||C:^D1&&！E:^D1”的方法，找出問(wèn)題句對(duì)；其中C:代表在漢語(yǔ)句子中查找，D代表任意數(shù)字，為多個(gè)數(shù)字；D:D代表數(shù)字，:為數(shù)字的模式，^代表句首，D1代表一個(gè)數(shù)字；||為邏輯或運(yùn)算，&&為邏輯與運(yùn)算，！為邏輯非運(yùn)算；C:^D1&&！E:^D1表示漢語(yǔ)句子以數(shù)字開(kāi)始，同時(shí)其對(duì)應(yīng)英文句子不是以數(shù)字開(kāi)始；

檢查各種亂碼，根據(jù)漢字的內(nèi)碼表和提取一個(gè)全部由亂碼組成的關(guān)鍵字文件檢查各種亂碼；

語(yǔ)義校對(duì)，對(duì)語(yǔ)料庫(kù)進(jìn)行語(yǔ)義校對(duì)是本發(fā)明的重點(diǎn)，方法是采用英漢規(guī)則機(jī)器翻譯引擎對(duì)句對(duì)中的英文句子進(jìn)行翻譯，得到中文譯文，然后將該譯文和該句對(duì)中的中文進(jìn)行相似度計(jì)算，相似度低于某個(gè)閾值的認(rèn)為是不合格句對(duì)。

3.如權(quán)利要求2所述的基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法，其特征在于，檢查各種亂碼中，采用兩種方法檢查亂碼，具體包括：

第一種方法檢查亂碼為：根據(jù)漢字的內(nèi)碼表，找出語(yǔ)料庫(kù)中含有亂碼的句對(duì)；

第二種方法檢查亂碼為：提取一個(gè)全部由亂碼組成的關(guān)鍵字文件，然后在語(yǔ)料庫(kù)中查找這些亂碼關(guān)鍵字，若出現(xiàn)超過(guò)兩次，則該句對(duì)為亂碼句對(duì)。

4.如權(quán)利要求1所述的基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法，其特征在于，所述基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法包括：采用貝葉斯分類(lèi)方法來(lái)將語(yǔ)料庫(kù)中的雙語(yǔ)句對(duì)分成兩類(lèi)：準(zhǔn)確的雙語(yǔ)句對(duì)和不準(zhǔn)確的雙語(yǔ)句對(duì)，然后將其中不準(zhǔn)確雙語(yǔ)句對(duì)過(guò)濾掉；

假設(shè)雙語(yǔ)句對(duì)t可由n個(gè)相互獨(dú)立的特征V＝{v1,v2,...,vn}確定，t屬于類(lèi)別c_i(i＝1,2)的概率為P(c_i|t),那么當(dāng)c_i使得P(c_i|V)獲得最大值時(shí)，t就屬于ci類(lèi)；這樣，求出P(c_i|V)的最大值，確定統(tǒng)計(jì)短語(yǔ)t所處的類(lèi)別；

根據(jù)貝葉斯公式：

$<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

由于各類(lèi)別的先驗(yàn)概率是未知的，因此，通常假設(shè)各類(lèi)別的出現(xiàn)概率相同,即P(c₁)＝P(c₂),這樣對(duì)于公式1取最大值就轉(zhuǎn)換成只需要求P(V|c_i)最大，在各特征間不存在依賴(lài)關(guān)系的情況下有

$<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Π</mo> <mrow> <mn>1</mn> <mo>≤</mo> <mi>j</mi> <mo>≤</mo> <mi>n</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

依據(jù)上述公式2獲得雙語(yǔ)句對(duì)所處的類(lèi)別，從而依此確定是否過(guò)濾該雙語(yǔ)句對(duì)。

5.如權(quán)利要求4所述的基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法，其特征在于，所述特征包括：

雙語(yǔ)句對(duì)的英文句子中是否存在漢字；

雙語(yǔ)句對(duì)中英中句子長(zhǎng)度是否匹配；

雙語(yǔ)句對(duì)的句子是否超長(zhǎng)；

雙語(yǔ)句對(duì)的漢語(yǔ)句子中英文是否太多；

雙語(yǔ)句對(duì)的漢語(yǔ)句子中漢字是否太少；

雙語(yǔ)句對(duì)的圓括號(hào)是否匹配；

雙語(yǔ)句對(duì)的方括號(hào)是否匹配；

雙語(yǔ)句對(duì)的句首項(xiàng)目符號(hào)與編號(hào)是否匹配；

雙語(yǔ)句對(duì)中的數(shù)字是否正確；

雙語(yǔ)句對(duì)中是否存在亂碼。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

大數(shù)據(jù)語(yǔ)義分析相關(guān)技術(shù)

多維度數(shù)據(jù)分析相關(guān)技術(shù)

數(shù)據(jù)分析維度相關(guān)技術(shù)

多維度數(shù)據(jù)分析模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多維度數(shù)據(jù)分析和語(yǔ)義的中英語(yǔ)料庫(kù)校對(duì)方法與流程