一種確定多義詞詞義的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于翻譯技術(shù)領(lǐng)域,尤其是一種確定多義詞詞義的方法。
【背景技術(shù)】
[0002] 由于大量的詞匯都具有多義性,對于此類詞匯的準(zhǔn)確翻譯,即便是具有扎實(shí)的語 言和專業(yè)基礎(chǔ)的翻譯人員也難免在翻譯過程中出現(xiàn)疏漏。以往為提高此類詞匯翻譯的準(zhǔn)確 率,需通過提高翻譯人員的翻譯水平和增加審校、質(zhì)檢來實(shí)現(xiàn),不但提高了翻譯門檻,降低 了翻譯效率,而且依然無法完全杜絕該類詞匯的翻譯錯譯。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的之一是提供一種確定多義詞詞義的方法,以解決現(xiàn)有技術(shù)中對于多 義詞的翻譯效率低的問題。
[0004] 在一些說明性實(shí)施例中,所述確定多義詞詞義的方法,包括:獲取待判定詞義的多 義詞w的關(guān)聯(lián)文本,并從所述關(guān)聯(lián)文本中找出其具有的詞匯w的特征詞;以找出的所述特征 詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進(jìn)行判定;根據(jù)判定結(jié)果, 確定所述詞匯w當(dāng)前應(yīng)采用的詞義。
[0005] 與現(xiàn)有技術(shù)相比,本發(fā)明的說明性實(shí)施例包括以下優(yōu)點(diǎn):
[0006] 本發(fā)明提高了多義詞在不同文體和語境下的翻譯準(zhǔn)確性,降低了多義詞類文本翻 譯的門檻,提升了翻譯效率,大大節(jié)省了人力物力。
【附圖說明】
[0007] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0008] 圖1是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0009] 圖2是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0010] 圖3是按照本發(fā)明的說明性實(shí)施例的決策樹示例圖;
[0011] 圖4是按照本發(fā)明的說明性實(shí)施例的決策樹示例圖;
[0012] 圖5是按照本發(fā)明的說明性實(shí)施例的決策樹示例圖。
【具體實(shí)施方式】
[0013] 在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對本發(fā)明的透徹理解。但是, 本領(lǐng)域的技術(shù)人員會理解,即使沒有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒有詳 細(xì)描述眾所周知的方法、過程、組件和電路,以免影響對本發(fā)明的理解。
[0014] 如圖1所示,公開了一種確定多義詞詞義的方法,包括:
[0015] S11、獲取待判定詞義的多義詞w的關(guān)聯(lián)文本,并從所述關(guān)聯(lián)文本中找出其具有的 詞匯w的特征詞;
[0016]S12、以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順 序依次進(jìn)行判定;
[0017]S13、根據(jù)判定結(jié)果,確定所述詞匯w當(dāng)前應(yīng)采用的詞義。
[0018] 本發(fā)明提高了多義詞在不同文體和語境下的翻譯準(zhǔn)確性,降低了多義詞類文本翻 譯的門檻,提升了翻譯效率,大大節(jié)省了人力物力。
[0019] 在一些說明性實(shí)施例中,所述獲取待判定詞義的多義詞w的關(guān)聯(lián)文本,并從所述 關(guān)聯(lián)文本中找出其具有的詞匯w的特征詞之前,還包括:從語料庫中隨機(jī)選取一定數(shù)量的、 包含詞匯w的特定段落;對選取的所述特定段落進(jìn)行至少一次數(shù)據(jù)篩選,篩選確定出所述 詞匯w的所述特征詞。
[0020] 其中,所述特定段落為詞匯W在語料庫中的所在句、所在的自然段或詞匯w在語料 庫中如后一定樞圍的詞匯集合。
[0021] 如圖2所示,在一些說明性實(shí)施例中,所述對選取的所述特定段落進(jìn)行至少一次 數(shù)據(jù)篩選,篩選確定出所述詞匯w的所述特征詞,具體包括:
[0022]S21、對選取的每個特定段落進(jìn)行分詞處理,去除其中的停用詞,將剩余的詞匯作 為候選關(guān)聯(lián)詞;
[0023] 具體包括:保留為名稱、動詞、形容詞、副詞、習(xí)語或縮略語的詞匯。
[0024] 其中,通過對停用詞的去除,降低了不相關(guān)詞匯對特征詞的選取的噪聲影響,提高 了得到的特征詞的可靠性和準(zhǔn)確性。
[0025]S22、保留出現(xiàn)概率高于第一閾值的候選關(guān)聯(lián)詞作為關(guān)聯(lián)詞,并計算出每個所述關(guān) 聯(lián)詞與詞匯w的每個詞義的互信息;
[0026] 其中,通過去除詞頻低的詞匯,可以有效的確定針對于詞匯w的更加相關(guān)的詞匯, 進(jìn)一步提高了得到的特征詞的可靠性和準(zhǔn)確性。
[0027]S23、將得到的所述互信息高于第二閾值的關(guān)聯(lián)詞作為與該詞義具有對應(yīng)關(guān)系的 所述特征詞。
[0028] 其中,互信息是計算語言學(xué)模型分析的常用方法,可以更有效的篩選出與詞匯w 的詞義更加相關(guān)聯(lián)的詞匯,確定特征詞,大大提高了得到的特征詞的可靠性和準(zhǔn)確性。
[0029] 在一些說明性實(shí)施例中,所述計算出每個所述關(guān)聯(lián)詞與詞匯w的每個詞義為互信 息,具體包括:
[0030] 按照如下公式計算出第i個詞義叫和第j個關(guān)聯(lián)詞w」的互信息I(mi,Wj):
[0031]
【主權(quán)項(xiàng)】
1. 一種確定多義詞詞義的方法,其特征在于,包括: 獲取待判定詞義的多義詞W的關(guān)聯(lián)文本,并從所述關(guān)聯(lián)文本中找出其具有的詞匯W的 特征詞; 以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進(jìn) 行判定; 根據(jù)判定結(jié)果,確定所述詞匯W當(dāng)前應(yīng)采用的詞義。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取待判定詞義的多義詞w的關(guān)聯(lián)文 本,并從所述關(guān)聯(lián)文本中找出其具有的詞匯w的特征詞之前,還包括: 從語料庫中隨機(jī)選取一定數(shù)量的、包含詞匯w的特定段落; 對選取的所述特定段落進(jìn)行至少一次數(shù)據(jù)篩選,篩選確定出所述詞匯W的所述特征 。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對選取的所述特定段落進(jìn)行至少一 次數(shù)據(jù)篩選,篩選確定出所述詞匯w的所述特征詞,具體包括: 對選取的每個特定段落進(jìn)行分詞處理,去除其中的停用詞,將剩余的詞匯作為候選關(guān) 聯(lián)詞; 保留出現(xiàn)概率高于第一閾值的候選關(guān)聯(lián)詞作為關(guān)聯(lián)詞,,并計算出每個所述關(guān)聯(lián)詞與 詞匯w的每個詞義的互信息; 將得到的所述互信息高于第二閾值的關(guān)聯(lián)詞作為該詞義的所述特征詞。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計算出每個所述關(guān)聯(lián)詞與詞匯w的每 個詞義為互信息,具體包括: 按照如下公式計算出第i個詞義叫和第j個關(guān)聯(lián)詞wj的互信息I(mi,Wj):
其中,POiO為詞匯w的第i個詞義叫的先驗(yàn)概率,P(Wj)為第j個關(guān)聯(lián)詞%在所述選 取的所述特定段落中的出現(xiàn)概率,P(miWp為第i個詞義%和第j個關(guān)聯(lián)詞同時出現(xiàn)的 概率;i為詞匯w的詞義序號,,j為關(guān)聯(lián)詞的序號。
5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述以找出的所述特征詞在用于判定 詞義的決策樹中,按照所述決策樹的生成順序依次進(jìn)行判定之前,還包括: 根據(jù)確定的所述特征詞,利用ID3算法或C4. 5算法構(gòu)建詞匯w用于判定詞義的決策 樹。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用ID3算法或C4. 5算法構(gòu)建詞匯 w用于判定詞義的決策樹的過程中,包括: 將每個詞義的對應(yīng)特征詞作為所述決策樹的判定結(jié)點(diǎn)上的特征項(xiàng); 根據(jù)所述特征項(xiàng)的信息增益或信息增益比從大到小的順序生成所述決策樹; 其中,每個所述特征項(xiàng)對應(yīng)有判定其取值結(jié)果的第三閾值。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)判定結(jié)果,確定所述詞匯w當(dāng)前 應(yīng)采用的詞義,具體包括: 以所述關(guān)聯(lián)文本中找出的特征詞,在所述決策樹上按該決策樹的生成順序依次進(jìn)行判 定; 結(jié)果滿足該決策樹上葉子結(jié)點(diǎn)的判定,則將該決策樹對應(yīng)的詞義作為所述詞匯W當(dāng)前 應(yīng)采用的詞義。
8. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對選取的每個特定段落進(jìn)行分詞處 理,去除其中的停用詞,將剩余的詞匯作為候選關(guān)聯(lián)詞,具體包括: 保留為名稱、動詞、形容詞、副詞、習(xí)語或縮略語的詞匯。
9. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特定段落為詞匯w在語料庫中的所在 句、所在的自然段或詞匯w在語料庫中前后一定范圍的詞匯集合。
【專利摘要】一種確定多義詞詞義的方法,包括:獲取待判定詞義的多義詞w的關(guān)聯(lián)文本,并從所述關(guān)聯(lián)文本中找出其具有的詞匯w的特征詞;;以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進(jìn)行判定;根據(jù)判定結(jié)果,確定所述詞匯w當(dāng)前應(yīng)采用的詞義。本發(fā)明提高了多義詞在不同文體和語境下的翻譯準(zhǔn)確性,降低了多義詞類文本翻譯的門檻,提升了翻譯效率,大大節(jié)省了人力物力。
【IPC分類】G06F17-28
【公開號】CN104572633
【申請?zhí)枴緾N201410821314
【發(fā)明人】江潮, 張芃
【申請人】語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
【公開日】2015年4月29日
【申請日】2014年12月25日