一種基于文檔片段的翻譯處理方法
【專(zhuān)利摘要】本發(fā)明涉及計(jì)算機(jī)語(yǔ)言與信息處理【技術(shù)領(lǐng)域】,具體公開(kāi)了一種基于文檔片段的翻譯處理方法,包括:將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子,并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo)簽,所述標(biāo)簽記錄句子在整篇文本中的位置;根據(jù)主題將文檔劃分為包含若干句子的片段,并建立所述片段和句子的映射關(guān)系;將多個(gè)相對(duì)獨(dú)立的不同行業(yè)、領(lǐng)域(主題)的文檔片段推送至相應(yīng)的譯員處理,達(dá)到多人并行處理,減少翻譯時(shí)限的目的,同時(shí)有利于提高翻譯處理的質(zhì)量。且記錄了句子和片段的映射關(guān)系,有利于譯文的標(biāo)記組合校對(duì)。
【專(zhuān)利說(shuō)明】一種基于文檔片段的翻譯處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)語(yǔ)言與信息處理【技術(shù)領(lǐng)域】,具體涉及到一種文檔片段處理的方 法。
【背景技術(shù)】
[0002] 一個(gè)文檔往往包括若干不同行業(yè)、領(lǐng)域的信息,在自動(dòng)翻譯領(lǐng)域,由于譯員所熟悉 的行業(yè)或?qū)I(yè)領(lǐng)域的局限性,將一篇混合行業(yè)、領(lǐng)域文檔交給某一個(gè)譯員處理時(shí),一方面譯 員處理很吃力,難以保證翻譯質(zhì)量。另一方面,對(duì)于翻譯時(shí)限緊迫的任務(wù),一個(gè)譯員處理難 以達(dá)到所需時(shí)限。如果能夠合理的將一篇文檔分成多個(gè)相對(duì)獨(dú)立的不同行業(yè)、領(lǐng)域(主題) 的文檔片段,然后每個(gè)片段推送至相應(yīng)的工作人員處理,則可達(dá)到多人并行處理,減少翻譯 時(shí)限的目的,同時(shí)有利于提高翻譯處理的質(zhì)量。
[0003] 文本劃分又稱(chēng)文本分割,是指在一個(gè)書(shū)面文檔或語(yǔ)音序列中自動(dòng)識(shí)別具有獨(dú)立意 義的單元(片段)之間的邊界。這種預(yù)處理在很多領(lǐng)域有著極為重要的應(yīng)用,比如在信息 提取、文本解析、語(yǔ)言建模等領(lǐng)域?,F(xiàn)有主要的文本分割技術(shù)主要基于語(yǔ)句-語(yǔ)義分析,為 文本建構(gòu)諸如PLSA模型、LDA模型或小世界模型,進(jìn)行主題分割。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于文檔片段的翻譯處理方法,以實(shí)現(xiàn)行 業(yè)領(lǐng)域匹配的多人并行翻譯處理。
[0005] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種基于文檔片段的翻譯處理方法,包括以下 步驟:
[0006] 將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子,并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo) 簽,所述標(biāo)簽記錄句子在整篇文本中的位置;
[0007] 根據(jù)主題將文檔劃分為包含若干句子的片段,并建立所述片段和句子的映射關(guān) 系;
[0008] 將所述片段分配給相應(yīng)的譯員進(jìn)行翻譯;
[0009] 根據(jù)句子位置標(biāo)簽順序?qū)ψg后的片段進(jìn)行組合,得到完成的文檔譯稿。
[0010] 標(biāo)記標(biāo)簽以XML方式將句子進(jìn)行封裝,保證數(shù)據(jù)的通用和交換性。
[0011] 所述根據(jù)主題將文檔劃分為包含若干句子的片段,包括以下步驟:
[0012] 對(duì)于行業(yè)領(lǐng)域主題關(guān)鍵字運(yùn)行Gibbs抽樣算法,迭代足夠次;
[0013] 以整句s作為L(zhǎng)DA模型的文本d,遍歷待分割文本的所有關(guān)鍵詞記號(hào),運(yùn)行Gibbs 抽樣算法,迭代少數(shù)幾次;
[0014] 求取待分割文本詞匯的概率分布P(w|s);
[0015] 基于P(wIs),利用Clarity度量計(jì)算句間的相似值Sim;
[0016] 結(jié)合局部最小值的邊界估計(jì)策略,通過(guò)句間相似值Sim識(shí)別片段邊界。
[0017] 所述通過(guò)句間相似值Sim識(shí)別片段邊界包括:假設(shè)待分割文本有η個(gè)整句,則相 鄰句間的相似值表為
[0018] SimTable= (Sim1,Sim2, . . .Simi. . .Simn^j,
[0019] 其中Simi=Sim(si,si+1),1彡i彡n-1在表中選擇局部最小值SinvJsps2);從 每一個(gè)局部最小值出發(fā)向左、向右分別尋找距離最近的較大值Simmaxl以及Simmm,利用公式
【權(quán)利要求】
1. 一種基于文檔片段的翻譯處理方法,其特征在于,包括以下步驟: 將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子,并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo)簽,所 述標(biāo)簽記錄句子在整篇文本中的位置; 根據(jù)主題將文檔劃分為包含若干句子的片段,并建立所述片段和句子的映射關(guān)系; 將所述片段分配給相應(yīng)的譯員進(jìn)行翻譯; 根據(jù)句子位置標(biāo)簽順序?qū)ψg后的片段進(jìn)行組合,得到完成的文檔譯稿。
2. 根據(jù)權(quán)利要求1所述的基于文檔片段的翻譯處理方法,其特征在于,所述標(biāo)記標(biāo)簽 以XML方式將句子進(jìn)行封裝。
3. 根據(jù)權(quán)利要求1所述的基于文檔片段的翻譯處理方法,其特征在于,所述根據(jù)主題 將文檔劃分為包含若干句子的片段,包括以下步驟: 對(duì)于行業(yè)領(lǐng)域主題關(guān)鍵字運(yùn)行Gibbs抽樣算法,迭代足夠次; 以整句s作為L(zhǎng)DA模型的文本d,遍歷待分割文本的所有關(guān)鍵詞記號(hào),運(yùn)行Gibbs抽樣 算法,迭代少數(shù)幾次; 求取待分割文本詞匯的概率分布P(w|s); 基于P(w|S),利用Clarity度量計(jì)算句間的相似值Sim; 結(jié)合局部最小值的邊界估計(jì)策略,通過(guò)句間相似值Sim識(shí)別片段邊界。
4. 根據(jù)權(quán)利要求3所述的基于文檔片段的翻譯處理方法,其特征在于,所述通過(guò)句間 相似值Sim識(shí)別片段邊界,包括以下步驟: 假設(shè)待分割文本有n個(gè)整句,則相鄰句間的相似值表為
【文檔編號(hào)】G06F17/28GK104484323SQ201410830632
【公開(kāi)日】2015年4月1日 申請(qǐng)日期:2014年12月26日 優(yōu)先權(quán)日:2014年12月26日
【發(fā)明者】江潮, 王杰 申請(qǐng)人:武漢傳神信息技術(shù)有限公司