一種基于文檔片段的翻譯處理方法

文檔序號(hào)：6640263閱讀：189來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文檔片段的翻譯處理方法
【專(zhuān)利摘要】本發(fā)明涉及計(jì)算機(jī)語(yǔ)言與信息處理【技術(shù)領(lǐng)域】，具體公開(kāi)了一種基于文檔片段的翻譯處理方法，包括：將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子，并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo)簽，所述標(biāo)簽記錄句子在整篇文本中的位置；根據(jù)主題將文檔劃分為包含若干句子的片段,并建立所述片段和句子的映射關(guān)系；將多個(gè)相對(duì)獨(dú)立的不同行業(yè)、領(lǐng)域(主題)的文檔片段推送至相應(yīng)的譯員處理，達(dá)到多人并行處理，減少翻譯時(shí)限的目的，同時(shí)有利于提高翻譯處理的質(zhì)量。且記錄了句子和片段的映射關(guān)系，有利于譯文的標(biāo)記組合校對(duì)。
【專(zhuān)利說(shuō)明】一種基于文檔片段的翻譯處理方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)語(yǔ)言與信息處理【技術(shù)領(lǐng)域】，具體涉及到一種文檔片段處理的方法。

【背景技術(shù)】
[0002] 一個(gè)文檔往往包括若干不同行業(yè)、領(lǐng)域的信息，在自動(dòng)翻譯領(lǐng)域，由于譯員所熟悉的行業(yè)或?qū)I(yè)領(lǐng)域的局限性，將一篇混合行業(yè)、領(lǐng)域文檔交給某一個(gè)譯員處理時(shí)，一方面譯員處理很吃力，難以保證翻譯質(zhì)量。另一方面，對(duì)于翻譯時(shí)限緊迫的任務(wù)，一個(gè)譯員處理難以達(dá)到所需時(shí)限。如果能夠合理的將一篇文檔分成多個(gè)相對(duì)獨(dú)立的不同行業(yè)、領(lǐng)域（主題）的文檔片段，然后每個(gè)片段推送至相應(yīng)的工作人員處理，則可達(dá)到多人并行處理，減少翻譯時(shí)限的目的，同時(shí)有利于提高翻譯處理的質(zhì)量。
[0003] 文本劃分又稱(chēng)文本分割，是指在一個(gè)書(shū)面文檔或語(yǔ)音序列中自動(dòng)識(shí)別具有獨(dú)立意義的單元（片段）之間的邊界。這種預(yù)處理在很多領(lǐng)域有著極為重要的應(yīng)用，比如在信息提取、文本解析、語(yǔ)言建模等領(lǐng)域?，F(xiàn)有主要的文本分割技術(shù)主要基于語(yǔ)句-語(yǔ)義分析，為文本建構(gòu)諸如PLSA模型、LDA模型或小世界模型，進(jìn)行主題分割。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于文檔片段的翻譯處理方法，以實(shí)現(xiàn)行業(yè)領(lǐng)域匹配的多人并行翻譯處理。
[0005] 為解決上述技術(shù)問(wèn)題，本發(fā)明提供一種基于文檔片段的翻譯處理方法，包括以下步驟：
[0006] 將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子，并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo) 簽，所述標(biāo)簽記錄句子在整篇文本中的位置；
[0007] 根據(jù)主題將文檔劃分為包含若干句子的片段，并建立所述片段和句子的映射關(guān) 系；
[0008] 將所述片段分配給相應(yīng)的譯員進(jìn)行翻譯；
[0009] 根據(jù)句子位置標(biāo)簽順序?qū)ψg后的片段進(jìn)行組合，得到完成的文檔譯稿。
[0010] 標(biāo)記標(biāo)簽以XML方式將句子進(jìn)行封裝，保證數(shù)據(jù)的通用和交換性。
[0011] 所述根據(jù)主題將文檔劃分為包含若干句子的片段，包括以下步驟：
[0012] 對(duì)于行業(yè)領(lǐng)域主題關(guān)鍵字運(yùn)行Gibbs抽樣算法，迭代足夠次；
[0013] 以整句s作為L(zhǎng)DA模型的文本d，遍歷待分割文本的所有關(guān)鍵詞記號(hào)，運(yùn)行Gibbs 抽樣算法，迭代少數(shù)幾次；
[0014] 求取待分割文本詞匯的概率分布P(w|s);
[0015] 基于P(wIs)，利用Clarity度量計(jì)算句間的相似值Sim;
[0016] 結(jié)合局部最小值的邊界估計(jì)策略，通過(guò)句間相似值Sim識(shí)別片段邊界。
[0017] 所述通過(guò)句間相似值Sim識(shí)別片段邊界包括：假設(shè)待分割文本有η個(gè)整句，則相鄰句間的相似值表為
[0018] SimTable= (Sim1,Sim2, . . .Simi. . .Simn^j,
[0019] 其中Simi=Sim(si，si+1)，1彡i彡n-1在表中選擇局部最小值SinvJsps2);從每一個(gè)局部最小值出發(fā)向左、向右分別尋找距離最近的較大值Simmaxl以及Simmm，利用公式

【權(quán)利要求】
1. 一種基于文檔片段的翻譯處理方法，其特征在于，包括以下步驟：將獲取的文本根據(jù)標(biāo)點(diǎn)符號(hào)拆分為句子，并對(duì)拆分得到的句子設(shè)置相應(yīng)標(biāo)記標(biāo)簽，所述標(biāo)簽記錄句子在整篇文本中的位置；根據(jù)主題將文檔劃分為包含若干句子的片段，并建立所述片段和句子的映射關(guān)系；將所述片段分配給相應(yīng)的譯員進(jìn)行翻譯；根據(jù)句子位置標(biāo)簽順序?qū)ψg后的片段進(jìn)行組合，得到完成的文檔譯稿。
2. 根據(jù)權(quán)利要求1所述的基于文檔片段的翻譯處理方法，其特征在于，所述標(biāo)記標(biāo)簽以XML方式將句子進(jìn)行封裝。
3. 根據(jù)權(quán)利要求1所述的基于文檔片段的翻譯處理方法，其特征在于，所述根據(jù)主題將文檔劃分為包含若干句子的片段，包括以下步驟：對(duì)于行業(yè)領(lǐng)域主題關(guān)鍵字運(yùn)行Gibbs抽樣算法，迭代足夠次；以整句s作為L(zhǎng)DA模型的文本d，遍歷待分割文本的所有關(guān)鍵詞記號(hào)，運(yùn)行Gibbs抽樣算法，迭代少數(shù)幾次；求取待分割文本詞匯的概率分布P(w|s); 基于P(w|S)，利用Clarity度量計(jì)算句間的相似值Sim; 結(jié)合局部最小值的邊界估計(jì)策略，通過(guò)句間相似值Sim識(shí)別片段邊界。
4. 根據(jù)權(quán)利要求3所述的基于文檔片段的翻譯處理方法，其特征在于，所述通過(guò)句間相似值Sim識(shí)別片段邊界，包括以下步驟：假設(shè)待分割文本有n個(gè)整句，則相鄰句間的相似值表為
【文檔編號(hào)】G06F17/28GK104484323SQ201410830632
【公開(kāi)日】2015年4月1日申請(qǐng)日期:2014年12月26日優(yōu)先權(quán)日:2014年12月26日
【發(fā)明者】江潮, 王杰申請(qǐng)人:武漢傳神信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江潮;王杰;
技術(shù)所有人：武漢傳神信息技術(shù)有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文檔片段的翻譯處理方法