網(wǎng)頁翻譯方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁翻譯方法和系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,在線站點(diǎn)頁面的翻譯采用的是將頁面數(shù)據(jù)下載并打包成文本文件,然后將文本文件發(fā)送給翻譯人員,翻譯人員僅在文本信息的基礎(chǔ)上翻譯,翻譯完成后將翻譯結(jié)果發(fā)送給網(wǎng)頁建設(shè)人員,由網(wǎng)頁建設(shè)人員再根據(jù)翻譯結(jié)果重新生成目標(biāo)語言的網(wǎng)頁,完成網(wǎng)頁的翻譯工作。由于翻譯人員見到的是單純的文本信息,無法結(jié)合翻譯語境,所以翻譯準(zhǔn)確性有限。另外不同的網(wǎng)頁處理的翻譯人員不同,每個(gè)翻譯人員都是在待翻譯文本基礎(chǔ)上逐條翻譯,無法重復(fù)利用歷史翻譯數(shù)據(jù),造成很多重復(fù)性勞動(dòng),翻譯效率低下,人工成本高。此外,還存在一詞多義的問題,不同的翻譯人員對同一個(gè)待翻譯詞翻譯后的翻譯文字也是不一樣的,由此導(dǎo)致同一詞翻譯后在網(wǎng)站上顯示的結(jié)果不一致。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中網(wǎng)頁翻譯準(zhǔn)確性和一致性差、翻譯效率低、人工成本高的缺陷,提供一種翻譯準(zhǔn)確、一致性好且翻譯效率高的網(wǎng)頁翻譯方法和系統(tǒng)。
[0004]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題:
[0005]本發(fā)明提供一種網(wǎng)頁翻譯方法,其特點(diǎn)是,包括以下步驟:
[0006]S1、獲取待翻譯網(wǎng)頁的每一標(biāo)簽的文字顯示區(qū)域,提取標(biāo)簽中的待處理文字;
[0007]S2、獲取每一標(biāo)簽的文字顯示區(qū)域的大??;
[0008]S3、按每一標(biāo)簽翻譯所述待處理文字,以生成目標(biāo)語言的翻譯文字,每一標(biāo)簽的翻譯文字所占的空間小于或等于該標(biāo)簽的文字顯示區(qū)域的大?。?br>[0009]S4、生成目標(biāo)語言網(wǎng)頁,所述目標(biāo)語言網(wǎng)頁的標(biāo)簽的布局同所述待翻譯網(wǎng)頁一致,所述目標(biāo)語言網(wǎng)頁中每一標(biāo)簽的文字均采用對應(yīng)的所述翻譯文字。
[0010]本方案S1中,待翻譯網(wǎng)頁的內(nèi)容包括若干文字顯示區(qū)域,每個(gè)文字顯示區(qū)域?qū)?yīng)一個(gè)標(biāo)簽,以標(biāo)簽為單位分別提取網(wǎng)頁中每個(gè)標(biāo)簽中的待處理文字,該待處理文字為接下去需要進(jìn)一步翻譯的文字。&中,獲取每一標(biāo)簽的文字顯示區(qū)域的大小是指獲取待翻譯網(wǎng)頁中每一標(biāo)簽的文字顯示區(qū)域可以容納不同大小和類型的字體的字符個(gè)數(shù)等相關(guān)信息。&中,以標(biāo)簽為單位,翻譯每個(gè)標(biāo)簽的待處理文字,生成每組標(biāo)簽對應(yīng)的目標(biāo)語言的翻譯文字,要求生成的翻譯文字在目標(biāo)語言網(wǎng)頁中對應(yīng)標(biāo)簽的文字顯示區(qū)域中以某種要求類型字體和字號(hào)顯示時(shí)所占網(wǎng)頁空間小于或者等于所在的文字顯示區(qū)域的大小。&中,所述目標(biāo)語言網(wǎng)頁的標(biāo)簽的布局同所述待翻譯網(wǎng)頁一致,此處是指每一標(biāo)簽的位置和標(biāo)簽在網(wǎng)頁中所占的空間大小一致。
[0011]本方案中,由于生成的目標(biāo)語言網(wǎng)頁的標(biāo)簽布局同待翻譯網(wǎng)頁一致,且每一標(biāo)簽的文字內(nèi)容不超過對應(yīng)文字顯示區(qū)域的大小,因此保證了翻譯后生成的目標(biāo)語言網(wǎng)頁同待翻譯網(wǎng)頁頁面布局的高契合度。
[0012]較佳地,S3包括以下步驟:
[0013]S31、按每一標(biāo)簽翻譯所述待處理文字,生成若干組字符長度不同的待選翻譯文字;
[0014]S32、從所述若干組待選翻譯文字中選取一組所占的空間小于或等于該標(biāo)簽的文字顯示區(qū)域的大小的待選翻譯文字作為所述翻譯文字。
[0015]本方案中,每一標(biāo)簽對應(yīng)的待處理文字都需要翻譯出多組文字,這些多組文字稱為待選翻譯文字,而翻譯出的每組待選翻譯文字的長度有多種,有的長,有的短,也有的一樣長。根據(jù)該組標(biāo)簽對應(yīng)的文字顯示區(qū)域的大小,在前述不同字符長度的待選翻譯文字中選擇一組不超過該標(biāo)簽的文字顯示區(qū)域的大小的待選翻譯文字作為所述翻譯文字。
[0016]較佳地,S32包括以下步驟:
[0017]S321、逐一調(diào)整所述待選翻譯文字的字體大小,以生成比對應(yīng)標(biāo)簽的待處理文字的字體大一號(hào)、相同和小一號(hào)的待選翻譯字體文字;
[0018]S322、從S321中生成的字號(hào)不同的所述待選翻譯字體文字中選取一組占的空間小于或等于該標(biāo)簽的文字顯示區(qū)域的大小且最接近該標(biāo)簽的文字顯示區(qū)域的大小的所述待選翻譯字體文字作為所述翻譯文字。
[0019]本方案中,對S31中生成的若干組字符長度不同的待選翻譯文字進(jìn)行字體和字號(hào)的調(diào)整,字體根據(jù)所述目標(biāo)語言網(wǎng)頁的需求而定,可以有多種選擇,字號(hào)有三種選擇,以對應(yīng)標(biāo)簽的待處理文字的字號(hào)為參考,比其大一號(hào)、一樣大和小一號(hào)三種,若干組字符長度不同的待選翻譯文字經(jīng)字體類型和字號(hào)大小調(diào)整后生成的文字稱為待選翻譯字體文字。
[0020]本方案中,多種類型字體和三種字號(hào)大小的調(diào)整,提高了所述翻譯文字同其對應(yīng)標(biāo)簽的文字顯示區(qū)域的大小匹配率,更好的提高目標(biāo)語言網(wǎng)頁同待翻譯網(wǎng)頁頁面布局的契
AFth
I=I /又 ο
[0021]較佳地,S3包括以下步驟:
[0022]S31,、采用分詞算法分解所述待處理文字,以生成若干個(gè)待翻譯元素詞;
[0023]S32,、在翻譯歷史詞庫中查找每個(gè)待翻譯元素詞匹配的目標(biāo)元素詞,若找不到,則調(diào)用第三方翻譯引擎進(jìn)行翻譯,以得到目標(biāo)元素詞,并將翻譯結(jié)果增加到所述翻譯歷史詞庫中,所述翻譯歷史詞庫用于存放所有的歷史翻譯結(jié)果;
[0024]S33,、以S32.中的目標(biāo)元素詞將所述待處理文字翻譯生成所述翻譯文字。
[0025]本方案中,首先對待處理文字進(jìn)行分詞處理,從而生成若干個(gè)待翻譯元素詞,此待翻譯元素詞為分詞后的短語、詞組或者一個(gè)字,現(xiàn)有技術(shù)中分詞方法有多種,可根據(jù)需要選擇。然后,對每個(gè)待翻譯元素詞做翻譯處理,此處的翻譯處理也分為兩個(gè)步驟,首先在以往積累的翻譯歷史詞庫中查找目標(biāo)元素詞對應(yīng)的翻譯結(jié)果,如果有,則查找命中;如果沒有,再調(diào)用現(xiàn)有的第三方翻譯引擎進(jìn)行翻譯,獲得翻譯結(jié)果。此處的翻譯歷史詞庫包括翻譯累積的歷史翻譯結(jié)果,該翻譯歷史詞庫對于同一領(lǐng)域的網(wǎng)頁的待翻譯元素詞的命中的概率相對第三方翻譯引擎所采用的詞庫更高,速度更快,而且保證了同一領(lǐng)域網(wǎng)頁中同一詞翻譯結(jié)果的相對一致性。
[0026]較佳地,S31.包括以下步驟:
[0027]S31,P以歷史分詞詞庫為基礎(chǔ)對所述待處理文字進(jìn)行分詞;
[0028]S31,2、以常用傳統(tǒng)分詞詞庫為基礎(chǔ)對S3ri中未分解成功的所述待處理文字的剩余部分進(jìn)行分詞,并將分詞結(jié)果增加到所述歷史分詞詞庫中,所述歷史分詞詞庫用于存放所有的歷史待翻譯元素詞;
[0029]S31,3、以Sf1的分詞結(jié)果和S31,2的分詞結(jié)果共同生成待翻譯元素詞。
[0030]本方案中,歷史分詞詞庫包括以往積累的分解的所有結(jié)果。分詞分為兩步驟,首先采用分詞算法在歷史分詞詞庫中進(jìn)行分詞,也就是在歷史分詞詞庫查找歷史分詞,所述歷史分詞就是以往分解過的短語、詞組或者字。首先以歷史分詞詞庫為基礎(chǔ)進(jìn)行分詞,是因?yàn)橥活I(lǐng)域使用相同的技術(shù)術(shù)語等短語的概率相對其他領(lǐng)域要高,從而提高分詞命中率,提高分詞效率。
[0031]較佳地,S31.中所述分詞算法為正向最大匹配算法、歧義消除規(guī)則算法或雙向最大匹配算法。
[0032]本發(fā)明還提供一種網(wǎng)頁翻譯系統(tǒng),其特點(diǎn)是,包括:
[0033]文字提取模塊,用于獲取待翻譯網(wǎng)頁的每一標(biāo)簽的文字顯示區(qū)域,提取標(biāo)簽中的待處理文字;
[0034]區(qū)域大小獲取模塊,用于獲取每一標(biāo)簽的文字顯示區(qū)域的大??;
[0035]文字翻譯模塊,用于按每一標(biāo)簽翻譯所述待處理文字,以生成目標(biāo)語言的翻譯文字,每一標(biāo)簽的翻譯文字所占的空間小于或等于該標(biāo)簽的文字顯示區(qū)域的大?。?br>[0036]網(wǎng)頁生成模塊,用于生成目標(biāo)語言網(wǎng)頁,所述目標(biāo)語言網(wǎng)頁的標(biāo)簽的布局同所述待翻譯網(wǎng)頁一致,所述目標(biāo)語言網(wǎng)頁中每一標(biāo)