專利名稱:一種互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,應(yīng)用于互聯(lián)網(wǎng)物聯(lián)網(wǎng)信息科技領(lǐng)域。
背景技術(shù):
現(xiàn)有的互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯技術(shù),比如谷歌翻譯,谷歌的網(wǎng)頁(yè)翻譯系統(tǒng)在當(dāng)今互聯(lián)網(wǎng) 界得到了廣泛的應(yīng)用,主要用于粘貼文字翻譯與網(wǎng)頁(yè)整篇翻譯。其各部分的連接關(guān)系較直 觀,基本部分有三部分。第一部分為空白框,供用戶粘貼寫(xiě)入需翻譯內(nèi)容,或網(wǎng)頁(yè)地址;第二 部分為后臺(tái)處理,對(duì)用戶粘貼內(nèi)容或網(wǎng)址網(wǎng)頁(yè)全文翻譯;第三部分為顯示部分,顯示由第二 部分轉(zhuǎn)來(lái)的翻譯結(jié)果。谷歌翻譯系統(tǒng)簡(jiǎn)單實(shí)用,其不足之處是對(duì)內(nèi)容不加區(qū)分整塊翻譯返 回,對(duì)較長(zhǎng)文字段的翻譯,由于各語(yǔ)種語(yǔ)序習(xí)慣不同,意思經(jīng)常會(huì)雜亂疊加或意思失真。特 別是對(duì)于有規(guī)范化內(nèi)容結(jié)構(gòu)的網(wǎng)頁(yè),如電子商務(wù)網(wǎng)站對(duì)產(chǎn)品的介紹,許多網(wǎng)頁(yè)都是一種框 架結(jié)構(gòu),通常框架(Frame)的內(nèi)容是不變的,而具體的內(nèi)容(Content)在變,這時(shí)會(huì)產(chǎn)生重 復(fù)翻譯。
發(fā)明內(nèi)容
本發(fā)明針對(duì)目前自動(dòng)翻譯存在的問(wèn)題,提供一種互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,設(shè)計(jì)了一 個(gè)框架與內(nèi)容分離的翻譯系統(tǒng)以提高自動(dòng)翻譯系統(tǒng)的準(zhǔn)確率與效率。本發(fā)明對(duì)網(wǎng)頁(yè)從一種語(yǔ)言到另一種語(yǔ)言的翻譯,尤其對(duì)于有規(guī)范化內(nèi)容結(jié)構(gòu)的網(wǎng) 頁(yè),如電子商務(wù)網(wǎng)站對(duì)產(chǎn)品的介紹提供技術(shù)方案,步驟如下
A、對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行分析,將頁(yè)面文本分離為框架文本與內(nèi)容文本;
B、對(duì)框架文本只譯一次,原文存儲(chǔ)于第一文本,譯文存儲(chǔ)于第二文本;
C、對(duì)內(nèi)容文本,在數(shù)據(jù)庫(kù)中建立兩個(gè)表,分別為原文語(yǔ)言表與待譯語(yǔ)言表;
D、讀取具體的網(wǎng)頁(yè)內(nèi)容文本,將內(nèi)容文本的每個(gè)單元存儲(chǔ)于原文語(yǔ)言表里的對(duì)應(yīng)
項(xiàng);
E、對(duì)于原文語(yǔ)言表里填進(jìn)的內(nèi)容一一翻譯,將翻譯結(jié)果填入待譯語(yǔ)言表里的對(duì)應(yīng)
項(xiàng);
F、第一文本通過(guò)數(shù)據(jù)庫(kù)連接從原文語(yǔ)言表中取一個(gè)記錄,與網(wǎng)頁(yè)格式框架結(jié)合,形 成原文網(wǎng)頁(yè);第二文本通過(guò)數(shù)據(jù)庫(kù)連接從待譯語(yǔ)言表中取一個(gè)記錄,與網(wǎng)頁(yè)格式框架結(jié)合, 形成譯文網(wǎng)頁(yè)。所述第一文本和第二文本結(jié)構(gòu)上一一對(duì)應(yīng)。所述第一文本和第二文本都有數(shù)據(jù)庫(kù)連接機(jī)制,能夠從所述原文語(yǔ)言表與待譯語(yǔ) 言表中取有同樣序列號(hào)的記錄。所述原文語(yǔ)言表與待譯語(yǔ)言表是數(shù)據(jù)庫(kù)里預(yù)先設(shè)計(jì)好的兩個(gè)表,具有相同結(jié)構(gòu), 對(duì)每一記錄有獨(dú)特序列號(hào)。所述原文語(yǔ)言表與待譯語(yǔ)言表的序列號(hào)在原文語(yǔ)言表中為自動(dòng) 遞加產(chǎn)生,待譯語(yǔ)言表中是在根據(jù)原文語(yǔ)言表中內(nèi)容做對(duì)應(yīng)翻譯時(shí)復(fù)制所得。分離框架文本與內(nèi)容文本時(shí),將頁(yè)面文本中內(nèi)容單元的屬性名稱作為框架文本,
3內(nèi)容單元的具體內(nèi)容作為內(nèi)容文本。本發(fā)明的優(yōu)點(diǎn)是
1、因?yàn)楦髡Z(yǔ)種語(yǔ)序、用詞多義等特點(diǎn),語(yǔ)言自動(dòng)翻譯是很難準(zhǔn)確的,對(duì)有規(guī)范格式與內(nèi) 容的信息分框架與內(nèi)容分別處理,將對(duì)一般全文翻譯法從意義的傳達(dá)上將更準(zhǔn)確,以減少 自動(dòng)翻譯系統(tǒng)的張冠李戴,尤其對(duì)有規(guī)范格式的文本信息。2、如前所述,分框架與內(nèi)容后,框架僅需翻譯一次,提高了效率。
圖1是本發(fā)明原理示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。本發(fā)明應(yīng)用了現(xiàn)代信息領(lǐng)域的軟 件技術(shù)、數(shù)據(jù)庫(kù)技術(shù)與互聯(lián)網(wǎng)技術(shù)。應(yīng)用于不同語(yǔ)言間翻譯時(shí)更快、更準(zhǔn)確、更有效地完成 信息的轉(zhuǎn)譯,尤其適用于有規(guī)范各式與內(nèi)容的信息個(gè)體。本發(fā)明可用于互聯(lián)網(wǎng)系統(tǒng),也可用于其它自動(dòng)翻譯系統(tǒng),尤其適用于有規(guī)范格式 與內(nèi)容的信息,比如電子商務(wù)系統(tǒng)中對(duì)產(chǎn)品的介紹,將屬性名稱與內(nèi)容分開(kāi)處理,比如,“商 品對(duì)象”、“購(gòu)貨方式”等等關(guān)鍵詞屬于屬性名稱,是框架,而其屬性內(nèi)容,如“全球”、“廠家直 銷”等是可變內(nèi)容,一旦內(nèi)容有變,被置換,即會(huì)產(chǎn)生新的一個(gè)產(chǎn)品介紹。根據(jù)此特點(diǎn),采用 本發(fā)明所述方法的翻譯系統(tǒng)對(duì)框架內(nèi)容分別處理,框架只需翻譯一次,存于框架翻譯結(jié)果 存貯器,內(nèi)容根據(jù)不用產(chǎn)品,每個(gè)都需要根據(jù)原語(yǔ)種再譯,然后由結(jié)果合成器把框架結(jié)果與 內(nèi)容結(jié)果結(jié)合起來(lái)展示給用戶。如圖1所示結(jié)構(gòu),本發(fā)明所述方法已成功應(yīng)用于一新型電子商務(wù)系統(tǒng)的語(yǔ)言翻 譯,總體方案是是將屬性內(nèi)容置于預(yù)先設(shè)計(jì)好的數(shù)據(jù)庫(kù)表格內(nèi)。有一網(wǎng)頁(yè)用戶界面與此表 格相連,供翻譯者填入或修改內(nèi)容部分翻譯結(jié)果。框架屬性被預(yù)譯則置于翻譯結(jié)果合成器 中,合成器另可從數(shù)據(jù)庫(kù)中調(diào)用內(nèi)容部分翻譯結(jié)果的一個(gè)記錄,經(jīng)對(duì)應(yīng)合成,產(chǎn)生結(jié)果傳于 最終用戶界面??蚣芘c內(nèi)容分別翻譯流程,圖1中標(biāo)號(hào)對(duì)應(yīng)于以下步驟。例如一組規(guī)范結(jié)構(gòu)的網(wǎng)頁(yè)的文本其中一頁(yè)包括以下內(nèi)容 商品名 針織內(nèi)衣圓領(lǐng)情侶套裝
大陸港澳臺(tái)地區(qū)北美全球 廠家直銷 某某公司
商品對(duì)象 購(gòu)貨方式 供貨商家 商品規(guī)格 地區(qū) 地點(diǎn)
山東,淄博
山東淄博某某路某某號(hào) 發(fā)布時(shí)間 2009-11-9 則具體處理步驟為
1、 對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行分析,將頁(yè)面文本分離為框架文本與內(nèi)容文本,框架文本包括 “商品名”、“商品對(duì)象”、“購(gòu)貨方式”、“供貨商家”、“商品規(guī)格”、“地區(qū)”、“地點(diǎn)”、“發(fā)布時(shí)間”t 內(nèi)容文本包括“針織內(nèi)衣圓領(lǐng)情侶套裝”、“大陸港澳臺(tái)地區(qū)北美全球”、“廠家直銷”、“某某公司”、“山東,淄博”、“山東淄博某某路某某號(hào)”、“2009-11-9”。2、 對(duì)框架文本只譯一次,原文存儲(chǔ)于第一文本A,譯文存儲(chǔ)于第二文本B ;如第 一文本A保存
“商品名 商品對(duì)象 購(gòu)貨方式 供貨商家 商品規(guī)格 地區(qū) 地點(diǎn)
發(fā)布時(shí)間”
第二文本保存以上文本對(duì)應(yīng)譯文。文本A,B的形式可自行定義,能夠用軟件寫(xiě)入和讀 取其中特定內(nèi)容。3、 對(duì)頁(yè)面的內(nèi)容文本,在數(shù)據(jù)庫(kù)中建立兩個(gè)表,分別為原文語(yǔ)言表C與待譯語(yǔ) 言表D ;表C、D包括用于填寫(xiě)以下框架的內(nèi)容文本的項(xiàng)商品名、商品對(duì)象、購(gòu)貨方式、供貨 商家、商品規(guī)格、地區(qū)、地點(diǎn)、發(fā)布時(shí)間。4、 讀取具體的網(wǎng)頁(yè)內(nèi)容文本,將內(nèi)容文本的每個(gè)單元存儲(chǔ)于原文語(yǔ)言表C里的 對(duì)應(yīng)項(xiàng),一頁(yè)的內(nèi)容文本為一個(gè)單元,即將步驟1所述的內(nèi)容文本填入步驟3的對(duì)應(yīng)項(xiàng),作 為表的一條記錄。5、 對(duì)于原文語(yǔ)言表C里填進(jìn)的內(nèi)容一一翻譯,將翻譯結(jié)果填入待譯語(yǔ)言表D里 的對(duì)應(yīng)項(xiàng)。6、 第一文本A通過(guò)數(shù)據(jù)庫(kù)連接從原文語(yǔ)言表C中取一個(gè)記錄,與網(wǎng)頁(yè)框架部分 結(jié)合,形成原文網(wǎng)頁(yè);第二文本B通過(guò)數(shù)據(jù)庫(kù)連接從待譯語(yǔ)言表D中取一個(gè)記錄,與網(wǎng)頁(yè)框 架部分結(jié)合,形成譯文網(wǎng)頁(yè)。待譯語(yǔ)言表D的內(nèi)容,是根據(jù)原文語(yǔ)言表C中的記錄及時(shí)對(duì)應(yīng)產(chǎn)生,可以是機(jī)器翻 譯,比如通常所用的查字典法,預(yù)先將翻譯詞典置于數(shù)據(jù)庫(kù)中或其他可連接的電子記錄中, 或有連接原文語(yǔ)言表C、待譯語(yǔ)言表D表的用戶界面,從原文語(yǔ)言表C中取值,由人工翻譯, 再存于待譯語(yǔ)言表D中。采用本發(fā)明提供的翻譯法,避免了長(zhǎng)語(yǔ)句翻譯時(shí)由于不同語(yǔ)種語(yǔ)序不同導(dǎo)致的譯 文意思失真,同時(shí)框架部分只譯一次,省略了部分處理譯文時(shí)間,提高了效率。
權(quán)利要求
一種互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是該方法包括以下步驟A、 對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行分析,將頁(yè)面文本分離為框架文本與內(nèi)容文本;B、 對(duì)框架文本只譯一次,原文存儲(chǔ)于第一文本,譯文存儲(chǔ)于第二文本;C、 對(duì)內(nèi)容文本,在數(shù)據(jù)庫(kù)中建立兩個(gè)表,分別為原文語(yǔ)言表與待譯語(yǔ)言表;D、 讀取具體的網(wǎng)頁(yè)內(nèi)容文本,將內(nèi)容文本的每個(gè)單元存儲(chǔ)于原文語(yǔ)言表里的對(duì)應(yīng)項(xiàng);E、 對(duì)于原文語(yǔ)言表里填進(jìn)的內(nèi)容一一翻譯,將翻譯結(jié)果填入待譯語(yǔ)言表里的對(duì)應(yīng)項(xiàng);F、 第一文本通過(guò)數(shù)據(jù)庫(kù)連接從原文語(yǔ)言表中取一個(gè)記錄,與網(wǎng)頁(yè)格式框架結(jié)合,形成原文網(wǎng)頁(yè);第二文本通過(guò)數(shù)據(jù)庫(kù)連接從待譯語(yǔ)言表中取一個(gè)記錄,與網(wǎng)頁(yè)格式框架結(jié)合,形成譯文網(wǎng)頁(yè)。
2.如權(quán)利要求1所述互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是所述第一文本和第二文本結(jié)構(gòu)上--對(duì)應(yīng)。
3.如權(quán)利要求1所述互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是所述第一文本和第二文本都有 數(shù)據(jù)庫(kù)連接機(jī)制,能夠從所述原文語(yǔ)言表與待譯語(yǔ)言表中取有同樣序列號(hào)的記錄。
4.如權(quán)利要求1所述互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是所述原文語(yǔ)言表與待譯語(yǔ)言表 是數(shù)據(jù)庫(kù)里預(yù)先設(shè)計(jì)好的兩個(gè)表,具有相同結(jié)構(gòu),對(duì)每一記錄有獨(dú)特序列號(hào)。
5.如權(quán)利要求4所述互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是所述原文語(yǔ)言表與待譯語(yǔ)言表 的序列號(hào)在原文語(yǔ)言表中為自動(dòng)遞加產(chǎn)生,待譯語(yǔ)言表中是在根據(jù)原文語(yǔ)言表中內(nèi)容做對(duì) 應(yīng)翻譯時(shí)復(fù)制所得。
6.如權(quán)利要求1所述互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,其特征是將頁(yè)面文本中內(nèi)容單元的屬性 名稱作為框架文本,內(nèi)容單元的具體內(nèi)容作為內(nèi)容文本。
全文摘要
本發(fā)明公開(kāi)了一種互聯(lián)網(wǎng)網(wǎng)頁(yè)翻譯方法,該方法包括步驟對(duì)結(jié)構(gòu)規(guī)范化內(nèi)容的分析,分離為框架部分與內(nèi)容部分,框架部分如網(wǎng)頁(yè)內(nèi)容單元的屬性名稱,框架內(nèi)容部分如網(wǎng)頁(yè)內(nèi)容單元的內(nèi)容;對(duì)框架部分只譯一次,原文存儲(chǔ)于文本A,譯文存儲(chǔ)于文本B;對(duì)內(nèi)容部分,在數(shù)據(jù)庫(kù)中建立兩個(gè)表,對(duì)應(yīng)于原文語(yǔ)言的表C與待譯語(yǔ)言的表D;有了具體的網(wǎng)頁(yè)內(nèi)容單元記錄,先將內(nèi)容存儲(chǔ)于原文語(yǔ)言表里的對(duì)應(yīng)項(xiàng);對(duì)于原文語(yǔ)言表里的填進(jìn)的內(nèi)容,一一對(duì)應(yīng)翻譯,填入對(duì)應(yīng)于待譯語(yǔ)言表里的對(duì)應(yīng)項(xiàng)。采用本發(fā)明提供的翻譯法,避免了長(zhǎng)語(yǔ)句翻譯時(shí)由于不同語(yǔ)種語(yǔ)序不同導(dǎo)致的譯文意思失真,同時(shí)框架部分只譯一次,省略了部分處理譯文時(shí)間,提高了效率。
文檔編號(hào)G06F17/28GK101916248SQ20101027177
公開(kāi)日2010年12月15日 申請(qǐng)日期2010年9月3日 優(yōu)先權(quán)日2010年9月3日
發(fā)明者俞曉華 申請(qǐng)人:無(wú)錫諾寶科技發(fā)展有限公司