用于比較文本的設備和方法
【專利摘要】本發(fā)明提供了一種用于比較文本的設備,包括:第一提取單元,被配置為從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中;第二提取單元,被配置為從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中;比較單元,被配置為將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較;以及輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數(shù)據。本發(fā)明還提供了一種用于比較文本的方法。本發(fā)明節(jié)省了比較文本所需的時間,提高了效率。
【專利說明】用于比較文本的設備和方法
【技術領域】
[0001]本發(fā)明涉及信息處理領域,更具體地,涉及一種用于比較文本的設備和一種用于比較文本的方法。
【背景技術】
[0002]校對過程(文本比較過程)主要應用在出版領域。一般由經過專業(yè)訓練的校對人員對稿件進行校對。軟件開發(fā)過程中,由于設計到本地化的問題,需要對其中使用的語言進行翻譯然后進行校對。這些專業(yè)校對人員可以完成語義和語法的校對,但對于其中涉及的格式化信息一般很難進行正確的校對。目前常用的方式是:專業(yè)校對人員完成語義和語法等校對,然后交由軟件開發(fā)工程師,完成格式化信息的校對。
[0003]格式化信息可以理解為是為了對字符串中的部分內容進行動態(tài)替換而定義的格式化字符串。具體地,格式化字符串可以包含一些占位符,表示在運行時要使用可變信息替換的數(shù)據。例如,“He I 1 everyone, my name is% l$s”是格式化字符串,其中的占位符的定義如下:使用% [index] $ [type]格式進行標記,index標記替換資源中第index個資源對應的位置,type則標示所要替換的資源的類型(s表示資源為字符串格式)。
[0004]然而,這種校對方式將占用軟件開發(fā)工程師的大量時間,并且隨著語言版本的增多,工作量將隨之增加。
【發(fā)明內容】
[0005]為了解決上述問題,本發(fā)明提供了一種用于比較文本的設備和一種用于比較文本的方法。本發(fā)明首先提取格式化模板中的格式化信息,然后和待比較的文本進行比較,最后輸出包含錯誤格式化信息的文本數(shù)據。
[0006]具體地,根據本發(fā)明的第一方案,提供了一種用于比較文本的設備,包括:第一提取單元,被配置為從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中;第二提取單元,被配置為從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中;比較單元,被配置為將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較;以及輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數(shù)據。
[0007]在一個實施例中,所述第一提取單元和所述第二提取單元均被配置為:將文本數(shù)據的ID和文本數(shù)據的值保存到所述數(shù)據表中。
[0008]在一個實施例中,所述比較單元還被配置為:針對第一數(shù)據表中的每一項文本數(shù)據,將所述文本數(shù)據包含的格式化信息保存在第一數(shù)組中,并將第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息保存在第二數(shù)組中;以及比較第一數(shù)組和第二數(shù)組中的每個元素,只有兩個數(shù)組中的元素完全相同,才確定該文本數(shù)據包含的格式化信息相同。
[0009]在一個實施例中,所述輸出單元還被配置為:針對每一項具有不同格式化信息的文本數(shù)據,輸出該文本數(shù)據的ID、第一數(shù)據表中該文本數(shù)據的值以及第二數(shù)據表中該文本數(shù)據的值。
[0010]根據本發(fā)明的第二方案,提供了一種用于比較文本的方法,包括:從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中;從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中;將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較;以及輸出通過比較步驟獲得的、格式化信息不完全相同的文本數(shù)據。
[0011]在一個實施例中,將文本數(shù)據的ID和文本數(shù)據的值保存到所述數(shù)據表中。
[0012]在一個實施例中,針對第一數(shù)據表中的每一項文本數(shù)據,將所述文本數(shù)據包含的格式化信息保存在第一數(shù)組中,并將第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息保存在第二數(shù)組中;以及比較第一數(shù)組和第二數(shù)組中的每個元素,只有兩個數(shù)組中的元素完全相同,才確定該文本數(shù)據包含的格式化信息相同。
[0013]在一個實施例中,針對每一項具有不同格式化信息的文本數(shù)據,輸出該文本數(shù)據的ID、第一數(shù)據表中該文本數(shù)據的值以及第二數(shù)據表中該文本數(shù)據的值。
[0014]通過本發(fā)明的方法,可以自動實現(xiàn)新增語言版本中的格式化信息的比較,從而節(jié)省了時間成本,提高了效率。
【專利附圖】
【附圖說明】
[0015]通過下面結合【專利附圖】
【附圖說明】本發(fā)明的優(yōu)選實施例,將使本發(fā)明的上述及其它目的、特征和優(yōu)點更加清楚,其中:
[0016]圖1是示出了根據本發(fā)明的一個實施例的用于比較文本的設備的框圖。
[0017]圖2是示出了根據本發(fā)明的一個實施例的用于比較文本的方法的流程圖。
[0018]在本發(fā)明的所有附圖中,相同或相似的結構均以相同或相似的附圖標記標識。
【具體實施方式】
[0019]下面參照附圖對本發(fā)明的優(yōu)選實施例進行詳細說明,在描述過程中省略了對于本發(fā)明來說是不必要的細節(jié)和功能,以防止對本發(fā)明的理解造成混淆。
[0020]圖1是示出了根據本發(fā)明的一個實施例的用于比較文本的設備10的框圖。如圖1所示,設備10包括第一提取單元110、第二提取單元120、比較單元130和輸出單元140。下面,對圖1所示的設備10的各個組件進行詳細描述。
[0021]第一提取單元110被配置為從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中。模板可以是任何語言版本,下文以英語版本作為示例。對于模板,需要經過嚴格的測試,保證其中的格式化信息完全正確。第一提取單元110通過遍歷的方式,依次讀取模板中的每一項文本數(shù)據。如果其中包含格式化信息,就保存下來。保存時,可以以文本的標識(ID)作為關鍵字(key),以具體的文本數(shù)據為值(value),保存為哈希表中的一項,直至讀取模板中的所有文本數(shù)據。
[0022]第二提取單元120被配置為從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中。這里假設待比較的文本是簡體中文文本。同樣,第二提取單元120通過遍歷的方式,依次讀取每一項文本數(shù)據。如果其中包含格式化信息,就保存下來,保存方式與上文描述的第一提取單兀110的方式相同。
[0023]比較單元130被配置為將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較。在一個實施例中,比較單元130針對第一數(shù)據表中的每一項文本數(shù)據,將所述文本數(shù)據包含的格式化信息保存在第一數(shù)組中,并將第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息保存在第二數(shù)組中。然后,比較單元130比較第一數(shù)組和第二數(shù)組中的每個元素,只有兩個數(shù)組中的元素完全相同,才確定該文本數(shù)據包含的格式化信息相同。
[0024]輸出單元140被配置為輸出通過比較單元130獲得的、格式化信息不完全相同的文本數(shù)據。例如,輸出單元140可以針對每一項具有不同格式化信息的文本數(shù)據,輸出該文本數(shù)據的ID、第一數(shù)據表中該文本數(shù)據的值以及第二數(shù)據表中該文本數(shù)據的值。
[0025]下面,通過一個示例應用場景,詳細描述圖1所示的設備10的各個組件的操作。首
先,假設模板包括以下字符串數(shù)據:
[0026]
<string name=”first—guide—agreement”>By clicking Startf you agree to the %l$s</string>
<string name="fe-ture—new—ti亡JeTs New?</string>
<string name= "current—posi tion_identifyingff>%l$d/%2$d</str±nq> 〈string name="sms_progress_white_text_firstn>SHS Capacity: %l$d%% used (Total 名2$己)</string>
<string name= "sins—iri亡o_dbw>TotaI of %l$d messages imported</string>
[0027]以“〈string name=" feature—new—title " >What\,s New ?〈/string〉”為例,其中 name = " feature—new—title "中的 feature—new—title 為本條字符串數(shù)據的 ID,What\- s New ?為本條字符串的值。
[0028]第一提取單元110判斷當前字符串的值中是否包含格式化信息。例如,可以采用正則表達式"% [0-9]*[$]*[0-9]*[a-z]"來判斷格式化信息。如果符合此正則表達式,則第一提取單元110將(ID,值)作為一個鍵值對,存入數(shù)據表中。遍歷上述數(shù)據,則得到的數(shù)據表如下:
【權利要求】
1.一種用于比較文本的設備,包括: 第一提取單元,被配置為從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中; 第二提取單元,被配置為從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中; 比較單元,被配置為將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較;以及 輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數(shù)據。
2.根據權利要求1所述的設備,其中,所述第一提取單元和所述第二提取單元均被配置為:將文本數(shù)據的ID和文本數(shù)據的值保存到所述數(shù)據表中。
3.根據權利要求1所述的設備,其中,所述比較單元還被配置為: 針對第一數(shù)據表中的每一項文本數(shù)據, 將所述文本數(shù)據包含的格式化信息保存在第一數(shù)組中,并將第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息保存在第二數(shù)組中;以及 比較第一數(shù)組和第二數(shù)組中的每個元素,只有兩個數(shù)組中的元素完全相同,才確定該文本數(shù)據包含的格式化信息相同。
4.根據權利要求1所述的設備,其中,所述輸出單元還被配置為:針對每一項具有不同格式化信息的文本數(shù)據,輸出該文本數(shù)據的ID、第一數(shù)據表中該文本數(shù)據的值以及第二數(shù)據表中該文本數(shù)據的值。
5.一種用于比較文本的方法,包括: 從模板中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第一數(shù)據表中; 從待比較的文本數(shù)據中提取包含格式化信息的文本數(shù)據,并將所提取的文本數(shù)據保存到第二數(shù)據表中; 將第一數(shù)據表中的每一項文本數(shù)據所包含的格式化信息與第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息進行比較;以及 輸出通過比較步驟獲得的、格式化信息不完全相同的文本數(shù)據。
6.根據權利要求5所述的方法,其中,將文本數(shù)據的ID和文本數(shù)據的值保存到所述數(shù)據表中。
7.根據權利要求5所述的方法,其中,針對第一數(shù)據表中的每一項文本數(shù)據, 將所述文本數(shù)據包含的格式化信息保存在第一數(shù)組中,并將第二數(shù)據表中的對應文本數(shù)據所包含的格式化信息保存在第二數(shù)組中;以及 比較第一數(shù)組和第二數(shù)組中的每個元素,只有兩個數(shù)組中的元素完全相同,才確定該文本數(shù)據包含的格式化信息相同。
8.根據權利要求5所述的方法,其中,針對每一項具有不同格式化信息的文本數(shù)據,輸出該文本數(shù)據的ID、第一數(shù)據表中該文本數(shù)據的值以及第二數(shù)據表中該文本數(shù)據的值。
【文檔編號】G06F17/22GK103440231SQ201310392331
【公開日】2013年12月11日 申請日期:2013年9月2日 優(yōu)先權日:2013年9月2日
【發(fā)明者】李明 申請人:北京網秦天下科技有限公司