專利名稱:一種文本信息處理裝置和設備的制作方法
技術領域:
本實用新型涉及信息文本處理技術,特別涉及一種中文字符的顯示技術。
背景技術:
目前大量的便攜式電子設備需要具備文本信息處理功能,例如手機需要 具備顯示短消息的功能,游戲機可以用于閱讀電子書,MP3^番放器可以同步顯 示歌詞,MP4播放器、PDA、掌上電腦等高級便攜式電子設備能夠查看多種格 式的文檔等。
如圖l所示,現有便攜式電子設備通常配置有中央處理器102、顯示單元 101和存儲單元103。當文本信息中包含中文字符時,在顯示單元101上實現 中文字符的顯示需要在這些便攜式電子設備中配置中文字庫,中央處理器102 根據中文字庫的支持將中文字符顯示到顯示單元101上,中文字庫可以存儲在 存儲單元103中。
中文字符包括簡體字和繁體字,兩種字符需要不同的字庫支持才能進行顯 示。而中文字庫的數據量很大,需要占用很大的存儲資源,因此在便攜式電子 設備上同時實現繁體字和簡體字顯示時,需要為便攜式設備配備容量足夠的存 儲單元。以16號字的字庫為例,如果是滿足GB2312-80 (《信息交換用漢字編 碼字符集基本集》)要求的簡體中文字庫,支持6763個漢字和其它一些圖形 化符號,占用內存約250KB;而如果使用滿足GB18030-2000 (《信息技術信 息交換用漢字編碼字符集基本集的擴充》)的帶繁體中文字庫,支持27484個 漢字和其它一些圖形化符號,占用內存約900KB。相對應的,如果使用24號 字,上述兩種字庫的大小分別為500KB和2000KB。含字更多的字庫所占用的 存儲容量更高,由于存儲設備的硬件成本在便攜式電子設備的整體成本中所占比例很高,所以字庫所需的存儲容量大大增加了便攜式電子設備的硬件成本。 為此,如果產品主要銷售市場面向以簡體字為主的應用地區(qū)時, 一般在侵_
攜式設備中僅配置滿足GB2312-80要求的筒體中文字庫,用于減少存儲單元的 容量需求,以降低產品的成本,但是由于簡體字庫中沒有繁體中文字體,導致 在需要顯示的文本信息中包含有繁體中文字符時,只能以空白或問號之類無意 義的方式顯示出來,給閱讀者造成理解障礙,從而降低了包含繁體字符的文本 信息的識別率,限制了便攜式電子設備的性能。
實用新型內容
本實用新型實施例提供一種文本信息處理裝置和設備,用以不依賴繁體字 字庫來提高包含繁體字字符的文本信息的識別率。
一種文本信息處理裝置,包括 數據緩存單元,用于保存待顯示文本數據;
對應關系存儲單元,用于保存繁體和簡體中文字符編碼數據之間的對應關
系;
簡體字庫存儲單元,用于保存簡體字字庫;
顯示單元,用于顯示所述待顯示文本數據對應的文本;
數據處理單元,用于根據所述對應關系存儲單元中保存的對應關系,將所 述數據緩存單元中的繁體中文字符編碼數據,轉換為對應的簡體中文字符編碼 數據;以及根據所述簡體字庫存儲單元中存儲的簡體字字庫,將所述轉換后的 待顯示文本數據中的中文字符顯示到顯示單元上。
進一步,所述的裝置還包括
數據存儲單元,用于保存文本數據;
數據控制單元,用于從所述數據存儲單元中讀取待顯示文本數據;將所述 待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元;以及根元上后返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文本數據。
較佳的,所述數據控制單元具體包括
信息獲得子單元,用于獲得顯示單元的屏幕尺寸信息和顯示模式設置信
息;
數據量確定子單元,用于根據所述屏幕尺寸信息和顯示模式設置信息,確 定每一次從數據存儲單元中讀取的待顯示文本數據的數據量為能夠在屏幕上 完整顯示的數據量;
數據讀取子單元,用于根據所述數據量確定子單元確定的待顯示文本數據
的數據量,每次從所述數據存儲單元中讀糾目應數據量的待顯示文本數據,將 讀取的待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元; 以及根據所述數據處理單元返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文 本數據并保存到所述數據緩存單元中。 較佳的,所述數據處理單元具體包括
數據轉換子單元,用于根據所述對應關系存儲單元中保存的對應關系,將 所述緩存單元中的待顯示文本數據中的繁體中文字符編碼數據,轉換為對應的 筒體中文字符編碼數據,并在其中的所有繁體中文字符編碼數據轉換完成后發(fā) 出顯示通知;
數據顯示控制子單元,用于接收到所述數據轉換子單元發(fā)出的顯示通知 后,根據所述筒體字庫存儲單元存儲的簡體字字庫,以及信息獲得子單元獲得 的顯示模式設置信息,將待顯示文本數據中的中文字符顯示到顯示單元上。一種侵j夷式電子i殳備,包括所述的文本信息處理裝置。
本實用新型提供的技術方案中,通過常用繁體和筒體中文字符編碼數據之 間的對應關系,將常用的繁體中文字符轉換為簡體中文字符后進行顯示,極大 的減少了將繁體中文字符顯示為設定符號或空格的比例,基本消除了閱讀障 礙,從而不依賴于繁體中文字庫,提高了包含繁體中文字符的文本數據的正確 識別率。
圖1為現有具備文本信息處理能力的侵_攜式電子設備的結構示意圖; 圖2為本實用新型實施例提供的文本信息處理能力裝置的結構示意圖 圖3為本實用新型提供的第二種文本信息處理能力裝置的結構示意圖 圖4為本實用新型提供的第三種文本信息處理能力裝置的結構示意圖 圖5為本實用新型提供的第四種文本信息處理能力裝置的結構示意圖 圖6為本實用新型提供的第五種文本信息處理能力裝置的結構示意圖 圖7為本實用新型提供的第六種文本信息處理能力裝置的結構示意圖 圖8為本實用新型提供的第七種文本信息處理能力裝置的結構示意圖 圖9為本實用新型提供的一種便攜式電子設備的結構示意圖。
具體實施方式
本實用新型實施例考慮到對常用字而言,絕大部分繁體中文字符有對應的簡體中文字符,完全可以通過簡體中文字庫進行顯示。只有較為生僻部分繁體 字字符才是無法在簡體中文字庫中找到相同的字。例如簡體中文"發(fā)明"對應 的繁體中文為"發(fā)明",其中"明"字的簡體中文字符和繁體中文字符寫法相 同,而"發(fā)"字的繁體中文字符和簡體中文字符有不同的寫法。而在常用的繁
體中文字符中,和筒體中文字符寫法不相同的大概3000個左右,對于這部分 常用的生僻繁體中文字符,可以根據繁簡體中文字符的對應關系,在電子設備 中對應存儲繁體中文字符和簡體中文字符的編碼數據,并根據該對應關系將無 法通過簡體字庫顯示的繁體字編碼數據轉換為簡體中文字符編碼數據后,根據 簡體中文字庫進行顯示。對于過于生僻的繁體字,由于其使用頻率纟艮低,盡管 無法通過對應關系實現編碼數據的轉換,即使顯示為空格或預先設定的其它符 號也不會影響對文本信息內容的整體把握,從而不依賴繁體中文字庫,提高了 對包含繁體中文字符的文本信息的正確識別率。并且,由于對應關系中僅給出 了常用的繁簡體字符數據,不需要占用很多存儲容量,和繁體中文字庫所需的 存儲空間相比,對電子設備的整體硬件成本影響可以忽略不計。
下面通過具體實施例并結合附圖詳細說明本實用新型實施例提供的技術 方案。
如圖2所示,本實用新型實施例首先提供一種文本信息處理裝置,該文本 信息處理裝置可以用在便攜式電子設備中,對包含中文字符的文本信息進行顯 示處理,該文本信息處理裝置主要包括
數據緩存單元201,用于保存待顯示文本數據;
對應關系存儲單元202,用于保存繁體和簡體中文字符編碼數據之間的對 應關系;
簡體字庫存儲單元203,用于保存簡體字字庫; 顯示單元204,用于顯示待顯示文本數據對應的文本; 數據處理單元205,用于根據對應關系存儲單元202中保存的對應關系, 將數據緩存單元201中的繁體中文字符編碼數據,轉換為對應的簡體中文字符編碼數據;以及根據簡體字庫存儲單元203中存儲的簡體字字庫,將轉換后的 待顯示文本數據中的中文字符顯示到顯示單元204上。
例如一個具體的應用場景,該顯示裝置用在手機上,則數據緩存單元201 中保存的待顯示文本數據可能是手機終端接收的一條短信,當用戶查閱該短信 時,需要將短信中的文本信息顯示到手機屏幕上,則數據處理單元205根據待 顯示文本數據中的每一個中文字符編碼數據,查詢對應關系存儲單元202中的 對應關系,如果查找到相同的繁體中文字符編碼數據,則將該繁體中文字符編 碼數據轉換為對應的筒體中文字符編碼數據,短信中的所有中文字符查詢并轉 換完成后,根據簡體字庫存儲單元203中存儲的簡體字字庫,將簡體中文字符 顯示在顯示單元204上。當然,完成顯示的緩存數據可能需要進一步處理,例 如永久性存儲或直接刪除等,為本領域技術人員所熟知,本實用新型不涉及該 部分操作。
當然,當短信中的中文字符全部為簡體中文字符時,數據處理單元205僅 是查詢了對應關系,并沒有進行真正的中文字符編碼數據的轉換操作。
進一步,當已經保存到電子設備中的原始文本信息內容不能一次性顯示全 部內容時,需要在顯示單元204上對文本信息進行分段顯示,則如圖3所示, 本實用新型實施例提供的文本信息處理裝置進一步可以包括
數據存儲單元206,用于保存文本數據;
數據控制單元207,用于從數據存儲單元206中讀取待顯示文本數據;將 待顯示文本數據保存到數據緩存單元201中后通知數據處理單元205;以及根
204上后返回的響應,繼續(xù)從數據存儲單元206中讀取下一段待顯示文本數據。 例如一個具體應用場景中,可以閱讀電子書的電子設備中存儲有電子書文 本數據,用戶閱讀時,通過翻頁操作分段閱讀,這時,電子書文本數據保存在 數據存儲單元206中,數據控制單元207和數據處理單元205配合,根據用戶 在操作將電子書文本數據分段顯示到顯示單元204上。如果顯示模式,包括字體、排版方式為默認的固定模式,則每一次顯示的 文本信息格式相同,反之,如果允許用戶具體設定顯示模式,則需要在顯示前 確定用戶設定的顯示模式,并根據顯示模式和顯示單元的屏幕尺寸信息具體確 定可以在一次顯示在顯示單元上的數據量,從而根據數據量獲得相應數量的待
顯示數據?;诖耍鐖D4所示,本實用新型實施例提供的文本信息處理裝置 中,數據控制單元207的一種具體結構包括
信息獲得子單元271 ,用于獲得顯示單元204的屏幕尺寸信息和顯示模式 設置信息;
數據量確定子單元272,用于根據信息獲得子單元271獲得的屏幕尺寸信 息和顯示模式設置信息,確定每一次從數據存儲單元206中讀取的待顯示文本 數據的數據量為能夠在屏幕上完整顯示的數據量;
數據讀取子單元273,用于根據數據量確定子單元272確定的待顯示文本 數據的數據量,每次從數據存儲單元206中讀取相應數據量的待顯示文本數據, 將讀取的待顯示文本數據保存到數據緩存單元201中后通知數據處理單元 205;以及根據數據處理單元205返回的響應,繼續(xù)從數據存儲單元206中讀 取待顯示文本數據并保存到數據緩存單元201中。
信息獲得子單元271具體從電子設備的硬件配置信息中獲得屏幕尺寸信 息,從用戶設置信息中獲得顯示模式信息,具體技術為本領域技術人員所熟知, 這里不再詳細描述。這樣,根據本實用新型實施例提供的文本信息處理裝置, 可以實現顯示模式的動態(tài)設置,進一步增強了電子設備的性能。
仍參見圖4所示,本實用新型實施例中,數據處理單元205的一種具體結 構可以包括
數據轉換子單元251,用于根據對應關系存儲單元202中保存的對應關系, 將緩存單元201中的待顯示文本數據中的繁體中文字符編碼數據,轉換為對應 的簡體中文字符編碼數據,并在其中的所有繁體中文字符編碼數據轉換完成后 發(fā)出顯示通知;數據顯示控制子單元252,用于接收到數據轉換子單元251發(fā)出的顯示通 知后,根據簡體字庫存儲單元存儲的簡體字字庫,將待顯示文本數據中的中文 字符顯示到顯示單元204上。
如果顯示模式可以動態(tài)設定,則數據顯示控制子單元252可以從用戶設置 信息中獲得顯示模式設置信息,也可以從信息獲得子單元271處獲得顯示模式 設置信息,并根據顯示模式設置信息進行顯示。
考慮到文本數據如果采用簡體中文的專用編碼方式時,則不需要進行轉 換,因此如圖5所示,本實用新型實施例中的數據處理單元205進一步可以包 括
編碼方式判斷子單元253,用于確定待顯示文本數據中中文字符編碼數據 的編碼方式,并當編碼方式為非簡體中文字符編碼方式時,通知數據轉換子單 元進行轉換。
這樣,可以不對使用簡體字符專用編碼方式的文本信息進一步采取轉換操 作,進一步提高了電子設備的處理速度。
或者另一種優(yōu)化方式為,根據利用簡體字庫存儲單元203,當在筒體字庫 存儲單元203中查詢到相應的中文編碼數據時,不通知數據轉換子單元251進 行轉換,反之,在簡體字庫存儲單元保存的筒體字字庫中沒有查詢到相應的中 文編碼數據時,通知數據轉換子單元251進行轉換。具體實現如圖6所示,本 實用新型實施例中的數據處理單元205進一步可以包括
字庫查詢子單元254,用于確定待顯示文本數據中中文字符編碼數據不包 含在簡體字庫存儲單元保存的簡體字字庫中時,通知數據轉換子單元251進行 轉換。
UNICODE編碼是繁體中文字符和筒體中文字符通用也較為常用的編碼方 式,因此本實用新型實施例中,可以設定繁體中文字符和簡體中文字符的 UNICODE編碼數據之間的對應關系,數據處理單元205在統(tǒng)一使用UNICODE 編碼方式的場景中,可以方便的根據上述實施例給出的技術方案實現繁體中文字符數據到簡體中文字符編碼數據的轉換。具體編碼之間的轉換技術為本領域 技術人員所熟知,這里不再詳細描述。
考慮到繁體中文字符和簡體中文字符的編碼方式的不統(tǒng)一,本實用新型實
施例中,仍然以通用的UNICODE編碼數據設定對應關系,而在發(fā)現待顯示文 本數據不是UNICODE編碼數據時,先將文本數據轉換為UNICODE編碼數據 后,根據對應關系進行轉換,最后根據文本數據對應的UNICODE編碼數據實 現顯示。當然,也可以用GB18030-2000 (《信息技術信息交換用漢字編碼字 符集基本集的擴充》)的編碼方式來^L對應轉換。這里以UNICODE編碼方法 和GB18030-2000的編碼方式為例進4亍i兌明,不再——列舉其他可用的編碼方 式。
基于此,如圖7或圖8所示,數據處理單元205進一步可以包括 編碼轉換子單元255,用于在待顯示文本凄t據中的中文字符編碼數據的編 碼方式和對應關系中的數據編碼方式不一致時,根據數據轉換子單元251的觸 發(fā)將待顯示文本數據中的中文字符編碼數據轉換為對應關系中采用的編碼方 式。
數據轉換子單元251在進行轉換操作前,判斷待顯示中文字符的編碼方式 和對應關系的編碼方式是否一致,如果不一致,則需要觸發(fā)編碼轉換子單元25 5將待顯示文本數據中的中文字符編碼數據轉換為對應關系中采用的編碼方式 后,再根據對應關系表進行轉換操作。
上述實施例中,數據處理單元205和數據控制單元207都可以設置在便攜 式電子設備的中央處理器上。數據處理單元205或數據控制單元207分別通過 系統(tǒng)總線或單獨的數據線連接各存儲單元,具體連接方式為本領域技術人員所 熟知,這里不再詳細描述。
如圖9所示,本實用新型提供的便攜式電子設備結構示意圖,包括顯示 裝置901和文本信息處理裝置902,其中,文本信息處理裝置902的具體結構 參見圖2~圖8所示的任一個結構示意圖,需要說明的是,文本信息處理裝置902所需的顯示單元即為便攜式電子設備的顯示裝置901。
綜上,本實用新型提供的技術方案中,通過常用繁體和簡體中文字符編碼 數據之間的對應關系,將常用的繁體中文字符轉換為簡體中文字符后進行顯 示,極大的減少了將繁體中文字符顯示為設定符號或空格的比例,基本消除了 閱讀障礙,從而不依賴于繁體中文字庫,提高了包含繁體中文字符的文本數據 的正確識別率。由于常用的繁體中文字符僅有3000個左右,因此本實用新型 中使用的繁體和簡體中文字符編碼數據之間的對應關系大約占用存儲空間 12KB,相對于繁體中文字庫的大小,該存儲空間基本可以忽略不計,因此不 會對便攜式電子設備的硬件成本影響不大。
本實用新型中,該對應關系可以以表的形式存儲在對應關系存儲單元中, 數據處理單元可以使用Hash表、折半查找、順序查找等任意查找方式在繁體 和簡體中文字符編碼數據之間的對應關系表中進行查找,在規(guī)模為3000左右 的對應關系表中,即使使用效率最低的順序查找,對目前執(zhí)行速度單位為MIPS (百萬指令每秒)的中央處理器而言,轉換單個字符所需時間是非常短。當文 字內容很多時, 一次只轉換屏幕上能夠顯示數量的字符,同樣不會影響閱讀速 度。例如從手機到其它大型顯示屏的各種電子設備來看, 一般屏幕上能夠顯示 的字符數為幾十到上千個,即使一次轉換10000個漢字,所需的時間也只是在 毫秒級的,從而不影響用戶閱讀。
不脫離本實用新型的精神和范圍。這樣,倘若本實用新型的這些修改和變型屬 于本實用新型權利要求及其等同技術的范圍之內,則本實用新型也意圖包含這 些改動和變型在內。
權利要求1、一種文本信息處理裝置,其特征在于,包括數據緩存單元,用于保存待顯示文本數據;對應關系存儲單元,用于保存繁體和簡體中文字符編碼數據之間的對應關系;簡體字庫存儲單元,用于保存簡體字字庫;顯示單元,用于顯示所述待顯示文本數據對應的文本;數據處理單元,用于根據所述對應關系存儲單元中保存的對應關系,將所述數據緩存單元中的繁體中文字符編碼數據,轉換為對應的簡體中文字符編碼數據;以及根據所述簡體字庫存儲單元中存儲的簡體字字庫,將所述轉換后的待顯示文本數據中的中文字符顯示到顯示單元上。
2、 如權利要求l所述的裝置,其特征在于,還包括 數據存儲單元,用于保存文本數據;數據控制單元,用于從所述數據存儲單元中讀取待顯示文本數據;將所述 待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元;以及根元上后返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文本數據。
3、 如權利要求2所述的裝置,其特征在于,所述數據控制單元具體包括 信息獲得子單元,用于獲得顯示單元的屏幕尺寸信息和顯示模式設置信息;數據量確定子單元,用于根據所述屏幕尺寸信息和顯示模式設置信息,確 定每一次從數據存儲單元中讀取的待顯示文本數據的數據量為能夠在屏幕上 完整顯示的數據量;數據讀取子單元,用于根據所述數據量確定子單元確定的待顯示文本數據 的數據量,每次從所述數據存儲單元中讀取相應數據量的待顯示文本數據,將 讀取的待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元;以及根據所述數據處理單元返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文 本數據并保存到所述數據緩存單元中。
4、 如權利要求l、 2或3所述的裝置,其特征在于,所述數據處理單元具 體包括數據轉換子單元,用于根據所述對應關系存儲單元中保存的對應關系,將 所述緩存單元中的待顯示文本數據中的繁體中文字符編碼數據,轉換為對應的 簡體中文字符編碼數據,并在其中的所有繁體中文字符編碼數據轉換完成后發(fā) 出顯示通知;數據顯示控制子單元,用于接收到所述數據轉換子單元發(fā)出的顯示通知 后,根據所述簡體字庫存儲單元存儲的筒體字字庫,將待顯示文本數據中的中 文字符顯示到顯示單元上。 '
5、 一種侵_攜式電子設備,包括文本信息處理裝置和顯示裝置,其特征在 于,所述文本信息處理裝置包括數據緩存單元,用于保存待顯示文本數據;對應關系存儲單元,用于保存繁體和簡體中文字符編碼數據之間的對應關系; -簡體字庫存儲單元,用于保存簡體字字庫;數據處理單元,用于才艮據所述對應關系存儲單元中保存的對應關系,將所 述數據緩存單元中的繁體中文字符編碼數據,轉換為對應的筒體中文字符編碼 數據;以及根據所述筒體字庫存儲單元中存儲的簡體字字庫,將所述轉換后的 待顯糸文本數據中的中文字符顯示到顯示裝置上。
6、 如權利要求5所述的便攜式電子設備,其特征在于,所述文本信息處 理裝置還包括數據存儲單元,用于保存文本數據;數據控制單元,用于從所述數據存儲單元中讀取待顯示文本數據;將所述 待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元;以及根示到顯示裝置上后返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文本數據。
7、 如權利要求6所述的便攜式電子設備,其特征在于,所述數據控制單 元具體包括信息獲得子單元,用于獲得顯示裝置的屏幕尺寸信息和顯示模式設置信自 數據量確定子單元,用于根據所述屏幕尺寸信息和顯示模式設置信息,確 定每一次從數據存儲單元中讀取的待顯示文本數據的數據量為能夠在屏幕上完整顯示的數據量;數據讀取子單元,用于根據所述數據量確定子單元確定的待顯示文本數據 的數據量,每次從所述數據存儲單元中讀糾目應數據量的待顯示文本數據,將 讀取的待顯示文本數據保存到所述數據緩存單元中后通知所述數據處理單元; 以及根據所述數據處理單元返回的響應,繼續(xù)從數據存儲單元中讀取待顯示文 本數據并保存到所述數據緩存單元中。
8、 如權利要求5、 6或7所述的便攜式電子設備,其特征在于,所述數據 處理單元具體包括數據轉換子單元,用于根據所述對應關系存儲單元中保存的對應關系,將 所述緩存單元中的待顯示文本數據中的繁體中文字符編碼數據,轉換為對應的 簡體中文字符編碼數據,并在其中的所有繁體中文字符編碼數據轉換完成后發(fā) 出顯示通知;數據顯示控制子單元,用于接收到所述數據轉換子單元發(fā)出的顯示通知 后,根據所述筒體字庫存儲單元存儲的簡體字字庫,將待顯示文本數據中的中 文字符顯示到顯示裝置上。
專利摘要本實用新型涉及信息文本處理技術,特別涉及一種中文字符的顯示技術。用以不依賴繁體字字庫來提高包含繁體字字符的文本信息的識別率。一種文本信息處理裝置,包括數據緩存單元,用于保存待顯示文本數據;對應關系存儲單元,用于保存繁體和簡體中文字符編碼數據之間的對應關系;簡體字庫存儲單元,用于保存簡體字字庫;顯示單元,用于顯示所述待顯示文本數據對應的文本;數據處理單元,用于根據所述對應關系存儲單元中保存的對應關系,將所述數據緩存單元中的繁體中文字符編碼數據,轉換為對應的簡體中文字符編碼數據;以及根據所述簡體字庫存儲單元中存儲的簡體字字庫,將所述轉換后的待顯示文本數據中的中文字符顯示到顯示單元上。
文檔編號G06F17/21GK201259670SQ20082012781
公開日2009年6月17日 申請日期2008年7月22日 優(yōu)先權日2008年7月22日
發(fā)明者鵬 楊 申請人:青島海信移動通信技術股份有限公司