用于語(yǔ)言標(biāo)簽管理的方法和系統(tǒng)的制作方法
【專(zhuān)利說(shuō)明】用于語(yǔ)言標(biāo)簽管理的方法和系統(tǒng)
【背景技術(shù)】
[0001] 公共圖書(shū)館、國(guó)家數(shù)據(jù)倉(cāng)庫(kù)、公共服務(wù)資料庫(kù)以及歷史新聞數(shù)據(jù)庫(kù)經(jīng)常收集、分類(lèi) 和挖掘歷史記錄。元數(shù)據(jù)管理經(jīng)常被用于數(shù)據(jù)分類(lèi)。例如,語(yǔ)言標(biāo)簽已經(jīng)被用在元數(shù)據(jù)中 以便分等級(jí)、歸檔、分類(lèi)和處理所收集的特定語(yǔ)言、腳本、領(lǐng)域和編碼類(lèi)別下的文本、圖形、 音頻和視頻流數(shù)據(jù)格式的國(guó)際文檔。語(yǔ)言標(biāo)簽可以被嵌入和/或集成到所收集的信息中以 支持聯(lián)網(wǎng)信息處理和管理。具體地,在HTML和XML中,語(yǔ)言標(biāo)簽可以指示HTML和XML文檔 中的文本或其他項(xiàng)目的語(yǔ)言。
【發(fā)明內(nèi)容】
[0002] 根據(jù)本公開(kāi)的一個(gè)方面,公開(kāi)了一種用于國(guó)際數(shù)據(jù)存儲(chǔ)庫(kù)上的語(yǔ)言標(biāo)簽管理的方 法和技術(shù)。該方法包括:訪問(wèn)標(biāo)準(zhǔn)化語(yǔ)言標(biāo)簽存儲(chǔ)庫(kù)以識(shí)別存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽中的變更;搜 索使用語(yǔ)言標(biāo)簽分類(lèi)的數(shù)據(jù)源的記錄以識(shí)別數(shù)據(jù)源的記錄中存在的語(yǔ)言標(biāo)簽;確定數(shù)據(jù)源 的記錄中存在的語(yǔ)言標(biāo)簽是否與存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽不一致;響應(yīng)于確定數(shù)據(jù)源的記錄中存在 的語(yǔ)言標(biāo)簽與存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽不一致,確定針對(duì)數(shù)據(jù)源的語(yǔ)言標(biāo)簽更新策略;以及根據(jù)語(yǔ) 言標(biāo)簽更新策略對(duì)記錄執(zhí)行語(yǔ)言標(biāo)簽更新處理以基于存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽對(duì)記錄重新分類(lèi)。
【附圖說(shuō)明】
[0003] 為了更完整地理解本申請(qǐng)、其目的和優(yōu)點(diǎn),現(xiàn)在參考結(jié)合附圖給出的以下描述,在 附圖中:
[0004] 圖1是可以在其中實(shí)現(xiàn)本公開(kāi)的說(shuō)明性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的實(shí)施例;
[0005] 圖2是可以在其中實(shí)現(xiàn)本公開(kāi)的說(shuō)明性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的實(shí)施例;
[0006] 圖3是示出可以在其中實(shí)現(xiàn)本公開(kāi)的實(shí)施例的用于語(yǔ)言標(biāo)簽管理的數(shù)據(jù)處理系 統(tǒng)的實(shí)施例的圖;
[0007] 圖4是示出根據(jù)本公開(kāi)實(shí)施例的語(yǔ)言標(biāo)簽更新處理的圖;
[0008] 圖5是示出根據(jù)本公開(kāi)的使用針對(duì)語(yǔ)言標(biāo)簽的抽象層的語(yǔ)言標(biāo)簽更新處理的另 一個(gè)實(shí)施例的圖;
[0009] 圖6是示出根據(jù)本公開(kāi)的用于語(yǔ)言標(biāo)簽管理的方法的流程圖;并且
[0010] 圖7是示出根據(jù)本公開(kāi)的用于語(yǔ)言標(biāo)簽管理的方法的另一個(gè)實(shí)施例的流程圖。
【具體實(shí)施方式】
[0011] 本公開(kāi)的實(shí)施例提供了一種用于國(guó)際數(shù)據(jù)存儲(chǔ)庫(kù)上的語(yǔ)言標(biāo)簽管理的方法、系統(tǒng) 和計(jì)算機(jī)程序產(chǎn)品。例如,本公開(kāi)的實(shí)施例能增強(qiáng)語(yǔ)言標(biāo)簽管理、在舊的元數(shù)據(jù)中更新新語(yǔ) 言標(biāo)簽、并重新分類(lèi)從全世界資源收集的數(shù)據(jù)。例如,本公開(kāi)的實(shí)施例通過(guò)檢測(cè)語(yǔ)言標(biāo)簽存 儲(chǔ)庫(kù)中的新的語(yǔ)言標(biāo)簽、從語(yǔ)言標(biāo)簽存儲(chǔ)庫(kù)動(dòng)態(tài)地同步本地語(yǔ)言標(biāo)簽表、以及根據(jù)為數(shù)據(jù) 源建立的配置文件/策略使用新的語(yǔ)言標(biāo)簽動(dòng)態(tài)地更新和/或重新分類(lèi)所存儲(chǔ)的數(shù)據(jù),來(lái) 使得具有語(yǔ)言標(biāo)簽的所存儲(chǔ)的元數(shù)據(jù)能夠被管理和/或更新。在一些實(shí)施例中,訪問(wèn)標(biāo)準(zhǔn) 化語(yǔ)言標(biāo)簽存儲(chǔ)庫(kù)以識(shí)別存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽中的變更;搜索使用語(yǔ)言標(biāo)簽而分類(lèi)的數(shù)據(jù)源的 記錄以識(shí)別數(shù)據(jù)源的記錄中存在的語(yǔ)言標(biāo)簽;確定數(shù)據(jù)源的記錄中存在的語(yǔ)言標(biāo)簽是否與 存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽不一致;以及如果這樣,則確定針對(duì)數(shù)據(jù)源的語(yǔ)言標(biāo)簽更新策略,根據(jù)語(yǔ)言 標(biāo)簽更新策略對(duì)記錄執(zhí)行語(yǔ)言標(biāo)簽更新處理以基于存儲(chǔ)庫(kù)語(yǔ)言標(biāo)簽對(duì)記錄重新分類(lèi)。
[0012] 所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本公開(kāi)的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算 機(jī)程序產(chǎn)品。因此,本公開(kāi)的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、 完全的軟件實(shí)施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方 式,這里可以統(tǒng)稱(chēng)為"電路"、"模塊"或"系統(tǒng)"。此外,在一些實(shí)施例中,本公開(kāi)的各個(gè)方面 還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介 質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0013] 可以采用一個(gè)或多個(gè)計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介 質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以 是一一但不限于一一電、磁、光、電磁、紅外線(xiàn)、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上 的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo) 線(xiàn)的電連接、便攜式計(jì)算機(jī)盤(pán)、硬盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可 編程只讀存儲(chǔ)器(EPROM或閃存)、光纖、便攜式緊湊盤(pán)只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、 磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包 含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合 使用。
[0014] 計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào), 其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括一一但 不限于一一電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者 傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0015] 計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一一但不限 于一一無(wú)線(xiàn)、有線(xiàn)、光纜、RF等等,或者上述的任意合適的組合。
[0016] 可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任意組合來(lái)編寫(xiě)用于執(zhí)行本公開(kāi)操作的計(jì)算 機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言一諸如Java、Smalltalk、C++ 等,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言一諸如"C"語(yǔ)言或類(lèi)似的程序設(shè)計(jì)語(yǔ)言。程序代碼可 以完全地在用戶(hù)計(jì)算機(jī)上執(zhí)行、部分地在用戶(hù)計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、 部分在用戶(hù)計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。 在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類(lèi)的網(wǎng)絡(luò)一一包括局域網(wǎng)(LAN) 或廣域網(wǎng)(WAN)-連接到用戶(hù)計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù) 提供商來(lái)通過(guò)因特網(wǎng)連接)。
[0017] 下面將參照根據(jù)本公開(kāi)實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖 和/或框圖描述本公開(kāi)。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖 中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì) 算機(jī)、專(zhuān)用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些計(jì) 算機(jī)程序指令在通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時(shí),產(chǎn)生了實(shí)現(xiàn)流程 圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的裝置。
[0018] 也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,這些指令使得計(jì)算機(jī)或 其它可編程數(shù)據(jù)處理裝置以特定方式工作,從而,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生 出包括實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的指令的制造品。
[0019] 計(jì)算機(jī)程序指令還可以加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其他設(shè)備上, 以使一系列操作步驟在計(jì)算機(jī)、其它可編程裝置或其他設(shè)備上被執(zhí)行以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的 過(guò)程,使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令提供用于實(shí)現(xiàn)流程圖和/或框圖中的 一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的處理。
[0020] 現(xiàn)在參考附圖并且特別參考圖1-2,提供可以在其中實(shí)現(xiàn)本公開(kāi)的說(shuō)明性實(shí)施例 的數(shù)據(jù)處理環(huán)境的示例性示圖。應(yīng)當(dāng)理解的是,圖1-2僅是示例性的并且并非旨在聲稱(chēng)或 暗示關(guān)于可以在其中實(shí)現(xiàn)不同實(shí)施例的環(huán)境的任何限制??梢詫?duì)示出的環(huán)境進(jìn)行許多修 改。
[0021] 圖1是可以在其中實(shí)現(xiàn)本公開(kāi)的說(shuō)明性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖示。網(wǎng) 絡(luò)數(shù)據(jù)處理系統(tǒng)100是可以在其中實(shí)現(xiàn)本公開(kāi)的說(shuō)明性實(shí)施例的計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)絡(luò)數(shù)據(jù)處 理系統(tǒng)100包含網(wǎng)絡(luò)130,其是用于提供網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100內(nèi)連接在一起的各種設(shè)備和 計(jì)算機(jī)之間的通信鏈路的介質(zhì)。網(wǎng)絡(luò)130可以包括連接,諸如有線(xiàn)、無(wú)線(xiàn)通信鏈路或光纖電 纜。
[0022] 在一些實(shí)施例中,服務(wù)器140和服務(wù)器150與數(shù)據(jù)存儲(chǔ)裝置160 -起連接到網(wǎng)絡(luò) 130。服務(wù)器140和服務(wù)器150可以是例如BM? Power Systems?服務(wù)器。此外,客戶(hù)端 110和120連接到網(wǎng)絡(luò)130。客戶(hù)端110和120可以是例如個(gè)人計(jì)算機(jī)或網(wǎng)絡(luò)計(jì)算機(jī)。在 示出的示例中,服務(wù)器140向客戶(hù)端110和120提供數(shù)據(jù)和/或服務(wù),例如但不限于數(shù)據(jù)文 件、操作系統(tǒng)映像以及應(yīng)用。網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100可以包括附加的服務(wù)器、客戶(hù)端和其他 設(shè)備。
[0023] 在示出的示例中,網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100是具有網(wǎng)絡(luò)130的因特網(wǎng),網(wǎng)絡(luò)130表示 全世界的使用傳輸控制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)的協(xié)議組來(lái)相互通信的網(wǎng)絡(luò)和網(wǎng)關(guān)的 集合。在因特網(wǎng)的中心是主要節(jié)點(diǎn)或主計(jì)算機(jī)之間的高速數(shù)據(jù)通信線(xiàn)路的主干,所述主要 節(jié)點(diǎn)或主計(jì)算機(jī)由對(duì)數(shù)據(jù)和消息進(jìn)行路由的數(shù)以千計(jì)的商業(yè)、政府、教育和其他計(jì)算機(jī)系 統(tǒng)組成。當(dāng)然,網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100也可以被實(shí)現(xiàn)為大量不同類(lèi)型的網(wǎng)絡(luò),諸如內(nèi)聯(lián)網(wǎng)、 局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)。圖1意在作為一個(gè)示例,而并非作為對(duì)不同說(shuō)明性實(shí)施例的 架構(gòu)限制。
[0024] 圖2是可以在其中實(shí)現(xiàn)根據(jù)本公開(kāi)的用于語(yǔ)言標(biāo)簽管理的系統(tǒng)的實(shí)施例的數(shù)據(jù) 處理系統(tǒng)200的實(shí)施例,諸如但不限于客戶(hù)端110和/或服務(wù)器140。在該實(shí)施例中,數(shù)據(jù) 處理系統(tǒng)200包括總線(xiàn)或通信結(jié)構(gòu)202,其提供處理器單元204、存儲(chǔ)器206、持久存儲(chǔ)裝置 208、通信單元210、輸入/輸出(I/O)單元212和顯示器214之間的通信。
[0025] 處理器單元204用于執(zhí)行可以被加載到存儲(chǔ)器206中的軟件指令。處理器單元 204可以是一組一個(gè)或多個(gè)處理器,或者可以是多處理器核,這取決于特定的實(shí)現(xiàn)。而且,處 理器單元204可以使用一個(gè)或多個(gè)異構(gòu)處理器系統(tǒng)來(lái)實(shí)現(xiàn),在所述異構(gòu)處理器系統(tǒng)中主處 理器與輔助處理器一起存在于單個(gè)芯片上。作為另一個(gè)說(shuō)明性示例,處理器單元204可以 是包含相同類(lèi)型的多個(gè)處理器的對(duì)稱(chēng)多處理器系統(tǒng)。
[0026] 在一些實(shí)施例中,存儲(chǔ)器206可