專利名稱:一種漢化的世界專利數(shù)據(jù)庫(kù)系統(tǒng)及數(shù)據(jù)處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)庫(kù)系統(tǒng)及數(shù)據(jù)處理方法,特別是一種漢化的世界專利 數(shù)據(jù)庫(kù)系統(tǒng)及其方法。
技術(shù)背景人類的科學(xué)技術(shù)活動(dòng)是離不開知識(shí)的借鑒,知識(shí)的傳承。目前一些科技資 源數(shù)據(jù)庫(kù)包括國(guó)內(nèi)和國(guó)外的科技信息,這些資源對(duì)科技人員的科技活動(dòng)起到了 很大的幫助作用。科技資源數(shù)據(jù)庫(kù)中的國(guó)外信息居多都是外文(英文)的,4艮 少被翻譯成中文。雖然我國(guó)大部分科技人員或多或少的受到過英語(yǔ)教育,但是 能流利的閱讀英文的人并不多。而且一般人都習(xí)慣用母語(yǔ)交流、閱讀,因此大 多數(shù)科技人員在科研活動(dòng)中希望能用中文信息。這樣國(guó)外科技信息若不漢化就 會(huì)給使用者帶來(lái)語(yǔ)言障礙,使許多有價(jià)值的外國(guó)科技信息得不到有效利用。因 此漢化的科技信息數(shù)據(jù)庫(kù)是市場(chǎng)上非常需要的。發(fā)明內(nèi)容為了解決上述現(xiàn)有技術(shù)中的問題,本發(fā)明提供一種漢化的世界專利數(shù)據(jù)庫(kù)系統(tǒng),該系統(tǒng)包括數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、各國(guó)專利數(shù)據(jù)庫(kù)和相關(guān) 信息數(shù)據(jù)庫(kù),它們通過網(wǎng)絡(luò)互相聯(lián)通。各國(guó)專利數(shù)據(jù)庫(kù)和相關(guān)信息數(shù)據(jù)庫(kù)可以 是本地的,也可以是網(wǎng)絡(luò)的。應(yīng)用服務(wù)器包括采集模塊、聚類處理模塊、標(biāo)記模塊、刪除模塊、翻譯模 塊、標(biāo)準(zhǔn)化模塊、提取模塊和關(guān)聯(lián)模塊。采集模塊,用于采集各國(guó)專利數(shù)據(jù),以及與各國(guó)專利相關(guān)的信息;聚類處 理模塊,用于將各國(guó)專利的數(shù)據(jù)處理成專利族數(shù)據(jù);標(biāo)記模塊用于標(biāo)記基本專 利和英文專利;刪除才莫塊,用于刪除專利族記錄中無(wú)標(biāo)記專利的部分內(nèi)容;翻 譯模塊,用于將非中文的基本專利數(shù)據(jù)翻譯為中文;標(biāo)準(zhǔn)化模塊用于將非簡(jiǎn)體中文的基本專利數(shù)據(jù)轉(zhuǎn)換為中文;提取模塊用于提取基本專利中的公司或申請(qǐng) 人名;關(guān)聯(lián)模塊用于按照公司或申請(qǐng)人名,關(guān)聯(lián)聚類數(shù)據(jù)庫(kù)與關(guān)聯(lián)數(shù)據(jù)庫(kù)中的信息。數(shù)據(jù)庫(kù)服務(wù)器至少包含三個(gè)數(shù)據(jù)庫(kù), 一個(gè)是存儲(chǔ)著各國(guó)專利數(shù)據(jù)的原始信 息庫(kù), 一個(gè)是存儲(chǔ)著專利族lt據(jù)的聚類數(shù)據(jù)庫(kù),再一個(gè)是存儲(chǔ)著相關(guān)信息的關(guān) 聯(lián)數(shù)據(jù)庫(kù)。本發(fā)明還提供一種漢化數(shù)據(jù)處理方法,該方法包括以下步驟1. 根據(jù)需要從各國(guó)專利數(shù)據(jù)庫(kù)中采集多個(gè)國(guó)家的專利數(shù)據(jù),然后將它們存 入各國(guó)專利數(shù)據(jù)庫(kù)。2. 按照優(yōu)先權(quán)信息,將各國(guó)專利數(shù)據(jù)中擁有相同優(yōu)先權(quán)的數(shù)據(jù),聚類處理 成專利族數(shù)據(jù),然后將它們存入聚類數(shù)據(jù)庫(kù)。3. 根據(jù)事先確定的優(yōu)先順序,在每個(gè)專利族中,選擇基本專利,并將每個(gè) 基本專利打上標(biāo)記。該優(yōu)先順序?yàn)橹袊?guó)、臺(tái)灣地區(qū)、香港地區(qū)、美國(guó)、英國(guó)、 歐洲、國(guó)際、日本、德國(guó)、法國(guó)、俄國(guó)。4. 根據(jù)事先確定的優(yōu)先順序,將每個(gè)專利族中的一件英文數(shù)據(jù)打上標(biāo)記, 標(biāo)記英文翁:據(jù)的優(yōu)先順序?yàn)闅W洲(國(guó)際)、美國(guó)、英國(guó)、澳大利亞、加拿大、 南非。5. 將既不是基本專利又不是英文專利的專利族成員的申請(qǐng)信息、公布信息 和國(guó)別信息保留,其余信息刪除。6. 從基本專利中篩選出非中文數(shù)據(jù)進(jìn)行翻譯,并人工校對(duì)。7. 從基本專利中篩選出非簡(jiǎn)體中文的數(shù)據(jù)進(jìn)行簡(jiǎn)體中文的轉(zhuǎn)換。8. 將基本專利中的公司或申請(qǐng)人名提取出來(lái),并按照這些公司或申請(qǐng)人名 在相關(guān)信息數(shù)據(jù)庫(kù)中下載相關(guān)信息,存入關(guān)聯(lián)數(shù)據(jù)庫(kù)。9. 將聚類數(shù)據(jù)庫(kù)中的信息與關(guān)聯(lián)數(shù)據(jù)庫(kù)中的信息,按照公司或申請(qǐng)人名關(guān) 聯(lián)起來(lái)。本發(fā)明將各個(gè)國(guó)家、地區(qū)的專利信息資源整合在一起,并將其全部漢化, 可以克服國(guó)內(nèi)使用者使用國(guó)外專利信息時(shí)遇到的語(yǔ)言障礙,從而讓國(guó)內(nèi)使用者終達(dá)到充分開發(fā)利用中國(guó)專利信息的目的。
圖1為本發(fā)明的系統(tǒng)硬件結(jié)構(gòu)2為本發(fā)明的應(yīng)用服務(wù)器的功能模塊圖 圖3為本發(fā)明的數(shù)據(jù)處理方法的工作流程圖具體實(shí)施方式
如圖1、 2所示,本發(fā)明的系統(tǒng)包括數(shù)據(jù)處理服務(wù)器11,數(shù)據(jù)庫(kù)服務(wù)器12,各國(guó)專利數(shù)據(jù)庫(kù)13和相關(guān)信息數(shù)據(jù)庫(kù)14,它們通過網(wǎng)絡(luò)15連接起來(lái)。由于漢化的各國(guó)專利數(shù)據(jù)庫(kù)應(yīng)該包括中國(guó)、美國(guó)、日本、歐洲、國(guó)際等的專利信息,而且應(yīng)該將這些多種文字的專利信息全部中文化,因此,數(shù)據(jù)處理 服務(wù)器11包括采集模塊111、聚類處理模塊112、標(biāo)記模塊113、刪除模塊114、 翻譯模塊115、標(biāo)準(zhǔn)化模塊116、提取模塊117和關(guān)聯(lián)模塊118,它們用于處理 各種專利信息和相關(guān)信息。數(shù)據(jù)庫(kù)服務(wù)器包括三個(gè)數(shù)據(jù)庫(kù)原始信息庫(kù),用于存儲(chǔ)采集的各國(guó)專利數(shù) 據(jù);聚類數(shù)據(jù)庫(kù),存儲(chǔ)著經(jīng)過聚類處理的、以特定國(guó)家專利為基本專利的專利族 數(shù)據(jù),這些數(shù)據(jù)最后全部被處理成為簡(jiǎn)體中文文字的數(shù)據(jù);關(guān)聯(lián)數(shù)據(jù)庫(kù),用于 存儲(chǔ)從相關(guān)信息數(shù)據(jù)庫(kù)14提取出的、與聚類數(shù)據(jù)庫(kù)中的公司或個(gè)體申請(qǐng)人對(duì)應(yīng) 的相關(guān)信息。參加圖2、 3,本發(fā)明的數(shù)據(jù)處理方法的較佳實(shí)施例包括以下步驟步驟SIOO,采集模塊111從各個(gè)國(guó)家或國(guó)際組織的專利數(shù)據(jù)庫(kù)中,將它們 的專利數(shù)據(jù)下載下來(lái),這些國(guó)家或國(guó)際組織的范圍包括美國(guó)、日本、歐洲、國(guó) 際、英、法、德、俄等。這些國(guó)家或組織的專利數(shù)據(jù)庫(kù)可以是本地的,也可以 是互聯(lián)網(wǎng)上的;下載完成后將這些專利數(shù)據(jù)存入原始專利數(shù)據(jù)庫(kù)。步驟SllO,聚類處理模塊112按照各個(gè)國(guó)家或國(guó)際組織專利數(shù)據(jù)中的優(yōu)先 權(quán)信息,即優(yōu)先申請(qǐng)?zhí)枴?yōu)先申請(qǐng)國(guó)別和優(yōu)先申請(qǐng)日期,對(duì)各個(gè)國(guó)家或國(guó)際組織專利數(shù)據(jù)進(jìn)行聚類處理,將各國(guó)專利數(shù)據(jù)中擁有相同優(yōu)先權(quán)的專利數(shù)據(jù)聚在 一起,組成專利族數(shù)據(jù)。在這些數(shù)據(jù)中,每個(gè)專利族數(shù)據(jù)為一條記錄,因此一 條記錄中包含多個(gè)不同國(guó)家的專利信息。聚類處理完成后,將這些專利族數(shù)據(jù) 存入聚類數(shù)據(jù)庫(kù)。步驟S120,由于每條專利族數(shù)據(jù)記錄中包含的多個(gè)不同國(guó)家的專利信息是 相同的內(nèi)容,因此要在其中選擇一件專利作為基本專利,然后給它打上標(biāo)記, 這樣按照基本信息檢索,可以減少數(shù)據(jù)庫(kù)中的冗余信息?;緦@倪x擇是按照不同國(guó)家或組織的優(yōu)先順序進(jìn)行的,優(yōu)先順序?yàn)橹袊?guó)、臺(tái)灣地區(qū)、香港地 區(qū)、美國(guó)、英國(guó)、歐洲、國(guó)際、日本、德國(guó)、法國(guó)、俄國(guó)。例如在一個(gè)專利族 記錄中,有若干國(guó)家的專利數(shù)據(jù),先判斷是否有中文的,若有,將此專利數(shù)據(jù) 作上標(biāo)記;若無(wú),再判斷是否有美國(guó)的,若有,將此專利數(shù)據(jù)做上標(biāo)記,以此類推。步驟S130,為了進(jìn)行中英文對(duì)照瀏覽專利信息,在每個(gè)專利族記錄中,選 擇一件英文專利,然后為它作個(gè)標(biāo)記。標(biāo)記英文專利也要有優(yōu)先順序,該優(yōu)先 順序?yàn)镋P(W0)、 US、 GB、 AU、 CA、 ZA。如果基本專利是英文的,則無(wú)需選擇 其他英文數(shù)據(jù)。步驟S140,為了消除冗余信息,對(duì)于專利族中既沒有基本專利標(biāo)記又沒有 英文專利標(biāo)記的數(shù)據(jù),只保留申請(qǐng)信息,公布信息和國(guó)別信息,其余內(nèi)容全部 刪除。這樣,每條專利族記錄中僅包括一個(gè)中文專利數(shù)據(jù),或/和一個(gè)英文專利, 以及其他專利的申請(qǐng),公布和國(guó)別信息。步驟S150,由于基本專利是多種文字的,例如英文、日文、德文等,因此要 漢化非中文基本專利;通過翻譯模塊115從基本專利中選擇出非中文的數(shù)據(jù), 并將其通過軟件自動(dòng)翻譯為中文。由于翻譯軟件的智能化程度無(wú)法與人腦相比,因此由軟件翻譯的數(shù)據(jù)還要經(jīng)過人工校對(duì)的程序校對(duì)。非中文數(shù)據(jù)在進(jìn)行語(yǔ)言 翻譯時(shí),只針對(duì)其題目文摘等文字內(nèi)容進(jìn)行翻譯,其余內(nèi)容均不變化。步驟S160,在中文的基本專利數(shù)據(jù)中,包括一些非簡(jiǎn)體中文的數(shù)據(jù)如臺(tái)灣、 香港地區(qū)的專利數(shù)據(jù),因此要通過標(biāo)準(zhǔn)化模塊116將非簡(jiǎn)體中文的基本專利數(shù) 據(jù)選擇出來(lái),并將它們轉(zhuǎn)換為簡(jiǎn)體中文。步驟S170,提取模塊117從聚類數(shù)據(jù)庫(kù)中提取基本專利中的公司或申請(qǐng)人信息,并去除重復(fù)內(nèi)容后,存入關(guān)聯(lián)數(shù)據(jù)庫(kù)。從相關(guān)信息數(shù)據(jù)庫(kù)中采集的數(shù)據(jù) 包括各種類型的科技、經(jīng)濟(jì)等信息,例如科技期刊中的、科技圖書中的、標(biāo) 準(zhǔn)中的、海關(guān)數(shù)據(jù)庫(kù)中的信息等,而且這些信息只限于中文的。步驟S180,最后關(guān)聯(lián)模塊118按照公司或申請(qǐng)人名,將聚類數(shù)據(jù)庫(kù)中的信 息和相關(guān)信息數(shù)據(jù)庫(kù)中的信息關(guān)聯(lián)起來(lái),成為包括一些科技、經(jīng)濟(jì)信息的漢化 世界專利數(shù)據(jù)庫(kù)。該庫(kù)中的信息即可通過計(jì)算機(jī)提供用戶使用。
權(quán)利要求
1.一種漢化的世界專利數(shù)據(jù)庫(kù)系統(tǒng),其特征在于它包括數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、各國(guó)專利數(shù)據(jù)庫(kù)和相關(guān)信息數(shù)據(jù)庫(kù),它們通過通訊網(wǎng)絡(luò)連接;應(yīng)用服務(wù)器包括采集模塊,用于采集各國(guó)專利數(shù)據(jù),以及與各國(guó)專利相關(guān)的信息;聚類處理模塊,用于將各國(guó)專利的數(shù)據(jù)處理成專利族數(shù)據(jù);標(biāo)記模塊用于標(biāo)記基本專利和英文專利;刪除模塊,用于刪除專利族記錄中無(wú)標(biāo)記專利的部分內(nèi)容;翻譯模塊,用于將非中文的基本專利數(shù)據(jù)翻譯為中文;標(biāo)準(zhǔn)化模塊用于將非簡(jiǎn)體中文的基本專利數(shù)據(jù)轉(zhuǎn)換為中文;提取模塊用于提取基本專利中的公司或申請(qǐng)人名;關(guān)聯(lián)模塊用于按照公司或申請(qǐng)人名,關(guān)聯(lián)聚類數(shù)據(jù)庫(kù)與關(guān)聯(lián)數(shù)據(jù)庫(kù)中的信息;數(shù)據(jù)庫(kù)服務(wù)器至少包含三個(gè)數(shù)據(jù)庫(kù),一個(gè)是存儲(chǔ)著各國(guó)專利數(shù)據(jù)的原始信息庫(kù),一個(gè)是存儲(chǔ)著專利族數(shù)據(jù)的聚類數(shù)據(jù)庫(kù),再一個(gè)是存儲(chǔ)著相關(guān)信息的關(guān)聯(lián)數(shù)據(jù)庫(kù)。
2. —種漢化數(shù)據(jù)處理方法,該方法包括以下步驟1) 根據(jù)需要從各國(guó)專利數(shù)據(jù)庫(kù)中采集多個(gè)國(guó)家的專利數(shù)據(jù),然后將它們 存入各國(guó)專利數(shù)據(jù)庫(kù);2) 按照優(yōu)先權(quán)信息,將各國(guó)專利數(shù)據(jù)中擁有相同優(yōu)先權(quán)的數(shù)據(jù),聚類處 理成專利族數(shù)據(jù),然后將它們存入聚類數(shù)據(jù)庫(kù);3) 根據(jù)事先確定的優(yōu)先順序,在每個(gè)專利族中,選擇基本專利,并將每 個(gè)基本專利打上標(biāo)記;4) 根據(jù)事先確定的優(yōu)先順序,將每個(gè)專利族中的一件英文數(shù)據(jù)打上標(biāo)記;5) 將既不是基本專利又不是英文專利的專利族成員的申請(qǐng)信息、公布信 息和國(guó)別信息保留,其余信息刪除;6) 從基本專利中篩選出非中文數(shù)據(jù)進(jìn)行翻譯,并人工校對(duì);7) 從基不卞刑甲!M8) 將基本專利中的公司或申請(qǐng)人名提取出來(lái),并按照這些公司或申請(qǐng)人名在相關(guān)信息數(shù)據(jù)庫(kù)中下載相關(guān)信息,存入關(guān)聯(lián)數(shù)據(jù)庫(kù);9) 將聚類數(shù)據(jù)庫(kù)中的信息與關(guān)聯(lián)數(shù)據(jù)庫(kù)中的信息,按照公司或申請(qǐng)人名 關(guān)聯(lián)起來(lái)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于標(biāo)記基本專利的優(yōu)先順序?yàn)?中國(guó)、臺(tái)灣地區(qū)、香港地區(qū)、美國(guó)、英國(guó)、歐洲、國(guó)際、日本、德國(guó)、法國(guó)、俄國(guó)。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于標(biāo)記英文數(shù)據(jù)的優(yōu)先順序?yàn)?歐洲(國(guó)際)、美國(guó)、英國(guó)、澳大利亞、加拿大、南非。
全文摘要
本發(fā)明提供一種漢化的世界專利數(shù)據(jù)庫(kù)系統(tǒng),該系統(tǒng)包括數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、各國(guó)專利數(shù)據(jù)庫(kù)和相關(guān)信息數(shù)據(jù)庫(kù),它們通過網(wǎng)絡(luò)互相聯(lián)通。應(yīng)用服務(wù)器包括采集模塊、聚類處理模塊、標(biāo)記模塊、刪除模塊、翻譯模塊、標(biāo)準(zhǔn)化模塊、提取模塊和關(guān)聯(lián)模塊。數(shù)據(jù)庫(kù)服務(wù)器包括存儲(chǔ)著各國(guó)專利數(shù)據(jù)的原始信息庫(kù),存儲(chǔ)著專利族數(shù)據(jù)的聚類數(shù)據(jù)庫(kù),和存儲(chǔ)著相關(guān)信息的關(guān)聯(lián)數(shù)據(jù)庫(kù)。本發(fā)明將各個(gè)國(guó)家、地區(qū)的專利信息資源整合在一起,并將其全部漢化,可以克服國(guó)內(nèi)使用者使用國(guó)外專利信息時(shí)遇到的語(yǔ)言障礙,從而讓國(guó)內(nèi)使用者能夠充分利用以及挖掘國(guó)外專利信息,同時(shí)提高國(guó)內(nèi)專利信息資源實(shí)用性,最終達(dá)到充分開發(fā)利用中國(guó)專利信息的目的。
文檔編號(hào)G06F17/30GK101593192SQ20081011299
公開日2009年12月2日 申請(qǐng)日期2008年5月27日 優(yōu)先權(quán)日2008年5月27日
發(fā)明者嚴(yán)薈煌, 劉玉純, 冉 張 申請(qǐng)人:北京六所和瑞科技發(fā)展有限公司;劉玉純