本發(fā)明主要涉及一種知識產(chǎn)權(quán)評價系統(tǒng),尤其是通過知識產(chǎn)權(quán)公布網(wǎng)站的頁面信息抓取、分析、整理和建檔的系統(tǒng)。
背景技術(shù):
目前,知識產(chǎn)權(quán)的信息獲取大多基于通過相關(guān)部門所公開的數(shù)據(jù)接口來實現(xiàn)知識產(chǎn)權(quán)信息的同步,或者通過復(fù)雜的運算與抓取而獲得信息量較少的信息。此方法對于經(jīng)常性的、大數(shù)據(jù)的企業(yè)知識產(chǎn)權(quán)的信息獲取顯得難以勝任,并且應(yīng)用成本高,風(fēng)險大,不利于中小中介服務(wù)機(jī)構(gòu)推廣應(yīng)用。
知識產(chǎn)權(quán)的信息,尤其是建立企業(yè)研發(fā)信用體系,更顯得非常重要,同時也是中介服務(wù)機(jī)構(gòu)提高自身服務(wù)質(zhì)量的有力支持。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明提出了一種基于專利、商標(biāo)和軟件著作權(quán)三種常用的知識產(chǎn)權(quán)的公眾公開的登記或變更公告數(shù)據(jù)的頁面級別的通過getHTTPPage方法的抓取技術(shù),再結(jié)合標(biāo)記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過上述信息碼之間的對比,在相應(yīng)程序下生成第四信息碼,然后依對應(yīng)的方法寫入第一知識產(chǎn)權(quán)信息庫和第二知識產(chǎn)權(quán)信息庫,以備不同的場合使用的一種企業(yè)知識產(chǎn)權(quán)信息抓取與管理的系統(tǒng)。
一種知識產(chǎn)權(quán)評價系統(tǒng),其主要包含以下結(jié)構(gòu):
企業(yè)信息庫、知識產(chǎn)權(quán)類型判斷程序、編碼管理程序、URLencode/URLDecod加密/解密程序、知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊、信息碼管理模塊、第一比對信息庫、第二比對信息庫、企業(yè)知識產(chǎn)權(quán)公告信息庫和接口管理模塊;其中信息碼管理模塊由第一信息碼、第二信息碼、第三信息碼和第四信息碼組成;企業(yè)信息庫包含企業(yè)信息數(shù)據(jù)和SQL語句管理模塊,其通過SQL語句條件檢索后返回值給知識產(chǎn)權(quán)類型判斷程序,知識產(chǎn)權(quán)類型判斷程序根據(jù)SQL語句的設(shè)置確定知識產(chǎn)權(quán)類型,然后通過編碼管理程序確定編碼方式,再依知識產(chǎn)權(quán)類型進(jìn)行URLencode加密,輸出加密后的企業(yè)名稱,發(fā)送到知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊生成相應(yīng)的以上述加密后的企業(yè)名稱為變量的URL,信息碼管理模塊通過getHTTPPage方式訪問生成的URL,并將獲得的頁面HTML靜態(tài)化,根據(jù)知識產(chǎn)權(quán)類型執(zhí)行信息碼管理模塊中的標(biāo)記識別截取頁面信息以對應(yīng)生成第一信息碼、第二信息碼、第三信息碼和第四信息碼;當(dāng)?shù)谝恍畔⒋a為空時,系統(tǒng)將返回重新執(zhí)行企業(yè)信息庫的SQL語句操作,并檢查網(wǎng)絡(luò)、數(shù)據(jù)可靠性以及各模塊運作是否正常;當(dāng)?shù)谝恍畔⒋a不為空,第二信息碼為空時,將第三信息碼和第四信息碼設(shè)置為“0”,然后寫入第一比對信息庫,同時寫入企業(yè)知識產(chǎn)權(quán)公告信息庫;當(dāng)?shù)诙畔⒋a不為空,并且知識產(chǎn)權(quán)類型判斷為商標(biāo)時,設(shè)置第四信息碼為“1”,與輔助信息一并寫入第二比對信息庫;當(dāng)?shù)诙畔⒋a不為空,并且知識產(chǎn)權(quán)類型判斷為專利時,通過信息碼管理模塊的標(biāo)記識別截取頁面信息,去雜后生成第四信息碼,與輔助信息一并寫入第二比對信息庫;當(dāng)?shù)诙畔⒋a不為空,并且知識產(chǎn)權(quán)類型判斷為軟件著作權(quán)時,通過信息碼管理模塊標(biāo)記識別截取頁面信息,去雜后生成第三信息碼,當(dāng)?shù)谌畔⒋a也為空時,設(shè)置第四信息碼為“1”,當(dāng)?shù)谌畔⒋a不為空時,設(shè)置第四信息碼的值與第三信息碼的值相同,與輔助信息一并寫入第二比對信息庫,同時寫入企業(yè)知識產(chǎn)權(quán)公告信息庫;企業(yè)知識產(chǎn)權(quán)公告信息庫通過SQL語句與存貯過程共同組成接口,通過接口管理模塊供第三方系統(tǒng)調(diào)用。
企業(yè)信息庫所包含的SQL語句管理模塊,包括企業(yè)類型、企業(yè)成立時間、企業(yè)注冊資金、企業(yè)注冊地址和企業(yè)是否是高新技術(shù)企業(yè)分別或者組合作為條件檢索篩選時所需要的SQL語句或SQL語句集合。
企業(yè)信息庫還可以包含采集比對記錄字段集,將比對的結(jié)果、比對次數(shù)和比對時間進(jìn)行記錄。
輔助數(shù)據(jù)包括企業(yè)名、當(dāng)前的系統(tǒng)時間、操作人員的session值或值的組合和數(shù)據(jù)對比的次數(shù)的信息的一種或多種的集合。
每個企業(yè)信息庫還可以設(shè)置一定數(shù)量的采樣數(shù)據(jù)進(jìn)行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權(quán)類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權(quán)的一定量的企業(yè),采樣走完整個流程,查看相關(guān)采集是否正常,確定網(wǎng)絡(luò)是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設(shè)置的數(shù)據(jù)編碼方式是否正確,采樣數(shù)據(jù)通過獨立的字段值進(jìn)行標(biāo)識,或者通過單獨的表進(jìn)行存放,在進(jìn)行比對時,通過SQL語句檢索獲得相應(yīng)的數(shù)據(jù)。
知識產(chǎn)權(quán)類型為“軟件著作權(quán)”時,當(dāng)?shù)诙畔⒋a不為空時,信息碼管理模塊還可以設(shè)置第四信息碼的值為“1”而不采集生成第三信息碼。
知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊包含手動設(shè)置URL、編碼方式和采集規(guī)則的程序,當(dāng)官方機(jī)構(gòu)公布的URL、發(fā)布的編碼方式、發(fā)布的數(shù)據(jù)結(jié)構(gòu)發(fā)生變更時,知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊的手動設(shè)置程序?qū)λl(fā)生的變化進(jìn)行容錯更正。
URLencode/URLDecod加密/解密程序進(jìn)行數(shù)據(jù)加密輸出時,其加密編碼根據(jù)實際情況進(jìn)行一次加密、二次和多次加密。
附圖說明
圖1一種知識產(chǎn)權(quán)評價系統(tǒng)結(jié)構(gòu)圖。
圖2一種企業(yè)知識產(chǎn)權(quán)信息抓取與管理的方法流程圖。
具體實施方式
如圖1:一種知識產(chǎn)權(quán)評價系統(tǒng),其主要包含以下結(jié)構(gòu):
企業(yè)信息庫(A01)、知識產(chǎn)權(quán)類型判斷程序(A02)、編碼管理程序(A03)、URLencode/URLDecod加密/解密程序(A04)、知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊(A05)、信息碼管理模塊(A06)、第一比對信息庫(A07)、第二比對信息庫(A08)、企業(yè)知識產(chǎn)權(quán)公告信息庫(A09)和接口管理模塊(A10);其中信息碼管理模塊(A06)由第一信息碼(B11)、第二信息碼(B12)、第三信息碼(B13)和第四信息碼(B14)組成;企業(yè)信息庫(A01)包含企業(yè)信息數(shù)據(jù)和SQL語句管理模塊,其通過SQL語句條件檢索后返回值給知識產(chǎn)權(quán)類型判斷程序,知識產(chǎn)權(quán)類型判斷程序根據(jù)SQL語句的設(shè)置確定知識產(chǎn)權(quán)類型,然后通過編碼管理程序(A03)確定編碼方式,再依知識產(chǎn)權(quán)類型進(jìn)行URLencode加密,輸出加密后的企業(yè)名稱,發(fā)送到知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊(A05)生成相應(yīng)的以上述加密后的企業(yè)名稱為變量的URL,信息碼管理模塊(A06)通過getHTTPPage方式訪問生成的URL,并將獲得的頁面HTML靜態(tài)化,根據(jù)知識產(chǎn)權(quán)類型執(zhí)行信息碼管理模塊(A06)中的標(biāo)記識別截取頁面信息以對應(yīng)生成第一信息碼(B11)、第二信息碼(B12)、第三信息碼(B13)和第四信息碼(B14);當(dāng)?shù)谝恍畔⒋a(B11)為空時,系統(tǒng)將返回重新執(zhí)行企業(yè)信息庫的SQL語句操作,并檢查網(wǎng)絡(luò)、數(shù)據(jù)可靠性以及各模塊運作是否正常;當(dāng)?shù)谝恍畔⒋a(B11)不為空,第二信息碼(B12)為空時,將第三信息碼(B13)和第四信息碼(B14)設(shè)置為“0”,然后寫入第一比對信息庫(A07),同時寫入企業(yè)知識產(chǎn)權(quán)公告信息庫(A09);當(dāng)?shù)诙畔⒋a(B12)不為空,并且知識產(chǎn)權(quán)類型判斷為商標(biāo)時,設(shè)置第四信息碼(B14)為“1”,與輔助信息一并寫入第二比對信息庫(A08);當(dāng)?shù)诙畔⒋a(B12)不為空,并且知識產(chǎn)權(quán)類型判斷為專利時,通過信息碼管理模塊(A06)的標(biāo)記識別截取頁面信息,去雜后生成第四信息碼(B14),與輔助信息一并寫入第二比對信息庫(A08);當(dāng)?shù)诙畔⒋a(B12)不為空,并且知識產(chǎn)權(quán)類型判斷為軟件著作權(quán)時,通過信息碼管理模塊(A06)標(biāo)記識別截取頁面信息,去雜后生成第三信息碼(B13),當(dāng)?shù)谌畔⒋a(B13)也為空時,設(shè)置第四信息碼(B14)為“1”,當(dāng)?shù)谌畔⒋a(B13)不為空時,設(shè)置第四信息碼(B14)的值與第三信息碼(B13)的值相同,與輔助信息一并寫入第二比對信息庫(A08),同時寫入企業(yè)知識產(chǎn)權(quán)公告信息庫(A09);企業(yè)知識產(chǎn)權(quán)公告信息庫(A09)通過SQL語句與存貯過程共同組成接口,通過接口管理模塊(A10)供第三方系統(tǒng)調(diào)用。
企業(yè)信息庫(A01)所包含的SQL語句管理模塊,包括企業(yè)類型、企業(yè)成立時間、企業(yè)注冊資金、企業(yè)注冊地址和企業(yè)是否是高新技術(shù)企業(yè)分別或者組合作為條件檢索篩選時所需要的SQL語句或SQL語句集合。
企業(yè)信息庫(A01)還可以包含采集比對記錄字段集,將比對的結(jié)果、比對次數(shù)和比對時間進(jìn)行記錄。
輔助數(shù)據(jù)包括企業(yè)名、當(dāng)前的系統(tǒng)時間、操作人員的session值或值的組合和數(shù)據(jù)對比的次數(shù)的信息的一種或多種的集合。
每個企業(yè)信息庫(A01)還可以設(shè)置一定數(shù)量的采樣數(shù)據(jù)進(jìn)行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權(quán)類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權(quán)的一定量的企業(yè),采樣走完整個流程,查看相關(guān)采集是否正常,確定網(wǎng)絡(luò)是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設(shè)置的數(shù)據(jù)編碼方式是否正確,采樣數(shù)據(jù)通過獨立的字段值進(jìn)行標(biāo)識,或者通過單獨的表進(jìn)行存放,在進(jìn)行比對時,通過SQL語句檢索獲得相應(yīng)的數(shù)據(jù)。
知識產(chǎn)權(quán)類型為“軟件著作權(quán)”時,當(dāng)?shù)诙畔⒋a不為空時,信息碼管理模塊(A06)還可以設(shè)置第四信息碼(B14)的值為“1”而不采集生成第三信息碼。
知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊(A05)包含手動設(shè)置URL、編碼方式和采集規(guī)則的程序,當(dāng)官方機(jī)構(gòu)公布的URL、發(fā)布的編碼方式、發(fā)布的數(shù)據(jù)結(jié)構(gòu)發(fā)生變更時,知識產(chǎn)權(quán)公布數(shù)據(jù)采集管理模塊(A05)的手動設(shè)置程序?qū)λl(fā)生的變化進(jìn)行容錯更正。
URLencode/URLDecod加密/解密程序(A04)進(jìn)行數(shù)據(jù)加密輸出時,其加密編碼根據(jù)實際情況進(jìn)行一次加密、二次和多次加密。
具體運作的方法如下:
與本系統(tǒng)相關(guān)的企業(yè)知識產(chǎn)權(quán)信息抓取與管理方法,其主要包含以下步驟:
步驟S101,進(jìn)行企業(yè)信息查詢中,進(jìn)行企業(yè)類型等條件檢索篩選出所需要檢索的數(shù)據(jù)。
步驟S102,在企業(yè)信息庫中讀出企業(yè)名稱的待查數(shù)據(jù),設(shè)變量為“aa”。
步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過函數(shù)轉(zhuǎn)為下列所列的對應(yīng)數(shù)據(jù)編碼:專利公告信息對應(yīng)編碼方式為UTF8,軟件著作權(quán)公告信息對應(yīng)編碼方式為GB2312,商標(biāo)公告信息對應(yīng)編碼方式為UTF8。
其中UTF8編碼的需要在文件頭加入以下代碼段:
<script language="javaScript" runat="Server">
function ce(str)
{
return encodeURIComponent(str)
}
</script>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF8">
<meta http-equiv="Content-Language" content="zh-cn">
</head>
GB2312編碼的文件頭加入如下代碼:
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
步驟S104,在步驟S103生成的對應(yīng)編碼方式的數(shù)據(jù)后,通過URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,并輸出為第一變量,其中軟件著作權(quán)公告信息中,第一變量為明文,不進(jìn)行加密;URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進(jìn)行加密,其加密編碼根據(jù)實際情況進(jìn)行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),兩次加密的方式為cc= ce(""&bb&""),多次加密的方法類似。
步驟S105,以上述第一變量作為對應(yīng)的URL的對應(yīng)參數(shù)值生成第一URL,使用ASP分別表達(dá)如下第一變量假設(shè)為cname:
1.假設(shè)專利公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcde.com:
http:/www.abcde.com//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_page-row=100&#anchor
2.假設(shè)商標(biāo)公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcdb.com:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0
3.假設(shè)軟件著作權(quán)公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcda.com:
http://www.abcda.com/cpcc/RRegisterAction.do?method=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=1&count=10&sortOrder=&sortLabel=。
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應(yīng)的頁面的HTML格式的數(shù)據(jù)源碼供步驟S107進(jìn)行標(biāo)記截取。
步驟S107,通過S106獲得的HTML格式的數(shù)據(jù)源碼,通過以“<title>”標(biāo)記開始和“</title>”標(biāo)記結(jié)束生成第一信息碼;三種類別的知識產(chǎn)權(quán)類型對應(yīng)如下標(biāo)記生成第二信息碼:專利類型的開始標(biāo)記為“sop-totalCount”,結(jié)束標(biāo)記為“</span>]”,商標(biāo)類型的開始標(biāo)記為“regNum”,結(jié)束標(biāo)記為“regNum”,軟件著作權(quán)類型的開始標(biāo)記為“登記日期”,結(jié)束標(biāo)記為“>2”; 軟件著作權(quán)類型時獲取第三信息碼,其開始標(biāo)記為“中國”,結(jié)束標(biāo)記為“<td class=”,其中商標(biāo)類型和專利類型沒有第三信息碼。
當(dāng)?shù)谝恍畔⒋a的值為空時,返回S102步驟,同時檢查網(wǎng)絡(luò)是否正常;當(dāng)?shù)诙畔⒋a為空時,跳過步驟S108,并設(shè)置第四信息碼的值為“0”;當(dāng)?shù)诙畔⒋a不為空時,執(zhí)行步驟S108。
步驟S108,生成第四信息碼:知識產(chǎn)權(quán)類型為軟件著作權(quán)類型時,當(dāng)?shù)诙畔⒋a不為空,并且第三信息碼為空時,第四信息碼通過開始標(biāo)記為“[總數(shù)”,結(jié)束標(biāo)記為“]”獲取生成,第二信息碼不為空并且第三信息碼不為空時,第四信息碼的值為“1”;知識產(chǎn)權(quán)類型為專利時,第二信息碼不為空時,第四信息碼通過第二信息碼去雜質(zhì)后剩下數(shù)字;知識產(chǎn)權(quán)類型為商標(biāo)時,第二信息碼不為空時,第四信息碼的值為“1”。
步驟S109,當(dāng)?shù)诙畔⒋a不為空時,將第一信息碼、第二信息碼和第四信息碼的信息,以及相應(yīng)的輔助數(shù)據(jù)對應(yīng)存貯在擁有知識產(chǎn)權(quán)的企業(yè)信息庫中,輔助數(shù)據(jù)包括通過步驟S102所讀出的企業(yè)名稱傳遞而獲得企業(yè)名稱,通過步驟S107和步驟S108追加獲取當(dāng)前的系統(tǒng)時間。
將所有數(shù)據(jù)執(zhí)行步驟S110存入知識產(chǎn)權(quán)的企業(yè)信息總表,同時返回步驟S101將已經(jīng)成功檢索的記錄的進(jìn)行已執(zhí)行的標(biāo)記然后,返回步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
在執(zhí)行步驟S102前,通過設(shè)置一定數(shù)量的采樣數(shù)據(jù)進(jìn)行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權(quán)類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權(quán)的一定量的企業(yè),采樣走完整個流程,查看相關(guān)采集是否正常,此步驟確定網(wǎng)絡(luò)是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設(shè)置的數(shù)據(jù)編碼方式是否正確。
上述實施方式僅僅為本發(fā)明的其中實施方式之一。