本發(fā)明主要涉及一種知識產(chǎn)權評價的方法,尤其是通過知識產(chǎn)權公布網(wǎng)站的頁面信息抓取、分析、整理和建檔的方法。
背景技術:
目前,知識產(chǎn)權的信息獲取大多基于通過相關部門所公開的數(shù)據(jù)接口來實現(xiàn)知識產(chǎn)權信息的同步,或者通過復雜的運算與抓取而獲得信息量較少的信息。此方法對于經(jīng)常性的、大數(shù)據(jù)的企業(yè)知識產(chǎn)權的信息獲取顯得難以勝任,并且應用成本高,風險大,不利于中小中介服務機構推廣應用。
知識產(chǎn)權的信息,尤其是建立企業(yè)研發(fā)信用體系,更顯得非常重要,同時也是中介服務機構提高自身服務質(zhì)量的有力支持。
技術實現(xiàn)要素:
為了解決上述問題,本發(fā)明提出了一種基于專利、商標和軟件著作權三種常用的知識產(chǎn)權的公眾公開的登記或變更公告數(shù)據(jù)的頁面級別的通過getHTTPPage方法的抓取技術,再結合標記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過上述信息碼之間的對比,在相應程序下生成第四信息碼,然后依對應的方法寫入第一知識產(chǎn)權信息庫和第二知識產(chǎn)權信息庫,以備不同的場合使用的一種知識產(chǎn)權評價的方法。
一種知識產(chǎn)權評價的方法,其主要包含以下步驟:
步驟S102,在企業(yè)信息庫中讀出企業(yè)名稱的待查數(shù)據(jù);
步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過函數(shù)轉為下列所列的對應數(shù)據(jù)編碼:專利公告信息對應編碼方式為UTF8,軟件著作權公告信息對應編碼方式為GB2312,商標公告信息對應編碼方式為UTF8;
步驟S104,在步驟S103生成的對應編碼方式的數(shù)據(jù)后,通過URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進行加密,并輸出為第一變量,其中軟件著作權公告信息中,第一變量為明文,不進行加密;
步驟S105,以上述第一變量作為對應的URL的對應參數(shù)值生成第一URL;
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應的頁面的HTML格式的數(shù)據(jù)源碼供步驟S107進行標記截?。?/p>
步驟S107,通過S106獲得的HTML格式的數(shù)據(jù)源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;三種類別的知識產(chǎn)權類型對應如下標記生成第二信息碼:專利類型的開始標記為“sop-totalCount”,結束標記為“</span>]”,商標類型的開始標記為“regNum”,結束標記為“regNum”,軟件著作權類型的開始標記為“登記日期”,結束標記為“>2”; 軟件著作權類型時獲取第三信息碼,其開始標記為“中國”,結束標記為“<td class=”,其中商標類型和專利類型沒有第三信息碼;
當?shù)谝恍畔⒋a的值為空時,返回S102步驟,同時檢查網(wǎng)絡是否正常;當?shù)诙畔⒋a為空時,跳過步驟S108,并設置第四信息碼的值為“0”;當?shù)诙畔⒋a不為空時,執(zhí)行步驟S108;
步驟S108,生成第四信息碼:知識產(chǎn)權類型為軟件著作權類型時,當?shù)诙畔⒋a不為空,并且第三信息碼為空時,第四信息碼通過開始標記為“[總數(shù)”,結束標記為“]”獲取生成,第二信息碼不為空并且第三信息碼不為空時,第四信息碼的值為“1”;知識產(chǎn)權類型為專利時,第二信息碼不為空時,第四信息碼通過第二信息碼去雜質(zhì)后剩下數(shù)字;知識產(chǎn)權類型為商標時,第二信息碼不為空時,第四信息碼的值為“1”;
步驟S109,當?shù)诙畔⒋a不為空時,將第一信息碼、第二信息碼和第四信息碼的信息,以及相應的輔助數(shù)據(jù)對應存貯在擁有知識產(chǎn)權的企業(yè)信息庫中;
將所有數(shù)據(jù)執(zhí)行步驟S110存入知識產(chǎn)權的企業(yè)信息總表,同時返回步驟S101將已經(jīng)成功檢索的記錄的進行已執(zhí)行的標記然后,返回步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
執(zhí)行步驟S102前執(zhí)行步驟S101進行企業(yè)信息查詢中,進行企業(yè)類型、企業(yè)名稱、企業(yè)成立時間、企業(yè)注冊資金和企業(yè)注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數(shù)據(jù)。
步驟S110還可以通過將數(shù)據(jù)存貯在步驟S101所述的企業(yè)信息表對應的字段中,同時將相應的執(zhí)行標記字段的值標記為已執(zhí)行,然后步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
步驟S109所述的輔助數(shù)據(jù)包括通過步驟S102所讀出的企業(yè)名稱傳遞而獲得企業(yè)名稱,通過步驟S107和步驟S108追加獲取當前的系統(tǒng)時間。
在執(zhí)行步驟S102前,通過設置一定數(shù)量的采樣數(shù)據(jù)進行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權的一定量的企業(yè),采樣走完整個流程,查看相關采集是否正常,此步驟確定網(wǎng)絡是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設置的數(shù)據(jù)編碼方式是否正確。
步驟S107所述的知識產(chǎn)權類型為軟件著作權時,當?shù)诙畔⒋a不為空時,通過設置第四信息碼的值為“1”而不采集生成第三信息碼。
步驟S103所述的編碼方式,當官方機構公布的數(shù)據(jù)對應的編碼發(fā)生變更時,本方法將根據(jù)實際所發(fā)生的變化變更編碼方式。
步驟S104所述的URL中,當官方機構公布時采用的URL進行加密發(fā)布時,本方法將根據(jù)實際情況進行數(shù)據(jù)加密編碼。
步驟S104所述的URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進行加密,其加密編碼根據(jù)實際情況進行一次加密、二次和多次加密。
附圖說明
圖1一種知識產(chǎn)權評價的方法流程圖。
具體實施方式
一種知識產(chǎn)權評價的方法,其主要包含以下步驟:
步驟S101,進行企業(yè)信息查詢中,進行企業(yè)類型等條件檢索篩選出所需要檢索的數(shù)據(jù)。
步驟S102,在企業(yè)信息庫中讀出企業(yè)名稱的待查數(shù)據(jù),設變量為“aa”。
步驟S103,根據(jù)三種類別將步驟S102所讀出的企業(yè)名稱通過函數(shù)轉為下列所列的對應數(shù)據(jù)編碼:專利公告信息對應編碼方式為UTF8,軟件著作權公告信息對應編碼方式為GB2312,商標公告信息對應編碼方式為UTF8。
其中UTF8編碼的需要在文件頭加入以下代碼段:
<script language="javaScript" runat="Server">
function ce(str)
{
return encodeURIComponent(str)
}
</script>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF8">
<meta http-equiv="Content-Language" content="zh-cn">
</head>
GB2312編碼的文件頭加入如下代碼:
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
步驟S104,在步驟S103生成的對應編碼方式的數(shù)據(jù)后,通過URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進行加密,并輸出為第一變量,其中軟件著作權公告信息中,第一變量為明文,不進行加密;URLencode/URLDecode加密/解密函數(shù)將上述步驟S103的數(shù)據(jù)進行加密,其加密編碼根據(jù)實際情況進行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),兩次加密的方式為cc= ce(""&bb&""),多次加密的方法類似。
步驟S105,以上述第一變量作為對應的URL的對應參數(shù)值生成第一URL,使用ASP分別表達如下第一變量假設為cname:
1.假設專利公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcde.com:
http://www.abcde.com//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_page-row=100&#anchor
2.假設商標公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcdb.com:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0
3.假設軟件著作權公告數(shù)據(jù)發(fā)布網(wǎng)站為www.abcda.com:
http://www.abcda.com/cpcc/RRegisterAction.do?method=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=1&count=10&sortOrder=&sortLabel=。
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應的頁面的HTML格式的數(shù)據(jù)源碼供步驟S107進行標記截取。
步驟S107,通過S106獲得的HTML格式的數(shù)據(jù)源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;三種類別的知識產(chǎn)權類型對應如下標記生成第二信息碼:專利類型的開始標記為“sop-totalCount”,結束標記為“</span>]”,商標類型的開始標記為“regNum”,結束標記為“regNum”,軟件著作權類型的開始標記為“登記日期”,結束標記為“>2”; 軟件著作權類型時獲取第三信息碼,其開始標記為“中國”,結束標記為“<td class=”,其中商標類型和專利類型沒有第三信息碼。
當?shù)谝恍畔⒋a的值為空時,返回S102步驟,同時檢查網(wǎng)絡是否正常;當?shù)诙畔⒋a為空時,跳過步驟S108,并設置第四信息碼的值為“0”;當?shù)诙畔⒋a不為空時,執(zhí)行步驟S108。
步驟S108,生成第四信息碼:知識產(chǎn)權類型為軟件著作權類型時,當?shù)诙畔⒋a不為空,并且第三信息碼為空時,第四信息碼通過開始標記為“[總數(shù)”,結束標記為“]”獲取生成,第二信息碼不為空并且第三信息碼不為空時,第四信息碼的值為“1”;知識產(chǎn)權類型為專利時,第二信息碼不為空時,第四信息碼通過第二信息碼去雜質(zhì)后剩下數(shù)字;知識產(chǎn)權類型為商標時,第二信息碼不為空時,第四信息碼的值為“1”。
步驟S109,當?shù)诙畔⒋a不為空時,將第一信息碼、第二信息碼和第四信息碼的信息,以及相應的輔助數(shù)據(jù)對應存貯在擁有知識產(chǎn)權的企業(yè)信息庫中,輔助數(shù)據(jù)包括通過步驟S102所讀出的企業(yè)名稱傳遞而獲得企業(yè)名稱,通過步驟S107和步驟S108追加獲取當前的系統(tǒng)時間。
將所有數(shù)據(jù)執(zhí)行步驟S110存入知識產(chǎn)權的企業(yè)信息總表,同時返回步驟S101將已經(jīng)成功檢索的記錄的進行已執(zhí)行的標記然后,返回步驟S102循環(huán)執(zhí)行,直至所有符合條件的企業(yè)數(shù)據(jù)檢索完成為止。
在執(zhí)行步驟S102前,通過設置一定數(shù)量的采樣數(shù)據(jù)進行采樣,采樣數(shù)據(jù)包括企業(yè)擁有三種知識產(chǎn)權類別的一種、兩種、三種及上述組合的一定量的企業(yè),以及沒有任何知識產(chǎn)權的一定量的企業(yè),采樣走完整個流程,查看相關采集是否正常,此步驟確定網(wǎng)絡是否正常,官方公布數(shù)據(jù)格式是否發(fā)生變化和確定所設置的數(shù)據(jù)編碼方式是否正確。
上述實施方式僅僅為本發(fā)明的其中實施方式之一。