專利名稱:一種在線更新興趣信息的采集方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在線信息實時獲取技術(shù),具體地說是一種對在線更新興趣信息的采集方法。
背景技術(shù):
隨著信息化技術(shù)的發(fā)展,Web正在改變著各種業(yè)務(wù)領(lǐng)域,它涉及新聞、廣告、消費(fèi)、金融管理、教育、政府、電子商務(wù)及其它信息服務(wù)。Web包含了豐富和動態(tài)的超鏈接信息以及Web頁面的訪問和使用信息,為廣大使用者提供了豐富的資源。如何提取關(guān)注的、感興趣的信息,成為各行各業(yè)關(guān)注的熱點(diǎn),同時有效地信息采集以及發(fā)布方式,成為助推web信息挖掘的關(guān)鍵。比如,在各行業(yè)工程建設(shè)或采購中,招投標(biāo)工作十分重要,然而招投標(biāo)信息分散在各個單位的門戶網(wǎng)站上或各地方政府的網(wǎng)站上,使得招投標(biāo)工作在獲取實時信息時復(fù)雜而繁瑣?!?br>
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種能有效幫助企業(yè)和個人實時準(zhǔn)確的獲取到招投標(biāo)信息的在線內(nèi)容更新的采集方法,提高工作效率。本發(fā)明是這樣實現(xiàn)的本發(fā)明所提供的采集方法,主要包括三大步驟步驟I,建立興趣信息(招標(biāo)信息)網(wǎng)址庫;采集行業(yè)領(lǐng)域的感興趣web網(wǎng)址,形成網(wǎng)址庫。步驟2,興趣點(diǎn)挖掘;通過網(wǎng)頁源碼分析,對網(wǎng)址庫中的各類網(wǎng)址進(jìn)行動態(tài)檢測,獲取其更新信息。其步驟是I)判斷網(wǎng)址的編碼方式,若為GBK格式的網(wǎng)址,利用網(wǎng)址重定向技術(shù)將GBK編碼的網(wǎng)址轉(zhuǎn)化為Punycode編碼;2)判斷網(wǎng)頁的編碼方式從而獲取相應(yīng)網(wǎng)址的網(wǎng)頁源代碼;3)過濾掉與更新內(nèi)容無關(guān)的信息,如格式控制符等;4)判斷是否為第一次獲取該網(wǎng)頁的源代碼若是第一次獲取,將過濾過的網(wǎng)頁信息直接保存到數(shù)據(jù)庫;若不是第一次獲取網(wǎng)頁,利用字符串對比算法,將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比,獲取到網(wǎng)頁更新的內(nèi)容;5)在更新的內(nèi)容中搜索興趣點(diǎn)。步驟3,信息發(fā)布將更新的興趣點(diǎn)信息重新編輯后,通過短信、郵件等方式實時地分發(fā)給訂閱者。上述步驟2之興趣點(diǎn)挖掘中的字符串對比算法,此算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比,從而獲取網(wǎng)頁一處或多處更新的內(nèi)容,而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容。在這個算法中,可以人工設(shè)定m為獲取更新字符串的最短長度(精度),而在網(wǎng)頁更新內(nèi)容有多處的情況下,人工設(shè)定ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串。本發(fā)明的有益效果是使訂閱者在不進(jìn)行海量網(wǎng)址搜索的情況下實時掌握感興趣的WEB信息,如,若應(yīng)用到招投標(biāo)信息采集系統(tǒng)中,可提高招投標(biāo)工作的效率,減少投標(biāo)企業(yè)進(jìn)行招投標(biāo)進(jìn)行信息搜索時的工作量,使更多的優(yōu)秀供應(yīng)商參與到招投標(biāo)工作中來,使招投標(biāo)工作更加公正、公開、透明。
圖I為本發(fā)明網(wǎng)頁更新內(nèi)容采集的方法的總流程示意圖;圖2為本發(fā)明網(wǎng)頁更新內(nèi)容采集的方法之興趣點(diǎn)挖掘的流程圖;
圖3為網(wǎng)頁更新內(nèi)容的字符串對比算法示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以招標(biāo)信息為例,下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的描述。圖I顯示了本實施例采集的方法的流程本實施例提供了一種由于在線內(nèi)容更新而觸發(fā)的二次發(fā)布方法,包括建立興趣信息網(wǎng)址庫、興趣點(diǎn)挖掘、信息發(fā)布。在定時獲取網(wǎng)址庫中的所有網(wǎng)址的網(wǎng)頁內(nèi)容后,與存儲在數(shù)據(jù)庫中的網(wǎng)頁內(nèi)容對比,獲取到更新的網(wǎng)頁內(nèi)容S9,在更新的內(nèi)容中挖掘興趣點(diǎn)信息,如果有興趣信息,則二次發(fā)布給訂閱者。具體步驟如下所述(一 )建立興趣信息網(wǎng)址庫采集行業(yè)領(lǐng)域的感興趣web網(wǎng)址,一般是信息列表頁的網(wǎng)址,存儲在數(shù)據(jù)庫中。( 二)興趣點(diǎn)挖掘(三)信息發(fā)布若在上述步驟中搜索到客戶感興趣招標(biāo)信息,則將招標(biāo)信息重新編輯,然后通過短信、郵件、WEB發(fā)布等方式將編輯好的招標(biāo)信息實時分發(fā)給訂閱者。圖2顯示了本實施例之興趣點(diǎn)挖掘流程I)中文網(wǎng)址的處理S3利用網(wǎng)址重定向技術(shù)將含有GBK編碼文字的網(wǎng)址S2的頁面嵌套到Punycode編碼的網(wǎng)址的頁面中或?qū)⒂⑽木W(wǎng)址(Punycode編碼)I的網(wǎng)址跳轉(zhuǎn)到需采集的含有GBK編碼文字的網(wǎng)址。2)獲取網(wǎng)頁的編碼方式S4逐行讀取Punycode編碼的英文網(wǎng)址SI,使用webclient或HttpWebRequest獲取網(wǎng)址頁面的編碼方式。3)通過網(wǎng)頁內(nèi)容的編碼分類處理獲取網(wǎng)頁源代碼S5網(wǎng)頁內(nèi)容有UTF8、GB2312等多種編碼,判斷網(wǎng)頁的編碼方式后獲取網(wǎng)頁源代碼4)網(wǎng)頁源代碼的過濾S6過濾掉格式控制符等無用信息和非漢字字符得到頁面的漢字內(nèi)容。5)新舊網(wǎng)頁字符串的對比S8
判斷是否為第一次獲取網(wǎng)頁源代碼S7 :若不是第一次獲取,利用字符串對比算法(如圖2所示)將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比,內(nèi)容相同的忽略,內(nèi)容不同的記錄下來;當(dāng)新網(wǎng)頁的內(nèi)容比舊網(wǎng)頁內(nèi)容多出m個字符時保存更新內(nèi)容S9 ;若是第一次獲取網(wǎng)頁源代碼,則網(wǎng)頁的全部漢字內(nèi)容S10。6)在新增內(nèi)容中查找客戶感興趣的關(guān)鍵詞Sll (如床上用品、服裝等)。圖3顯示本實施例之網(wǎng)頁更新內(nèi)容的字符串對比算法,此算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比,從而獲取網(wǎng)頁一處或多處更新的內(nèi)容,而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容。在這個算法中,可以人工設(shè)定m為獲取更新字符串的最短長度(精度),而在網(wǎng)頁更新內(nèi)容有多處的情況下,ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串。其具體步驟如下所述S21 :定義網(wǎng)頁的最新時刻的內(nèi)容為字符串a(chǎn)□,上一時刻的內(nèi)容為字符串b□,變量s為存儲字符串a(chǎn)[]中字符a[i]的位置,變量Si為存儲字符串b[]中字符b[j]的位 置;S22 :判斷字符a[i]與字符b[j]是否相等,若相等跳到步驟S23,若不相等跳到步驟 S25 ;S23 :判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度,若小于跳到步驟S24,若大于則跳到步驟S37 ;S24 :字符串a(chǎn)口、b 口的下標(biāo)i、j自加I ;S25 :將字符串a(chǎn)[]的下標(biāo)保存進(jìn)變量s中;S26 :判斷字符a[i]與字符b[j]是否不相等,若不相等跳到步驟S27,若相等跳到步驟S31 ;S27 :判斷i+Ι是否小于字符串a(chǎn)[]的長度,若小于跳到步驟S28,若大于則跳到步驟 S29 ;S28 :字符串a(chǎn)[]的下標(biāo)i自加I ;S29 :字符串b []的下標(biāo)j自加1,并將變量s的值賦給i ;S30 :判斷j+Ι是否小于字符串b[]的長度,若小于跳到步驟S26,若大于則結(jié)束;S31 :判斷字符串a(chǎn)[i]的下標(biāo)i與變量s是否相等,若相等跳到步驟S22,若不相等跳到步驟S32 ;S32 :將字符串b[]的下標(biāo)保存進(jìn)變量Si中;S33 :判斷i-s是否小于m,若小于跳到步驟S34,若大于則跳到步驟S38 ;S34 :判斷字符a[i]與字符b[j]是否相等,若相等跳到步驟S35,若不相等跳到步驟 S39 ;S35 :判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度,若小于跳到步驟S36,若大于則跳到步驟S37 ;S36 :字符串a(chǎn)口、b[]的下標(biāo)i、j自加I ;S37 :判斷i+Ι是否等于字符串a(chǎn)[]的長度,若不等于則跳到步驟S38,,保存新增字符串,若等于則結(jié)束;S38 :將更新的內(nèi)容添加至更新字符串中;S39 :判斷j-sl是否小于ml,若小于跳到步驟S40,若大于則跳到步驟S26 ;
S40 :判斷i-s是否小于m,若小于跳到步驟S26,若大于則跳到步驟S41,并將更新的內(nèi)容添加至更新字符串中;S41 :將變量Si的值賦給j ;
S42 :結(jié)束。
權(quán)利要求
1.一種在線更新興趣信息的采集方法,其特征在于,包括三個方法步驟 步驟I,建立興趣信息網(wǎng)址庫; 步驟2,興趣點(diǎn)挖掘 通過網(wǎng)頁源碼分析,對網(wǎng)址庫中的各類網(wǎng)址進(jìn)行動態(tài)檢測,獲取其更新信息,其步驟是 1)中文網(wǎng)址的處理(S3) 利用網(wǎng)址重定向技術(shù)將含有GBK編碼文字的網(wǎng)址(S2)的頁面嵌套到Punycode編碼的網(wǎng)址的頁面中或?qū)⒂⑽木W(wǎng)址Punycode編碼(SI)的網(wǎng)址跳轉(zhuǎn)到需采集的含有GBK編碼文字的網(wǎng)址; 2)獲取網(wǎng)頁的編碼方式(S4) 逐行讀取Punycode編碼的英文網(wǎng)址(SI),使用webclient或HttpWebRequest獲取網(wǎng)址頁面的編碼方式; 3)通過網(wǎng)頁內(nèi)容的編碼分類處理獲取網(wǎng)頁源代碼(S5) 網(wǎng)頁內(nèi)容有UTF8、GB2312等多種編碼,判斷網(wǎng)頁的編碼方式后獲取網(wǎng)頁源代碼 4)網(wǎng)頁源代碼的過濾(S6) 過濾掉格式控制符等無用信息和非漢字字符得到頁面的漢字內(nèi)容。
5)新舊網(wǎng)頁字符串的對比(S8) 判斷是否為第一次獲取網(wǎng)頁源代碼(S7):若不是第一次獲取,利用字符串對比算法將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比,內(nèi)容相同的忽略,內(nèi)容不同的記錄下來;當(dāng)新網(wǎng)頁的內(nèi)容比舊網(wǎng)頁內(nèi)容多出m個字符時保存更新內(nèi)容(S9);若是第一次獲取網(wǎng)頁源代碼,則網(wǎng)頁的全部漢字內(nèi)容(SlO)。
6)在新增內(nèi)容中查找客戶感興趣的關(guān)鍵詞(Sll); 步驟3,信息發(fā)布 將更新的興趣點(diǎn)信息重新編輯后,通過短信、郵件等方式實時地分發(fā)給訂閱者。
2.根據(jù)權(quán)利要求I所述在線更新興趣信息的采集方法,其特征在于所述步驟2之4)字符串對比算法,該算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比,從而獲取網(wǎng)頁一處或多處更新的內(nèi)容,而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容;在這個算法中,人工設(shè)定m為獲取更新字符串的最短長度,而在網(wǎng)頁更新內(nèi)容有多處的情況下,ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串,其方法步驟如下所述 (521):定義網(wǎng)頁的最新時刻的內(nèi)容為字符串a(chǎn)□,上一時刻的內(nèi)容為字符串b□,變量s為存儲字符串a(chǎn)[]中字符a[i]的位置,變量Si為存儲字符串b[]中字符b[j]的位置; (522):判斷字符a[i]與字符b[j]是否相等,若相等跳到步驟(S23),若不相等跳到步驟(S25); (523):判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度,若小于跳到步驟(S24),若大于則跳到步驟(S37); (524):字符串a(chǎn)[]、b口下標(biāo)i、j自加I; (525):將字符串a(chǎn)[]的下標(biāo)保存進(jìn)變量s中; (526):判斷字符a[i]與字符b[j]是否不相等,若不相等跳到步驟(S27),若相等跳到步驟(S31);(527):判斷i+1是否小于字符串a(chǎn)[]的長度,若小于跳到步驟(S28),若大于則跳到步驟(S29); (528):字符串a(chǎn)[]的下標(biāo)i自加I; (529):字符串b[]的下標(biāo)j自加1,并將變量s的值賦給i; (530):判斷j+Ι是否小于字符串b[]的長度,若小于跳到步驟(S26),若大于則結(jié)束; (531):判斷字符串a(chǎn)[i]的下標(biāo)i與變量s是否相等,若相等跳到步驟(S22),若不相等跳到步驟(S32); (532):將字符串b[]的下標(biāo)保存進(jìn)變量Si中; (533):判斷i_s是否小于m,若小于跳到步驟(S34),若大于則跳到步驟(S38); (534):判斷字符a[i]與字符b[j]是否相等,若相等跳到步驟(S35),若不相等跳到步驟(S39); (535):判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度,若小于跳到步驟(S36),若大于則跳到步驟(S37); (536):字符串a(chǎn)[]、b[]的下標(biāo)i、j自加I; (537):判斷i+Ι是否等于字符串a(chǎn)[]的長度,若不等于則跳到步驟(S38),,保存新增字符串,若等于則結(jié)束; (538):將更新的內(nèi)容添加至更新字符串中;(539):判斷j-sl是否小于ml:若小于跳到步驟(S40),若大于則跳到步驟(S26); (540):判斷i_s是否小于m:若小于跳到步驟(S26),若大于則跳到步驟(S41),并將更新的內(nèi)容添加至更新字符串中; (541):將變量Si的值賦給j; (542):結(jié)束。
全文摘要
本發(fā)明涉及一種在線更新興趣信息的采集方法,主要由建立興趣信息網(wǎng)址庫、興趣點(diǎn)挖掘、信息發(fā)布三個方法步驟完成;興趣點(diǎn)挖掘中采用字符串對比算法,將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比,獲取到網(wǎng)頁更新的內(nèi)容。本發(fā)明使訂閱者在不進(jìn)行海量網(wǎng)址搜索的情況下,實時掌握感興趣的WEB信息,減少投標(biāo)企業(yè)進(jìn)行招投標(biāo)進(jìn)行信息搜索時的工作量,使更多的優(yōu)秀供應(yīng)商參與到招投標(biāo)工作中來,使招投標(biāo)工作更加公正、公開、透明。
文檔編號G06F17/30GK102890704SQ20121026664
公開日2013年1月23日 申請日期2012年7月31日 優(yōu)先權(quán)日2012年7月31日
發(fā)明者萬金朋 申請人:萬金朋