一種在線更新興趣信息的采集方法

文檔序號：6374153閱讀：159來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種在線更新興趣信息的采集方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種在線信息實時獲取技術(shù)，具體地說是一種對在線更新興趣信息的采集方法。
背景技術(shù)：
隨著信息化技術(shù)的發(fā)展，Web正在改變著各種業(yè)務(wù)領(lǐng)域，它涉及新聞、廣告、消費(fèi)、金融管理、教育、政府、電子商務(wù)及其它信息服務(wù)。Web包含了豐富和動態(tài)的超鏈接信息以及Web頁面的訪問和使用信息，為廣大使用者提供了豐富的資源。如何提取關(guān)注的、感興趣的信息，成為各行各業(yè)關(guān)注的熱點(diǎn)，同時有效地信息采集以及發(fā)布方式，成為助推web信息挖掘的關(guān)鍵。比如，在各行業(yè)工程建設(shè)或采購中，招投標(biāo)工作十分重要，然而招投標(biāo)信息分散在各個單位的門戶網(wǎng)站上或各地方政府的網(wǎng)站上，使得招投標(biāo)工作在獲取實時信息時復(fù)雜而繁瑣?！?br>
發(fā)明內(nèi)容
本發(fā)明的目的在于，提供一種能有效幫助企業(yè)和個人實時準(zhǔn)確的獲取到招投標(biāo)信息的在線內(nèi)容更新的采集方法，提高工作效率。本發(fā)明是這樣實現(xiàn)的本發(fā)明所提供的采集方法，主要包括三大步驟步驟I，建立興趣信息(招標(biāo)信息)網(wǎng)址庫；采集行業(yè)領(lǐng)域的感興趣web網(wǎng)址，形成網(wǎng)址庫。步驟2，興趣點(diǎn)挖掘；通過網(wǎng)頁源碼分析，對網(wǎng)址庫中的各類網(wǎng)址進(jìn)行動態(tài)檢測，獲取其更新信息。其步驟是I)判斷網(wǎng)址的編碼方式，若為GBK格式的網(wǎng)址，利用網(wǎng)址重定向技術(shù)將GBK編碼的網(wǎng)址轉(zhuǎn)化為Punycode編碼；2)判斷網(wǎng)頁的編碼方式從而獲取相應(yīng)網(wǎng)址的網(wǎng)頁源代碼；3)過濾掉與更新內(nèi)容無關(guān)的信息，如格式控制符等；4)判斷是否為第一次獲取該網(wǎng)頁的源代碼若是第一次獲取，將過濾過的網(wǎng)頁信息直接保存到數(shù)據(jù)庫；若不是第一次獲取網(wǎng)頁，利用字符串對比算法，將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比，獲取到網(wǎng)頁更新的內(nèi)容；5)在更新的內(nèi)容中搜索興趣點(diǎn)。步驟3，信息發(fā)布將更新的興趣點(diǎn)信息重新編輯后，通過短信、郵件等方式實時地分發(fā)給訂閱者。上述步驟2之興趣點(diǎn)挖掘中的字符串對比算法，此算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比，從而獲取網(wǎng)頁一處或多處更新的內(nèi)容，而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容。在這個算法中，可以人工設(shè)定m為獲取更新字符串的最短長度(精度)，而在網(wǎng)頁更新內(nèi)容有多處的情況下，人工設(shè)定ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串。本發(fā)明的有益效果是使訂閱者在不進(jìn)行海量網(wǎng)址搜索的情況下實時掌握感興趣的WEB信息，如，若應(yīng)用到招投標(biāo)信息采集系統(tǒng)中，可提高招投標(biāo)工作的效率，減少投標(biāo)企業(yè)進(jìn)行招投標(biāo)進(jìn)行信息搜索時的工作量，使更多的優(yōu)秀供應(yīng)商參與到招投標(biāo)工作中來，使招投標(biāo)工作更加公正、公開、透明。

圖I為本發(fā)明網(wǎng)頁更新內(nèi)容采集的方法的總流程示意圖；圖2為本發(fā)明網(wǎng)頁更新內(nèi)容采集的方法之興趣點(diǎn)挖掘的流程圖；
圖3為網(wǎng)頁更新內(nèi)容的字符串對比算法示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，以招標(biāo)信息為例，下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的描述。圖I顯示了本實施例采集的方法的流程本實施例提供了一種由于在線內(nèi)容更新而觸發(fā)的二次發(fā)布方法，包括建立興趣信息網(wǎng)址庫、興趣點(diǎn)挖掘、信息發(fā)布。在定時獲取網(wǎng)址庫中的所有網(wǎng)址的網(wǎng)頁內(nèi)容后，與存儲在數(shù)據(jù)庫中的網(wǎng)頁內(nèi)容對比，獲取到更新的網(wǎng)頁內(nèi)容S9，在更新的內(nèi)容中挖掘興趣點(diǎn)信息，如果有興趣信息，則二次發(fā)布給訂閱者。具體步驟如下所述(一 )建立興趣信息網(wǎng)址庫采集行業(yè)領(lǐng)域的感興趣web網(wǎng)址，一般是信息列表頁的網(wǎng)址，存儲在數(shù)據(jù)庫中。( 二)興趣點(diǎn)挖掘(三)信息發(fā)布若在上述步驟中搜索到客戶感興趣招標(biāo)信息，則將招標(biāo)信息重新編輯，然后通過短信、郵件、WEB發(fā)布等方式將編輯好的招標(biāo)信息實時分發(fā)給訂閱者。圖2顯示了本實施例之興趣點(diǎn)挖掘流程I)中文網(wǎng)址的處理S3利用網(wǎng)址重定向技術(shù)將含有GBK編碼文字的網(wǎng)址S2的頁面嵌套到Punycode編碼的網(wǎng)址的頁面中或?qū)⒂⑽木W(wǎng)址(Punycode編碼)I的網(wǎng)址跳轉(zhuǎn)到需采集的含有GBK編碼文字的網(wǎng)址。2)獲取網(wǎng)頁的編碼方式S4逐行讀取Punycode編碼的英文網(wǎng)址SI,使用webclient或HttpWebRequest獲取網(wǎng)址頁面的編碼方式。3)通過網(wǎng)頁內(nèi)容的編碼分類處理獲取網(wǎng)頁源代碼S5網(wǎng)頁內(nèi)容有UTF8、GB2312等多種編碼，判斷網(wǎng)頁的編碼方式后獲取網(wǎng)頁源代碼4)網(wǎng)頁源代碼的過濾S6過濾掉格式控制符等無用信息和非漢字字符得到頁面的漢字內(nèi)容。5)新舊網(wǎng)頁字符串的對比S8
判斷是否為第一次獲取網(wǎng)頁源代碼S7 :若不是第一次獲取，利用字符串對比算法(如圖2所示)將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比，內(nèi)容相同的忽略，內(nèi)容不同的記錄下來；當(dāng)新網(wǎng)頁的內(nèi)容比舊網(wǎng)頁內(nèi)容多出m個字符時保存更新內(nèi)容S9 ;若是第一次獲取網(wǎng)頁源代碼，則網(wǎng)頁的全部漢字內(nèi)容S10。6)在新增內(nèi)容中查找客戶感興趣的關(guān)鍵詞Sll (如床上用品、服裝等)。圖3顯示本實施例之網(wǎng)頁更新內(nèi)容的字符串對比算法，此算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比，從而獲取網(wǎng)頁一處或多處更新的內(nèi)容，而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容。在這個算法中，可以人工設(shè)定m為獲取更新字符串的最短長度(精度)，而在網(wǎng)頁更新內(nèi)容有多處的情況下，ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串。其具體步驟如下所述S21 :定義網(wǎng)頁的最新時刻的內(nèi)容為字符串a(chǎn)□，上一時刻的內(nèi)容為字符串b□，變量s為存儲字符串a(chǎn)[]中字符a[i]的位置，變量Si為存儲字符串b[]中字符b[j]的位置；S22 :判斷字符a[i]與字符b[j]是否相等，若相等跳到步驟S23，若不相等跳到步驟 S25 ；S23 :判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度，若小于跳到步驟S24，若大于則跳到步驟S37 ；S24 :字符串a(chǎn)口、b 口的下標(biāo)i、j自加I ;S25 :將字符串a(chǎn)[]的下標(biāo)保存進(jìn)變量s中；S26 :判斷字符a[i]與字符b[j]是否不相等，若不相等跳到步驟S27，若相等跳到步驟S31 ；S27 :判斷i+Ι是否小于字符串a(chǎn)[]的長度，若小于跳到步驟S28，若大于則跳到步驟 S29 ；S28 :字符串a(chǎn)[]的下標(biāo)i自加I ;S29 :字符串b []的下標(biāo)j自加1，并將變量s的值賦給i ;S30 :判斷j+Ι是否小于字符串b[]的長度，若小于跳到步驟S26，若大于則結(jié)束；S31 :判斷字符串a(chǎn)[i]的下標(biāo)i與變量s是否相等，若相等跳到步驟S22，若不相等跳到步驟S32 ；S32 :將字符串b[]的下標(biāo)保存進(jìn)變量Si中；S33 :判斷i-s是否小于m，若小于跳到步驟S34，若大于則跳到步驟S38 ；S34 :判斷字符a[i]與字符b[j]是否相等，若相等跳到步驟S35，若不相等跳到步驟 S39 ；S35 :判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度，若小于跳到步驟S36，若大于則跳到步驟S37 ；S36 :字符串a(chǎn)口、b[]的下標(biāo)i、j自加I ;S37 :判斷i+Ι是否等于字符串a(chǎn)[]的長度，若不等于則跳到步驟S38，，保存新增字符串，若等于則結(jié)束；S38 :將更新的內(nèi)容添加至更新字符串中；S39 :判斷j-sl是否小于ml，若小于跳到步驟S40，若大于則跳到步驟S26 ；
S40 :判斷i-s是否小于m，若小于跳到步驟S26，若大于則跳到步驟S41，并將更新的內(nèi)容添加至更新字符串中；S41 :將變量Si的值賦給j ；
S42 :結(jié)束。
權(quán)利要求
1.一種在線更新興趣信息的采集方法，其特征在于，包括三個方法步驟步驟I，建立興趣信息網(wǎng)址庫；步驟2，興趣點(diǎn)挖掘通過網(wǎng)頁源碼分析，對網(wǎng)址庫中的各類網(wǎng)址進(jìn)行動態(tài)檢測，獲取其更新信息，其步驟是 1)中文網(wǎng)址的處理(S3) 利用網(wǎng)址重定向技術(shù)將含有GBK編碼文字的網(wǎng)址(S2)的頁面嵌套到Punycode編碼的網(wǎng)址的頁面中或?qū)⒂⑽木W(wǎng)址Punycode編碼(SI)的網(wǎng)址跳轉(zhuǎn)到需采集的含有GBK編碼文字的網(wǎng)址； 2)獲取網(wǎng)頁的編碼方式(S4) 逐行讀取Punycode編碼的英文網(wǎng)址(SI),使用webclient或HttpWebRequest獲取網(wǎng)址頁面的編碼方式； 3)通過網(wǎng)頁內(nèi)容的編碼分類處理獲取網(wǎng)頁源代碼(S5) 網(wǎng)頁內(nèi)容有UTF8、GB2312等多種編碼，判斷網(wǎng)頁的編碼方式后獲取網(wǎng)頁源代碼 4)網(wǎng)頁源代碼的過濾(S6) 過濾掉格式控制符等無用信息和非漢字字符得到頁面的漢字內(nèi)容。
5)新舊網(wǎng)頁字符串的對比(S8) 判斷是否為第一次獲取網(wǎng)頁源代碼(S7):若不是第一次獲取，利用字符串對比算法將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比，內(nèi)容相同的忽略，內(nèi)容不同的記錄下來；當(dāng)新網(wǎng)頁的內(nèi)容比舊網(wǎng)頁內(nèi)容多出m個字符時保存更新內(nèi)容(S9);若是第一次獲取網(wǎng)頁源代碼，則網(wǎng)頁的全部漢字內(nèi)容(SlO)。
6)在新增內(nèi)容中查找客戶感興趣的關(guān)鍵詞(Sll)；步驟3，信息發(fā)布將更新的興趣點(diǎn)信息重新編輯后，通過短信、郵件等方式實時地分發(fā)給訂閱者。
2.根據(jù)權(quán)利要求I所述在線更新興趣信息的采集方法，其特征在于所述步驟2之4)字符串對比算法，該算法將最新時刻的網(wǎng)頁內(nèi)容與上一時刻的網(wǎng)頁做對比，從而獲取網(wǎng)頁一處或多處更新的內(nèi)容，而忽略上一時刻的網(wǎng)頁比最新時刻的網(wǎng)頁多出的內(nèi)容；在這個算法中，人工設(shè)定m為獲取更新字符串的最短長度，而在網(wǎng)頁更新內(nèi)容有多處的情況下，ml為兩更新內(nèi)容之間允許的最長的與上一時刻相同的字符串，其方法步驟如下所述 (521):定義網(wǎng)頁的最新時刻的內(nèi)容為字符串a(chǎn)□，上一時刻的內(nèi)容為字符串b□，變量s為存儲字符串a(chǎn)[]中字符a[i]的位置，變量Si為存儲字符串b[]中字符b[j]的位置； (522):判斷字符a[i]與字符b[j]是否相等，若相等跳到步驟(S23)，若不相等跳到步驟(S25)； (523):判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度，若小于跳到步驟(S24)，若大于則跳到步驟(S37)； (524):字符串a(chǎn)[]、b口下標(biāo)i、j自加I； (525):將字符串a(chǎn)[]的下標(biāo)保存進(jìn)變量s中； (526):判斷字符a[i]與字符b[j]是否不相等，若不相等跳到步驟(S27)，若相等跳到步驟(S31)；(527):判斷i+1是否小于字符串a(chǎn)[]的長度，若小于跳到步驟(S28)，若大于則跳到步驟(S29)； (528):字符串a(chǎn)[]的下標(biāo)i自加I; (529):字符串b[]的下標(biāo)j自加1，并將變量s的值賦給i; (530):判斷j+Ι是否小于字符串b[]的長度，若小于跳到步驟(S26)，若大于則結(jié)束； (531):判斷字符串a(chǎn)[i]的下標(biāo)i與變量s是否相等，若相等跳到步驟(S22)，若不相等跳到步驟(S32)； (532):將字符串b[]的下標(biāo)保存進(jìn)變量Si中； (533):判斷i_s是否小于m，若小于跳到步驟(S34)，若大于則跳到步驟(S38)； (534):判斷字符a[i]與字符b[j]是否相等，若相等跳到步驟(S35)，若不相等跳到步驟(S39)； (535):判斷i+l、j+l是否小于字符串a(chǎn)[]、b[]的長度，若小于跳到步驟(S36)，若大于則跳到步驟(S37)； (536):字符串a(chǎn)[]、b[]的下標(biāo)i、j自加I; (537):判斷i+Ι是否等于字符串a(chǎn)[]的長度，若不等于則跳到步驟(S38)，，保存新增字符串，若等于則結(jié)束； (538):將更新的內(nèi)容添加至更新字符串中；(539):判斷j-sl是否小于ml:若小于跳到步驟(S40)，若大于則跳到步驟(S26)； (540):判斷i_s是否小于m:若小于跳到步驟(S26)，若大于則跳到步驟(S41)，并將更新的內(nèi)容添加至更新字符串中； (541):將變量Si的值賦給j； (542):結(jié)束。
全文摘要
本發(fā)明涉及一種在線更新興趣信息的采集方法，主要由建立興趣信息網(wǎng)址庫、興趣點(diǎn)挖掘、信息發(fā)布三個方法步驟完成；興趣點(diǎn)挖掘中采用字符串對比算法，將過濾過的網(wǎng)頁信息與存儲在數(shù)據(jù)庫中的更新前的網(wǎng)頁信息作對比，獲取到網(wǎng)頁更新的內(nèi)容。本發(fā)明使訂閱者在不進(jìn)行海量網(wǎng)址搜索的情況下，實時掌握感興趣的WEB信息，減少投標(biāo)企業(yè)進(jìn)行招投標(biāo)進(jìn)行信息搜索時的工作量，使更多的優(yōu)秀供應(yīng)商參與到招投標(biāo)工作中來，使招投標(biāo)工作更加公正、公開、透明。
文檔編號G06F17/30GK102890704SQ20121026664
公開日2013年1月23日申請日期2012年7月31日優(yōu)先權(quán)日2012年7月31日
發(fā)明者萬金朋申請人:萬金朋

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬金朋
技術(shù)所有人：萬金朋
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種在線更新興趣信息的采集方法