一種文章采集的方法

文檔序號：6340988閱讀：391來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文章采集的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種針對各式各樣的網(wǎng)站文章進行自動采集的方法。
背景技術(shù)：
文章采集是根據(jù)用戶定義的關(guān)鍵詞字，從各式各樣的網(wǎng)站上檢索出相關(guān)的數(shù)據(jù)，并對數(shù)據(jù)進行合理的截取、分類、去重和過濾，然后以文件或數(shù)據(jù)庫的方式保存下來。文章采集應(yīng)用的關(guān)鍵在于如何從眾多的網(wǎng)站獲取所需要的準確內(nèi)容到預(yù)期的中心資源庫中，然后進行快速的利用。文章采集的核心技術(shù)是模式定義和模式匹配。模式屬于人工智能的術(shù)語，是對前人積累的經(jīng)驗的抽象和升華。簡單地說，就是從不斷重復(fù)出現(xiàn)的事件中發(fā)現(xiàn)和抽象出的規(guī)律，是解決問題的經(jīng)驗的總結(jié)。只要是一再重復(fù)出現(xiàn)的事物，就可能存在某種模式。文章采集的模式大多不是程序自動發(fā)現(xiàn)的，目前幾乎所有的文章采集產(chǎn) 品都需要通過人工來定義。但模式本身是個很復(fù)雜、很抽象的內(nèi)容，所以所有的開發(fā)者精力都花在怎樣讓模式定義更簡單、更準確上，這也是文章采集技術(shù)競爭力的衡量標準。目前大多采用正則表達式定義和文檔結(jié)構(gòu)定義。傳統(tǒng)的文章采集存在幾個方面的問題1、采集的是整篇文章，需要手工進行頁面處理才能被利用；2、不能分欄目采集；3、只支持單一站點的采集；4、采集的文章不能自動套用自己網(wǎng)站的格式進行發(fā)布，需要進行手工處理。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種文章采集的方法，支持網(wǎng)站群的多站點采集，可針對文章進行分段采集和分欄目采集，采集的文章能自動套用自己網(wǎng)站的格式進行發(fā)布，不需要進行手工處理。一種文章采集的方法，具體包括如下步驟先選定采集來源，采用正則表達式制定采集規(guī)則，使用關(guān)鍵信息處理方式確定采集內(nèi)容的范圍，將采集的內(nèi)容和目標站點的欄目進行綁定；開始采集文章時，先搜索采集來源，采用多線程技術(shù)，進行網(wǎng)站群的多站點采集；根據(jù)設(shè)定的采集規(guī)則，把采集到的內(nèi)容存放在各自對應(yīng)的欄目下；若需要自動發(fā)布，則調(diào)用文章合并模板進行發(fā)布。所述的采用正則表達式制定采集規(guī)則，是指輸入需要采集的靜態(tài)頁面地址，確定地址中到第N個“/”為需要被采集的靜態(tài)文件內(nèi)容的地址，并將其自動轉(zhuǎn)換成正則表達式規(guī)則。所述的關(guān)鍵信息處理方式，指確定需要采集內(nèi)容的文章標題或者關(guān)鍵信息的字符串位置。本發(fā)明采用正則表達式定義的方式，根據(jù)用戶自定義的任務(wù)配置，批量而精確地抽取目標網(wǎng)絡(luò)媒體欄目中的新聞或文章，轉(zhuǎn)化為結(jié)構(gòu)化的記錄(標題，作者，內(nèi)容，采集時間，來源，分類，相關(guān)圖片等)，保存在本地數(shù)據(jù)庫中，用于內(nèi)部使用或外網(wǎng)發(fā)布，快速實現(xiàn)外部信息的獲取，對各類網(wǎng)站新聞的采集具有較快的速度和較高的準確率。本發(fā)明可在自動、手動兩種模式下運行，自動由系統(tǒng)定期到指定的站點更新最新的信息，手動提供了及時觸發(fā)的機制；支持不同的信息采集使用不同的模式。本發(fā)明對傳統(tǒng)的文章采集技術(shù)進行改進，真正滿足了用戶的應(yīng)用需求1、可以針對文章進行分段采集，只獲取所需要的內(nèi)容；2、每個欄目都可以定制相應(yīng)的采集任務(wù)，文章采集后自動存放在對應(yīng)欄目下；3、采用多線程技術(shù)，支持網(wǎng)站群的多站點采集；4、結(jié)合模板弓I擎技術(shù)，文章采集后可以自動套用網(wǎng)站模板進行自動發(fā)布。

圖1為本發(fā)明的邏輯流程圖。
圖2為本發(fā)明實施例中采集內(nèi)容的字符串位置示意圖。以下結(jié)合附圖和具體實施例對本發(fā)明作進一步詳述。
具體實施例方式如圖1所示，本發(fā)明一種文章采集的方法，具體包括如下先選定采集來源，采用正則表達式制定采集規(guī)則，使用關(guān)鍵信息處理方式確定采集內(nèi)容的范圍，將采集的內(nèi)容和目標站點的欄目進行綁定。所述的采用正則表達式制定采集規(guī)則指輸入需要采集的靜態(tài)頁面地址，該路徑指向待采集頁面的某個欄目中的其中一篇文章，確定第N個“/”開始下的內(nèi)容，自動轉(zhuǎn)換成正則表達式規(guī)則，符合表達式規(guī)則的靜態(tài)文件內(nèi)容將被采集。所述的關(guān)鍵信息處理方式指確定需要采集內(nèi)容的文章標題或者關(guān)鍵信息的字符串位置(如圖2舉例所示)。由于每個網(wǎng)站內(nèi)容展示位置不一樣，在配置采集時需先找到所要采集內(nèi)容的字符串位置，才能準確地采集到數(shù)據(jù)。所述的將采集的內(nèi)容和目標站點的欄目進行綁定就是用戶在采集配置中，用戶需選擇所屬欄目，或在創(chuàng)建欄目時，用戶可選擇指定的文章模板，開始采集時，通過欄目找到指定的文章模板，在發(fā)布時合并生成靜態(tài)頁面。開始采集文章時，先搜索采集來源，采用多線程技術(shù)，進行網(wǎng)站群的多站點采集；根據(jù)設(shè)定的采集規(guī)則，把采集到的內(nèi)容存放在各自對應(yīng)的欄目下；若需要自動發(fā)布，則調(diào)用文章合并模板進行發(fā)布。所述的文章合并模板指將動態(tài)的文章數(shù)據(jù)通過調(diào)用模板引擎生成靜態(tài)的HTML 頁面。以上所述，僅是本發(fā)明較佳實施例而已，并非對本發(fā)明的技術(shù)范圍作任何限制，故凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何細微修改、等同變化與修飾，均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
權(quán)利要求
1.一種文章采集的方法，其特征在于包括如下步驟先選定采集來源，采用正則表達式制定采集規(guī)則，使用關(guān)鍵信息處理方式確定采集內(nèi)容的范圍，將采集的內(nèi)容和目標站點的欄目進行綁定；開始采集文章時，先搜索采集來源，采用多線程技術(shù)，進行網(wǎng)站群的多站點采集；根據(jù)設(shè)定的采集規(guī)則，把采集到的內(nèi)容存放在各自對應(yīng)的欄目下；若需要自動發(fā) 布，則調(diào)用文章合并模板進行發(fā)布。
2.根據(jù)權(quán)利要求1所述的一種文章采集的方法，其特征在于所述的采用正則表達式制定采集規(guī)則，是指輸入需要采集的靜態(tài)頁面地址，確定地址中到第N個“/”為需要被采集的靜態(tài)文件內(nèi)容的地址，并將其自動轉(zhuǎn)換成正則表達式規(guī)則。
3.根據(jù)權(quán)利要求1所述的一種文章采集的方法，其特征在于所述的關(guān)鍵信息處理方式，指確定需要采集內(nèi)容的文章標題或者關(guān)鍵信息的字符串位置。
全文摘要
一種文章采集的方法，先選定采集來源，采用正則表達式制定采集規(guī)則，使用關(guān)鍵信息處理方式確定采集內(nèi)容的范圍，將采集的內(nèi)容和目標站點的欄目進行綁定；開始采集文章時，先搜索采集來源，采用多線程技術(shù)，進行網(wǎng)站群的多站點采集；根據(jù)設(shè)定的采集規(guī)則，把采集到的內(nèi)容存放在各自對應(yīng)的欄目下；若需要自動發(fā)布，則調(diào)用文章合并模板進行發(fā)布；本發(fā)明根據(jù)用戶自定義的任務(wù)配置，批量而精確地抽取目標網(wǎng)絡(luò)媒體欄目中的新聞或文章，轉(zhuǎn)化為結(jié)構(gòu)化的記錄保存或用于內(nèi)部使用或外網(wǎng)發(fā)布，能快速實現(xiàn)外部信息的獲取，對各類網(wǎng)站新聞的采集具有較快的速度和較高的準確率。
文檔編號G06F17/30GK102096705SQ20101061842
公開日2011年6月15日申請日期2010年12月31日優(yōu)先權(quán)日2010年12月31日
發(fā)明者曾文語, 林雅珊申請人:南威軟件股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾文語;林雅珊
技術(shù)所有人：南威軟件股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

一米智能文章采集系統(tǒng)相關(guān)技術(shù)

文章采集器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文章采集的方法