專(zhuān)利名稱(chēng):一種論壇回帖增量采集方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)信息采集技術(shù)領(lǐng)域,具體涉及ー種論壇回帖增量采集方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的出現(xiàn),尤其網(wǎng)絡(luò)論壇、網(wǎng)絡(luò)社區(qū)的廣泛開(kāi)設(shè),使得全世界范圍的人群都可以在一起自由地發(fā)表、交流各種觀(guān)點(diǎn)。中國(guó)的網(wǎng)絡(luò)論壇達(dá)到一百多萬(wàn)個(gè),并且80%的網(wǎng)站擁有獨(dú)立的論壇,經(jīng)常瀏覽網(wǎng)絡(luò)論壇的人數(shù)已經(jīng)過(guò)億。不同于其他的形式,網(wǎng)絡(luò)論壇具有速度快、范圍廣的特點(diǎn)。ー個(gè)受人矚目的話(huà)題可能在很短的時(shí)間內(nèi)達(dá)到上萬(wàn)名網(wǎng)民的回帖討論,回帖信息達(dá)到成百上千頁(yè)。此時(shí),用戶(hù)不僅僅想查看話(huà)題的發(fā)起者的言論即主帖的內(nèi)容,更想看到其他網(wǎng)民對(duì)該話(huà)題所發(fā)表的言論。然而,通過(guò)一般的搜索引擎很難查詢(xún)到翻頁(yè)的回帖信息,即使有時(shí)能夠查詢(xún)到,在時(shí)效性上也很不理想,數(shù)據(jù)延遲較大?,F(xiàn)有的論壇采集系統(tǒng)也只是采集帖子的首頁(yè)信息,而不采集帖子的回帖信息。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種論壇回帖增量采集方法及系統(tǒng),該方法及系統(tǒng)能夠快速、準(zhǔn)確、完整地采集ー篇帖子的所有主/回帖信息,克服了現(xiàn)有搜索引擎在搜索帖子的翻頁(yè)回帖信息時(shí)存在漏搜或者搜索不到的缺陷,以及現(xiàn)有論壇采集系統(tǒng)只采集帖子的首頁(yè)信息而不采集回帖信息的缺陷。為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下一種論壇回帖增量采集方法,包括以下步驟(1)根據(jù)帖子首頁(yè)URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和/或具有新回帖的帖子;(2)如果存在新增帖子,則從新增帖子中提取出主貼和回帖信息;如果存在具有新回帖的帖子,則計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。一種論壇回帖增量采集系統(tǒng),包括用于根據(jù)帖子首頁(yè)URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子的判斷裝置;用于對(duì)新增帖子,從新增帖子中提取出主貼和回帖信息;對(duì)具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息的提取裝置。本發(fā)明所述的方法及系統(tǒng),通過(guò)周期性監(jiān)控列表頁(yè)的方式,能夠及時(shí)獲取列表頁(yè)中的新增回帖和具有新回帖的帖子信息;通過(guò)URL標(biāo)識(shí)和回復(fù)數(shù)信息進(jìn)行快速消重處理, 避免重復(fù)采集;通過(guò)區(qū)分不同的翻頁(yè)鏈接提取方式達(dá)到快速進(jìn)行翻頁(yè)回帖采集的目的;從而能夠快速、準(zhǔn)確、完整地采集ー篇帖子的所有主/回帖信息。回帖的漏采率在5%以下,實(shí)時(shí)性可達(dá)分鐘級(jí)。
圖1是具體實(shí)施方式
中論壇回帖增量采集系統(tǒng)的結(jié)構(gòu)框圖;圖2是具體實(shí)施方式
中論壇回帖增量采集方法的流程圖;圖3是具體實(shí)施方式
中判斷列表頁(yè)中是否存在新增帖子和具有新回帖的帖子的方法流程圖;圖4是具體實(shí)施方式
中從新增帖子中提取出主貼和回帖信息,從具有新回帖的帖子中提取出新回帖信息的方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的說(shuō)明。如圖1所示,本實(shí)施方式中論壇回帖增量采集系統(tǒng)包括判斷裝置11,與判斷裝置 11連接的提取裝置12。其中,判斷裝置11包括第一隊(duì)列單元111、第一獲取單元112、列表頁(yè)提取単元113和判斷単元114。提取裝置12包括第二隊(duì)列單元121、掃描單元122、第二獲取單元123、內(nèi)容頁(yè)提取単元IM和消重単元125。判斷裝置11用于根據(jù)帖子首頁(yè)URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子。其中,第一隊(duì)列單元111用于將所有需要采集的論壇列表頁(yè)URL添加到列表頁(yè)采集隊(duì)列。第一獲取單元112用于從列表頁(yè)采集隊(duì)列中取出每個(gè)列表頁(yè)URL。列表頁(yè)提取単元113用于對(duì)取出的每個(gè)列表頁(yè)URL,獲取該列表頁(yè)URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,從所述網(wǎng)頁(yè)內(nèi)容中提取出每個(gè)帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)。 判斷単元113用于根據(jù)帖子首頁(yè)URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù); 如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。提取裝置12用于對(duì)新增帖子,從新增帖子中提取出主貼和回帖信息;對(duì)具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。其中,第二隊(duì)列單元121用于將新增帖子的首頁(yè)URL和具有新回帖的帖子URL添加到內(nèi)容頁(yè)采集隊(duì)列。掃描單元122用于定時(shí)掃描內(nèi)容頁(yè)采集隊(duì)列。第二獲取單元123用于從內(nèi)容頁(yè)采集隊(duì)列中取出每個(gè)URL。內(nèi)容頁(yè)提取単元IM用于獲取URL 對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并從所述網(wǎng)頁(yè)內(nèi)容中提取主貼和/或回帖和/或翻頁(yè)URL。消重単元125 用于對(duì)論壇翻頁(yè)方式為下ー頁(yè)翻頁(yè)方式時(shí)從網(wǎng)頁(yè)內(nèi)容中提取的翻頁(yè)URL進(jìn)行消重處理。第 ニ隊(duì)列單元121還用于將消重后的翻頁(yè)URL添加到內(nèi)容頁(yè)采集隊(duì)列。如圖2所示,本實(shí)施方式中基于圖1所示系統(tǒng)的論壇回帖增量采集方法的流程,包括以下步驟(1)判斷裝置11周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和/ 或具有新回帖的帖子。如圖3所示,本實(shí)施方式中采用的判斷方法包括以下步驟
7
(a)第一隊(duì)列單元111將所有需要采集的論壇列表頁(yè)URL添加到列表頁(yè)采集隊(duì)列。 所述列表頁(yè)是指論壇中包含所有帖子標(biāo)題、URL(統(tǒng)ー資源定位符)、點(diǎn)擊數(shù)、回復(fù)數(shù)等信息的列表頁(yè)面,不包括帖子的具體內(nèi)容。如搜狐論壇的財(cái)經(jīng)大雜燴頻道的列表頁(yè),其URL如下http://cluo. business, sohu. com/l-enjoy-0-0-0-0. html。再如人民網(wǎng)強(qiáng)國(guó)社區(qū)的國(guó)際論壇頻道的列表頁(yè),其URL如下http://bbsl.people.com.cn/boardList.do ? action = postList&boardld = 6。本實(shí)施方式中,對(duì)每個(gè)需要采集的論壇列表頁(yè)均設(shè)定采集時(shí)間間隔,如每隔5分鐘采集一次;監(jiān)控每個(gè)列表頁(yè)的采集時(shí)間間隔;當(dāng)某個(gè)列表頁(yè)達(dá)到采集時(shí)間間隔吋,便將該列表頁(yè)URL添加到列表頁(yè)采集隊(duì)列。優(yōu)選的,刷新間隔根據(jù)論壇的更新頻率動(dòng)態(tài)調(diào)整;論壇的更新頻率越快,刷新間隔越短;論壇的更新頻率越慢,則刷新間隔越長(zhǎng)。如預(yù)先設(shè)定每隔5分鐘采集一次,在后續(xù)采集過(guò)程中,如果發(fā)現(xiàn)論壇更新頻率增加,則將刷新間隔縮短為3分鐘,進(jìn)而縮短為1分鐘或更短。論壇的更新頻率的計(jì)算方法可參見(jiàn)中國(guó)專(zhuān)利申請(qǐng)“ー種網(wǎng)頁(yè)數(shù)據(jù)信息的定向采集方法及裝置”(申請(qǐng)?zhí)?01010236363. 7),此處不再贅述。(b)第一獲取單元112從列表頁(yè)采集隊(duì)列中取出每個(gè)列表頁(yè)URL。本實(shí)施方式中,從列表頁(yè)采集隊(duì)列中取出列表頁(yè)URL采用的方法為定時(shí)掃描列表頁(yè)采集隊(duì)列(掃描間隔時(shí)間可由用戶(hù)根據(jù)具體應(yīng)用情況設(shè)置),如果列表頁(yè)采集隊(duì)列不空,則按照先進(jìn)先出順序依次從列表頁(yè)采集隊(duì)列中取出列表頁(yè)URL(從隊(duì)列中取出URL后, 該URL便會(huì)自動(dòng)從隊(duì)列中刪除),并且滿(mǎn)足該列表頁(yè)URL所屬網(wǎng)站的友好訪(fǎng)問(wèn)條件。如果某列表頁(yè)URL不滿(mǎn)足該列表頁(yè)URL所屬網(wǎng)站的友好訪(fǎng)問(wèn)條件,則在本次掃描中忽略該列表頁(yè) URL,繼續(xù)判斷下ー個(gè)列表頁(yè)URL,該列表頁(yè)URL留待后續(xù)掃描中處理。網(wǎng)站的友好反問(wèn)條件包括當(dāng)前訪(fǎng)問(wèn)數(shù)量限制和訪(fǎng)問(wèn)的時(shí)間間隔限制。判斷是否滿(mǎn)足網(wǎng)站的友好反問(wèn)條件的方法可參見(jiàn)中國(guó)專(zhuān)利申請(qǐng)“ー種從網(wǎng)站中多個(gè)不同IP的服務(wù)器抓取網(wǎng)頁(yè)的方法及系統(tǒng)”(申請(qǐng)?zhí)?201010546334. 0),此處不再贅述。(c)列表頁(yè)提取単元113對(duì)取出的每個(gè)列表頁(yè)URL,獲取該列表頁(yè)URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;再?gòu)木W(wǎng)頁(yè)內(nèi)容中提取出每個(gè)帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)。根據(jù)每個(gè)列表頁(yè)的URL,向該URL所屬網(wǎng)站發(fā)送獲取該URL對(duì)應(yīng)網(wǎng)頁(yè)內(nèi)容的HTTP 請(qǐng)求,然后接收返回的網(wǎng)頁(yè)內(nèi)容。從網(wǎng)頁(yè)內(nèi)容中提取帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)為現(xiàn)有技木,此處不再贅述。(d)判斷単元113根據(jù)帖子首頁(yè)URL判斷該帖子在已采集帖子信息表中是否存在。 如果存在,則說(shuō)明該帖子已采集過(guò),繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù)。如果大于,則說(shuō)明該帖子有新回帖,在已采集帖子信息表中更新該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù),即用已采集帖子信息表中該帖子的本次回復(fù)數(shù)的數(shù)值替換上次回復(fù)數(shù)的數(shù)值,用該帖子當(dāng)前回復(fù)數(shù)的數(shù)值替換已采集帖子信息表中該帖子的本次回復(fù)數(shù)的數(shù)值。如果不大于,則說(shuō)明該帖子沒(méi)有新回帖,拋棄該URL不作任何后續(xù)處理。如果該帖子在已采集帖子信息表中不存在,則說(shuō)明該帖子為新增帖子,將該帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中,該帖子的上次回復(fù)數(shù)為0,本次回復(fù)數(shù)為當(dāng)前回復(fù)數(shù)。已采集帖子信息表中存儲(chǔ)有已采集帖子首頁(yè)URL和已采集帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù),其結(jié)構(gòu)如下表所示
權(quán)利要求
1.一種論壇回帖增量采集方法,包括以下步驟(1)根據(jù)帖子首頁(yè)URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子;(2)如果存在新增帖子,則從新增帖子中提取出主貼和回帖信息;如果存在具有新回帖的帖子,則計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息。
2.如權(quán)利要求1所述的論壇回帖增量采集方法,其特征在干,步驟(1)中所述周期判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子的方法如下(a)獲取所有需要采集的論壇列表頁(yè)URL;(b)對(duì)每個(gè)列表頁(yè)URL,獲取該列表頁(yè)URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;再?gòu)乃鼍W(wǎng)頁(yè)內(nèi)容中提取出每個(gè)帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù);(c)根據(jù)帖子首頁(yè)URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù);如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。
3.如權(quán)利要求2所述的論壇回帖增量采集方法,其特征在干,步驟(a)中所述獲取所有需要采集的論壇列表頁(yè)URL的方法如下對(duì)每個(gè)需要采集的論壇列表頁(yè)均設(shè)定采集時(shí)間間隔;監(jiān)控每個(gè)列表頁(yè)的采集時(shí)間間隔;當(dāng)某個(gè)列表頁(yè)達(dá)到采集時(shí)間間隔吋,便將該列表頁(yè)URL添加到列表頁(yè)采集隊(duì)列;定時(shí)掃描列表頁(yè)采集隊(duì)列,如果列表頁(yè)采集隊(duì)列不空,則按照先進(jìn)先出順序依次從列表頁(yè)采集隊(duì)列中取出列表頁(yè)URL。
4.如權(quán)利要求3所述的論壇回帖增量采集方法,其特征在于所述采集時(shí)間間隔根據(jù)列表頁(yè)URL所屬論壇的更新頻率動(dòng)態(tài)調(diào)整;論壇的更新頻率越快,采集時(shí)間間隔越短;論壇的更新頻率越慢,采集時(shí)間間隔越長(zhǎng)。
5.如權(quán)利要求3所述的論壇回帖增量采集方法,其特征在于所述從列表頁(yè)采集隊(duì)列中取出的列表頁(yè)URL需要滿(mǎn)足該列表頁(yè)URL所屬網(wǎng)站的友好訪(fǎng)問(wèn)條件。
6.如權(quán)利要求2 5中任一項(xiàng)所述的論壇回帖增量采集方法,其特征在干,步驟(2)中所述從新增帖子中提取出主貼和回帖信息以及從具有新回帖的帖子中提取出新回帖信息的方法如下(i)將新增帖子的首頁(yè)URL和具有新回帖的帖子URL添加到內(nèi)容頁(yè)采集隊(duì)列;( )定時(shí)掃描內(nèi)容頁(yè)采集隊(duì)列;(iii)如果內(nèi)容頁(yè)采集隊(duì)列不空,則從內(nèi)容頁(yè)采集隊(duì)列中取出每個(gè)URL;(iv)獲取取出的URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并從所述網(wǎng)頁(yè)內(nèi)容中提取主貼和/或回帖信息和/或翻頁(yè)URL,并將翻頁(yè)URL添加到內(nèi)容頁(yè)采集隊(duì)列。
7.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟α)中所述將新增帖子的首頁(yè)URL和具有新回帖的帖子URL添加到內(nèi)容頁(yè)采集隊(duì)列的方法如下對(duì)于新增帖子,如果該帖子首頁(yè)URL在內(nèi)容頁(yè)采集隊(duì)列中存在,則將該帖子首頁(yè)URL取出,并將已采集帖子信息表中記錄的該帖子本次回復(fù)數(shù)修改為當(dāng)前回復(fù)數(shù),再將其插入到內(nèi)容頁(yè)采集隊(duì)列中;如果該帖子首頁(yè)URL在內(nèi)容頁(yè)采集隊(duì)列中不存在,則直接將該帖子首頁(yè)URL添加到內(nèi)容頁(yè)采集隊(duì)列;對(duì)于具有新回帖的帖子,如果該帖子所屬論壇的翻頁(yè)方式為計(jì)算翻頁(yè)方式,則直接將具有新回帖的帖子首頁(yè)URL添加到內(nèi)容頁(yè)采集隊(duì)列;如果該帖子所屬論壇的翻頁(yè)方式為下一頁(yè)翻頁(yè)方式,則查找翻頁(yè)URL信息表,將所述翻頁(yè)URL信息表中該帖子的最后ー個(gè)翻頁(yè) URL添加到內(nèi)容頁(yè)采集隊(duì)列。
8.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟(iii)中所述從內(nèi)容頁(yè)采集隊(duì)列中取出每個(gè)URL的方法如下按照先進(jìn)先出順序依次從內(nèi)容頁(yè)采集隊(duì)列中取出URL,并且滿(mǎn)足該URL所屬網(wǎng)站的友好訪(fǎng)問(wèn)條件。
9.如權(quán)利要求6所述的論壇回帖增量采集方法,其特征在干,步驟(iv)中所述從網(wǎng)頁(yè)內(nèi)容中提取主貼和/或回帖信息的方法如下如果該URL為帖子首頁(yè)URL并且是第一次采集,則從該URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中提取主貼和回帖信息;如果該URL為帖子首頁(yè)URL但不是第一次采集,則根據(jù)如下公式確定新回帖起點(diǎn)和新回帖個(gè)數(shù),從新回帖起點(diǎn)^·_開(kāi)始提取新回帖信息;
10.如權(quán)利要求9所述的論壇回帖增量采集方法,其特征在干,步驟(iv)中所述從網(wǎng)頁(yè)內(nèi)容中提取翻頁(yè)URL的方法如下1)如果論壇翻頁(yè)方式為計(jì)算翻頁(yè)方式,且URL為帖子首頁(yè)URL,則先采用如下公式計(jì)算翻頁(yè)的起始頁(yè)碼PBegin和終止頁(yè)碼PEnd
11.如權(quán)利要求10所述的論壇回帖增量采集方法,其特征在干,步驟1)中所述翻頁(yè)規(guī)則中,將翻頁(yè)URL分割成三個(gè)部分,其中第一部分和第三部分為不變部分,分別記為 StrBeforePage和StrAfterPage ;第二部分為變化部分,記為nPageUp ;翻頁(yè)URL的拼接方法如下nPageNo = i+nFirstPostPageIndex-InPageUp = (nPageNo XnPageUsBaseNum)strPostPageUrl = strBeforePage+nPageUp+strAfterPage其中,i表示翻頁(yè)頁(yè)碼,PBegin彡i彡P(guān)End,nPageNo表示新回帖所在頁(yè)碼; nFirstPostPagelndex = 0或1,表示帖子首頁(yè)頁(yè)碼;rfageUp表示填寫(xiě)在待拼接URL內(nèi)的表示翻頁(yè)的頁(yè)碼值;rfag^sBaseNum表示翻頁(yè)基數(shù);strPostfagetol表示拼接后的URL。
12.如權(quán)利要求10所述的論壇回帖增量采集方法,其特征在干步驟2)中所述從網(wǎng)頁(yè)內(nèi)容中提取翻頁(yè)URL后,添加到內(nèi)容頁(yè)采集隊(duì)列之前,還包括對(duì)翻頁(yè)URL進(jìn)行消重處理的步驟。
13.如權(quán)利要求12所述的論壇回帖增量采集方法,其特征在干,所述消重處理的方法如下在翻頁(yè)URL信息中查找該翻頁(yè)URL所屬帖子是否存在翻頁(yè)URL信息表;如果不存在,將建立該翻頁(yè)URL所屬帖子的翻頁(yè)URL信息表,并將該翻頁(yè)URL插入到翻頁(yè)URL信息表和內(nèi)容頁(yè)采集隊(duì)列;如果存在,則判斷該翻頁(yè)URL的頁(yè)碼是否大于該翻頁(yè)URL所屬帖子的翻頁(yè)URL 的頁(yè)碼;如果大于,則更新該翻頁(yè)URL所屬帖子的翻頁(yè)URL信息表,并將該翻頁(yè)URL添加到內(nèi)容頁(yè)采集任務(wù)隊(duì)列中;否則直接刪除該翻頁(yè)URL。
14.一種論壇回帖增量采集系統(tǒng),包括用于根據(jù)帖子首頁(yè)URL和帖子回復(fù)數(shù)信息,周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子的判斷裝置 (11);用于對(duì)新增帖子,從新增帖子中提取出主貼和回帖信息;對(duì)具有新回帖的帖子,計(jì)算新回帖起點(diǎn)和新回帖個(gè)數(shù),根據(jù)新回帖起點(diǎn)和新回帖個(gè)數(shù)從具有新回帖的帖子中提取出新回帖信息的提取裝置(12)。
15.如權(quán)利要求14所述的論壇回帖增量采集系統(tǒng),其特征在干,所述判斷裝置(11)包括第一隊(duì)列單元(111),用于將所有需要采集的論壇列表頁(yè)URL添加到列表頁(yè)采集隊(duì)列; 第一獲取單元(112),用于從列表頁(yè)采集隊(duì)列中取出每個(gè)列表頁(yè)URL ; 列表頁(yè)提取単元(11 ,用于對(duì)取出的每個(gè)列表頁(yè)URL,獲取該列表頁(yè)URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并從所述網(wǎng)頁(yè)內(nèi)容中提取出每個(gè)帖子首頁(yè)URL和當(dāng)前回復(fù)數(shù);判斷単元(114),用于根據(jù)帖子首頁(yè)URL判斷每個(gè)帖子在已采集帖子信息表中是否存在;如果存在,則繼續(xù)判斷該帖子當(dāng)前回復(fù)數(shù)是否大于已采集帖子信息表中記錄的本次回復(fù)數(shù),如果大于,則該帖子有新回帖,更新已采集帖子信息表中該帖子的上次回復(fù)數(shù)和本次回復(fù)數(shù);如果該帖子在已采集帖子信息表中不存在,則該帖子為新增帖子,將該帖子首頁(yè) URL和當(dāng)前回復(fù)數(shù)添加到已采集帖子信息表中。
16.如權(quán)利要求14所述的論壇回帖增量采集系統(tǒng),其特征在干,所述提取裝置(12)包括第二隊(duì)列單元(121),用于將新增帖子的首頁(yè)URL和具有新回帖的帖子URL添加到內(nèi)容頁(yè)采集隊(duì)列;掃描單元(122),用于定時(shí)掃描內(nèi)容頁(yè)采集隊(duì)列; 第二獲取單元(123),用于從內(nèi)容頁(yè)采集隊(duì)列中取出每個(gè)URL; 內(nèi)容頁(yè)提取単元(1 ),用于獲取URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,并從所述網(wǎng)頁(yè)內(nèi)容中提取主貼和/或回帖和/或翻頁(yè)URL。
17.如權(quán)利要求16所述的論壇回帖增量采集系統(tǒng),其特征在于所述提取裝置(12)還包括用于對(duì)論壇翻頁(yè)方式為下ー頁(yè)翻頁(yè)方式時(shí)從網(wǎng)頁(yè)內(nèi)容中提取的翻頁(yè)URL進(jìn)行消重處理的消重単元(125);所述第二隊(duì)列單元(121)還用于將消重后的翻頁(yè)URL添加到內(nèi)容頁(yè)采集隊(duì)列。
全文摘要
本發(fā)明公開(kāi)了一種論壇回帖增量采集方法及系統(tǒng),屬于網(wǎng)絡(luò)信息采集技術(shù)領(lǐng)域。本發(fā)明所述方法周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子;如果存在,則從所述新增帖子中提取出主貼和回帖信息,從所述具有新回帖的帖子中提取出新回帖信息。本發(fā)明所述系統(tǒng)包括用于周期性判斷所有需要采集的論壇列表頁(yè)中是否存在新增帖子和具有新回帖的帖子的判斷裝置(11);以及用于從新增帖子中提取出主貼和回帖信息,從具有新回帖的帖子中提取出新回帖信息的提取裝置(12)。本發(fā)明能夠快速、準(zhǔn)確、完整地采集一篇帖子的所有主、回帖信息,從而解決了現(xiàn)有搜索引擎在搜索帖子的翻頁(yè)回帖信息時(shí)存在漏搜或搜索不到的問(wèn)題。
文檔編號(hào)G06F17/30GK102567407SQ20101061839
公開(kāi)日2012年7月11日 申請(qǐng)日期2010年12月22日 優(yōu)先權(quán)日2010年12月22日
發(fā)明者吳新麗, 楊建武 申請(qǐng)人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司