亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種微博信息抓取方法及裝置與流程

文檔序號:12845964閱讀:來源:國知局
一種微博信息抓取方法及裝置與流程

技術(shù)特征:
1.一種微博信息抓取方法,其特征在于,所述方法包括:獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型;其中,所述判斷所述待抓取微博用戶的類型,包括:根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度;如果所述待抓取微博用戶為活躍用戶,則計(jì)算該待抓取微博用戶的抓取周期,并根據(jù)所述抓取周期預(yù)測抓取時(shí)間點(diǎn)進(jìn)行微博信息抓??;如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進(jìn)行微博信息抓?。黄渲?,所述獲取待抓取微博用戶,包括:選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;判斷所述未處理用戶是否具有下級用戶:如果具有,則獲取該未處理用戶的下級用戶,并將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級用戶作為未處理用戶,繼續(xù)執(zhí)行所述判斷未處理用戶是否具有下級用戶的步驟;如果不具有,則設(shè)置該未處理用戶的狀態(tài)為已處理;其中,所述如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進(jìn)行微博信息抓取包括:設(shè)置表示非活躍用戶當(dāng)前的抓取狀態(tài)的抓取間隔,在抓取間隔期間用戶的抓取狀態(tài)為不進(jìn)行抓取,在抓取間隔達(dá)到時(shí)用戶的抓取狀態(tài)為可進(jìn)行抓??;根據(jù)API權(quán)限設(shè)置限定每天的抓取上限的抓取用戶量;判斷待抓取微博用戶的抓取狀態(tài)是否為可進(jìn)行抓取,如果是,則繼續(xù)判斷當(dāng)前剩余的抓取用戶量是否為零,如果否,則判定可對待抓取微博用戶進(jìn)行信息抓取,在進(jìn)行信息抓取的同時(shí),還應(yīng)將剩余抓取用戶量減1;其中,對所述待抓取微博用戶設(shè)置不同的抓取間隔或抓取起始點(diǎn),使得將非活躍用戶錯(cuò)開處理。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取該未處理用戶的下級用戶,包括:通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶;或者,抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷所述待抓取微博用戶的類型,包括:根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。4.一種微博信息抓取裝置,其特征在于,所述裝置包括:第一獲取單元,用于獲取待抓取微博用戶;第一判斷單元,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;計(jì)算單元,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時(shí),計(jì)算該待抓取微博用戶的抓取周期;抓取單元,用于根據(jù)所述抓取周期預(yù)測抓取時(shí)間點(diǎn)進(jìn)行微博信息抓取;第二獲取單元,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時(shí),獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量;所述抓取單元,還用于在所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零時(shí),對所述待抓取微博用戶進(jìn)行微博信息抓取;其中,所述第一獲取單元包括:選取單元,用于選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;第二判斷單元,用于判斷所述未處理用戶是否具有下級用戶:第三獲取單元,用于在所述第二判斷單元判定所述未處理用戶具有下級用戶時(shí),獲取該未處理用戶的下級用戶,添加單元,用于將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級用戶作為未處理用戶,通知所述第二判斷單元繼續(xù)判斷未處理用戶是否具有下級用戶;設(shè)置單元,用于在所述第二判斷單元判定所述未處理用戶不具有下級用戶時(shí),則設(shè)置該未處理用戶的狀態(tài)為已處理;其中,所述如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進(jìn)行微博信息抓取包括:設(shè)置表示非活躍用戶當(dāng)前的抓取狀態(tài)的抓取間隔,在抓取間隔期間用戶的抓取狀態(tài)為不進(jìn)行抓取,在抓取間隔達(dá)到時(shí)用戶的抓取狀態(tài)為可進(jìn)行抓?。桓鶕?jù)API權(quán)限設(shè)置限定每天的抓取上限的抓取用戶量;判斷待抓取微博用戶的抓取狀態(tài)是否為可進(jìn)行抓取,如果是,則繼續(xù)判斷當(dāng)前剩余的抓取用戶量是否為零,如果否,則判定可對待抓取微博用戶進(jìn)行信息抓取,在進(jìn)行信息抓取的同時(shí),還應(yīng)將剩余抓取用戶量減1;其中,對所述待抓取微博用戶設(shè)置不同的抓取間隔或抓取起始點(diǎn),使得將非活躍用戶錯(cuò)開處理;所述計(jì)算單元包括:計(jì)算子單元,用于根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;查找單元,用于從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度。5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述第三獲取單元,具體用于通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶;或者,所述第三獲取單元,具體用于抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。6.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述第一判斷單元包括:確定單元,用于根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;判斷子單元,用于根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1