亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種微博信息抓取方法及裝置與流程

文檔序號:12845964閱讀:225來源:國知局
一種微博信息抓取方法及裝置與流程
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種微博信息抓取方法及裝置。

背景技術(shù):
隨著微博的日趨普及,微博用戶量也在不斷的穩(wěn)步上升,每天數(shù)以千萬計的用戶發(fā)布的微博所包含的信息量是不可小覷的。為了從用戶發(fā)布的眾多微博中提取出新聞熱點,或者根據(jù)用戶發(fā)布的微博分析用戶的興趣,進行微博營銷,就需要及時全面的抓取用戶所發(fā)布的微博信息。目前的信息抓取過程主要是調(diào)用微博平臺API來實現(xiàn),但是出于對微博平臺的維護成本以及信息保留等方面的考慮,各大微博平臺對信息抓取的次數(shù)以及頻率都有所限制,即抓取資源有限。如何利用這有限的抓取資源快速獲取到更多的有效微博信息,在實際應(yīng)用中具有重要意義。

技術(shù)實現(xiàn)要素:
本發(fā)明實施例的微博信息抓取方法及裝置,實現(xiàn)了利用有限的抓取資源獲取盡量多的有效微博信息的目的。為此,本發(fā)明實施例提供如下技術(shù)方案:一種微博信息抓取方法,所述方法包括:獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型;如果所述待抓取微博用戶為活躍用戶,則計算該待抓取微博用戶的抓取周期,并根據(jù)所述抓取周期預(yù)測抓取時間點進行微博信息抓??;如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進行微博信息抓取。優(yōu)選的,所述獲取待抓取微博用戶,包括:選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;判斷所述未處理用戶是否具有下級用戶:如果具有,則獲取該未處理用戶的下級用戶,并將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級用戶作為未處理用戶,繼續(xù)執(zhí)行所述判斷未處理用戶是否具有下級用戶的步驟;如果不具有,則設(shè)置該未處理用戶的狀態(tài)為已處理。優(yōu)選的,所述獲取該未處理用戶的下級用戶,包括:通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶;或者,抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。優(yōu)選的,所述判斷所述待抓取微博用戶的類型,包括:根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。優(yōu)選的,所述根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度,包括:根據(jù)所述待抓取微博用戶發(fā)布的微博計算用戶的平均發(fā)帖間隔;從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度。一種微博信息抓取裝置,所述裝置包括:第一獲取單元,用于獲取待抓取微博用戶;第一判斷單元,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;計算單元,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時,計算該待抓取微博用戶的抓取周期;抓取單元,用于根據(jù)所述抓取周期預(yù)測抓取時間點進行微博信息抓取;第二獲取單元,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時,獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量;所述抓取單元,還用于在所述抓取狀態(tài)表示能進行微博信息抓取,且所述剩余抓取用戶量不為零時,對所述待抓取微博用戶進行微博信息抓取。優(yōu)選的,所述第一獲取單元包括:選取單元,用于選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;第二判斷單元,用于判斷所述未處理用戶是否具有下級用戶:第三獲取單元,用于在所述第二判斷單元判定所述未處理用戶具有下級用戶時,獲取該未處理用戶的下級用戶,添加單元,用于將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級用戶作為未處理用戶,通知所述第二判斷單元繼續(xù)判斷未處理用戶是否具有下級用戶;設(shè)置單元,用于在所述第二判斷單元判定所述未處理用戶不具有下級用戶時,則設(shè)置該未處理用戶的狀態(tài)為已處理。優(yōu)選的,所述第三獲取單元,具體用于通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶;或者,所述第三獲取單元,具體用于抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。優(yōu)選的,所述第一判斷單元包括:確定單元,用于根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;判斷子單元,用于根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。優(yōu)選的,所述計算單元包括:計算子單元,用于根據(jù)所述待抓取微博用戶發(fā)布的微博計算用戶的平均發(fā)帖間隔;查找單元,用于從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度。本發(fā)明實施的微博信息抓取方法及裝置,首先挖掘出盡量多的待抓取微博用戶作為本發(fā)明的處理對象,然后根據(jù)這些處理對象的活躍度對其進行分類處理:如果處理對象為活躍用戶,則統(tǒng)計分析其發(fā)布微博的行為特性,并根據(jù)其行為特性設(shè)置抓取周期,從而可以利用抓取周期預(yù)測抓取時間點,進行有針對性的信息抓取;如果處理對象為非活躍用戶,則根據(jù)其當前的抓取狀態(tài)以及當前剩余抓取用戶量判斷是否對其進行信息抓取。本發(fā)明通過對不同類型的用戶進行區(qū)別處理的方式,實現(xiàn)了抓取資源的合理分配與使用,提高了資源利用率,同時還能保證每次抓取過程均能抓取到較多的微博信息,提高了信息抓取效率。附圖說明為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其它的附圖。圖1是本發(fā)明微博信息抓取方法的流程圖;圖2是本發(fā)明中獲取待抓取微博用戶的流程圖;圖3是本發(fā)明中確定用戶類型的流程圖;圖4是本發(fā)明中確定用戶活躍度的流程圖;圖5是本發(fā)明微博信息抓取裝置的示意圖;圖6是本發(fā)明中第一獲取單元的示意圖;圖7是本發(fā)明中第一判斷單元的示意圖;圖8是本發(fā)明中計算單元的示意圖。具體實施方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。為了提取新聞熱點或分析用戶興趣,應(yīng)及時全面的抓取用戶發(fā)布的微博信息,考慮到現(xiàn)有技術(shù)中各大微博平臺對信息抓取的次數(shù)以及頻率的限制,若針對不同類型的微博用戶采用相同方式進行信息抓取,如針對每天都會有微博發(fā)布、轉(zhuǎn)發(fā)、評論等行為的活躍用戶,以及較少登錄微博的非活躍用戶而言,采用相同方式進行信息抓取顯然會導(dǎo)致抓取資源的不合理分配與使用,致使微博信息抓取效率低下。為了提高信息抓取效率,充分利用有限的抓取資源快速準確的獲取到更多的有效微博信息,提出了本發(fā)明的微博信息抓取方案。本發(fā)明方案中,分析待抓取微博用戶的類型,針對不同類型的用戶進行區(qū)別處理。下面對本發(fā)明的具體實現(xiàn)過程進行解釋說明。參見圖1,示出了本發(fā)明微博信息抓取方法的流程圖,可包括:步驟101,獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型??紤]到各大微博平臺每天對信息抓取資源的限制,若想利用這有限的抓取資源,抓取到更多的有效微博信息,就應(yīng)該針對不同類型的用戶制定不同的抓取方案。首先要獲取待抓取的微博用戶,也即先進行微博用戶挖掘,確定出盡量多的信息抓取對象。作為本步驟獲取待抓取微博用戶的一種實現(xiàn)方式,可體現(xiàn)為圖2所示流程圖,可包括:步驟201,選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表。步驟202,判斷所述未處理用戶是否具有下級用戶,如果具有則執(zhí)行步驟203,如果不具有則執(zhí)行步驟205。步驟203,獲取該未處理用戶的下級用戶,并將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理。步驟204,將所述下級用戶作為未處理用戶,返回執(zhí)行步驟202。步驟205,設(shè)置該未處理用戶的狀態(tài)為已處理。微博用戶可大致被分為兩種類型:認證用戶、普通用戶。為了挖掘出盡可能多的微博用戶,本發(fā)明從影響力大、用戶關(guān)系網(wǎng)復(fù)雜的認證用戶中確定種子用戶。作為本發(fā)明確定種子用戶的一種實現(xiàn)方式,可在微博名人堂頁面抓取,如將影響力排行或者人氣排行的前100名用戶作為種子用戶,或者,根據(jù)營銷需要,有針對性的抓取某種分類下的認證用戶,如當前需要推廣的是一款旅游產(chǎn)品,則可抓取旅游分類下的認證用戶作為種子用戶。本發(fā)明對從認證用戶中確定種子用戶的具體方式可不做限定。確定出種子用戶之后,可將這些種子用戶作為未處理用戶添加到用戶列表,判斷未處理用戶是否具有下級用戶,并進行如下處理:(1)如果未處理用戶不具有下級用戶,則說明該未處理用戶為底層節(jié)點,當前已挖掘出所有與種子用戶直接或間接相關(guān)的所有微博用戶,此時可直接將該未處理用戶的狀態(tài)標識為已處理。(2)如果未處理用戶具有下級用戶,則說明該未處理用戶不是底層節(jié)點,還可在其下級用戶的基礎(chǔ)上進一步進行遞歸挖掘,此時,可做如下處理:a.將該未處理用戶的狀態(tài)標識為已處理;b.將該未處理用戶的下級用戶添加到用戶列表中;c.將下級用戶的狀態(tài)標識為未處理狀態(tài),以便在此基礎(chǔ)上繼續(xù)進行遞歸挖掘。經(jīng)上述3個處理動作之后,即說明用戶列表中還存在未處理用戶,應(yīng)返回執(zhí)行步驟202,繼續(xù)判斷這些下級用戶作為未處理用戶時,其是否存在下級用戶,然后再根據(jù)判斷結(jié)果進行區(qū)別處理,此處不再贅述。需要說明的是,本發(fā)明提供了兩種獲取未處理用戶的下級用戶的實現(xiàn)方式,下面分別進行解釋說明。(1)通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶。用戶關(guān)系網(wǎng)指的是微博用戶之間的關(guān)系,包括關(guān)注和粉絲兩種關(guān)系,一般采用節(jié)點圖來表示,其中,節(jié)點表示微博用戶,兩節(jié)點間的連線表示用戶間的關(guān)系。在微博中,用戶A可以關(guān)注、接收其感興趣的用戶B發(fā)布的微博,此時,用戶A就是用戶B的粉絲,相應(yīng)地用戶B就是用戶A的關(guān)注。作為本發(fā)明獲取用戶關(guān)系網(wǎng)的一種實現(xiàn)方式,可通過調(diào)用微博開放平臺API的方式實現(xiàn),獲取某個未處理用戶的關(guān)注列表和粉絲列表。因為關(guān)注列表和粉絲列表中的用戶是通過該未處理用戶挖掘到的,故關(guān)注列表和粉絲列表中的用戶都可稱為是該未處理用戶的下級用戶。(2)抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。在用戶A與用戶B之間既不是關(guān)注,也不是粉絲關(guān)系的情況下,用戶A也可能會轉(zhuǎn)發(fā)和/或評論用戶B發(fā)布的微博,此時,我們可以認為用戶A與B之間產(chǎn)生了關(guān)聯(lián)關(guān)系,這種情況下,用戶A也可視為是用戶B的下級用戶。因此,作為本發(fā)明獲取下級用戶的另一種實現(xiàn)方式,還可通過抓取轉(zhuǎn)發(fā)和/或評論了未處理用戶發(fā)布的微博的用戶的方式實現(xiàn)。按照上文介紹方式挖掘出的微博用戶即可視為本發(fā)明的處理對象—待抓取微博用戶,為了實現(xiàn)微博用戶的區(qū)別處理,此時還應(yīng)識別出這些微博用戶的類型。本發(fā)明中的微博用戶類型可被分為活躍用戶和非活躍用戶兩種,且活躍用戶占少量,非活躍用戶量較大。針對這兩種類型,本發(fā)明提供了兩種不同的處理方式。對于活躍用戶而言,可采用步驟102的方式進行處理,對于非活躍用戶,則可采用步驟103的方式進行處理,對此將在下文進行解釋說明。對于確定用戶類型的實現(xiàn)方式此處暫不詳述。步驟102,如果所述待抓取微博用戶為活躍用戶,則計算該待抓取微博用戶的抓取周期,并根據(jù)所述抓取周期預(yù)測抓取時間點進行微博信息抓取。如上文所述,活躍用戶所占數(shù)量較少,但這部分用戶提供的微博信息量卻很大,根據(jù)這一特性,我們可以逐一分析每個活躍用戶發(fā)布微博的行為特性,并根據(jù)其行為特性為其設(shè)置對應(yīng)的抓取周期,然后根據(jù)抓取周期預(yù)測的抓取時間點(也即用戶可能發(fā)布微博的時間點)進行有針對性的信息抓取。需要說明的是,為活躍用戶確定的抓取周期可以是固定周期也可以是變周期。也就是說,針對某個活躍用戶,可以通過統(tǒng)計分析其發(fā)布的歷史微博,獲得其在單位時間(如小時、天、周等)內(nèi)發(fā)布微博的平均間隔,并以此為依據(jù)計算一個固定的抓取周期,按照該固定抓取周期預(yù)測抓取時間點。其中,單位時間發(fā)布微博的平均間隔即可理解為該用戶的行為特性?;蛘?,針對某個活躍用戶,還可以通過統(tǒng)計分析其發(fā)布的歷史微博,獲得其在單位時間(如小時、天、周等)內(nèi)發(fā)布微博的繁忙期和空閑期,并為繁忙期和空閑期設(shè)置不同的抓取周期,通過變周期的方式進行信息抓取。如經(jīng)統(tǒng)計發(fā)現(xiàn),某個活躍用戶在吃午飯時間、乘坐地鐵時間、或者傍晚時分會較為頻繁的發(fā)布微博,那么這些時間段即可被定義為繁忙期;用戶在上班工作時間、晚間休息時間較少發(fā)布微博,則這些時間段即可被定義為空閑期。這樣就獲得了該名用戶這一天內(nèi)發(fā)布微博的行為特性,可據(jù)此設(shè)置出這一天的抓取周期,進而就可以利用設(shè)置的抓取周期預(yù)測下周同一天的抓取時間點,進行微博信息抓取。需要說明的是,在確定抓取周期的過程中,會影響抓取周期長短的因素至少可包含:每條歷史微博的權(quán)重、用戶的影響力(可通過粉絲數(shù)、被提及數(shù)體現(xiàn))、用戶發(fā)布微博的質(zhì)量(可通過微博被轉(zhuǎn)發(fā)數(shù)體現(xiàn))、抓取資源(受抓取平臺限制)等,此處不再展開詳述。步驟103,如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進行微博信息抓取。如上文所述,非活躍用戶所占數(shù)量很多,且這部分用戶提供的微博信息量卻很少,若采用步驟102的方式按照一定的抓取周期(固定周期或變周期)進行信息抓取的話,不僅會造成抓取資源的浪費,還可能導(dǎo)致抓取到的信息很有限,為此本發(fā)明提供了另外一種針對非活躍用戶的抓取方案。首先,設(shè)置一個表示非活躍用戶當前的抓取狀態(tài)的抓取間隔,如2個月。在抓取間隔期間用戶的抓取狀態(tài)為不進行抓取,在抓取間隔到達時用戶的抓取狀態(tài)為可進行抓取。如,在06.12(可視為是該用戶的抓取起始點)對某個非活躍用戶進行了信息抓取,當在06.13判斷是否需要對該用戶進行信息抓取時,就可獲知前一天剛剛抓取過該用戶的微博信息,此時暫時還不需要再次對其進行信息抓取,也即該用戶在06.13的抓取狀態(tài)為不進行抓取,通過這樣逐天(當然也可以其它時間單位逐次判斷,本發(fā)明可不做限定)判斷的方式類推,直至間隔2個月在08.12判斷該用戶的抓取狀態(tài)為可進行抓取,再進行下一次信息抓取。其次,還要根據(jù)API權(quán)限設(shè)置一個限定每天的抓取上限的抓取用戶量,也即每天可抓取多少名非活躍用戶,如一千萬非活躍用戶。在設(shè)置好上述兩個參數(shù)之后,即可判斷當前是否能對待抓取微博用戶進行信息抓取,具體過程為:判斷待抓取微博用戶的抓取狀態(tài)是否為可進行抓取,如果是,則繼續(xù)判斷當前剩余的抓取用戶量是否為零,如果否,則判定可對該待抓取微博用戶進行信息抓取,在進行微博信息抓取的同時,還應(yīng)將剩余抓取用戶量減1,以保證后續(xù)其它非活躍用戶的判斷準確性。也就是說,針對非活躍用戶而言,如果其抓取狀態(tài)為不進行抓取,或者當前的剩余抓取用戶量為零,均不對其進行信息抓取。需要說明的是,抓取用戶量受限就可能導(dǎo)致一些抓取狀態(tài)為可進行抓取的非活躍用戶的微博信息無法被正常抓取到,對此,可以通過設(shè)置不同的抓取間隔或抓取起始點的方式,將眾多的非活躍用戶錯開處理,如此就可利用有限的抓取資源處理盡量多的非活躍用戶,提高抓取資源利用率以及抓取有效信息的效率。參見圖3,示出了本發(fā)明確定用戶類型的流程,可包括:步驟301,根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度。步驟302,根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。本發(fā)明主要是根據(jù)用戶是否發(fā)布了微博以及發(fā)布微博的頻繁程度確定用戶活躍度的,如果用戶未發(fā)布過微博,則直接將其定義為非活躍用戶;如果用戶發(fā)布過微博,還應(yīng)再根據(jù)其發(fā)布微博的頻率來確定其活躍度,具體可采用圖4所示流程實現(xiàn),包括:步驟401,根據(jù)所述待抓取微博用戶發(fā)布的微博計算用戶的平均發(fā)帖間隔;步驟402,從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度。本實施例主要是通過發(fā)帖間隔來表示用戶的發(fā)帖頻率,進而反映用戶的活躍度。具體實現(xiàn)時,可先建立一個保存有發(fā)帖間隔與活躍度對應(yīng)關(guān)系的數(shù)據(jù)庫,在計算獲得用戶的發(fā)帖間隔之后,即可通過查表的方式確定其對應(yīng)的活躍度。需要說明的是,發(fā)帖間隔與活躍度可以一一對應(yīng),即一個發(fā)帖間隔對應(yīng)一個活躍度;或者,發(fā)帖間隔與活躍度還可以是多對一,即多個發(fā)帖間隔對應(yīng)一個活躍度,此時活躍度可視為是活躍等級,對此本發(fā)明可不做限定。在獲得用戶活躍度之后,即可與預(yù)設(shè)活躍值相比較,如果用戶活躍度小于預(yù)設(shè)活躍值,則判定該用戶為非活躍用戶;如果用戶活躍度大于或等于預(yù)設(shè)活躍值,則判定該用戶為活躍用戶。相應(yīng)地,本發(fā)明還提供一種微博信息抓取裝置,參見圖5,示出了本發(fā)明微博信息抓取裝置的示意圖,所述裝置可包括:第一獲取單元501,用于獲取待抓取微博用戶;第一判斷單元502,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;計算單元503,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時,計算該待抓取微博用戶的抓取周期;抓取單元504,用于根據(jù)所述抓取周期預(yù)測抓取時間點進行微博信息抓??;第二獲取單元505,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時,獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量;所述抓取單元504,還用于在所述抓取狀態(tài)表示能進行微博信息抓取,且所述剩余抓取用戶量不為零時,對所述待抓取微博用戶進行微博信息抓取。參見圖6,示出了本發(fā)明中第一獲取單元的示意圖,可包括:選取單元601,用于選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;第二判斷單元602,用于判斷所述未處理用戶是否具有下級用戶:第三獲取單元603,用于在所述第二判斷單元判定所述未處理用戶具有下級用戶時,獲取該未處理用戶的下級用戶,添加單元604,用于將所述下級用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級用戶作為未處理用戶,通知所述第二判斷單元602繼續(xù)判斷未處理用戶是否具有下級用戶;設(shè)置單元605,用于在所述第二判斷單元判定所述未處理用戶不具有下級用戶時,則設(shè)置該未處理用戶的狀態(tài)為已處理。其中,第三獲取單元可通過以下兩種方式獲取下級用戶,具體為:通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級用戶;或者,抓取評論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級用戶。參見圖7,示出了本發(fā)明中第一判斷單元的示意圖,可包括:確定單元701,用于根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;判斷子單元702,用于根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。參見圖8,示出了本發(fā)明中計算單元的示意圖,可包括:計算子單元801,用于根據(jù)所述待抓取微博用戶發(fā)布的微博計算用戶的平均發(fā)帖間隔;查找單元802,用于從預(yù)設(shè)數(shù)據(jù)庫中查找與所述平均發(fā)帖間隔相對應(yīng)的活躍度。以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制。雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā)明。任何熟悉本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的方法和技術(shù)內(nèi)容對本發(fā)明技術(shù)方案做出許多可能的變動和修飾,或修改為等同變化的等效實施例。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護的范圍內(nèi)。
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1