亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備的制作方法

文檔序號:6515241閱讀:168來源:國知局
一種根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備的制作方法
【專利摘要】本發(fā)明公開了一種根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備,其中該方法包括:判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件;如果所述預先選定的微博用戶不符合預先定義的條件,則將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定;如果所述預先選定的微博用戶符合預先定義的條件,則保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變;對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。通過本發(fā)明的實施例能夠有效提高采集微博用戶庫中微博用戶的微博內(nèi)容的準確性。
【專利說明】一種根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備
【技術領域】
[0001]本發(fā)明屬于計算機【技術領域】,尤其涉及一種根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備。
【背景技術】
[0002]隨著時代的發(fā)展和進步,像“微博”這種社交服務平臺應運而生,并逐漸滲透到社會的各個方面。微博以其短小快捷的獨特魅力迅速吸引了大量用戶,引發(fā)微博議事浪潮。跟其他信息傳播方式相比,微博有其獨到之處。首先,它能更快速地發(fā)布和傳播信息。由于字數(shù)的限制,微博發(fā)布的內(nèi)容短小精焊。第二,微博可以允許任何人或指定人群閱讀、回復、轉發(fā),實現(xiàn)了一對多、多對多的傳播。第三,微博的傳播效果更為顯著。短小精悍的信息在達到受眾層面時,不會耗費太多的時間去理解,內(nèi)容的簡易使其更容易被接受。第四,微博具有實時交互傳播的特性。
[0003]與傳統(tǒng)互聯(lián)網(wǎng)信息抓取不同,微博內(nèi)容抓取要求有更高的時效性。目前常用的抓取方式是,注冊一批僵尸用戶,通過這些僵尸用戶關注一批質量比較的微博用戶,然后不斷抓取這批微博用戶的微博內(nèi)容,同時這些僵尸用戶自身也會發(fā)布或轉發(fā)一些微博內(nèi)容,其中充斥大量無用或廣告等內(nèi)容,因此使得在微博中傳播的內(nèi)容非常之多,如何從中找到或辨別高質量微博內(nèi)容也非常困難。

【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的根據(jù)微博用戶庫采集微博內(nèi)容的方法及設備。
[0005]依據(jù)本發(fā)明的一個方面,提供了一種根據(jù)微博用戶庫采集微博內(nèi)容的方法,其包括:判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件;如果所述預先選定的微博用戶不符合預先定義的條件,則將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定;如果所述預先選定的微博用戶符合預先定義的條件,則保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變;對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。
[0006]可選地,所述判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件的步驟包括:判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預先定義的條件;和/或者判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預先定義的條件,其中所述活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
[0007]可選地,所述判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶的步驟包括:判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶;如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
[0008]可選地,所述用戶評分值基于微博用戶關注的用戶數(shù)、微博用戶的粉絲數(shù)和微博用戶發(fā)布的微博數(shù)計算得到。
[0009]可選地,所述方法還包括:采集發(fā)布和/或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶;將采集到的微博用戶更新到所述微博用戶庫中,并將采集到的微博用戶的選定狀態(tài)標識為選定。
[0010]依據(jù)本發(fā)明的另一個方面,還提供了一種根據(jù)微博用戶庫采集微博內(nèi)容的設備,其包括:判斷模塊,用于判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件;選定狀態(tài)更新模塊,用于在所述判斷模塊判斷出所述預先選定的微博用戶不符合預先定義的條件的情況下,將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定;以及用于在所述判斷模塊判斷出所述預先選定的微博用戶符合預先定義的條件的情況下,保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變;第一采集模塊,用于對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。
[0011]可選地,所述判斷模塊包括:惡意注冊用戶判斷單元,用于判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預先定義的條件;和/或者活躍度判斷單元,用于判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預先定義的條件,其中所述活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
[0012]可選地,所述惡意注冊用戶判斷單元進一步用于判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶;如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
[0013]可選地,所述用戶評分值基于微博用戶關注的用戶數(shù)、微博用戶的粉絲數(shù)和微博用戶發(fā)布的微博數(shù)計算得到。
[0014]可選地,所述設備還包括:采集模塊,用于采集發(fā)布和/或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶;選定狀態(tài)更新模塊,用于將采集到的微博用戶更新到所述微博用戶庫中,并將采集到的微博用戶的選定狀態(tài)標識為選定。
[0015]由上述技術方案可知,本發(fā)明的實施例具有如下有益效果:通過判斷微博用戶庫中的微博用戶是否滿足要求預先設定的條件,來對微博用戶庫進行維護,一方面可以減少采集微博用戶庫中微博用戶的微博內(nèi)容時的處理時間,另一方面也能夠提高采集微博用戶庫中微博用戶的微博內(nèi)容的準確性。
[0016]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】

【附圖說明】
[0017]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0018]圖1示出了根據(jù)本發(fā)明實施例中的根據(jù)微博用戶庫采集微博內(nèi)容的方法100的流程圖;
[0019]圖2示出了根據(jù)本發(fā)明實施例中的根據(jù)微博用戶庫采集微博內(nèi)容的方法100中Slll?S117的流程圖;以及
[0020]圖3示出了根據(jù)本發(fā)明實施例中的根據(jù)微博用戶庫采集微博內(nèi)容的設備300的結構框圖。
【具體實施方式】
[0021]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0022]下面結合圖1來說明根據(jù)本發(fā)明一個實施例的、適于解決上述技術問題的根據(jù)微博庫采集微博內(nèi)容100的流程圖。如圖1所示,本發(fā)明實施例的方法100包括:
[0023]在步驟SlOl中,采集微博用戶庫中預先選定的微博用戶的微博內(nèi)容和微博參數(shù)。
[0024]在本發(fā)明的實施例中,微博用戶庫中記錄有多個微博用戶的相關信息,其中每個微博用戶的選定狀態(tài)包括選定和非選定,其中“選定”表示需要采集該微博用戶的微博內(nèi)容和微博參數(shù),“非選定”表示不需要采集該微博用戶的微博內(nèi)容和微博參數(shù)。當然可以理解的是,在本發(fā)明的實施例中微博用戶的選定狀態(tài)可以進行調整,即可以將微博用戶的選定狀態(tài)由選定調整為非選定,或者將微博用戶的選定狀態(tài)由非選定調整為選定。
[0025]可選地,在本發(fā)明的實施例中,可以通過微博網(wǎng)站(例如新浪微博、騰訊微博等)的應用程序編程接口(Application Programming Interface,API)采集微博用戶庫中預先選定的微博用戶的微博內(nèi)容和微博參數(shù)。當然可以理解的是,在本發(fā)明的實施例中并不限定采集微博內(nèi)容和微博參數(shù)的具體方式。
[0026]可選地,在本發(fā)明的實施例中,微博參數(shù)包括:微博用戶的屬性信息、微博的總轉發(fā)次數(shù)、微博的總評論次數(shù)、微博認證用戶的轉發(fā)次數(shù)、和微博認證用戶的評論次數(shù)中的任意一種或多種組合。其中,微博用戶的屬性信息包括:微博用戶的標簽信息,例如標簽信息可以包括微博用戶的愛好、職業(yè)、性格等信息。
[0027]隨后,在步驟S103中,根據(jù)采集到的微博內(nèi)容和微博參數(shù),提取出與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
[0028]可選地,在步驟S103中,首先根據(jù)采集到的微博內(nèi)容和微博參數(shù),按照預先設定的微博類別對微博內(nèi)容進行分類處理;對各個微博類別下的微博內(nèi)容進行微博熱點話題處理,得到各個微博類別下與微博熱點話題相關的微博內(nèi)容;對各個微博類別下的與微博熱點話題相關的微博內(nèi)容分別進行分詞處理,提取出各個微博類別下的與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
[0029]可選地,在本發(fā)明的實施例中,每一個預先設定的微博類別都對應多個關鍵詞,將這些關鍵詞與采集到的微博內(nèi)容和/或微博參數(shù)進行匹配,如果能夠匹配上,則將微博內(nèi)容分類到與該關鍵詞對應的微博類別,其中預先設定的微博類別包括:房產(chǎn)、娛樂、經(jīng)濟、政治和互聯(lián)網(wǎng)等多種類型。
[0030]可選地,在本發(fā)明的實施例中,可以通過各個微博類別下的微博內(nèi)容中是否具有微博熱點話題標志,來判斷該微博內(nèi)容是否與微博熱點話題相關,如果微博內(nèi)容中具有微博熱點話題標志,則判斷該微博內(nèi)容與微博熱點話題相關。例如該微博熱點話題標志可以是“#”,微博熱點話題的表現(xiàn)形式可以是“#假期后遺癥#”,即微博熱點話題為“假期后遺癥”,當然可以理解的是,在本發(fā)明的實施例中并不限定微博熱點話題標志的具體形式。
[0031]可選地,在本發(fā)明的實施例中,在得到各個微博類別下與微博熱點話題相關的微博內(nèi)容之后,可以采用現(xiàn)有的分詞技術對微博內(nèi)容進行分詞處理,然后可以基于詞語出現(xiàn)的頻率,提取出各個微博類別下的與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
[0032]隨后,在步驟S105中,根據(jù)提取到的熱門關鍵詞或熱門關鍵詞組,按照預先設定的采集頻率采集與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容。
[0033]可選地,在本發(fā)明的實施例中,對于每次采集都能達到飽和狀態(tài)的采集,則可以降低采集頻率。對于采集數(shù)量比較少的熱門關鍵詞或熱門關鍵詞組,根據(jù)采集數(shù)量和時間間隔劃分出不同的區(qū)間,相應地采集頻率乘以對應區(qū)間的權重。當然可以理解的是,在本發(fā)明的實施例中并不限定采集頻率的具體值。
[0034]可選地,在本發(fā)明的實施例中,可以采用Request-rate指定采集頻率,語法:Request-rate: 1/5 0600-0845,指定同一個網(wǎng)絡爬蟲每多少秒采集一次網(wǎng)頁和采集時間段,例如1/5 0600-0845,當然可以理解的是,在本發(fā)明的實施例中并不限定采集頻率的具體值。
[0035]在現(xiàn)有技術中,由于有些微博內(nèi)容可能涉及微博熱點話題,但如果該微博內(nèi)容中沒有微博熱點話題標志,則可能導致采集不到該微博內(nèi)容。而在本發(fā)明的實施例中,通過之iu提取的熱門關鍵詞或熱門關鍵詞組,從微博中米集與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容,可使得采集到的微博內(nèi)容更加全面。
[0036]可選地,在本發(fā)明的實施例中,在步驟S105之后,方法100還包括:步驟S107和步驟S109,在步驟S107中,采集發(fā)布和/或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶。
[0037]通過步驟S105可以采集到與熱門關鍵詞或熱門關鍵詞相關的微博內(nèi)容的微博用戶,然而其中有些微博用戶可能在微博用戶庫中沒有記錄(即新的微博用戶),考慮到這類微博用戶發(fā)布或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的可能性較高,因此有必要將這類微博用戶的相關信息記錄到微博用戶庫中。[0038]隨后,在步驟S109中,將采集到的微博用戶更新到微博用戶庫中,并將采集到的微博用戶的選定狀態(tài)標識為選定。
[0039]可選地,在本發(fā)明的實施例中,在步驟S109中微博用戶更新之后,可以檢測微博用戶庫中的微博用戶是否有重復,如果有,則刪除重復的微博用戶的相關信息。
[0040]為了提高提高采集微博內(nèi)容的工作效率,可以對微博用戶庫中的微博用戶進行惡意注冊用戶識別和/或活躍度識別。如果微博用戶為惡意注冊用戶,或者微博用戶的活躍度較低,則可以將微博用戶庫中微博用戶的選定狀態(tài)調整為非選定。
[0041]需要說明的是,圖1所示的方法并不限定按所示的各步驟的順序進行,可以根據(jù)需要調整各步驟的先后順序,另外,所述步驟也不限定于上述步驟劃分,上述步驟可以進一步拆分成更多步驟也可以合并成更少步驟。
[0042]如圖2所示,該方法100還包括:步驟S111、步驟S113、步驟S115和步驟S117,在步驟Slll中,判斷微博用戶庫中預先選定的微博用戶是否符合預定義的條件。
[0043]可選地,在本發(fā)明的實施例中,在步驟Slll中可以通過以下兩種方式之一或者兩種方式的組合來判斷微博用戶庫中預先選定的微博用戶是否符合預定義的條件:
[0044]方式一、判斷微博用戶庫中微博用戶是否為惡意注冊用戶,如果述預先選定的微博用戶為惡意注冊用戶,則判斷結果為預先選定的微博用戶不符合預定義的條件,如果預先選定的微博用戶不是惡意注冊用戶,則判斷結果為述預先選定的微博用戶符合預定義的條件;
等ο
[0046]方式二、判斷微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為預先選定的微博用戶不符合預定義的條件;如果微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為預先選定的微博用戶符合預定義的條件,其中活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
[0047]例如:每日發(fā)布或轉發(fā)微博> 5條,活躍度權值=0.2 ;3 <每日發(fā)布或轉發(fā)微博< 5條,活躍度權值=0.1 ;每日發(fā)布或轉發(fā)微博< 3條;活躍度權值=0 ;
[0048]連續(xù)登錄獎勵規(guī)則:連續(xù)登錄> 3天,活躍度權值=0.5 ;連續(xù)登錄> 5天,活躍度權值=1 ;連續(xù)登錄> 10天,活躍度權值=2.5 ;連續(xù)登錄> 20天,活躍度權值=5 ;連續(xù)登錄^ 30天,活躍度權值=7.5。
[0049]其中,在上述方式一中可通過以下具體方式來判斷微博用戶庫中微博用戶是否為惡意注冊用戶:
[0050]判斷微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;如果微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為微博用戶是惡意注冊用戶;如果微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
[0051]可選地,在本發(fā)明的實施例中,可以根據(jù)微博用戶的頭像信息、粉絲的數(shù)量、微博內(nèi)容的質量、發(fā)布或轉發(fā)微博的頻率等參數(shù),采用現(xiàn)有的計算方式計算得到用戶評分值。例如:用戶評分值滿分100分,微博用戶的頭像總分5分,粉絲的數(shù)量總分10分,微博內(nèi)容的質量總分10分,……,然后基于上述評分標準,計算選定微博用戶的用戶評分值。當然可以理解的是,在本發(fā)明的實施例中并不限定識別惡意注冊用戶的方式。
[0052]如果預先選定的微博用戶不符合預定義的條件,則進入步驟S113,在步驟S113中,將微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定。也就是,取消采集屬于惡意注冊用戶或活躍度較低的微博用戶發(fā)布或轉發(fā)的微博內(nèi)容。
[0053]如果預先選定的微博用戶符合預定義的條件,則進入步驟S115,在步驟S115中,保持微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變。也就是,如果預先選定的微博用戶不是惡意注冊用戶或者活躍度較高,則下次采集微博內(nèi)容時,仍然需要采集該微博用戶發(fā)布或轉發(fā)的微博內(nèi)容。
[0054]在步驟S117中,對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。比如對非惡意注冊用戶或活躍度較高的用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集,這樣對于有價值的微博內(nèi)容進行采集,剔除了大量無用和垃圾內(nèi)容,從而可以在第一時間發(fā)現(xiàn)微博熱點話題。
[0055]在本發(fā)明的實施例中,步驟Slll~步驟S117可以與圖1中的步驟SlOl~步驟S109中的任一步驟同時執(zhí)行,也可以在其中任一步驟之后或任一步驟之前執(zhí)行??蛇x地,步驟Slll~步驟S117可以在圖1中的步驟SlOl之前執(zhí)行,即在采集微博用戶庫中預先選定的微博用戶的微博內(nèi)容和微博參數(shù)之前,判斷微博用戶庫中預先選定的微博用戶是否為惡意注冊用戶和/或者預先選定的微博用戶的活躍度較低,如果該微博用戶是惡意注冊用戶和/或微博用戶的活躍度較低時,則取消對該微博用戶的選定,從而可以減少采集的微博用戶的數(shù)量,提高采集微博內(nèi)容的準確性。
[0056]需要說明的是,圖2所示的方法并不限定按所示的各步驟的順序進行,可以根據(jù)需要調整各步驟的先后順序,另外,所述步驟也不限定于上述步驟劃分,上述步驟可以進一步拆分成更多步驟也可以合`并成更少步驟。
[0057]下面結合圖3說明根據(jù)本發(fā)明一個實施例、適于解決上述技術問題的一種根據(jù)微博用戶庫采集微博內(nèi)容的設備300。
[0058]如圖3所示,根據(jù)本發(fā)明的實施例的根據(jù)微博用戶庫采集微博內(nèi)容的設備300可以主要包括:第一采集模塊301、提取模塊303和第二采集模塊305。應當理解,圖3中所表示的各個模塊的連接關系僅為示例,本領域技術人員完全可以采用其它的連接關系,只要在這樣的連接關系下各個模塊也能夠實現(xiàn)本發(fā)明的功能即可。
[0059]在本說明書中,各個模塊的功能可以通過使用專用硬件、或者能夠與適當?shù)能浖嘟Y合來執(zhí)行處理的硬件來實現(xiàn)。這樣的硬件或專用硬件可以包括專用集成電路(ASIC)、各種其它電路、各種處理器等。當由處理器實現(xiàn)時,該功能可以由單個專用處理器、單個共享處理器、或者多個獨立的處理器(其中某些可能被共享)來提供。另外,處理器不應該被理解為專指能夠執(zhí)行軟件的硬件,而是可以隱含地包括、而不限于數(shù)字信號處理器(DSP)硬件、用來存儲軟件的只讀存儲器(ROM)、隨機存取存儲器(RAM)、以及非易失存儲設備。
[0060]在本發(fā)明的實施例中,第一采集模塊301,用于采集預先選定的微博用戶的微博內(nèi)容和微博參數(shù)。
[0061]在本發(fā)明的實施例中,提取模塊303,用于根據(jù)采集到的微博內(nèi)容和微博參數(shù),提取出與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
[0062]在本發(fā)明的實施例中,第二采集模塊305,用于根據(jù)提取到的熱門關鍵詞或熱門關鍵詞組,按照預先設定的采集頻率采集與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容。
[0063]可選地,在本發(fā)明的實施例中,設備300還包括:
[0064]第三采集模塊307,用于采集發(fā)布和/或轉發(fā)與所述熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶;
[0065]微博用戶更新模塊313,用于將采集的微博用戶更新到微博用戶庫中,并將采集的微博用戶的選定狀態(tài)標識為選定。
[0066]可選地,在本發(fā)明的實施例中,所述第一采集模塊301進一步用于通過微博網(wǎng)站的應用程序編程接口采集所述微博用戶庫中預先選定的微博用戶的微博內(nèi)容和微博參數(shù)。
[0067]可選地,在本發(fā)明的實施例中,所述提取模塊303包括:
[0068]分類單元,用于根據(jù)采集到的所述微博內(nèi)容和微博參數(shù),按照預先設定的微博類別對所述微博內(nèi)容進行分類處理;
[0069]熱點話題處理單元,用于對各個微博類別下的微博內(nèi)容進行微博熱點話題處理,得到各個微博類別下與微博熱點話題相關的微博內(nèi)容;
[0070]提取單元,用于對各個微博類別下的與微博熱點話題相關的微博內(nèi)容分別進行分詞處理,提取出各個微博類別下的與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
[0071]繼續(xù)參見圖3,根據(jù)微博用戶庫采集微博內(nèi)容的設備300還包括:判斷模塊309和選定狀態(tài)更新模塊311。
[0072]在本發(fā)明的實施例中,判斷模塊309用于判斷微博用戶庫中預先選定的微博用戶是否為符合預定義的條件;
[0073]可選地,在本發(fā)明的實施例中,判斷模塊309還包括:惡意注冊判斷單元3091和/或活躍度判斷單元3093,其中
[0074]惡意注冊判斷單元3091,用于判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預定義的條件;
[0075]活躍度判斷單元3093,用于判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預定義的條件,其中所述活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
[0076]可選地,在本發(fā)明的實施例中,惡意注冊判斷單元3091進一步用于判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶;如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。其中,用戶評分值可以基于微博用戶關注的用戶數(shù)、微博用戶的粉絲數(shù)和微博用戶發(fā)布的微博數(shù)計算得到。[0077]在本發(fā)明的實施例中,選定狀態(tài)更新模塊311用于如果預先選定的微博用戶不符合預定義的條件,將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定;如果預先選定的微博用戶符合預定義的條件,則保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變。
[0078]也就是,在本發(fā)明的實施例中,第一采集模塊301,即可對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。比如非惡意注冊用戶或活躍度較高的用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集,從而可以在第一時間發(fā)現(xiàn)熱點話題。
[0079]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0080]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0081]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0082]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的替代特征來代替。
[0083]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0084]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP )來實現(xiàn)根據(jù)本發(fā)明實施例的采集微博內(nèi)容的設備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0085]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干設備的單元權利要求中,這些設備中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
【權利要求】
1.一種根據(jù)微博用戶庫采集微博內(nèi)容的方法,其包括: 判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件; 如果所述預先選定的微博用戶不符合預先定義的條件,則將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定; 如果所述預先選定的微博用戶符合預先定義的條件,則保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變; 對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。
2.根據(jù)權利要求1所述的方法,其中,所述判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件的步驟包括: 判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預先定義的條件;和/或者 判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預先定義的條件,其中所述活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
3.根據(jù)權利要求1或2所述的方法,其中,所述判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶的步驟包括:· 判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值; 如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶; 如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
4.根據(jù)權利要求1-3任一項所述的方法,其中,所述用戶評分值基于微博用戶關注的用戶數(shù)、微博用戶的粉絲數(shù)和微博用戶發(fā)布的微博數(shù)計算得到。
5.根據(jù)權利要求1-4任一項所述的方法,所述方法還包括: 采集發(fā)布和/或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶; 將采集到的微博用戶更新到所述微博用戶庫中,并將采集到的微博用戶的選定狀態(tài)標識為選定。
6.一種根據(jù)微博用戶庫采集微博內(nèi)容的設備,其包括: 判斷模塊,用于判斷所述微博用戶庫中預先選定的微博用戶是否符合預先定義的條件; 選定狀態(tài)更新模塊,用于在所述判斷模塊判斷出所述預先選定的微博用戶不符合預先定義的條件的情況下,將所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)標識為非選定;以及用于在所述判斷模塊判斷出所述預先選定的微博用戶符合預先定義的條件的情況下,保持所述微博用戶庫中預先選定的微博用戶的選定狀態(tài)不變第一采集模塊,用于對微博用戶庫中標識選定狀態(tài)的微博用戶對應發(fā)布或轉發(fā)的微博內(nèi)容進行采集。
7.根據(jù)權利要求6所述的設備,其中,所述判斷模塊包括: 惡意注冊用戶判斷單元,用于判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預先定義的條件;和/或者 活躍度判斷單元,用于判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預先定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預先定義的條件,其中所述活躍度包括:微博用戶發(fā)布或轉發(fā)微博的頻率、微博用戶的連續(xù)登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
8.根據(jù)權利要求6或7所述的設備,其中,所述惡意注冊用戶判斷單元進一步用于判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶;如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
9.根據(jù)權利要求6-8任一項所述的設備,其中,所述用戶評分值基于微博用戶關注的用戶數(shù)、微博用戶的粉絲數(shù)和微博用戶發(fā)布的微博數(shù)計算得到。
10.根據(jù)權利要求6-9任一項所述的設備,所述設備還包括: 采集模塊,用于采集發(fā)布和/或轉發(fā)與熱門關鍵詞或熱門關鍵詞組相關的微博內(nèi)容的微博用戶;· 選定狀態(tài)更新模塊,用于將采集到的微博用戶更新到所述微博用戶庫中,并將采集到的微博用戶的選定狀態(tài)標識為選定。
【文檔編號】G06F17/30GK103593399SQ201310476149
【公開日】2014年2月19日 申請日期:2013年10月12日 優(yōu)先權日:2013年10月12日
【發(fā)明者】馮青松 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1