亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)信息采集的系統(tǒng)和方法

文檔序號(hào):9291662閱讀:740來源:國(guó)知局
基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)信息采集的系統(tǒng)和方法
【專利說明】
【背景技術(shù)】
[0001]Web信息采集是指以系統(tǒng)的、自動(dòng)化的方式或有序的方式來瀏覽萬維網(wǎng)的基于軟件的技術(shù)。Web信息采集器主要用于創(chuàng)建所有訪問過的頁面的副本,以供以后由將用于收集已下載的頁面并對(duì)其編制索引的搜索引擎進(jìn)行處理以提供快速的搜索。信息采集器還可以用于在Web站點(diǎn)上自動(dòng)執(zhí)行維護(hù)任務(wù),諸如檢查鏈接或驗(yàn)證HTML代碼。一般來講,Web信息采集器從要訪問的URL列表開始,這些URL被稱為種子。當(dāng)信息采集器訪問這些URL時(shí),其識(shí)別頁面中的所有超鏈接,并將這些超鏈接添加到要訪問的URL的列表,該列表被稱為信息采集前端。根據(jù)一組策略對(duì)前端中的URL進(jìn)行遞歸式訪問。
[0002]諸如Facebook和Twitter的社交媒體網(wǎng)絡(luò)在最近幾年中作為基于Web的交流平臺(tái)已經(jīng)經(jīng)歷了指數(shù)級(jí)的增長(zhǎng)。數(shù)以億計(jì)的人每天使用各種形式的社交媒體網(wǎng)絡(luò)進(jìn)行交流并彼此保持聯(lián)絡(luò)。因此,從社交媒體網(wǎng)絡(luò)中的用戶所產(chǎn)生的活動(dòng)數(shù)據(jù)是驚人的,而使用傳統(tǒng)Web信息采集技術(shù)定期地探索社交媒體網(wǎng)絡(luò)中每個(gè)用戶的活動(dòng)數(shù)據(jù)變得過于昂貴,并且在所需的時(shí)間和資源方面也是不可行的。實(shí)際上,任何Web信息采集器都只能收集和下載給定時(shí)間段內(nèi)社交媒體網(wǎng)絡(luò)中的部分用戶的活動(dòng),而社交媒體網(wǎng)絡(luò)中活動(dòng)用戶的高速率活動(dòng)要求在這些用戶的數(shù)據(jù)被更新或刪除之前對(duì)其進(jìn)行頻繁收集。為了使所收集數(shù)據(jù)保持“新鮮”,越來越要求有一種專門針對(duì)社交媒體網(wǎng)絡(luò)定制的高效和及時(shí)的信息采集方法。
[0003]上述相關(guān)領(lǐng)域的實(shí)例及其相關(guān)的限制旨在進(jìn)行說明,并非僅限于此。在閱讀說明書和研究附圖時(shí),相關(guān)領(lǐng)域的其他限制將變得顯而易見。
【附圖說明】
[0004]圖1示出了支持基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)信息采集的系統(tǒng)圖的實(shí)例。
[0005]圖2示出了支持基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)信息采集過程的流程圖的實(shí)例。
【具體實(shí)施方式】
[0006]本發(fā)明方法以舉例的方式進(jìn)行說明,而不僅限于各個(gè)附圖的圖形的方式,在附圖中類似的附圖標(biāo)號(hào)表示類似的元件。應(yīng)該指出的是,本公開中引用的“某個(gè)”、“一個(gè)”或“一些”實(shí)施例未必是相同的實(shí)施例,并且此類引用意指至少一個(gè)實(shí)施例。
[0007]所提議的新方法考慮了各種系統(tǒng)和方法,以支持基于社交網(wǎng)絡(luò)中每個(gè)用戶的預(yù)測(cè)的未來活動(dòng)來有效地采集社交媒體網(wǎng)絡(luò)信息。首先,收集與用戶在社交網(wǎng)絡(luò)中的過往活動(dòng)相關(guān)的數(shù)據(jù),并建立用戶在社交網(wǎng)絡(luò)中的過往活動(dòng)的隨時(shí)間推移的模式?;谒⒌挠脩暨^往活動(dòng)的模式,可以建立關(guān)于用戶在社交網(wǎng)絡(luò)中的對(duì)未來活動(dòng)的預(yù)測(cè)。此類預(yù)測(cè)隨后可用于確定時(shí)間(何時(shí))和頻率的收集計(jì)劃表,以收集用戶活動(dòng)數(shù)據(jù),從而用于未來的社交網(wǎng)絡(luò)信息采集。通過避免每次在某些用戶為不活動(dòng)時(shí)針對(duì)每個(gè)用戶的活動(dòng)進(jìn)行耗費(fèi)時(shí)間和資源的社交網(wǎng)絡(luò)信息采集,轉(zhuǎn)而繼續(xù)在每個(gè)用戶在他/她的預(yù)測(cè)活動(dòng)時(shí)間內(nèi)以及時(shí)的方式收集新鮮數(shù)據(jù),此類基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)平衡社交網(wǎng)絡(luò)信息采集的效率和“新鮮度”。
[0008]如在下文所提到的,社交媒體網(wǎng)絡(luò)或僅社交網(wǎng)絡(luò)可以是任何可公開訪問的基于Web的平臺(tái)或社區(qū),所述平臺(tái)或社區(qū)使得其用戶/成員能夠發(fā)帖、共享、交流以及與彼此進(jìn)行交互。對(duì)于非限制性實(shí)例,此類社交媒體網(wǎng)絡(luò)可以是但不限于Facebook、Google+、Tweeter、Linkedln、博客、論壇或任何其他基于Web的社區(qū)。
[0009]如在下文所提及,社交媒體網(wǎng)絡(luò)中的用戶活動(dòng)包括但不限于發(fā)微博、發(fā)帖、評(píng)論其他用戶的帖子、發(fā)表觀點(diǎn)(例如,贊)、供稿、聯(lián)系(例如,將其他用戶添加為好友)、引用、鏈接到其他網(wǎng)站或應(yīng)用,或社交網(wǎng)絡(luò)上的任何其他活動(dòng)。與創(chuàng)建時(shí)間可能不會(huì)始終與內(nèi)容明確相關(guān)的典型Web內(nèi)容相比,社交網(wǎng)絡(luò)中用戶活動(dòng)的一個(gè)獨(dú)有特性是具有與每個(gè)活動(dòng)相關(guān)聯(lián)的明確時(shí)間戳,這樣就可以建立社交網(wǎng)絡(luò)中用戶活動(dòng)的隨時(shí)間推移的模式。
[0010]圖1示出了支持基于預(yù)測(cè)的社交媒體網(wǎng)絡(luò)信息采集的系統(tǒng)圖的實(shí)例。盡管這些圖示將組件示出為在功能上獨(dú)立,但此類示出僅用于說明性目的。顯而易見的是,該圖中所描繪的組件可以任意組合或劃分成獨(dú)立的軟件、固件和/或硬件組件。此外,也顯而易見的是,無論此類組件如何組合或劃分,其都可以在相同的主機(jī)或多個(gè)主機(jī)上執(zhí)行,并且其中多個(gè)主機(jī)可以通過一個(gè)或多個(gè)網(wǎng)絡(luò)進(jìn)行連接。
[0011]在圖1的實(shí)例中,系統(tǒng)100包括至少數(shù)據(jù)收集引擎102、預(yù)測(cè)引擎104和社交媒體信息采集引擎106。如本文所用,術(shù)語“引擎”指用于實(shí)現(xiàn)某個(gè)目的的軟件、固件、硬件或其他組件。引擎通常包括存儲(chǔ)在非易失性存儲(chǔ)器(也稱為輔助存儲(chǔ)器)中的軟件指令。在執(zhí)行軟件指令時(shí),處理器將軟件指令的至少一個(gè)子集加載到存儲(chǔ)器(也稱為主存儲(chǔ)器)中。處理器然后執(zhí)行存儲(chǔ)器中的軟件指令。處理器可以是共享處理器、專用處理器、或共享或?qū)S锰幚砥鞯慕M合。典型的程序?qū)▽?duì)硬件組件(諸如I/O設(shè)備)的調(diào)用,這通常需要驅(qū)動(dòng)程序的執(zhí)行。驅(qū)動(dòng)程序可以被視為也可以不被視為引擎的一部分,但該區(qū)別并不關(guān)鍵。
[0012]在圖1的實(shí)例中,每個(gè)引擎都可以在一個(gè)或多個(gè)托管設(shè)備(主機(jī))上運(yùn)行。在此處,主機(jī)可以是計(jì)算設(shè)備、通信設(shè)備、存儲(chǔ)設(shè)備或能夠運(yùn)行軟件組件的任何電子設(shè)備。對(duì)于非限制性實(shí)例,計(jì)算設(shè)備可以是但不限于膝上型PC、臺(tái)式PC、平板型PC、iPod, iPhone和iPad, Google的Android設(shè)備、PDA或服務(wù)器。存儲(chǔ)設(shè)備可以是但不限于硬盤驅(qū)動(dòng)器、閃存驅(qū)動(dòng)器或任何便攜式存儲(chǔ)設(shè)備。通信設(shè)備可以是但不限于移動(dòng)電話。
[0013]在圖1的實(shí)例中,數(shù)據(jù)收集引擎102、預(yù)測(cè)引擎104和社交媒體信息采集引擎106各自具有通信接口(未示出),所述通信接口是軟件組件,其使得引擎能夠按照某些通信協(xié)議(諸如TCP/IP協(xié)議)通過一個(gè)或多個(gè)通信網(wǎng)絡(luò)(未示出)彼此進(jìn)行通信。在此處,通信網(wǎng)絡(luò)可以是但不限于互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、無線網(wǎng)絡(luò)、監(jiān)牙、WiFi和移動(dòng)通信網(wǎng)絡(luò)。網(wǎng)絡(luò)的物理連接和通信協(xié)議對(duì)于本領(lǐng)域的技術(shù)人員而言是熟知的。
[0014]在圖1的實(shí)例中,數(shù)據(jù)收集引擎102采集社交網(wǎng)絡(luò)中每個(gè)用戶的過往活動(dòng)。用戶的過往活動(dòng)可能已經(jīng)由社交媒體信息采集引擎106在一定時(shí)間段內(nèi)在社交網(wǎng)絡(luò)先前的信息采集期間收集,并在數(shù)據(jù)庫(kù)中作為與用戶相關(guān)聯(lián)的過往活動(dòng)記錄進(jìn)行維護(hù)。一旦用戶的過往活動(dòng)被收集,數(shù)據(jù)收集引擎102可以基于與用戶活動(dòng)相關(guān)聯(lián)的時(shí)間戳來建立用戶的隨時(shí)間推移的活動(dòng)分布模式/模型。此類隨時(shí)間推移的活動(dòng)分布模式可以反映用戶在社交網(wǎng)絡(luò)中何時(shí)最活躍或最不活躍以及社交網(wǎng)絡(luò)中用戶活動(dòng)的頻率。對(duì)于非限制性實(shí)例,用戶可能在晚上8點(diǎn)到12點(diǎn)之間的幾個(gè)小時(shí)內(nèi)在社交網(wǎng)絡(luò)中最活躍,可能在凌晨最不活躍,或者用戶在周末最活躍,在工作日最不活躍。
[0015]在一些實(shí)施例中,數(shù)據(jù)收集引擎102還可以確定用戶是否可能在發(fā)生某些事件時(shí)最活躍,諸如用戶正在關(guān)注的某些體育事件或新聞。作為另外一種選擇,數(shù)據(jù)收集引擎102可以確定用戶的活動(dòng)與用戶在社交網(wǎng)絡(luò)中聯(lián)系的一個(gè)或多個(gè)他/她的好友的活動(dòng)密切相關(guān)。對(duì)于非限制性實(shí)例,如果用戶的好友的一個(gè)或多個(gè)變得活躍,例如發(fā)起興趣討論或參與在線游戲,那么也有可能會(huì)導(dǎo)致用戶也積極參與。
[0016]在圖1的實(shí)例中,預(yù)測(cè)引擎104基于所建立的用戶過往活動(dòng)的模式對(duì)用戶在社交網(wǎng)絡(luò)中的未來活動(dòng)做出預(yù)測(cè)。此類預(yù)測(cè)背后的合理性在于一個(gè)人通常具有他/她自己的習(xí)慣、慣例、規(guī)矩,并且通常體現(xiàn)或表現(xiàn)為某個(gè)預(yù)測(cè)方式。同樣的,用戶的過往活動(dòng)可用于預(yù)測(cè)他/她在將來的活動(dòng)。對(duì)于非限制性實(shí)例,如果用戶在過去的幾周或幾個(gè)月中通常在夜晚或周末非?;钴S,那么可以預(yù)測(cè)他/她在接下來的夜晚和周末將仍舊非常活躍。
[0017]基于對(duì)用戶未來活動(dòng)的預(yù)測(cè),預(yù)測(cè)引擎104可以確定相應(yīng)的用戶活動(dòng)收集計(jì)劃表,用于平衡數(shù)據(jù)收集的效率和新鮮度。此類收集計(jì)劃表與用戶最活躍的時(shí)間段直接相關(guān),即,活動(dòng)數(shù)據(jù)收集安排在當(dāng)他/她被預(yù)測(cè)為最活躍的時(shí)間期間,而當(dāng)他/她通過用戶的收集計(jì)劃表被預(yù)測(cè)為較不活躍的時(shí)間期間,社交媒體信息采集引擎106可以跳過針對(duì)該用戶的數(shù)據(jù)收集。
[0018]在圖1的實(shí)例中,社交媒體信息采集引擎106周期性地對(duì)社交網(wǎng)絡(luò)采集信息,以基于用戶的活動(dòng)收集計(jì)劃表來收集來自每個(gè)用戶的最新活動(dòng)數(shù)據(jù)。如果根據(jù)用戶的活動(dòng)收集計(jì)劃表在信息采集時(shí)間內(nèi)不收集用戶的活動(dòng),則社交媒體信息采集引擎106將會(huì)跳過與用戶相關(guān)的內(nèi)容,并轉(zhuǎn)移到要根據(jù)他/她的計(jì)劃表來收集活動(dòng)的下一個(gè)用戶。考慮到社交媒體網(wǎng)絡(luò)中的大量可訪問的數(shù)據(jù),由社交媒體信息采集引擎106進(jìn)行的此類選擇性數(shù)據(jù)收集會(huì)減少每輪信息采集所需的時(shí)間和資源,同時(shí)保持所收集的數(shù)據(jù)的新鮮度。在一些實(shí)施例中,社交媒體信息采集引擎106可以運(yùn)行并協(xié)調(diào)來自不同互聯(lián)網(wǎng)地址(IP)的多個(gè)信息采集器,以收集盡可能多的數(shù)據(jù)。社交媒體信息采集引擎106還可以最大化
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1