處理。
[0024]例如需要聚合視頻信息時,則將多個視頻網(wǎng)站的排行榜數(shù)據(jù)抓取過來,對于視頻網(wǎng)站而言,其排行榜數(shù)據(jù)則指最熱門的視頻排行榜。另外,從各網(wǎng)站抓取回來的排行榜數(shù)據(jù)可以是各排行榜的所有信息,也可以是排在排行榜前面的預定數(shù)量的信息,例如前50條信息,以提高聚合效率。
[0025]對于各網(wǎng)站來說,不同網(wǎng)站的用戶數(shù)量可能不在一個基數(shù)上,所以其排行榜中的相關內(nèi)容的觀看次數(shù)也可能不在一個基數(shù)上,也就是說,各網(wǎng)站得到的排行榜數(shù)據(jù)可能都不在一個基數(shù)上,所以本發(fā)明實施例根據(jù)各網(wǎng)站的用戶數(shù)量為每個網(wǎng)站配置一個權(quán)重值,用戶數(shù)量越多,權(quán)重值越大,用戶數(shù)量越少,權(quán)重值越小,即可將權(quán)重值設置成與用戶數(shù)量成正比的關系。
[0026]然后在步驟S102中,對各網(wǎng)站的排行榜數(shù)據(jù)進行去重處理,一般來說,在各大網(wǎng)站上的排行榜中的信息多數(shù)都是相同的,例如對于視頻網(wǎng)站,在排行榜上相同視頻可能有多個,所以需要對各網(wǎng)站排行榜數(shù)據(jù)中相同的信息進行去重處理,將相同的信息去除,只保留一個在權(quán)重值最高的網(wǎng)站的信息,例如對于網(wǎng)站Α、網(wǎng)站B、網(wǎng)站C,其中,權(quán)重值大小為:網(wǎng)站Α>網(wǎng)站B〉網(wǎng)站C,而網(wǎng)站A包含有信息Al、Α2、A3,網(wǎng)站B包含有信息B1、Α2、Β3,網(wǎng)站C包含有信息Cl、Α2、A3,那么即可將各網(wǎng)站中相同的信息進行去重處理,只保留一個權(quán)重值最高的網(wǎng)站的信息,即可將網(wǎng)站B中的信息Α2以及網(wǎng)站C中的信息Α2及A3過濾掉,而只保留網(wǎng)站A中的Α2和A3,這樣過濾后,網(wǎng)站A還包括有信息Al、Α2、A3,而網(wǎng)站B剩下信息BI和Β3,網(wǎng)站C剩下信息Cl。
[0027]在去重處理時,可以按照信息的名稱來處理,例如將相同名稱的視頻過濾掉,只保留一個權(quán)重值最高的網(wǎng)站的相同信息即可。由于不同網(wǎng)站對于同一信息的命名可能有所不同,例如同一電影在不同視頻網(wǎng)站可能名稱有所不同,所以還可以通過信息簡介來進行去重處理,例如對于視頻而已,在視頻簡介中包含了上映名稱、上映時間、主演、劇情等信息,若這些信息均匹配或者匹配信息超過若干數(shù)量則可以判定是同一視頻。
[0028]另外,若某網(wǎng)站中所包含的信息均被過濾掉,則可直接將該網(wǎng)站的信息庫剔除掉,繼續(xù)進行接下來的步驟。
[0029]在步驟S103中,在去重處理之后,各網(wǎng)站的排行榜數(shù)據(jù)可能有所變化,那么需要對各網(wǎng)站的排行榜進行重新排列,將過濾掉的信息依次用后面的信息補上,例如第二名的信息被去掉,那么就用第三名的信息補上,原來第三名的位置則由第四名的信息補上,依次類推,按照排行榜順序依次補上,形成連續(xù)的排行榜,例如,網(wǎng)站B經(jīng)過去重處理之后剩下B1、B3、B4、B5,那么重新排列之后,B3遞補到原來B2的位置,B4和B5則分別遞補到原來B3和B4的位置,形成連續(xù)的排行榜;網(wǎng)站C經(jīng)過去重處理之后剩下C1、C4、C5,那么C4遞補到原來C2的位置,C5遞補到原來C3的位置,形成連續(xù)的排行榜。
[0030]在步驟S104中,將各網(wǎng)站按照權(quán)重值大小進行排序,權(quán)重值高的排列在前,權(quán)重值低的排列在后,然后按照網(wǎng)站排序依次從各網(wǎng)站的排行榜數(shù)據(jù)中抽取排列在前的信息,形成包含預定信息數(shù)量的聚合排行榜,信息抽取方式為循環(huán)抽取,即依次從各網(wǎng)站抽取排列在前的信息后,再循環(huán)重新依次抽取各網(wǎng)站排列在前的信息,如此反復。例如,權(quán)重值大小為:網(wǎng)站A>網(wǎng)站B〉網(wǎng)站C〉網(wǎng)站D>網(wǎng)站E,排序后的網(wǎng)站順序為:網(wǎng)站A、網(wǎng)站B、網(wǎng)站C、網(wǎng)站D、網(wǎng)站E,那么首先從網(wǎng)站A中抽取排行榜數(shù)據(jù)中第一名的信息,然后依次從網(wǎng)站B、網(wǎng)站C、網(wǎng)站D、網(wǎng)站E中抽取各排行榜數(shù)據(jù)中第一名的信息,再從網(wǎng)站A中抽取排行榜數(shù)據(jù)中第二名的信息,然后依次從網(wǎng)站B、網(wǎng)站C、網(wǎng)站D、網(wǎng)站E中抽取各排行榜數(shù)據(jù)中第二名的信息,依次類推,直到抽取到預定信息條數(shù)的信息,組成聚合排行榜。
[0031]作為本發(fā)明更優(yōu)選的實施例,如圖2所示,所述步驟S104具體包括:
S201、預先設置聚合信息庫中的信息數(shù)量T ;
以排行榜為例,此信息數(shù)量T可以根據(jù)各網(wǎng)站源的排行榜的信息條數(shù)來確定,例如一般來說,各視頻網(wǎng)站排行榜的信息條數(shù)為1(Γ50條,則可設置聚合排行榜中的信息數(shù)量為20。
[0032]S202、計算需從每個網(wǎng)站的信息庫中抽取的平均信息數(shù)量X,Χ=Τ/Ν, N為網(wǎng)站的個數(shù);
其中的X向上取整,例如信息數(shù)量τ=20,Ν=5,那么Χ=20/5=4,若Τ=20,Ν=6,那么Χ=4。
[0033]S203、判斷是否有網(wǎng)站信息庫數(shù)據(jù)中包含的信息數(shù)量小于X,當是時,轉(zhuǎn)入步驟S204,當否時,轉(zhuǎn)入步驟S205 ;
此處是判斷經(jīng)過去重的各網(wǎng)站排行榜數(shù)據(jù)中包含的信息數(shù)量是否足夠,例如某一網(wǎng)站C經(jīng)過去重處理之后,所包含的信息數(shù)量為3條,而Χ=4,那么則轉(zhuǎn)入到步驟S204中進行處理,若每個網(wǎng)站排行榜數(shù)據(jù)都滿足要求則可以轉(zhuǎn)入步驟S205中進行處理。
[0034]S204、按照網(wǎng)站排序逐條從各網(wǎng)站的信息庫數(shù)據(jù)中抽取排列在前的信息,并將輪空的信息庫剔除,然后繼續(xù)按照網(wǎng)站排序逐條從各網(wǎng)站抽取排列在前的信息,直至抽取到T條信息;
先逐條抽取排列在前的信息,當某個網(wǎng)站的排行榜數(shù)據(jù)被抽空,這是由于對應的信息庫數(shù)據(jù)中包含的信息數(shù)量小于X,即存在排行榜數(shù)據(jù)中信息條數(shù)不夠的情況,那么將輪空的排行榜剔除,然后繼續(xù)按照網(wǎng)站排序逐條從其他各網(wǎng)站抽取排列在前的信息,若另一個網(wǎng)站的排行榜數(shù)據(jù)也被抽空,則將新輪空的排行榜剔除,如此循環(huán)反復,直到抽取到T條信肩、O
[0035]舉例說明,權(quán)重值大小為:網(wǎng)站A>網(wǎng)站B〉網(wǎng)站C〉網(wǎng)站D>網(wǎng)站E,網(wǎng)站A包含Al、A2、A3、A4、A5、A6、A7,網(wǎng)站 B 包含 B1、B2、B3,網(wǎng)站 C 包含 Cl、C2、C3、C4、C5、C6、C7、C8,網(wǎng)站D包含Dl、D2、D3、D4,網(wǎng)站E包含El、E2、E3、E4、E5、E6,那么首先按照網(wǎng)站排序依次抽取各網(wǎng)站排列在前的信息,即Al、B1、Cl、DU E1,然后再循環(huán)抽取各網(wǎng)站排列在前的信息,即A2、B2、C2、D2、E2,然后再循環(huán)抽取各網(wǎng)站排列在前的信息,即A3、B3、C3、D3、E3,此時網(wǎng)站B的數(shù)據(jù)已抽空,可將該網(wǎng)站的信息庫剔除,當再次抽取時,則依次抽取A4、C4、D4、E4,這樣,網(wǎng)站D的數(shù)據(jù)也抽空,則將該網(wǎng)站的信息庫剔除,當再次抽取時,依次抽取A5、C5、E5,這樣循環(huán)反復,直至抽取到T條信息即可。
[0036]S205、按照網(wǎng)站排序逐條從各網(wǎng)站的信息庫數(shù)據(jù)中抽取排列在前的信息,直至抽取到T條信息;
此步驟是直接按照網(wǎng)站排序逐條從各網(wǎng)站的排行榜數(shù)據(jù)中抽取排列在前的信息,因為所有的網(wǎng)站的排行榜數(shù)據(jù)都至少包含X條信息,所以可以滿足逐個網(wǎng)站抽取信息的目的,而不存在在步驟S204中某個網(wǎng)站的信息被抽空的情況。
[0037]具體在抽取時,可以按照網(wǎng)站排序從各網(wǎng)站排行榜數(shù)據(jù)抽取第一名的信息,然后將各排行榜數(shù)據(jù)中第一名的信息去除,并由各自的第二名補上,然后繼續(xù)抽取依次抽取各網(wǎng)站排行榜數(shù)據(jù)的第一名的信息,依次類推,重復以上的操作,直到滿足抽取到T條信息即可。
[0038]S206、按照抽取的順序?qū)條信息進行排序,形成聚合信息庫。
[0039]對于抽取到的信息,可以按照抽取的順序進