一種視頻內(nèi)容及內(nèi)容源爬取方法
【專利摘要】本發(fā)明公開了一種視頻內(nèi)容及內(nèi)容源爬取方法,該方法的基本原理為:首先給每類視頻內(nèi)容設(shè)定初始爬取周期,定時從內(nèi)容源爬取內(nèi)容并緩存,然后根據(jù)內(nèi)容熱度和內(nèi)容更新率動態(tài)調(diào)整其爬取周期,當(dāng)內(nèi)容的熱度增高或更新率增高時,將縮短其爬取周期;相反,當(dāng)熱度降低或更新率降低時,將增大其爬取周期;所述的“每類視頻內(nèi)容”的分類依據(jù)為內(nèi)容元數(shù)據(jù),包括但不限于:內(nèi)容主題、內(nèi)容名稱、內(nèi)容標(biāo)簽等。通過實施本發(fā)明,提高了內(nèi)容爬取流量的有效性,并提高了內(nèi)容請求的命中率。本發(fā)明的技術(shù)方案從多個內(nèi)容源(如互聯(lián)網(wǎng)視頻網(wǎng)站)有效地爬取內(nèi)容,緩存在本地,并為本地用戶提供視頻服務(wù),在不提高爬取流量的情況下,提高內(nèi)容的請求命中率。
【專利說明】一種視頻內(nèi)容及內(nèi)容源爬取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及到互聯(lián)網(wǎng)內(nèi)容爬取或緩存替換方法,具體涉及一種視頻內(nèi)容及內(nèi)容源爬取方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)中多媒體服務(wù)業(yè)務(wù)的日益增長,多媒體內(nèi)容從中心內(nèi)容管理系統(tǒng)到邊緣內(nèi)容交付系統(tǒng)的合理、高效、快速部署成為當(dāng)前內(nèi)容運營的一大挑戰(zhàn)。
[0003]為了提高多媒體內(nèi)容快速發(fā)布及響應(yīng),現(xiàn)有的方法是采用CDN或P2P技術(shù)。CDN將內(nèi)容部署到靠近用戶的服務(wù)節(jié)點,在用戶請求內(nèi)容時,使用緩存及重定向等技術(shù)為用戶提供高效服務(wù)。P2P是將客戶端已經(jīng)存在的內(nèi)容能向其他客戶端提供服務(wù)。但這兩種技術(shù)都受限于節(jié)點數(shù)或用戶數(shù)的數(shù)量,在少量節(jié)點數(shù)或用戶數(shù)情況下,兩種技術(shù)基本起不到加速作用。
[0004]而中國第CN200810104585號專利公開了一種用于互聯(lián)網(wǎng)絡(luò)上的數(shù)字媒體內(nèi)容進(jìn)行發(fā)布的方法,雖該方法提供了可靠且高效的內(nèi)容發(fā)布方法,其重點解決可靠性,公開的內(nèi)容發(fā)布方法并沒有考慮用戶端的請求,與本專利公開的方法完全不同。中國第CN200810048703號專利公開了一種媒體發(fā)布網(wǎng)絡(luò)中的發(fā)布內(nèi)容控制方法,該方法重點解決發(fā)布過程中的數(shù)字知識產(chǎn)權(quán)的保護(hù)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要的目的在于,為克服上述問題本發(fā)明提供了 一種視頻內(nèi)容及內(nèi)容源爬取方法。
[0006]為實現(xiàn)上述目的,本發(fā)明提供了一種視頻內(nèi)容爬取方法,所述方法包含:
[0007]步驟101)為每類視頻內(nèi)容設(shè)定初始爬取周期,按設(shè)定的爬取周期從內(nèi)容源爬取內(nèi)容并緩存;
[0008]步驟102)根據(jù)每類視頻內(nèi)容的內(nèi)容熱度和內(nèi)容源的內(nèi)容更新率動態(tài)調(diào)整其爬取周期,并依據(jù)更新后的爬取周期對內(nèi)容源進(jìn)行內(nèi)容爬取和緩存;
[0009]其中,所述動態(tài)調(diào)整爬取周期的原則為:當(dāng)某類視頻內(nèi)容的本地?zé)岫仍龈呋騼?nèi)容源更新率增高時,就縮短該類視頻內(nèi)容的爬取周期;而當(dāng)某類視頻內(nèi)容的本地?zé)岫冉档突騼?nèi)容源更新率降低時,則增大該類視頻內(nèi)容的爬取周期。
[0010]上述步驟101)之前還包含如下步驟:
[0011]并行從各個內(nèi)容源上爬取元信息,基于元信息并根據(jù)視頻的內(nèi)容主題、內(nèi)容名稱或內(nèi)容標(biāo)簽將視頻內(nèi)容對視頻進(jìn)行分類。
[0012]上述步驟102)進(jìn)一步包含如下子步驟:
[0013]步驟102-1)在當(dāng)前設(shè)定的爬取周期內(nèi),統(tǒng)計所有類視頻內(nèi)容的本地訪問請求次數(shù),當(dāng)在某段設(shè)定時間內(nèi)某類視頻內(nèi)容的訪問請求次數(shù)高于第一設(shè)定閾值時,縮短該類視頻內(nèi)容當(dāng)前設(shè)定的爬取周期;當(dāng)在某段設(shè)定時間段內(nèi)對某類視頻內(nèi)容的訪問請求次數(shù)小于第二設(shè)定閾值時,增大為該類視頻內(nèi)容設(shè)定的爬取周期;
[0014]步驟102-2)在一定的周期內(nèi),統(tǒng)計所有類視頻內(nèi)容的內(nèi)容源更新率,當(dāng)更新率高于第三設(shè)定閾值時,縮短爬取周期;當(dāng)更新率低于第四設(shè)定閾值時,增大爬取周期。
[0015]上述縮短或增大的爬取周期的增量值A(chǔ)T為:
[0016]Δ T = - α Δ Accessed-β Δ Updated+ Y
[0017]其中,AAccessed表示統(tǒng)計得到的上個爬取周期內(nèi)此類內(nèi)容訪問率,AUpdated表示統(tǒng)計得到的上個周期內(nèi)容源更新率,α、β和Y為調(diào)整倍率因子。
[0018]上述述調(diào)整倍率因子的取值結(jié)合實際的業(yè)務(wù)確定。
[0019]基于調(diào)整更新周期的策略,本發(fā)明還提供了一種并行內(nèi)容源爬取方法,所述方法包含:
[0020]步驟201)設(shè)定各內(nèi)容源的初始爬取周期;
[0021]步驟202)按初始設(shè)定周期進(jìn)行內(nèi)容源的元數(shù)據(jù)爬??;
[0022]步驟203 )計算內(nèi)容源的內(nèi)容更新率;
[0023]步驟204)依據(jù)更新率調(diào)整設(shè)定的爬取周期,S卩:當(dāng)內(nèi)容源更新率增高時,縮短其爬取周期;當(dāng)內(nèi)容源更新率降低時,增大其爬取周期。
[0024]上述更新率的獲取方式為:將新爬取的元數(shù)據(jù)與本地已緩存的元數(shù)據(jù)進(jìn)行比較,得出周期內(nèi)容源的內(nèi)容更新數(shù),對周期進(jìn)行歸一,得出更新率。
[0025]本發(fā)明的有益效果在于:
[0026]1.根據(jù)內(nèi)容被用戶點播的熱度以及內(nèi)容源端更新速度動態(tài)調(diào)整節(jié)目的更新周期,合理保證緩存節(jié)點內(nèi)容與內(nèi)容源的內(nèi)容一致性,提高本地內(nèi)容的請求命中率;
[0027]2.減少不必要的爬取流量,提高了內(nèi)容爬取流量的有效性,即本發(fā)明在不提高爬取流量的情況下,提高內(nèi)容的請求命中率。
[0028]總之,本發(fā)明的技術(shù)方案從多個內(nèi)容源(如互聯(lián)網(wǎng)視頻網(wǎng)站)有效地爬取內(nèi)容,緩存在本地,并為本地用戶提供視頻服務(wù),在不提高爬取流量的情況下,提高內(nèi)容的請求命中率。
【專利附圖】
【附圖說明】
[0029]下面結(jié)合附圖對本發(fā)明做進(jìn)一步詳細(xì)的說明。
[0030]圖1是本發(fā)明提供的多個內(nèi)容源的視頻內(nèi)容按類爬取方法工作示意圖;
[0031]圖2是本發(fā)明提供的按內(nèi)容源爬取方法工作流程圖;
[0032]圖3是本發(fā)明提供的按內(nèi)容分類爬取方法工作流程圖。
【具體實施方式】
[0033]下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步的描述。
[0034]本發(fā)明提出一種視頻內(nèi)容爬取方法,其基本原理為:首先給每類視頻內(nèi)容設(shè)定初始爬取周期,定時從內(nèi)容源爬取內(nèi)容并緩存,然后根據(jù)內(nèi)容熱度和內(nèi)容更新率動態(tài)調(diào)整爬取周期,當(dāng)熱度增高或更新率增高時,將縮短爬取周期;相反,當(dāng)熱度降低或更新率降低時,將增大爬取周期。所述的“每類視頻內(nèi)容”的分類依據(jù)為內(nèi)容元數(shù)據(jù),包括但不限于:內(nèi)容主題、內(nèi)容名稱、內(nèi)容標(biāo)簽等;且,元數(shù)據(jù)從內(nèi)容源爬取并緩存。[0035]基于上述基本原理本發(fā)明的技術(shù)方案描述為:
[0036]I)給每類視頻內(nèi)容預(yù)設(shè)定初始爬取周期,按爬取周期從內(nèi)容源爬取內(nèi)容并緩存;
[0037]2)在一定的周期內(nèi),統(tǒng)計所有類的本地訪問請求次數(shù),請求次數(shù)較高的,將縮短爬取周期,請求次數(shù)較低的,將增大爬取周期;
[0038]3)在一定的周期內(nèi),統(tǒng)計所有類的內(nèi)容源更新率,更新率較高的,將縮短爬取周期,更新率較低的,將增大爬取周期。
[0039]圖1所示一種視頻內(nèi)容爬取方法工作示意圖,在示意圖中:
[0040]1)給每個內(nèi)容源獨立設(shè)定初始爬取周期1'_5此丨,?=1,2...η,η為內(nèi)容源數(shù)目;
[0041]2)給每類內(nèi)容獨立設(shè)定初始爬取周期T_TYPEi,k,1=1,2吣11,η為內(nèi)容源數(shù)目;讓=1,2夂111,m為內(nèi)容分類數(shù)目。
[0042]其中,本地緩存節(jié)點首先要查詢內(nèi)容源上的內(nèi)容是否有更新,有更新則將新的內(nèi)容緩存到本地
[0043]圖2是按內(nèi)容源爬取方法工作流程圖,工作流程:
[0044]201)初始化,進(jìn)入 202);
[0045]202)給每個內(nèi)容源預(yù)設(shè)定初始爬取周期,進(jìn)入203);
[0046]203)根據(jù)爬取周期定時從每個內(nèi)容源爬取內(nèi)容,進(jìn)入204);當(dāng)爬取的內(nèi)容有新內(nèi)容類型(如新的主題)時,開啟按內(nèi)容類型爬取流程,見圖3描述;
[0047]204)新爬取的元數(shù)據(jù)與本地已緩存的元數(shù)據(jù)進(jìn)行比較,得出周期內(nèi)容源的內(nèi)容更新數(shù),對周期進(jìn)行歸一,得出更新率,進(jìn)入205);
[0048]205)根據(jù)更新率,重新設(shè)置每個內(nèi)容源的爬取周期,具體為:更新率較高的,將縮短爬取周期,更新率較低的,將增大爬取周期,進(jìn)入203 )。
[0049]圖3是按內(nèi)容分類爬取方法工作流程圖,工作流程:
[0050]301)給此類內(nèi)容,預(yù)設(shè)定爬取周期,進(jìn)入303);
[0051]302)根據(jù)爬取周期從每個內(nèi)容源爬取此類內(nèi)容,進(jìn)入303);
[0052]303)新爬取的元數(shù)據(jù)與本地已緩存的元數(shù)據(jù)進(jìn)行比較,得出周期內(nèi)每個內(nèi)容源的此類內(nèi)容元數(shù)據(jù)更新數(shù),對周期進(jìn)行歸一,得出更新率,并統(tǒng)計周期內(nèi)本地內(nèi)容被訪問的次數(shù),對周期進(jìn)行歸一,得出此類內(nèi)容在本地?zé)岫?,進(jìn)入304 );
[0053]304)根據(jù)更新率和熱度,重新設(shè)置此類內(nèi)容的爬取周期,進(jìn)入302)。
[0054]假設(shè)存在多個要爬取的視頻內(nèi)容源:內(nèi)容源1、2、3...,然后分別要去各個內(nèi)容源上爬取內(nèi)容源上的元信息,基于元信息對視頻進(jìn)行分類,啟動按類爬取任務(wù)。對各個內(nèi)容源的爬取是并行方式進(jìn)行的,另外按源爬取和按類爬取任務(wù)是獨立的。按源爬取的任務(wù)是要爬取內(nèi)容源上的內(nèi)容元信息并將視頻分類,按類爬取根據(jù)視頻的分類進(jìn)行相應(yīng)類型視頻的爬取。
[0055]下面給出一類內(nèi)容從一個內(nèi)容源爬取周期的調(diào)整方法的具體實施,本實施完全不需要改變用于多類內(nèi)容從多個內(nèi)容源爬取周期的調(diào)整。
[0056]I)算法定義如下:
[0057]TO:初始設(shè)置的爬取周期,也可以為缺省周期;
[0058]Tmin:爬取周期最小值;
[0059]Tmax:爬取周期最大值;[0060]Tpre:上次爬取周期;
[0061]Tnext:下次爬取周期;
[0062]Δ T:調(diào)整時長(或稱為增量值),小于O表式縮短爬取周期,大于O表式增大爬取周期。
[0063]其中,Tnext= Tpre + Δ T, Tmin<Tpre+ Δ T<Tmax ;Tmin 和 Tmax 的參考取值為:對于一類內(nèi)容,可取參考值Tmin=20min,Tmax=7day=7*24*60min,具體取值應(yīng)參照實際業(yè)務(wù)的需要以及內(nèi)容類別。
[0064]上述Tmin以及Tmax分別表示爬取周期的下限和上限,為爬取周期設(shè)置下限是防止內(nèi)容過熱或內(nèi)容源更新過快時造成系統(tǒng)爬取任務(wù)的頻繁執(zhí)行,給系統(tǒng)帶來巨大的負(fù)載;設(shè)置上限可以有效管理內(nèi)容的生命周期,當(dāng)內(nèi)容不再熱門同時內(nèi)容源更新不多的情況下,可對該類內(nèi)容實行下線操作。
[0065]上述內(nèi)容結(jié)合公式進(jìn)一步解釋為:
[0066]當(dāng)前時刻的爬取周期Tnext很小且小于Tmin時(即,Tpre+ Δ T〈Tmin),可認(rèn)為內(nèi)容過熱或內(nèi)容源更新過快,則維持爬取周期為Tmin不變,繼續(xù)按Tmin的間隔進(jìn)行內(nèi)容爬取,避免造成系統(tǒng)過載,以保證服務(wù)系統(tǒng)的健壯性和可靠性;當(dāng)前時刻的爬取周期Tnext的值很大且超過Tmax時(即,Tpre+Δ T>Tmax),可認(rèn)為該類內(nèi)容已過期或失效,即可對該類內(nèi)容實行下線操作。
[0067]AAccessed:上個爬取周期內(nèi)此類內(nèi)容訪問率;
[0068]AUpdated:上個周期內(nèi)容源更新率;
[0069]定義:AT=-α Δ Accessed-β Λ Updated+Y,其中 α,β 和 Y 為調(diào)整倍率因子。
[0070]以下給出一種α,β和Y的建議性取值方法:
[0071]1.可取
【權(quán)利要求】
1.一種視頻內(nèi)容爬取方法,所述方法包含: 步驟101)為每類視頻內(nèi)容設(shè)定初始爬取周期,按設(shè)定的爬取周期從內(nèi)容源爬取內(nèi)容并緩存; 步驟102)根據(jù)每類視頻內(nèi)容的內(nèi)容熱度和內(nèi)容源的內(nèi)容更新率動態(tài)調(diào)整其爬取周期,并依據(jù)更新后的爬取周期對內(nèi)容源進(jìn)行內(nèi)容爬取和緩存; 其中,所述動態(tài)調(diào)整爬取周期的原則為:當(dāng)某類視頻內(nèi)容的本地?zé)岫仍龈呋騼?nèi)容源更新率增高時,就縮短該類視頻內(nèi)容的爬取周期;而當(dāng)某類視頻內(nèi)容的本地?zé)岫冉档突騼?nèi)容源更新率降低時,則增大該類視頻內(nèi)容的爬取周期。
2.根據(jù)權(quán)利要求1所述的視頻內(nèi)容爬取方法,其特征在于,所述步驟101)之前還包含如下步驟: 并行從各個內(nèi)容源上爬取元信息,基于元信息并根據(jù)視頻的內(nèi)容主題、內(nèi)容名稱或內(nèi)容標(biāo)簽將視頻內(nèi)容對視頻進(jìn)行分類。
3.根據(jù)權(quán)利要求1所述的視頻內(nèi)容爬取方法,其特征在于,所述步驟102)進(jìn)一步包含如下子步驟: 步驟102-1)在當(dāng)前設(shè)定的爬取周期內(nèi),統(tǒng)計所有類視頻內(nèi)容的本地訪問請求次數(shù),當(dāng)在某段設(shè)定時間內(nèi)某類視頻內(nèi)容的訪問請求次數(shù)高于第一設(shè)定閾值時,縮短該類視頻內(nèi)容當(dāng)前設(shè)定的爬取周期;當(dāng)在某段設(shè)定時間段內(nèi)對某類視頻內(nèi)容的訪問請求次數(shù)小于第二設(shè)定閾值時,增大為該類視 頻內(nèi)容設(shè)定的爬取周期; 步驟102-2)在一定的周期內(nèi),統(tǒng)計所有類視頻內(nèi)容的內(nèi)容源更新率,當(dāng)更新率高于第三設(shè)定閾值時,縮短爬取周期;當(dāng)更新率低于第四設(shè)定閾值時,增大爬取周期。
4.根據(jù)權(quán)利要求1或3所述的視頻內(nèi)容爬取方法,其特征在于,縮短或增大的爬取周期的增量值A(chǔ)T為:
Δ T = - α Δ Accessed- β Δ Updated+ Y 其中,AAccessed表示統(tǒng)計得到的上個爬取周期內(nèi)此類內(nèi)容訪問率,AUpdated表示統(tǒng)計得到的上個周期內(nèi)容源更新率,α、β和Y為調(diào)整倍率因子。
5.根據(jù)權(quán)利要求4所述的視頻內(nèi)容爬取方法,其特征在于,所述調(diào)整倍率因子的取值結(jié)合實際的業(yè)務(wù)確定。
6.一種并行內(nèi)容源爬取方法,所述方法包含: 步驟201)設(shè)定各內(nèi)容源的初始爬取周期; 步驟202)按初始設(shè)定周期進(jìn)行內(nèi)容源的元數(shù)據(jù)爬取; 步驟203)計算內(nèi)容源的內(nèi)容更新率; 步驟204)依據(jù)更新率調(diào)整設(shè)定的爬取周期,即:當(dāng)內(nèi)容源更新率增高時,縮短其爬取周期;當(dāng)內(nèi)容源更新率降低時,增大其爬取周期。
7.根據(jù)權(quán)利要求6所述的內(nèi)容源數(shù)據(jù)爬取方法,其特征在于,所述更新率的獲取方式為:將新爬取的元數(shù)據(jù)與本地已緩存的元數(shù)據(jù)進(jìn)行比較,得出周期內(nèi)容源的內(nèi)容更新數(shù),對周期進(jìn)行歸一,得出更新率。
【文檔編號】H04N21/432GK103945278SQ201310022725
【公開日】2014年7月23日 申請日期:2013年1月21日 優(yōu)先權(quán)日:2013年1月21日
【發(fā)明者】徐開誠, 脫立恒, 劉學(xué), 靳巾, 江佳偉 申請人:中國科學(xué)院聲學(xué)研究所, 上海尚恩華科網(wǎng)絡(luò)科技股份有限公司