一種視頻url抓取方法、裝置及服務(wù)器設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種視頻URL抓取方法、裝置及服務(wù)器設(shè)備。所述方法包括:接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL;將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
【專利說明】—種視頻URL抓取方法、裝置及服務(wù)器設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)頁分析【技術(shù)領(lǐng)域】,尤其涉及一種視頻URL抓取方法、裝置及服務(wù)器設(shè)備。
【背景技術(shù)】
[0002]當(dāng)用戶需要下載的內(nèi)容比較冷門或下載速度較慢時,可以采用離線下載的方式下載視頻。離線下載其實就是下載工具的服務(wù)器代替電腦用戶先行下載。比如,電腦用戶的正常下載最大速度能達(dá)到200KB/S,但是某個資源是冷門資源,下載速度只能達(dá)到10KB/S,電腦用戶就得下很久,如果用戶使用離線下載技術(shù),就可以讓服務(wù)商的服務(wù)器代替電腦用戶下載,電腦用戶就可以關(guān)掉下載工具或者機器,節(jié)約時間和電費。等到離線下載完畢,電腦用戶再從下載工具的服務(wù)器上以200KB/S的速度下載到自己的電腦上。即使對于熱門資源,離線下載也能省卻許多掛機等待的時間,最重要的是能夠騰出電腦帶寬做其他的事情。
[0003]現(xiàn)有對于視頻資源的離線下載,都是基于對自身網(wǎng)站的資源調(diào)用,即其知道相關(guān)視頻的視頻統(tǒng)一資源定位符(Uniform Resource Locator, URL)。但是,當(dāng)視頻URL地址未知的情況下,就不能自動抓取視頻資源。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種視頻URL抓取方法、裝置及服務(wù)器設(shè)備,用于實現(xiàn)服務(wù)器設(shè)備對網(wǎng)頁上視頻URL的自動抓取。
[0005]一種視頻URL抓取方法,包括:
[0006]接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0007]根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;
[0008]將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
[0009]本實施例中,當(dāng)用戶通過終端訪問視頻網(wǎng)站時,服務(wù)器設(shè)備接收包含該視頻網(wǎng)站的網(wǎng)頁URL的視頻URL抓取請求,將自動從該視頻網(wǎng)站的網(wǎng)頁上抓取視頻URL。這樣,不需要每個終端都進(jìn)行視頻URL的抓取,當(dāng)用戶需要進(jìn)行視頻下載時,服務(wù)器設(shè)備將抓取到的視頻URL反饋給終端設(shè)備。不僅降低了視頻URL抓取的時間,還節(jié)約了終端設(shè)備的CPU資源及網(wǎng)絡(luò)資源。終端設(shè)備通過獲取到視頻URL,便于用戶對視頻資源的批量下載,提高下載效率。另外,通過對提取到的視頻標(biāo)簽的類型進(jìn)行識別,來抓取視頻URL,使得在視頻URL未知的情況下,可以從網(wǎng)頁上準(zhǔn)確地抓取可用視頻URL。
[0010]優(yōu)選地,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽包括:
[0011]掃描所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點;
[0012]從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;
[0013]將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為所述視頻標(biāo)簽。
[0014]本實施例中,通過視頻標(biāo)簽的文字特性對視頻標(biāo)簽進(jìn)行提取,可以快速準(zhǔn)確地提取到網(wǎng)頁URL對應(yīng)的網(wǎng)頁中的視頻標(biāo)簽。
[0015]優(yōu)選地,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之后還包括:
[0016]從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題;
[0017]分析所述視頻標(biāo)簽是否包含前導(dǎo)符,所述前導(dǎo)符為所述視頻標(biāo)簽中除所述預(yù)設(shè)特征文字外的文字;
[0018]當(dāng)所述視頻標(biāo)簽包含前導(dǎo)符,分析所述前導(dǎo)符中是否包含有提取到的所述視頻標(biāo)題;
[0019]當(dāng)所述視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的所述視頻標(biāo)題時,判定所述視頻標(biāo)簽無效,不作處理。
[0020]本方案中,通過對視頻標(biāo)簽前導(dǎo)符的驗證,實現(xiàn)對視頻標(biāo)簽的準(zhǔn)確提取,過濾掉無效的視頻標(biāo)簽。
[0021]優(yōu)選地,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之后還包括:
[0022]檢測所述視頻標(biāo)簽是否為超鏈接或所述視頻標(biāo)簽是否包含onclick事件;
[0023]當(dāng)所述視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定所述視頻標(biāo)簽無效,不作處理。
[0024]本方案中,進(jìn)一步提聞視頻標(biāo)簽提取的準(zhǔn)確性,過濾掉無效的視頻標(biāo)簽。
[0025]優(yōu)選地,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之前還包括:
[0026]解析所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽;
[0027]當(dāng)所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
[0028]本方案中,提高視頻標(biāo)簽提取的效率,避免對不包含視頻元素的網(wǎng)頁進(jìn)行視頻標(biāo)簽提取,而造成對處理資源的浪費。
[0029]優(yōu)選地,所述視頻URL抓取方法,還包括:
[0030]在所述接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL ;
[0031]若沒有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給所述終端設(shè)備;
[0032]若有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
[0033]本實施例中,通過檢查該網(wǎng)頁是否已進(jìn)行過視頻URL的抓取,來確定是否執(zhí)行視頻URL抓取的操作。如果已進(jìn)行過視頻URL的抓取,直接使用已有的抓取結(jié)果即可,只有當(dāng)未對該網(wǎng)頁進(jìn)行過視頻URL抓取時,才執(zhí)行抓取操作。這樣,提高了服務(wù)器設(shè)備視頻URL抓取的效率,節(jié)約了服務(wù)器設(shè)備的CPU資源及網(wǎng)絡(luò)資源。
[0034]優(yōu)選地,所述視頻URL抓取方法,還包括:
[0035]若存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,判斷最近一次從所述網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值;[0036]若超過所述預(yù)設(shè)的時間閾值,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給所述終端設(shè)備;
[0037]若未超過所述預(yù)設(shè)的時間閾值,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
[0038]優(yōu)選地,所述視頻URL抓取方法,還包括:根據(jù)所述網(wǎng)頁URL定時從所述網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
[0039]本實施例中,通過以上兩種方式對抓取到的視頻URL進(jìn)行更新,為用戶提供最新的視頻URL,提高視頻URL抓取的及時性準(zhǔn)確性。
[0040]優(yōu)選地,所述方法還包括:
[0041 ] 根據(jù)所述第一視頻URL下載視頻;
[0042]在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成所述視頻的第二視頻URL ;
[0043]將所述第二視頻URL與所述第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存儲。
[0044]本實施例中,服務(wù)器設(shè)備抓取到第一視頻URL后,將視頻下載到服務(wù)器設(shè)備上,并為該視頻重新生成一個URL,即服務(wù)器設(shè)備的URL,作為該視頻的第二視頻URL,用該第二視頻URL替換掉抓取到的第一視頻URL。終端設(shè)備根據(jù)該第二視頻URL進(jìn)行視頻資源的下載,避免由于網(wǎng)頁上的第一視頻URL過期造成的無法下載的情況,保證提供給用戶的視頻URL的可用性,提高視頻下載速度。
[0045]優(yōu)選地,所述根據(jù)所述第一視頻URL下載視頻,包括:
[0046]計算所下載視頻的數(shù)字證書;
[0047]將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0048]當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;
[0049]當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0050]本實施例中,通過對已下載視頻數(shù)字證書的分析比較來去除重復(fù)視頻,節(jié)約了服務(wù)器設(shè)備的存儲資源。
[0051]優(yōu)選地,所述根據(jù)所述第一視頻URL下載視頻,包括:
[0052]獲取所述第一視頻URL所對應(yīng)視頻的數(shù)字證書;
[0053]將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0054]當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載所述第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成所述第二視頻URL ;
[0055]當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0056]本實施例中,通過對未下載視頻數(shù)字證書的分析比較來避免重復(fù)下載相同視頻,不僅節(jié)約了服務(wù)器設(shè)備的存儲資源,還節(jié)約了服務(wù)器的CPU資源及網(wǎng)絡(luò)資源。
[0057]優(yōu)選地,所述數(shù)字證書包括根據(jù)所述視頻計算的Hash碼。
[0058]本實施例中,通過比較數(shù)字證書,可以準(zhǔn)確地判斷視頻是否相同,去除重復(fù)視頻。[0059]一種視頻URL抓取裝置,包括:
[0060]接收模塊,用于接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0061]抓取模塊,用于根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取弟一視頻URL ;
[0062]存儲模塊,用于將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
[0063]優(yōu)選地,所述抓取模塊包括:
[0064]標(biāo)簽提取子模塊,用于掃描所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點;從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為所述視頻標(biāo)簽。
[0065]優(yōu)選地,所述抓取模塊還包括:標(biāo)題提取子模快、第一分析子模塊和第二分析子模塊,
[0066]所述標(biāo)題提取子??欤糜趶乃鼍W(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題;
[0067]所述第一分析子模塊,用于分析所述視頻標(biāo)簽是否包含前導(dǎo)符,所述前導(dǎo)符為所述視頻標(biāo)簽中除所述預(yù)設(shè)特征文字外的文字;
[0068]所述第二分析子模塊,用于當(dāng)所述視頻標(biāo)簽包含前導(dǎo)符,分析所述前導(dǎo)符中是否包含有提取到的所述視頻標(biāo)題;
[0069]所述標(biāo)簽提取子模塊,用于當(dāng)所述視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的所述視頻標(biāo)題時,判定所述視頻標(biāo)簽無效,不作處理。
[0070]優(yōu)選地,所述抓取模塊還包括:
[0071]檢測子模塊,用于檢測所述視頻標(biāo)簽是否為超鏈接或所述視頻標(biāo)簽是否包含onclick 事件;
[0072]所述標(biāo)簽提取子模塊,用于當(dāng)所述視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定所述視頻標(biāo)簽無效,不作處理。
[0073]優(yōu)選地,所述抓取模塊還包括:
[0074]解析子模塊,用于解析所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽;
[0075]所述標(biāo)簽提取模塊,用于當(dāng)所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
[0076]優(yōu)選地,所述裝置還包括:檢查模塊,
[0077]所述檢查模塊,用于在所述接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL ;所述抓取模塊,用于若沒有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給所述終端設(shè)備;若有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
[0078]優(yōu)選地,所述裝置還包括:判斷模塊,
[0079]所述判斷模塊,用于若存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,判斷最近一次從所述網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值;[0080]所述抓取模塊,用于若超過所述預(yù)設(shè)的時間閾值,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給所述終端設(shè)備;若未超過所述預(yù)設(shè)的時間閾值,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
[0081]優(yōu)選地,所述抓取模塊,用于根據(jù)所述網(wǎng)頁URL定時從所述網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
[0082]優(yōu)選地,所述裝置還包括:下載模塊和URL生成模塊,
[0083]所述下載模塊,用于根據(jù)所述第一視頻URL下載視頻;
[0084]所述URL生成模塊,用于在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成所述視頻的第二視頻URL ;
[0085]所述存儲模塊,用于將所述第二視頻URL與所述第一視頻URL所對應(yīng)的網(wǎng)頁URL
對應(yīng)存。
[0086]優(yōu)選地,所述裝置還包括:計算模塊和比較模塊,
[0087]所述計算模塊,用于計算所下載視頻的數(shù)字證書;
[0088]所述比較模塊,用于將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0089]所述下載模塊,用于當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0090]優(yōu)選地,所述裝置還包括:獲取模塊和比較模塊,
[0091]所述獲取模塊,用于獲取所述第一視頻URL所對應(yīng)視頻的數(shù)字證書;
[0092]所述比較模塊,用于將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0093]所述下載模塊,用于當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載所述第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成所述第二視頻URL;當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0094]一種服務(wù)器設(shè)備,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
[0095]接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0096]根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;
[0097]將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
[0098]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
[0099]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
【專利附圖】
【附圖說明】[0100]附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0101]圖1為本發(fā)明實施例中視頻URL抓取方法的流程示意圖;
[0102]圖2為本發(fā)明實施例中從提取視頻標(biāo)簽的流程示意圖;
[0103]圖3為本發(fā)明實施例中對視頻標(biāo)簽前導(dǎo)符的驗證的流程示意圖;
[0104]圖4為本發(fā)明實施例中根據(jù)視頻標(biāo)簽的類型提取第一視頻URL的流程示意圖;
[0105]圖5為本發(fā)明實施例中根據(jù)HTML頁面URL獲取第一視頻URL的流程示意圖;
[0106]圖6為本發(fā)明實施例中對抓取到的視頻URL進(jìn)行更新的流程示意圖;
[0107]圖7為本發(fā)明實施例中視頻URL抓取裝置的結(jié)構(gòu)示意圖;
[0108]圖8為本發(fā)明實施例中抓取模塊的結(jié)構(gòu)示意圖;
[0109]圖9為本發(fā)明實施例中視頻URL抓取裝置的另一結(jié)構(gòu)示意圖;
[0110]圖10為本發(fā)明實施例中視頻URL抓取裝置的再一結(jié)構(gòu)示意圖;
[0111]圖11為本發(fā)明實施例中服務(wù)器設(shè)備的結(jié)構(gòu)示意圖。
【具體實施方式】
[0112]以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0113]本發(fā)明實施例用于在視頻URL未知的情況下,服務(wù)器設(shè)備從網(wǎng)頁上抓取可用的視頻URL,以實現(xiàn)對視頻資源的批量下載。對網(wǎng)頁上的視頻URL的抓取,可以在服務(wù)器設(shè)備上進(jìn)行,也可以在終端設(shè)備上進(jìn)行。但是,終端設(shè)備進(jìn)行視頻URL的抓取,會占用終端的CPU資源,且在終端設(shè)備正常情況下,抓取一個視頻URL平均需要I秒到5秒,花費的時間較多;另外,如果多個終端設(shè)備對同一視頻進(jìn)行下載,每個終端都要進(jìn)行視頻URL的提取,造成網(wǎng)絡(luò)資源的浪費。而在服務(wù)器設(shè)備上進(jìn)行視頻URL的抓取則能夠解決上述問題。
[0114]如圖1所示,本發(fā)明實施例提供了一種視頻URL抓取方法,包括以下步驟:
[0115]步驟102,接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0116]步驟104,根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;
[0117]步驟106,將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲。
[0118]本實施例中,當(dāng)用戶通過終端訪問視頻網(wǎng)站時,服務(wù)器設(shè)備接收包含該視頻網(wǎng)站的網(wǎng)頁URL的視頻URL抓取請求,將自動從該視頻網(wǎng)站的網(wǎng)頁上抓取視頻URL。這樣,不需要每個終端都進(jìn)行視頻URL的抓取,當(dāng)用戶需要進(jìn)行視頻下載時,服務(wù)器設(shè)備將抓取到的視頻URL反饋給終端設(shè)備。不僅降低了視頻URL抓取的時間,還節(jié)約了終端設(shè)備的CPU資源及網(wǎng)絡(luò)資源。終端設(shè)備通過獲取到視頻URL,便于用戶對視頻資源的批量下載,提高下載效率。另外,通過對提取到的視頻標(biāo)簽的類型進(jìn)行識別,來抓取視頻URL,使得在視頻URL未知的情況下,可以從網(wǎng)頁上準(zhǔn)確地抓取可用視頻URL。
[0119]由于視頻標(biāo)簽都擁有諸如:1、第2集、3集、十、第十八集、二十一集等模式的文字,因此本發(fā)明實施例中,將這些模式的文字作為預(yù)設(shè)特征文字,通過識別預(yù)設(shè)特征文字的方式提取視頻標(biāo)簽,如圖2所示,步驟102包括:
[0120]步驟202,掃描網(wǎng)頁URL對應(yīng)的網(wǎng)頁的文件對象模型(Document Object Model,簡稱DOM)樹,找到所有文字節(jié)點;
[0121]步驟204,從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;
[0122]步驟206,將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為視頻標(biāo)簽。
[0123]下面是兩個視頻標(biāo)簽的超文本標(biāo)記語言(Hypertext Markup Language, HTML)示例:
[0124]<a href=” example, html” >I</a>
[0125]〈span onclick=”return apply ();,,> 愛在春天第二集 </a>
[0126]在上述示例中,a元素和span元素是文字節(jié)點” I”和”愛在春天第二集”的父元素,因此,a元素和span元素被判定為視頻標(biāo)簽。
[0127]本實施例中,通過視頻標(biāo)簽的文字特性對視頻標(biāo)簽進(jìn)行提取,可以快速準(zhǔn)確地提取到網(wǎng)頁URL對應(yīng)的網(wǎng)頁中的視頻標(biāo)簽。
[0128]本發(fā)明實施例中,定義前導(dǎo)符為視頻標(biāo)簽中除預(yù)設(shè)特征文字外的文字。例如,“愛在春天第二集”這個視頻標(biāo)簽中,“第二集”為預(yù)設(shè)特征文字,“愛在春天”即為前導(dǎo)符。視頻標(biāo)簽中,要么沒有前導(dǎo)符,要么前導(dǎo)符應(yīng)當(dāng)與從網(wǎng)頁URL對應(yīng)的網(wǎng)頁中提取出來的標(biāo)題一致。例如:視頻標(biāo)題為“愛在春天”的頁面中,如果出現(xiàn)“愛情公寓2”,則判定該視頻標(biāo)簽無效,應(yīng)刪除。
[0129]通常從頁面標(biāo)題中就可以提取出視頻標(biāo)題。例如,優(yōu)庫網(wǎng)連續(xù)劇頁面的標(biāo)題大致如下:“愛在春天-優(yōu)庫視頻”,可以從中提取出視頻標(biāo)題“愛在春天”。
[0130]優(yōu)選地,如圖3所示,步驟102之后還包括:
[0131]步驟302,從網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題;
[0132]步驟304,分析視頻標(biāo)簽是否包含如導(dǎo)符;如果是,執(zhí)燈步驟306,如果否,執(zhí)燈步驟 308 ;
[0133]步驟306,分析前導(dǎo)符中是否包含有提取到的視頻標(biāo)題;如果是,執(zhí)行步驟308,如果否,執(zhí)彳了步驟310 ;
[0134]步驟308,判定視頻標(biāo)簽有效,保留該視頻標(biāo)簽;
[0135]步驟310,判定視頻標(biāo)簽無效,不作處理。
[0136]這樣,通過對視頻標(biāo)簽前導(dǎo)符的驗證,實現(xiàn)對視頻標(biāo)簽的準(zhǔn)確提取,過濾掉無效的視頻標(biāo)簽。
[0137]由于視頻標(biāo)簽應(yīng)該具有可點擊的特性,即視頻標(biāo)簽要么是一個超鏈接,要么具有點擊(onclick)事件。因此,步驟102之后還包括:檢測視頻標(biāo)簽是否為超鏈接或視頻標(biāo)簽是否包含點擊onclick事件;當(dāng)視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定該視頻標(biāo)簽無效,不作處理。這樣,進(jìn)一步提高視頻標(biāo)簽提取的準(zhǔn)確性,過濾掉無效的視頻標(biāo)簽。
[0138]另外,本發(fā)明實施例中,并不是對所有web網(wǎng)頁都會進(jìn)行上述視頻標(biāo)簽的提取,而是僅對有視頻元素的網(wǎng)頁提取視頻標(biāo)簽。通過判斷web網(wǎng)頁中是否有video標(biāo)簽來判斷web該網(wǎng)頁是否需要進(jìn)行視頻標(biāo)簽的提取。因此,步驟102之前還包括:解析web網(wǎng)頁,判斷web網(wǎng)頁是否包含video標(biāo)簽;當(dāng)web網(wǎng)頁包含video標(biāo)簽,從網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。這樣,提高視頻標(biāo)簽提取的效率,避免對不包含視頻元素的網(wǎng)頁進(jìn)行視頻標(biāo)簽提取,而造成對處理資源的浪費。
[0139]本發(fā)明實施例中,對視頻標(biāo)簽的分類如下:[0140]第一類型,視頻標(biāo)簽為指向視頻的超鏈接;例如,<a href=” somepath.mp4”〉第I
集 </a> ;
[0141]第二類型,視頻標(biāo)簽包含onclick事件的元素,點擊后頁面跳轉(zhuǎn)到視頻;
[0142]第三類型,視頻標(biāo)簽包含onclick事件的元素,視頻標(biāo)簽所在頁面包含視頻,點擊后在頁面上播放視頻(通過調(diào)用video元素的setAttribute方法更改其src屬性);
[0143]第四類型,視頻標(biāo)簽為指向包含視頻的HTML頁面的超鏈接;
[0144]第五類型,視頻標(biāo)簽包含onclick事件的元素,點擊后頁面跳轉(zhuǎn)到包含視頻的HTML頁面。
[0145]這5種類型覆蓋了絕大部分的視頻網(wǎng)站中的視頻標(biāo)簽類型,因此,這5種類型之外的標(biāo)簽可認(rèn)為不是有效的視頻標(biāo)簽。優(yōu)選地,步驟106之前還包括:判斷視頻標(biāo)簽是否屬于第一至第五類型;當(dāng)視頻標(biāo)簽不屬于第一至第五類型時,判定該視頻標(biāo)簽無效,不作處理。通過對視頻標(biāo)簽類別的識別,進(jìn)一步對視頻標(biāo)簽進(jìn)行過濾,提高后續(xù)根據(jù)視頻標(biāo)簽提取視頻URL的準(zhǔn)確度和效率。
[0146]由于視頻標(biāo)簽可能是上述五種類型的任意一種,因此,通過視頻標(biāo)簽獲取到的URL可能不是最終的視頻URL。對于第一類型、第二類型和第三類型的視頻標(biāo)簽,通過視頻標(biāo)簽獲取到的URL即為最終的視頻URL,但是對于第四類型和第五類型來說,通過視頻標(biāo)簽獲取到的URL是一個可能包含視頻的HTML頁面URL。本實施例中,可以準(zhǔn)確地根據(jù)視頻標(biāo)簽類型獲取第一 URL,進(jìn)一步提高視頻下載的準(zhǔn)確性和效率。
[0147]首先,通過視頻標(biāo)簽獲取到一個初步的URL,即第一 URL。本發(fā)明實施例中需要對第一 URL進(jìn)行網(wǎng)絡(luò)驗證,即通過一次網(wǎng)絡(luò)訪問確定第一 URL是最終的視頻URL,還是HTML頁面 URL0
[0148]本發(fā)明實施例中,優(yōu)選地,如圖4所示,步驟106包括:
[0149]步驟402,通過視頻標(biāo)簽提取第一 URL ;
[0150]步驟404,通過第一 URL進(jìn)行網(wǎng)絡(luò)訪問,獲取包括多用途因特網(wǎng)郵件擴(kuò)充類型(Multipurpose Internet Mail Extensions, MIME Type)的協(xié)議頭;
[0151]步驟406,當(dāng)MME Type為視頻類型時,判定第一 URL為第一視頻URL ;
[0152]步驟408,當(dāng)MME Type為HTML頁面類型時,判定第一 URL為HTML頁面URL ;
[0153]步驟410,當(dāng)?shù)谝?URL為視頻URL時,則獲取該第一視頻URL ;
[0154]步驟412,當(dāng)?shù)谝?URL為HTML頁面URL時,根據(jù)HTML頁面URL獲取第一視頻URL。
[0155]本實施例中,通過對從視頻標(biāo)簽中提取的URL進(jìn)行網(wǎng)絡(luò)驗證,使得抓取到的URL為最終的視頻URL,避免獲得不可下載的HTML頁面URL,提高了視頻URL抓取的準(zhǔn)確性,使得后續(xù)可以根據(jù)該視頻URL順利的下載到視頻資源,提高視頻下載的效率。
[0156]優(yōu)選地,步驟402包括:當(dāng)視頻標(biāo)簽的類型為第一類型或第四類型時,從超鏈接的超文本引用(Hyper text Reference, href )屬性中提取第一 URL ;當(dāng)視頻標(biāo)簽的類型為第二類型、第三類型或第五類型時,通過調(diào)用onclick事件提取第一 URL。
[0157]當(dāng)視頻標(biāo)簽的類型為第二類型和第五類型時,頁面通常通過JavaScript代碼調(diào)用window.location=xxx來跳轉(zhuǎn)到一個新頁面。在WebKit中的對應(yīng)位置截斷這次調(diào)用,以免真的跳轉(zhuǎn)到新頁面,并且截獲到第一 URL。
[0158]當(dāng)視頻標(biāo)簽的類型為第三類型時,頁面通常通過JavaScript代碼設(shè)置video元素的src屬性來改變其播放的視頻,在WebKit中的對應(yīng)位置截斷這次調(diào)用,并截獲到第一URL。
[0159]步驟404中,利用HTTP的Partial Content特性,獲得網(wǎng)絡(luò)訪問返回的HTTP協(xié)議的Range協(xié)議頭中的MIME Type,如果MIME Type是視頻類型,例如video或mp4,則判定第一 URL為第一視頻URL,否則該第一 URL為HTML頁面URL。
[0160]當(dāng)MME Type是視頻類型時,只需要驗證其類型即可,不需要真的獲取數(shù)據(jù),因為視頻數(shù)據(jù)比較大,會占用很多網(wǎng)絡(luò)帶寬。而當(dāng)MME Type為HTML頁面類型時,必須得到完整的HTML頁面數(shù)據(jù),否則無法找到它包含的視頻。
[0161]步驟410中,當(dāng)?shù)谝?URL為HTML頁面URL時,重新發(fā)送一個網(wǎng)絡(luò)請求,獲取該HTML頁面數(shù)據(jù)。從HTML頁面數(shù)據(jù)查找到頁面中的URL,該URL可能是視頻URL,也可能還是一個HTML頁面URL。為了獲取最終的視頻URL,可能需要多次對獲得的URL進(jìn)行網(wǎng)絡(luò)驗證。
[0162]優(yōu)選地,如圖5所示,步驟410包括:
[0163]步驟502,根據(jù)HTML頁面URL獲取HTML頁面數(shù)據(jù);
[0164]步驟504,從HTML頁面數(shù)據(jù)中查找第二 URL ;
[0165]步驟506,通過第二 URL進(jìn)行網(wǎng)絡(luò)訪問,獲取包括MME Type的協(xié)議頭;
[0166]步驟508,當(dāng)MME Type為視頻類型時,判定第二 URL為第一視頻URL,并獲取該第一視頻URL ;
[0167]步驟510,當(dāng)MME Type為HTML頁面類型時,判定第二 URL為HTML頁面URL ;返回步驟502,直到從HTML頁面中獲取到第一視頻URL。
[0168]步驟504中,可以利用視頻嗅探技術(shù)從HTML頁面數(shù)據(jù)查找到頁面中的URL。掃描HTML頁面,從中找出video元素。很多頁面的HTML元素都是用JavaScript生成的,在頁面加載完畢時video元素可能并沒有生成。因此需要等待頁面一段時間,并截獲其插入元素的動作。
[0169]本實施例中,通過對獲取到的URL進(jìn)行反復(fù)網(wǎng)絡(luò)驗證,當(dāng)出現(xiàn)多次頁面跳轉(zhuǎn)到視頻資源時,可以過濾掉中間的跳轉(zhuǎn)頁面,直接獲得最終的視頻URL,提高視頻URL抓取的準(zhǔn)確性,使得后續(xù)可以根據(jù)該視頻URL順利的下載到視頻資源,提高視頻下載的效率。
[0170]優(yōu)選地,本發(fā)明實施例中,步驟404和步驟506中,在進(jìn)行網(wǎng)絡(luò)訪問時,還進(jìn)一步獲取預(yù)設(shè)字節(jié)個數(shù)的數(shù)據(jù)。當(dāng)MIME Type為視頻類型時,根據(jù)取預(yù)設(shè)字節(jié)個數(shù)的數(shù)據(jù)獲得視頻的基本信息;當(dāng)MIME Type為HTML頁面類型時,根據(jù)HTML頁面URL獲取預(yù)設(shè)字節(jié)個數(shù)的數(shù)據(jù)之外的其他HTML頁面數(shù)據(jù)。
[0171]例如,可以設(shè)定獲取第一 URL或第二 URL對應(yīng)的目標(biāo)內(nèi)容的前100個字節(jié)的數(shù)據(jù),當(dāng)MME Type為視頻類型時,則本次網(wǎng)絡(luò)驗證結(jié)束;當(dāng)MME Type為HTML頁面類型時,創(chuàng)建一個HTML頁面,將這100個字節(jié)寫入HTML頁面內(nèi),然后重新發(fā)送一個網(wǎng)絡(luò)請求,以獲取第100個字節(jié)之后的所有數(shù)據(jù),并且將這些數(shù)據(jù)也寫入HTML頁面中。
[0172]本實施例中,通過獲取URL對應(yīng)目標(biāo)內(nèi)容的部分?jǐn)?shù)據(jù),當(dāng)目標(biāo)內(nèi)容為視頻時,可以預(yù)先獲取視頻信息,方便用戶了解要下載視頻內(nèi)容的信息,可以根據(jù)視頻信息判斷是否對該視頻進(jìn)行下載或根據(jù)視頻信息設(shè)置下載策略,進(jìn)一步提高視頻下載效率和準(zhǔn)確性。
[0173]優(yōu)選地,服務(wù)器設(shè)備并不是在獲取到網(wǎng)頁URL后就直接進(jìn)行視頻URL的抓取,步驟104包括:[0174]在接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL ;
[0175]若沒有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給終端設(shè)備;
[0176]若有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0177]本實施例中,通過檢查該網(wǎng)頁是否已進(jìn)行過視頻URL的抓取,來確定是否執(zhí)行視頻URL抓取的操作。如果已進(jìn)行過視頻URL的抓取,直接使用已有的抓取結(jié)果即可,只有當(dāng)未對該網(wǎng)頁進(jìn)行過視頻URL抓取時,才執(zhí)行抓取操作。這樣,提高了服務(wù)器設(shè)備視頻URL抓取的效率,節(jié)約了服務(wù)器設(shè)備的CPU資源及網(wǎng)絡(luò)資源。
[0178]優(yōu)選地,服務(wù)器設(shè)備還以如下方式對抓取到的視頻URL進(jìn)行更新,如圖6所示,步驟104包括:
[0179]步驟602,若存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,判斷最近一次從網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值;如果超過,執(zhí)行步驟604,如果未超過,執(zhí)行步驟606 ;
[0180]步驟604,根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給終端設(shè)備;
[0181]步驟606,將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0182]例如,預(yù)設(shè)的時間閾值為24小時,上一次檢查時間為2013-8-14-9:00,本次檢查時間為2013-8-14-19:00,兩次檢查之間的時間間隔未超過24小時,將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。如果本次檢查時間為2013-8-15-10:00,兩次檢查之間的時間間隔超過24小時則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,從視頻標(biāo)簽中抓取第一視頻URL ;將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給終端設(shè)備。
[0183]優(yōu)選地,服務(wù)器設(shè)備還以另一種方式對抓取到的視頻URL進(jìn)行更新,步驟104包括:根據(jù)網(wǎng)頁URL定時從網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。例如,設(shè)定每隔2小時,服務(wù)器自動從網(wǎng)頁上抓取視頻URL,更新之前抓取過的視頻URL。
[0184]本實施例中,通過以上兩種方式對抓取到的視頻URL進(jìn)行更新,為用戶提供最新的視頻URL,提高視頻URL抓取的及時性準(zhǔn)確性。
[0185]優(yōu)選地,為了進(jìn)一步提高終端對視頻資源的下載速度,該方法還包括:
[0186]根據(jù)第一視頻URL下載視頻;
[0187]在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成視頻的第二視頻URL ;
[0188]將第二視頻URL與第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存儲。
[0189]本實施例中,服務(wù)器設(shè)備抓取到第一視頻URL后,將視頻下載到服務(wù)器設(shè)備上,并為該視頻重新生成一個URL,即服務(wù)器設(shè)備的URL,作為該視頻的第二視頻URL,將該第二視頻URL反饋給終端設(shè)備。終端設(shè)備根據(jù)該第二視頻URL進(jìn)行視頻資源的下載,避免由于網(wǎng)頁上的第一視頻URL過期造成的無法下載的情況,保證提供給用戶的視頻URL的可用性,提高視頻下載速度。
[0190]優(yōu)選地,為了避免服務(wù)器設(shè)備上存儲多個相同的視頻資源,還進(jìn)一步對下載到的視頻進(jìn)行去重處理。該方法還包括:
[0191]計算所下載視頻的數(shù)字證書;
[0192]將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0193]當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;
[0194]當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0195]本實施例中,通過對已下載視頻數(shù)字證書的分析比較來去除重復(fù)視頻,節(jié)約了服務(wù)器設(shè)備的存儲資源。
[0196]優(yōu)選地,當(dāng)視頻網(wǎng)站上提供視頻的數(shù)字證書時,該方法還包括:
[0197]獲取第一視頻URL所對應(yīng)視頻的數(shù)字證書;
[0198]將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0199]當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成第二視頻URL ;
[0200]當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0201 ] 本實施例中,通過對未下載視頻數(shù)字證書的分析比較來避免重復(fù)下載相同視頻,不僅節(jié)約了服務(wù)器設(shè)備的存儲資源,還節(jié)約了服務(wù)器的CPU資源及網(wǎng)絡(luò)資源。
[0202]優(yōu)選地,數(shù)字證書包括根據(jù)視頻計算的哈希(Hash)碼,即通過Hash算法計算獲得的表示視頻完整性的代碼。該hash碼可以為消息摘要算法第五版(Message DigestAlgorithm,MD5)碼。由于不同視頻的數(shù)字證書不同。通過比較數(shù)字證書,可以準(zhǔn)確地判斷視頻是否相同,去除重復(fù)視頻。
[0203]基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供一種視頻URL抓取裝置,如圖7所示,該裝置包括:
[0204]接收模塊701,用于接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0205]抓取模塊702,用于根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;
[0206]存儲模塊703,用于將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲。
[0207]優(yōu)選地,如圖8所示,抓取模塊702包括:
[0208]標(biāo)簽提取子模塊7021,用于掃描網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點;從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為視頻標(biāo)簽。
[0209]優(yōu)選地,抓取模塊還包括:標(biāo)題提取子???022、第一分析子模塊7023和第二分析子模塊7024,
[0210]標(biāo)題提取子I旲快7022,用于從網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題;
[0211]第一分析子模塊7023,用于分析視頻標(biāo)簽是否包含前導(dǎo)符,前導(dǎo)符為視頻標(biāo)簽中除預(yù)設(shè)特征文字外的文字;
[0212]第二分析子模塊7024,用于當(dāng)視頻標(biāo)簽包含前導(dǎo)符,分析前導(dǎo)符中是否包含有提取到的視頻標(biāo)題;
[0213]標(biāo)簽提取子模塊7021,用于當(dāng)視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的視頻標(biāo)題時,判定視頻標(biāo)簽無效,不作處理。
[0214]優(yōu)選地,抓取模塊702還包括:
[0215]檢測子模塊7025,用于檢測視頻標(biāo)簽是否為超鏈接或視頻標(biāo)簽是否包含onclick事件;
[0216]標(biāo)簽提取子模塊7021,用于當(dāng)視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定視頻標(biāo)簽無效,不作處理。
[0217]優(yōu)選地,抓取模塊還包括:
[0218]解析子模塊7026,用于解析網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽;
[0219]標(biāo)簽提取模塊7021,用于當(dāng)網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
[0220]優(yōu)選地,該裝置還包括:檢查模塊704,用于在接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL。抓取模塊702,用于若沒有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給終端設(shè)備;若有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0221]優(yōu)選地,該裝置還包括:判斷模塊705,用于若存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,判斷最近一次從網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值。抓取模塊702,用于若超過預(yù)設(shè)的時間閾值,則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給終端設(shè)備;若未超過預(yù)設(shè)的時間閾值,則將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0222]優(yōu)選地,抓取模塊702,用于根據(jù)網(wǎng)頁URL定時從網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
[0223]優(yōu)選地,裝置還包括:下載模塊706和URL生成模塊707,
[0224]下載模塊706,用于根據(jù)第一視頻URL下載視頻;
[0225]URL生成模塊707,用于在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成視頻的第二視頻URL ;
[0226]存儲模塊703,用于將第二視頻URL與第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存。
[0227]優(yōu)選地,為了避免服務(wù)器設(shè)備上存儲多個相同的視頻資源,還進(jìn)一步對下載到的視頻進(jìn)行去重處理。如圖9所示,當(dāng)視頻網(wǎng)站上不提供視頻的數(shù)字證書時,該裝置還包括:計算模塊708和比較模塊709,
[0228]計算模塊708,用于計算所下載視頻的數(shù)字證書;[0229]比較模塊709,用于將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0230]下載模塊706,用于當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0231]優(yōu)選地,如圖10所示,當(dāng)視頻網(wǎng)站上提供視頻的數(shù)字證書時,該裝置還包括:裝置還包括:獲取模塊710和比較模塊709,
[0232]獲取模塊710,用于獲取第一視頻URL所對應(yīng)視頻的數(shù)字證書;
[0233]比較模塊709,用于將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0234]下載模塊706,用于當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成第二視頻URL ;當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0235]圖11是本發(fā)明實施例提供的一種服務(wù)器結(jié)構(gòu)示意圖。該服務(wù)器1900可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個或一個以上中央處理器(centralprocessing units,CPU)1922 (例如,一個或一個以上處理器)和存儲器1932,一個或一個以上存儲應(yīng)用程序1942或數(shù)據(jù)1944的存儲介質(zhì)1930 (例如一個或一個以上海量存儲設(shè)備)。其中,存儲器1932和存儲介質(zhì)1930可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)1930的程序可以包括一個或一個以上模塊,每個模塊可以包括對服務(wù)器中的一系列指令操作。更進(jìn)一步地,中央處理器1922可以設(shè)置為與存儲介質(zhì)1930通信,在服務(wù)器1900上執(zhí)行存儲介質(zhì)1930中的一系列指令操作。
[0236]服務(wù)器1900還可以包括一個或一個以上電源1926,一個或一個以上有線或無線網(wǎng)絡(luò)接口 1950,一個或一個以上輸入輸出接口 1958,一個或一個以上鍵盤1956,和/或,一個或一個以上操作系統(tǒng) 1941,例如 Windows ServerTM, Mac OS XTM,UnixTM, LinuxTM,F(xiàn)reeBSDTM 等等。
[0237]具體在本實施例中,服務(wù)器設(shè)備包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
[0238]接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求;
[0239]根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;
[0240]將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲。
[0241]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:掃描網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點;
[0242]從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;
[0243]將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為視頻標(biāo)簽。
[0244]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:從網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題;
[0245]分析視頻標(biāo)簽是否包含前導(dǎo)符,前導(dǎo)符為視頻標(biāo)簽中除預(yù)設(shè)特征文字外的文字;
[0246]當(dāng)視頻標(biāo)簽包含前導(dǎo)符,分析前導(dǎo)符中是否包含有提取到的視頻標(biāo)題;
[0247]當(dāng)視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的視頻標(biāo)題時,判定視頻標(biāo)簽無效,不作處理。[0248]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:檢測視頻標(biāo)簽是否為超鏈接或視頻標(biāo)簽是否包含onclick事件;
[0249]當(dāng)視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定視頻標(biāo)簽無效,不作處理。
[0250]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:
[0251]解析網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽;
[0252]當(dāng)網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
[0253]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:在接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL ;
[0254]若沒有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給終端設(shè)備;
[0255]若有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,則將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0256]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:若存儲有與網(wǎng)頁URL相對應(yīng)的第一視頻URL時,判斷最近一次從網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值;
[0257]若超過預(yù)設(shè)的時間閾值,則根據(jù)網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給終端設(shè)備;
[0258]若未超過預(yù)設(shè)的時間閾值,則將所存儲的與網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給終端設(shè)備。
[0259]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:根據(jù)網(wǎng)頁URL定時從網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
[0260]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:
[0261 ] 根據(jù)第一視頻URL下載視頻;
[0262]在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成視頻的第二視頻URL ;
[0263]將第二視頻URL與第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存儲。
[0264]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:
[0265]計算所下載視頻的數(shù)字證書;
[0266]將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0267]當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;
[0268]當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0269]優(yōu)選地,還包含用于進(jìn)行以下操作的指令:
[0270]獲取第一視頻URL所對應(yīng)視頻的數(shù)字證書;
[0271]將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;
[0272]當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成第二視頻URL ;
[0273]當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
[0274]本實施例的視頻URL抓取方法、裝置及服務(wù)器設(shè)備,當(dāng)用戶通過終端訪問視頻網(wǎng)站時,服務(wù)器設(shè)備接收包含該視頻網(wǎng)站的網(wǎng)頁URL的視頻URL抓取請求,將自動從該視頻網(wǎng)站的網(wǎng)頁上抓取視頻URL。這樣,不需要每個終端都進(jìn)行視頻URL的抓取,當(dāng)用戶需要進(jìn)行視頻下載時,服務(wù)器設(shè)備將抓取到的視頻URL反饋給終端設(shè)備。不僅降低了視頻URL抓取的時間,還節(jié)約了終端設(shè)備的CPU資源及網(wǎng)絡(luò)資源。終端設(shè)備通過獲取到視頻URL,便于用戶對視頻資源的批量下載,提高下載效率。
[0275]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0276]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0277]這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0278]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0279]顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
【權(quán)利要求】
1.一種視頻URL抓取方法,其特征在于,包括: 接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求; 根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ; 將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽包括: 掃描所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點; 從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點; 將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為所述視頻標(biāo)簽。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之后還包括: 從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題; 分析所述視頻標(biāo)簽是否包含前導(dǎo)符,所述前導(dǎo)符為所述視頻標(biāo)簽中除所述預(yù)設(shè)特征文字外的文字; 當(dāng)所述視頻標(biāo)簽包含前導(dǎo)符,分析所述前導(dǎo)符中是否包含有提取到的所述視頻標(biāo)題;當(dāng)所述視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的所述視頻標(biāo)題時,判定所述視頻標(biāo)簽無效,不作處理。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之后還包括: 檢測所述視頻標(biāo)簽是否為超鏈接或所述視頻標(biāo)簽是否包含onclick事件; 當(dāng)所述視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定所述視頻標(biāo)簽無效,不作處理。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽之前還包括: 解析所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽;當(dāng)所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述視頻URL抓取方法,還包括: 在所述接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL ; 若沒有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給所述終端設(shè)備; 若有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述視頻URL抓取方法,還包括: 若存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,判斷最近一次從所述網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值; 若超過所述預(yù)設(shè)的時間閾值,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給所述終端設(shè)備; 若未超過所述預(yù)設(shè)的時間閾值,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述視頻URL抓取方法,還包括:根據(jù)所述網(wǎng)頁URL定時從所述網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 根據(jù)所述第一視頻URL下載視頻; 在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成所述視頻的第二視頻URL ; 將所述第二視頻URL與所述第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存儲。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述第一視頻URL下載視頻,包括: 計算所下載視頻的數(shù)字證書; 將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較; 當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻; 當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述第一視頻URL下載視頻,包括: 獲取所述第一視頻URL所對應(yīng)視頻的數(shù)字證書; 將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較; 當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載所述第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成所述第二視頻URL ; 當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
12.根據(jù)權(quán)利要求10或11所述的方法,其特征在于,所述數(shù)字證書包括根據(jù)所述視頻計算的Hash碼。
13.—種視頻URL抓取裝置,其特征在于,包括: 接收模塊,用于接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求; 抓取模塊,用于根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ; 存儲模塊,用于將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述抓取模塊包括: 標(biāo)簽提取子模塊,用于掃描所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁的DOM樹,找到所有文字節(jié)點;從所有文字節(jié)點中提取包括有預(yù)設(shè)特征文字的文字節(jié)點;將包括有預(yù)設(shè)特征文字的文字節(jié)點的父節(jié)點作為所述視頻標(biāo)簽。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述抓取模塊還包括:標(biāo)題提取子???、第一分析子模塊和第二分析子模塊, 所述標(biāo)題提取子???,用于從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁提取視頻標(biāo)題; 所述第一分析子模塊,用于分析所述視頻標(biāo)簽是否包含前導(dǎo)符,所述前導(dǎo)符為所述視頻標(biāo)簽中除所述預(yù)設(shè)特征文字外的文字; 所述第二分析子模塊,用于當(dāng)所述視頻標(biāo)簽包含前導(dǎo)符,分析所述前導(dǎo)符中是否包含有提取到的所述視頻標(biāo)題; 所述標(biāo)簽提取子模塊,用于當(dāng)所述視頻標(biāo)簽中的前導(dǎo)符不包含有提取到的所述視頻標(biāo)題時,判定所述視頻標(biāo)簽無效,不作處理。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述抓取模塊還包括: 檢測子模塊,用于檢測所述視頻標(biāo)簽是否為超鏈接或所述視頻標(biāo)簽是否包含onclick事件; 所述標(biāo)簽提取子模塊,用于當(dāng)所述視頻標(biāo)簽不是超鏈接且不包含onclick事件時,判定所述視頻標(biāo)簽無效,不作處理。
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述抓取模塊還包括: 解析子模塊,用于解析所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁,判斷所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁是否包含video標(biāo)簽; 所述標(biāo)簽提取模塊,用于當(dāng)所述`網(wǎng)頁URL對應(yīng)的網(wǎng)頁包含video標(biāo)簽,從所述網(wǎng)頁URL對應(yīng)的網(wǎng)頁上提取視頻標(biāo)簽。
18.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括:檢查模塊, 所述檢查模塊,用于在所述接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求時,檢查是否已存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL ;所述抓取模塊,用于若沒有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL反饋給所述終端設(shè)備;若有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
19.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:判斷模塊, 所述判斷模塊,用于若存儲有與所述網(wǎng)頁URL相對應(yīng)的所述第一視頻URL時,判斷最近一次從所述網(wǎng)頁URL中抓取第一視頻URL的時間與本次視頻URL抓取請求時間之間的時間間隔是否已超過預(yù)設(shè)的時間閾值; 所述抓取模塊,用于若超過所述預(yù)設(shè)的時間閾值,則根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ;并將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲,并將所抓取的第一視頻URL反饋給所述終端設(shè)備;若未超過所述預(yù)設(shè)的時間閾值,則將所存儲的與所述網(wǎng)頁URL相對應(yīng)的第一視頻URL反饋給所述終端設(shè)備。
20.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述抓取模塊,用于根據(jù)所述網(wǎng)頁URL定時從所述網(wǎng)頁上抓取第一視頻URL,以更新所存儲的第一視頻URL。
21.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括:下載模塊和URL生成模塊,所述下載模塊,用于根據(jù)所述第一視頻URL下載視頻; 所述URL生成模塊,用于在視頻下載完成后,根據(jù)視頻下載后的存儲位置生成所述視頻的第二視頻URL ; 所述存儲模塊,用于將所述第二視頻URL與所述第一視頻URL所對應(yīng)的網(wǎng)頁URL對應(yīng)存。
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述裝置還包括:計算模塊和比較模塊, 所述計算模塊,用于計算所下載視頻的數(shù)字證書; 所述比較模塊,用于將計算得到的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較;所述下載模塊,用于當(dāng)已存儲視頻的數(shù)字證書中有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則刪除所下載視頻;當(dāng)已存儲視頻的數(shù)字證書中沒有與所下載視頻的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
23.根據(jù)權(quán)利要求21所 述的裝置,其特征在于,所述裝置還包括:獲取模塊和比較模塊, 所述獲取模塊,用于獲取所述第一視頻URL所對應(yīng)視頻的數(shù)字證書; 所述比較模塊,用于將所獲得的數(shù)字證書與已存儲視頻的數(shù)字證書進(jìn)行比較; 所述下載模塊,用于當(dāng)已存儲視頻的數(shù)字證書中有與所獲得的數(shù)字證書相同的數(shù)字證書時,則不下載所述第一視頻URL所對應(yīng)視頻;根據(jù)與所獲得的數(shù)字證書具有相同數(shù)字證書的已存儲視頻的存儲位置生成所述第二視頻URL;當(dāng)已存儲視頻的數(shù)字證書中沒有與所獲得的數(shù)字證書相同的數(shù)字證書時,則存儲所下載視頻。
24.一種服務(wù)器設(shè)備,其特征在于,所述服務(wù)器設(shè)備包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令: 接收終端設(shè)備發(fā)送的包含網(wǎng)頁URL的視頻URL抓取請求; 根據(jù)所述網(wǎng)頁URL從對應(yīng)的網(wǎng)頁中識別視頻標(biāo)簽,并從所述視頻標(biāo)簽中抓取第一視頻URL ; 將所抓取的第一視頻URL與所述網(wǎng)頁URL對應(yīng)存儲。
【文檔編號】G06F17/30GK103455600SQ201310395675
【公開日】2013年12月18日 申請日期:2013年9月3日 優(yōu)先權(quán)日:2013年9月3日
【發(fā)明者】徐琰, 張少偉, 左景龍 申請人:小米科技有限責(zé)任公司