視頻資源數(shù)據(jù)的獲取方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種視頻資源數(shù)據(jù)的獲取方法,其中該方法包括:根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面;根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面;抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。通過本發(fā)明能夠提高視頻數(shù)據(jù)的抓取效率。
【專利說明】視頻資源數(shù)據(jù)的獲取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索技術(shù),尤其涉及一種視頻資源數(shù)據(jù)的獲取方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著科技的發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)搜索并觀看各種視頻節(jié)目。由于互聯(lián)網(wǎng)提供的視頻信息十分豐富,用戶搜索十分方便,并且網(wǎng)絡(luò)視頻具有不斷變化及更新速度快的特點(diǎn)。
[0003]一般地,視頻網(wǎng)站的視頻資源的來源主要有:擁有版權(quán)的自有視頻數(shù)據(jù)、其他合作方制動(dòng)推送的視頻數(shù)據(jù)、用戶上傳的視頻數(shù)據(jù)(UGC)。除了上述的數(shù)據(jù)來源之外,通過網(wǎng)絡(luò)抓取方式獲得的視頻數(shù)據(jù)也是比較重要的來源之一。
[0004]但是,在全網(wǎng)數(shù)據(jù)增量的模式下,如何有效地抓取視頻數(shù)據(jù)以及如何抓取到整潔、干凈的視頻數(shù)據(jù),是亟需解決的技術(shù)問題。因此有必要提出改進(jìn)的技術(shù)方案解決上述問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于提供一種視頻資源數(shù)據(jù)的獲取方法及其系統(tǒng),以解決現(xiàn)有技術(shù)存在的抓取視頻數(shù)據(jù)效率低下的問題。
[0006]為了解決上述問題,根據(jù)本發(fā)明的一方面,提供了一種視頻資源數(shù)據(jù)的獲取方法,其包括:根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面;根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面;抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。
[0007]其中,所述方法還包括:根據(jù)預(yù)先設(shè)置的模板匹配所述信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息。
[0008]其中,在所述抓取所述信息承載頁面所承載的視頻數(shù)據(jù)的步驟之后,所述方法還包括:刪除抓取到的所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息。
[0009]其中,所述方法還包括:將抓取的視頻數(shù)據(jù)以文檔對(duì)象模型結(jié)構(gòu)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
[0010]其中,所述信息承載頁面包括:視頻播放頁面、視頻信息展現(xiàn)頁面。
[0011]根據(jù)本發(fā)明的另一方面,還提供了一種視頻資源數(shù)據(jù)的獲取系統(tǒng),其包括:第一獲取模塊,用于根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面;第二獲取模塊,用于根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面;抓取模塊,用于抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。
[0012]其中,所述系統(tǒng)還包括:解析模塊,用于根據(jù)預(yù)先設(shè)置的模板匹配所述信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)Ih息、視頻時(shí)間息。
[0013]其中,所述系統(tǒng)還包括:刪除模塊,用于刪除抓取到的所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息。[0014]其中,所述系統(tǒng)還包括:存儲(chǔ)模塊,用于將抓取的視頻數(shù)據(jù)以文檔對(duì)象模型結(jié)構(gòu)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
[0015]其中,所述信息承載頁面包括:視頻播放頁面、視頻信息展現(xiàn)頁面。
[0016]根據(jù)本發(fā)明的技術(shù)方案,通過抓取入口獲取視頻數(shù)據(jù)的列表頁面,根據(jù)列表頁面獲取視頻數(shù)據(jù)的信息承載頁面,并抓取信息承載頁面所承載的視頻數(shù)據(jù),實(shí)現(xiàn)了全網(wǎng)視頻數(shù)據(jù)有效地抓取,提高了視頻數(shù)據(jù)的抓取效率。
【專利附圖】
【附圖說明】
[0017]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0018]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的視頻資源數(shù)據(jù)的獲取方法的流程圖;
[0019]圖2是根據(jù)本發(fā)明另一實(shí)施例的視頻資源數(shù)據(jù)的獲取方法的流程圖;
[0020]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的視頻資源數(shù)據(jù)的獲取系統(tǒng)的結(jié)構(gòu)框圖;
[0021]圖4是根據(jù)本發(fā)明另一實(shí)施例的視頻資源數(shù)據(jù)的獲取系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0022]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實(shí)施例,對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說明。
[0023]根據(jù)本發(fā)明的實(shí)施例,提供了 一種視頻資源數(shù)據(jù)的獲取方法。
[0024]圖1是根據(jù)本發(fā)明實(shí)施例的視頻資源數(shù)據(jù)的獲取方法的流程圖,如圖1所示,該方法包括:
[0025]步驟S102,根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面。
[0026]其中,列表頁面是展示有眾多視頻資源數(shù)據(jù)列表的網(wǎng)頁,列表頁面可以有多頁。通過提供的抓取入口(例如視頻網(wǎng)站的網(wǎng)絡(luò)接口,通過次接口可以抓取網(wǎng)站各頁面的數(shù)據(jù))可以獲取視頻數(shù)據(jù)的列表頁面。
[0027]步驟S104,根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面。
[0028]信息承載頁面是列表頁面的下一級(jí)頁面,通過點(diǎn)擊列表頁面中某一視頻的鏈接可以進(jìn)入具體的該視頻的信息頁。在視頻數(shù)據(jù)的列表頁面,大量的視頻資源按照一定的順序排列,例如,名稱、上傳時(shí)間等。首先,根據(jù)所要抓取的內(nèi)容設(shè)置待抓取視頻數(shù)據(jù)的關(guān)鍵詞,根據(jù)設(shè)置的關(guān)鍵詞在視頻數(shù)據(jù)的列表頁面進(jìn)行匹配處理,確定待抓取的視頻數(shù)據(jù)的統(tǒng)一資源定位符(URL)地址,然后根據(jù)確定的視頻數(shù)據(jù)的URL地址獲取該視頻數(shù)據(jù)的信息承載頁面。
[0029]一般情況下,可以將信息承載頁面分為:視頻播放頁面和視頻信息展現(xiàn)頁面。其中,通過視頻播放頁面的播放器可以直接在線播放具體的視頻數(shù)據(jù);而視頻信息展現(xiàn)頁面中集中展現(xiàn)了視頻數(shù)據(jù)的詳情信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息
坐寸ο
[0030]步驟S106,抓取信息承載頁面所承載的視頻數(shù)據(jù)。
[0031]在實(shí)際中,可以使用網(wǎng)頁抓取工具抓取信息承載頁面所承載的視頻數(shù)據(jù),從而得到該網(wǎng)頁的完整的視頻數(shù)據(jù)。對(duì)于抓取的對(duì)象,包括長(zhǎng)視頻和用戶上傳視頻(UGC)。[0032]在本發(fā)明的一個(gè)實(shí)施例中,將抓取的視頻數(shù)據(jù)以文檔對(duì)象模型結(jié)構(gòu)(D0M樹)存儲(chǔ)至數(shù)據(jù)庫(kù)中,這樣,就取得了視頻資源數(shù)據(jù)的數(shù)據(jù)源。但是,通過直接抓取得到的視頻數(shù)據(jù)中可能包括有廣告信息、花絮信息、對(duì)外鏈接、排行榜信息等干擾信息,這些干擾信息是不需要的信息,應(yīng)進(jìn)行刪除。具體地,根據(jù)所述視頻數(shù)據(jù)的描述信息(例如標(biāo)題和簡(jiǎn)介)確定所述視頻數(shù)據(jù)中的干擾信息,并刪除所述視頻數(shù)據(jù)中的干擾信息,從而得到“干凈”、“整潔”的視頻數(shù)據(jù)。
[0033]進(jìn)一步地,在信息承載頁面所承載的視頻數(shù)據(jù)后得到的是單純的視頻數(shù)據(jù),但是信息承載頁面還承載有視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息等。這些多維度的信息是與視頻數(shù)據(jù)相關(guān)的有用信息,需要通過解析得到上述的信息。具體地,根據(jù)網(wǎng)頁的格式對(duì)應(yīng)設(shè)置一模板,其中該模板定義了每個(gè)標(biāo)簽類所具體承載的視頻數(shù)據(jù)的維度信息,例如,對(duì)于某一類型的網(wǎng)頁,每個(gè)標(biāo)簽類承載的視頻數(shù)據(jù)的多維度信息都是固定不變的,預(yù)先設(shè)置好該網(wǎng)頁的模板,通過該模板匹配信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,并將該多維度的信息與視頻數(shù)據(jù)一起存儲(chǔ)至數(shù)據(jù)庫(kù)。
[0034]下面請(qǐng)參考圖2,圖2是根據(jù)本發(fā)明優(yōu)選實(shí)施例的視頻資源數(shù)據(jù)的獲取方法的流程圖,如圖2所示,該方法包括:
[0035]步驟S202,根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面。
[0036]步驟S204,根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面。
[0037]步驟S206,抓取信息承載頁面所承載的視頻數(shù)據(jù)。
[0038]步驟S208,刪除抓取到的所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括但不限于:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息。
[0039]步驟S210,根據(jù)預(yù)先設(shè)置的模板匹配信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括但不限于:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息。
[0040]通過上述實(shí)施例,有效提高了全網(wǎng)視頻數(shù)據(jù)的抓取效率。
[0041]根據(jù)本發(fā)明的實(shí)施例,還提供了一種視頻資源數(shù)據(jù)的獲取系統(tǒng)。
[0042]圖3是根據(jù)本發(fā)明實(shí)施例的視頻資源數(shù)據(jù)的獲取系統(tǒng)的結(jié)構(gòu)框圖,如圖3所示,所述系統(tǒng)包括:第一獲取模塊10、第二獲取模塊20和抓取模塊30,下面詳細(xì)描述各模塊的結(jié)構(gòu)和連接關(guān)系。
[0043]第一獲取模塊10,用于根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面。通過提供的抓取入口(例如視頻網(wǎng)站的網(wǎng)絡(luò)接口)可以獲取展示有眾多視頻資源數(shù)據(jù)列表的列表頁面。
[0044]第二獲取模塊20與第一獲取模塊10相耦接,用于根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面。具體地,所述第二獲取模塊20根據(jù)預(yù)先設(shè)置的關(guān)鍵詞在視頻數(shù)據(jù)的列表頁面進(jìn)行匹配處理,確定待抓取的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址,根據(jù)確定的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址獲取該視頻數(shù)據(jù)的信息承載頁面。
[0045]信息承載頁面是列表頁面的下一級(jí)頁面,通過點(diǎn)擊列表頁面中某一視頻的鏈接可以進(jìn)入具體的該視頻的信息頁。一般情況下,可以將信息承載頁面分為:視頻播放頁面和視頻信息展現(xiàn)頁面。其中,通過視頻播放頁面的播放器可以直接在線播放具體的視頻數(shù)據(jù);而視頻信息展現(xiàn)頁面中集中展現(xiàn)了視頻數(shù)據(jù)的詳情信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息等。
[0046]抓取模塊30與第二獲取模塊20相耦接,用于抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。在實(shí)際中,可以使用網(wǎng)頁抓取工具抓取信息承載頁面所承載的視頻數(shù)據(jù),從而得到該網(wǎng)頁的完整的視頻數(shù)據(jù)。對(duì)于抓取的對(duì)象,包括長(zhǎng)視頻和用戶上傳視頻(UGC)。
[0047]參考圖4,在圖3的基礎(chǔ)上,所述系統(tǒng)還包括:
[0048]解析模塊40,其與抓取模塊30相耦接,用于根據(jù)預(yù)先設(shè)置的模板匹配所述信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息。
[0049]繼續(xù)參考圖4,所述系統(tǒng)還包括:
[0050]刪除模塊50,其與解析模塊40相耦接,用于根據(jù)所述視頻數(shù)據(jù)的描述信息確定所述視頻數(shù)據(jù)中的干擾信息,并刪除所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息。
[0051]此外,所述系統(tǒng)還包括:
[0052]存儲(chǔ)模塊60,用于將將去除干擾信息后的視頻數(shù)據(jù)以文檔對(duì)象模型(DOM樹)結(jié)構(gòu)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
[0053]本發(fā)明的方法的操作步驟與系統(tǒng)的結(jié)構(gòu)特征對(duì)應(yīng),可以相互參照,不再一一贅述。
[0054]根據(jù)本發(fā)明的技術(shù)方案,通過抓取入口獲取視頻數(shù)據(jù)的列表頁面,根據(jù)列表頁面獲取視頻數(shù)據(jù)的信息承載頁面,并抓取信息承載頁面所承載的視頻數(shù)據(jù),實(shí)現(xiàn)了全網(wǎng)視頻數(shù)據(jù)有效地抓取,提高了視頻數(shù)據(jù)的抓取效率。
[0055]以上所述僅為本發(fā)明的實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
【權(quán)利要求】
1.一種視頻資源數(shù)據(jù)的獲取方法,其特征在于,包括: 根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面; 根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面; 抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述信息承載頁面包括:視頻播放頁面、視頻信息展現(xiàn)頁面。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面,包括: 根據(jù)預(yù)先設(shè)置的關(guān)鍵詞在視頻數(shù)據(jù)的列表頁面進(jìn)行匹配處理,確定待抓取的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址; 根據(jù)確定的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址獲取該視頻數(shù)據(jù)的信息承載頁面。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)預(yù)先設(shè)置的模板匹配所述信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)所述視頻數(shù)據(jù)的描述信息確定所述視頻數(shù)據(jù)中的干擾信息,并刪除所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息; 將去除干擾信息后的視頻數(shù)據(jù)以文檔對(duì)象模型結(jié)構(gòu)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
6.一種視頻資源數(shù)據(jù)的獲取系統(tǒng),其特征在于,包括: 第一獲取模塊,用于根據(jù)所提供的抓取入口獲取視頻數(shù)據(jù)的列表頁面; 第二獲取模塊,用于根據(jù)視頻數(shù)據(jù)的列表頁面獲取視頻數(shù)據(jù)的信息承載頁面; 抓取模塊,用于抓取所述信息承載頁面所承載的視頻數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述信息承載頁面包括:視頻播放頁面、視頻信息展現(xiàn)頁面。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述第二獲取模塊還用于根據(jù)預(yù)先設(shè)置的關(guān)鍵詞在視頻數(shù)據(jù)的列表頁面進(jìn)行匹配處理,確定待抓取的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址,根據(jù)確定的視頻數(shù)據(jù)的統(tǒng)一資源定位符地址獲取該視頻數(shù)據(jù)的信息承載頁面。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括: 解析模塊,用于根據(jù)預(yù)先設(shè)置的模板匹配所述信息承載頁面所承載的視頻數(shù)據(jù),解析得到視頻數(shù)據(jù)的多維度的信息,包括:標(biāo)題信息、簡(jiǎn)介信息、集數(shù)信息、視頻時(shí)間信息。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括: 刪除模塊,用于根據(jù)所述視頻數(shù)據(jù)的描述信息確定所述視頻數(shù)據(jù)中的干擾信息,并刪除所述視頻數(shù)據(jù)中的干擾信息,所述干擾信息包括:廣告信息、花絮信息、對(duì)外鏈接、排行榜信息; 存儲(chǔ)模塊,用于將去除干擾信息后的視頻數(shù)據(jù)以文檔對(duì)象模型結(jié)構(gòu)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
【文檔編號(hào)】G06F17/30GK103699661SQ201310741187
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】曹坤波, 鄭磊 申請(qǐng)人:樂視網(wǎng)信息技術(shù)(北京)股份有限公司