亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

內(nèi)容采集方法和裝置與流程

文檔序號:12121406閱讀:266來源:國知局
內(nèi)容采集方法和裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域
,尤其涉及一種內(nèi)容采集方法和裝置。
背景技術(shù)
:對于視頻等多媒體資源,現(xiàn)有的內(nèi)容采集方法有多種。例如:編輯人工采集視頻內(nèi)容;人工整理視頻源列表,機(jī)器采集最熱門視頻;采集視頻分享網(wǎng)站的視頻。其中,編輯人工采集的效率低,無法及時(shí)追蹤最新最熱的視頻。人工整理的視頻源有限,且跟蹤不及時(shí),對用戶關(guān)注熱點(diǎn)覆蓋不全面。來自社交網(wǎng)站等視頻分享網(wǎng)站的熱門視頻無法反應(yīng)用戶主動(dòng)搜索的話題。并且,無法覆蓋長尾話題的視頻。技術(shù)實(shí)現(xiàn)要素:技術(shù)問題有鑒于此,本發(fā)明要解決的技術(shù)問題是,提供一種采集效率高、覆蓋熱點(diǎn)多的內(nèi)容采集方法和裝置。解決方案為了解決上述技術(shù)問題,根據(jù)本發(fā)明的一實(shí)施例,提供了一種內(nèi)容采集方法,包括:從各內(nèi)容源采集各熱點(diǎn)詞;根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池;從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,從各內(nèi)容源采集各熱點(diǎn)詞,包括:從搜索引擎、社交媒體和資源網(wǎng)站中的至少一種內(nèi)容源,獲取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間;根據(jù)各熱門搜索詞對應(yīng)的搜索排名和獲取時(shí)間,從各熱門搜索詞中選取用于構(gòu)建所述熱點(diǎn)池的各熱點(diǎn)詞。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池,包括:在各所述內(nèi)容源獲取各熱點(diǎn)詞對應(yīng)的各搜索結(jié)果;采用網(wǎng)頁正文抽取方法,從各所述搜索結(jié)果中抽取正文,并從所抽取的正文中提取各關(guān)鍵詞;計(jì)算各所述關(guān)鍵詞對應(yīng)的指紋;將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中,包括:若所述熱點(diǎn)池中不存在所述關(guān)鍵詞對應(yīng)的指紋,則從所述關(guān)鍵詞中提取地域?qū)傩?;將每個(gè)關(guān)鍵詞及其對應(yīng)的指紋和地域?qū)傩员4娴剿鰺狳c(diǎn)池中。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,從所抽取的正文中提取各關(guān)鍵詞,包括:按照式1計(jì)算對所抽取的正文進(jìn)行去重后的各個(gè)詞的權(quán)重,wi=tfi*idfi式1,式1中的wi表示第i個(gè)詞的權(quán)重,tfi是第i個(gè)詞在所抽取的正文的所有詞中的詞頻,idfi是第i個(gè)詞的IDF值;計(jì)算所抽取的正文的所有詞的平均權(quán)重及權(quán)重的標(biāo)準(zhǔn)差;從所抽取的正文的所有詞中提取權(quán)重超過平均值的詞作為關(guān)鍵詞。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源,包括:從所述熱點(diǎn)池中讀取所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋和地域?qū)傩?;采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源;保存所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋、地域?qū)傩院蜔狳c(diǎn)資源。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源,包括:各所述內(nèi)容源發(fā)送抓取命令,所述抓取命令中包括所述待處理熱點(diǎn)的關(guān)鍵詞;從各所述內(nèi)容源獲取與所述關(guān)鍵詞相關(guān)的資源鏈接和標(biāo)題;過濾掉已經(jīng)處理過的資源鏈接;從所述標(biāo)題中提取標(biāo)題關(guān)鍵詞;計(jì)算所述待處理熱點(diǎn)的關(guān)鍵詞與所提取的標(biāo)題關(guān)鍵詞的相似度和/或所述標(biāo)題的指紋;根據(jù)所述相似度和/或所述標(biāo)題的指紋從資源鏈接中獲取熱點(diǎn)資源。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,還包括:對各所述熱點(diǎn)資源進(jìn)行后期處理,所述后期處理包括壓縮和/或標(biāo)題美化。對于上述方法,在一種可能的實(shí)現(xiàn)方式中,還包括:在交互界面檢測用戶操作,所述用戶操作包括對所述熱點(diǎn)資源進(jìn)行刪除、增加和修改中的至少一項(xiàng)處理;根據(jù)所述用戶操作,對各所述熱點(diǎn)資源進(jìn)行相應(yīng)處理。為了解決上述技術(shù)問題,根據(jù)本發(fā)明的另一實(shí)施例,提供了一種內(nèi)容采集裝置,包括:熱點(diǎn)詞采集模塊,用于從各內(nèi)容源采集各熱點(diǎn)詞;構(gòu)建模塊,用于根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池;資源采集模塊,用于從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述熱點(diǎn)詞采集模塊包括:第一獲取子模塊,用于從搜索引擎、社交媒體和資源網(wǎng)站中的至少一種內(nèi)容源,獲取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間;第一選取子模塊,用于根據(jù)各熱門搜索詞對應(yīng)的搜索排名和獲取時(shí)間,從各熱門搜索詞中選取用于構(gòu)建所述熱點(diǎn)池的各熱點(diǎn)詞。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述構(gòu)建模塊包括:搜索結(jié)果子模塊,用于在各所述內(nèi)容源獲取各熱點(diǎn)詞對應(yīng)的各搜索結(jié)果;關(guān)鍵詞提取子模塊,用于采用網(wǎng)頁正文抽取方法,從各所述搜索結(jié)果中抽取正文,并從所抽取的正文中提取各關(guān)鍵詞;指紋計(jì)算子模塊,用于計(jì)算各所述關(guān)鍵詞對應(yīng)的指紋;第一保存子模塊,用于將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述第一保存子模塊還用于若所述熱點(diǎn)池中不存在所述關(guān)鍵詞對應(yīng)的指紋,則從所述關(guān)鍵詞中提取地域?qū)傩裕粚⒚總€(gè)關(guān)鍵詞及其對應(yīng)的指紋和地域?qū)傩员4娴剿鰺狳c(diǎn)池中。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述關(guān)鍵詞提取子模塊還用于:按照式1計(jì)算對所抽取的正文進(jìn)行去重后的各個(gè)詞的權(quán)重,wi=tfi*idfi式1,式1中的wi表示第i個(gè)詞的權(quán)重,tfi是第i個(gè)詞在所抽取的正文的所有詞中的詞頻,idfi是第i個(gè)詞的IDF值;計(jì)算所抽取的正文的所有詞的平均權(quán)重及權(quán)重的標(biāo)準(zhǔn)差;從所抽取的正文的所有詞中提取權(quán)重超過平均值的詞作為關(guān)鍵詞。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述資源采集模塊包括:讀取子模塊,用于從所述熱點(diǎn)池中讀取所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋和地域?qū)傩?;抓取子模塊,用于采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源;第三保存子模塊,用于保存所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋、地域?qū)傩院蜔狳c(diǎn)資源。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述抓取子模塊還用于各所述內(nèi)容源發(fā)送抓取命令,所述抓取命令中包括所述待處理熱點(diǎn)的關(guān)鍵詞;從各所述內(nèi)容源獲取與所述關(guān)鍵詞相關(guān)的資源鏈接和標(biāo)題;過濾掉已經(jīng)處理過的資源鏈接;從所述標(biāo)題中提取標(biāo)題關(guān)鍵詞;計(jì)算所述待處理熱點(diǎn)的關(guān)鍵詞與所提取的標(biāo)題關(guān)鍵詞的相似度和/或所述標(biāo)題的指紋;根據(jù)所述相似度和/或所述標(biāo)題的指紋從資源鏈接中獲取熱點(diǎn)資源。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,還包括:后期處理模塊,用于對各所述熱點(diǎn)資源進(jìn)行后期處理,所述后期處理包括壓縮和/或標(biāo)題美化。對于上述裝置,在一種可能的實(shí)現(xiàn)方式中,還包括:用戶處理模塊,用于在交互界面檢測用戶操作,所述用戶操作包括對所述熱點(diǎn)資源進(jìn)行刪除、增加和修改中的至少一項(xiàng)處理;根據(jù)所述用戶操作,對各所述熱點(diǎn)資源進(jìn)行相應(yīng)處理。有益效果本發(fā)明實(shí)施例,通過采集熱點(diǎn)詞構(gòu)建熱點(diǎn)池,再根據(jù)熱點(diǎn)池中的熱點(diǎn)自動(dòng)采集熱點(diǎn)資源,能夠全面覆蓋用戶的關(guān)注熱點(diǎn),與人工采集相比,可以實(shí)時(shí)追蹤最新最熱的資源,采集效率高。進(jìn)一步地,可以對用戶的社交分享的資源形成差異補(bǔ)充。進(jìn)一步地,通過采集各關(guān)鍵詞地域?qū)傩?,有利于發(fā)現(xiàn)各個(gè)地域的熱點(diǎn)資源,形成長尾效應(yīng)。根據(jù)下面參考附圖對示例性實(shí)施例的詳細(xì)說明,本發(fā)明的其它特征及方面將變得清楚。附圖說明包含在說明書中并且構(gòu)成說明書的一部分的附圖與說明書一起示出了本發(fā)明的示例性實(shí)施例、特征和方面,并且用于解釋本發(fā)明的原理。圖1示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集方法的流程圖。圖2示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集方法的另一流程圖。圖3示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集方法中分布式抓取的流程圖。圖4示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集方法對應(yīng)的實(shí)現(xiàn)模塊的結(jié)構(gòu)框圖。圖5示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集方法中網(wǎng)絡(luò)熱點(diǎn)監(jiān)控的流程圖。圖6示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集方法中構(gòu)建熱點(diǎn)池的流程圖。圖7示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集方法中視頻采集的流程圖。圖8示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集方法中分布式視頻抓取的流程圖。圖9示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。圖10示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。圖11示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。具體實(shí)施方式以下將參考附圖詳細(xì)說明本發(fā)明的各種示例性實(shí)施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實(shí)施例的各種方面,但是除非特別指出,不必按比例繪制附圖。在這里專用的詞“示例性”意為“用作例子、實(shí)施例或說明性”。這里作為“示例性”所說明的任何實(shí)施例不必解釋為優(yōu)于或好于其它實(shí)施例。另外,為了更好的說明本發(fā)明,在下文的具體實(shí)施方式中給出了眾多的具體細(xì)節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒有某些具體細(xì)節(jié),本發(fā)明同樣可以實(shí)施。在一些實(shí)例中,對于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細(xì)描述,以便于凸顯本發(fā)明的主旨。實(shí)施例1圖1示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集方法的流程圖。如圖1所示,該內(nèi)容采集方法可以包括:步驟101、從各內(nèi)容源采集各熱點(diǎn)詞;步驟102、根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池;步驟103、從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源。在本發(fā)明實(shí)施例中,內(nèi)容源可以包括諸如搜索引擎、社交媒體和資源網(wǎng)站等多種類型。用戶在內(nèi)容源中進(jìn)行搜索、點(diǎn)擊、編輯等各種操作時(shí),內(nèi)容源的服務(wù)器可以記錄相關(guān)的搜索詞,并對搜索詞進(jìn)行排名。通常,可以按照一定時(shí)間內(nèi)例如每天或每周內(nèi),出現(xiàn)次數(shù)從多到少的順序?qū)λ阉髟~進(jìn)行排名。出現(xiàn)次數(shù)越多,說明該搜索詞越熱門。在本實(shí)施例中,在某內(nèi)容源中,可以選取搜索排名比較靠前,例如前5至10個(gè)熱門搜索詞,作為用于構(gòu)建熱點(diǎn)池的各熱點(diǎn)詞。在一種可能實(shí)現(xiàn)方式中,如圖2所示,從各內(nèi)容源采集各熱點(diǎn)詞(步驟101)包括:步驟201、從搜索引擎、社交媒體和資源網(wǎng)站中的至少一種內(nèi)容源,獲取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間;步驟202、根據(jù)各熱門搜索詞對應(yīng)的搜索排名和獲取時(shí)間,從各熱門搜索詞中選取用于構(gòu)建所述熱點(diǎn)池的各熱點(diǎn)詞。其中,對于搜索引擎或社交媒體,可以訪問搜索引擎或社交媒體的熱門搜索詞網(wǎng)址;利用網(wǎng)頁正文抽取方法,從所述熱門搜索詞網(wǎng)址對應(yīng)的頁面中抽取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間。對于資源網(wǎng)站,可以從資源網(wǎng)站的搜索日志中,獲取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間。在一種可能實(shí)現(xiàn)方式中,如圖2所示,根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池(步驟102)包括:步驟203、在各所述內(nèi)容源獲取各熱點(diǎn)詞對應(yīng)的各搜索結(jié)果;步驟204、采用網(wǎng)頁正文抽取方法,例如HTML(HyperTextMarkupLanguage,超文本標(biāo)記語言)正文抽取方法,從各所述搜索結(jié)果中抽取正文,并從所抽取的正文中提取各關(guān)鍵詞;步驟205、計(jì)算各所述關(guān)鍵詞對應(yīng)的指紋;步驟206、將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中。在一種可能實(shí)現(xiàn)方式中,如圖2所示,將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中(步驟206)包括:若所述熱點(diǎn)池中不存在所述關(guān)鍵詞對應(yīng)的指紋,則從所述關(guān)鍵詞中提取地域?qū)傩?;將每個(gè)關(guān)鍵詞及其對應(yīng)的指紋和地域?qū)傩员4娴剿鰺狳c(diǎn)池中。在熱點(diǎn)池中,可能已經(jīng)保存了許多熱點(diǎn)詞。為了減少數(shù)據(jù)重復(fù),在每次向熱點(diǎn)池中新增關(guān)鍵詞之前,可以先查找熱點(diǎn)池中是否已經(jīng)保存了該關(guān)鍵詞的指紋,如果有相同的指紋,則不將該關(guān)鍵詞加入熱點(diǎn)池中。如果沒有相同的指紋,可以從該關(guān)鍵詞中提取地域?qū)傩裕⒃撽P(guān)鍵詞及其指紋和地域?qū)傩宰鳛橐粋€(gè)熱點(diǎn)對應(yīng)的保存到熱點(diǎn)池中。其中,關(guān)鍵詞的指紋可以是通過特定算法計(jì)算得到的一個(gè)很大的數(shù)值,通常為整數(shù)。例如,通過特定的散列算法計(jì)算某關(guān)鍵詞中每個(gè)字符的散列值,然后再將各字符的散列值合并,可以得到該關(guān)鍵詞的指紋。從概率上講,由兩個(gè)不同關(guān)鍵詞計(jì)算出來的指紋,相同的概率很小。因此,通過比對關(guān)鍵詞的指紋可以區(qū)分兩個(gè)關(guān)鍵詞是否相同。其中,有的關(guān)鍵詞具有地域?qū)傩?,有的關(guān)鍵詞沒有地域?qū)傩?。例如,“北京天氣”中的“北京”屬于地域?qū)傩?。對于沒有地域?qū)傩缘年P(guān)鍵詞,在熱點(diǎn)池中,可以不保存其地域?qū)傩裕部梢詫⒃撽P(guān)鍵詞對應(yīng)的地域?qū)傩宰侄卧O(shè)置為NULL(空)或ALL(所有)。在一種可能實(shí)現(xiàn)方式中,如圖2所示,在步驟204中,從所抽取的正文中提取各關(guān)鍵詞,包括:按照式1計(jì)算對所抽取的正文進(jìn)行去重后的各個(gè)詞的權(quán)重,wi=tfi*idfi式1,式1中的wi表示第i個(gè)詞的權(quán)重,tfi是第i個(gè)詞在所抽取的正文的所有詞中的詞頻,idfi是第i個(gè)詞的IDF(InverseDocumentFrequency,逆文檔頻率)值;計(jì)算所抽取的正文的所有詞的平均權(quán)重及權(quán)重的標(biāo)準(zhǔn)差;從所抽取的正文的所有詞中提取權(quán)重超過平均值的詞作為關(guān)鍵詞。在一種可能實(shí)現(xiàn)方式中,如圖2所示,從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源(步驟103)包括:步驟207、從所述熱點(diǎn)池中讀取所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋和地域?qū)傩?;步驟208、采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源;步驟209、保存所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋、地域?qū)傩院蜔狳c(diǎn)資源。在本發(fā)明實(shí)施例中,可以將各關(guān)鍵詞及其對應(yīng)的指紋、地域?qū)傩院唾Y源等對應(yīng)的保存到所采集的內(nèi)容庫中。內(nèi)容庫中所保存的資源既可以是資源鏈接例如某視頻的網(wǎng)頁地址,也可以是資源文件例如視頻文件等。在一種可能實(shí)現(xiàn)方式中,如圖3所示,采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源(步驟210)包括:步驟301、各所述內(nèi)容源發(fā)送抓取命令,所述抓取命令中包括所述待處理熱點(diǎn)的關(guān)鍵詞;步驟302、從各所述內(nèi)容源獲取與所述關(guān)鍵詞相關(guān)的資源鏈接和標(biāo)題;步驟303、過濾掉已經(jīng)處理過的資源鏈接;步驟304、從所述標(biāo)題中提取標(biāo)題關(guān)鍵詞;步驟305、計(jì)算所述待處理熱點(diǎn)的關(guān)鍵詞與所提取的標(biāo)題關(guān)鍵詞的相似度和/或所述標(biāo)題的指紋;步驟306、根據(jù)所述相似度和/或所述標(biāo)題的指紋從資源鏈接中獲取熱點(diǎn)資源。舉例而言,可以設(shè)置相似度閾值,如果某一待處理熱點(diǎn)的關(guān)鍵詞與根據(jù)該待處理熱點(diǎn)的關(guān)鍵詞所獲取的資源標(biāo)題的關(guān)鍵詞的相似度,小于該相似度閾值,表示所獲取的資源不符合預(yù)期,可以忽略該資源。反之,如果二者的相似度大于該相似度閾值,可以將該資源保存到內(nèi)容庫中。在一種可能實(shí)現(xiàn)方式中,如圖2所示,該方法還包括:步驟104、對各所述熱點(diǎn)資源進(jìn)行后期處理,所述后期處理包括壓縮和/或標(biāo)題美化。在一種可能實(shí)現(xiàn)方式中,如圖2所示,該方法還包括:步驟105、在交互界面檢測用戶操作,所述用戶操作包括對所述熱點(diǎn)資源進(jìn)行刪除、增加和修改中的至少一項(xiàng)處理;根據(jù)所述用戶操作,對各所述熱點(diǎn)資源進(jìn)行相應(yīng)處理。實(shí)施例2本發(fā)明實(shí)施例的內(nèi)容采集方法,能夠全面及時(shí)覆蓋網(wǎng)民主動(dòng)關(guān)心的熱點(diǎn),并采集到相關(guān)資源例如視頻文件,可以用于視頻聚合產(chǎn)品。如圖4所示,整個(gè)流程可以通過四個(gè)關(guān)鍵模塊來實(shí)現(xiàn):網(wǎng)絡(luò)熱點(diǎn)監(jiān)控模塊401、視頻采集模塊402、后期處理模塊403和人工干預(yù)模塊404。下面分別介紹各模塊的具體原理。一、網(wǎng)絡(luò)熱點(diǎn)監(jiān)控模塊網(wǎng)絡(luò)熱點(diǎn)監(jiān)控模塊可以收集監(jiān)控視頻話題來源,對主流搜索引擎、社交媒體、視頻網(wǎng)站的實(shí)時(shí)熱門搜索詞進(jìn)行監(jiān)控。如圖5所示,為網(wǎng)絡(luò)熱點(diǎn)監(jiān)控的流程的一種示例:步驟501、獲取主流搜索引擎的熱門搜索詞。主流搜索引擎的熱門搜索詞獲取地址列舉如下表1:表1名稱地址百度http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b1_c513搜狗http://top.sogou.com/hot/instantnews_1.html360搜索http://top.so.com/hotnews/detail搜索引擎熱門搜索詞獲取方法包括但不限于以下至少一種:1)訪問熱門搜索詞網(wǎng)址。2)利用通用的HTML正文抽取技術(shù)抽取頁面中的搜索詞。3)保存搜索詞、搜索排名、獲取時(shí)間。步驟502、獲取主流社交媒體的熱門搜索詞,以表2為例。表2名稱地址微博http://s.weibo.com/top/summary?cate=realtimehot微信公眾號http://weixin.sogou.com/?p=73141200知乎http://zhihu.sogou.com/其中,社交媒體熱門搜索詞獲取方法包括但不限于以下至少一種:1)訪問熱門搜索詞網(wǎng)址2)利用通用的HTML正文抽取技術(shù)抽取頁面中的搜索詞3)保存搜索詞、搜索排名、獲取時(shí)間步驟503、從視頻網(wǎng)站例如優(yōu)酷內(nèi)部的搜索日志獲取搜索熱詞。例如,清洗優(yōu)酷的視頻搜索(http://www.soku.com/)日志,得到熱門搜索詞、搜索排名、更新時(shí)間等。步驟504、構(gòu)建熱點(diǎn)池。本發(fā)明實(shí)施例不限定上述的步驟501至步驟503之間的時(shí)序關(guān)系,可以按照一定順序執(zhí)行,也可以兩個(gè)或兩個(gè)以上并行執(zhí)行。來自各個(gè)監(jiān)控源頭的熱門搜索詞(或稱為熱點(diǎn)詞)需要經(jīng)過統(tǒng)一的處理流程進(jìn)入到一個(gè)熱點(diǎn)池,供視頻采集模塊使用。如圖6所示,為構(gòu)建熱點(diǎn)池的流程的一種示例:步驟601、獲取熱點(diǎn)詞(即關(guān)鍵詞)在某內(nèi)容源例如搜索引擎對應(yīng)的網(wǎng)頁搜索結(jié)果。具體可以取網(wǎng)頁搜索結(jié)果的前幾個(gè),例如前5個(gè)。例如,通過百度,熱點(diǎn)搜索“XXX青海考察”,其中“XXX”可以表示人名,可以得到網(wǎng)頁搜索結(jié)果的前五個(gè)為:“XXX到青??疾?-時(shí)政--人民網(wǎng)”、“XXX青??疾?在保護(hù)環(huán)境前提下搞好開發(fā)利用”、“XXX考察青海:易地扶貧搬遷要實(shí)現(xiàn)可持續(xù)發(fā)展”””“獨(dú)家V觀:XXX到青海考察走進(jìn)察爾汗鹽湖”、“XXX青海冒雨考察易地扶貧搬遷新村”。步驟602、對搜索結(jié)果提取關(guān)鍵詞。例如采用通用的網(wǎng)頁正文抽取技術(shù)抽取搜索結(jié)果的正文,并提取關(guān)鍵詞。關(guān)鍵詞抽取流程依次為:按照式1計(jì)算去重后的每個(gè)詞的權(quán)重;計(jì)算這5個(gè)搜索結(jié)果中所有詞平均權(quán)重及權(quán)重的標(biāo)準(zhǔn)差,提取那些權(quán)重超過平均值的詞作為關(guān)鍵詞。wi=tfi*idfi式1,接著前面的例子,式1中的wi表示第i個(gè)詞的最終權(quán)重,tfi是這個(gè)詞在前5個(gè)搜索結(jié)果中的詞頻,idfi是這個(gè)詞的IDF值,可以提前根據(jù)語料庫計(jì)算得到的。例如,IDF值可以采用式2計(jì)算:式2中的N是語料庫中所有的文檔個(gè)數(shù),ni是某個(gè)詞出現(xiàn)的文檔數(shù)。接著前面的例子,詞的權(quán)重計(jì)算結(jié)果如下表3:表3詞tf(詞頻)idf值權(quán)重均值關(guān)鍵詞XXX573520.17是青海584020.17是考察563020.17是環(huán)境17720.17否開發(fā)15520.17否利用14420.17否......步驟603、用關(guān)鍵詞構(gòu)建文本指紋。例如,采用通用的Simhash算法(一種字符串匹配算法)計(jì)算關(guān)鍵詞的文本指紋。如關(guān)鍵詞“XXX、青海、考察”計(jì)算出的文本指紋為“5780264752849569925457966”,這個(gè)文本指紋的數(shù)字的不同可以表明原始關(guān)鍵詞的不同。步驟604、合并高相似的關(guān)鍵詞。例如,在熱點(diǎn)池中搜索是否存在與該關(guān)鍵詞具有相同文本指紋的熱點(diǎn)。如果已經(jīng)存在則忽略。步驟605、如果不存在,提取關(guān)鍵詞中屬于地域名稱的詞,作為該熱點(diǎn)的地域?qū)傩?或稱為地域特征)。二、視頻采集模塊。視頻采集模塊可以持續(xù)讀取熱點(diǎn)池。然后通過分布式的視頻爬蟲(一種影音圖像類軟件)等方式,獲取到視頻源文件(包括視頻鏈接或視頻文件)。如圖7所示,為視頻采集流程的一種示例:步驟701、讀取熱點(diǎn)池。從熱點(diǎn)池中一個(gè)一個(gè)讀出熱點(diǎn),熱點(diǎn)包含的信息有多種。例如:地域、關(guān)鍵詞和熱點(diǎn)指紋等。步驟702、分布式視頻抓取。采用通用的分布式視頻抓取系統(tǒng),對每一個(gè)來自熱點(diǎn)池的熱點(diǎn)的關(guān)鍵詞,從各大原始熱點(diǎn)來源網(wǎng)站獲取相關(guān)視頻鏈接。如圖8所示,為分布式視頻抓取流程的一種示例:步驟801、發(fā)送熱點(diǎn)及其關(guān)鍵詞到原始熱點(diǎn)獲取網(wǎng)站。例如,把熱點(diǎn)及其關(guān)鍵詞作為抓取命令發(fā)送至原始熱點(diǎn)獲取網(wǎng)站,如百度、搜狗、微博、優(yōu)酷的視頻搜索等。步驟802、從原始網(wǎng)站獲取搜索視頻結(jié)果中的視頻鏈接和標(biāo)題。步驟803、使用例如布隆過濾器對已經(jīng)處理過的視頻鏈接進(jìn)行去重,例如忽略已經(jīng)處理過的視頻鏈接。步驟804、提取視頻標(biāo)題的關(guān)鍵詞(方法同第一個(gè)模塊),按照式3計(jì)算熱點(diǎn)的關(guān)鍵詞和視頻標(biāo)題的關(guān)鍵詞的相似度。然后可以忽略相似度在例如0.7以下的視頻。式3中,SA,B表示相似度;A=[w1,w2,…wi,…wn],wi表示熱點(diǎn)的第i個(gè)關(guān)鍵詞的權(quán)重(計(jì)算方法可以參見上述的式1和式2);B=[x1,x2,…xi,…xn],xi表示標(biāo)題的第i個(gè)關(guān)鍵詞的權(quán)重;n為關(guān)鍵詞總數(shù)。其中,在i的取值相同的情況下,熱點(diǎn)的第i個(gè)關(guān)鍵詞與標(biāo)題的第i個(gè)關(guān)鍵詞為相同的詞。假設(shè)熱點(diǎn)的關(guān)鍵詞中有某個(gè)詞,但是在標(biāo)題的關(guān)鍵詞中沒有該詞,則計(jì)算相似度時(shí)可以將這個(gè)詞對應(yīng)的權(quán)重xi設(shè)置為0。反之類似。此外,還利用Simhash計(jì)算標(biāo)題的文本指紋,并去除指紋已存在于所采集的視頻庫中的視頻。步驟703、視頻處理:將視頻熱點(diǎn)的關(guān)鍵詞、地域、指紋等以及視頻文件本身(或視頻鏈接),一起存儲到本地硬盤(例如所采集的視頻庫)。三、視頻后期處理模塊視頻后期處理模塊可以對已經(jīng)存儲的視頻內(nèi)容進(jìn)行處理。例如對視頻進(jìn)行壓縮、對視頻的標(biāo)題進(jìn)行美化等操作。四、人工干預(yù)模塊整個(gè)系統(tǒng)處理流程之外,還可以設(shè)置人工干預(yù)模塊。例如,提供一個(gè)網(wǎng)頁界面,可以對自動(dòng)發(fā)現(xiàn)的網(wǎng)絡(luò)熱點(diǎn)進(jìn)行刪除、增加、修改等操作。人工干預(yù)模塊是對自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)的補(bǔ)充。本實(shí)施例通過采集熱點(diǎn)詞構(gòu)建熱點(diǎn)池,再根據(jù)熱點(diǎn)池中的熱點(diǎn)采集熱點(diǎn)資源,具有如下優(yōu)點(diǎn):1、可以實(shí)時(shí)追蹤最新最熱的視頻。2、可以全面覆蓋用戶關(guān)注熱點(diǎn)。3、可以對社交分享的熱門視頻形成差異補(bǔ)充。4、可以發(fā)現(xiàn)各個(gè)地域的熱門視頻,形成長尾效應(yīng)。實(shí)施例3圖9示出根據(jù)本發(fā)明一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。如圖9所示,該內(nèi)容采集裝置可以包括:熱點(diǎn)詞采集模塊91,用于從各內(nèi)容源采集各熱點(diǎn)詞;構(gòu)建模塊93,用于根據(jù)所采集的各熱點(diǎn)詞構(gòu)建熱點(diǎn)池;資源采集模塊95,用于從所述熱點(diǎn)池中讀取待處理熱點(diǎn),并從各內(nèi)容源中采集與所述待處理熱點(diǎn)相關(guān)的熱點(diǎn)資源。其中,熱點(diǎn)詞采集模塊91和構(gòu)建模塊93的功能的示例,可以參見上述實(shí)施例中網(wǎng)絡(luò)熱點(diǎn)監(jiān)控模塊401的相關(guān)描述。資源采集模塊95的功能的示例,可以參見上述實(shí)施例中視頻采集模塊402的相關(guān)描述。實(shí)施例4圖10示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。圖10中標(biāo)號與圖9相同的組件具有相同的功能,為簡明起見,省略對這些組件的詳細(xì)說明。如圖10所示,與上一實(shí)施例的主要區(qū)別在于,所述熱點(diǎn)詞采集模塊91可以包括:第一獲取子模塊911,用于從搜索引擎、社交媒體和資源網(wǎng)站中的至少一種內(nèi)容源,獲取各熱門搜索詞及其對應(yīng)的搜索排名和獲取時(shí)間;第一選取子模塊913,用于根據(jù)各熱門搜索詞對應(yīng)的搜索排名和獲取時(shí)間,從各熱門搜索詞中選取用于構(gòu)建所述熱點(diǎn)池的各熱點(diǎn)詞。在一種可能的實(shí)現(xiàn)方式中,所述構(gòu)建模塊93包括:搜索結(jié)果子模塊931,用于在各所述內(nèi)容源獲取各熱點(diǎn)詞對應(yīng)的各搜索結(jié)果;關(guān)鍵詞提取子模塊933,用于采用網(wǎng)頁正文抽取方法,從各所述搜索結(jié)果中抽取正文,并從所抽取的正文中提取各關(guān)鍵詞;指紋計(jì)算子模塊935,用于計(jì)算各所述關(guān)鍵詞對應(yīng)的指紋;第一保存子模塊937,用于將各所述關(guān)鍵詞及其對應(yīng)的指紋保存在熱點(diǎn)池中。在一種可能的實(shí)現(xiàn)方式中,所述第一保存子模塊937還用于若所述熱點(diǎn)池中不存在所述關(guān)鍵詞對應(yīng)的指紋,則從所述關(guān)鍵詞中提取地域?qū)傩?;將每個(gè)關(guān)鍵詞及其對應(yīng)的指紋和地域?qū)傩员4娴剿鰺狳c(diǎn)池中。在一種可能的實(shí)現(xiàn)方式中,所述關(guān)鍵詞提取子模塊933還用于:按照式1計(jì)算對所抽取的正文進(jìn)行去重后的各個(gè)詞的權(quán)重,wi=tfi*idfi式1,式1中的wi表示第i個(gè)詞的權(quán)重,tfi是第i個(gè)詞在所抽取的正文的所有詞中的詞頻,idfi是第i個(gè)詞的IDF值;計(jì)算所抽取的正文的所有詞的平均權(quán)重及權(quán)重的標(biāo)準(zhǔn)差;從所抽取的正文的所有詞中提取權(quán)重超過平均值的詞作為關(guān)鍵詞。在一種可能的實(shí)現(xiàn)方式中,所述資源采集模塊95包括:讀取子模塊951,用于從所述熱點(diǎn)池中讀取所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋和地域?qū)傩?;抓取子模塊953,用于采用分布式抓取系統(tǒng),從各內(nèi)容源獲取與所述待處理熱點(diǎn)的關(guān)鍵詞相關(guān)的熱點(diǎn)資源;第三保存子模塊955,用于保存所述待處理熱點(diǎn)所包括的各關(guān)鍵詞以及各關(guān)鍵詞對應(yīng)的指紋、地域?qū)傩院蜔狳c(diǎn)資源。在一種可能的實(shí)現(xiàn)方式中,所述抓取子模塊953還用于各所述內(nèi)容源發(fā)送抓取命令,所述抓取命令中包括所述待處理熱點(diǎn)的關(guān)鍵詞;從各所述內(nèi)容源獲取與所述關(guān)鍵詞相關(guān)的資源鏈接和標(biāo)題;過濾掉已經(jīng)處理過的資源鏈接;從所述標(biāo)題中提取標(biāo)題關(guān)鍵詞;計(jì)算所述待處理熱點(diǎn)的關(guān)鍵詞與所提取的標(biāo)題關(guān)鍵詞的相似度和/或所述標(biāo)題的指紋;根據(jù)所述相似度和/或所述標(biāo)題的指紋從資源鏈接中獲取熱點(diǎn)資源。在一種可能的實(shí)現(xiàn)方式中,該裝置還包括:后期處理模塊97,用于對各所述熱點(diǎn)資源進(jìn)行后期處理,所述后期處理包括壓縮和/或標(biāo)題美化。后期處理模塊97的功能的示例,可以參見上述實(shí)施例中后期處理模塊403的相關(guān)描述。在一種可能的實(shí)現(xiàn)方式中,該裝置還包括:用戶處理模塊99,用于在交互界面檢測用戶操作,所述用戶操作包括對所述熱點(diǎn)資源進(jìn)行刪除、增加和修改中的至少一項(xiàng)處理;根據(jù)所述用戶操作,對各所述熱點(diǎn)資源進(jìn)行相應(yīng)處理。用戶處理模塊99的功能的示例,可以參見上述實(shí)施例中人工干預(yù)模塊404的相關(guān)描述。關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。本發(fā)明實(shí)施例的內(nèi)容采集裝置,通過采集熱點(diǎn)詞構(gòu)建熱點(diǎn)池,再根據(jù)熱點(diǎn)池中的熱點(diǎn)自動(dòng)采集熱點(diǎn)資源,能夠全面覆蓋用戶的關(guān)注熱點(diǎn),與人工采集相比,可以實(shí)時(shí)追蹤最新最熱的資源,采集效率高。進(jìn)一步地,可以對用戶的社交分享的資源形成差異補(bǔ)充。進(jìn)一步地,通過采集各關(guān)鍵詞地域?qū)傩?,有利于發(fā)現(xiàn)各個(gè)地域的熱點(diǎn)資源,形成長尾效應(yīng)。實(shí)施例5圖11示出根據(jù)本發(fā)明另一實(shí)施例的內(nèi)容采集裝置的結(jié)構(gòu)框圖。所述內(nèi)容采集裝置1100可以是具備計(jì)算能力的主機(jī)服務(wù)器、個(gè)人計(jì)算機(jī)PC、或者可攜帶的便攜式計(jì)算機(jī)或終端等。本發(fā)明具體實(shí)施例并不對計(jì)算節(jié)點(diǎn)的具體實(shí)現(xiàn)做限定。所述內(nèi)容采集裝置1100包括處理器(processor)1110、通信接口(CommunicationsInterface)1120、存儲器(memory)1130和總線1140。其中,處理器1110、通信接口1120、以及存儲器1130通過總線1140完成相互間的通信。通信接口1120用于與網(wǎng)絡(luò)設(shè)備通信,其中網(wǎng)絡(luò)設(shè)備包括例如虛擬機(jī)管理中心、共享存儲等。處理器1110用于執(zhí)行程序。處理器1110可能是一個(gè)中央處理器CPU,或者是專用集成電路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。存儲器1130用于存放文件。存儲器1130可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個(gè)磁盤存儲器。存儲器1130也可以是存儲器陣列。存儲器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。在一種可能的實(shí)施方式中,上述程序可為包括計(jì)算機(jī)操作指令的程序代碼。該程序具體可用于:執(zhí)行實(shí)施例1和實(shí)施例2中的內(nèi)容采集方法。本領(lǐng)域普通技術(shù)人員可以意識到,本文所描述的實(shí)施例中的各示例性單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件形式來實(shí)現(xiàn),取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以針對特定的應(yīng)用選擇不同的方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。如果以計(jì)算機(jī)軟件的形式來實(shí)現(xiàn)所述功能并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),則在一定程度上可認(rèn)為本發(fā)明的技術(shù)方案的全部或部分(例如對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分)是以計(jì)算機(jī)軟件產(chǎn)品的形式體現(xiàn)的。該計(jì)算機(jī)軟件產(chǎn)品通常存儲在計(jì)算機(jī)可讀取的非易失性存儲介質(zhì)中,包括若干指令用以使得計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各實(shí)施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括U盤、移動(dòng)硬盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1