專利名稱:一種搜索不良視頻網(wǎng)站的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息檢索技術(shù)領(lǐng)域,尤其涉及一種搜索不良視頻網(wǎng)站的方法。
技術(shù)背景
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們對(duì)互聯(lián)網(wǎng)依賴日益強(qiáng)烈,互聯(lián)網(wǎng)信息內(nèi)容,尤其 是多媒體內(nèi)容,也在急速增長(zhǎng)。與此同時(shí),互聯(lián)網(wǎng)絡(luò)信息的多媒體內(nèi)容中的不良視頻內(nèi)容亦 迅猛增長(zhǎng)。
目前,互聯(lián)網(wǎng)中的不良視頻服務(wù)網(wǎng)站主要包括(1)直接提供不良視頻內(nèi)容點(diǎn)播 服務(wù)的視頻服務(wù)網(wǎng)站,這類網(wǎng)站特點(diǎn)是按照多種分類標(biāo)準(zhǔn),以目錄瀏覽方式提供不良視頻 內(nèi)容點(diǎn)播服務(wù);(2)提供P2P不良視頻資源共享下載的服務(wù)網(wǎng)站;如BT種子文件所指向的 主要不良視頻資源下載網(wǎng)站;(3)提供P2P實(shí)時(shí)不良視頻直播的服務(wù)網(wǎng)站。
由于上述三類不良視頻服務(wù)網(wǎng)站數(shù)量非常之多,而且還在不斷增加和變化。因此, 需要有一種信息搜索技術(shù)方案,以便于可以從互聯(lián)網(wǎng)海量信息中,自動(dòng)地發(fā)現(xiàn)和檢索出包 含不良視頻內(nèi)容的網(wǎng)站。然而,現(xiàn)有的互聯(lián)網(wǎng)搜索引擎,如Google和Baidu等搜索引擎,仍 然無法準(zhǔn)確有效地搜索出提供不良視頻服務(wù)的網(wǎng)站。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種搜索不良視頻網(wǎng)站的方法,以便能夠準(zhǔn)確有效地從少量 的互聯(lián)網(wǎng)信息中自動(dòng)地發(fā)現(xiàn)和檢索出包含不良視頻內(nèi)容的網(wǎng)站。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的
一種搜索不良視頻網(wǎng)站的方法,包括
根據(jù)搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞構(gòu)造搜索請(qǐng)求;
獲取搜索引擎根據(jù)所述搜索請(qǐng)求返回的搜索結(jié)果,并獲取搜索結(jié)果中的網(wǎng)站地址 和關(guān)聯(lián)搜索關(guān)鍵詞;
根據(jù)當(dāng)前搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題的相關(guān)程度以及 產(chǎn)生新的不良網(wǎng)站地址的能力,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞;
判斷搜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁,若屬于,則抽 取出網(wǎng)站的名稱,將該網(wǎng)站名稱和網(wǎng)址加入到視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中;若不屬于,則丟棄該 網(wǎng)站地址;
判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度,并將健康程度低于第一健康 度閾值的網(wǎng)站網(wǎng)址存入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中。
該方法還包括
根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的元素標(biāo)簽中的關(guān)鍵詞和 描述信息中的內(nèi)容,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù);
和/ 或,
根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的轉(zhuǎn)向其他網(wǎng)站的鏈接,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)。所述判斷捜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁的步驟包括載入網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁并運(yùn)行網(wǎng)頁上的腳本,判斷是否存在生成播放器的特征超文本標(biāo)記語言HTML標(biāo)簽,若存在,則確定該網(wǎng)頁中的候選播放器;再分析所述候選播放器對(duì)象的視覺特征,以確定播放器播放的視頻畫面的大小是否滿足預(yù)定的尺寸閥值,若是,則確定該網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁;或者,根據(jù)所述網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁與視頻網(wǎng)頁模板中的網(wǎng)頁的匹配度判斷該網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁。在確定所述網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁后,將該網(wǎng)頁存為視頻網(wǎng)頁模板,所述視頻網(wǎng)頁模板用于作為判斷其他網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁的依據(jù)。更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的捜索關(guān)鍵詞的步驟包括判斷所述搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題相關(guān)程度,若當(dāng)前返回的搜索結(jié)果中視頻服務(wù)網(wǎng)站類的網(wǎng)址的比例超過預(yù)定值,則判斷當(dāng)前搜索關(guān)鍵詞產(chǎn)生新的網(wǎng)站地址的能力,若當(dāng)前返回的搜索結(jié)果中網(wǎng)站網(wǎng)址包含于預(yù)定的候選網(wǎng)址數(shù)據(jù)庫(kù)中的比例低于預(yù)定值,則將本次捜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞増加到所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中,所述候選網(wǎng)址數(shù)據(jù)庫(kù)中記錄著根據(jù)之前的捜索結(jié)果獲得的網(wǎng)站網(wǎng)址。在判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度之前,還包括將所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的非首頁地址合并規(guī)約為視頻服務(wù)網(wǎng)站首頁的地址的步驟,且該步驟包括對(duì)于視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的兩個(gè)不同的網(wǎng)站,判斷兩者的主機(jī)名稱是否相同,若相同,則判斷兩者之間對(duì)應(yīng)的網(wǎng)站名稱是否相同,若相同,則比較兩者的路徑深度的大小,將路徑深度大的網(wǎng)站規(guī)約為路徑深度小的網(wǎng)站,依次類推,直到處理完成所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的所有網(wǎng)站。提取所述網(wǎng)站名稱的方式包括提取出同一個(gè)網(wǎng)站下不同網(wǎng)頁標(biāo)題標(biāo)簽的內(nèi)容,并利用最長(zhǎng)公共字符串算法提取出同一個(gè)網(wǎng)站不同網(wǎng)頁標(biāo)題標(biāo)簽中出現(xiàn)頻率最高的內(nèi)容作為網(wǎng)站的名稱。所述判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度的步驟包括對(duì)于待評(píng)估網(wǎng)站,根據(jù)網(wǎng)站深度選取預(yù)定數(shù)量的網(wǎng)頁,并對(duì)每ー個(gè)網(wǎng)頁構(gòu)建對(duì)應(yīng)的網(wǎng)頁本體圖;計(jì)算每個(gè)網(wǎng)頁本體圖與預(yù)定的不良網(wǎng)站模板中的網(wǎng)站對(duì)應(yīng)深度的網(wǎng)頁的本體圖的相似度,井根據(jù)所述相似度與不良網(wǎng)站模板中的網(wǎng)站的評(píng)分,確定待評(píng)估網(wǎng)站相對(duì)于該不良網(wǎng)站模板中的網(wǎng)站的健康得分;根據(jù)待評(píng)估網(wǎng)站相對(duì)于所有不良網(wǎng)站模板中的網(wǎng)站的健康得分,計(jì)算所述待評(píng)估網(wǎng)站的健康值。若所述待評(píng)估網(wǎng)站的健康值低于設(shè)定的第二健康度閾值,則將該待評(píng)估網(wǎng)站加入不良網(wǎng)站模板中,用以更新包含所述不良網(wǎng)站模板的不良網(wǎng)站模板庫(kù)。所述第一健康度閾值大于所述第二健康度閾值。
由上述本發(fā)明提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例提供的有效地解決了現(xiàn)有 網(wǎng)絡(luò)搜索引擎無法準(zhǔn)確和高效地發(fā)現(xiàn)和搜索視頻服務(wù)網(wǎng)站的這一技術(shù)問題。從而提供了一 種能夠準(zhǔn)確有效地從少量的互聯(lián)網(wǎng)信息中自動(dòng)地發(fā)現(xiàn)和檢索出包含不良視頻內(nèi)容的網(wǎng)站 的技術(shù)方案,進(jìn)而為針對(duì)不良視頻網(wǎng)站的有效控制管理提供了便利條件。
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 附圖。
圖1為本發(fā)明實(shí)施例提供的方法的處理流程示意圖2A為本發(fā)明實(shí)施例的總體實(shí)現(xiàn)架構(gòu)示意圖一;
圖2B為本發(fā)明實(shí)施例的總體實(shí)現(xiàn)架構(gòu)示意圖二 ;
圖3為本發(fā)明實(shí)施例中的搜索代理模塊流程圖4為本發(fā)明實(shí)施例中的搜索結(jié)果處理模塊流程圖5為本發(fā)明實(shí)施例中的關(guān)鍵詞評(píng)估模塊流程圖6為本發(fā)明實(shí)施例中的網(wǎng)址分析模塊流程圖7為本發(fā)明實(shí)施例中的網(wǎng)址合并模塊流程圖8為本發(fā)明實(shí)施例中的網(wǎng)站健康度評(píng)估流程圖9為本發(fā)明實(shí)施例中的網(wǎng)頁本體圖構(gòu)建流程圖10為本發(fā)明實(shí)施例中的網(wǎng)頁本體圖OGdl ;
圖11為本發(fā)明實(shí)施例中的網(wǎng)頁本體圖OGd2。
具體實(shí)施方式
下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整 地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒?發(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明的保護(hù)范圍。
下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步地詳細(xì)描述。
本發(fā)明實(shí)施例提供了一種搜索不良視頻網(wǎng)站的方法,其具體實(shí)現(xiàn)方式如圖1所 示,可以包括以下處理過程
步驟11,根據(jù)搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞構(gòu)造搜索請(qǐng)求,在該搜索關(guān)鍵詞 數(shù)據(jù)庫(kù)中包含至少一個(gè)搜索關(guān)鍵詞;
步驟12,獲取搜索引擎根據(jù)所述搜索請(qǐng)求返回的搜索結(jié)果,并獲取搜索結(jié)果中的 網(wǎng)站地址和關(guān)聯(lián)搜索關(guān)鍵詞;
其中,所述的關(guān)聯(lián)搜索關(guān)鍵詞可以為所述搜索結(jié)果頁面下方列舉出的相關(guān)搜索關(guān) 鍵詞,如百度或谷歌返回的搜索結(jié)果頁面下的相關(guān)搜索關(guān)鍵詞;
步驟13,根據(jù)當(dāng)前搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題的相關(guān)程 度以及產(chǎn)生新的不良網(wǎng)站地址的能力,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞;
具體地,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的捜索關(guān)鍵詞的具體實(shí)現(xiàn)方式可以包括以下處理過程(I)判斷所述搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題相關(guān)程度,若當(dāng)前返回的搜索結(jié)果中視頻服務(wù)網(wǎng)站類的網(wǎng)址的比例低于預(yù)定值(如超過75%等),則認(rèn)為這次搜索結(jié)果頁面下方的相關(guān)搜索關(guān)鍵詞與捜索主題相差較遠(yuǎn),故不將本次捜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞増加到所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中,否則,執(zhí)行過程(2);(2)判斷當(dāng)前搜索關(guān)鍵詞產(chǎn)生新的網(wǎng)站地址的能力,若當(dāng)前返回的搜索結(jié)果中網(wǎng)站網(wǎng)址包含于預(yù)定的候選網(wǎng)址數(shù)據(jù)庫(kù)中的比例低于預(yù)定值(如低于75%等),則認(rèn)為這次搜索結(jié)果頁面下方的相關(guān)搜索關(guān)鍵詞產(chǎn)生新的視頻網(wǎng)站地址的能力較強(qiáng),故將本次捜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞増加到所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中,否則,則認(rèn)為這次捜索結(jié)果頁面下方的相關(guān)搜索關(guān)鍵詞產(chǎn)生新的視頻網(wǎng)站地址的能力較差,故不將本次捜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞増加到所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中;其中,所述候選網(wǎng)址數(shù)據(jù)庫(kù)中記錄著根據(jù)之前的搜索結(jié)果獲得的網(wǎng)站網(wǎng)址。步驟14,判斷捜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁,若屬干,則抽取出網(wǎng)站的名稱,將該網(wǎng)站名稱和網(wǎng)址加入到視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中;若不屬干,則丟棄該網(wǎng)站地址;具體地,在該步驟14中,判斷捜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁的處理方式具體可以包括以下任意ー種(I)載入網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁并運(yùn)行網(wǎng)頁上的腳本,判斷是否存在生成播放器的特征HTML (超文本標(biāo)記語言)標(biāo)簽,若存在,則確定該網(wǎng)頁中的候選播放器;再分析所述候選播放器對(duì)象的視覺特征,如大小、坐標(biāo)等,以確定播放器播放的視頻畫面的大小是否滿足預(yù)定的尺寸閥值(如播放器播放的視頻畫面的右邊界到頁面的右邊界的距離、上邊界到頁面上邊界的距離、下邊界到頁面下邊界的距離是否滿足一定閥值),若是,則確定該網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁;(2)根據(jù)所述網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁與視頻網(wǎng)頁模板中的網(wǎng)頁的匹配度判斷該網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁。可選地,由于同一類型網(wǎng)頁的DOM樹結(jié)構(gòu)是基本相同的,因此,在確定所述網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁后,還可以將該網(wǎng)頁存為視頻網(wǎng)頁模板,以用于作為判斷其他網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁的依據(jù)。需要說明的是,上述步驟13和步驟14的執(zhí)行時(shí)序不分先后,或者,兩個(gè)步驟也可以同時(shí)執(zhí)行。步驟15,判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度,并將健康程度低于第一健康度閾值的網(wǎng)站網(wǎng)址存入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中;具體地,在該步驟15中,判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度的步驟可以但不限于包括首先,對(duì)于待評(píng)估網(wǎng)站,根據(jù)網(wǎng)站深度選取預(yù)定數(shù)量的網(wǎng)頁,并對(duì)每ー個(gè)網(wǎng)頁構(gòu)建對(duì)應(yīng)的網(wǎng)頁本體圖;其中,相應(yīng)的網(wǎng)頁本體圖中可以包含有網(wǎng)頁中存在的術(shù)語信息,以及根據(jù)存在術(shù)語之間的相近關(guān)系以及術(shù)語在網(wǎng)頁術(shù)語中出現(xiàn)的頻率得到的不同術(shù)語間帶權(quán)值的有向邊以及有向邊向量的數(shù)值;
之后,計(jì)算每個(gè)網(wǎng)頁本體圖與預(yù)定的不良網(wǎng)站模板中的網(wǎng)站對(duì)應(yīng)深度網(wǎng)頁的網(wǎng)頁 本體圖的相似度(例如,對(duì)于不良模板網(wǎng)站A,計(jì)算待評(píng)估網(wǎng)站的不同網(wǎng)頁與不良模板網(wǎng)站 A的相似度的平均值,從而得出待評(píng)估網(wǎng)站對(duì)于該不良模板網(wǎng)站A的相似度),并根據(jù)所述 相似度與不良網(wǎng)站模板中的網(wǎng)站的評(píng)分,確定待評(píng)估網(wǎng)站相對(duì)于該不良網(wǎng)站模板中的網(wǎng)站 的健康得分;即可以在得出待評(píng)估網(wǎng)站對(duì)于該不良模板網(wǎng)站A的相似度后,根據(jù)相似度與 不良網(wǎng)站模板中的不良模板網(wǎng)站A的評(píng)分,基于預(yù)定的算法可以得出相對(duì)于不良模板網(wǎng)站 A的待評(píng)估網(wǎng)站的健康得分;
最后,根據(jù)待評(píng)估網(wǎng)站相對(duì)于所有不良網(wǎng)站模板中的網(wǎng)站的健康得分,計(jì)算所述 待評(píng)估網(wǎng)站的健康值;具體地,可以基于不良網(wǎng)站模板包含的其他所有模板網(wǎng)站分別計(jì)算 出待評(píng)估網(wǎng)站的健康得分,然后計(jì)算待評(píng)估網(wǎng)站的多個(gè)健康得分均值,從而計(jì)算獲得待評(píng) 估網(wǎng)站的健康值。
可選地,在判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度的處理過程中,本 發(fā)明實(shí)施例提供的技術(shù)方案還可以包括
若所述待評(píng)估網(wǎng)站的健康值低于設(shè)定的第二健康度閾值,則將該待評(píng)估網(wǎng)站加入 不良網(wǎng)站模板中,用以更新包含所述不良網(wǎng)站模板的不良網(wǎng)站模板庫(kù)。進(jìn)一步地,所述第一 健康度閾值可以大于所述第二健康度閾值。具體地,如果待評(píng)估網(wǎng)站的健康值低于不良網(wǎng) 站模板設(shè)定的閾值(即第二健康度閾值),如小于1,則可以將待評(píng)估網(wǎng)站加入不良網(wǎng)站模板 中,用以更新不良網(wǎng)站模板庫(kù),同時(shí)還可以檢測(cè)不良網(wǎng)站模板庫(kù)中是否存在已經(jīng)廢棄的不 良網(wǎng)站模板,若有,則將其刪除,另外,還需要將該待評(píng)估網(wǎng)站加入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中; 若待評(píng)估網(wǎng)站健康值小于第一健康度閾值且大于第二健康度閾值,如小于3大于是,則可 以僅將該待評(píng)估網(wǎng)站加入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中,而不將其加入不良網(wǎng)站模板庫(kù)中。若待 評(píng)估網(wǎng)站健康值大于第一健康度閾值,則丟棄該待評(píng)估網(wǎng)站。
在上述處理過程中,相應(yīng)的搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中包含的搜索關(guān)鍵詞還可以采用以 下至少一種方式進(jìn)行更新處理,其中
方式一根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的元素標(biāo)簽中的關(guān) 鍵詞和描述信息中的內(nèi)容,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù);即在經(jīng)過上述步驟14的網(wǎng)站網(wǎng)址 評(píng)估處理后,獲得與視頻服務(wù)主題相關(guān)的網(wǎng)頁中,并根據(jù)該與視頻服務(wù)主題相關(guān)的網(wǎng)頁中 的 〃〈meta name=〃keywords〃標(biāo)簽和 〃〈meta name=description〃標(biāo)簽的內(nèi)容,解析出相應(yīng) 的搜索關(guān)鍵詞,再將解析出的搜索關(guān)鍵詞更新至所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中;
方式二 根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的轉(zhuǎn)向其他網(wǎng)站的 鏈接,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù),例如,可以根據(jù)轉(zhuǎn)向其他網(wǎng)站的鏈接中的網(wǎng)址,獲得該 網(wǎng)址中的關(guān)鍵詞語描述標(biāo)簽,并利用該關(guān)鍵詞語描述標(biāo)簽來更新關(guān)鍵詞。
本發(fā)明實(shí)施例中,在執(zhí)行步驟15以判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健 康程度之前,還可以包括將所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的非首頁地址合并規(guī)約為視頻服務(wù) 網(wǎng)站首頁的地址的處理步驟,且該處理步驟具體可以包括
對(duì)于視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的兩個(gè)不同的網(wǎng)站,判斷兩者的主機(jī)名稱是否相同, 若相同,則判斷兩者之間對(duì)應(yīng)的網(wǎng)站名稱是否相同,若相同,則比較兩者的路徑深度的大 小,將路徑深度大的網(wǎng)站規(guī)約為路徑深度小的網(wǎng)站,依次類推,直到處理完成所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的所有網(wǎng)站。例如,對(duì)于兩個(gè)不同的網(wǎng)站地址Ul和U2,首先判斷它們的主機(jī)名稱是否相同,如果不同則不能合并,如果兩者的主機(jī)名稱相同,則進(jìn)一歩判斷它們對(duì)應(yīng)的網(wǎng)站名稱是否相同,如果不同也不能合并,如果兩者的網(wǎng)站名稱相同,則進(jìn)ー步比較該兩個(gè)網(wǎng)站地址的路徑深度的大小,如果Ul的路徑深度小于U2,則認(rèn)為U2是Ul對(duì)應(yīng)的網(wǎng)站的一部分,可以將U2規(guī)約為Ul ;反之亦然??蛇x地,在上述處理過程中為獲得網(wǎng)站的網(wǎng)站名稱,則還可以包括提取所述網(wǎng)絡(luò)名稱的處理步驟,且提取所述網(wǎng)站名稱的方式具體可以包括提取出同一個(gè)網(wǎng)站下不同網(wǎng)頁標(biāo)題標(biāo)簽(S卩〃くtitle〉"標(biāo)簽)的內(nèi)容,并利用最長(zhǎng)公共字符串算法提取出同一個(gè)網(wǎng)站不同網(wǎng)頁標(biāo)題標(biāo)簽中出現(xiàn)頻率最高的內(nèi)容作為網(wǎng)站的名稱,以實(shí)現(xiàn)相應(yīng)的提取所述網(wǎng)站名稱的操作。
為便于理解,下面將結(jié)合具體的應(yīng)用對(duì)本發(fā)明的實(shí)現(xiàn)過程進(jìn)行詳細(xì)說明。本發(fā)明實(shí)施例在具體應(yīng)用過程中可以如圖2A所示,包括各搜索引擎代理,以及結(jié)果抽取、關(guān)鍵詞評(píng)估、網(wǎng)址分析、網(wǎng)址合并和網(wǎng)站健康度評(píng)估模塊。且各模塊之間共享同一個(gè)數(shù)據(jù)庫(kù),每個(gè)模塊都可以部署在単獨(dú)的機(jī)器上,也可以部署于同一臺(tái)機(jī)器中。圖1所示的處理架構(gòu)可以支持任意的〃n+i〃模式,其中,N表示任意多臺(tái)主機(jī)(主機(jī)中包含上述各個(gè)處理模塊),I表示共享的數(shù)據(jù)庫(kù)。這樣便可以使任意多臺(tái)主機(jī)運(yùn)行同一組處理模塊,且各主機(jī)通過共享數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的交換。通過這樣的處理架構(gòu)可以有效地提高系統(tǒng)的整體性能,即提高捜索不良網(wǎng)站的處理性能。在圖1中,相應(yīng)的共享數(shù)據(jù)庫(kù)可以包括捜索關(guān)鍵詞數(shù)據(jù)庫(kù)、候選網(wǎng)址數(shù)據(jù)庫(kù)、視頻網(wǎng)站模板數(shù)據(jù)庫(kù)、視頻網(wǎng)站數(shù)據(jù)庫(kù)、中間臨時(shí)數(shù)據(jù)庫(kù)和不良視頻網(wǎng)站數(shù)據(jù)庫(kù),以及不良視頻網(wǎng)站模板數(shù)據(jù)庫(kù)、視頻網(wǎng)址模板數(shù)據(jù)庫(kù)和視頻網(wǎng)址數(shù)據(jù)庫(kù)。在圖2A中,為了最大限度的捜索和發(fā)現(xiàn)視頻服務(wù)網(wǎng)站,綜合使用了 Baidu、G00gle、Bing、Yah00這四大搜索引擎,每個(gè)搜索引擎對(duì)應(yīng)ー個(gè)不同的搜索引擎代理模塊,而結(jié)果抽取、關(guān)鍵詞評(píng)估、網(wǎng)址分析、網(wǎng)址合并和網(wǎng)站健康度評(píng)估模塊則可以是共享的。本發(fā)明實(shí)施例的總體實(shí)現(xiàn)架構(gòu)如圖2B所示,可以包括捜索代理模塊Ml、捜索結(jié)果處理模塊M2、關(guān)鍵詞評(píng)估模塊M3、網(wǎng)址分析模塊M4、網(wǎng)址合并模塊M5和網(wǎng)站健康度評(píng)估模塊M6。下面將分別描述各個(gè)模塊的功能作用,其中搜索代理模塊Ml,用于根據(jù)搜索關(guān)鍵詞數(shù)據(jù)庫(kù)自動(dòng)生成搜索引擎的搜索請(qǐng)求,并獲取基于搜索請(qǐng)求返回的捜索結(jié)果;捜索結(jié)果處理模塊M2,用于搜索結(jié)果抽取,具體用于解析上述捜索代理模塊Ml獲取的捜索結(jié)果,定位并抽取出捜索結(jié)果中的網(wǎng)站地址(即網(wǎng)站網(wǎng)址)和返回的捜索結(jié)果頁面下方的相關(guān)搜索關(guān)鍵詞C (即關(guān)聯(lián)搜索關(guān)鍵詞);關(guān)鍵詞評(píng)估模塊M3,用于判斷當(dāng)前捜索返回結(jié)果頁面下方的關(guān)聯(lián)搜索關(guān)鍵詞C與視頻服務(wù)網(wǎng)站的主題(如美食或足球等主題)相關(guān)程度以及產(chǎn)生新的視頻網(wǎng)站地址的能力,如果相關(guān)捜索關(guān)鍵詞C的捜索主題相關(guān)程度低或者產(chǎn)生新的視頻網(wǎng)站地址的能力弱,則不再將其擴(kuò)展到搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中;網(wǎng)址分析模塊M4,用于利用視頻網(wǎng)址自動(dòng)識(shí)別知識(shí)和網(wǎng)址與視頻網(wǎng)站模板相似度,判斷當(dāng)前網(wǎng)頁是否屬于視頻服務(wù)類,若是,則抽取出網(wǎng)站的名稱,將該網(wǎng)站名稱及網(wǎng)址L加入到視頻服務(wù)網(wǎng)站集D3 (即視頻網(wǎng)址數(shù)據(jù)庫(kù))中,并利用網(wǎng)頁中特定的HTML標(biāo)簽的內(nèi)容對(duì)搜索關(guān)鍵詞數(shù)據(jù)庫(kù)Dl進(jìn)行擴(kuò)展;若不是,則丟棄該網(wǎng)址,并修改候選網(wǎng)址數(shù)據(jù)庫(kù)D2中相 應(yīng)網(wǎng)址的類型,以便關(guān)鍵詞評(píng)估模塊M3進(jìn)行關(guān)鍵詞評(píng)估時(shí)作參考;其中,修改相應(yīng)的網(wǎng)址 的類型即為對(duì)于那些非視頻網(wǎng)站要對(duì)其類型修改,標(biāo)識(shí)出其類型為非視頻網(wǎng)站,對(duì)此類網(wǎng) 站,關(guān)鍵詞評(píng)估時(shí)可根據(jù)關(guān)鍵詞得到結(jié)果中是否含有此類網(wǎng)站以及含有這些網(wǎng)址數(shù)量的 多少,若含有此類網(wǎng)址多超過一定閾值,則可知關(guān)鍵詞擴(kuò)展能力差,可忽略,如不含有或者 含有的較少,低于閾值,則認(rèn)為關(guān)鍵詞擴(kuò)展能力強(qiáng),可保留。
網(wǎng)址合并模塊M5,用于將視頻網(wǎng)址集合D3(即視頻網(wǎng)址數(shù)據(jù)庫(kù))中的非首頁地址合 并規(guī)約為視頻服務(wù)網(wǎng)站首頁的地址,以找出視頻服務(wù)網(wǎng)站中的首頁,獲得視頻網(wǎng)站集合D4, 即視頻網(wǎng)站數(shù)據(jù)庫(kù)。
網(wǎng)站健康度評(píng)估模塊M6,用于對(duì)網(wǎng)址合并模塊M5獲得的視頻網(wǎng)站集合D4中的視 頻網(wǎng)站進(jìn)行健康度評(píng)估,以獲得其中的不良視頻網(wǎng)站,確定不良視頻網(wǎng)站集合D5,即不良視 頻網(wǎng)站數(shù)據(jù)庫(kù)。
為了更好理解圖2呈現(xiàn)的總體架構(gòu)示意圖的含義,下面將對(duì)架構(gòu)圖中的各個(gè)處理 模塊的功能作用進(jìn)行詳細(xì)描述。
(I)搜索代理模塊Ml
搜索代理模塊的處理流程如圖3所示,可以包括
步驟31,搜索代理模塊判斷搜索關(guān)鍵數(shù)據(jù)庫(kù)中是否還有未使用的搜索關(guān)鍵詞,如 果有,則取出該搜索關(guān)鍵詞,并置該搜索關(guān)鍵詞為已使用狀態(tài);
步驟32,搜索代理模塊根據(jù)取出的搜索關(guān)鍵詞生成搜索引擎的搜索請(qǐng)求;
步驟33,獲取返回的搜索結(jié)果,即相應(yīng)的搜索結(jié)果頁面,并將返回的搜索結(jié)果頁面 存入中間臨時(shí)數(shù)據(jù)庫(kù)中;
步驟34,判斷是否讀取到搜索結(jié)果的最后一頁,如果沒有讀取到最后一頁,則繼續(xù) 讀取下一頁的內(nèi)容;如果讀取到了最后一頁,則返回到步驟31,即判斷數(shù)據(jù)庫(kù)中是否還有 未使用的關(guān)鍵詞;
其中搜索代理模塊具體可以根據(jù)返回的搜索結(jié)果頁面內(nèi)容是否發(fā)生變化來判斷 是否讀取到了最后一頁。
(2)搜索結(jié)果處理模塊M2
搜索結(jié)果處理模塊的處理流程如圖4所示,可以包括
步驟41,從搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中獲取某個(gè)已使用的搜索關(guān)鍵詞,并對(duì)獲取的已使 用的搜索關(guān)鍵詞進(jìn)行標(biāo)記;
步驟42,從中間臨時(shí)數(shù)據(jù)庫(kù)的返回的搜索結(jié)果頁面中找出所有由此搜索關(guān)鍵詞發(fā) 現(xiàn)的搜索結(jié)果頁面;
步驟43,讀取出找出的由該搜索關(guān)鍵詞發(fā)現(xiàn)的搜索結(jié)果頁面,并在中間臨時(shí)數(shù)據(jù) 庫(kù)中刪除該搜索結(jié)果頁面;
步驟44,抽取出返回搜索結(jié)果頁面下方的相關(guān)搜索關(guān)鍵詞,以及返回的搜索結(jié)果 頁面中包含的網(wǎng)站地址,并將返回的網(wǎng)站地址放入候選網(wǎng)址數(shù)據(jù)庫(kù)中,以便于在后續(xù)的其 他搜索不良視頻網(wǎng)站的處理過程中作為判斷網(wǎng)址是否為新發(fā)現(xiàn)網(wǎng)址的依據(jù);
如果是前預(yù)定數(shù)量(如二十頁)的搜索結(jié)果頁面,則還需要將從搜索結(jié)果頁面下方 抽取出的相關(guān)搜索關(guān)鍵詞和網(wǎng)站地址放入中間臨時(shí)數(shù)據(jù)庫(kù)的搜索關(guān)鍵詞表中,在該搜索關(guān)鍵詞表中記錄著待評(píng)估的相關(guān)搜索關(guān)鍵詞(簡(jiǎn)稱待評(píng)估的捜索關(guān)鍵詞),以及與其相關(guān)聯(lián)的網(wǎng)站網(wǎng)址。重復(fù)執(zhí)行上述處理過程,直到根據(jù)標(biāo)記的情況確定捜索關(guān)鍵詞數(shù)據(jù)中的已使用的捜索關(guān)鍵詞均可以處理完成。(3)關(guān)鍵詞評(píng)估模塊M3關(guān)鍵詞評(píng)估模塊的處理流程如圖5所示,可以包括步驟51,判斷中間臨時(shí)數(shù)據(jù)庫(kù)的捜索關(guān)鍵詞表中是否存在待評(píng)估的搜索關(guān)鍵詞,如果沒有,則程序退出,如果有,則執(zhí)行步驟52 ;步驟52,取出與該待評(píng)估的捜索關(guān)鍵詞相關(guān)聯(lián)的所有網(wǎng)站網(wǎng)址記錄,在取出網(wǎng)站 網(wǎng)址記錄的同時(shí)將其從中間臨時(shí)數(shù)據(jù)庫(kù)中刪除;步驟53,調(diào)用網(wǎng)站評(píng)估模塊對(duì)這些網(wǎng)站地址進(jìn)行分析評(píng)估;步驟54,判斷所有非視頻服務(wù)網(wǎng)站的比例是否超過75%,如果是,則返回步驟51,否則,執(zhí)行步驟55;步驟55,利用候選網(wǎng)址數(shù)據(jù)庫(kù)判斷這些網(wǎng)站網(wǎng)址是否是新發(fā)現(xiàn)的網(wǎng)址,候選網(wǎng)址數(shù)據(jù)庫(kù)存放著所有返回的捜索結(jié)果頁面中得到的網(wǎng)站網(wǎng)址;步驟56,判斷所有不是新發(fā)現(xiàn)的網(wǎng)址的比例是否超過75%,如果是,則返回步驟51,否則,執(zhí)行步驟57 ;步驟57,將該評(píng)估的捜索關(guān)鍵詞放入捜索關(guān)鍵詞數(shù)據(jù)庫(kù)中,以實(shí)現(xiàn)對(duì)相應(yīng)的捜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的捜索關(guān)鍵詞的更新處理。(4 )網(wǎng)址分析模塊M4網(wǎng)址分析模塊的處理流程如圖6所示,可以包括步驟61,判斷候選網(wǎng)址數(shù)據(jù)庫(kù)中是否存在待評(píng)估的網(wǎng)址,如果沒有,則程序退出,否則,執(zhí)行步驟62;步驟62,讀取視頻網(wǎng)址模板數(shù)據(jù)庫(kù),判斷待評(píng)估的網(wǎng)址與其中視頻網(wǎng)址模板相似度,得到初步識(shí)別結(jié)果,如果根據(jù)識(shí)別結(jié)果確定不是視頻服務(wù)網(wǎng)站,則回到步驟61,否貝U,利用視頻網(wǎng)址自動(dòng)識(shí)別知識(shí)對(duì)初步識(shí)別結(jié)果進(jìn)行進(jìn)ー步的識(shí)別;相應(yīng)的自動(dòng)識(shí)別知識(shí)主要包括載入網(wǎng)頁并運(yùn)行其上的腳本,判斷有沒有生成播放器的特征HTML標(biāo)簽;分析網(wǎng)頁中候選播放器對(duì)象的視覺特征,如大小、坐標(biāo)等,以確定播放器播放的畫面的寬和高是否滿足一定閥值,其右邊界到頁面的右邊界的距離、上邊界到頁面上邊界的距離、下邊界到頁面下邊界的距離是否滿足一定閥值;通過步驟62的處理,如果確定該待評(píng)估的網(wǎng)址不是視頻服務(wù)類網(wǎng)站地址,則回到步驟61,否則,執(zhí)行步驟63 ;步驟63,抽取出網(wǎng)站名稱,利用網(wǎng)頁中的〃〈meta name=〃keywords〃標(biāo)簽和〃〈metaname=description〃標(biāo)簽的內(nèi)容更新搜索關(guān)鍵詞數(shù)據(jù)庫(kù),并將網(wǎng)站名稱及相應(yīng)的網(wǎng)址放入視頻網(wǎng)址數(shù)據(jù)庫(kù);同時(shí)可將該頁存為視頻網(wǎng)址模板(即存入視頻網(wǎng)址模板數(shù)據(jù)庫(kù)中),以便于后續(xù)網(wǎng)頁可以根據(jù)其與視頻網(wǎng)址模板的相似性來判定是否為視頻服務(wù)類網(wǎng)頁。具體地,相應(yīng)的網(wǎng)站名稱抽取可以采用的方式包括提取出同一網(wǎng)站下不同網(wǎng)頁〃くtitle〉〃標(biāo)簽的內(nèi)容,然后利用最長(zhǎng)公共字符串算法提取出〃くtitle〉〃標(biāo)簽中出現(xiàn)頻率最聞的內(nèi)容,并將此字符串作為網(wǎng)站的名稱。
(5 )網(wǎng)址合并模塊M5
網(wǎng)址合并模塊的處理流程如圖7所示,可以包括
步驟71,判斷視頻網(wǎng)址數(shù)據(jù)庫(kù)中是否存在待合并的網(wǎng)址,如果不存在,則程序退 出,否則,執(zhí)行步驟72;
步驟72,取出一個(gè)待合并網(wǎng)址U,獲得其網(wǎng)站名稱及主機(jī)名稱;
步驟73,在視頻網(wǎng)址數(shù)據(jù)庫(kù)中找出所有與U有著相同主機(jī)名及網(wǎng)站名稱的網(wǎng)址集 合;
步驟74,循環(huán)處理該網(wǎng)址集合;
具體地,可以首先從該集合中取出一條網(wǎng)址,如果該網(wǎng)址的路徑深度小于U的路 徑深度,則將U從數(shù)據(jù)庫(kù)中刪除,循環(huán)結(jié)束(即可以重新執(zhí)行步驟71);否則,刪除該網(wǎng)址對(duì) 應(yīng)的記錄,循環(huán)繼續(xù)(即重新從該集合中取出一條網(wǎng)址進(jìn)行相應(yīng)的路徑深度判斷處理);經(jīng) 過相應(yīng)的循環(huán)處理,如果U的深度小,那么U最終會(huì)留在數(shù)據(jù)庫(kù)中,否則是比U路徑深度小 的網(wǎng)址留在數(shù)據(jù)庫(kù)中,因此本算法總可以保證得到預(yù)期的視頻服務(wù)網(wǎng)站首頁的地址,非首 頁地址會(huì)在合并過程中被刪除。
(6 )網(wǎng)站健康度評(píng)估模塊M6
網(wǎng)站健康度評(píng)估的處理流程如圖8所示,可以包括
步驟81,人工設(shè)定若干不良網(wǎng)站模板(即不良視頻網(wǎng)站模板數(shù)據(jù)庫(kù)),并抽取其中 的網(wǎng)頁構(gòu)建不良網(wǎng)站模板中的網(wǎng)站的各個(gè)網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁本體步驟82,對(duì)于待評(píng)估網(wǎng)站,根據(jù)網(wǎng)站深度取其一定數(shù)量網(wǎng)頁,然后對(duì)其中每一個(gè)網(wǎng) 頁,構(gòu)建其網(wǎng)頁本體步驟83,計(jì)算待評(píng)估網(wǎng)站的網(wǎng)頁本體圖與不良網(wǎng)站模板中的網(wǎng)站中相對(duì)應(yīng)深度的 網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁本體圖的相似度;
步驟84,計(jì)算相似度的平均值,得出待評(píng)估網(wǎng)站的健康度;
例如對(duì)于模板網(wǎng)站A,可以計(jì)算待評(píng)估網(wǎng)站的不同網(wǎng)頁與A的相似度的平均值,從 而得出對(duì)于該待評(píng)估網(wǎng)站的相似度,再根據(jù)待評(píng)估網(wǎng)站的相似度與模板網(wǎng)站A的評(píng)分,基 于相應(yīng)算法得出相對(duì)于A的待評(píng)估網(wǎng)站健康得分;之后,基于不良網(wǎng)站模板中的其他所有 模板網(wǎng)站計(jì)算待評(píng)估網(wǎng)站健康得分,并計(jì)算待評(píng)估網(wǎng)站的健康得分均值,得出待評(píng)估網(wǎng)站 的健康值;
步驟85,判斷待測(cè)網(wǎng)站(即待評(píng)估網(wǎng)站)的健康度是否低于設(shè)定的閾值,如果待測(cè) 網(wǎng)站健康值低于不良網(wǎng)站模板設(shè)定閾值(即第二健康度閾值),如小于1,則將待測(cè)網(wǎng)站加入 不良網(wǎng)站模板庫(kù)(即不良視頻網(wǎng)站模板數(shù)據(jù)庫(kù))中,用以更新不良網(wǎng)站模板庫(kù),同時(shí)檢測(cè)不 良模板庫(kù)中是否存在已經(jīng)廢棄的不良網(wǎng)站模板,并將其刪除,還將將待測(cè)網(wǎng)站加入不良視 頻網(wǎng)站數(shù)據(jù)庫(kù)中;若待測(cè)網(wǎng)站健康值小于健康度閾值(即第一健康度閾值),如小于3,將其 直接加入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中。若待測(cè)網(wǎng)站健康值大于第一健康度閾值,則丟棄該待測(cè) 網(wǎng)站。
在上述處理過程中,相應(yīng)的網(wǎng)頁本體圖構(gòu)建流程如圖9所示,可以包括
步驟91,對(duì)網(wǎng)頁進(jìn)行提取,得到網(wǎng)頁文本;
步驟92,對(duì)網(wǎng)頁之中屬于不良視頻關(guān)鍵詞領(lǐng)域的術(shù)語進(jìn)行抽取,得到術(shù)語列表;
步驟93,根據(jù)已知的不良視頻關(guān)鍵詞領(lǐng)域本體圖不同關(guān)鍵詞之間帶有權(quán)值的有向邊,構(gòu)建術(shù)語向量,根據(jù)映射表得出網(wǎng)頁本體圖;其中,相應(yīng)的領(lǐng)域本體圖用于表述兩個(gè)不同術(shù)語之間的相近關(guān)系;領(lǐng)域本體圖可以由已知的算法獲得,其具體可以將不同的術(shù)語根據(jù)它們之間相應(yīng)的語義、分類和結(jié)構(gòu)上的相近關(guān)系來得到從ー個(gè)術(shù)語到另ー個(gè)術(shù)語之間具體的表示相近關(guān)系程度的值,并建立相應(yīng)的領(lǐng)域本體圖。假設(shè),已知存在關(guān)鍵詞(即術(shù)語)A、B、C、D、E的領(lǐng)域本體圖表如表I所示表I
權(quán)利要求
1.一種搜索不良視頻網(wǎng)站的方法,其特征在于,包括根據(jù)搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞構(gòu)造搜索請(qǐng)求;獲取搜索引擎根據(jù)所述搜索請(qǐng)求返回的搜索結(jié)果,并獲取搜索結(jié)果中的網(wǎng)站地址和關(guān)聯(lián)搜索關(guān)鍵詞;根據(jù)當(dāng)前搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題的相關(guān)程度以及產(chǎn)生新的不良網(wǎng)站地址的能力,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞;判斷搜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁,若屬于,則抽取出網(wǎng)站的名稱,將該網(wǎng)站名稱和網(wǎng)址加入到視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中;若不屬于,則丟棄該網(wǎng)站地址;判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度,并將健康程度低于第一健康度閾值的網(wǎng)站網(wǎng)址存入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的元素標(biāo)簽中的關(guān)鍵詞和描述信息中的內(nèi)容,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù);和/或,根據(jù)所述搜索結(jié)果中的與視頻服務(wù)主題相關(guān)的網(wǎng)頁中的轉(zhuǎn)向其他網(wǎng)站的鏈接,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷搜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁的步驟包括載入網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁并運(yùn)行網(wǎng)頁上的腳本,判斷是否存在生成播放器的特征超文本標(biāo)記語言HTML標(biāo)簽,若存在,則確定該網(wǎng)頁中的候選播放器;再分析所述候選播放器對(duì)象的視覺特征,以確定播放器播放的視頻畫面的大小是否滿足預(yù)定的尺寸閥值,若是,則確定該網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁;或者,根據(jù)所述網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁與視頻網(wǎng)頁模板中的網(wǎng)頁的匹配度判斷該網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,該方法還包括在確定所述網(wǎng)站網(wǎng)址對(duì)應(yīng)的網(wǎng)頁為視頻服務(wù)類網(wǎng)頁后,將該網(wǎng)頁存為視頻網(wǎng)頁模板, 所述視頻網(wǎng)頁模板用于作為判斷其他網(wǎng)頁是否為視頻服務(wù)類網(wǎng)頁的依據(jù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,更新所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞的步驟包括判斷所述搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題相關(guān)程度,若當(dāng)前返回的搜索結(jié)果中視頻服務(wù)網(wǎng)站類的網(wǎng)址的比例超過預(yù)定值,則判斷當(dāng)前搜索關(guān)鍵詞產(chǎn)生新的網(wǎng)站地址的能力,若當(dāng)前返回的搜索結(jié)果中網(wǎng)站網(wǎng)址包含于預(yù)定的候選網(wǎng)址數(shù)據(jù)庫(kù)中的比例低于預(yù)定值,則將本次搜索結(jié)果中的關(guān)聯(lián)搜索關(guān)鍵詞增加到所述搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中, 所述候選網(wǎng)址數(shù)據(jù)庫(kù)中記錄著根據(jù)之前的搜索結(jié)果獲得的網(wǎng)站網(wǎng)址。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度之前,還包括將所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的非首頁地址合并規(guī)約為視頻服務(wù)網(wǎng)站首頁的地址的步驟,且該步驟包括對(duì)于視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的兩個(gè)不同的網(wǎng)站,判斷兩者的主機(jī)名稱是否相同,若相同,則判斷兩者之間對(duì)應(yīng)的網(wǎng)站名稱是否相同,若相同,則比較兩者的路徑深度的大小,將路徑深度大的網(wǎng)站規(guī)約為路徑深度小的網(wǎng)站,依次類推,直到處理完成所述視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的所有網(wǎng)站。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,提取所述網(wǎng)站名稱的方式包括提取出同一個(gè)網(wǎng)站下不同網(wǎng)頁標(biāo)題標(biāo)簽的內(nèi)容,并利用最長(zhǎng)公共字符串算法提取出同一個(gè)網(wǎng)站不同網(wǎng)頁標(biāo)題標(biāo)簽中出現(xiàn)頻率最高的內(nèi)容作為網(wǎng)站的名稱。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度的步驟包括對(duì)于待評(píng)估網(wǎng)站,根據(jù)網(wǎng)站深度選取預(yù)定數(shù)量的網(wǎng)頁,并對(duì)每一個(gè)網(wǎng)頁構(gòu)建對(duì)應(yīng)的網(wǎng)頁本體圖;計(jì)算每個(gè)網(wǎng)頁本體圖與預(yù)定的不良網(wǎng)站模板中的網(wǎng)站對(duì)應(yīng)深度的網(wǎng)頁的本體圖的相似度,并根據(jù)所述相似度與不良網(wǎng)站模板中的網(wǎng)站的評(píng)分,確定待評(píng)估網(wǎng)站相對(duì)于該不良網(wǎng)站模板中的網(wǎng)站的健康得分;根據(jù)待評(píng)估網(wǎng)站相對(duì)于所有不良網(wǎng)站模板中的網(wǎng)站的健康得分,計(jì)算所述待評(píng)估網(wǎng)站的健康值。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,該方法還包括若所述待評(píng)估網(wǎng)站的健康值低于設(shè)定的第二健康度閾值,則將該待評(píng)估網(wǎng)站加入不良網(wǎng)站模板中,用以更新包含所述不良網(wǎng)站模板的不良網(wǎng)站模板庫(kù)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述第一健康度閾值大于所述第二健康度閾值。
全文摘要
本發(fā)明公開了一種搜索不良視頻網(wǎng)站的方法,包括根據(jù)搜索關(guān)鍵詞構(gòu)造搜索請(qǐng)求,獲取返回的搜索結(jié)果,并獲取搜索結(jié)果中的網(wǎng)站地址和關(guān)聯(lián)搜索關(guān)鍵詞;根據(jù)關(guān)聯(lián)搜索關(guān)鍵詞與視頻服務(wù)網(wǎng)站的主題的相關(guān)程度以及產(chǎn)生新的不良網(wǎng)站地址的能力,更新搜索關(guān)鍵詞數(shù)據(jù)庫(kù)中的搜索關(guān)鍵詞;判斷搜索結(jié)果中的網(wǎng)站地址對(duì)應(yīng)的網(wǎng)頁是否屬于視頻服務(wù)類網(wǎng)頁,若是,則將網(wǎng)站名稱和網(wǎng)址加入到視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中;否則,丟棄該網(wǎng)站地址;判斷視頻服務(wù)網(wǎng)站數(shù)據(jù)庫(kù)中的網(wǎng)站地址的健康程度,并將健康程度低于第一健康度閾值的網(wǎng)站網(wǎng)址存入不良視頻網(wǎng)站數(shù)據(jù)庫(kù)中。從而提供了可以快速準(zhǔn)確地搜索到不良視頻網(wǎng)站的技術(shù)方案,便于對(duì)提供不良視頻服務(wù)的網(wǎng)站進(jìn)行有效監(jiān)管。
文檔編號(hào)G06F17/30GK103020123SQ20121046521
公開日2013年4月3日 申請(qǐng)日期2012年11月16日 優(yōu)先權(quán)日2012年11月16日
發(fā)明者朱明 , 尹文科, 孫永錄 申請(qǐng)人:中國(guó)科學(xué)技術(shù)大學(xué)