亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)的制作方法

文檔序號:6636151閱讀:379來源:國知局
判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種判定網(wǎng)頁質(zhì)量的方法及系統(tǒng),所述方法包括:通過動態(tài)掃描對浮層進行識別以及通過靜態(tài)掃描對彈框進行識別;提取所述識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容;根據(jù)所述提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。通過采用本發(fā)明可以動態(tài)識別出網(wǎng)頁中的浮層,從而能夠提高判定異步網(wǎng)頁質(zhì)量的準確率。
【專利說明】判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)

【技術領域】
[0001]本發(fā)明涉及通信領域,更為具體而言,涉及判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)。

【背景技術】
[0002]由于手機屏幕的大小有限,因此對于網(wǎng)頁的質(zhì)量提出更高的要求。然而目前很多網(wǎng)頁存在浮層多、遮蓋現(xiàn)象嚴重、低俗廣告、強制安裝app (應用程序,applicat1n)等多種低質(zhì)網(wǎng)頁的情況,影響用戶體驗。因此需要通過判定網(wǎng)頁質(zhì)量來挖掘出低質(zhì)量的網(wǎng)頁,作為網(wǎng)頁排序的參考因素,提高搜索效果。在現(xiàn)有技術中,一般是通過抓取網(wǎng)頁靜態(tài)代碼進行代碼掃描分析來判定網(wǎng)頁質(zhì)量,但隨著異步網(wǎng)頁的普及,這種方法越來越難以滿足要求。


【發(fā)明內(nèi)容】

[0003]為有效地解決上述技術問題,本發(fā)明提供了一種判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)。
[0004]一方面,本發(fā)明的實施方式提供了一種判定網(wǎng)頁質(zhì)量的方法,所述方法包括:
[0005]通過動態(tài)掃描對浮層進行識別以及通過靜態(tài)掃描對彈框進行識別;
[0006]提取所述識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容;
[0007]根據(jù)所述提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
[0008]另一方面,本發(fā)明的實施方式提供了一種判定網(wǎng)頁質(zhì)量的系統(tǒng),所述系統(tǒng)包括:
[0009]識別模塊,包括:用于通過動態(tài)掃描對浮層進行識別的動態(tài)掃描單元和用于通過靜態(tài)掃描對彈框進行識別的靜態(tài)掃描單元;
[0010]提取模塊,用于提取所述識別模塊所識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容;
[0011]判定模塊,用于根據(jù)所述提取模塊所提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
[0012]實施本發(fā)明提供的判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)可以動態(tài)識別出網(wǎng)頁中的浮層,從而能夠提聞判定異步網(wǎng)頁質(zhì)量的準確率。

【專利附圖】

【附圖說明】
[0013]圖1是根據(jù)本發(fā)明實施方式的判定網(wǎng)頁質(zhì)量的方法的流程圖;
[0014]圖2示出了本發(fā)明中對于浮層的識別的一種實施方式;
[0015]圖3示出了圖2所示的步驟S150的一種實施方式;
[0016]圖4示出了本發(fā)明實施方式中提取浮層的布局參數(shù)以及內(nèi)容的具體形式;
[0017]圖5示出了本發(fā)明實施方式中的提取圖片中的文字內(nèi)容的一種實施方式;
[0018]圖6示出了圖5所示的步驟S240的一種實施方式;
[0019]圖7示出了本發(fā)明實施方式中的根據(jù)布局參數(shù)及文字內(nèi)容判定出網(wǎng)頁的質(zhì)量的一種實施方式;
[0020]圖8示出了圖7所示的步驟S350的一種實施方式;
[0021]圖9是根據(jù)本發(fā)明實施方式的判定網(wǎng)頁質(zhì)量的系統(tǒng)的結(jié)構示意圖。

【具體實施方式】
[0022]為使本發(fā)明的實施例的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細描述。
[0023]圖1是根據(jù)本發(fā)明實施方式的判定網(wǎng)頁質(zhì)量的方法的流程圖。參見圖1,該方法包括:
[0024]SlOO:通過動態(tài)掃描對浮層進行識別以及通過靜態(tài)掃描對彈框進行識別。
[0025]其中,對于所述通過動態(tài)掃描對浮層進行識別,例如可以通過在對網(wǎng)頁進行渲染后,根據(jù)浮層判定條件對所述浮層進行識別的方式來實現(xiàn),其中所述浮層判定條件可以包括不在頁面表層、位置固定、具有透明度以及未顯示出來;若滿足上述四個條件則判定為是浮層。
[0026]而對于所述通過靜態(tài)掃描對彈框進行識別,例如可以通過分析網(wǎng)頁源代碼來進行。
[0027]S200:提取所述識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容。
[0028]其中,該布局參數(shù)包括數(shù)量、位置、大小。此外,由于浮層及彈框的內(nèi)容可以包括:文本形式的文字內(nèi)容以及圖片。因此,對于文本形式的文字內(nèi)容,從所述浮層和彈框中直接提取,而對于圖片,則
[0029]通過OCR (Optical Character Recognit1n,光學字符識別)提取所述圖片中的文子內(nèi)名
[0030]S300:根據(jù)所述提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
[0031]其中,在本發(fā)明的實施方式中,該步驟S300可以通過以下方式實現(xiàn):
[0032]首先,根據(jù)所述布局參數(shù)確定所述浮層及彈框的遮蓋狀態(tài),其中所述遮蓋狀態(tài)包括遮蓋面積及位置;
[0033]其次,判斷所述遮蓋狀態(tài)是否滿足可接受遮蓋條件以及判斷所述文字內(nèi)容是否為可接受內(nèi)容。
[0034]其中,所述可接受遮蓋條件包括:1)遮蓋面積與屏幕總面積的比值小于或等于預定比值閾值(例如為1/3,當然不限于此,根據(jù)實際需要可以設定預定比值閾值為1/4?1/2的范圍內(nèi)的任意數(shù)值);2)位置位于屏幕頂部且遮蓋面積小于屏幕面積。在本發(fā)明實施方式中,當遮蓋狀態(tài)符合上述兩個條件中的任意一條時,則為滿足所述可接受遮蓋條件,當均不符合上述兩個條件時,則為不滿足所述可接受遮蓋條件。
[0035]對于判斷所述文字內(nèi)容是否為可接受內(nèi)容,可以通過以下方式實現(xiàn):
[0036]對所述文字內(nèi)容進行切詞并生成詞語序列;
[0037]將所述生成的詞語序列中的各詞語與不良詞詞典進行匹配,并得出所述詞語序列的匹配結(jié)果,其中所述匹配結(jié)果包括匹配詞的數(shù)量及位置等信息;
[0038]根據(jù)所述得出的匹配結(jié)果,計算出匹配變量,其中所述匹配變量包括匹配詞在樣本中的比例以及匹配詞的位置接近度;
[0039]根據(jù)所述計算出的匹配變量計算出不良系數(shù),其中不良系數(shù)與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正相關,示例性地,該不良系數(shù)例如可以與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正比,并且該不良系數(shù)的數(shù)值范圍可以介于O至I之間,越接近O表示“待分析的文字內(nèi)容”越有可能是可接受內(nèi)容,越接近I表示越有可能是不良內(nèi)容,即不可接受內(nèi)容,其中可接受內(nèi)容指一般意義上的符合法律、法規(guī)、社會公德的要求的內(nèi)容,與此對應地不良內(nèi)容指一般意義上的違反法律、社會公德或者妨害公共利益的內(nèi)容,例如黃、反內(nèi)容;
[0040]將所述計算出的不良系數(shù)與預定閾值(例如可以是0.85,當然不限于此,根據(jù)實際需要可以設定為0.5?I的范圍內(nèi)的任意數(shù)值)進行比較,若小于或等于所述預定閾值,則確定所述文字內(nèi)容為可接受內(nèi)容,否則為不良內(nèi)容。
[0041]最后,若所述遮蓋狀態(tài)滿足所述可接受遮蓋條件且所述文字內(nèi)容為可接受內(nèi)容,則判定所述網(wǎng)頁的質(zhì)量為合格,否則判定所述網(wǎng)頁的質(zhì)量為低質(zhì),即所述網(wǎng)頁屬于低質(zhì)網(wǎng)頁。
[0042]以下結(jié)合具體的例子對本發(fā)明的實施方式進行具體說明。
[0043]影響網(wǎng)頁質(zhì)量的因素主要包括浮層及彈框。在本發(fā)明中,首先對于網(wǎng)頁中的浮層以及彈框進行識別,其中對于靜態(tài)的alert (JavaScript或VBscript腳本語言中窗口window對象的一個常用方法,中文意思是“提醒”)/confirm(JavaScript語言中的一個方法,可以彈出一個包含〃確定〃與〃取消〃的對話方塊)等形式的彈框,可以通過分析網(wǎng)頁源代碼來進行識別。對于渲染過程的div(劃分,全稱為divis1n)/sect1n(區(qū)段)等形式的浮層,可以在渲染后進行識別。圖2示出了本發(fā)明中對于浮層的識別的一種實施方式。參見圖2,其具體過程如下:
[0044]SllO:創(chuàng)建phantomjs (基于JavaScript的webkit(—個開源的瀏覽器引擎)內(nèi)核無頭瀏覽器)對象;
[0045]S120:設置 UserAgent (用戶代理);
[0046]S130:加載待分析的頁面;
[0047]S140:加載 jQuery (—個 JavaScript 庫);
[0048]S150:待頁面渲染完成后,在頁面對象內(nèi)執(zhí)行jQuery代碼來識別浮層,以下以所述浮層為div形式為例對其具體過程進行說明,如圖3所示該步驟S150包括:
[0049]S151:遍歷所有 div ;
[0050]S152:判斷div層疊深度是否大于0,大于O則表示不在頁面表層,若是則執(zhí)行步驟S153,若否則返回步驟S151 ;
[0051]S153:判斷位置是否固定,若是則執(zhí)行步驟S154,若否則返回步驟S151 ;
[0052]S154:判斷透明度是否小于1(有透明度),若是則執(zhí)行步驟S155,若否則返回步驟S151 ;
[0053]S155:判斷是否未顯示出來,若是則判斷為是浮層并執(zhí)行步驟S156,若否則返回步驟S151,當然在本發(fā)明中,步驟S151至S155的執(zhí)行順序不限于此,可以對該執(zhí)行順序進行適當?shù)淖兓?br> [0054]S156:輸出該浮層的位置、大小等信息。
[0055]當然,本發(fā)明不限于此,本領域技術人員應當理解,還可以通過真實瀏覽器進行渲染,然后開發(fā)瀏覽器的插件來判斷浮層。并且由于渲染網(wǎng)頁會消耗較多的時間,可以同時發(fā)起多個網(wǎng)頁的浮層識別。
[0056]其次在通過上述方式識別出浮層以及彈框后,提取浮層及彈框的布局參數(shù)以及內(nèi)容,其中布局參數(shù)包括數(shù)量、大小、位置,其中浮層的數(shù)量、位置、大小及內(nèi)容等信息的提取形式如圖4所示;并且在本發(fā)明中所述內(nèi)容包括文本形式的文字內(nèi)容以及圖片。其中,對于文本形式的文字內(nèi)容可以直接進行提取,并通過OCR提取圖片中的文字內(nèi)容,如圖5所示,該過程具體為:
[0057]S210:判斷待識別圖片數(shù)據(jù)是否需要預處理,若是則執(zhí)行步驟S220,否則執(zhí)行步驟 S230 ;
[0058]S220:進行圖像預處理;
[0059]其中,預處理的過程具體包括:圖像解碼;局部增強;圖像編碼。
[0060]S230:獲取OCR服務,具體包括:Base64轉(zhuǎn)碼;獲取OCR服務。
[0061]S240:進行文字整理,如圖6所示該過程具體包括:
[0062]S241:去除無效字符;
[0063]S242:判斷是否分行識別;若是,則繼續(xù)執(zhí)行步驟S243,否則執(zhí)行步驟S245 ;
[0064]S243:字符分割;
[0065]S244:字符整理連接;
[0066]S245:輸出識別結(jié)果。
[0067]最后根據(jù)通過上述方式提取出的浮層及彈框的布局參數(shù)以及文字內(nèi)容判定出網(wǎng)頁的質(zhì)量。如圖7所示,該過程具體包括:
[0068]S310:讀取浮層及彈框的布局參數(shù);
[0069]S320:計算浮層及彈框的總面積并獲取浮層及彈框的位置;
[0070]S330:判斷浮層及彈框的總面積與屏幕總面積的比值是否大于預定比值閾值(例如1/3,當然不限于此,根據(jù)實際需要可以設定預定比值閾值為1/4?1/2的范圍內(nèi)的任意數(shù)值),若是,則執(zhí)行步驟S340,否則執(zhí)行步驟S350 ;
[0071]S340:判斷浮層及彈框的位置是否位于屏幕頂端且面積小于屏幕面積,若是,則執(zhí)行步驟S350,若否,則確定網(wǎng)頁的質(zhì)量為低質(zhì);
[0072]S350:判斷浮層及彈框的文字內(nèi)容是否為不良內(nèi)容,若是,則確定網(wǎng)頁的質(zhì)量為低質(zhì),否則確定網(wǎng)頁的質(zhì)量為合格,其中所述不良內(nèi)容指一般意義上的違反法律、社會公德或者妨害公共利益的內(nèi)容,例如黃、反內(nèi)容。
[0073]當然本發(fā)明的實施方式不限于此,例如還可先執(zhí)行步驟S350判斷浮層及彈框的文字內(nèi)容是否為不良內(nèi)容,若是,則確定網(wǎng)頁質(zhì)量為低質(zhì),否則再執(zhí)行步驟S310至S340。其中為提高判定網(wǎng)頁質(zhì)量的準確率,在本發(fā)明的實施方式中可以通過對于已確定的低質(zhì)網(wǎng)頁樣本(每個樣本就是一個網(wǎng)頁)進行歸納總結(jié)(也就是機器學習的過程)而修正該預定比值閾值。比如經(jīng)過學習發(fā)現(xiàn)低質(zhì)網(wǎng)頁中的浮層及彈框的總面積一般都大于頁面的1/3,因此將1/3作為預定比值閾值。
[0074]其中,如圖8所示,步驟S350可以通過以下步驟實現(xiàn):
[0075]S351:獲取種子不良詞詞典,在本發(fā)明中首先有一批人工標注的不良詞詞典,為了加速人工標注的效率,可以采用LDA (—種文檔主題生成模型,全稱為Latent DirichletAllocat1n)等方法進行聚類,從中挑選一批不良詞;
[0076]S352:通過Bootstrapping (拔靴法,一種統(tǒng)計算法)擴展擴充不良詞,也就是從大量的文本里面分析和已有的不良詞的共現(xiàn)率(同時出現(xiàn)的概率)比較高的詞擴充到該種子不良詞詞典中;
[0077]S353:對待分析的文字內(nèi)容進行切詞,并生成詞語序列;
[0078]S354:將所述生成的詞語序列中的各詞語與不良詞詞典進行匹配,并得出所述詞語序列的匹配結(jié)果,其中所述匹配結(jié)果包括匹配詞的數(shù)量及位置等信息;
[0079]S355:根據(jù)所述得出的匹配結(jié)果,計算出匹配變量,其中所述匹配變量包括匹配詞在樣本中的比例以及匹配詞的位置接近度;
[0080]S356:根據(jù)所述計算出的匹配變量計算不良系數(shù),其中不良系數(shù)與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正相關,示例性地,該不良系數(shù)例如可以與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正比,并且該不良系數(shù)的數(shù)值范圍可以介于O至I之間,越接近I表示“待分析的文字內(nèi)容”越有可能是不良內(nèi)容,越接近O表示越有可能是可接受內(nèi)容,與不良內(nèi)容相對,該可接受內(nèi)容指指一般意義上的符合法律、法規(guī)、社會公德的要求的內(nèi)容;
[0081]S357:將所述計算出的不良系數(shù)與預定閾值進行比較,若大于所述預定閾值,則確定所述文字內(nèi)容為不良內(nèi)容,否則為可接受內(nèi)容。并且由于如上所述該不良系數(shù)的數(shù)值可以介于O至I之間,且越接近I表示“待分析的文字內(nèi)容”越有可能是不良內(nèi)容,因此將閾值選取的越高,判定出低質(zhì)網(wǎng)頁的準確率會越高,但可能會影響召回率,因此為兼顧準確率與召回率,優(yōu)選將預定閾值設為0.85,當然不限于此,根據(jù)實際需要可以設定預定閾值為0.5至I的范圍內(nèi)的任意數(shù)值。
[0082]并且,步驟S351至步驟S352不是每次判斷文字內(nèi)容是否為不良內(nèi)容時都需要進行,例如可以在首次執(zhí)行該方法時執(zhí)行一次。
[0083]圖9是根據(jù)本發(fā)明實施方式的判定網(wǎng)頁質(zhì)量的系統(tǒng)的結(jié)構示意圖。參見圖9,該系統(tǒng)1000包括:
[0084]識別模塊100,包括用于通過動態(tài)掃描對浮層進行識別的動態(tài)掃描單元和用于通過靜態(tài)掃描對彈框進行識別的靜態(tài)掃描單元。
[0085]在本發(fā)明的實施方式中動態(tài)掃描單元可以包括渲染識別組件,用于在對網(wǎng)頁進行渲染后,根據(jù)浮層判定條件對所述浮層進行識別,其中所述浮層判定條件可以包括不在頁面表層、位置固定、具有透明度以及未顯示出來;若滿足上述四個條件則判定為是浮層。
[0086]并且,在本發(fā)明的實施方式中靜態(tài)掃描單元可以包括代碼識別組件,用于通過分析網(wǎng)頁源代碼對所述彈框進行識別。
[0087]提取模塊200,用于提取所述識別模塊100所識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容。
[0088]其中,在本發(fā)明的實施方式中,該提取模塊200可以包括:文本及圖片提取單元,用于提取所述浮層及彈框中的文本形式的文字內(nèi)容及圖片;以及圖片文字提取單元,用于通過OCR提取所述圖片中的文字內(nèi)容。
[0089]判定模塊300,用于根據(jù)所述提取模塊200所提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
[0090]在本發(fā)明的實施方式中,該判定模塊300可以包括:
[0091]遮蓋確定單元,用于根據(jù)所述布局參數(shù)確定所述浮層及彈框的遮蓋狀態(tài),其中所述遮蓋狀態(tài)包括遮蓋面積及位置。
[0092]判斷單元,包括:用于判斷所述遮蓋確定單元所確定的遮蓋狀態(tài)是否滿足可接受遮蓋條件的遮蓋判斷子單元和用于判斷所述文字內(nèi)容是否為可接受內(nèi)容的文字判斷子單
J Li ο
[0093]其中所述可接受遮蓋條件包括:1)遮蓋面積與屏幕總面積的比值小于或等于預定比值閾值(例如為1/3,當然不限于此,根據(jù)實際需要可以設定預定比值閾值為1/4?1/2的范圍內(nèi)的任意數(shù)值);2)位置位于屏幕頂部且遮蓋面積小于屏幕面積。在本發(fā)明中當遮蓋狀態(tài)符合上述兩個條件中的任意一條時,則為滿足所述可接受遮蓋條件,當均不符合上述兩個條件時,則為不滿足所述可接受遮蓋條件。
[0094]具體而言,在本發(fā)明的實施方式中,所述文字判斷子單元可以包括:
[0095]切詞組件,用于對所述文字內(nèi)容進行切詞并生成詞語序列;
[0096]匹配組件,用于將所述切詞組件生成的詞語序列中的各詞語與不良詞詞典進行匹配,并得出所述詞語序列的匹配結(jié)果,其中所述匹配結(jié)果包括匹配詞的數(shù)量及位置等信息;
[0097]匹配變量計算組件,用于根據(jù)所述匹配組件所得出的匹配結(jié)果,計算出匹配變量,其中所述匹配變量包括匹配詞在樣本中的比例以及匹配詞的位置接近度;
[0098]不良系數(shù)計算組件,用于根據(jù)所述匹配變量計算組件所計算出的匹配變量計算出不良系數(shù),其中不良系數(shù)與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正相關,示例性地,該不良系數(shù)例如可以與匹配詞在樣本中的比例以及匹配詞的位置接近度分別呈正比,并且該不良系數(shù)的數(shù)值范圍可以介于O至I之間,越接近O表示“待分析的文字內(nèi)容”越有可能是可接受內(nèi)容,越接近I表示越有可能是不良內(nèi)容,即不可接受內(nèi)容,其中可接受內(nèi)容指一般意義上的符合法律、法規(guī)、社會公德的要求的內(nèi)容,與此對應地不良內(nèi)容指一般意義上的違反法律、社會公德或者妨害公共利益的內(nèi)容,例如黃、反內(nèi)容;
[0099]閾值比較組件,用于將所述不良系數(shù)計算組件所計算出的不良系數(shù)與預定閾值(例如可以是0.85,當然不限于此,根據(jù)實際需要可以設定為0.5?I的范圍內(nèi)的任意數(shù)值)進行比較,若小于或等于所述預定閾值,則確定所述文字內(nèi)容為可接受內(nèi)容,否則為不良內(nèi)容。
[0100]以及,質(zhì)量判定單元,用于當所述遮蓋狀態(tài)滿足所述可接受遮蓋條件且所述文字內(nèi)容為可接受內(nèi)容時,判定所述網(wǎng)頁的質(zhì)量為合格,否則判定所述網(wǎng)頁的質(zhì)量為低質(zhì)。
[0101]實施本發(fā)明提供的判定網(wǎng)頁質(zhì)量的方法及系統(tǒng)可以動態(tài)識別出網(wǎng)頁中的浮層,從而能夠提聞判定異步網(wǎng)頁質(zhì)量的準確率。
[0102]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本發(fā)明可借助軟件結(jié)合硬件平臺的方式來實現(xiàn),當然也可以全部通過硬件來實施?;谶@樣的理解,本發(fā)明的技術方案對【背景技術】做出貢獻的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,智能手機或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0103]本發(fā)明說明書中使用的術語和措辭僅僅為了舉例說明,并不意味構成限定。本領域技術人員應當理解,在不脫離所公開的實施方式的基本原理的前提下,對上述實施方式中的各細節(jié)可進行各種變化。因此,本發(fā)明的范圍只由權利要求確定,在權利要求中,除非另有說明,所有的術語應按最寬泛合理的意思進行理解。
【權利要求】
1.一種判定網(wǎng)頁質(zhì)量的方法,其特征在于,所述方法包括: 通過動態(tài)掃描對浮層進行識別以及通過靜態(tài)掃描對彈框進行識別; 提取所述識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容; 根據(jù)所述提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
2.如權利要求1所述的方法,其特征在于,通過動態(tài)掃描對浮層進行識別包括: 在對網(wǎng)頁進行渲染后,根據(jù)浮層判定條件對所述浮層進行識別。
3.如權利要求1所述的方法,其特征在于,通過靜態(tài)掃描對彈框進行識別包括: 通過分析網(wǎng)頁源代碼對所述彈框進行識別。
4.如權利要求1?3中任意一項所述的方法,其特征在于,提取所述識別出的浮層及彈框的文字內(nèi)容包括: 提取所述浮層及彈框中的文本形式的文字內(nèi)容及圖片; 通過光學字符識別OCR提取所述圖片中的文字內(nèi)容。
5.如權利要求1?3中任意一項所述的方法,其特征在于,根據(jù)所述提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量包括: 根據(jù)所述布局參數(shù)確定所述浮層及彈框的遮蓋狀態(tài); 判斷所述遮蓋狀態(tài)是否滿足可接受遮蓋條件以及判斷所述文字內(nèi)容是否為可接受內(nèi)容; 若所述遮蓋狀態(tài)滿足所述可接受遮蓋條件且所述文字內(nèi)容為可接受內(nèi)容,則判定所述網(wǎng)頁的質(zhì)量為合格,否則判定所述網(wǎng)頁的質(zhì)量為低質(zhì)。
6.如權利要求5所述的方法,其特征在于,判斷所述文字內(nèi)容是否為可接受內(nèi)容包括: 對所述文字內(nèi)容進行切詞并生成詞語序列; 將所述生成的詞語序列中的各詞語與不良詞詞典進行匹配,并得出所述詞語序列的匹配結(jié)果; 根據(jù)所述得出的匹配結(jié)果,計算出匹配變量; 根據(jù)所述計算出的匹配變量計算出不良系數(shù); 將所述計算出的不良系數(shù)與預定閾值進行比較,若小于或等于所述預定閾值,則確定所述文字內(nèi)容為可接受內(nèi)容。
7.一種判定網(wǎng)頁質(zhì)量的系統(tǒng),其特征在于,所述系統(tǒng)包括: 識別模塊,包括:用于通過動態(tài)掃描對浮層進行識別的動態(tài)掃描單元和用于通過靜態(tài)掃描對彈框進行識別的靜態(tài)掃描單元; 提取模塊,用于提取所述識別模塊所識別出的浮層及彈框的布局參數(shù)以及文字內(nèi)容;判定模塊,用于根據(jù)所述提取模塊所提取出的布局參數(shù)以及文字內(nèi)容,判定出所述網(wǎng)頁的質(zhì)量。
8.如權利要求7所述的系統(tǒng),其特征在于,所述動態(tài)掃描單元包括: 渲染識別組件,用于在對網(wǎng)頁進行渲染后,根據(jù)浮層判定條件對所述浮層進行識別。
9.如權利要求7所述的系統(tǒng),其特征在于,所述靜態(tài)掃描單元包括: 代碼識別組件,用于通過分析網(wǎng)頁源代碼對所述彈框進行識別。
10.如權利要求7?9中任意一項所述的系統(tǒng),其特征在于,所述提取模塊包括: 文本及圖片提取單元,用于提取所述浮層及彈框中的文本形式的文字內(nèi)容及圖片; 圖片文字提取單元,用于通過光學字符識別OCR提取所述圖片中的文字內(nèi)容。
11.如權利要求7?9中任意一項所述的系統(tǒng),其特征在于,所述判定模塊包括: 遮蓋確定單元,用于根據(jù)所述布局參數(shù)確定所述浮層及彈框的遮蓋狀態(tài); 判斷單元,包括:用于判斷所述遮蓋確定單元所確定的遮蓋狀態(tài)是否滿足可接受遮蓋條件的遮蓋判斷子單元和用于判斷所述文字內(nèi)容是否為可接受內(nèi)容的文字判斷子單元;質(zhì)量判定單元,用于當所述遮蓋狀態(tài)滿足所述可接受遮蓋條件且所述文字內(nèi)容為可接受內(nèi)容時,判定所述網(wǎng)頁的質(zhì)量為合格,否則判定所述網(wǎng)頁的質(zhì)量為低質(zhì)。
12.如權利要求11所述的系統(tǒng),其特征在于,所述文字判斷子單元包括: 切詞組件,用于對所述文字內(nèi)容進行切詞并生成詞語序列; 匹配組件,用于將所述切詞組件生成的詞語序列中的各詞語與不良詞詞典進行匹配,并得出所述詞語序列的匹配結(jié)果; 匹配變量計算組件,用于根據(jù)所述匹配組件所得出的匹配結(jié)果,計算出匹配變量; 不良系數(shù)計算組件,用于根據(jù)所述匹配變量計算組件所計算出的匹配變量計算出不良系數(shù); 閾值比較組件,用于將所述不良系數(shù)計算組件所計算出的不良系數(shù)與預定閾值進行比較,若小于或等于所述預定閾值,則確定所述文字內(nèi)容為可接受內(nèi)容。
【文檔編號】G06F17/30GK104462284SQ201410697438
【公開日】2015年3月25日 申請日期:2014年11月27日 優(yōu)先權日:2014年11月27日
【發(fā)明者】阮星華, 張文, 徐曉光, 崔渙, 蔣璐婕 申請人:百度在線網(wǎng)絡技術(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1