基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種基于視覺的互聯(lián)網(wǎng)正文頁 標(biāo)題識(shí)別方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)采集和挖掘技術(shù)也在不斷發(fā)展。因此,如何將互聯(lián)網(wǎng)中 海量的數(shù)據(jù)去粗取精,獲取其中有價(jià)值的內(nèi)容,就成為大數(shù)據(jù)技術(shù)中的一項(xiàng)重要技術(shù)點(diǎn)。
[0003] 互聯(lián)網(wǎng)中有價(jià)值的信息通常集中在網(wǎng)站的正文頁上,例如標(biāo)題、正文、時(shí)間、作者 等。其中,標(biāo)題部分作為正文頁內(nèi)容的概括和抽象,在整個(gè)網(wǎng)頁中擁有最大的信息量,對(duì)標(biāo) 題進(jìn)行語義分析,是最有價(jià)值的。因此,我們首先需要從完整的正文頁中,提取出標(biāo)題區(qū)域 和標(biāo)題內(nèi)容。人們面對(duì)正文頁,很容易將文章標(biāo)題提取出來。然而,由于互聯(lián)網(wǎng)上數(shù)據(jù)量巨 大,人工進(jìn)行信息提取成本過高且效率、準(zhǔn)確率均受限。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問題是提供一種基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法。
[0005] 本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
[0006] 本發(fā)明的基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法,歸納標(biāo)題元素的特征及對(duì)應(yīng)權(quán) 值,并依特征類型分為必要權(quán)和比例權(quán);以正文頁經(jīng)瀏覽器Chrome內(nèi)核下載和渲染后的D0M 樹對(duì)象作為識(shí)別方法的輸入;采用先根遍歷的方式,對(duì)D0M樹中的每一個(gè)元素進(jìn)行遍歷;對(duì) 于各HTML元素,先判斷是否滿足必要權(quán)條件,滿足則按比例權(quán)為該HTML元素計(jì)算得分,最后 取全部得分中最高的HTML元素即對(duì)應(yīng)正文頁標(biāo)題。
[0007] 本發(fā)明還可以采用以下技術(shù)措施:
[0008] 標(biāo)題元素的特征及對(duì)應(yīng)權(quán)值見表1:
[0009] 表1.標(biāo)題元素的特征及對(duì)應(yīng)權(quán)值
[0010]
[0011] 本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
[0012] 本發(fā)明的基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法中,輸入為經(jīng)過Chrome內(nèi)核下載 和渲染后的D0M樹對(duì)象,由于D0M樹包含有網(wǎng)頁元素的渲染后的style信息,便于分析,通過 對(duì)每一個(gè)HTML元素,進(jìn)行必要權(quán)判斷和比例權(quán)計(jì)算,以得出正文頁中的標(biāo)題并輸出為最可 能的正文標(biāo)題的Element對(duì)象,本發(fā)明在運(yùn)行中模擬人類的識(shí)別方式,能夠高效、準(zhǔn)確地識(shí) 別和區(qū)分互聯(lián)網(wǎng)正文頁中標(biāo)題元素。
【附圖說明】
[0013] 圖1是本發(fā)明的基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法的流程示意圖。
【具體實(shí)施方式】
[0014] 以下通過具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
[0015] 如圖1所示,本本發(fā)明的基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法,歸納標(biāo)題元素的 特征及對(duì)應(yīng)權(quán)值,并依特征類型分為必要權(quán)和比例權(quán);以正文頁經(jīng)瀏覽器Chrome內(nèi)核下載 和渲染后的D0M樹對(duì)象作為識(shí)別方法的輸入;采用先根遍歷的方式,對(duì)D0M樹根中的每一個(gè) 元素進(jìn)行遍歷;對(duì)于各HTML元素,即D0M樹中的各個(gè)節(jié)點(diǎn),先判斷是否滿足必要權(quán)條件,不滿 足必要權(quán)條件的元素節(jié)點(diǎn)可以排除是標(biāo)題而不再進(jìn)行比例權(quán)的計(jì)算,滿足則按比例權(quán)為該 HTML元素計(jì)算得分,作為當(dāng)前節(jié)點(diǎn)的分?jǐn)?shù),將當(dāng)前節(jié)點(diǎn)分?jǐn)?shù)與之前的HTML元素計(jì)算出的最 高分進(jìn)行比較,如果高于則保留當(dāng)前節(jié)點(diǎn)得分作為新的最高分,如果低于保留原最高分,指 針指向下一節(jié)點(diǎn)進(jìn)行下一 HTML元素的計(jì)算,從而最后取得全部得分中最高的HTML元素節(jié)點(diǎn) 即對(duì)應(yīng)正文頁標(biāo)題。
[0016] 標(biāo)題元素的特征及對(duì)應(yīng)權(quán)值見表1:
[0017]表1.標(biāo)題元素的特征及對(duì)應(yīng)權(quán)值
[0018]
[0019] 對(duì)DOM樹的元素進(jìn)行遍歷時(shí),能夠獲取到元素的父元素。若元素的父元素為HI或H3 標(biāo)簽,則給予對(duì)應(yīng)的權(quán)值。Η1、H2、H3、H4分別為HTML中的標(biāo)題標(biāo)簽,其中記Η1為最重要的標(biāo) 題,Η2為次要欄目或標(biāo)題、小標(biāo)題,Η3為再次要欄目或分類小標(biāo)題,Η4為文中分類小標(biāo)題。
[0020] 本發(fā)明提出的模式識(shí)別流程和維度也可擴(kuò)展到正文頁的其他元素識(shí)別,例如時(shí) 間、作者、正文區(qū)域等。
[0021] 以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖 然本發(fā)明已以較佳實(shí)施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人 員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成 為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì) 對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法,其特征在于:歸納標(biāo)題元素的特征及 對(duì)應(yīng)權(quán)值,并依特征類型分為必要權(quán)和比例權(quán);W正文頁經(jīng)瀏覽器化rome內(nèi)核下載和擅染 后的DOM樹對(duì)象作為識(shí)別方法的輸入;采用先根遍歷的方式,對(duì)DOM樹中的每一個(gè)元素進(jìn)行 遍歷;對(duì)于各HTML元素,先判斷是否滿足必要權(quán)條件,滿足則按比例權(quán)為該HTML元素計(jì)算得 分,最后取全部得分中最高的HTML元素即對(duì)應(yīng)正文頁標(biāo)題。2. 根據(jù)權(quán)利要求1所述的基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法,其特征在于:標(biāo)題元 素的特征及對(duì)應(yīng)權(quán)值見表1: 表1.標(biāo)題元素的特征及對(duì)應(yīng)權(quán)值
【專利摘要】一種基于視覺的互聯(lián)網(wǎng)正文頁標(biāo)題識(shí)別方法,輸入為經(jīng)過Chrome內(nèi)核下載和渲染后的DOM樹對(duì)象,由于DOM樹包含有網(wǎng)頁元素的渲染后的style信息,便于分析,通過對(duì)每一個(gè)HTML元素,進(jìn)行必要權(quán)判斷和比例權(quán)計(jì)算,以得出正文頁中的標(biāo)題并輸出為最可能的正文標(biāo)題的Element對(duì)象,本發(fā)明在運(yùn)行中模擬人類的識(shí)別方式,能夠高效、準(zhǔn)確地識(shí)別和區(qū)分互聯(lián)網(wǎng)正文頁中標(biāo)題元素。
【IPC分類】G06F17/27
【公開號(hào)】CN105512107
【申請(qǐng)?zhí)枴緾N201510918241
【發(fā)明人】李天與, 楊偉鋒
【申請(qǐng)人】天津海量信息技術(shù)有限公司
【公開日】2016年4月20日
【申請(qǐng)日】2015年12月10日