頻繁 子樹,通過基于深度加權(quán)子樹相似度的方法抽取出D0M樹中評(píng)論區(qū)域。解析模塊中評(píng)論內(nèi)容 信息抽取,首先通過樹的一致性對(duì)齊方法求出最小評(píng)論區(qū)域,其次通過路徑的文本長度獲 得評(píng)論內(nèi)容路徑,再利用jsoup解析出網(wǎng)頁評(píng)論內(nèi)容,最后將評(píng)論內(nèi)容存儲(chǔ)。
[0026] 圖2示例了如何進(jìn)行預(yù)剪枝處理。首先,利用jsoup工具將網(wǎng)頁源碼轉(zhuǎn)換為D0M樹, 其次,通過D0M樹獲取每個(gè)節(jié)點(diǎn)的位置信息,衡量其位置時(shí)只考慮其橫坐標(biāo)距離絕對(duì)值是否 大于網(wǎng)頁頁面距離絕對(duì)值的1/4,如果滿足條件,將其位置信息C賦值為Y,反之則賦值為N。 再次,通過D0M樹獲取每個(gè)節(jié)點(diǎn)的文本長度,設(shè)定文本長度的闊值為500,高于該值則將節(jié)點(diǎn) 文本長度L賦值為Y,反之則賦值為N。最后,通過D0M樹獲取每個(gè)節(jié)點(diǎn)的布局特征,將滿足左 對(duì)齊、宋體、黑色、非加粗且有圖片(用戶頭像)等特征的節(jié)點(diǎn)賦值為Y,反之則賦值為N。
[0027] 如圖3所示,抽取最佳頻繁子樹包括W下步驟:
[00%] S1)構(gòu)建每個(gè)節(jié)點(diǎn)都帶有編號(hào)、標(biāo)簽、權(quán)重的剪枝后的D0M樹。
[0029] S2)利用深度加權(quán)子樹相似度算法計(jì)算當(dāng)前節(jié)點(diǎn)及其下一層所有節(jié)點(diǎn)的相似度 值。
[0030] S3)層次遍歷D0M樹,比較根節(jié)點(diǎn)與其所有孩子節(jié)點(diǎn)的相似度值,當(dāng)且僅當(dāng)該根節(jié) 點(diǎn)的相似度值大于預(yù)設(shè)的相似度闊值0.9且大于其所有孩子節(jié)點(diǎn)的相似度值時(shí),停止遍歷, 此時(shí)的所有孩子節(jié)點(diǎn)構(gòu)成的孩子子樹即為所求的最佳頻繁子樹。
[0031] 其中,步驟S2)包括:S21)判斷節(jié)點(diǎn)是否為葉子節(jié)點(diǎn),是則相似度值為0;S22)判斷 節(jié)點(diǎn)是否只有一個(gè)孩子節(jié)點(diǎn),是則其相似度值等于其孩子節(jié)點(diǎn)相似度值;S23)當(dāng)節(jié)點(diǎn)不為 葉子節(jié)點(diǎn)或者節(jié)點(diǎn)不止具有一個(gè)孩子節(jié)點(diǎn)時(shí),則直接利用深度加權(quán)子樹相似度算法進(jìn)行計(jì) 算。如圖3所示,圖3中右下角的實(shí)線方框內(nèi)即為最佳頻繁子樹。
[0032] 如圖4所示,抽取評(píng)論路徑包括W下步驟:
[0033] S101)將抽取出來的最佳頻繁子樹根據(jù)子樹一致性對(duì)齊方法,計(jì)算根節(jié)點(diǎn)的所有 孩子子樹的對(duì)齊值C(Ti),取所有C(Ti)中的最小值作為最小評(píng)論區(qū)域塊,如圖4中Tc內(nèi)的虛 線框部分。
[0034] S201)通過路徑的文本長度計(jì)算方法,計(jì)算最小評(píng)論區(qū)域塊中所有從根節(jié)點(diǎn)到葉 子節(jié)點(diǎn)的路徑的文本長度L(門),取最大L(門)值下的路徑作為最頻繁路徑,如圖4中Tc內(nèi)實(shí) 線框選的部分。
[00巧]S301)利用jsoup工具解析最頻繁路徑。
[0036] 如圖5所示,最終已將網(wǎng)頁中的評(píng)論內(nèi)容抽取出來。
[0037] W上內(nèi)容是結(jié)合具體的實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定本發(fā) 明的具體實(shí)施只局限于運(yùn)些說明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫 離本發(fā)明構(gòu)思的前提下,還可W做出若干簡單推演或替換。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)頁評(píng)論內(nèi)容的抽取方法,其特征在于:包括以下步驟: 獲取網(wǎng)頁源碼; 將網(wǎng)頁源碼轉(zhuǎn)換成DOM樹結(jié)構(gòu),基于位置、文本長度和布局特征對(duì)DOM樹進(jìn)行剪枝預(yù)處 理; 通過深度加權(quán)子樹相似度算法抽取最佳頻繁子樹; 通過樹的一致性對(duì)齊方法求出最小評(píng)論區(qū)域,然后通過路徑文本長度抽取最頻繁評(píng)論 路徑并提取評(píng)論內(nèi)容。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于:所述通過深度加權(quán)子樹相似度算法抽取最 佳頻繁子樹,具體包括: 建立深度加權(quán)樹,設(shè)定深度權(quán)重的葉子節(jié)點(diǎn)權(quán)值為1,逐層向上的父親節(jié)點(diǎn)深度依次加 1; 以樹節(jié)點(diǎn)的標(biāo)簽作為關(guān)鍵詞,用相同標(biāo)簽的權(quán)值總和作為向量坐標(biāo),利用余弦向量算 法構(gòu)建節(jié)點(diǎn)相似度算法,計(jì)算節(jié)點(diǎn)相似度; 從根節(jié)點(diǎn)層次遍歷整棵DOM樹,計(jì)算當(dāng)前節(jié)點(diǎn)的相似度值sim(R),再計(jì)算其所有孩子節(jié) 點(diǎn)的相似度值; 判斷根節(jié)點(diǎn)的相似度值是否同時(shí)滿足既大于預(yù)置的相似度閾值又大于其所有孩子節(jié) 點(diǎn)的相似度值; 若滿足,停止遍歷,此時(shí)該根節(jié)點(diǎn)的所有孩子節(jié)點(diǎn)構(gòu)成的孩子子樹即為最佳頻繁子樹。3. 根據(jù)要求2所述的方法,其特征在于:所述當(dāng)前節(jié)點(diǎn)的相似度值sim(R)的計(jì)算式為:其中,xs表示子樹T1的節(jié)點(diǎn)標(biāo)簽向量,yg表示子樹T2的節(jié)點(diǎn)標(biāo)簽向量,W和W分別表示xi 和又:的權(quán)值,m表示根節(jié)點(diǎn)R的孩子節(jié)點(diǎn)個(gè)數(shù),TdPT分別表示R的兩顆孩子子樹,葉子節(jié)點(diǎn)的 相似度值為〇,只有一個(gè)孩子節(jié)點(diǎn)滿足其父親節(jié)點(diǎn)的相似度值等于其孩子節(jié)點(diǎn)的相似度值。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于:所述通過樹的一致性對(duì)齊方法求出最小評(píng) 論區(qū)域,然后通過路徑文本長度抽取最頻繁評(píng)論路徑并提取評(píng)論內(nèi)容,具體包括: 通過頻繁子樹對(duì)齊方法抽取最小評(píng)論區(qū)域,計(jì)算子樹對(duì)齊值C(Ti),將子樹對(duì)齊值C (Ti)中最小值對(duì)應(yīng)的子樹作為最小評(píng)論區(qū)域; 通過路徑的文本長度抽取最頻繁評(píng)論路徑,計(jì)算最小評(píng)論區(qū)域中每條從根節(jié)點(diǎn)到葉子 節(jié)點(diǎn)的路徑頻繁值L(pj ),獲取最頻繁路徑并抽取評(píng)論內(nèi)容。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于:所述的子樹對(duì)齊值C(Ti)的計(jì)算式為: ', 其中,Ti表示根節(jié)點(diǎn)下的第i棵子樹,a表示第j個(gè)節(jié)點(diǎn)的對(duì)齊次數(shù),η表示該子樹的節(jié)點(diǎn) 總數(shù),t表示頻繁子樹的總棵樹。6. 根據(jù)權(quán)利要求4所述的方法,其特征在于:所述的葉子節(jié)點(diǎn)的路徑頻繁值L(pj)的計(jì) 算式為:其中,P表示第j條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑,a表示該條路徑中葉子節(jié)點(diǎn)的對(duì)齊次 數(shù),t表示頻繁子樹的總棵樹,len(Tk)表示第K棵子樹中該路徑包含的文本長度,len(T)表 示所有頻繁子樹中該路徑包含的文本長度總和。
【專利摘要】一種網(wǎng)頁評(píng)論內(nèi)容的抽取方法,包括以下步驟:獲取網(wǎng)頁源碼;將網(wǎng)頁源碼轉(zhuǎn)換成DOM樹結(jié)構(gòu),基于位置、文本長度和布局特征對(duì)DOM樹進(jìn)行剪枝預(yù)處理;通過深度加權(quán)子樹相似度算法抽取最佳頻繁子樹;通過樹的一致性對(duì)齊方法求出最小評(píng)論區(qū)域,然后通過路徑文本長度抽取最頻繁評(píng)論路徑并提取評(píng)論內(nèi)容。本申請(qǐng)降低了時(shí)間復(fù)雜度,提高了抽取效率和抽取的準(zhǔn)確率,且人工干預(yù)少,抽取過程全自動(dòng),適應(yīng)范圍廣,不用構(gòu)造抽取模板,無需考慮網(wǎng)頁結(jié)構(gòu)變更帶來模板更新的麻煩。
【IPC分類】G06F17/27
【公開號(hào)】CN105630772
【申請(qǐng)?zhí)枴緾N201610053347
【發(fā)明人】郝志峰, 袁琴, 蔡瑞初, 陳炳豐, 駱魁永
【申請(qǐng)人】廣東工業(yè)大學(xué)
【公開日】2016年6月1日
【申請(qǐng)日】2016年1月26日