亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于標(biāo)題的網(wǎng)頁有效元數(shù)據(jù)內(nèi)容提取方法與流程

文檔序號:11230671閱讀:639來源:國知局
本發(fā)明涉及,具體涉及一種基于標(biāo)題的網(wǎng)頁有效元數(shù)據(jù)內(nèi)容提取方法。
背景技術(shù)
::隨著互聯(lián)網(wǎng)絡(luò)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)新聞媒體已被公認(rèn)為是繼報紙、廣播、電視之后的“第四媒體”。網(wǎng)絡(luò)技術(shù)推陳出新,網(wǎng)絡(luò)新聞、論壇、博客、聚合新聞等層出不窮,且具有范圍廣、交互性強、更新速度快的特點,可以說任何人都可以在bbs論壇,留言版或者自建站點上發(fā)布言論和觀點,而且,隨著web2.0的發(fā)展與廣泛應(yīng)用,互聯(lián)網(wǎng)上的輿論信息迅速傳遍。從對社會影響方面看,網(wǎng)絡(luò)輿論成為社會輿論的一種重要表現(xiàn)形式。由于原始的網(wǎng)頁信息中包含有大量的導(dǎo)航信息與廣告信息等,對識別有效的輿論信息帶來極大的干擾。那么如何從不同的網(wǎng)頁中自動抽取出有效的正文內(nèi)容、發(fā)表時間、原始來源、原始作者、相關(guān)的圖片、表格、文檔等元數(shù)據(jù)就變得尤為重要。對于提取網(wǎng)頁中的元數(shù)據(jù)內(nèi)容傳統(tǒng)的方法是對每個不同的網(wǎng)站配置不同的抽取模板,即根據(jù)所要監(jiān)測網(wǎng)站的文章內(nèi)容網(wǎng)頁的展現(xiàn)形式通過正則表達(dá)式、前后字符或網(wǎng)頁元素的xpath路徑等預(yù)先定義好抽取規(guī)則后分別提取相關(guān)的元數(shù)據(jù)。中國專利“cn201611027102.8一種基于網(wǎng)頁聚類的正文信息提取方法”提供了一種網(wǎng)頁正文信息提取方法。此專利在基于相似的網(wǎng)站鏈接地址情況下,自動根據(jù)多個相似的網(wǎng)頁的特征生成正文信息的抽取規(guī)則。傳統(tǒng)的根據(jù)不同的網(wǎng)站配置不同的網(wǎng)頁內(nèi)容抽取規(guī)則,需要投入較多人力來根據(jù)不同的網(wǎng)站配置不同的抽取模板。一旦目標(biāo)網(wǎng)站的網(wǎng)頁改版了,或者有稍微細(xì)小的調(diào)整都可能導(dǎo)致原來的抽取模板規(guī)則失效,需要重新根據(jù)新的版面配置新的抽取規(guī)則。這種形式維護(hù)工作量較大,不宜對數(shù)萬乃至數(shù)十萬上百萬個網(wǎng)站的網(wǎng)頁內(nèi)容抽取。中國專利“cn201611027102.8一種基于網(wǎng)頁聚類的正文信息提取方法”需要通過對目標(biāo)網(wǎng)站上的大量相似的網(wǎng)頁進(jìn)行學(xué)習(xí)后提取特征自動生成規(guī)則,也會存在目標(biāo)網(wǎng)站的網(wǎng)頁改版后,需要重新學(xué)習(xí)抽取規(guī)則特征的情況。技術(shù)實現(xiàn)要素:本發(fā)明的目的是提取出一種無需根據(jù)每個網(wǎng)站的展現(xiàn)形式制定抽取規(guī)則,根據(jù)網(wǎng)頁的標(biāo)題信息自動識別網(wǎng)頁中有效元數(shù)據(jù)的方法。本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:一種基于標(biāo)題的網(wǎng)頁有效元數(shù)據(jù)內(nèi)容提取方法,提取方法基于鏈接標(biāo)題或網(wǎng)頁標(biāo)題來定義網(wǎng)頁的主體內(nèi)容所在的位置,無需對網(wǎng)頁的html進(jìn)行人工分析設(shè)定抽取規(guī)則,只需在識別時輸入網(wǎng)頁的html源碼和鏈接標(biāo)題信息即可以自動識別出與網(wǎng)頁相關(guān)的各項元數(shù)據(jù)信息。具體步驟如下:(1)通過爬蟲系統(tǒng)讀取每個網(wǎng)站的鏈接、鏈接標(biāo)題和網(wǎng)頁內(nèi)容后;(2)將網(wǎng)頁內(nèi)容送入內(nèi)容識別算法,識別算法先判斷輸入的內(nèi)容中是否有鏈接標(biāo)題,沒有鏈接標(biāo)題的自動提取網(wǎng)頁中的<title>到</title>中的內(nèi)容作為信息標(biāo)題;(3)剔除網(wǎng)頁源代碼中的script、iframe、noscript、textarea、select、注釋等信息,以加快有效內(nèi)容的識別;(4)將網(wǎng)頁的html源代碼轉(zhuǎn)換成樹狀結(jié)構(gòu),在轉(zhuǎn)換中同時記錄每個樹結(jié)點的中的句子數(shù)量、鏈接數(shù)量等以作為識別的輔助信息;(5)逐個讀取html樹結(jié)點的元素中的文本內(nèi)容,判斷該文本信息是否是句子或段落,判斷是否是句子或段落的依據(jù)是該段文本中的逗號數(shù)量是否超過2個,而且含有中英文常用的句子結(jié)束符號(句號、省略號、感嘆號等),如果不是句子的,判斷文本信息的長度是否大于3個漢字,6個字符,小于3個漢字的可以認(rèn)為是噪聲信息不作后續(xù)的處理,繼續(xù)讀取下一個html樹結(jié)點;大于3漢字的,通過公式計算該字符串與輸入的標(biāo)題的相似度;相似度計算公式為:(a∩b/a∪b)*100=相似度,即a為鏈接標(biāo)題中的所有字符(英文以單詞),b為當(dāng)前文本的所有字符,a與b中共同出現(xiàn)的字符數(shù)量除與a與b中所有不重復(fù)的單詞數(shù)量乘于100即為兩個文本的相似度;(6)當(dāng)發(fā)現(xiàn)文本與標(biāo)題的相似度超過20%時,先記錄當(dāng)前文本的位置,繼續(xù)掃描其它的html樹結(jié)點,當(dāng)發(fā)現(xiàn)該文本相似度超過原先搜索到的文本的相似度時,即可以替換原來的結(jié)點信息,逐步替換直到找到首個句子或段落出現(xiàn)時即結(jié)束標(biāo)題信息的搜索;(7)當(dāng)發(fā)現(xiàn)標(biāo)題后到搜索到第一個句子或段落信息后,需要求出標(biāo)題與首個句子的共同的首個父結(jié)點,并以此結(jié)點作為搜索起始通過深度掃描判斷每個結(jié)點的句子數(shù)量是否發(fā)生變化,當(dāng)數(shù)量的變化不超過1/2時將繼續(xù)往下搜索,直到搜索出包含有最多句子和段落的html元素結(jié)點;至此,即可鎖定網(wǎng)頁的正文主體內(nèi)容,通過html樹結(jié)點上的標(biāo)簽信息如img可以獲得文中的圖片信息,通過table標(biāo)簽可以獲得文中的表格信息,通過a標(biāo)簽與href屬性判斷是否是文中的文檔信息;(8)除了識別正文與正文中的元數(shù)據(jù)外,還需要抽取正文相關(guān)的作者、來源、發(fā)表時間等信息,這個可以通過對正文標(biāo)題到首個句子或段落間的文本信息進(jìn)行掃描,并通過正則表達(dá)式來判斷是否是作者信息、來源信息或時間信息等屬性;(9)根據(jù)以上的信息,即可以將網(wǎng)頁內(nèi)容識別出相關(guān)的屬性元數(shù)據(jù)信息。本發(fā)明具有如下有益的效果:本發(fā)明由于不需要對網(wǎng)頁的內(nèi)容進(jìn)行人工分析,只需要輸入鏈接的網(wǎng)頁內(nèi)容和鏈接標(biāo)題即可完成文章元數(shù)據(jù)內(nèi)容的抽取。據(jù)統(tǒng)計網(wǎng)頁上80%以上的鏈接都有相應(yīng)的標(biāo)題信息,即便沒有標(biāo)題信息,我們也可以從網(wǎng)頁的自身標(biāo)題上獲取該網(wǎng)頁的大致內(nèi)容,以此作為基礎(chǔ)搜索正文主體所在信息,并抽取出相關(guān)的屬性信息。通過該方法至少可以達(dá)到:①易維護(hù),無需配置抽取規(guī)則,自動適應(yīng)各種網(wǎng)站的網(wǎng)頁風(fēng)格,大大減輕了維護(hù)成本;②速度快,無需學(xué)習(xí)模式,只要有標(biāo)題經(jīng)過簡單過濾后識別即可以快速鎖定文章的主體信息,在大規(guī)模識別網(wǎng)頁內(nèi)容時具備有速度快的特點;③精準(zhǔn)性,由于基于鏈接標(biāo)題作為線索,即網(wǎng)頁中必須要出現(xiàn)與鏈接標(biāo)題大體相似的信息,并以此作為中心點探測網(wǎng)頁的主體內(nèi)容結(jié)點,所以獲得的主體內(nèi)容必是與標(biāo)題相關(guān)的結(jié)點,就該結(jié)點中輸出的內(nèi)容就是網(wǎng)頁的內(nèi)容;④易讀性,由于采用了html結(jié)構(gòu)樹的模式,可以在鎖定主體內(nèi)容結(jié)點后,可以以該結(jié)點為起始輸入遞歸輸出包含有html屬性的文本信息,可以較好地保留原文的風(fēng)格,如加粗、字體大小等風(fēng)格。附圖說明圖1為本發(fā)明的流程圖;圖2為本發(fā)明的html轉(zhuǎn)換成結(jié)構(gòu)樹的效果圖;圖3為本發(fā)明的掃描標(biāo)題與首個句子后的效果圖;圖4為本發(fā)明的識別到標(biāo)題與句子段落的情況圖;圖5為本發(fā)明的識別到網(wǎng)頁中的元數(shù)據(jù)效果圖。具體實施方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步的說明:如圖1所示,一種基于標(biāo)題的網(wǎng)頁有效元數(shù)據(jù)內(nèi)容提取方法,提取方法基于鏈接標(biāo)題或網(wǎng)頁標(biāo)題來定義網(wǎng)頁的主體內(nèi)容所在的位置,無需對網(wǎng)頁的html進(jìn)行人工分析設(shè)定抽取規(guī)則,只需在識別時輸入網(wǎng)頁的html源碼和鏈接標(biāo)題信息即可以自動識別出與網(wǎng)頁相關(guān)的各項元數(shù)據(jù)信息。具體步驟如下:(1)通過爬蟲系統(tǒng)讀取每個網(wǎng)站的鏈接、鏈接標(biāo)題和網(wǎng)頁內(nèi)容后;(2)將網(wǎng)頁內(nèi)容送入內(nèi)容識別算法,識別算法先判斷輸入的內(nèi)容中是否有鏈接標(biāo)題,沒有鏈接標(biāo)題的自動提取網(wǎng)頁中的<title>到</title>中的內(nèi)容作為信息標(biāo)題;(3)剔除網(wǎng)頁源代碼中的script、iframe、noscript、textarea、select、注釋等信息,以加快有效內(nèi)容的識別;(4)如圖2所示,將網(wǎng)頁的html源代碼轉(zhuǎn)換成樹狀結(jié)構(gòu),在轉(zhuǎn)換中同時記錄每個樹結(jié)點的中的句子數(shù)量、鏈接數(shù)量等以作為識別的輔助信息;(5)逐個讀取html樹結(jié)點的元素中的文本內(nèi)容,判斷該文本信息是否是句子或段落,判斷是否是句子或段落的依據(jù)是該段文本中的逗號數(shù)量是否超過2個,而且含有中英文常用的句子結(jié)束符號(句號、省略號、感嘆號等),如果不是句子的,判斷文本信息的長度是否大于3個漢字,6個字符,小于3個漢字的可以認(rèn)為是噪聲信息不作后續(xù)的處理,繼續(xù)讀取下一個html樹結(jié)點;大于3漢字的,通過公式計算該字符串與輸入的標(biāo)題的相似度;相似度計算公式為:(a∩b/a∪b)*100=相似度,即a為鏈接標(biāo)題中的所有字符(英文以單詞),b為當(dāng)前文本的所有字符,a與b中共同出現(xiàn)的字符數(shù)量除與a與b中所有不重復(fù)的單詞數(shù)量乘于100即為兩個文本的相似度;(6)如圖3所示,當(dāng)發(fā)現(xiàn)文本與標(biāo)題的相似度超過20%時,先記錄當(dāng)前文本的位置,繼續(xù)掃描其它的html樹結(jié)點,當(dāng)發(fā)現(xiàn)該文本相似度超過原先搜索到的文本的相似度時,即可以替換原來的結(jié)點信息,逐步替換直到找到首個句子或段落出現(xiàn)時即結(jié)束標(biāo)題信息的搜索;(7)如圖4所示,當(dāng)發(fā)現(xiàn)標(biāo)題后到搜索到第一個句子或段落信息后,需要求出標(biāo)題與首個句子的共同的首個父結(jié)點,并以此結(jié)點作為搜索起始通過深度掃描判斷每個結(jié)點的句子數(shù)量是否發(fā)生變化,當(dāng)數(shù)量的變化不超過1/2時將繼續(xù)往下搜索,直到搜索出包含有最多句子和段落的html元素結(jié)點;至此,即可鎖定網(wǎng)頁的正文主體內(nèi)容,通過html樹結(jié)點上的標(biāo)簽信息如img可以獲得文中的圖片信息,通過table標(biāo)簽可以獲得文中的表格信息,通過a標(biāo)簽與href屬性判斷是否是文中的文檔信息;(8)除了識別正文與正文中的元數(shù)據(jù)外,還需要抽取正文相關(guān)的作者、來源、發(fā)表時間等信息,這個可以通過對正文標(biāo)題到首個句子或段落間的文本信息進(jìn)行掃描,并通過正則表達(dá)式來判斷是否是作者信息、來源信息或時間信息等屬性;(9)如圖5所示,根據(jù)以上的信息,即可以將網(wǎng)頁內(nèi)容識別出相關(guān)的屬性元數(shù)據(jù)信息。具體實施例如下:通過爬蟲系統(tǒng)讀取每個網(wǎng)站的鏈接、鏈接標(biāo)題和網(wǎng)頁內(nèi)容后;讀取到騰訊網(wǎng)有“德國聯(lián)邦情報局再曝丑聞,監(jiān)控國際刑警組織多年”的標(biāo)題,通過內(nèi)容識別算法識別出該標(biāo)題為鏈接標(biāo)題,進(jìn)入標(biāo)題的鏈接網(wǎng)頁,剔除網(wǎng)頁源代碼中的注釋等信息,將網(wǎng)頁的html源代碼轉(zhuǎn)換成樹狀結(jié)構(gòu),對該網(wǎng)頁進(jìn)行逐句的文本讀取,判斷句子和段落文字長度,進(jìn)而搜索相似標(biāo)題、內(nèi)容、作者、發(fā)表時間,搜索到中國日報和《明鏡周刊》均有類似報道,進(jìn)而讀取到所需要的信息。本發(fā)明通過基于鏈接標(biāo)題或網(wǎng)頁標(biāo)題來定義網(wǎng)頁的主體內(nèi)容所在的位置,可以無需對網(wǎng)頁的html進(jìn)行人工分析設(shè)定抽取規(guī)則。只需在識別時輸入網(wǎng)頁的html源碼和鏈接標(biāo)題信息即可以自動識別出與網(wǎng)頁相關(guān)的各項元數(shù)據(jù)信息,關(guān)鍵電涉及到將html源碼轉(zhuǎn)換為html結(jié)構(gòu)樹,要求html源碼在轉(zhuǎn)換為結(jié)構(gòu)樹能較好的地滿足html規(guī)范,并具有一定的容錯能力,如只有<p>的標(biāo)簽,沒有</p>標(biāo)簽時可以自動結(jié)束一個html結(jié)點,同時還需要快速的文本相似度計算公式與句子段落判定公式,通過以上幾項技術(shù)的,結(jié)合本發(fā)明算法即可以實現(xiàn)快速的對各種網(wǎng)頁內(nèi)容抽取文章的元數(shù)據(jù)信息。以上顯示和描述了本發(fā)明的基本原理、主要特征和優(yōu)點。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實施過程的限制,上述實施過程和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明的范圍內(nèi)。本發(fā)明要求護(hù)范圍由所附的權(quán)利要求書及其效果界定。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1