亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法

文檔序號(hào):6545643閱讀:517來源:國(guó)知局
一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法【專利摘要】本發(fā)明提出了一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,本發(fā)明提出的邏輯鏈接塊概念,擴(kuò)展了常規(guī)鏈接塊的范疇;本發(fā)明提出的邏輯鏈接塊的發(fā)現(xiàn)方法,避開了傳統(tǒng)鏈接塊識(shí)別所不可或缺的標(biāo)簽樹解析或者DOM解析過程,鏈接塊的判別規(guī)則簡(jiǎn)單,無需復(fù)雜計(jì)算;本發(fā)明提出的方法分析速度快,抗干擾性強(qiáng),能更好的適應(yīng)設(shè)計(jì)不規(guī)范的Web頁(yè)面,且不要求鏈接塊內(nèi)的鏈接主題內(nèi)聚性高,這也就決定了該方法在Web頁(yè)面文本抽取方面有著潛在的應(yīng)用價(jià)值,在其他對(duì)鏈接塊精細(xì)粒度要求不高的Web信息處理和挖掘領(lǐng)域中也具有廣泛的應(yīng)用前景。【專利說明】一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法【
技術(shù)領(lǐng)域
】本發(fā)明涉及Web頁(yè)面識(shí)別【
技術(shù)領(lǐng)域
】,應(yīng)用于網(wǎng)頁(yè)正文抽取、鏈接分析統(tǒng)計(jì)或非物理鏈接塊分析的相關(guān)場(chǎng)合,尤其涉及Web頁(yè)面邏輯鏈接塊的識(shí)別方法?!?br>背景技術(shù)
】萬維網(wǎng)是一個(gè)通過頁(yè)面之間的鏈接構(gòu)建起來的超大型復(fù)雜網(wǎng)絡(luò)。鏈接在Web信息組織和展示、頁(yè)面導(dǎo)航等方面發(fā)揮著巨大的作用。網(wǎng)絡(luò)爬蟲依靠Web頁(yè)面之間的鏈接實(shí)現(xiàn)互聯(lián)網(wǎng)的遍歷爬行,互聯(lián)網(wǎng)用戶正是依靠頁(yè)面之間的鏈接實(shí)現(xiàn)同主題內(nèi)容的“聚合”閱讀。Web頁(yè)面中的鏈接往往以不同的粒度塊來組織,塊粒度越精細(xì)則所含鏈接的主題相關(guān)性越高;隨著塊粒度的增大,鏈接塊的主題“內(nèi)聚”性逐漸減弱。在針對(duì)鏈接塊的相關(guān)研究中,根據(jù)研究目的不同,對(duì)鏈接塊的粒度精細(xì)要求也將不同。在針對(duì)鏈接塊的相關(guān)研究中,根據(jù)研究目的不同,對(duì)鏈接塊的粒度精細(xì)要求也將不同。在專門針對(duì)鏈接塊進(jìn)行分析的研究中,對(duì)鏈接塊粒度的要求往往較為精細(xì),如特定主題鏈接提?。欢谄渌擎溄訅K研究中,則對(duì)鏈接塊的粒度要求不高,如Web頁(yè)面文本提取。在技術(shù)實(shí)現(xiàn)上,視覺上的分塊往往也對(duì)應(yīng)著塊(block)級(jí)標(biāo)簽元素(Block-levelelements)[I],目前涉及鏈接塊相關(guān)的應(yīng)用和研究基本僅針對(duì)該實(shí)現(xiàn)方式。然而,由于網(wǎng)頁(yè)設(shè)計(jì)技術(shù)和實(shí)現(xiàn)的多樣性,視覺上的分塊,在實(shí)現(xiàn)方式上并不總是采用block類型標(biāo)簽實(shí)現(xiàn),也有可能采用內(nèi)聯(lián)類型標(biāo)簽(inlineelements)實(shí)現(xiàn),這也就意味著無法準(zhǔn)確的預(yù)知設(shè)計(jì)者使用何種方式實(shí)現(xiàn)鏈接塊,或者需要建立在對(duì)HTML標(biāo)簽屬性的精細(xì)解析基礎(chǔ)之上,這給基于海量Web數(shù)據(jù)的一些自動(dòng)化應(yīng)用帶來了諸多麻煩。Web頁(yè)面鏈接塊的研究歷史悠久,對(duì)Web頁(yè)面進(jìn)行分塊或者信息提取的方法眾多,SumaiaMohammedAL-Ghuribi[2]將Web頁(yè)面的抽取方法總結(jié)為基于Wrapper、模板、機(jī)器學(xué)習(xí)、視覺布局特征、HTML特征等五類,這五類方法同樣適用于Web頁(yè)面鏈接塊的分塊,其中Wrapper和模板法的通用性較差,且一般需要人工參與,并需要更新維護(hù),極為耗時(shí)費(fèi)力,鑒于此,JunfengWang,JunHe等提出了無需模板支持或人工監(jiān)督的Wrapper算法[3]、[4]、[5],并取得較好的效果;PETERSM提出的機(jī)器學(xué)習(xí)的方法需要借助合適的訓(xùn)練集和適量的特征[6],且難以完全脫離人工監(jiān)督;利用視覺布局特征的方法的典型代表即VIPS[7],該方法雖然準(zhǔn)確率較高,但是對(duì)網(wǎng)頁(yè)的解析要求過于精細(xì),計(jì)算消耗大,面對(duì)大量非規(guī)范化的網(wǎng)頁(yè)時(shí)健壯性難以保證,且在當(dāng)前普遍采用CSS[8]來控制各頁(yè)面標(biāo)簽的視覺呈現(xiàn)效果的情況下,還需要另行解析相關(guān)CSS,最終導(dǎo)致解析任務(wù)量大,程序健壯性欠缺;基于HTML特征的相關(guān)方法多偏向一些啟發(fā)式規(guī)則[9]或一些統(tǒng)計(jì)規(guī)律,通用性有待提高。此外,也有研究者提出其他的一些方法,例如利用模糊神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)頁(yè)面分塊的方法[10],MSS頁(yè)面分塊方法[11]等。雖然相關(guān)研究方法多種多樣,各有千秋,然而經(jīng)過分析總結(jié)可以發(fā)現(xiàn):目前關(guān)于Web頁(yè)面鏈接塊的發(fā)現(xiàn)和識(shí)別相關(guān)算法基本都是基于標(biāo)簽樹[12][13][14][15][16],而D0M[17]是一種構(gòu)建標(biāo)簽樹最為常見的方式,其他方法也基本都以HTML標(biāo)簽樹或DOM為基礎(chǔ)[18][19]。此外,在對(duì)Web頁(yè)面進(jìn)行分塊的相關(guān)研究中,有相當(dāng)一部分研究基本僅僅針對(duì)塊級(jí)層次的HTML標(biāo)簽元素,如div、table、tr、td等,其中由于table功能的多樣性和強(qiáng)勁性[20],早期網(wǎng)頁(yè)布局、修飾和內(nèi)容組織幾乎對(duì)table不可或缺,相應(yīng)的,部分研究也僅考慮了針對(duì)table布局的網(wǎng)頁(yè)[21],且未能很好的區(qū)分用于布局的table和用于內(nèi)容組織的tableoSon專門研究基于table設(shè)計(jì)的網(wǎng)頁(yè),對(duì)table的兩種作用做了區(qū)分并分別識(shí)別,實(shí)驗(yàn)證明該方法具有一定的先進(jìn)性。但僅針對(duì)table的處理方式局限性還較大,目前的網(wǎng)頁(yè)設(shè)計(jì)基本都是table和div共存,Uzun[22]同時(shí)考慮這兩種情況,先根據(jù)div和td獲得分塊信息,其次結(jié)合決策樹生成抽取規(guī)則,取得較好的效果,特別是在抽取速度上獲得了和手工規(guī)則相當(dāng)?shù)男阅?Wang[23]則提出BSU概念,并基于此采用聚類和啟發(fā)式規(guī)則兩種方法實(shí)現(xiàn)頁(yè)面信息抽取,比采用基于div和table的方法結(jié)果更理想?,F(xiàn)有的各類對(duì)鏈接塊進(jìn)行分塊的算法,尤其是基于標(biāo)簽樹的各種方法需要Web頁(yè)面遵從較好的規(guī)范,這種規(guī)范既包括HTML、XHTML等標(biāo)簽語(yǔ)法規(guī)范(如標(biāo)簽的配對(duì)關(guān)系),也包括語(yǔ)義設(shè)計(jì)方面的規(guī)范(如通過瀏覽器渲染后在視覺上呈現(xiàn)塊狀的內(nèi)容在實(shí)際的代碼中通過塊級(jí)元素div、table等來呈現(xiàn),視覺上的標(biāo)題通過h1、h2等標(biāo)簽來呈現(xiàn)等)。但實(shí)際上,海量的Web頁(yè)面中,有相當(dāng)數(shù)量的Web頁(yè)面并不遵從HTML等標(biāo)簽語(yǔ)法規(guī)范和語(yǔ)義設(shè)計(jì)規(guī)范。雖然HTML標(biāo)簽語(yǔ)法上的不規(guī)范性可以通過一些現(xiàn)有的或自行設(shè)計(jì)的Web頁(yè)面規(guī)范化程序進(jìn)行矯正,但并不能保證100%的正確率;語(yǔ)義設(shè)計(jì)規(guī)范問題的矯正難度則更大。這就決定了基于標(biāo)簽樹或DOM的各種方法僅能在設(shè)計(jì)規(guī)范或易于矯正的Web頁(yè)面中獲得良好的效果,在非規(guī)范化Web頁(yè)面中則顯得捉襟見肘。由于在已有的Web頁(yè)面處理相關(guān)研究中,一般只將塊級(jí)標(biāo)簽對(duì)應(yīng)的代碼塊稱為塊,這種處理方式雖然極大的提高了諸多Web頁(yè)面處理的效果,然而在面對(duì)紛繁復(fù)雜的Web頁(yè)面時(shí),在某些情況下,這種處理方式可能帶來兩種后果:誤判或無法檢出。例如在很多Web頁(yè)面中,存在著并非塊級(jí)的廣告,在頁(yè)面正文抽取等研究領(lǐng)域,按傳統(tǒng)的塊級(jí)處理方式,無法檢出這些廣告鏈接。參考文獻(xiàn):[0001]W3C.HTML4.0lSpecification[S/0L].[2014-01-23].http://www.w3.0rg/TR/html401/.[0002]AL-GHURIBISM,ALSHOMRANIS.AComprehensiveSurveyonWebContentExtractionAlgorithmsandTechniques[C]//2013InternationalConferenceonInformationScienceandApplications(ICISA).1EEE,2013:1-5.[0003]WANGJF,HEXF,WANGC,etal.NewsarticleextractionwithtempIate-1ndependentwrapper[C]//Proceedingsofthel8thinternationalconferenceonWorldwideweb.NewYork,USA:ACMPress,2009:1085.[0004]HEJ,GUYQ,LIUHY,etal.Scalableandnoisetolerantwebknowledgeextractionforsearchtasksimplification[J].DecisionSupportSystems,2013,56:156-167.[0005]WANGJF,CHENC,WANGC,etal.Canwelearnatemplate-1ndependentwrapperfornewsarticleextractionfromasingletrainingsite?[C]//Proceedingsofthel5thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.NewYork,USA:ACMPress,2009:1345-1353.[0006]PETERSMjLECOCQD.Contentextractionusingdiversefeaturesets[C]//ProceedingWWW’13CompanionProceedingsofthe22ndinternationalconferenceonWorldWideWebcompanion.Geneva,Switzerland:2013:89-90.[0007]CaiD,YuSPjWenJR,etal.VIPS:avision-basedpagesegmentationalgorithm,MicrosoftTechnicalReport,MSR-TR-2003-79,2003.[0008]W3C.CascadingStyleSheets(CSS)Snapshot2010[S/0L].[2014-01-23].http://www.w3.0rg/TR/CSS/.[0009]XUEYjHUY,XING,etal.Webpagetitleextractionanditsapplication[J].InformationProcessing&Management,2007,43(5):1332-1347.[0010]CAPONETTILjCASTIELLOCjGoRECKIP.Documentpagesegmentationusingneuro-fuzzyapproach[J].AppliedSoftComputing,2008,8(I):118-126.[0011]PASTERNACKJ,ROTHD.Extractingarticletextfromthewebwithmaximumsubsequencesegmentation[C]//Proceedingsofthel8thinternationalconferenceonWorldwideweb.NewYork,USA:ACMPress,2009:971-980.[0012]AHMADIH,KONGJ.User-centricadaptationofWebinformationforsmallscreens[J].JournalofVisualLanguages&Computing,2012,23(I):13-28.[0013]CAIR,YANGJM,LAIWjetal.1Robot:AnintelligentcrawlerforWebforums[C]//ProceedingsoftheI7thinternationalconferenceonWorldWideWeb.2008:447-456.[0014]GUOY,TANGHF,SONGLH,etal.ECON:AnApproachtoExtractContentfromWebNewsPage[C]//201012thInternationalAsia-PacificWebConference.1EEE,2010:314-320.[0015]JIXWjZENGJP,ZHANGSY,etal.TagtreetemplateforWebinformationandschemaextraction[J].ExpertSystemswithApplications,2010,37(12):8492-8498.[0016]WONGTLjLAMW.AnunsupervisedmethodforjointinformationextractionandfeatureminingacrossdifferentWebsites[J].Data&KnowledgeEngineering,2009,68(I):107-125.[0017]W3C.DocumentObjectModel(DOM)[S/0L].[2014-01-23].http://www.w3.0rg/DOM/.[0018]李志文,沈之銳.基于自然標(biāo)注的網(wǎng)頁(yè)信息抽取研究[J].情報(bào)學(xué)報(bào),2013,32(8):853-859.[0019]ALVAREZMjPANA,RAP0S0J,etal.Extractinglistsofdatarecordsfromsem1-structuredwebpages[J].Data&KnowledgeEngineering,2008,64(2):491-509.[0020]CAFARELLAMJjHALEVYA,WANGDZ,etal.WebTables:exploringthepoweroftablesontheweb[C]//ProceedingsoftheVLDBEndowment.Auckland,NewZealand:2008:538-549.[0021]SONJ-WjPARKS-B.Webtablediscriminationwithcompositionofrichstructuralandcontentinformation[J].AppliedSoftComputing,2013,13(1):47-57.[0022]UZUNE,AGUNHV,YERLIKAYAT.Ahybridapproachforextractinginformativecontentfromwebpages[J].1nformationProcessing&Management,2013,49(4):928-944.[0023]WANGJQ,CHENQC,WANGXL,etal.Basicsemanticunitsbasedwebpagecontentextraction[C]//2008IEEEInternationalConferenceonSystems,ManandCybernetics.1EEE,2008:1489-1494.【
發(fā)明內(nèi)容】本發(fā)明為了解決上述的技術(shù)問題,提出了一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法。本發(fā)明的技術(shù)方案是:一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,包括下述步驟:步驟1:輸入網(wǎng)頁(yè);其中,步驟I中包括如下步驟;步驟1.1編碼識(shí)別:先獲取網(wǎng)頁(yè)編碼格式,如UTF-8、GB2312、GBK、BIG5、iso-8859-l等;步驟1.2網(wǎng)頁(yè)讀取:通過對(duì)待識(shí)別的WEB網(wǎng)頁(yè)的HTML文檔進(jìn)行字符掃描,分別識(shí)別出各個(gè)鏈接的起始位置和結(jié)束位置;定義如下概念:<ahref=〃…〃>文字</a>所述的起始位置是以字符“〈”開始,以字符“〉”為結(jié)束,且這兩者之間并不存在字符“〈”和的字符串.所述的結(jié)束位置是以字符“〈/”開始,以字符“〉”為結(jié)束,且這兩者之間并不存在字符“〈”、“〉”和“/”的字符串;步驟2:對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,包括去除腳本代碼、去除CSS樣式代碼、去除空標(biāo)簽;步驟3:將搜索位置P初始化為0,同時(shí)鏈接數(shù)計(jì)數(shù)器M初始化為O;步驟4、從搜索位置P開始搜索第一個(gè)鏈接的結(jié)束位置,若搜索到第一個(gè)鏈接的</a>標(biāo)簽位置,則進(jìn)入步驟5;否,則進(jìn)入步驟11;步驟5、確定第一個(gè)鏈接的結(jié)束位置,將其記為A,并開始搜索下一個(gè)鏈接的正向位置;若搜索到下一個(gè)鏈接的正向位置,則進(jìn)入步驟6,否,則進(jìn)入步驟11;步驟6、找到下一個(gè)鏈接的正向位置<a,將其記為B,并計(jì)算AB兩個(gè)位置之間的鏈接距離,所述的鏈接距離是Web頁(yè)面中相鄰兩個(gè)鏈接之間的距離;步驟7、判斷AB距離是否小于與所設(shè)定的距離閾值dt,若AB距離小于所設(shè)定的距離閾值dt,則對(duì)初始設(shè)置的鏈接數(shù)計(jì)數(shù)器M增1,即M=M+1,并記錄現(xiàn)在的搜索位置P,令P=B+1,返回步驟4;若AB距離不小于所設(shè)定的距離閾值,則結(jié)束當(dāng)前邏輯塊的搜索工作,將進(jìn)一步搜索與位置B對(duì)應(yīng)的鏈接結(jié)束位置,并記為C,進(jìn)入步驟8;步驟8、判斷當(dāng)前的鏈接計(jì)數(shù)器M是否小于所設(shè)定的鏈接數(shù)閾值Ct;若當(dāng)前的鏈接計(jì)數(shù)器M小于所設(shè)定的鏈接數(shù)閾值Ct,則可確定當(dāng)前的邏輯塊為非鏈接塊,進(jìn)入步驟9;如果當(dāng)前的鏈接計(jì)數(shù)器M不小于所設(shè)定的鏈接數(shù)閾值,則可確定當(dāng)前的邏輯塊是鏈接塊,邏輯鏈接塊發(fā)現(xiàn)成功,并將所發(fā)現(xiàn)的鏈接塊添加到邏輯鏈接塊列表當(dāng)中,進(jìn)入步驟9;步驟9、將當(dāng)前鏈接計(jì)數(shù)器M清零,并記錄當(dāng)前搜索位置P為C+1,進(jìn)入步驟4;步驟10、重復(fù)4-9的步驟,直至整個(gè)頁(yè)面掃描處理完畢;步驟11、結(jié)束,獲取當(dāng)前網(wǎng)頁(yè)的邏輯鏈接塊。所述的步驟6中的鏈接距離可以采用代碼距離或文本距離計(jì)算。所述的代碼距離是任意兩個(gè)標(biāo)簽之間的代碼距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有內(nèi)容的長(zhǎng)度;在本發(fā)明的計(jì)算中,將先去除各標(biāo)簽的屬性然后才執(zhí)行代碼距離的計(jì)算。所述的文本距離是任意兩個(gè)標(biāo)簽之間的文本距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有文本的長(zhǎng)度;在計(jì)算文本距離時(shí),遵從如下規(guī)則:4.1、英文等字符以單詞為統(tǒng)計(jì)單位,即一個(gè)單詞長(zhǎng)度計(jì)為1,如果若干個(gè)連續(xù)英文字符不構(gòu)成單詞,其長(zhǎng)度也將計(jì)I;4.2、中文等字符以單個(gè)字為統(tǒng)計(jì)單位,即一個(gè)漢字長(zhǎng)度計(jì)為I;4.3、數(shù)字以一個(gè)完整數(shù)字為統(tǒng)計(jì)單位,即一個(gè)完整數(shù)字長(zhǎng)度計(jì)為I;4.4、日期時(shí)間字符串以日期時(shí)間整體為統(tǒng)計(jì)單位,即一個(gè)完整日期時(shí)間串長(zhǎng)度計(jì)為I;4.5、標(biāo)點(diǎn)符號(hào)與漢字統(tǒng)計(jì)規(guī)則一樣,但是若相鄰的若干個(gè)標(biāo)點(diǎn)符號(hào)相同,則長(zhǎng)度只計(jì)1所述步驟8中的邏輯鏈接塊定義為:設(shè)某邏輯塊中的鏈接數(shù)為Clink,邏輯塊內(nèi)各相鄰鏈接之間的距離為問,4,...,<,.Λ—O,若該邏輯塊滿足如下條件,則稱該邏輯塊為邏輯鏈接塊。【權(quán)利要求】1.一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于,包括下述步驟:步驟1:輸入網(wǎng)頁(yè);步驟2:對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,包括去除腳本代碼、去除CSS樣式代碼、去除空標(biāo)簽;步驟3:將搜索位置P初始化為O,同時(shí)鏈接數(shù)計(jì)數(shù)器M初始化為O;步驟4、從搜索位置P開始搜索第一個(gè)鏈接的結(jié)束位置,若搜索到第一個(gè)鏈接的</a>標(biāo)簽位置,則進(jìn)入步驟5;否,則進(jìn)入步驟11;步驟5、確定第一個(gè)鏈接的結(jié)束位置,將其記為A,并開始搜索下一個(gè)鏈接的正向位置;若搜索到下一個(gè)鏈接的正向位置,則進(jìn)入步驟6,否,則進(jìn)入步驟11;步驟6、找到下一個(gè)鏈接的正向位置<a,將其記為B,并計(jì)算AB兩個(gè)位置之間的鏈接距離,所述的鏈接距離是Web頁(yè)面中相鄰兩個(gè)鏈接之間的距離;步驟7、判斷AB距離是否小于與所設(shè)定的距離閾值dt,若AB距離小于所設(shè)定的距離閾值dt,則對(duì)初始設(shè)置的鏈接數(shù)計(jì)數(shù)器M增1,即M=M+1,并記錄現(xiàn)在的搜索位置P,令P=B+1,返回步驟4;若AB距離不小于所設(shè)定的距離閾值,則結(jié)束當(dāng)前邏輯塊的搜索工作,將進(jìn)一步搜索與位置B對(duì)應(yīng)的鏈接結(jié)束位置,并記為C,進(jìn)入步驟8;步驟8、判斷當(dāng)前的鏈接計(jì)數(shù)器M是否小于所設(shè)定的鏈接數(shù)閾值Ct;若當(dāng)前的鏈接計(jì)數(shù)器M小于所設(shè)定的鏈接數(shù)閾值Ct,則可確定當(dāng)前的邏輯塊為非鏈接塊,進(jìn)入步驟9;如果當(dāng)前的鏈接計(jì)數(shù)器M不小于所設(shè)定的鏈接數(shù)閾值,則可確定當(dāng)前的邏輯塊是鏈接塊,邏輯鏈接塊發(fā)現(xiàn)成功,并將所發(fā)現(xiàn)的鏈接塊添加到邏輯鏈接塊列表當(dāng)中,進(jìn)入步驟9;步驟9、將當(dāng)前鏈接計(jì)數(shù)器M清零,并記錄當(dāng)前搜索位置P為C+1,進(jìn)入步驟4;步驟10、重復(fù)4-9的步驟,直至整個(gè)頁(yè)面掃描處理完畢;步驟11、結(jié)束,獲取當(dāng)前網(wǎng)頁(yè)的邏輯鏈接塊。2.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述的步驟I中還包括如下步驟:步驟1.1編碼識(shí)別:先獲取網(wǎng)頁(yè)編碼;步驟1.2網(wǎng)頁(yè)讀取:通過對(duì)待識(shí)別的WEB網(wǎng)頁(yè)的HTML文檔進(jìn)行字符掃描,分別識(shí)別出各個(gè)鏈接的起始位置和結(jié)束位置;定義如下概念:<ahref=〃…〃>文字</a>所述的起始位置是以字符“〈”開始,以字符“〉”為結(jié)束,且這兩者之間并不存在字符“〈”和的字符串.所述的結(jié)束位置是以字符“〈/”開始,以字符“〉”為結(jié)束,且這兩者之間并不存在字符“〈”、“〉”和“/”的字符串。3.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述的步驟6中的鏈接距離可以采用代碼距離或文本距離計(jì)算。4.根據(jù)權(quán)利要求2所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述的代碼距離是任意兩個(gè)標(biāo)簽之間的代碼距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有內(nèi)容的長(zhǎng)度;在本發(fā)明的計(jì)算中,將先去除各標(biāo)簽的屬性然后才執(zhí)行代碼距離的計(jì)算。5.根據(jù)權(quán)利要求2所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述的文本距離是任意兩個(gè)標(biāo)簽之間的文本距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有文本的長(zhǎng)度;在計(jì)算文本距離時(shí),遵從如下規(guī)則:.4.1、英文等字符以單詞為統(tǒng)計(jì)單位,即一個(gè)單詞長(zhǎng)度計(jì)為1,如果若干個(gè)連續(xù)英文字符不構(gòu)成單詞,其長(zhǎng)度也將計(jì)I;.4.2、中文等字符以單個(gè)字為統(tǒng)計(jì)單位,即一個(gè)漢字長(zhǎng)度計(jì)為I;.4.3、數(shù)字以一個(gè)完整數(shù)字為統(tǒng)計(jì)單位,即一個(gè)完整數(shù)字長(zhǎng)度計(jì)為I;.4.4、日期時(shí)間字符串以日期時(shí)間整體為統(tǒng)計(jì)單位,即一個(gè)完整日期時(shí)間串長(zhǎng)度計(jì)為I;.4.5、標(biāo)點(diǎn)符號(hào)與漢字統(tǒng)計(jì)規(guī)則一樣,但是若相鄰的若干個(gè)標(biāo)點(diǎn)符號(hào)相同,則長(zhǎng)度只計(jì)16.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述步驟8中的邏輯鏈接塊定義為:設(shè)某邏輯塊中的鏈接數(shù)為Clink,邏輯塊內(nèi)各相鄰鏈接之間的距離為吣’.U,若該邏輯塊滿足如下條件,則稱該邏輯塊為邏輯鏈接塊;7.根據(jù)權(quán)利要求6所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法,其特征在于:所述的邏輯塊是由不少于一個(gè)相鄰或相近的標(biāo)簽所構(gòu)成的連續(xù)代碼區(qū)域?!疚臋n編號(hào)】G06F17/30GK103942332SQ201410186981【公開日】2014年7月23日申請(qǐng)日期:2014年5月5日優(yōu)先權(quán)日:2014年5月5日【發(fā)明者】王賢明,谷瓊,朱莉申請(qǐng)人:溫州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1