一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法

文檔序號(hào)：6545643閱讀：517來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法【專利摘要】本發(fā)明提出了一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，本發(fā)明提出的邏輯鏈接塊概念，擴(kuò)展了常規(guī)鏈接塊的范疇；本發(fā)明提出的邏輯鏈接塊的發(fā)現(xiàn)方法，避開了傳統(tǒng)鏈接塊識(shí)別所不可或缺的標(biāo)簽樹解析或者DOM解析過程，鏈接塊的判別規(guī)則簡(jiǎn)單，無需復(fù)雜計(jì)算；本發(fā)明提出的方法分析速度快，抗干擾性強(qiáng)，能更好的適應(yīng)設(shè)計(jì)不規(guī)范的Web頁(yè)面，且不要求鏈接塊內(nèi)的鏈接主題內(nèi)聚性高，這也就決定了該方法在Web頁(yè)面文本抽取方面有著潛在的應(yīng)用價(jià)值，在其他對(duì)鏈接塊精細(xì)粒度要求不高的Web信息處理和挖掘領(lǐng)域中也具有廣泛的應(yīng)用前景。【專利說明】一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法【
技術(shù)領(lǐng)域：
】本發(fā)明涉及Web頁(yè)面識(shí)別【
技術(shù)領(lǐng)域：
】，應(yīng)用于網(wǎng)頁(yè)正文抽取、鏈接分析統(tǒng)計(jì)或非物理鏈接塊分析的相關(guān)場(chǎng)合，尤其涉及Web頁(yè)面邏輯鏈接塊的識(shí)別方法?！?br>背景技術(shù)：
】萬維網(wǎng)是一個(gè)通過頁(yè)面之間的鏈接構(gòu)建起來的超大型復(fù)雜網(wǎng)絡(luò)。鏈接在Web信息組織和展示、頁(yè)面導(dǎo)航等方面發(fā)揮著巨大的作用。網(wǎng)絡(luò)爬蟲依靠Web頁(yè)面之間的鏈接實(shí)現(xiàn)互聯(lián)網(wǎng)的遍歷爬行，互聯(lián)網(wǎng)用戶正是依靠頁(yè)面之間的鏈接實(shí)現(xiàn)同主題內(nèi)容的“聚合”閱讀。Web頁(yè)面中的鏈接往往以不同的粒度塊來組織，塊粒度越精細(xì)則所含鏈接的主題相關(guān)性越高；隨著塊粒度的增大，鏈接塊的主題“內(nèi)聚”性逐漸減弱。在針對(duì)鏈接塊的相關(guān)研究中，根據(jù)研究目的不同，對(duì)鏈接塊的粒度精細(xì)要求也將不同。在針對(duì)鏈接塊的相關(guān)研究中，根據(jù)研究目的不同，對(duì)鏈接塊的粒度精細(xì)要求也將不同。在專門針對(duì)鏈接塊進(jìn)行分析的研究中，對(duì)鏈接塊粒度的要求往往較為精細(xì)，如特定主題鏈接提?。欢谄渌擎溄訅K研究中，則對(duì)鏈接塊的粒度要求不高，如Web頁(yè)面文本提取。在技術(shù)實(shí)現(xiàn)上，視覺上的分塊往往也對(duì)應(yīng)著塊(block)級(jí)標(biāo)簽元素(Block-levelelements)[I]，目前涉及鏈接塊相關(guān)的應(yīng)用和研究基本僅針對(duì)該實(shí)現(xiàn)方式。然而，由于網(wǎng)頁(yè)設(shè)計(jì)技術(shù)和實(shí)現(xiàn)的多樣性，視覺上的分塊，在實(shí)現(xiàn)方式上并不總是采用block類型標(biāo)簽實(shí)現(xiàn)，也有可能采用內(nèi)聯(lián)類型標(biāo)簽(inlineelements)實(shí)現(xiàn),這也就意味著無法準(zhǔn)確的預(yù)知設(shè)計(jì)者使用何種方式實(shí)現(xiàn)鏈接塊，或者需要建立在對(duì)HTML標(biāo)簽屬性的精細(xì)解析基礎(chǔ)之上，這給基于海量Web數(shù)據(jù)的一些自動(dòng)化應(yīng)用帶來了諸多麻煩。Web頁(yè)面鏈接塊的研究歷史悠久，對(duì)Web頁(yè)面進(jìn)行分塊或者信息提取的方法眾多，SumaiaMohammedAL-Ghuribi[2]將Web頁(yè)面的抽取方法總結(jié)為基于Wrapper、模板、機(jī)器學(xué)習(xí)、視覺布局特征、HTML特征等五類，這五類方法同樣適用于Web頁(yè)面鏈接塊的分塊，其中Wrapper和模板法的通用性較差，且一般需要人工參與，并需要更新維護(hù)，極為耗時(shí)費(fèi)力，鑒于此，JunfengWang,JunHe等提出了無需模板支持或人工監(jiān)督的Wrapper算法[3]、[4]、[5]，并取得較好的效果；PETERSM提出的機(jī)器學(xué)習(xí)的方法需要借助合適的訓(xùn)練集和適量的特征[6]，且難以完全脫離人工監(jiān)督；利用視覺布局特征的方法的典型代表即VIPS[7]，該方法雖然準(zhǔn)確率較高，但是對(duì)網(wǎng)頁(yè)的解析要求過于精細(xì)，計(jì)算消耗大，面對(duì)大量非規(guī)范化的網(wǎng)頁(yè)時(shí)健壯性難以保證，且在當(dāng)前普遍采用CSS[8]來控制各頁(yè)面標(biāo)簽的視覺呈現(xiàn)效果的情況下，還需要另行解析相關(guān)CSS，最終導(dǎo)致解析任務(wù)量大，程序健壯性欠缺；基于HTML特征的相關(guān)方法多偏向一些啟發(fā)式規(guī)則[9]或一些統(tǒng)計(jì)規(guī)律，通用性有待提高。此外，也有研究者提出其他的一些方法，例如利用模糊神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)頁(yè)面分塊的方法[10]，MSS頁(yè)面分塊方法[11]等。雖然相關(guān)研究方法多種多樣，各有千秋，然而經(jīng)過分析總結(jié)可以發(fā)現(xiàn):目前關(guān)于Web頁(yè)面鏈接塊的發(fā)現(xiàn)和識(shí)別相關(guān)算法基本都是基于標(biāo)簽樹[12][13][14][15][16]，而D0M[17]是一種構(gòu)建標(biāo)簽樹最為常見的方式，其他方法也基本都以HTML標(biāo)簽樹或DOM為基礎(chǔ)[18][19]。此外，在對(duì)Web頁(yè)面進(jìn)行分塊的相關(guān)研究中，有相當(dāng)一部分研究基本僅僅針對(duì)塊級(jí)層次的HTML標(biāo)簽元素,如div、table、tr、td等,其中由于table功能的多樣性和強(qiáng)勁性[20],早期網(wǎng)頁(yè)布局、修飾和內(nèi)容組織幾乎對(duì)table不可或缺，相應(yīng)的，部分研究也僅考慮了針對(duì)table布局的網(wǎng)頁(yè)[21],且未能很好的區(qū)分用于布局的table和用于內(nèi)容組織的tableoSon專門研究基于table設(shè)計(jì)的網(wǎng)頁(yè)，對(duì)table的兩種作用做了區(qū)分并分別識(shí)別，實(shí)驗(yàn)證明該方法具有一定的先進(jìn)性。但僅針對(duì)table的處理方式局限性還較大，目前的網(wǎng)頁(yè)設(shè)計(jì)基本都是table和div共存，Uzun[22]同時(shí)考慮這兩種情況，先根據(jù)div和td獲得分塊信息，其次結(jié)合決策樹生成抽取規(guī)則，取得較好的效果，特別是在抽取速度上獲得了和手工規(guī)則相當(dāng)?shù)男阅?Wang[23]則提出BSU概念，并基于此采用聚類和啟發(fā)式規(guī)則兩種方法實(shí)現(xiàn)頁(yè)面信息抽取，比采用基于div和table的方法結(jié)果更理想?，F(xiàn)有的各類對(duì)鏈接塊進(jìn)行分塊的算法，尤其是基于標(biāo)簽樹的各種方法需要Web頁(yè)面遵從較好的規(guī)范，這種規(guī)范既包括HTML、XHTML等標(biāo)簽語(yǔ)法規(guī)范(如標(biāo)簽的配對(duì)關(guān)系)，也包括語(yǔ)義設(shè)計(jì)方面的規(guī)范(如通過瀏覽器渲染后在視覺上呈現(xiàn)塊狀的內(nèi)容在實(shí)際的代碼中通過塊級(jí)元素div、table等來呈現(xiàn)，視覺上的標(biāo)題通過h1、h2等標(biāo)簽來呈現(xiàn)等)。但實(shí)際上，海量的Web頁(yè)面中，有相當(dāng)數(shù)量的Web頁(yè)面并不遵從HTML等標(biāo)簽語(yǔ)法規(guī)范和語(yǔ)義設(shè)計(jì)規(guī)范。雖然HTML標(biāo)簽語(yǔ)法上的不規(guī)范性可以通過一些現(xiàn)有的或自行設(shè)計(jì)的Web頁(yè)面規(guī)范化程序進(jìn)行矯正，但并不能保證100%的正確率；語(yǔ)義設(shè)計(jì)規(guī)范問題的矯正難度則更大。這就決定了基于標(biāo)簽樹或DOM的各種方法僅能在設(shè)計(jì)規(guī)范或易于矯正的Web頁(yè)面中獲得良好的效果，在非規(guī)范化Web頁(yè)面中則顯得捉襟見肘。由于在已有的Web頁(yè)面處理相關(guān)研究中，一般只將塊級(jí)標(biāo)簽對(duì)應(yīng)的代碼塊稱為塊，這種處理方式雖然極大的提高了諸多Web頁(yè)面處理的效果，然而在面對(duì)紛繁復(fù)雜的Web頁(yè)面時(shí)，在某些情況下，這種處理方式可能帶來兩種后果:誤判或無法檢出。例如在很多Web頁(yè)面中，存在著并非塊級(jí)的廣告，在頁(yè)面正文抽取等研究領(lǐng)域，按傳統(tǒng)的塊級(jí)處理方式，無法檢出這些廣告鏈接。參考文獻(xiàn):[0001]W3C.HTML4.0lSpecification[S/0L].[2014-01-23].http://www.w3.0rg/TR/html401/.[0002]AL-GHURIBISM,ALSHOMRANIS.AComprehensiveSurveyonWebContentExtractionAlgorithmsandTechniques[C]//2013InternationalConferenceonInformationScienceandApplications(ICISA).1EEE,2013:1-5.[0003]WANGJF,HEXF,WANGC,etal.NewsarticleextractionwithtempIate-1ndependentwrapper[C]//Proceedingsofthel8thinternationalconferenceonWorldwideweb.NewYork,USA:ACMPress,2009:1085.[0004]HEJ,GUYQ,LIUHY,etal.Scalableandnoisetolerantwebknowledgeextractionforsearchtasksimplification[J].DecisionSupportSystems,2013,56:156-167.[0005]WANGJF,CHENC,WANGC,etal.Canwelearnatemplate-1ndependentwrapperfornewsarticleextractionfromasingletrainingsite?[C]//Proceedingsofthel5thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.NewYork,USA:ACMPress,2009:1345-1353.[0006]PETERSMjLECOCQD.Contentextractionusingdiversefeaturesets[C]//ProceedingWWW’13CompanionProceedingsofthe22ndinternationalconferenceonWorldWideWebcompanion.Geneva,Switzerland:2013:89-90.[0007]CaiD，YuSPjWenJR，etal.VIPS:avision-basedpagesegmentationalgorithm,MicrosoftTechnicalReport,MSR-TR-2003-79,2003.[0008]W3C.CascadingStyleSheets(CSS)Snapshot2010[S/0L].[2014-01-23].http://www.w3.0rg/TR/CSS/.[0009]XUEYjHUY，XING，etal.Webpagetitleextractionanditsapplication[J].InformationProcessing&Management,2007，43(5):1332-1347.[0010]CAPONETTILjCASTIELLOCjGoRECKIP.Documentpagesegmentationusingneuro-fuzzyapproach[J].AppliedSoftComputing,2008,8(I):118-126.[0011]PASTERNACKJ，ROTHD.Extractingarticletextfromthewebwithmaximumsubsequencesegmentation[C]//Proceedingsofthel8thinternationalconferenceonWorldwideweb.NewYork,USA:ACMPress,2009:971-980.[0012]AHMADIH，KONGJ.User-centricadaptationofWebinformationforsmallscreens[J].JournalofVisualLanguages&Computing，2012，23(I):13-28.[0013]CAIR，YANGJM，LAIWjetal.1Robot:AnintelligentcrawlerforWebforums[C]//ProceedingsoftheI7thinternationalconferenceonWorldWideWeb.2008:447-456.[0014]GUOY，TANGHF，SONGLH，etal.ECON:AnApproachtoExtractContentfromWebNewsPage[C]//201012thInternationalAsia-PacificWebConference.1EEE,2010:314-320.[0015]JIXWjZENGJP，ZHANGSY，etal.TagtreetemplateforWebinformationandschemaextraction[J].ExpertSystemswithApplications，2010，37(12):8492-8498.[0016]WONGTLjLAMW.AnunsupervisedmethodforjointinformationextractionandfeatureminingacrossdifferentWebsites[J].Data&KnowledgeEngineering,2009，68(I):107-125.[0017]W3C.DocumentObjectModel(DOM)[S/0L].[2014-01-23].http://www.w3.0rg/DOM/.[0018]李志文，沈之銳.基于自然標(biāo)注的網(wǎng)頁(yè)信息抽取研究[J].情報(bào)學(xué)報(bào)，2013，32(8):853-859.[0019]ALVAREZMjPANA,RAP0S0J，etal.Extractinglistsofdatarecordsfromsem1-structuredwebpages[J].Data&KnowledgeEngineering,2008，64(2):491-509.[0020]CAFARELLAMJjHALEVYA,WANGDZ，etal.WebTables:exploringthepoweroftablesontheweb[C]//ProceedingsoftheVLDBEndowment.Auckland,NewZealand:2008:538-549.[0021]SONJ-WjPARKS-B.Webtablediscriminationwithcompositionofrichstructuralandcontentinformation[J].AppliedSoftComputing,2013，13(1):47-57.[0022]UZUNE,AGUNHV,YERLIKAYAT.Ahybridapproachforextractinginformativecontentfromwebpages[J].1nformationProcessing&Management,2013,49(4):928-944.[0023]WANGJQ,CHENQC,WANGXL,etal.Basicsemanticunitsbasedwebpagecontentextraction[C]//2008IEEEInternationalConferenceonSystems,ManandCybernetics.1EEE,2008:1489-1494.【
發(fā)明內(nèi)容】本發(fā)明為了解決上述的技術(shù)問題，提出了一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法。本發(fā)明的技術(shù)方案是:一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，包括下述步驟:步驟1:輸入網(wǎng)頁(yè)；其中，步驟I中包括如下步驟；步驟1.1編碼識(shí)別:先獲取網(wǎng)頁(yè)編碼格式，如UTF-8、GB2312、GBK、BIG5、iso-8859-l等;步驟1.2網(wǎng)頁(yè)讀取:通過對(duì)待識(shí)別的WEB網(wǎng)頁(yè)的HTML文檔進(jìn)行字符掃描，分別識(shí)別出各個(gè)鏈接的起始位置和結(jié)束位置；定義如下概念:<ahref=〃…〃>文字</a>所述的起始位置是以字符“〈”開始，以字符“〉”為結(jié)束，且這兩者之間并不存在字符“〈”和的字符串.所述的結(jié)束位置是以字符“〈/”開始，以字符“〉”為結(jié)束，且這兩者之間并不存在字符“〈”、“〉”和“/”的字符串；步驟2:對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理，包括去除腳本代碼、去除CSS樣式代碼、去除空標(biāo)簽；步驟3:將搜索位置P初始化為0，同時(shí)鏈接數(shù)計(jì)數(shù)器M初始化為O;步驟4、從搜索位置P開始搜索第一個(gè)鏈接的結(jié)束位置，若搜索到第一個(gè)鏈接的</a>標(biāo)簽位置，則進(jìn)入步驟5;否，則進(jìn)入步驟11；步驟5、確定第一個(gè)鏈接的結(jié)束位置，將其記為A，并開始搜索下一個(gè)鏈接的正向位置；若搜索到下一個(gè)鏈接的正向位置，則進(jìn)入步驟6，否，則進(jìn)入步驟11；步驟6、找到下一個(gè)鏈接的正向位置<a，將其記為B，并計(jì)算AB兩個(gè)位置之間的鏈接距離，所述的鏈接距離是Web頁(yè)面中相鄰兩個(gè)鏈接之間的距離；步驟7、判斷AB距離是否小于與所設(shè)定的距離閾值dt，若AB距離小于所設(shè)定的距離閾值dt，則對(duì)初始設(shè)置的鏈接數(shù)計(jì)數(shù)器M增1，即M=M+1，并記錄現(xiàn)在的搜索位置P，令P=B+1，返回步驟4;若AB距離不小于所設(shè)定的距離閾值，則結(jié)束當(dāng)前邏輯塊的搜索工作，將進(jìn)一步搜索與位置B對(duì)應(yīng)的鏈接結(jié)束位置，并記為C，進(jìn)入步驟8；步驟8、判斷當(dāng)前的鏈接計(jì)數(shù)器M是否小于所設(shè)定的鏈接數(shù)閾值Ct;若當(dāng)前的鏈接計(jì)數(shù)器M小于所設(shè)定的鏈接數(shù)閾值Ct，則可確定當(dāng)前的邏輯塊為非鏈接塊，進(jìn)入步驟9;如果當(dāng)前的鏈接計(jì)數(shù)器M不小于所設(shè)定的鏈接數(shù)閾值，則可確定當(dāng)前的邏輯塊是鏈接塊，邏輯鏈接塊發(fā)現(xiàn)成功，并將所發(fā)現(xiàn)的鏈接塊添加到邏輯鏈接塊列表當(dāng)中，進(jìn)入步驟9；步驟9、將當(dāng)前鏈接計(jì)數(shù)器M清零，并記錄當(dāng)前搜索位置P為C+1，進(jìn)入步驟4；步驟10、重復(fù)4-9的步驟，直至整個(gè)頁(yè)面掃描處理完畢；步驟11、結(jié)束，獲取當(dāng)前網(wǎng)頁(yè)的邏輯鏈接塊。所述的步驟6中的鏈接距離可以采用代碼距離或文本距離計(jì)算。所述的代碼距離是任意兩個(gè)標(biāo)簽之間的代碼距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有內(nèi)容的長(zhǎng)度；在本發(fā)明的計(jì)算中，將先去除各標(biāo)簽的屬性然后才執(zhí)行代碼距離的計(jì)算。所述的文本距離是任意兩個(gè)標(biāo)簽之間的文本距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有文本的長(zhǎng)度；在計(jì)算文本距離時(shí)，遵從如下規(guī)則:4.1、英文等字符以單詞為統(tǒng)計(jì)單位，即一個(gè)單詞長(zhǎng)度計(jì)為1，如果若干個(gè)連續(xù)英文字符不構(gòu)成單詞，其長(zhǎng)度也將計(jì)I;4.2、中文等字符以單個(gè)字為統(tǒng)計(jì)單位，即一個(gè)漢字長(zhǎng)度計(jì)為I;4.3、數(shù)字以一個(gè)完整數(shù)字為統(tǒng)計(jì)單位，即一個(gè)完整數(shù)字長(zhǎng)度計(jì)為I;4.4、日期時(shí)間字符串以日期時(shí)間整體為統(tǒng)計(jì)單位，即一個(gè)完整日期時(shí)間串長(zhǎng)度計(jì)為I;4.5、標(biāo)點(diǎn)符號(hào)與漢字統(tǒng)計(jì)規(guī)則一樣,但是若相鄰的若干個(gè)標(biāo)點(diǎn)符號(hào)相同，則長(zhǎng)度只計(jì)1所述步驟8中的邏輯鏈接塊定義為:設(shè)某邏輯塊中的鏈接數(shù)為Clink,邏輯塊內(nèi)各相鄰鏈接之間的距離為問，4，...，<,.Λ—O，若該邏輯塊滿足如下條件，則稱該邏輯塊為邏輯鏈接塊。【權(quán)利要求】1.一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于，包括下述步驟:步驟1:輸入網(wǎng)頁(yè)；步驟2:對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理，包括去除腳本代碼、去除CSS樣式代碼、去除空標(biāo)簽；步驟3:將搜索位置P初始化為O，同時(shí)鏈接數(shù)計(jì)數(shù)器M初始化為O;步驟4、從搜索位置P開始搜索第一個(gè)鏈接的結(jié)束位置，若搜索到第一個(gè)鏈接的</a>標(biāo)簽位置，則進(jìn)入步驟5;否，則進(jìn)入步驟11；步驟5、確定第一個(gè)鏈接的結(jié)束位置，將其記為A，并開始搜索下一個(gè)鏈接的正向位置；若搜索到下一個(gè)鏈接的正向位置，則進(jìn)入步驟6，否，則進(jìn)入步驟11；步驟6、找到下一個(gè)鏈接的正向位置<a，將其記為B，并計(jì)算AB兩個(gè)位置之間的鏈接距離，所述的鏈接距離是Web頁(yè)面中相鄰兩個(gè)鏈接之間的距離；步驟7、判斷AB距離是否小于與所設(shè)定的距離閾值dt，若AB距離小于所設(shè)定的距離閾值dt，則對(duì)初始設(shè)置的鏈接數(shù)計(jì)數(shù)器M增1，即M=M+1，并記錄現(xiàn)在的搜索位置P，令P=B+1，返回步驟4;若AB距離不小于所設(shè)定的距離閾值，則結(jié)束當(dāng)前邏輯塊的搜索工作，將進(jìn)一步搜索與位置B對(duì)應(yīng)的鏈接結(jié)束位置，并記為C，進(jìn)入步驟8;步驟8、判斷當(dāng)前的鏈接計(jì)數(shù)器M是否小于所設(shè)定的鏈接數(shù)閾值Ct;若當(dāng)前的鏈接計(jì)數(shù)器M小于所設(shè)定的鏈接數(shù)閾值Ct，則可確定當(dāng)前的邏輯塊為非鏈接塊，進(jìn)入步驟9;如果當(dāng)前的鏈接計(jì)數(shù)器M不小于所設(shè)定的鏈接數(shù)閾值，則可確定當(dāng)前的邏輯塊是鏈接塊，邏輯鏈接塊發(fā)現(xiàn)成功，并將所發(fā)現(xiàn)的鏈接塊添加到邏輯鏈接塊列表當(dāng)中，進(jìn)入步驟9；步驟9、將當(dāng)前鏈接計(jì)數(shù)器M清零，并記錄當(dāng)前搜索位置P為C+1，進(jìn)入步驟4；步驟10、重復(fù)4-9的步驟，直至整個(gè)頁(yè)面掃描處理完畢；步驟11、結(jié)束，獲取當(dāng)前網(wǎng)頁(yè)的邏輯鏈接塊。2.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述的步驟I中還包括如下步驟:步驟1.1編碼識(shí)別:先獲取網(wǎng)頁(yè)編碼；步驟1.2網(wǎng)頁(yè)讀取:通過對(duì)待識(shí)別的WEB網(wǎng)頁(yè)的HTML文檔進(jìn)行字符掃描，分別識(shí)別出各個(gè)鏈接的起始位置和結(jié)束位置；定義如下概念:<ahref=〃…〃>文字</a>所述的起始位置是以字符“〈”開始，以字符“〉”為結(jié)束，且這兩者之間并不存在字符“〈”和的字符串.所述的結(jié)束位置是以字符“〈/”開始，以字符“〉”為結(jié)束，且這兩者之間并不存在字符“〈”、“〉”和“/”的字符串。3.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述的步驟6中的鏈接距離可以采用代碼距離或文本距離計(jì)算。4.根據(jù)權(quán)利要求2所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述的代碼距離是任意兩個(gè)標(biāo)簽之間的代碼距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有內(nèi)容的長(zhǎng)度；在本發(fā)明的計(jì)算中，將先去除各標(biāo)簽的屬性然后才執(zhí)行代碼距離的計(jì)算。5.根據(jù)權(quán)利要求2所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述的文本距離是任意兩個(gè)標(biāo)簽之間的文本距離即介于前一個(gè)標(biāo)簽的標(biāo)簽結(jié)束符“〉”和后一個(gè)標(biāo)簽的標(biāo)簽開始符“〈”之間所有文本的長(zhǎng)度；在計(jì)算文本距離時(shí)，遵從如下規(guī)則:.4.1、英文等字符以單詞為統(tǒng)計(jì)單位，即一個(gè)單詞長(zhǎng)度計(jì)為1，如果若干個(gè)連續(xù)英文字符不構(gòu)成單詞，其長(zhǎng)度也將計(jì)I;.4.2、中文等字符以單個(gè)字為統(tǒng)計(jì)單位，即一個(gè)漢字長(zhǎng)度計(jì)為I;.4.3、數(shù)字以一個(gè)完整數(shù)字為統(tǒng)計(jì)單位，即一個(gè)完整數(shù)字長(zhǎng)度計(jì)為I;.4.4、日期時(shí)間字符串以日期時(shí)間整體為統(tǒng)計(jì)單位，即一個(gè)完整日期時(shí)間串長(zhǎng)度計(jì)為I;.4.5、標(biāo)點(diǎn)符號(hào)與漢字統(tǒng)計(jì)規(guī)則一樣,但是若相鄰的若干個(gè)標(biāo)點(diǎn)符號(hào)相同，則長(zhǎng)度只計(jì)16.根據(jù)權(quán)利要求1所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述步驟8中的邏輯鏈接塊定義為:設(shè)某邏輯塊中的鏈接數(shù)為Clink,邏輯塊內(nèi)各相鄰鏈接之間的距離為吣’.U，若該邏輯塊滿足如下條件，則稱該邏輯塊為邏輯鏈接塊；7.根據(jù)權(quán)利要求6所述的一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法，其特征在于:所述的邏輯塊是由不少于一個(gè)相鄰或相近的標(biāo)簽所構(gòu)成的連續(xù)代碼區(qū)域?！疚臋n編號(hào)】G06F17/30GK103942332SQ201410186981【公開日】2014年7月23日申請(qǐng)日期:2014年5月5日優(yōu)先權(quán)日:2014年5月5日【發(fā)明者】王賢明,谷瓊,朱莉申請(qǐng)人:溫州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王賢明;谷瓊;朱莉
技術(shù)所有人：溫州大學(xué)
我是此專利的發(fā)明人

上一篇：一種手寫繪圖板及其顯示方法
上一篇：車輛濕式離合器用旋轉(zhuǎn)密封優(yōu)化設(shè)計(jì)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種Web頁(yè)面邏輯鏈接塊的識(shí)別方法