亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法及裝置與流程

文檔序號:12063664閱讀:391來源:國知局
網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法及裝置與流程

本發(fā)明涉及網(wǎng)頁解析技術(shù)領(lǐng)域,具體而言,涉及一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法及裝置。



背景技術(shù):

頁面解析,例如,Html頁面解析,是互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)中的重要環(huán)節(jié)。通過Html頁面解析在網(wǎng)頁頁面中準(zhǔn)確地抽取出各種特征,是后續(xù)數(shù)據(jù)挖掘中其它任務(wù)的前提,其中,網(wǎng)頁正文是網(wǎng)頁頁面特征中重要的特征。由于網(wǎng)頁格式千變?nèi)f化,導(dǎo)致抽取網(wǎng)頁正文非常困難。通常,相關(guān)技術(shù)是通過合并網(wǎng)頁中文本段落來抽取網(wǎng)頁正文,然而帶有評論的網(wǎng)站具有一個明顯的特點(diǎn),即每一條評論內(nèi)容中都帶有指向正文的節(jié)點(diǎn),如果通過上述網(wǎng)頁正文的抽取方法,抽取網(wǎng)頁正文的結(jié)果是:正文+(評論1+正文)+(評論2+正文)+…+(評論n+正文)+…。即抽取的網(wǎng)頁正文中含有大量重復(fù)的正文內(nèi)容。在后續(xù)數(shù)據(jù)挖掘的其它任務(wù)中,直接調(diào)用網(wǎng)頁正文的抽取結(jié)果進(jìn)行分析處理。由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容會直接影響網(wǎng)頁分析的結(jié)果,因此造成后續(xù)其它任務(wù)輸出結(jié)果會一系列的出錯。

針對相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題,目前尚未提出有效的解決方案。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的主要目的在于提供一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法及裝置,以解決相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法。該方法包括:確定待處理文本,其中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本包括多個基本語句,待處理文本中內(nèi)容相同的語句為同一基本語句;獲取多個語句頻次,其中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù);獲取多個頻次次數(shù),其中,多個語句頻次中出現(xiàn)次數(shù)相同的語句頻次為同一計(jì)數(shù)頻次,每個計(jì)數(shù)頻次在多個語句頻次中出現(xiàn)的次數(shù)為一個頻次次數(shù);獲取多個待處理語句的信息,其中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息;以及根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的 重復(fù)內(nèi)容進(jìn)行過濾處理。

進(jìn)一步地,多個待處理語句包括第一待處理語句和第二待處理語句,獲取多個待處理語句的信息包括:確定第一位置數(shù)據(jù),其中,第一位置數(shù)據(jù)為第一待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);確定第二位置數(shù)據(jù),其中,第二位置數(shù)據(jù)為第二待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);以及將第一位置數(shù)據(jù)和第二位置數(shù)據(jù)作為多個待處理語句的信息。

進(jìn)一步地,根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理包括:判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù);如果第一位置數(shù)據(jù)小于第二位置數(shù)據(jù),確定第三位置數(shù)據(jù),其中,第三位置數(shù)據(jù)為第一待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及根據(jù)第一位置數(shù)據(jù)和第三位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第一候選網(wǎng)頁正文,其中,第一候選網(wǎng)頁正文為待處理文本中第一位置數(shù)據(jù)與第三位置數(shù)據(jù)之間的文本。

進(jìn)一步地,在判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù)之后,該方法還包括:如果第一位置數(shù)據(jù)大于第二位置數(shù)據(jù),確定第四位置數(shù)據(jù),其中,第四位置數(shù)據(jù)為第二待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及根據(jù)第二位置數(shù)據(jù)和第四位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第二候選網(wǎng)頁正文,其中,第二候選網(wǎng)頁正文為待處理文本中第二位置數(shù)據(jù)與第四位置數(shù)據(jù)之間的文本。

進(jìn)一步地,確定待處理文本包括:獲取候選待處理文本,其中,候選待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文的文本;按照預(yù)設(shè)條件將候選待處理文本分割為多個分割語句;確定多個分割語句中的多個待判斷語句,其中,多個分割語句中內(nèi)容相同的語句為同一待判斷語句;獲取多個第一頻率,其中,多個第一頻率分別為多個待判斷語句在候選待處理文本中出現(xiàn)的頻率;根據(jù)多個第一頻率判斷候選待處理文本中是否含有重復(fù)內(nèi)容;以及如果候選待處理文本中含有重復(fù)內(nèi)容,將候選待處理文本作為待處理文本。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置。該裝置包括:第一確定單元,用于確定待處理文本,其中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本包括多個基本語句,待處理文本中內(nèi)容相同的語句為同一基本語句;第一獲取單元,用于獲取多個語句頻次,其中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù);第二獲取單元,用于獲取多個頻次次數(shù),其中,多個語句頻次中出現(xiàn)次數(shù)相同的語句頻次為同一計(jì)數(shù)頻次,每個計(jì)數(shù)頻次在多個語句頻次中出現(xiàn)的次數(shù)為一個頻次次數(shù);第三獲取單元,用于獲取多個待處理語句的信息,其中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息;以及第一處理單元,用于根據(jù)多個待處理語句的信 息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理。

進(jìn)一步地,多個待處理語句包括第一待處理語句和第二待處理語句,第三獲取單元包括:第一確定模塊,用于確定第一位置數(shù)據(jù),其中,第一位置數(shù)據(jù)為第一待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);第二確定模塊,用于確定第二位置數(shù)據(jù),其中,第二位置數(shù)據(jù)為第二待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);以及第三確定模塊,用于將第一位置數(shù)據(jù)和第二位置數(shù)據(jù)作為多個待處理語句的信息。

進(jìn)一步地,第一處理單元包括:第一判斷模塊,用于判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù);第四確定模塊,用于在第一位置數(shù)據(jù)小于第二位置數(shù)據(jù)的情況下,確定第三位置數(shù)據(jù),其中,第三位置數(shù)據(jù)為第一待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及處理模塊,用于根據(jù)第一位置數(shù)據(jù)和第三位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第一候選網(wǎng)頁正文,其中,第一候選網(wǎng)頁正文為待處理文本中第一位置數(shù)據(jù)與第三位置數(shù)據(jù)之間的文本。

進(jìn)一步地,該裝置還包括:第二確定單元,用于在第一位置數(shù)據(jù)大于第二位置數(shù)據(jù)的情況下,確定第四位置數(shù)據(jù),其中,第四位置數(shù)據(jù)為第二待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及第二處理單元,用于根據(jù)第二位置數(shù)據(jù)和第四位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第二候選網(wǎng)頁正文,其中,第二候選網(wǎng)頁正文為待處理文本中第二位置數(shù)據(jù)與第四位置數(shù)據(jù)之間的文本。

進(jìn)一步地,第一確定單元包括:第一獲取模塊,用于獲取候選待處理文本,其中,候選待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文的文本;分割模塊,用于按照預(yù)設(shè)條件將候選待處理文本分割為多個分割語句;第五確定模塊,用于確定多個分割語句中的多個待判斷語句,其中,多個分割語句中內(nèi)容相同的語句為同一待判斷語句;第二獲取模塊,用于獲取多個第一頻率,其中,多個第一頻率分別為多個待判斷語句在候選待處理文本中出現(xiàn)的頻率;第二判斷模塊,用于根據(jù)多個第一頻率判斷候選待處理文本中是否含有重復(fù)內(nèi)容;以及第六確定模塊,用于在候選待處理文本中含有重復(fù)內(nèi)容的情況下,將候選待處理文本作為待處理文本。

在本發(fā)明實(shí)施例中,通過確定待處理文本;獲取多個語句頻次;獲取多個頻次次數(shù);獲取多個待處理語句的信息;以及根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,解決了相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題,達(dá)到了有效的過濾掉網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容的效果,保障了后續(xù)網(wǎng)頁頁面解析中網(wǎng)頁正文分析結(jié)果的準(zhǔn)確性。

附圖說明

構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:

圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法的流程圖;以及

圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置的示意圖。

具體實(shí)施方式

需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。

為了使本技術(shù)領(lǐng)域的人員更好地理解本申請方案,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。

需要說明的是,本申請的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

根據(jù)本發(fā)明的實(shí)施例,提供了一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法。

圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法的流程圖。如圖1所示,該方法包括如下的步驟S101至步驟S105:

步驟S101,確定待處理文本。

具體地,在上述步驟S101中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本中包括多個基本語句。確定網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本有多種方式,例如,通過網(wǎng)頁頁面解析中網(wǎng)頁正文中的多個基本語句在文本中出現(xiàn)的頻率進(jìn)行判定網(wǎng)頁頁面解析中網(wǎng)頁正文是否含有重復(fù)內(nèi)容,確定網(wǎng)頁頁面 解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本為本發(fā)明實(shí)施例中的待處理文本。需要說明的是,待處理文本中內(nèi)容相同的語句為同一基本語句,各個基本語句之間內(nèi)容各不相同。

步驟S102,獲取多個語句頻次。

具體地,在上述步驟S102中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù)。即待處理文本中多個基本語句在在待處理文本中出現(xiàn)的次數(shù)。例如,基本語句A,在待處理文本中出現(xiàn)的次數(shù)為5,獲取到基本語句A的語句頻次為5;基本語句B,在待處理文本中出現(xiàn)的次數(shù)為8,獲取到基本語句B的語句頻次為8。

步驟S103,獲取多個頻次次數(shù)。

具體地,在上述步驟S103中,多個頻次次數(shù)分別為多個語句頻次出現(xiàn)的次數(shù)。需要說明的是,多個語句頻次中出現(xiàn)次數(shù)相同的語句頻次為同一語句頻次。

例如,在上一步驟中獲取到基本語句A的語句頻次為5,5在多個語句頻次中出現(xiàn)的次數(shù)為3次,獲取到基本語句A的頻次次數(shù)為3;在上一步驟中獲取到基本語句B的語句頻次為8,8在多個語句頻次中出現(xiàn)的次數(shù)為5次,獲取到基本語句B的頻次次數(shù)為5。

步驟S104,獲取多個待處理語句的信息。

具體地,在上述步驟S104中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息。例如,獲取到頻次次數(shù)為3對應(yīng)的基本語句A的信息,獲取到頻次次數(shù)為5對應(yīng)的基本語句B的信息。

步驟S105,根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理。

根據(jù)上述獲取到的多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理有多種方式,例如,可以根據(jù)上述獲取到的多個待處理語句的信息確定該網(wǎng)頁正文中的重復(fù)內(nèi)容,在網(wǎng)頁正文中過濾掉重復(fù)內(nèi)容。

通過以上步驟,有效的過濾掉網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容,保障了后續(xù)網(wǎng)頁分析結(jié)果的準(zhǔn)確性。

本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法,通過確定待處理文本,其中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本包括多個基本語句;獲取多個語句頻次,其中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù);獲取多個頻次次數(shù),其中,多個頻次次數(shù)分別為多個語句頻次出現(xiàn)的次數(shù);獲取多個待處理語句的信息,其中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息;以及根據(jù)多個待處理語句的信息對網(wǎng)頁正文中 的重復(fù)內(nèi)容進(jìn)行過濾處理,解決了相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題,達(dá)到了有效的過濾掉網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容的效果,保障了后續(xù)網(wǎng)頁頁面解析中網(wǎng)頁正文分析結(jié)果的準(zhǔn)確性。

具體地,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,多個待處理語句包括第一待處理語句和第二待處理語句,獲取多個待處理語句的信息包括:確定第一位置數(shù)據(jù),其中,第一位置數(shù)據(jù)為第一待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);確定第二位置數(shù)據(jù),其中,第二位置數(shù)據(jù)為第二待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);以及將第一位置數(shù)據(jù)和第二位置數(shù)據(jù)作為多個待處理語句的信息。

位置數(shù)據(jù)用于標(biāo)示待處理語句在待處理文本中出現(xiàn)時的開始位置。通常,通過遍歷待處理文本以獲取位置數(shù)據(jù)。在遍歷到待處理文本中的待處理語句時,記錄下遍歷的次序,將遍歷的次序作為待處理語句的位置數(shù)據(jù)。例如,待處理文本的長度為100,通過for(i=0,i++,i<99)對待處理文本進(jìn)行遍歷,當(dāng)i=11時,遍歷到待處理語句,將待處理語句的位置數(shù)據(jù)記錄為11。通過以上步驟,快速的獲取到位置數(shù)據(jù),保證了后續(xù)過濾網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容的效率。

在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,上述的根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,還可以通過以下步驟實(shí)現(xiàn):判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù);如果第一位置數(shù)據(jù)小于第二位置數(shù)據(jù),確定第三位置數(shù)據(jù),其中,第三位置數(shù)據(jù)為第一待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及根據(jù)第一位置數(shù)據(jù)和第三位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第一候選網(wǎng)頁正文,其中,第一候選網(wǎng)頁正文為待處理文本中第一位置數(shù)據(jù)與第三位置數(shù)據(jù)之間的文本。

在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,在判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù)之后,該方法還包括:如果第一位置數(shù)據(jù)大于第二位置數(shù)據(jù),確定第四位置數(shù)據(jù),其中,第四位置數(shù)據(jù)為第二待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及根據(jù)第二位置數(shù)據(jù)和第四位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第二候選網(wǎng)頁正文,其中,第二候選網(wǎng)頁正文為待處理文本中第二位置數(shù)據(jù)與第四位置數(shù)據(jù)之間的文本。

在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,上述的確定待處理文本,還可以通過以下步驟實(shí)現(xiàn):獲取候選待處理文本,其中,候選待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文的文本;按照預(yù)設(shè)條件將候選待處理文本分割為多個分割語句;確定多個分割語句中的多個待判斷語句,其中,多個分割語句中內(nèi)容相同的語句為同一待判斷語句;獲取多個第一頻率,其中,多個第一頻率分別為多個待判斷 語句在候選待處理文本中出現(xiàn)的頻率;根據(jù)多個第一頻率判斷候選待處理文本中是否含有重復(fù)內(nèi)容;以及如果候選待處理文本中含有重復(fù)內(nèi)容,將候選待處理文本作為待處理文本。

為了提升獲取多個第一頻率的準(zhǔn)確性,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,上述的獲取多個語句頻次,還可以通過以下步驟實(shí)現(xiàn):分別計(jì)算多個基本語句的哈希值;以及分別統(tǒng)計(jì)多個基本語句的哈希值出現(xiàn)的次數(shù),得到多個語句頻次,其中,多個語句頻次分別對應(yīng)于多個基本語句的哈希值出現(xiàn)的頻率。通過以上步驟,將多個語句頻次分別對應(yīng)于多個基本語句的哈希值出現(xiàn)的頻率,保證了確定多個語句頻次的準(zhǔn)確性。

上述描述的方案具體描述,如下所示:

計(jì)算各基本語句的hash值。常用的,通過HashTable的結(jié)構(gòu)用計(jì)數(shù)器對待處理文本中的基本語句列表遍歷一次即可得到各基本語句的hash值。根據(jù)hash值統(tǒng)計(jì)各個基本語句出現(xiàn)的頻率,相同的基本語句出現(xiàn)的次數(shù)記為Frequencies,并以鍵值對的方式存儲,記為(SentenceHash,F(xiàn)requencies)。通過該步驟輸出的結(jié)果形式為:{(A,fa),(B,fb),…,},其中,fa表示基本語句A出現(xiàn)的次數(shù),另外,fa可能等于fb,即表示基本語句A和基本語句B出現(xiàn)的次數(shù)相等,且均為fa或fb次。

統(tǒng)計(jì)各個語句頻次(Frequencies)出現(xiàn)的次數(shù)(Hit Count),記為(Frequencies,Hit)。例如,如果一篇文章是ABCDABCEABCFABCGABC,經(jīng)過統(tǒng)計(jì)各個基本語句在文章中出現(xiàn)的語句頻次的結(jié)果是{(A,5),(B,5),(C,5),(D,1),(E,1),(F,1),(G,1)},對5551111進(jìn)行頻數(shù)統(tǒng)計(jì),即獲取次數(shù)頻率,得到鍵值對(Frequencies,Hit),即{(5,3),(1,4)}。

在統(tǒng)計(jì)出次數(shù)頻率之后,獲取預(yù)先設(shè)置的閾值,該閾值表示重復(fù)內(nèi)容出現(xiàn)的最少次數(shù),取Hit數(shù)大于該閾值的統(tǒng)計(jì)結(jié)果。通常,閾值的設(shè)定是基于經(jīng)驗(yàn)或者閾值由多次測試總結(jié)得出的數(shù)值。在本發(fā)明實(shí)施例中的閾值,即表示允許基本語句重復(fù)次數(shù)的安全值,如果基本語句的重復(fù)次數(shù)不大于該閾值,則認(rèn)為基本語句不是重復(fù)內(nèi)容中出現(xiàn)的基本語句。假設(shè)閾值是2,那么一篇文章形如ABCDAEF,則不認(rèn)為是包含有重復(fù)內(nèi)容的文章。反之,基本語句重復(fù)次數(shù)大于閾值,則認(rèn)為基本語句出現(xiàn)在了重復(fù)的內(nèi)容中。例如,獲取到待處理文本中對應(yīng)的頻次次數(shù){(5,3),(1,4)},閾值是2,與Frequencies相比,則剔除(1,4),保留(5,3)。

保留的記錄數(shù)有時也不止一項(xiàng),若保留的記錄數(shù)大于一項(xiàng),則對Hit進(jìn)行降序排列。如文章ABBCDABBCEABBCF…,得到的(SentenceHash,F(xiàn)requencies)為{(A,3),(B,6),(C,3),(D,1),(E,1),(F,1)},若閾值為2,則(SentenceHash,F(xiàn)requencies) 為{(3,2),(6,1)}。過濾文本內(nèi)的重復(fù)部分,可通過取最大Hit值的鍵值對(Frequencies,Hit),并取出其中的Frequencies數(shù);并取得第一個被統(tǒng)計(jì)出現(xiàn)Frequencies次的SentenceHash,遍歷多個基本語句,截取兩個SentenceHash之間的部分作為正文內(nèi)容輸出。以ABBCDABBCEABBCF…為例,上述得到的(Frequencies,Hit)為{(3,2),(6,1)},不是空集,則表示文本包含重復(fù)內(nèi)容,Hit最高的數(shù)值是2,對應(yīng)的Frequencies數(shù)為3,因此,要回到(SentenceHash,F(xiàn)requencies)表中查詢Frequencies為3的SentenceHash,分別為A、C,其中,較早出現(xiàn)的基本語句是A。此時,重新遍歷待處理文本中的多個基本語句,當(dāng)?shù)谝淮纬霈F(xiàn)基本語句A時,開始記錄,至下一次出現(xiàn)基本語句A時結(jié)束,期間包含的全部基本語句,合并成文本,即ABBCD,在待處理文本中保留合成的文本(即ABBCD),將其它內(nèi)容過濾掉。

在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中,對于如ABBCDABBCEABBCF…這樣的待處理文本,正文部分是ABBC,另外D、E、F應(yīng)看作是對于正文內(nèi)容的評論,而非正文內(nèi)容本身,通過本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法可以有效的做到過濾文本至ABBCD。通過以上步驟,解決了相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題,有效的過濾掉網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容的效果,保障了后續(xù)網(wǎng)頁頁面解析中網(wǎng)頁正文分析結(jié)果的準(zhǔn)確性。

需要說明的是,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法中的重復(fù)內(nèi)容,可以為重復(fù)語句,也可以為重復(fù)段落。

需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

本發(fā)明實(shí)施例還提供了一種網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置,需要說明的是,本發(fā)明實(shí)施例的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置可以用于執(zhí)行本發(fā)明實(shí)施例所提供的用于網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理方法。以下對本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置進(jìn)行介紹。

圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置的示意圖。如圖2所示,該裝置包括:第一確定單元10、第一獲取單元20、第二獲取單元30、第三獲取單元40和第一處理單元50。

第一確定單元10,用于確定待處理文本,其中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本包括多個基本語句,待處理文本中內(nèi)容相同的語句為同一基本語句。

第一獲取單元20,用于獲取多個語句頻次,其中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù)。

第二獲取單元30,用于獲取多個頻次次數(shù),其中,多個語句頻次中出現(xiàn)次數(shù)相同的語句頻次為同一計(jì)數(shù)頻次,每個計(jì)數(shù)頻次在多個語句頻次中出現(xiàn)的次數(shù)為一個頻次次數(shù)。

第三獲取單元40,用于獲取多個待處理語句的信息,其中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息。

第一處理單元50,用于根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理。

本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置,通過第一確定單元10確定待處理文本,其中,待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文含有重復(fù)內(nèi)容的文本,待處理文本包括多個基本語句;第一獲取單元20獲取多個語句頻次,其中,多個語句頻次分別為多個基本語句在待處理文本中出現(xiàn)的次數(shù);第二獲取單元30獲取多個頻次次數(shù),其中,多個語句頻次中出現(xiàn)次數(shù)相同的語句頻次為同一計(jì)數(shù)頻次,每個計(jì)數(shù)頻次在多個語句頻次中出現(xiàn)的次數(shù)為一個頻次次數(shù);第三獲取單元40獲取多個待處理語句的信息,其中,多個待處理語句的信息分別為多個頻次次數(shù)對應(yīng)基本語句的信息;以及第一處理單元50根據(jù)多個待處理語句的信息對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,解決了相關(guān)技術(shù)中由于網(wǎng)頁頁面解析中網(wǎng)頁正文存在重復(fù)內(nèi)容影響網(wǎng)頁分析結(jié)果的問題,達(dá)到了有效的過濾掉網(wǎng)頁頁面解析網(wǎng)頁正文中的重復(fù)內(nèi)容的效果,保障了后續(xù)網(wǎng)頁頁面解析中網(wǎng)頁正文分析結(jié)果的準(zhǔn)確性。

優(yōu)選地,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置中,多個待處理語句包括第一待處理語句和第二待處理語句,上述的第三獲取單元40還包括:第一確定模塊,用于確定第一位置數(shù)據(jù),其中,第一位置數(shù)據(jù)為第一待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);第二確定模塊,用于確定第二位置數(shù)據(jù),其中,第二位置數(shù)據(jù)為第二待處理語句在待處理文本中第一次出現(xiàn)時開始位置的數(shù)據(jù);以及第三確定模塊,用于將第一位置數(shù)據(jù)和第二位置數(shù)據(jù)作為多個待處理語句的信息。

優(yōu)選地,為了提高對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理準(zhǔn)確性,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置中,上述的第一處理單元50還包括:第一判斷模塊,用于判斷第一位置數(shù)據(jù)是否小于第二位置數(shù)據(jù);第四確定模塊,用于在第一位置數(shù)據(jù)小于第二位置數(shù)據(jù)的情況下,確定第三位置數(shù)據(jù),其中,第三位置數(shù)據(jù)為第一待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及處理模塊,用于根據(jù)第一位置數(shù)據(jù)和第三位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到 第一候選網(wǎng)頁正文,其中,第一候選網(wǎng)頁正文為待處理文本中第一位置數(shù)據(jù)與第三位置數(shù)據(jù)之間的文本。

可選地,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置中,該裝置還包括:第二確定單元,用于在第一位置數(shù)據(jù)大于第二位置數(shù)據(jù)的情況下,確定第四位置數(shù)據(jù),其中,第四位置數(shù)據(jù)為第二待處理語句在待處理文本中的第二次出現(xiàn)時開始位置的數(shù)據(jù);以及第二處理單元,用于根據(jù)第二位置數(shù)據(jù)和第四位置數(shù)據(jù)對網(wǎng)頁正文中的重復(fù)內(nèi)容進(jìn)行過濾處理,得到第二候選網(wǎng)頁正文,其中,第二候選網(wǎng)頁正文為待處理文本中第二位置數(shù)據(jù)與第四位置數(shù)據(jù)之間的文本。

可選地,在本發(fā)明實(shí)施例提供的網(wǎng)頁解析中網(wǎng)頁正文重復(fù)內(nèi)容的處理裝置中,上述的第一確定單元10還包括:第一獲取模塊,用于獲取候選待處理文本,其中,候選待處理文本為網(wǎng)頁頁面解析中網(wǎng)頁正文的文本;分割模塊,用于按照預(yù)設(shè)條件將候選待處理文本分割為多個分割語句;第五確定模塊,用于確定多個分割語句中的多個待判斷語句,其中,多個分割語句中內(nèi)容相同的語句為同一待判斷語句;第二獲取模塊,用于獲取多個第一頻率,其中,多個第一頻率分別為多個待判斷語句在候選待處理文本中出現(xiàn)的頻率;第二判斷模塊,用于根據(jù)多個第一頻率判斷候選待處理文本中是否含有重復(fù)內(nèi)容;以及第六確定模塊,用于在候選待處理文本中含有重復(fù)內(nèi)容的情況下,將候選待處理文本作為待處理文本。

需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。

在上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。

在本申請所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。

顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個的計(jì)算裝置上,或者分布在多個計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1