提出兩種混合的模型來處理標(biāo)題噪音的技術(shù)。
背景技術(shù):
互聯(lián)網(wǎng)信息檢索面向的對(duì)象為海量網(wǎng)頁數(shù)據(jù),而其中包含的信息內(nèi)容也越來越豐富且呈現(xiàn)的形式也越來越多樣化,其帶有的噪音信息也開始成幾何級(jí)數(shù)増長。大量的噪音信息増加搜索引擎中索引的數(shù)量,降低索引的質(zhì)量,相應(yīng)増加了用戶的查詢時(shí)間和降低了用戶查詢到的信息的質(zhì)量。
目前,直接處理網(wǎng)頁標(biāo)題中的噪聲的方法比較少,常用的方法比較簡單,通常采用通過建立網(wǎng)頁標(biāo)題噪聲停用詞表的方法,去除網(wǎng)頁標(biāo)題中常見的噪聲信息。但這種方法,一方面對(duì)停用詞表具有很大的依賴性,隨著網(wǎng)頁數(shù)目幾何形式的増長,大量未登錄詞的出現(xiàn),會(huì)嚴(yán)重降低這種方法的效果,另一方面,直接從標(biāo)題中扣掉一些停用詞,會(huì)破壞標(biāo)題串的連貫性,導(dǎo)致標(biāo)題信息的不完整,最終會(huì)影響用戶檢索信息的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出一種基于統(tǒng)計(jì)的標(biāo)題去噪模型。一共有兩個(gè)部分。第一部分對(duì)相同的host下的標(biāo)題建樹,統(tǒng)計(jì)當(dāng)前節(jié)點(diǎn)月當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)之間的分配比,通過設(shè)定的閥值遞歸的選擇滿足條件的路,根據(jù)這條路得到同一個(gè)host下所有標(biāo)題重復(fù)度最高的公共竄,這個(gè)公共竄被視為噪音,將其從該host下的所有標(biāo)題中去掉,得到去噪后的完整標(biāo)題;第二部分是,對(duì)相同的host下的標(biāo)題,先提取屬于范圍內(nèi)的特殊字符集,從提取的特殊字符集中任取一個(gè)特殊字符作為切分標(biāo)識(shí)符,對(duì)所有的標(biāo)題驚醒切分,統(tǒng)計(jì)經(jīng)這個(gè)特殊字符切分后的詞串的詞頻,通過預(yù)設(shè)的閥值,選取詞頻超過閥值的詞串,得到這個(gè)特殊字符對(duì)飲的滿足條件的詞串集合中所有詞串長度的綜合,跳出長度綜合最大的詞串集合,這個(gè)詞串集合中的詞被視為噪音,將其從該host下所有的標(biāo)題中去掉,得到去噪后的標(biāo)題。
具體實(shí)施方式
1.第一部分:
(a)首先對(duì)輸入的網(wǎng)頁進(jìn)行解析,提取url中的host和網(wǎng)頁中的標(biāo)題。
(b)提取同一個(gè)host下的所有的標(biāo)題,假設(shè)標(biāo)題總數(shù)為n,并對(duì)這些標(biāo)題建樹。建樹方式分為正向和反向兩種。
i.反向建樹,記為treea
a.首先建立一個(gè)根節(jié)點(diǎn)root1
b.取第1個(gè)標(biāo)題title,對(duì)進(jìn)行分詞得到一個(gè)詞串twi,其長度為n1,取最后一個(gè)詞tw1[n1],作為root1的第一個(gè)孩子節(jié)點(diǎn),tw1[i]作為tw1[i+1]的孩子節(jié)點(diǎn),這里0<i<n1-1.
c.取第k個(gè)標(biāo)題titlek,對(duì)titlek進(jìn)行分詞得到一個(gè)詞串twk,其長度為nk,取最后一個(gè)詞twk[nk],與root1的所有孩子節(jié)點(diǎn)進(jìn)行比較,如果不同,則建立一個(gè)新的root1的孩子節(jié)點(diǎn),并將twk[i]作為twk[i+1]的孩子節(jié)點(diǎn),這里0<i<nk。如果twk[nk]等于root1的某個(gè)孩子節(jié)點(diǎn)twj[ni],那么取twj[nj]的孩子節(jié)點(diǎn)與twk[nk-1]進(jìn)行比較,如果不同,則建立twj[nj]的一個(gè)新的孩子節(jié)點(diǎn),并將twk[i]作為twk[i+1]的孩子節(jié)點(diǎn),顯然這里twj[nj]=twk[nk],0<i<nk-1,如果存在twj[nj]的某個(gè)孩子節(jié)點(diǎn)與twk[nk-1]相同,則比較這個(gè)孩子節(jié)點(diǎn)的孩子節(jié)點(diǎn)與twk[nk-2],依此類推,直到最后一個(gè)詞。
ii.正向建樹,記為treeb
a.首先建立一個(gè)根節(jié)點(diǎn)root2
b.接下來建樹的方式同反向建樹一個(gè)原理,區(qū)別在于從第一詞竄開始樹
(c)分別解析正向建立的樹,反向建立的樹。由于解析正向樹的方法和解析反向樹的方法相似,所以下面介紹解析反向樹的邏輯
i.假設(shè)反向樹為treea,treea的根節(jié)點(diǎn)記為root1,treea的第i層的第j個(gè)節(jié)點(diǎn)記為nodeij,o≤1≤h,wi分別為treea的層數(shù)和第i層的節(jié)點(diǎn)的個(gè)數(shù).nodeij的父節(jié)點(diǎn)記為fnodeij,孩子節(jié)點(diǎn)記為snodeijk,1≤k≤swij,swij為nodeij孩子節(jié)點(diǎn)的個(gè)數(shù).假設(shè)從節(jié)點(diǎn)nij到所有葉子節(jié)點(diǎn)的路徑數(shù)為pnij,路徑不能經(jīng)過nij的父節(jié)點(diǎn)。
ii.第i,i>0層,假設(shè)childnum=max{wni1,wni*,…,wniw1}對(duì)應(yīng)的節(jié)點(diǎn)為nij,nij對(duì)應(yīng)的孩子節(jié)點(diǎn)為{snodeij1,snodeij2,…,snodeswij},孩子節(jié)點(diǎn)到葉子節(jié)點(diǎn)對(duì)應(yīng)的路徑數(shù)為{pnij1,pnij2,…,pnswij},最多路徑maxnum=max{pnij1,pnij2,…,pnswij}對(duì)應(yīng)的孩子節(jié)點(diǎn)為snodeijk.
iii.給定一個(gè)閾值childration,如果maxnum/childnum>childration,i=i+1,nodeij=snodeijk,重復(fù)上面1(c)ii。否則,停止。這樣得到一條路pa={node1j1,node2j2,…,nodetajta}.
(d)通過解析正向樹,反向樹,得到pa={node1j1,node2j2,…,nodetajta},pb={node1j1,node2j2,…,nodetbjtb}。將pa,pb分別合成兩個(gè)噪音詞串stra=node1j1+node2j2+…+nodetajta,strb=node1j1+node2j2+…+nodetbjtb.將所有標(biāo)題中從頭開始含有strb的噪音竄去掉,將所有標(biāo)題中到結(jié)尾部分含有stra的噪音字符竄去掉,得到去噪后的標(biāo)題.
2.第二部分:
(a)首先對(duì)輸入的網(wǎng)頁進(jìn)行解析,提取url中的host和標(biāo)題。
(b)提取一個(gè)host下的所有的標(biāo)題,記為titleset。統(tǒng)計(jì)所有標(biāo)題中出現(xiàn)的特殊字符,這些字符包含在?()[]_·+|中,假設(shè)提取到的特殊字符集記為splitcharset。
(c)任取一個(gè)特殊字符ti,ti∈splitcharset,1≤i≤n,n=|splitchar|.用ti對(duì)titleset中的所有標(biāo)題進(jìn)行切分,得到切分后的詞的集合titlesetword。統(tǒng)計(jì)titlesetword中所有詞的詞頻,選取其中超過給定閾值的詞組成新的集合,記為sti,1≤i≤n。假設(shè)sti中的詞為wordti1,wordti2,...,wordtimi,mj是sti的詞的個(gè)數(shù)。定義sti的長度|sti|為
假設(shè)maxnum={|st1|,|st2|,…,|stn|}對(duì)應(yīng)的集合為stt,那么stt集合中所有的詞被視為噪音詞,把它從所有的標(biāo)題中去掉,得到去噪后的標(biāo)題。