專利名稱:一種網(wǎng)頁標(biāo)題的提取方法、裝置及信息處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息處理領(lǐng)域,尤其涉及ー種網(wǎng)頁標(biāo)題的提取方法、裝置及信息處理系統(tǒng)。
背景技術(shù):
所謂網(wǎng)頁標(biāo)題,是指表示網(wǎng)頁正文主題內(nèi)容或者中心思想的一句話。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)頁標(biāo)題的提取被應(yīng)用的越來越廣泛,例如網(wǎng)頁預(yù)覽、網(wǎng)頁指紋計(jì)算等網(wǎng)頁搜索中都需要用到網(wǎng)頁標(biāo)題的提取技木?,F(xiàn)有的網(wǎng)頁標(biāo)題提取方法主要是通過直接提取網(wǎng)頁源文件中標(biāo)題(title)標(biāo)簽和輔助性(meta)標(biāo)簽中的文字作為網(wǎng)頁的標(biāo)題。然而,隨著網(wǎng)頁標(biāo)題在網(wǎng)頁搜索相關(guān)性計(jì) 算中地位的提升,越來越多的網(wǎng)站設(shè)計(jì)者通過在title標(biāo)簽或者meta標(biāo)簽中添加一些與網(wǎng)頁主題無關(guān)但是熱門的關(guān)鍵字來提升網(wǎng)頁被檢索到的可能性,嚴(yán)重影響了網(wǎng)頁搜索的準(zhǔn)確率和召回率。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供ー種網(wǎng)頁標(biāo)題的提取方法,g在解決現(xiàn)有技術(shù)在進(jìn)行網(wǎng)頁標(biāo)題的提取時(shí),造成網(wǎng)頁搜索的準(zhǔn)確率和召回率較低的問題。本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,ー種網(wǎng)頁標(biāo)題的提取方法,所述方法包括以下步驟提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字;提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn);根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值;將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。本發(fā)明實(shí)施例提供ー種網(wǎng)頁標(biāo)題的提取裝置,所述裝置包括文字提取單元,用于提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字;特征點(diǎn)提取單元,用于提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn);概率計(jì)算單元,用于根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值;結(jié)果輸出単元,用于將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。本發(fā)明實(shí)施例提供ー種信息處理系統(tǒng),所述信息處理系統(tǒng)包括所述網(wǎng)頁標(biāo)題的提取裝置。在本發(fā)明實(shí)施例中,根據(jù)提取的網(wǎng)頁源文件中文本塊的特征點(diǎn)和標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,并根據(jù)計(jì)算得到的概率值,將概率值最大的文本塊作為網(wǎng)頁標(biāo)題提取出來,能夠有效的過濾掉網(wǎng)頁設(shè)計(jì)者在標(biāo)題標(biāo)簽或者輔助性標(biāo)簽中堆砌的與網(wǎng)頁內(nèi)容無關(guān)的文字,將最能描述網(wǎng)頁主題內(nèi)容或者中心思想的文字作為網(wǎng)頁標(biāo)題提取出來,有效的提高網(wǎng)頁搜索的準(zhǔn)確率和召回率。
圖I是本發(fā)明實(shí)施例一提供的網(wǎng)頁標(biāo)題提取方法的實(shí)現(xiàn)流程圖;圖2是本發(fā)明實(shí)施例ニ提供的文本塊概率計(jì)算的具體實(shí)現(xiàn)流程圖;圖3是本發(fā)明實(shí)施例三提供的網(wǎng)頁標(biāo)題提取方法的具體實(shí)例圖;圖4是本發(fā)明實(shí)施例四提供的網(wǎng)頁標(biāo)題提取裝置的架構(gòu)圖。
具體實(shí)施方式
為了使本發(fā)明的技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一歩詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明實(shí)施例通過提取的網(wǎng)頁源文件中文本塊的特征點(diǎn)和標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,對(duì)網(wǎng)頁源文件中的各個(gè)文本塊進(jìn)行概率判斷,將概率值最大的文本塊作為網(wǎng)頁標(biāo)題提取出來,能夠有效的過濾掉網(wǎng)頁設(shè)計(jì)者在標(biāo)題標(biāo)簽或者輔助性標(biāo)簽中堆砌的與網(wǎng)頁內(nèi)容無關(guān)的文字,將最能描述網(wǎng)頁主題內(nèi)容或者中心思想的文字作為網(wǎng)頁標(biāo)題提取出來,有效的提高網(wǎng)頁搜索的準(zhǔn)確率和召回率。為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實(shí)施例來進(jìn)行說明。實(shí)施例一:圖I示出了本發(fā)明實(shí)施例一提供的網(wǎng)頁標(biāo)題提取方法的實(shí)現(xiàn)流程,該方法過程詳述如下在步驟SlOl中,提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字。在本實(shí)施例中,通過文本解析器解析網(wǎng)頁源文件中標(biāo)題(title)標(biāo)簽和輔助性(meta)標(biāo)簽,提取標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字。例如在所述網(wǎng)頁源文件為HTML (HyperText Mark-up Language,超文本標(biāo)記語言)源文件,通過HTML文本解析器把標(biāo)題標(biāo)簽〈title〉經(jīng)濟(jì)中心〈/title〉和 meta 標(biāo)簽〈meta name =“keywords”content =“政治,經(jīng)濟(jì),科技,文化” > 中的文字“經(jīng)濟(jì)中心”和“政治經(jīng)濟(jì)科技文化”解析出來。作為本發(fā)明的一個(gè)實(shí)施例,該方法還可以通過文檔對(duì)象模型(Document ObjectModel,DOM)樹來代替網(wǎng)頁源文件,后續(xù)的分析過程都可依賴DOM樹來實(shí)現(xiàn)。其中,DOM樹是ー種用于HTML和XML文檔的編程接ロ。在步驟S102中,提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn)。在本實(shí)施例中,對(duì)網(wǎng)頁源文件中每個(gè)文本塊,提取所述文本塊的特征點(diǎn),通過所述特征點(diǎn)判斷所述文本塊是否為網(wǎng)頁標(biāo)題。其中,所述特征點(diǎn)包括但不局限于標(biāo)簽特征、視覺特征、位置特征和內(nèi)容特征中的至少ー個(gè),各特征點(diǎn)的具體描述如下I)標(biāo)簽特征該標(biāo)簽特征指的是文本塊的父節(jié)點(diǎn)的標(biāo)簽特征,不同的標(biāo)簽特征其文本塊為網(wǎng)頁標(biāo)題的概率也會(huì)不同。例如文本塊的父節(jié)點(diǎn)是h標(biāo)簽(hl_h6)時(shí),該文本塊是網(wǎng)頁標(biāo)題的概率大于父節(jié)點(diǎn)是a標(biāo)簽的文本塊。2)視覺特征
網(wǎng)頁源文件中的font tag標(biāo)簽描述了各文本塊的顯示屬性,一般來說顯示的突出程度(例如大字體、彩色等)和內(nèi)容的重要程度成正比,即突出顯示的文本塊是網(wǎng)頁標(biāo)題的概率大于普通顯示的文本塊。例如三號(hào)字體的文本塊是網(wǎng)頁標(biāo)題的概率大于四號(hào)字體的文本塊,加粗(或者彩色)顯示的文本塊是網(wǎng)頁標(biāo)題的概率大于正常顯示的文本塊。3)位置特征位置特征指的是文本塊在網(wǎng)頁中所處的位置。一般來說出現(xiàn)在網(wǎng)頁偏上方的文本塊是網(wǎng)頁標(biāo)題的概率遠(yuǎn)大于出現(xiàn)在網(wǎng)頁偏下方的文本塊。當(dāng)然,還可以輔助ー些特征網(wǎng)頁塊的情況,例如對(duì)出現(xiàn)在“ニ級(jí)導(dǎo)航塊”的下方,“版權(quán)聲明塊”上方的文本塊,其作為網(wǎng)頁標(biāo)題的概率較高。另外,如果可以得到網(wǎng)頁分塊以及網(wǎng)頁塊類型等信息,也可以作為網(wǎng)頁標(biāo)題提取中的“位置特征”來使用。4)內(nèi)容特征
內(nèi)容特征是指文本塊中的內(nèi)容與網(wǎng)頁正文內(nèi)容以及提取的title和meta標(biāo)簽中文字的相關(guān)度。對(duì)與網(wǎng)頁正文內(nèi)容相關(guān)度較高,同時(shí)也與title和meta標(biāo)簽中提取的文字相關(guān)度較高的文本塊,其作為網(wǎng)頁標(biāo)題的概率也較高。在步驟S103中,根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。在步驟S104中,將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。在本實(shí)施例中,通過計(jì)算得到的網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,輸出的概率值最大的文本塊,該文本塊即為網(wǎng)頁標(biāo)題。為了更好的提取網(wǎng)頁標(biāo)題,作為本發(fā)明的另ー實(shí)施例,所述方法還包括以下步驟根據(jù)網(wǎng)頁源文件中的標(biāo)簽,將所述網(wǎng)頁源文件中連續(xù)的文本節(jié)點(diǎn)分割成多個(gè)獨(dú)立的文本塊。在本實(shí)施例中,所述“根據(jù)網(wǎng)頁源文件中的標(biāo)簽”中的“標(biāo)簽”包含標(biāo)題標(biāo)簽和輔助性標(biāo)簽,指的是網(wǎng)頁源文件中的所有標(biāo)簽。根據(jù)網(wǎng)頁源文件中的標(biāo)簽,將網(wǎng)頁源文件中連續(xù)的文本節(jié)點(diǎn)分割成多個(gè)獨(dú)立的文本塊,根據(jù)提取文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算每個(gè)獨(dú)立文本塊作為網(wǎng)頁標(biāo)題的概率值。在本發(fā)明實(shí)施例中,根據(jù)提取的文本塊中的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,將概率值最大的文本塊作為網(wǎng)頁標(biāo)題輸出,能夠有效的過濾掉網(wǎng)頁設(shè)計(jì)者在標(biāo)題標(biāo)簽或者輔助性標(biāo)簽中堆砌的與網(wǎng)頁內(nèi)容無關(guān)的文字,將最能描述網(wǎng)頁主題內(nèi)容或者中心思想的文字作為網(wǎng)頁標(biāo)題提取出來,有效的提高網(wǎng)頁搜索的準(zhǔn)確率和召回率。實(shí)施例ニ :圖2是本發(fā)明實(shí)施例ニ提供的根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值的具體流程:在步驟S201中,根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,通過離線訓(xùn)練得到的決策模型獲取所述文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值。
在本實(shí)施例中,通過離線訓(xùn)練的方式從采集的網(wǎng)頁樣本中提取特征點(diǎn),并將所述特征點(diǎn)存儲(chǔ)至特征點(diǎn)數(shù)據(jù)庫,根據(jù)所述數(shù)據(jù)庫中的特征點(diǎn),訓(xùn)練出一個(gè)決策模型,再根據(jù)該決策模型決策出各特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值(例如某文本塊的視覺特征為二號(hào)字體,通過決策得出該特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值為0. 8),同時(shí)將決策后的特征點(diǎn)作為樣本反饋給特征點(diǎn)數(shù)據(jù)庫。其中,所述決策模型可通過機(jī)器學(xué)習(xí)算法、分支定界法或者闕值分支法等方法實(shí)現(xiàn)。在步驟S202中,根據(jù)所述獲取的文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。在本實(shí)施例中,為了方便根據(jù)具體情況對(duì)特征點(diǎn)概率值的修改,提高文本塊作為網(wǎng)頁標(biāo)題概率計(jì)算的準(zhǔn)確率,通過離線訓(xùn)練得到的決策模型來獲取所述文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值來判斷所述文本塊作為網(wǎng)頁標(biāo)題的概率值。例如當(dāng)文本塊 的特征點(diǎn)包含標(biāo)簽特征,提取該本文塊的標(biāo)簽特征(hi標(biāo)簽),通過離線訓(xùn)練得到的決策模型獲取hi標(biāo)簽中與網(wǎng)頁標(biāo)題相關(guān)的具體概率值,當(dāng)hi標(biāo)簽中文字與網(wǎng)頁內(nèi)容完全無關(guān)時(shí),該特征點(diǎn)概率值為O。根據(jù)離線獲取的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的具體概率值,計(jì)算出對(duì)應(yīng)的文本塊的概率值。其中,所述文本塊概率值的計(jì)算方式包括但不局限于以下方法1)取該文本塊中各特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)概率值的平均值;2)為該文本塊中各特征點(diǎn)設(shè)置權(quán)重,依據(jù)權(quán)重計(jì)算得出;3)直接將該文本塊中各特征點(diǎn)的概率值相乘。例如文本塊包括特征點(diǎn)I、特征點(diǎn)2和特征點(diǎn)3。特征點(diǎn)I的概率值為0. 6,特征點(diǎn)2的概率值為0. 4,特征點(diǎn)3的概率值為0. 5,則該文本塊的概率值可以通過取特征點(diǎn)I、特征點(diǎn)2和特征點(diǎn)3的平均值即(0. 6+0. 5+0. 4)/3 = 0. 5得出;也可以為特征點(diǎn)設(shè)置權(quán)重,例如特征點(diǎn)I的權(quán)重為0. 6,特征點(diǎn)2的權(quán)重為0. 3,特征點(diǎn)I的權(quán)重為0. 1,則該文本塊的概率值為
0.6*0. 6+0. 5*0. 3+0. 4*0. I = 0. 55 ;也可以通過將該文本塊中各特征點(diǎn)的概率值相乘得出該文本塊的概率值0. 6*0. 4*0. 5 = 0. 12。作為本發(fā)明的一個(gè)實(shí)施例,如果可以得到頁面的錨文本信息,也可以作為文本塊提取的一個(gè)特征點(diǎn)參與計(jì)算。實(shí)施例三:為了更好的說明該網(wǎng)頁標(biāo)題提取方法,圖3示出了本發(fā)明實(shí)施例三提供的網(wǎng)頁標(biāo)題提取方法的具體實(shí)例,該具體實(shí)例步驟如下I.輸入 URL (Universal Resource Locator,網(wǎng)頁地址)http://news. qq. com/a/20101120/000780, htm,獲取該網(wǎng)頁的超文本標(biāo)記語言源文件;2.提取該源文件中titlte標(biāo)簽中的文字“國(guó)務(wù)院出臺(tái)16項(xiàng)措施穩(wěn)定消費(fèi)價(jià)格總水平新聞騰訊網(wǎng)”;3.提取該源文件中meta標(biāo)簽中的文字“國(guó)務(wù)院出臺(tái)16項(xiàng)措施穩(wěn)定消費(fèi)價(jià)格總水平物價(jià)”;4.將該源文件中連續(xù)的文本節(jié)點(diǎn)分割成多個(gè)獨(dú)立的文本塊,例如“騰訊網(wǎng)首頁”,“網(wǎng)站導(dǎo)航”,“郵箱”,“國(guó)務(wù)院出臺(tái)16項(xiàng)措施穩(wěn)定消費(fèi)價(jià)格總水平”等文本塊;5.根據(jù)預(yù)設(shè)的特征點(diǎn)(標(biāo)簽特征、視覺特征、位置特征和內(nèi)容特征)以及所述提取的標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算該源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。例如“國(guó)務(wù)院出臺(tái)16項(xiàng)措施穩(wěn)定消費(fèi)價(jià)格總水平”文本節(jié)點(diǎn),其父節(jié)點(diǎn)是hi標(biāo)簽,因此,“標(biāo)簽特征”是標(biāo)題的概率比較大;該文本節(jié)點(diǎn)中的字體是網(wǎng)頁中的最大字體,因此,“視覺特征”是標(biāo)題的概率比較大;該文本節(jié)點(diǎn)處于網(wǎng)頁的上方,因此,“位置特征”是標(biāo)題的概率比較大;該文本節(jié)點(diǎn)與網(wǎng)頁中正文,title標(biāo)簽,meta標(biāo)簽中的文本的相關(guān)度很高,因此,“內(nèi)容特征”是標(biāo)題的概率比較大??赏ㄟ^離線訓(xùn)練得到的決策模型獲取各特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的具體概率值,根據(jù)獲取的特征點(diǎn)的具體概率值,計(jì)算出對(duì)應(yīng)的文本塊的概率值。其他的文本塊也作類似的計(jì)算;6.通過計(jì)算得到的網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,輸出概率值最大的文本塊“國(guó)務(wù)院出臺(tái)16項(xiàng)措施穩(wěn)定消費(fèi)價(jià)格總水平”,該文本塊即為網(wǎng)頁標(biāo)題。實(shí)施例四圖4示出了本發(fā)明實(shí)施例四提供的網(wǎng)頁標(biāo)題提取裝置的結(jié)構(gòu),為了便于說明,僅不出了與本發(fā)明實(shí)施例相關(guān)的部分。該網(wǎng)頁標(biāo)題提取裝置可以用于通過有線或者無線網(wǎng)絡(luò)連接服務(wù)器的各種信、息處理系統(tǒng),例如掌上電腦、計(jì)算機(jī)、筆記本電腦、個(gè)人數(shù)字助理(Personal DigitalAssistant, PDA)等,可以是運(yùn)行于這些信息處理系統(tǒng)內(nèi)的軟件單元、硬件単元或者軟硬件相結(jié)合的単元,也可以作為獨(dú)立的掛件集成到這些信息處理系統(tǒng)中或者運(yùn)行于這些信息處理系統(tǒng)的應(yīng)用系統(tǒng)中。該網(wǎng)頁標(biāo)題提取裝置包括文字提取單元41、特征點(diǎn)提取單元42、概率計(jì)算單元43和結(jié)果輸出単元44。其中,各単元的具體功能如下文字提取單元41,用于提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,其實(shí)現(xiàn)方式如上所述,在此不再贅述。特征點(diǎn)提取單元42,用于提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn),其實(shí)現(xiàn)方式如上所述,在此不再贅述。概率計(jì)算單元43,用于根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。其中,所述概率計(jì)算單元43還包括特征點(diǎn)概率計(jì)算模塊431和文本塊概率計(jì)算模塊432。特征點(diǎn)概率計(jì)算模塊431,用于根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,通過離線訓(xùn)練得到的決策模型獲取所述文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值;文本塊概率計(jì)算模塊432,用于根據(jù)所述獲取的文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。結(jié)果輸出単元44,用于將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。在本實(shí)施例中,通過計(jì)算得到的網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,輸出的概率值最大的文本塊,該文本塊即為網(wǎng)頁標(biāo)題。在本發(fā)明實(shí)施例中,根據(jù)提取的網(wǎng)頁源文件中文本塊的特征點(diǎn)和標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值,并根據(jù)計(jì)算得到的概率值,將概率值最大的文本塊作為網(wǎng)頁標(biāo)題輸出,能夠有效的過濾掉網(wǎng)頁設(shè)計(jì)者在標(biāo)題標(biāo)簽或者輔助性標(biāo)簽中堆砌的與網(wǎng)頁內(nèi)容無關(guān)的文字,將最能描述網(wǎng)頁主題內(nèi)容或者中心思想的文字作為網(wǎng)頁標(biāo)題提取出來,有效的提高網(wǎng)頁搜索的準(zhǔn)確率和召回率。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi) 。
權(quán)利要求
1.ー種網(wǎng)頁標(biāo)題的提取方法,其特征在于,所述方法包括以下步驟 提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字; 提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn); 根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值; 將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。
2.如權(quán)利要求I所述的方法,其特征在于,在所述提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字的步驟之后,所述提取網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn)的步驟之前還包括以下步驟 根據(jù)網(wǎng)頁源文件中的標(biāo)簽,將所述網(wǎng)頁源文件中連續(xù)的文本節(jié)點(diǎn)分割成多個(gè)獨(dú)立的文本塊。
3.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值的步驟具體為 根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,通過離線訓(xùn)練得到的決策模型獲取所述文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值; 根據(jù)所述獲取的文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。
4.如權(quán)利要求I或3所述的方法,其特征在于,所述特征點(diǎn)包括標(biāo)簽特征、視覺特征、位置特征和內(nèi)容特征中的至少ー個(gè)。
5.ー種網(wǎng)頁標(biāo)題的提取裝置,其特征在于,所述裝置包括 文字提取單元,用于提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字; 特征點(diǎn)提取單元,用于提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn); 概率計(jì)算單元,用于根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值; 結(jié)果輸出単元,用于將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。
6.如權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括 文本節(jié)點(diǎn)分割単元,用于根據(jù)網(wǎng)頁源文件中的標(biāo)簽,將所述網(wǎng)頁源文件中連續(xù)的文本節(jié)點(diǎn)分割成多個(gè)獨(dú)立的文本塊。
7.如權(quán)利要求5所述的裝置,其特征在于,所述概率計(jì)算單元還包括 特征點(diǎn)概率計(jì)算模塊,用于根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,通過離線訓(xùn)練得到的決策模型獲取所述文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值; 文本塊概率計(jì)算模塊,用于根據(jù)所述獲取的文本塊的特征點(diǎn)與網(wǎng)頁標(biāo)題相關(guān)的概率值,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值。
8.如權(quán)利要求5或7所述的裝置,其特征在于,所述特征點(diǎn)包括標(biāo)簽特征、視覺特征、位置特征和內(nèi)容特征中的至少ー個(gè)。
9.ー種信息處理系統(tǒng),其特征在于,所述信息處理系統(tǒng)包含權(quán)利要求5至8任一項(xiàng)權(quán)利要求所述的網(wǎng)頁標(biāo)題提取裝置。
全文摘要
本發(fā)明適用于信息處理領(lǐng)域,提供了一種網(wǎng)頁標(biāo)題的提取方法、裝置及信息處理系統(tǒng),所述方法包括下述步驟提取網(wǎng)頁源文件中標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字;提取所述網(wǎng)頁源文件中每個(gè)文本塊的特征點(diǎn);根據(jù)所述提取的文本塊的特征點(diǎn)以及標(biāo)題標(biāo)簽和輔助性標(biāo)簽中的文字,計(jì)算所述網(wǎng)頁源文件中每個(gè)文本塊作為網(wǎng)頁標(biāo)題的概率值;將概率值最大的文本塊提取為網(wǎng)頁標(biāo)題。本發(fā)明能夠有效的過濾掉網(wǎng)頁設(shè)計(jì)者在標(biāo)題標(biāo)簽或者輔助性標(biāo)簽中堆砌的與網(wǎng)頁內(nèi)容無關(guān)的文字,將最能描述網(wǎng)頁主題內(nèi)容或者中心思想的文字作為網(wǎng)頁標(biāo)題提取出來,提高網(wǎng)頁搜索的準(zhǔn)確率和召回率。
文檔編號(hào)G06F17/30GK102768663SQ20111011531
公開日2012年11月7日 申請(qǐng)日期2011年5月5日 優(yōu)先權(quán)日2011年5月5日
發(fā)明者張立明, 楊巍 申請(qǐng)人:騰訊科技(深圳)有限公司