專利名稱:藏文網(wǎng)頁分類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種藏文網(wǎng)頁分類方法和裝置。
背景技術(shù):
隨著國家對少數(shù)民族地區(qū)信息化基礎(chǔ)建設(shè)的大力投入,藏文電子數(shù)據(jù)正以驚人的速度增長。在海量紛繁的藏文信息中,如何快速地定位到感興趣的類別,具有重要的意義。為了在這些海量的、異質(zhì)的、非結(jié)構(gòu)化的數(shù)據(jù)源中提取感興趣的、潛在的、有用模式和隱藏的信息,需要對網(wǎng)頁Web文本信息進(jìn)行數(shù)據(jù)挖掘,即進(jìn)行Web文本挖掘?;趙eb的文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以解決網(wǎng)絡(luò)信息的紛繁雜亂問題,方便用戶快速、準(zhǔn)確地定位所需要的信息。藏文文本的分類對于藏文搜索引擎、藏文數(shù)字圖書館、·藏語語料庫的建設(shè)以及藏文出版等領(lǐng)域具有廣泛的應(yīng)用前景和很重要的現(xiàn)實(shí)意義。目前,大多數(shù)web頁面分類都是基于中文和英文進(jìn)行的,已經(jīng)出現(xiàn)了很多有效的漢英文文本分類算法,如K鄰近算法(KNN)、貝葉斯算法、支持向量機(jī)(SVM)等分類算法,有效的分類算法可以提高分類的準(zhǔn)確性。采用網(wǎng)頁鏈接分類時(shí),不能考慮文本內(nèi)容,分類具有一定的片面性。采用機(jī)器學(xué)習(xí)的web頁面分類,需要構(gòu)建大量的分類語料,這需要大量人力、物力、財(cái)カ才能完成;同時(shí),對于中文文本分類,還需要進(jìn)行分詞預(yù)處理,分詞算法的準(zhǔn)確性亦影響到分類的準(zhǔn)確性。由于藏文文本屬于黏著性語言,藏文語法結(jié)構(gòu)具有一定的特殊性,已有的這些漢英文文本分類算法不能直接使用到藏文文本分類中。在進(jìn)行藏文文本分類時(shí),要進(jìn)行分詞,由于緊縮詞(縮略語形式)在藏文文本中出現(xiàn)的頻率非常高,給分詞的準(zhǔn)確性帶來了難度,也約束了后繼的網(wǎng)頁進(jìn)行文本分類?,F(xiàn)有的藏文文本分類方法是采用欄目的分類方法,利用網(wǎng)頁中的欄目信息進(jìn)行分類,因而,該方法不能分類沒有網(wǎng)頁欄目信息的web頁面,同時(shí)沒有考慮文本的內(nèi)容,導(dǎo)致不能精確地分類,從而影響搜索引擎的返回結(jié)果及藏文數(shù)據(jù)庫的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供ー種藏文網(wǎng)頁分類方法和裝置,能夠?qū)Σ痪哂芯W(wǎng)頁欄目信息的網(wǎng)頁頁面進(jìn)行分類,通過對網(wǎng)頁的文本內(nèi)容進(jìn)行分析,提高了分類的準(zhǔn)確性,從而可以提高搜索引擎的返回結(jié)果及藏文語料庫的準(zhǔn)確性。為實(shí)現(xiàn)上述目的,本發(fā)明提供了ー種藏文網(wǎng)頁分類方法,所述方法包括提取待分類藏文網(wǎng)頁的頁面信息;對所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量;利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度;從所述頁面信息中獲取網(wǎng)頁欄目詞條,利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別;
根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度;將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。另ー方面,本發(fā)明還提供了ー種藏文網(wǎng)頁分類裝置,所述裝置包括信息提取單元,用于提取待分類藏文網(wǎng)頁的頁面信息;第一處理單元,用于對所述信息提取單元提取的所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量;第一計(jì)算單元,用于利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度;欄目提取単元,用于從所述信息提取單元提取的所述頁面信息中獲取網(wǎng)頁欄目詞條; 第二分類單元,用于利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別;置信決策單元,用于根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度,將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。本發(fā)明提供的藏文網(wǎng)頁分類方法和裝置,采用基于規(guī)則和模板相結(jié)合的方法進(jìn)行網(wǎng)頁信息提取,利用預(yù)先構(gòu)建的藏文類別特征詞表和藏文類別主題詞表,對藏文網(wǎng)頁文本進(jìn)行網(wǎng)頁欄目和基于類別主題詞相結(jié)合的文本分類,提高了分類的準(zhǔn)確性,對不具有網(wǎng)頁欄目信息的網(wǎng)頁頁面也能進(jìn)行分類,可用于搜索引擎中幫助人們快速、準(zhǔn)確獲取所需信息或者用于構(gòu)建藏文語料庫,提高語料庫的準(zhǔn)確性。
圖I為本發(fā)明實(shí)施例一提供的藏文網(wǎng)頁分類方法流程圖;圖2為本發(fā)明實(shí)施例一提供的ー種藏文類別特征詞表的存儲(chǔ)結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例ニ提供的藏文網(wǎng)頁分類裝置示意圖。
具體實(shí)施例方式下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)ー步的詳細(xì)描述。實(shí)施例一圖I是本實(shí)施例提供的藏文網(wǎng)頁分類方法流程圖,如圖I所示,本發(fā)明的藏文網(wǎng)頁分類方法包括步驟S101、提取待分類藏文網(wǎng)頁的頁面信息。獲取待分類藏文網(wǎng)頁的網(wǎng)頁頁面,通常為html文件,對于網(wǎng)頁頁面中的頁面信息可以但不限于采用規(guī)則法和(或)模板法來提取網(wǎng)頁中預(yù)定義的相關(guān)文本信息,包括網(wǎng)頁的標(biāo)題、作者、日期、欄目等網(wǎng)頁元數(shù)據(jù)信息,以及正文信息。具體地,采用模板法來提取頁面信息是指基于網(wǎng)頁模板對網(wǎng)頁進(jìn)行分析,提取能夠與網(wǎng)頁模板相匹配的內(nèi)容為所需的頁面信息。網(wǎng)頁模板通過預(yù)先訓(xùn)練的方式獲得,從一定數(shù)量的網(wǎng)頁樣本中提取特征信息,當(dāng)然,也可以以同一網(wǎng)站的網(wǎng)頁作為樣本進(jìn)行特征提取。以訓(xùn)練正文標(biāo)題的模板為例,獲取網(wǎng)頁樣本中的正文標(biāo)題在網(wǎng)頁中出現(xiàn)的區(qū)塊位置或上下文信息作為對應(yīng)的特征信息,統(tǒng)計(jì)這些特征信息出現(xiàn)的頻次,將頻次滿足要求的特征信息作為正文標(biāo)題的模板。例如,在某網(wǎng)站的網(wǎng)頁html文件中,正文標(biāo)題主要以“〈title>***〈/title>”或者“〈head>***〈/head>”為上下文信息,其出現(xiàn)的頻次大于預(yù)設(shè)閾值,則將“〈title〉*林〈/title〉”或者“〈head〉*林〈/head〉”作為正文標(biāo)題的模板。具體地,采用規(guī)則法來提取頁面信息是指針對網(wǎng)頁中不同區(qū)塊的內(nèi)容采用相應(yīng)的正則表達(dá)式來進(jìn)行頁面信息的提取。以青海藏語廣播網(wǎng)http://www. qhtb. cn為例,采用規(guī)則法提取網(wǎng)頁的標(biāo)題、作
者、日期、欄目、正文等信息。
其中,提取網(wǎng)頁正文內(nèi)容的正則表達(dá)式為content=〈div id=\\"zoom\\">(·+ )</div>;;〈div class=\\"zwzw\\"> (·+ )〈/di v> ; ;〈div class=\\ " fmt j \\ ">(·+ )〈/div>; ;〈div align=\\"left\\ ">(·+ )〈/div>; ; <div class=\//lynr-center\//> (. + ) </div>; ; (<td>
(. + ) </p></td>)提取網(wǎng)頁欄目的正則表達(dá)式為column = くdiv class = \\"fmnav\\"> (. + ) </div> ; ; くdivalign=\\"left\\"(. + )</div>;;〈div class=\\"lynav\\">(. + )</div>;;提取網(wǎng)頁正文標(biāo)題的正則表達(dá)式為titl =〈div\\s+class=\\"zwbt\\"> (·+ )</div>;;提取子標(biāo)題的正則表達(dá)式為subTitle=〈subtitle> (·* )〈/subtitle〉;;提取網(wǎng)頁發(fā)布日期的正則表達(dá)式為date = <date>(\\d{4}-\\d{l, 2} - \ \ d {I,2} ) (. * )</date>; ; <span\\s+class=\//hz\//>(. + )</span>; ; (\\d {4}\\ff {5, 7}\\d{l, 2}\\ff{3, 5}\\d{l, 2})(· {I, 3}\\d{l, 2} :\\d{l, 2}) ; ; (\\d{4}\\ff{5, 7}\\d{l, 2}\\ff{3, 5}\\d{l, 2}) ; ; (\\d{4}-\\d{l,2}-\\d{l,2});;提取正文作者的正則表達(dá)式為author=<author> (. * ) </author〉;;需要說明的是,對于網(wǎng)頁中不同區(qū)塊的內(nèi)容可以采用不同提取方法來提取,對于同一區(qū)塊的內(nèi)容也可以采用兩種方法結(jié)合的方式來提取,對抽取的結(jié)果再進(jìn)行決策,以選擇較完善的ー個(gè)作為提取結(jié)果,并將提取結(jié)果以可擴(kuò)展標(biāo)示語言(XML)數(shù)據(jù)格式保存??蛇x地,為了能夠不重復(fù)對同一網(wǎng)頁進(jìn)行分類,提高處理效率,本發(fā)明的藏文網(wǎng)頁分類方法還包括網(wǎng)頁去重處理步驟,判斷待分類藏文網(wǎng)頁是否為重復(fù)網(wǎng)頁或者判斷提取的頁面信息是否為重復(fù)的頁面信息,如果是,則直接作丟棄處理。具體地,網(wǎng)頁去重處理步驟可以選擇在提取待分類藏文網(wǎng)頁的頁面信息之前或之后進(jìn)行。在提取待分類藏文網(wǎng)頁的頁面信息之前進(jìn)行時(shí),對待分類藏文網(wǎng)頁的網(wǎng)址url進(jìn)行判斷,在去重日志中保存處理過的url,如果url重復(fù),則作丟棄處理,否則進(jìn)行提取待分類藏文網(wǎng)頁的頁面信息的步驟。
在提取待分類藏文網(wǎng)頁的頁面信息之后進(jìn)行時(shí),利用提取的頁面信息與去重日志中保存的頁面信息進(jìn)行對比判斷,如果出現(xiàn)重復(fù),則丟棄處理,否則繼續(xù)執(zhí)行步驟S102或S105。由于藏文國際標(biāo)準(zhǔn)編碼和國家標(biāo)準(zhǔn)編碼制定的時(shí)間相對滯后,市場上各種軟件廠商采用自己的編碼標(biāo)準(zhǔn),可能導(dǎo)致各藏文網(wǎng)頁的頁面信息并不能兼容共享,在處理時(shí)也會(huì)由于編碼不同而帶來統(tǒng)計(jì)誤差等影響分類的準(zhǔn)確性。因而,本發(fā)明的藏文網(wǎng)頁分類方法在所述提取待分類藏文網(wǎng)頁的頁面信息之后,還對所獲取的頁面信息進(jìn)行編碼轉(zhuǎn)換,得到統(tǒng) ー編碼方式的頁面信息。本實(shí)施例中,將方正編碼(大字符集)、班智達(dá)編碼以及同元編碼等編碼方式統(tǒng)ー轉(zhuǎn)換為vista編碼(小字符集)。步驟S102、對所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。具體地,對所提取的頁面信息利用預(yù)先構(gòu)建的藏文類別主題詞表進(jìn)行分詞處理,將能夠與主題詞表相匹配的詞項(xiàng)切分出來,得到各個(gè)詞項(xiàng),統(tǒng)計(jì)所述各個(gè)詞項(xiàng)的詞頻,并為各個(gè)詞項(xiàng)賦予權(quán)重,所述各個(gè)詞項(xiàng)及各個(gè)詞項(xiàng)的權(quán)重構(gòu)成所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。所述藏文類別主題詞表的預(yù)先構(gòu)建方法將在步驟S103中進(jìn)行詳細(xì)說明。在統(tǒng)計(jì)得到的各個(gè)詞項(xiàng)的詞頻后,可以但不限于基于詞頻-倒文檔率(TF-IDF)的方式為各個(gè)詞項(xiàng)賦予權(quán)重。詞頻表示該詞項(xiàng)在文檔中出現(xiàn)的次數(shù),倒文檔率表示該詞項(xiàng)在各文檔之間的區(qū)別度,倒文檔率越大,越能區(qū)分詞項(xiàng)所屬的類別。利用各個(gè)詞項(xiàng)及各個(gè)詞項(xiàng)的權(quán)重構(gòu)成所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。如果待分類藏文網(wǎng)頁中包含k個(gè)詞項(xiàng),具體表示為=T=U1, t2, ···,tk);對應(yīng)的詞頻向量表示為F= (fi, f2, ···, fk);各個(gè)詞項(xiàng)對應(yīng)的權(quán)重向量表示為W=O1, V2, ···,vk)。詞項(xiàng)向量P表示為P= (T,V)或者 P= (T,F(xiàn),V)。步驟S103、利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度。所述藏文類別主題詞表可以但不限于采用預(yù)先構(gòu)建方式,具體包括利用一定規(guī)模的藏語語料,為預(yù)定的類別構(gòu)建藏文類別主題詞表,簡稱為主題詞表。具體地,主題詞表表示為Dic= (C1, C2, ···,Cn),共η個(gè)主題類別。其中,Ci= Qi1, k2,…,km),表示第i個(gè)主題類別Ci中包含m個(gè)主題詞;第i個(gè)主題類別Ci對應(yīng)的權(quán)重向量為Wi= (w1; W2, ···,wm), Wm表示第m個(gè)主題詞的權(quán)重。所述預(yù)定的主題類別可以但不限于參照《國務(wù)院公文主題詞表》規(guī)定的主題詞包括人文與社會(huì)科學(xué)類、自然科學(xué)類兩個(gè)大類。其中,人文與社會(huì)科學(xué)類包括政治類、法律類、歷史類、社會(huì)類、經(jīng)濟(jì)類、藝術(shù)類、文學(xué)類、軍事類、體育類、生活類、宗教類、文化宣傳類12個(gè)類別。自然科學(xué)類包括數(shù)理類、生物環(huán)境類、醫(yī)藥衛(wèi)生類3個(gè)類別,共15個(gè)類別,即n=15。計(jì)算所述詞項(xiàng)向量與各類別的主題詞向量的文本相似度可以采用向量余弦夾角或者內(nèi)積方式進(jìn)行計(jì)算。以向量余弦夾角為例,所述詞項(xiàng)向量與第i個(gè)主題類別的主題詞向量的文本相似度計(jì)算公式為=SinKCil1D=W-VAqrt(IWiMVl),其中i e (I, η),Wi=Iength (Ci) ; V=F^ffi0步驟S104、將所述文本相似度滿足要求的主題詞向量的類別作為所述詞項(xiàng)向量的類別。
所述滿足要求包括所述文本相似度大于或等于預(yù)設(shè)相似度閾值,或者,所述文本相似度排在前N位,N為預(yù)設(shè)正整數(shù)。例如,N取I吋,則選取文本相似度最大的主題類別Ci,作為所述詞項(xiàng)向量的類別,即MaWSinKCi,Τ ??梢灾苯訉⑺_定的詞項(xiàng)向量的類別作為藏文網(wǎng)頁的分類類別。為了針對不同類別的網(wǎng)頁,提高分類的準(zhǔn)確性,本發(fā)明在基于類別主題詞分類的基礎(chǔ)上,還結(jié)合網(wǎng)頁欄目的分類方法。步驟S105、從所述頁面信息中獲取網(wǎng)頁欄目詞條。網(wǎng)頁欄目詞條是指網(wǎng)站各個(gè)頻道中對不同的內(nèi)容或功能進(jìn)行的分類,可以有不同的劃分標(biāo)準(zhǔn)和不同的級(jí)別,各個(gè)級(jí)別的欄目共同構(gòu)成網(wǎng)站的頻道。一般綜合類的網(wǎng)站都會(huì)包括新聞、體育、財(cái)經(jīng)、科技、數(shù)碼、旅游、娛樂等網(wǎng)頁欄目詞條。欄目詞條的出現(xiàn)位置通常較為固定,而且網(wǎng)頁欄目詞條一般以錨文本(anchor)的 形式出現(xiàn)。例如,有譯成中文后的藏文欄目詞組“首頁_>科技-〉互聯(lián)網(wǎng)”,從網(wǎng)頁中獲取符合欄目詞條特征的錨文本,作為待分類藏文網(wǎng)頁的網(wǎng)頁欄目詞條。步驟S106、利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別。所述藏文類別特征詞表可以采用預(yù)先構(gòu)建的方式,具體包括由于ー個(gè)網(wǎng)站符合要求的欄目詞條是有限的,因此可以快速、準(zhǔn)確地采集類別特征詞,建立類別特征詞表。例如有譯成中文后的藏文欄目詞組“首頁_>專欄_>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預(yù)定義的“文學(xué)類” ー類中。利用一定數(shù)量的藏文網(wǎng)站來確定各個(gè)類別的網(wǎng)頁欄目詞條。為了實(shí)現(xiàn)類別特征詞表被快速順序查找和動(dòng)態(tài)擴(kuò)充的功能,可以但不限于采用鏈表數(shù)組的方式來存儲(chǔ)類別特征詞表。圖2是ー種藏文類別特征詞表的存儲(chǔ)結(jié)構(gòu)示意圖,如圖2所示,用Tn來表示類別名稱,其中η表示類別個(gè)數(shù)。類別T1及其特征詞用一個(gè)鏈表來存儲(chǔ),該類別擴(kuò)充的特征詞加入鏈尾;tn表示類別中T1的第i個(gè)特征詞。η個(gè)類別鏈表由ー個(gè)大小為η的數(shù)組管理。這樣建立和存儲(chǔ)類別特征詞表,可以保證隨機(jī)順序匹配速度快,特征詞可以動(dòng)態(tài)擴(kuò)充,其個(gè)數(shù)及長度不限。將步驟S105所獲取的網(wǎng)頁欄目詞條與所述類別特征詞表進(jìn)行匹配。例如,步驟S105獲取的網(wǎng)頁欄目詞條為“籃球”,匹配到所述類別特征詞表中的體育分類,則將“體育”作為該網(wǎng)頁欄目詞條的類別。步驟S107、根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度。具體地,如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別一致,且所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為NI。如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,但所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為Ν2。如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為Ν3。如果所述網(wǎng)頁欄目詞條的類別不能確定,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為Ν4。其中,NI、Ν2、Ν3為預(yù)設(shè)的任意正數(shù)值,且Ν1>Ν2>Ν3>Ν4。例如,如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度大于預(yù)設(shè)閾值但欄目詞條所在類別不包括類別A,則這個(gè)類別A的可信度設(shè)為2,代表所述詞項(xiàng)向量屬于類別A的可信度為中。如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度大于預(yù)設(shè)閾值,且欄目詞條所在類別也包括類別A,則類別A的可信度設(shè)為3,代表所述詞項(xiàng)向量屬于類別A的可信度為高。如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度小于預(yù)設(shè)閾值,但欄目詞條所在類別包括類別A,則設(shè)置類別A的可信度為1,代表所述詞項(xiàng)向量屬于類別A的可信度為低。如果所述詞項(xiàng)向量與所有類別的主題詞向量的文本相似度小于預(yù)設(shè)閾值,且藏文網(wǎng)頁中不包含欄目詞條,無法確定欄目詞條的類別,則所有類別的可信度為0,表示不能分
類。 步驟S108、將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。所述可信度滿足要求的類別是指可信度大于或等于預(yù)設(shè)可信度閾值。預(yù)設(shè)可信度閾值根據(jù)實(shí)際需求而設(shè)定,例如可以設(shè)為2。當(dāng)步驟S107計(jì)算得到類別A的可信度大于或等于2吋,則將類別A確定為所述待分類藏文網(wǎng)頁的類別。一個(gè)藏文網(wǎng)頁中包含的內(nèi)容可能包括多個(gè)方面,因而,對于同一藏文網(wǎng)頁的分類可以屬于不同的多個(gè)類別。以上是對本發(fā)明所提供的藏文網(wǎng)頁分類方法進(jìn)行的詳細(xì)描述,下面對本發(fā)明提供的藏文網(wǎng)頁分類裝置進(jìn)行詳細(xì)描述。實(shí)施例ニ圖3是本實(shí)施例提供的藏文網(wǎng)頁分類裝置示意圖,如圖3所示,本發(fā)明的藏文網(wǎng)頁分類裝置包括信息提取單元11、編碼轉(zhuǎn)換單元12、第一處理單元13、第一計(jì)算單元14、第一分類單元15、欄目提取単元16、第二分類單元17和置信決策單元18。信息提取單元11用于提取待分類藏文網(wǎng)頁的頁面信息。信息提取單元11獲取待分類藏文網(wǎng)頁的網(wǎng)頁頁面,通常為html文件,對于網(wǎng)頁頁面中的頁面信息可以但不限于采用規(guī)則法和(或)模板法來提取網(wǎng)頁中預(yù)定義的相關(guān)文本信息,包括網(wǎng)頁的標(biāo)題、作者、日期、欄目等網(wǎng)頁元數(shù)據(jù)信息,以及正文信息。具體地,信息提取單元11采用模板法來提取頁面信息是指基于網(wǎng)頁模板對網(wǎng)頁進(jìn)行分析,提取能夠與網(wǎng)頁模板相匹配的內(nèi)容為所需的頁面信息。網(wǎng)頁模板通過預(yù)先訓(xùn)練的方式獲得,從一定數(shù)量的網(wǎng)頁樣本中提取特征信息,當(dāng)然,也可以以同一網(wǎng)站的網(wǎng)頁作為樣本進(jìn)行特征提取。以訓(xùn)練正文標(biāo)題的模板為例,獲取網(wǎng)頁樣本中的正文標(biāo)題在網(wǎng)頁中出現(xiàn)的區(qū)塊位置或上下文信息作為對應(yīng)的特征信息,統(tǒng)計(jì)這些特征信息出現(xiàn)的頻次,將頻次滿足要求的特征信息作為正文標(biāo)題的模板。例如,在某網(wǎng)站的網(wǎng)頁html文件中,正文標(biāo)題主要以“〈title>***〈/title>”或者“〈head>***〈/head>”為上下文信息,其出現(xiàn)的頻次大于預(yù)設(shè)閾值,則將“〈title〉*林〈/title〉”或者“〈head〉*林〈/head〉”作為正文標(biāo)題的模板。或者,信息提取單元11采用規(guī)則法來提取頁面信息是指針對網(wǎng)頁中不同區(qū)塊的內(nèi)容采用相應(yīng)的正則表達(dá)式來進(jìn)行頁面信息的提取。以青海藏語廣播網(wǎng)http://www. qhtb. cn為例,采用規(guī)則法提取網(wǎng)頁的標(biāo)題、作
者、日期、欄目、正文等信息。其中,提取網(wǎng)頁正文內(nèi)容的正則表達(dá)式為
content=〈div id=\\"zoom\\"> (·+ ) </div>; ;〈div clas s=\\"zwzw\\"> (·+ )〈/di v> ; ;〈div class=\\"fmtj\\">(.+ )〈/div>; ;〈div align=\\"left\\ ">(·+ )〈/div> ; ; <div class=\//lynr-center\//> (. + ) </div>; ; (<td>
(. + ) </p></td>)提取網(wǎng)頁欄目的正則表達(dá)式為column = くdiv class = \\"fmnav\\"> (. + ) </div> ; ; くdivalign=\\"left\\"(. + )</div>;;〈div class=\\"lynav\\">(. + )</div>;;提取網(wǎng)頁正文標(biāo)題的正則表達(dá)式為title=〈div\\s+class=\\"zwbt\\"> (. + )</div>;;提取子標(biāo)題的正則表達(dá)式為
·
subTitle=〈subtitle> (·* )〈/subtitle〉;;提取網(wǎng)頁發(fā)布日期的正則表達(dá)式為date = <date>(\\d{4}-\\d{l, 2} - \ \ d {I,2} ) (. * )</date>; ; <span\\s+class=\//hz\//>(. + )</span>; ; (\\d {4}\\ff {5, 7}\\d{l, 2}\\ff{3, 5}\\d{l, 2})(· {I, 3}\\d{l, 2} :\\d{l, 2}) ; ; (\\d{4}\\ff{5, 7}\\d{l, 2}\\ff{3, 5}\\d{l, 2}) ; ; (\\d{4}-\\d{l,2}-\\d{l,2});;提取正文作者的正則表達(dá)式為author=<author> (. * ) </author〉;;需要說明的是,信息提取單元11對于網(wǎng)頁中不同區(qū)塊的內(nèi)容可以采用不同提取方法來提取,對于同一區(qū)塊的內(nèi)容也可以采用兩種方法結(jié)合的方式來提取,對抽取的結(jié)果再進(jìn)行決策,以選擇較完善的ー個(gè)作為提取結(jié)果,并將提取結(jié)果以可擴(kuò)展標(biāo)示語言(XML)數(shù)據(jù)格式保存??蛇x地,為了能夠不重復(fù)對同一網(wǎng)頁進(jìn)行分類,提高處理效率,本發(fā)明的藏文網(wǎng)頁分類裝置還包括去重單元10。去重単元10用于利用記錄的去重日志,判斷所述待分類藏文網(wǎng)頁是否為重復(fù)網(wǎng)頁或頁面信息,如果是,則丟棄該網(wǎng)頁。具體地,去重単元10可以設(shè)置在信息提取單元11之前或之后。如果設(shè)置在信息提取單元11之前,去重単元10對待分類藏文網(wǎng)頁的網(wǎng)址url進(jìn)行判斷,在去重日志中保存處理過的url,如果url重復(fù),則作丟棄處理,否則將url提供給信息提取單元11。如果設(shè)置在信息提取單元11之后,去重單元10利用提取的網(wǎng)頁內(nèi)容或url與去重日志中保存的網(wǎng)頁內(nèi)容或url進(jìn)行對比判斷,如果出現(xiàn)重復(fù),則丟棄處理,否則將信息提取單元11獲取的頁面信息提供給后續(xù)處理單元。編碼轉(zhuǎn)換單元12用于對信息提取單元11獲取的頁面信息進(jìn)行編碼轉(zhuǎn)換,得到統(tǒng)ー編碼方式的頁面信息,并將轉(zhuǎn)換后的頁面信息提供給第一處理單元13或欄目提取単元16。由于藏文國際標(biāo)準(zhǔn)編碼和國家標(biāo)準(zhǔn)編碼制定的時(shí)間相對滯后,市場上各種軟件廠商采用自己的編碼標(biāo)準(zhǔn),可能導(dǎo)致各藏文網(wǎng)頁的頁面信息并不能兼容共享,在處理時(shí)也會(huì)由于編碼不同而帶來統(tǒng)計(jì)誤差等影響分類的準(zhǔn)確性。因而,本發(fā)明的藏文網(wǎng)頁分類裝置設(shè)置編碼轉(zhuǎn)換単元12,對所獲取的頁面信息進(jìn)行編碼轉(zhuǎn)換,得到統(tǒng)ー編碼方式的頁面信息。本實(shí)施例中,將方正編碼(大字符集)、班智達(dá)編碼以及同元編碼等編碼方式統(tǒng)ー轉(zhuǎn)換為vista編碼(小字符集)。第一處理單元13用于對信息提取單元11提取的所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。具體包括分詞子單元131、統(tǒng)計(jì)子単元132和賦值子單元133。分詞子單元131用于對信息提取單元11所提取的頁面信息利用預(yù)先構(gòu)建的藏文類別主題詞表進(jìn)行分詞,將能夠與主題詞表相匹配的詞項(xiàng)切分出來,得到各個(gè)詞項(xiàng)。統(tǒng)計(jì)子単元132用于統(tǒng)計(jì)分詞子單元131分詞得到的各個(gè)詞項(xiàng)的詞頻。賦值子単元133用于為各個(gè)詞項(xiàng)賦予權(quán)重。賦值子単元133可以但不限于基于詞頻-倒文檔率(TF-IDF)的方式為各個(gè)詞項(xiàng)賦予權(quán)重。詞頻表示該詞項(xiàng)在文檔中出現(xiàn)的次數(shù),倒文檔率表示該詞項(xiàng)在各文檔之間的區(qū)別度,倒文檔率越大,越能區(qū)分詞項(xiàng)所屬的類別。 利用各個(gè)詞項(xiàng)及各個(gè)詞項(xiàng)的權(quán)重構(gòu)成所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。如果待分類藏文網(wǎng)頁中包含k個(gè)詞項(xiàng),具體表示為=T=U1, t2, ···,tk);對應(yīng)的詞頻向量表示為F= (fi, f2, ···, fk);各詞項(xiàng)對應(yīng)的權(quán)重向量表示為W=O1, V2, ···,vk)。詞項(xiàng)向量P表示為P=(T,V)或者 P= (T,F(xiàn),V)。第一計(jì)算單元14用于利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度。所述藏文類別主題詞表可以但不限于采用預(yù)先構(gòu)建方式,具體包括利用一定規(guī)模的藏語語料,為預(yù)定的類別構(gòu)建藏文類別主題詞表,簡稱為主題詞表。具體地,主題詞表表示為Dic= (C1, C2, ···,Cn),共η個(gè)主題類別。其中,Ci= Qi1, k2,...,km),表示第i個(gè)主題類別Ci中包含m個(gè)主題詞;第i個(gè)主題類別Ci對應(yīng)的權(quán)重向量為Wi= (w1; W2, ···,wm), Wm表示第m個(gè)主題詞的權(quán)重。所述預(yù)定的主題類別可以但不限于參照《國務(wù)院公文主題詞表》規(guī)定的主題詞包括人文與社會(huì)科學(xué)類、自然科學(xué)類兩個(gè)大類。其中,人文與社會(huì)科學(xué)類包括政治類、法律類、歷史類、社會(huì)類、經(jīng)濟(jì)類、藝術(shù)類、文學(xué)類、軍事類、體育類、生活類、宗教類、文化宣傳類12個(gè)類別。自然科學(xué)類包括數(shù)理類、生物環(huán)境類、醫(yī)藥衛(wèi)生類3個(gè)類別,共15個(gè)類別,即n=15。第一計(jì)算單元14計(jì)算所述詞項(xiàng)向量與各類別的主題詞向量的文本相似度可以采用向量余弦夾角或者內(nèi)積方式進(jìn)行計(jì)算。以向量余弦夾角為例,所述詞項(xiàng)向量與第i個(gè)主題類別的主題詞向量的文本相似度計(jì)算公式為=SinKCi, T>=ffi*V/sqrt (| Wi |*| V |),其中ie (I, n), Wi=Iength (Ci) ; V=F^ffi 第一分類單元15用于將所述文本相似度滿足要求的主題詞向量所在的類別作為所述詞項(xiàng)向量的類別。所述滿足要求包括所述文本相似度大于或等于預(yù)設(shè)相似度閾值,或者,所述文本相似度排在前N位,N為預(yù)設(shè)正整數(shù)。例如,N取I時(shí),第一分類單元15選取文本相似度最大的主題類別Ci,作為所述詞項(xiàng)向量的類別,即MaWSinKCi,Τ 。本發(fā)明的藏文網(wǎng)頁分類裝置可以直接將所確定的詞項(xiàng)向量的類別作為藏文網(wǎng)頁的分類類別。為了針對不同類別的網(wǎng)頁,提高分類的準(zhǔn)確性,本發(fā)明的藏文網(wǎng)頁分類裝置在基于類別主題詞分類的基礎(chǔ)上,還結(jié)合網(wǎng)頁欄目的分類。
欄目提取単元16用于從所述頁面信息中獲取網(wǎng)頁欄目詞條。網(wǎng)頁欄目詞條是指網(wǎng)站各個(gè)頻道中對不同的內(nèi)容或功能進(jìn)行的分類,可以有不同的劃分標(biāo)準(zhǔn)和不同的級(jí)別,各個(gè)級(jí)別的欄目共同構(gòu)成網(wǎng)站的頻道。一般綜合類的網(wǎng)站都會(huì)包括新聞、體育、財(cái)經(jīng)、科技、數(shù)碼、旅游、娛樂等網(wǎng)頁欄目詞條。欄 詞條的出現(xiàn)位置通常較為固定,而且網(wǎng)頁欄目詞條一般以錨文本(anchor)的形式出現(xiàn)。例如,有譯成中文后的藏文欄目詞組“首頁_>科技-〉互聯(lián)網(wǎng)”,欄目提取單元16從網(wǎng)頁中獲取符合欄目詞條特征的錨文本,作為待分類藏文網(wǎng)頁的網(wǎng)頁欄目詞條。第二分類單元17用于利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別。所述藏文類別特征詞表可以采用預(yù)先構(gòu)建的方式,具體包括由于ー個(gè)網(wǎng)站符合要求的欄目詞條是有限的,因此可以快速、準(zhǔn)確地采集類別特征詞,建立類別特征詞表。例如有譯成中文后的藏文欄目詞組“首頁_>專欄_>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預(yù)定義的“文學(xué)類” ー類中。利用一定數(shù)量的藏文網(wǎng)站來確定各個(gè)類別的網(wǎng)頁欄目詞條。為了實(shí)現(xiàn)類別特征詞表被快速順序查找和動(dòng)態(tài)擴(kuò)充的功能,可以但不限于采用鏈表數(shù)組的方式來存儲(chǔ)類別特征詞表。第二分類單元17將欄目提取單元16所獲取的網(wǎng)頁欄目詞條與所述類別特征詞表進(jìn)行匹配。例如,欄目提取単元16獲取的網(wǎng)頁欄目詞條為“籃球”,匹配到所述類別特征詞表中的體育分類,則第二分類單元17將“體育”作為該網(wǎng)頁欄目詞條的類別。置信決策單元18用于根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度,將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。具體地,如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別一致,且所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為NI。如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,但所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N2。如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N3。如果所述網(wǎng)頁欄目詞條的類別不能確定,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N4。其中,NI、N2、N3為預(yù)設(shè)的任意正數(shù)值,且N1>N2>N3>N4。例如,如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度大于預(yù)設(shè)閾值但欄目詞條所在類別不包括類別A,則這個(gè)類別A的可信度設(shè)為2,代表所述詞項(xiàng)向量屬于類別A的可信度為中。如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度大于預(yù)設(shè)閾值,且欄目詞條所在類別也包括類別A,則類別A的可信度設(shè)為3,代表所述詞項(xiàng)向量屬于類別A的可信度為高。如果所述詞項(xiàng)向量與類別A的主題詞向量的文本相似度小于預(yù)設(shè)閾值,但欄目詞條所在類別包括類別A,則設(shè)置類別A的可信度為1,代表所述詞項(xiàng)向量屬于類別A的可信度為低。如果所述詞項(xiàng)向量與所有類別的主題詞向量的文本相似度小于預(yù)設(shè)閾值,且藏文網(wǎng)頁中不包含欄目詞條,無法確定欄目詞條的類別,則所有類別的可信度為0,表示不能分類。置信決策單元18將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。所述可信度滿足要求的類別是指可信度大于或等于預(yù)設(shè)可信度閾值。預(yù)設(shè)可信度閾值根據(jù)實(shí)際需求而設(shè)定,例如可以設(shè)為2。置信決策單元18如果計(jì)算得到類別A的可信度大于或等于2吋,則將類別A確定為所述待分類藏文網(wǎng)頁的類別。本發(fā)明提供的藏文網(wǎng)頁分類方法和裝置,采用基于規(guī)則和模板相結(jié)合方法進(jìn)行網(wǎng)頁信息抽取,采用基于網(wǎng)頁欄目信息和主題詞表相結(jié)合的方法進(jìn)行網(wǎng)頁分類,能夠提高分類的準(zhǔn)確性,從而可以提高搜索引擎的返回結(jié)果及藏文數(shù)據(jù)庫的準(zhǔn)確性。本發(fā)明不僅對于幫助人們快速、準(zhǔn)確獲取所需信息及構(gòu)建藏文語料庫具有積極的意義,而且對于推動(dòng)和發(fā)展藏文信息檢索技木,保護(hù)少數(shù)民族語言文化也有重要作用。 專業(yè)人員應(yīng)該還可以進(jìn)ー步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的単元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。以上所述的具體實(shí)施方式
,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)ー步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式
而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.ー種藏文網(wǎng)頁分類方法,其特征在于,所述方法包括提取待分類藏文網(wǎng)頁的頁面信息;對所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量;利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度;從所述頁面信息中獲取網(wǎng)頁欄目詞條,利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別;根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度;將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。
2.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,在所述提取待分類藏文網(wǎng)頁的頁面信息之前,還包括利用記錄的去重日志,判斷所述待分類藏文網(wǎng)頁是否為重復(fù)網(wǎng)頁,如果是,則丟棄該藏文網(wǎng)頁,否則提取待分類藏文網(wǎng)頁的頁面信息,并更新所述去重日志;
3.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,在所述提取待分類藏文網(wǎng)頁的頁面信息之后,還包括利用記錄的去重日志,判斷所述頁面信息是否為重復(fù)的頁面信息,如果是,則丟棄該藏文網(wǎng)頁,否則執(zhí)行所述對所述頁面信息進(jìn)行分詞處理,并更新所述去重日志。
4.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,在所述提取待分類藏文網(wǎng)頁的頁面信息之后,還包括對所述頁面信息進(jìn)行編碼轉(zhuǎn)換,得到統(tǒng)ー編碼方式的頁面信息;對轉(zhuǎn)換后的所述頁面信息進(jìn)行分詞處理,或者,從轉(zhuǎn)換后的所述頁面信息中獲取所述網(wǎng)頁欄目詞條。
5.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,所述對頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量,具體為對所述頁面信息進(jìn)行分詞得到各個(gè)詞項(xiàng),統(tǒng)計(jì)所述各個(gè)詞項(xiàng)的詞頻,并為各個(gè)詞項(xiàng)賦予權(quán)重;所述各個(gè)詞項(xiàng)及各個(gè)詞項(xiàng)的權(quán)重構(gòu)成所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。
6.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,所述利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度,具體為所述藏文類別主題詞表中包括η個(gè)類別DicKC1, C2,…,Ci,…,Cn),其中,Ci表示第i個(gè)類別,Ci=Q1, I2,…,Im)表示第i個(gè)類別Ci中包含m個(gè)主題詞,Ci對應(yīng)的權(quán)重向量為Wi= (w1; W2, ...,wm),Wm表示第m個(gè)主題詞的權(quán)重;所述待分類藏文網(wǎng)頁的所述詞項(xiàng)向量中包含k個(gè)詞項(xiàng)T= U1, t2,…,tk),各個(gè)詞項(xiàng)對應(yīng)的詞頻為F= (f1; f2,…,fk),各個(gè)詞項(xiàng)對應(yīng)的權(quán)重為V= (V1, V2,…,vk);根據(jù)相似度計(jì)算公式SinKCi, T>=Wi*V/sqrt (I Wi | * | V |),計(jì)算得到所述第i個(gè)主題類別的主題詞向量與所述詞項(xiàng)向量的文本相似度,其中i e (I1Ii)jWi=Iength(Ci) ;V=F^ffi0
7.根據(jù)權(quán)利要求I所述的藏文網(wǎng)頁分類方法,其特征在于,所述根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度,具體包括所述文本相似度滿足預(yù)設(shè)要求的所述主題詞向量的類別為所述詞項(xiàng)向量的類別;如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別一致,且所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為NI ;如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,但所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N2 ;如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N3 ;如果所述網(wǎng)頁欄目詞條的類別不能確定,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N4 ;其中,NI、N2、N3為預(yù)設(shè)的任意正數(shù)值,且N1>N2>N3>N4。
8.ー種藏文網(wǎng)頁分類裝置,其特征在于,所述裝置包括信息提取單元,用于提取待分類藏文網(wǎng)頁的頁面信息;第一處理單元,用于對所述信息提取單元提取的所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量;第一計(jì)算單元,用于利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度;欄目提取単元,用于從所述信息提取單元提取的所述頁面信息中獲取網(wǎng)頁欄目詞條;第二分類單元,用于利用藏文類別特征詞表,查找出所述網(wǎng)頁欄目詞條所在的類別;置信決策單元,用于根據(jù)所述網(wǎng)頁欄目詞條的類別和所述文本相似度,確定所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度,將可信度滿足要求的類別確定為所述待分類藏文網(wǎng)頁的類別。
9.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述裝置還包括去重単元,用于利用記錄的去重日志,判斷所述待分類藏文網(wǎng)頁是否為重復(fù)網(wǎng)頁,如果是,則丟棄該藏文網(wǎng)頁,否則將該網(wǎng)頁提供給所述信息提取單元提取待分類藏文網(wǎng)頁的頁面信息,并更新所述去重日志。
10.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述裝置還包括去重単元,用于利用記錄的去重日志,判斷所述信息提取單元提取的所述頁面信息是否為重復(fù)的頁面信息,如果是,則丟棄該藏文網(wǎng)頁,否則將所述頁面信息提供給所述第一處理單元。
11.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述裝置還包括編碼轉(zhuǎn)換單元,用于對所述信息提取單元提取的所述頁面信息進(jìn)行編碼轉(zhuǎn)換,得到統(tǒng)ー編碼方式的頁面信息,并將轉(zhuǎn)換后的頁面信息提供給所述第一處理單元或欄目提取單J Li ο
12.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述第一處理單元具體包括分詞子單元,用于對所述信息提取單元提取的所述頁面信息進(jìn)行分詞,得到各個(gè)詞項(xiàng);統(tǒng)計(jì)子単元,用于統(tǒng)計(jì)所述各個(gè)詞項(xiàng)的詞頻;賦值子単元,用于為各個(gè)詞項(xiàng)賦予權(quán)重;所述各個(gè)詞項(xiàng)及各個(gè)詞項(xiàng)的權(quán)重構(gòu)成所述待分類藏文網(wǎng)頁的詞項(xiàng)向量。
13.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述藏文類別主題詞表中包括η個(gè)類別Dic= (C1, C2,…,Ci,…,Cn),其中,Ci表示第i個(gè)類別,Ci= (I1, I2,…,Im)表示第i個(gè)類另1J Ci中包含m個(gè)主題詞,Ci對應(yīng)的權(quán)重向量為:Wi= (w” W2, ···,wm), Wm表示第m個(gè)主題詞的權(quán)重;·所述第一處理單元得到的所述詞項(xiàng)向量中包含k個(gè)詞項(xiàng)T=(懷t2,…,tk),各個(gè)詞項(xiàng)對應(yīng)的詞頻為F= (f1; f2,…,fk),各個(gè)詞項(xiàng)對應(yīng)的權(quán)重為V= (V1, V2,…,vk);所述第一計(jì)算單元具體用于根據(jù)相似度計(jì)算公式SinKCi, T>=Wi*V/sqrt (I Wi | * | V |),計(jì)算得到所述第i個(gè)主題類別的主題詞向量與所述詞項(xiàng)向量的文本相似度,其中i e (I1Ii)jWi=Iength(Ci) ;V=F^ffi0
14.根據(jù)權(quán)利要求8所述的藏文網(wǎng)頁分類裝置,其特征在于,所述裝置還包括第一分類單元,用于將所述文本相似度滿足預(yù)設(shè)要求的所述主題詞向量的類別作為所述詞項(xiàng)向量的類別;所述置信決策單元具體用于如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別一致,且所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為NI ;如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,但所述文本相似度大于或等于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N2 ;如果所述詞項(xiàng)向量的類別與所述網(wǎng)頁欄目詞條的類別不一致,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N3 ;如果所述網(wǎng)頁欄目詞條的類別不能確定,且所述文本相似度小于預(yù)設(shè)相似度閾值,則所述待分類藏文網(wǎng)頁屬于各個(gè)類別的可信度為N4 ;其中,NI、N2、N3為預(yù)設(shè)的任意正數(shù)值,且N1>N2>N3>N4。
全文摘要
本發(fā)明涉及一種藏文網(wǎng)頁分類方法和裝置,所述方法包括提取待分類藏文網(wǎng)頁的頁面信息;對所述頁面信息進(jìn)行分詞處理,得到所述待分類藏文網(wǎng)頁的詞項(xiàng)向量;利用藏文類別主題詞表中各類別的主題詞向量,計(jì)算所述詞項(xiàng)向量與所述各類別的主題詞向量的文本相似度;將所述文本相似度滿足要求的所述主題詞向量的類別確定為所述待分類藏文網(wǎng)頁的類別。本發(fā)明提供的藏文網(wǎng)頁分類方法及裝置,通過對網(wǎng)頁的文本內(nèi)容進(jìn)行分析,提高了分類的準(zhǔn)確性,從而可以提高搜索引擎的返回結(jié)果及藏文語料庫的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102831246SQ201210345230
公開日2012年12月19日 申請日期2012年9月17日 優(yōu)先權(quán)日2012年9月17日
發(fā)明者胥桂仙 申請人:中央民族大學(xué)