亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)主題的分類(lèi)方法及裝置制造方法

文檔序號(hào):6488464閱讀:162來(lái)源:國(guó)知局
網(wǎng)頁(yè)主題的分類(lèi)方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)主題的分類(lèi)方法及裝置,屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】。方法包括:提取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中的文字,對(duì)提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;計(jì)算每個(gè)分詞結(jié)果的權(quán)重值,權(quán)重值為T(mén)FIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。本發(fā)明通過(guò)對(duì)待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中提取的文字進(jìn)行分詞處理,根據(jù)分詞結(jié)果的TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重等權(quán)重值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題自動(dòng)分類(lèi),無(wú)需人工操作,節(jié)省了人力成本,提高了分類(lèi)準(zhǔn)確性及適用性。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)主題的分類(lèi)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種網(wǎng)頁(yè)主題的分類(lèi)方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)網(wǎng)站層出不窮,海量新網(wǎng)頁(yè)的不斷產(chǎn)生,給網(wǎng)民帶來(lái)了極大的信息過(guò)載隱患。為了便于對(duì)網(wǎng)頁(yè)進(jìn)行管理,常常將網(wǎng)頁(yè)按照主題進(jìn)行分類(lèi),如何對(duì)網(wǎng)頁(yè)主題進(jìn)行更好地歸類(lèi)、組織和梳理,對(duì)于網(wǎng)站自身規(guī)劃、網(wǎng)民個(gè)性化瀏覽等均具
有重要意義。
[0003]現(xiàn)有技術(shù)一在對(duì)網(wǎng)頁(yè)主題進(jìn)行分類(lèi)時(shí),基于URL (Uniform/Universal ResourceLocator,統(tǒng)一資源定位符)規(guī)則將網(wǎng)頁(yè)分成不同類(lèi)別,例如,對(duì)于URL為sports, qq.com域名的所有網(wǎng)頁(yè),均歸為體育類(lèi),或者將URL中含有/sports/的網(wǎng)頁(yè)歸類(lèi)為體育類(lèi)等等;現(xiàn)有技術(shù)二在對(duì)網(wǎng)頁(yè)主題進(jìn)行分類(lèi)時(shí),先對(duì)網(wǎng)頁(yè)進(jìn)行形式化,將其表示為一個(gè)VSM (VectorSpace Model,向量空間模型),每個(gè)向量項(xiàng)表示切分后的詞,向量的權(quán)重一般采用TFIDF(Term Frequency Inverse Document Frequency,詞頻與逆文檔頻率)形式,之后采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)。
[0004]在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:
[0005]現(xiàn)有技術(shù)一提供的網(wǎng)頁(yè)主題分類(lèi)方式對(duì)于新網(wǎng)頁(yè)的主題分類(lèi)需要人工完成,因而耗費(fèi)的人力成本較高;且對(duì)于URL規(guī)則不明顯的網(wǎng)頁(yè)需要額外處理,導(dǎo)致覆蓋度不夠;現(xiàn)有技術(shù)二僅利用了 TFIDF文本權(quán)重,分類(lèi)依據(jù)較為單一,導(dǎo)致分類(lèi)的效果存在一定缺陷。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)主題的分類(lèi)方法及裝置。所述技術(shù)方案如下:
[0007]—方面,提供了一種網(wǎng)頁(yè)主題的分類(lèi)方法,所述方法包括:
[0008]提取待分類(lèi)網(wǎng)頁(yè)的HTML (Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)源代碼中的文字,并對(duì)提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;
[0009]計(jì)算每個(gè)分詞結(jié)果的權(quán)重值,所述權(quán)重值為詞頻與逆文檔頻率TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;
[0010]根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,并根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0011]其中,所述根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,具體包括:
[0012]根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;
[0013]以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0014]進(jìn)一步地,所述以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi)之前,還包括:
[0015]收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)所述預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別;
[0016]將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。
[0017]其中,所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括:
[0018]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將所述最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為所述待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0019]進(jìn)一步地,所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)之前,還包括:
[0020]根據(jù)所述待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,所述網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航;
[0021]所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括:
[0022]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)所述最大分類(lèi)值及所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0023]另一方面,還提供了一種網(wǎng)頁(yè)主題的分類(lèi)裝置,所述裝置包括:
[0024]提取模塊,用于提取待分類(lèi)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼中的文字;
[0025]分詞模塊,用于對(duì)所述提取模塊提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;
[0026]計(jì)算模塊,用于計(jì)算所述分詞模塊得到的每個(gè)分詞結(jié)果的權(quán)重值,所述權(quán)重值為詞頻與逆文檔頻率TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;
[0027]獲取模塊,用于根據(jù)所述計(jì)算模塊計(jì)算得到的每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值;
[0028]分類(lèi)模塊,用于根據(jù)所述獲取模塊獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0029]其中,所述獲取模塊,具體用于根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0030]進(jìn)一步地,所述裝置,還包括:
[0031]歸納模塊,用于收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)所述預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別;
[0032]訓(xùn)練模塊,用于將所述歸納模塊預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。
[0033]其中,所述分類(lèi)模塊,具體用于在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將所述最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為所述待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0034]進(jìn)一步地,所述獲取模塊,還用于根據(jù)所述待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,所述網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航;
[0035]所述分類(lèi)模塊,具體用于在所述獲取模塊獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)所述最大分類(lèi)值及所述獲取模塊獲取到的所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0036]本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0037]通過(guò)對(duì)待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中提取的文字進(jìn)行分詞處理,并根據(jù)分詞結(jié)果的TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重等權(quán)重值實(shí)現(xiàn)對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行自動(dòng)分類(lèi),不僅無(wú)需人工操作,節(jié)省了人力成本,提高了分類(lèi)的準(zhǔn)確性,還具有較高的適用性。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0038]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0039]圖1是本發(fā)明實(shí)施例一提供的一種網(wǎng)頁(yè)主題的分類(lèi)方法流程圖;
[0040]圖2是本發(fā)明實(shí)施例二提供的一種網(wǎng)頁(yè)主題的分類(lèi)方法流程圖;
[0041]圖3是本發(fā)明實(shí)施例三提供的一種網(wǎng)頁(yè)主題的分類(lèi)裝置結(jié)構(gòu)示意圖;
[0042]圖4是本發(fā)明實(shí)施例三提供的另一種網(wǎng)頁(yè)主題的分類(lèi)裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0043]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0044]實(shí)施例一
[0045]本實(shí)施例提供了一種網(wǎng)頁(yè)主題的分類(lèi)方法,參見(jiàn)圖1,本實(shí)施例提供的方法流程具體如下:
[0046]101:提取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中的文字,并對(duì)提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;
[0047]102:計(jì)算每個(gè)分詞結(jié)果的權(quán)重值,權(quán)重值為T(mén)FIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;
[0048]103:根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,并根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0049]其中,根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,包括但不限于:
[0050]根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;
[0051]以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0052]進(jìn)一步地,以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi)之前,還包括:
[0053]收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別;
[0054]將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。[0055]進(jìn)一步地,根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),包括但不限于:
[0056]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0057]進(jìn)一步地,根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)之前,還包括:
[0058]根據(jù)待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航;
[0059]根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括:
[0060]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)最大分類(lèi)值及待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0061]本實(shí)施例提供的方法,通過(guò)對(duì)待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中提取的文字進(jìn)行分詞處理,并根據(jù)分詞結(jié)果的TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重等權(quán)重值實(shí)現(xiàn)對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行自動(dòng)分類(lèi),不僅無(wú)需人工操作,節(jié)省了人力成本,提高了分類(lèi)的準(zhǔn)確性,還具有較高的適用性。
[0062]為了更加清楚地闡述上述實(shí)施例提供的方法,結(jié)合上述實(shí)施例的內(nèi)容,以如下實(shí)施例二為例,對(duì)網(wǎng)頁(yè)主題的分類(lèi)方法進(jìn)行舉例說(shuō)明,詳見(jiàn)如下實(shí)施例二:
[0063]實(shí)施例二
[0064]本實(shí)施例提供了一種網(wǎng)頁(yè)主題的分類(lèi)方法,該方法結(jié)合上述實(shí)施例一的內(nèi)容,對(duì)網(wǎng)頁(yè)主題的分類(lèi)方法進(jìn)行詳細(xì)說(shuō)明。參見(jiàn)圖2,本實(shí)施例提供的方法流程具體如下:
[0065]201:獲取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼,并提取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中的文字;
[0066]其中,HTML是用于描述網(wǎng)頁(yè)文檔的一種標(biāo)記語(yǔ)言,其通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分。一個(gè)網(wǎng)頁(yè)對(duì)應(yīng)一個(gè)HTML文件,HTML文件由描述網(wǎng)頁(yè)文檔的HTML源代碼構(gòu)成。在HTML源代碼中包含網(wǎng)頁(yè)中的文字,該文字能夠反映網(wǎng)頁(yè)的主題,因而該步驟獲取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼后,提取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中的文字,以通過(guò)后續(xù)步驟根據(jù)提取的文字進(jìn)行主題分類(lèi)。具體實(shí)施時(shí),獲取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼的方式及從HTML源代碼中提取文字的方式在現(xiàn)有技術(shù)中已經(jīng)十分成熟,本實(shí)施例對(duì)此不作具體限定。
[0067]202:對(duì)提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;
[0068]針對(duì)該步驟,分詞處理的方式可以有多種,現(xiàn)有技術(shù)中的分詞處理方式也十分成熟,本實(shí)施例不對(duì)該步驟選取的分詞處理方式進(jìn)行限定。
[0069]203:計(jì)算每個(gè)分詞結(jié)果的權(quán)重值,該權(quán)重值為T(mén)FIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;
[0070]具體地,針對(duì)TFIDF權(quán)重,其中的TF (Term Frequency,詞頻)指分詞結(jié)果在待分類(lèi)網(wǎng)頁(yè)中出現(xiàn)的次數(shù),DF (Document Frequency,文檔頻率)預(yù)先基于網(wǎng)頁(yè)集合統(tǒng)計(jì)得到。
[0071]針對(duì)位置權(quán)重,由于標(biāo)題是網(wǎng)頁(yè)主題信息的濃縮,標(biāo)題詞比正文詞的信息量要更具有代表性,因此如果分詞結(jié)果為標(biāo)題詞,則對(duì)其給予加權(quán)。另外對(duì)于待分類(lèi)網(wǎng)頁(yè)正文的首段和尾段的詞比段中的詞要更重要,因此可對(duì)位于待分類(lèi)網(wǎng)頁(yè)正文的首段或尾段的分詞結(jié)果給予加權(quán)。
[0072]針對(duì)分布權(quán)重,由于在文本中分布較廣的詞比分布較密集的詞更能代表這個(gè)文本,因此可根據(jù)分詞結(jié)果在待分類(lèi)網(wǎng)頁(yè)正文中的分布情況進(jìn)行相應(yīng)加權(quán)。[0073]針對(duì)強(qiáng)調(diào)權(quán)重,由于正文中采用〈strong〉或〈span〉或〈font〉等進(jìn)行修飾的文本串一般對(duì)應(yīng)文本的核心事件、小標(biāo)題等內(nèi)容,因此對(duì)于具有該類(lèi)特征的分詞結(jié)果進(jìn)行加權(quán)。
[0074]針對(duì)鏈接權(quán)重,由于對(duì)于正文中的鏈接文本認(rèn)為其具有重要意義,因而對(duì)于具有該類(lèi)特征的分詞結(jié)果也進(jìn)行相應(yīng)加權(quán)。
[0075]每個(gè)分詞結(jié)果按照上述各種權(quán)重進(jìn)行相應(yīng)加權(quán)后,將每個(gè)分詞結(jié)果的各個(gè)加權(quán)值進(jìn)行累加,即可得到每個(gè)分詞結(jié)果的權(quán)重值,分詞結(jié)果的權(quán)重值能夠反映該分詞結(jié)果在待分類(lèi)網(wǎng)頁(yè)中的上述權(quán)重。本實(shí)施例不對(duì)分詞結(jié)果相對(duì)每種權(quán)重的具體加權(quán)值大小進(jìn)行限定,除了上述幾種權(quán)重對(duì)應(yīng)的權(quán)重值外,具體實(shí)施時(shí),還可以采取其他權(quán)重,本實(shí)施例同樣對(duì)此不作具體限定。
[0076]204:根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值;
[0077]具體地,無(wú)論上述步驟203采取哪些權(quán)重,在得到每個(gè)分詞結(jié)果的權(quán)重值后,根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值時(shí),本實(shí)施例采取了包括但不限于如下的方式:
[0078]根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;
[0079]以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0080]進(jìn)一步地,以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi)之前,還包括:
[0081]收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別;
[0082]將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。
[0083]其中,收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)時(shí),該預(yù)設(shè)數(shù)目的具體大小可以根據(jù)實(shí)際情況進(jìn)行設(shè)定,本實(shí)施例不對(duì)預(yù)設(shè)數(shù)目的大小進(jìn)行限定,預(yù)設(shè)數(shù)目越大,收集的網(wǎng)頁(yè)越能概括越多的網(wǎng)頁(yè)主題類(lèi)別。在對(duì)預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納時(shí),可得到“音樂(lè)”、“新聞”、“體育”、“娛樂(lè)”、“廣告”等多個(gè)主題類(lèi)別,或是其他主題類(lèi)別,本實(shí)施例不對(duì)歸納得到的具體主題類(lèi)別進(jìn)行限定。得到預(yù)先歸納的主題類(lèi)別之后,通過(guò)將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練,使訓(xùn)練后的分類(lèi)器可對(duì)輸入的向量空間模型給出其相對(duì)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0084]根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型時(shí),是將網(wǎng)頁(yè)中文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且以空間上的相似性表達(dá)語(yǔ)義的相似性,當(dāng)網(wǎng)頁(yè)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量網(wǎng)頁(yè)文檔間的相似性,也就是說(shuō),通過(guò)上述向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)網(wǎng)頁(yè)文檔之間的相似性問(wèn)題就轉(zhuǎn)變成了兩個(gè)向量之間的相似性問(wèn)題。又由于將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行了訓(xùn)練,因而該步驟根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型,通過(guò)以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),可得到待分類(lèi)網(wǎng)頁(yè)相對(duì)每個(gè)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,該分類(lèi)值可反映待分類(lèi)網(wǎng)頁(yè)與預(yù)先歸納的主題類(lèi)別之間的相似性,其大小可以為0-100中的任意數(shù)值,表示待分類(lèi)網(wǎng)頁(yè)相對(duì)預(yù)先歸納的每個(gè)主題類(lèi)別的得分,得分越高,說(shuō)明待分類(lèi)網(wǎng)頁(yè)與對(duì)應(yīng)的主題類(lèi)別的相似性越高。當(dāng)然,除了按照0-100中的任意數(shù)值表示分類(lèi)值的大小之外,還可以采用其他方式表示分類(lèi)值的大小,本實(shí)施例不對(duì)分類(lèi)值的具體表達(dá)方式進(jìn)行限定,通過(guò)分類(lèi)值能夠表示待分類(lèi)網(wǎng)頁(yè)與預(yù)先歸納的主題類(lèi)別之間的相似性大小即可。
[0085]205:根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0086]針對(duì)該步驟,由于上述步驟204得到的待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值可以反映待分類(lèi)網(wǎng)頁(yè)與預(yù)先歸納的主題類(lèi)別之間的相似性,因而分類(lèi)值越高,待分類(lèi)網(wǎng)頁(yè)與對(duì)應(yīng)的主題類(lèi)別之間的相似性越高,該步驟在根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)時(shí),包括但不限于:
[0087]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0088]例如,如果待分類(lèi)網(wǎng)頁(yè)相對(duì)于預(yù)先歸納的主題類(lèi)別為“娛樂(lè)”的分類(lèi)值為獲取到的分類(lèi)值中的最大分類(lèi)值,則將主題類(lèi)別“娛樂(lè)”作為該待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0089]優(yōu)選地,由于網(wǎng)頁(yè)除了文字,還有其他一些信息,如網(wǎng)頁(yè)的URL,二級(jí)導(dǎo)航等,因此,為了進(jìn)一步優(yōu)化網(wǎng)頁(yè)主題的分類(lèi)方法,本實(shí)施例提供的方法在依據(jù)待分類(lèi)網(wǎng)頁(yè)相對(duì)預(yù)先歸納的主題類(lèi)別的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)時(shí),還提供了利用網(wǎng)頁(yè)屬性進(jìn)一步優(yōu)化主題分類(lèi)的方案。具體實(shí)施時(shí),本實(shí)施例提供的方法在根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)之前,還包括:
[0090]根據(jù)待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航;
[0091]根據(jù)獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括:
[0092]在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)最大分類(lèi)值及待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0093]基于該優(yōu)選方案,以待分類(lèi)網(wǎng)頁(yè)的UR中包含“sport”字符為例,該字符能夠反映待分類(lèi)網(wǎng)頁(yè)的主題與“體育”、“運(yùn)動(dòng)”等主題相關(guān),因而可將其作為主題分類(lèi)的因素,為其賦予對(duì)應(yīng)的屬性值,通過(guò)分類(lèi)值與屬性值相結(jié)合來(lái)對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行主題分類(lèi)。其中,待分類(lèi)網(wǎng)頁(yè)的屬性值大小可根據(jù)實(shí)際情況進(jìn)行設(shè)定,本實(shí)施例不對(duì)屬性值的確定方式及大小進(jìn)行限定。
[0094]另外,本實(shí)施例提供的方法可用于網(wǎng)頁(yè)自動(dòng)歸類(lèi)、用戶行為分析、網(wǎng)頁(yè)廣告相關(guān)度匹配等領(lǐng)域,除此之外,還可以應(yīng)用于其他領(lǐng)域,本實(shí)施例不對(duì)本實(shí)施例提供的方法所應(yīng)用的具體領(lǐng)域進(jìn)行限定。
[0095]本實(shí)施例提供的方法,通過(guò)對(duì)待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中提取的文字進(jìn)行分詞處理,并根據(jù)分詞結(jié)果的TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重等權(quán)重值實(shí)現(xiàn)對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行自動(dòng)分類(lèi),不僅無(wú)需人工操作,節(jié)省了人力成本,提高了分類(lèi)的準(zhǔn)確性,還具有較高的適用性。
[0096]實(shí)施例三
[0097]本實(shí)施例提供了一種網(wǎng)頁(yè)主題的分類(lèi)裝置,該裝置用于執(zhí)行上述實(shí)施例一或?qū)嵤├峁┑木W(wǎng)頁(yè)主題的分類(lèi)方法。參見(jiàn)圖3,該裝置包括:
[0098]提取模塊31,用于提取待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中的文字;
[0099]分詞模塊32,用于對(duì)提取模塊31提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果;
[0100]計(jì)算模塊33,用于計(jì)算分詞模塊32得到的每個(gè)分詞結(jié)果的權(quán)重值,權(quán)重值為T(mén)FIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值;
[0101]獲取模塊34,用于根據(jù)計(jì)算模塊33計(jì)算得到的每個(gè)分詞結(jié)果的權(quán)重值獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值;
[0102]分類(lèi)模塊35,用于根據(jù)獲取模塊34獲取到的分類(lèi)值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0103]其中,獲取模塊34,具體用于根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;以向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
[0104]進(jìn)一步地,參見(jiàn)圖4,該裝置,還包括:
[0105]歸納模塊36,用于收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別;
[0106]訓(xùn)練模塊37,用于將歸納模塊36預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。
[0107]其中,分類(lèi)模塊35,具體用于在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
[0108]進(jìn)一步地,獲取模塊34,還用于根據(jù)待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航;
[0109]分類(lèi)模塊35,具體用于在獲取模塊34獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)最大分類(lèi)值及獲取模塊34獲取到的待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
[0110]本實(shí)施例提供的裝置,通過(guò)對(duì)待分類(lèi)網(wǎng)頁(yè)的HTML源代碼中提取的文字進(jìn)行分詞處理,并根據(jù)分詞結(jié)果的TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重等權(quán)重值實(shí)現(xiàn)對(duì)待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行自動(dòng)分類(lèi),不僅無(wú)需人工操作,節(jié)省了人力成本,提高了分類(lèi)的準(zhǔn)確性,還具有較高的適用性。
[0111]需要說(shuō)明的是:上述實(shí)施例提供的網(wǎng)頁(yè)主題的分類(lèi)裝置在進(jìn)行網(wǎng)頁(yè)主題分類(lèi)時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說(shuō)明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的網(wǎng)頁(yè)主題的分類(lèi)裝置與網(wǎng)頁(yè)主題的分類(lèi)方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)方法實(shí)施例,這里不再贅述。
[0112]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0113]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。
[0114]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)主題的分類(lèi)方法,其特征在于,所述方法包括: 提取待分類(lèi)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼中的文字,并對(duì)提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果; 計(jì)算每個(gè)分詞結(jié)果的權(quán)重值,所述權(quán)重值為詞頻與逆文檔頻率TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值; 根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,并根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值,具體包括: 根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型; 以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi)之前,還包括: 收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)所述預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別; 將預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。
4.根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的方法,其特征在于,所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括: 在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將所述最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為所述待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
5.根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的方法,其特征在于,所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)之前,還包括: 根據(jù)所述待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,所述網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航; 所述根據(jù)獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi),具體包括: 在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)所述最大分類(lèi)值及所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
6.一種網(wǎng)頁(yè)主題的分類(lèi)裝置,其特征在于,所述裝置包括: 提取模塊,用于提取待分類(lèi)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源代碼中的文字; 分詞模塊,用于對(duì)所述提取模塊提取的文字進(jìn)行分詞處理,得到一至多個(gè)分詞結(jié)果; 計(jì)算模塊,用于計(jì)算所述分詞模塊得到的每個(gè)分詞結(jié)果的權(quán)重值,所述權(quán)重值為詞頻與逆文檔頻率TFIDF權(quán)重、位置權(quán)重、分布權(quán)重、強(qiáng)調(diào)權(quán)重和鏈接權(quán)重中的至少一種權(quán)重對(duì)應(yīng)的權(quán)重值; 獲取模塊,用于根據(jù)所述計(jì)算模塊計(jì)算得到的每個(gè)分詞結(jié)果的權(quán)重值獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值; 分類(lèi)模塊,用于根據(jù)所述獲取模塊獲取到的分類(lèi)值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊,具體用于根據(jù)每個(gè)分詞結(jié)果的權(quán)重值生成向量空間模型;以所述向量空間模型作為預(yù)先訓(xùn)練得到的分類(lèi)器的輸入對(duì)所述待分類(lèi)網(wǎng)頁(yè)進(jìn)行分類(lèi),得到所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)預(yù)先歸納的每個(gè)主題類(lèi)別的分類(lèi)值。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置,還包括: 歸納模塊,用于收集預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè),并對(duì)所述預(yù)設(shè)數(shù)目個(gè)網(wǎng)頁(yè)的主題進(jìn)行歸納,得到預(yù)先歸納的主題類(lèi)別; 訓(xùn)練模塊,用于將所述歸納模塊預(yù)先歸納的各個(gè)主題類(lèi)別分別作為訓(xùn)練樣本對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。
9.根據(jù)權(quán)利要求6至8中任一權(quán)利要求所述的裝置,其特征在于,所述分類(lèi)模塊,具體用于在獲取到的分類(lèi)值中選擇最大分類(lèi)值,并將所述最大分類(lèi)值對(duì)應(yīng)的預(yù)先歸納的主題類(lèi)別作為所述待分類(lèi)網(wǎng)頁(yè)的主題類(lèi)別。
10.根據(jù)權(quán)利要求6至8中任一權(quán)利要求所述的裝置,其特征在于,所述獲取模塊,還用于根據(jù)所述待分類(lèi)網(wǎng)頁(yè)的網(wǎng)頁(yè)屬性,獲取所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值,所述網(wǎng)頁(yè)屬性至少包括網(wǎng)頁(yè)網(wǎng)址和二級(jí)導(dǎo)航; 所述分類(lèi)模塊,具體用于在所述獲取模塊獲取到的分類(lèi)值中選擇最大分類(lèi)值,并根據(jù)所述最大分類(lèi)值及所述獲取模塊獲取到的所述待分類(lèi)網(wǎng)頁(yè)對(duì)應(yīng)的屬性值對(duì)所述待分類(lèi)網(wǎng)頁(yè)的主題進(jìn)行分類(lèi)。
【文檔編號(hào)】G06F17/30GK103678310SQ201210319285
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2012年8月31日 優(yōu)先權(quán)日:2012年8月31日
【發(fā)明者】蔡兵 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1