本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法和系統(tǒng)。
背景技術(shù):
近年來互聯(lián)網(wǎng)金融網(wǎng)站如雨后春筍般的出現(xiàn),但是出現(xiàn)提現(xiàn)困難和跑路的互聯(lián)網(wǎng)金融網(wǎng)站的比例占到了整體數(shù)量的1/3。國家相關(guān)管理機(jī)構(gòu)也開始關(guān)注和出臺(tái)政策治理互聯(lián)網(wǎng)金融網(wǎng)站,特別是P2P網(wǎng)貸網(wǎng)站。因此,首先需要在廣泛的網(wǎng)絡(luò)環(huán)境中對(duì)網(wǎng)站進(jìn)行分類,即發(fā)現(xiàn)哪些網(wǎng)站是網(wǎng)貸網(wǎng)站。
在現(xiàn)有的網(wǎng)站分類方法中,主要通過提取網(wǎng)站的多維向量特征,建立空間向量模型,并通過計(jì)算空間向量余弦夾角的方式來對(duì)網(wǎng)站進(jìn)行分類。然而針對(duì)特定的行業(yè)網(wǎng)站(例如,互聯(lián)網(wǎng)網(wǎng)貸網(wǎng)站),這種分類方法主要存在以下不足:上述方法通過對(duì)網(wǎng)頁的全部?jī)?nèi)容建立空間向量模型,通用性較強(qiáng),針對(duì)性較弱,會(huì)存在較多的噪聲向量,導(dǎo)致判定不準(zhǔn)確;上述方法對(duì)相似網(wǎng)站的排除性較差,如網(wǎng)貸網(wǎng)站和金融咨詢網(wǎng)站之間容易出現(xiàn)判斷錯(cuò)誤;行業(yè)網(wǎng)站的頁面的布局、信息非常復(fù)雜,通過空間向量模型很難找全反例樣本,這就導(dǎo)致了對(duì)未知網(wǎng)站判定的不確定性;基于空間向量的判斷方式,存在統(tǒng)計(jì)概率性,相同的網(wǎng)站在不同的測(cè)試樣本集中,可能會(huì)出現(xiàn)不同的結(jié)果。
因此,針對(duì)特定的行業(yè)網(wǎng)站,需要一種針對(duì)性較強(qiáng)、準(zhǔn)確率高和召回率高的網(wǎng)站分類方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于解決現(xiàn)有的網(wǎng)站分類方法在對(duì)行業(yè)網(wǎng)站進(jìn)行分類時(shí)針對(duì)性較弱、準(zhǔn)確率低和召回率低的問題,提供一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法和系統(tǒng)以提高行業(yè)網(wǎng)站分類的針對(duì)性、準(zhǔn)確率和召回率。
一方面,本發(fā)明實(shí)施例提供一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法,包括以下步驟:
步驟S1:根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值;
步驟S2:提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;以及
步驟S3:將從所述未知網(wǎng)站提取的獨(dú)立詞與所述步驟S1中獲得的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分,并根據(jù)所述加權(quán)得分和預(yù)設(shè)閾值來生成判定結(jié)果。
優(yōu)選地,還包括:
步驟S4:對(duì)所述判定結(jié)果進(jìn)行人工審核,根據(jù)審核結(jié)果調(diào)整優(yōu)化所述獨(dú)立詞特征庫。
優(yōu)選地,所述步驟S1包括:
步驟S11:對(duì)所述已知網(wǎng)站樣本庫中的多個(gè)網(wǎng)站的網(wǎng)站首頁進(jìn)行分析,從獨(dú)立HTML標(biāo)簽、title標(biāo)簽、keyword標(biāo)簽和description標(biāo)簽中提取多個(gè)關(guān)鍵字;
步驟S12:排除所述多個(gè)關(guān)鍵字中對(duì)判定網(wǎng)站類別無用的干擾詞,得到所述多個(gè)獨(dú)立詞;
步驟S13:統(tǒng)計(jì)所述多個(gè)獨(dú)立詞的詞頻,并根據(jù)所述詞頻對(duì)所述多個(gè)獨(dú)立詞進(jìn)行排序;
步驟S14:設(shè)置所述多個(gè)獨(dú)立詞各自的獨(dú)立詞加權(quán)值,得到所述獨(dú)立詞特征庫。
優(yōu)選地,在所述步驟S14之后,所述步驟S1還包括:
步驟S15:對(duì)所述多個(gè)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,提取用于確定網(wǎng)站類別的正向獨(dú)立詞和用于排除相似類別網(wǎng)站的反向獨(dú)立詞,并對(duì)所述正向獨(dú)立詞和所述反向獨(dú)立詞進(jìn)行人工加權(quán)打分。
優(yōu)選地,在所述步驟S1和所述步驟S2之間還包括:
步驟S01:對(duì)步驟S1中得到的所述多個(gè)獨(dú)立詞進(jìn)行SVM樣本訓(xùn)練,形成SVM特征庫。
優(yōu)選地,在所述步驟S3包括:
步驟S31:將從所述未知網(wǎng)站提取的獨(dú)立詞與所述步驟S1中獲得的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分;
步驟S32:將從所述未知網(wǎng)站提取的獨(dú)立詞作為SVM的計(jì)算集輸入,根據(jù)所述SVM特征庫得到SVM分類結(jié)果;
步驟S33:根據(jù)所述SVM分類結(jié)果對(duì)所述加權(quán)得分進(jìn)行修正,并根據(jù)修正后的加權(quán)得分和所述預(yù)設(shè)閾值來生成判定結(jié)果。
相應(yīng)地,本發(fā)明還提供一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng),包括:
獨(dú)立詞特征庫建立模塊,用于根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值;
獨(dú)立詞提取模塊,用于提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;以及
判定模塊,用于將從所述未知網(wǎng)站提取的獨(dú)立詞與所述獨(dú)立詞特征庫建立模塊建立的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分,并根據(jù)所述加權(quán)得分和預(yù)設(shè)閾值來生成判定結(jié)果。
優(yōu)選地,還包括:
調(diào)整優(yōu)化模塊,用于對(duì)所述判定結(jié)果進(jìn)行人工審核,根據(jù)審核結(jié)果調(diào)整優(yōu)化所述獨(dú)立詞特征庫。
優(yōu)選地,所述獨(dú)立詞特征庫建立模塊包括:
關(guān)鍵字提取單元,用于對(duì)所述已知網(wǎng)站樣本庫中的多個(gè)網(wǎng)站的網(wǎng)站首頁進(jìn)行分析,從獨(dú)立HTML標(biāo)簽、title標(biāo)簽、keyword標(biāo)簽和description標(biāo)簽中提取多個(gè)關(guān)鍵字;
排除單元,用于排除所述多個(gè)關(guān)鍵字中對(duì)判定網(wǎng)站類別無用的干擾詞,得到所述多個(gè)獨(dú)立詞;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述多個(gè)獨(dú)立詞的詞頻,并根據(jù)所述詞頻對(duì)所述多個(gè)獨(dú)立詞進(jìn)行排序;
設(shè)置單元,用于設(shè)置所述多個(gè)獨(dú)立詞各自的獨(dú)立詞加權(quán)值,得到所述獨(dú)立詞特征庫;
判定效果審核單元,用于對(duì)所述多個(gè)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,提取用于確定網(wǎng)站類別的正向獨(dú)立詞和用于排除相似類別網(wǎng)站的反向獨(dú)立詞,并對(duì)所述正向獨(dú)立詞和所述反向獨(dú)立詞進(jìn)行人工加權(quán)打分。
優(yōu)選地,還包括:
SVM特征庫生成模塊,用于對(duì)所述獨(dú)立詞特征庫建立模塊中的所述多個(gè)獨(dú)立詞進(jìn)行SVM樣本訓(xùn)練,形成SVM特征庫;
所述判定模塊包括:
加權(quán)單元,用于將從所述未知網(wǎng)站提取的獨(dú)立詞與所述獨(dú)立詞特征庫建立模塊建立的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分;
SVM分類單元,用于將從所述未知網(wǎng)站提取的獨(dú)立詞作為SVM的計(jì)算集輸入,根據(jù)所述SVM特征庫得到SVM分類結(jié)果;
修正單元,用于根據(jù)所述SVM分類結(jié)果對(duì)所述加權(quán)得分進(jìn)行修正,并根據(jù)修正后的加權(quán)得分和所述預(yù)設(shè)閾值來生成判定結(jié)果。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:本發(fā)明提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法和系統(tǒng)簡(jiǎn)化了現(xiàn)有基于機(jī)器學(xué)習(xí)和空間向量分析對(duì)特定行業(yè)網(wǎng)站進(jìn)行分類判定的過程和方法,獨(dú)立詞的提取符合人的思考邏輯,將網(wǎng)頁關(guān)鍵特征進(jìn)行了抽象和加權(quán)評(píng)分,排除了空間向量分析方法中的干擾向量維度,將多維空間降低到了二維空間進(jìn)行分析判定,經(jīng)過人為對(duì)獨(dú)立詞判定結(jié)果進(jìn)行審核確認(rèn),不斷完善獨(dú)立詞特征的有效性,同時(shí)也大大提高了其判定的準(zhǔn)確率和召回率。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例一提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法的流程圖;
圖2是本發(fā)明實(shí)施例二提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法的流程圖;
圖3是本發(fā)明實(shí)施例三提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法的流程圖;
圖4是本發(fā)明一實(shí)施例提供的網(wǎng)貸網(wǎng)站首頁;
圖5是本發(fā)明另一實(shí)施例提供的網(wǎng)貸網(wǎng)站首頁;
圖6是本發(fā)明實(shí)施例四提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖;
圖7是本發(fā)明實(shí)施例五提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖;
圖8是本發(fā)明實(shí)施例六提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例一
本實(shí)施例提供了一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法。參見圖1,該基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法包括以下步驟:
步驟S1:根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值。
具體地,在本實(shí)施例中,通過對(duì)大量樣本網(wǎng)站的分析,我們發(fā)現(xiàn)人工判定網(wǎng)站是否為行業(yè)網(wǎng)站(例如,網(wǎng)貸網(wǎng)站)很容易,往往不需要看網(wǎng)頁的詳細(xì)內(nèi)容就可以做出判斷,支撐我們做出判斷的依據(jù)主要是網(wǎng)頁導(dǎo)航文本、板塊標(biāo)題、宣傳推廣標(biāo)題、動(dòng)作按鈕文本等信息,以及經(jīng)過源碼分析后的網(wǎng)頁title、keywords、description標(biāo)簽內(nèi)容。這些內(nèi)容里包含的顯著關(guān)鍵字(例如,“我要借款”、“我要貸款”、“年華收益率”等)可以作為判斷網(wǎng)站類別的依據(jù)的獨(dú)立詞。因此,步驟S1包括:
步驟S11:對(duì)所述已知網(wǎng)站樣本庫中的多個(gè)網(wǎng)站的網(wǎng)站首頁進(jìn)行分析,從獨(dú)立HTML標(biāo)簽、title標(biāo)簽、keyword標(biāo)簽和description標(biāo)簽中提取多個(gè)關(guān)鍵字;
具體地,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,將在獨(dú)立HTML標(biāo)簽中出現(xiàn)且文本長(zhǎng)度小于12的文本和title標(biāo)簽、keyword標(biāo)簽、description標(biāo)簽的文本內(nèi)容作為目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行分詞,得到的單詞作為多個(gè)關(guān)鍵字。
步驟S12:排除所述多個(gè)關(guān)鍵字中對(duì)判定網(wǎng)站類別無用的干擾詞,得到所述多個(gè)獨(dú)立詞;
具體地,通過步驟S11獲得的多個(gè)關(guān)鍵字中還包含了對(duì)判定網(wǎng)站類別無用的干擾詞,如“聯(lián)系我們”、“登錄/注冊(cè)”、“友情鏈接”、“首頁”等關(guān)鍵字都是干擾詞,因此,需要將干擾詞進(jìn)行排除。
步驟S13:統(tǒng)計(jì)所述多個(gè)獨(dú)立詞的詞頻,并根據(jù)所述詞頻對(duì)所述多個(gè)獨(dú)立詞進(jìn)行排序;
步驟S14:設(shè)置所述多個(gè)獨(dú)立詞各自的獨(dú)立詞加權(quán)值,得到所述獨(dú)立詞特征庫。
具體地,根據(jù)獨(dú)立詞對(duì)判斷網(wǎng)站類別的重要程度不同,設(shè)置獨(dú)立詞的獨(dú)立詞加權(quán)值。例如,將出現(xiàn)在title標(biāo)簽、keyword標(biāo)簽、description標(biāo)簽中的獨(dú)立詞的獨(dú)立詞加權(quán)值設(shè)置為最高級(jí)別,說明其對(duì)判斷網(wǎng)站類別起到最重要的作用;將出現(xiàn)在body中的獨(dú)立詞的獨(dú)立詞加權(quán)值設(shè)置為中等級(jí)別。
在上述步驟S11到步驟S14的特征提取階段,通過人工進(jìn)行網(wǎng)站分析、去噪,解決了通用的空間向量模型方法的不確定性問題,排除了噪聲向量干擾。
進(jìn)一步地,針對(duì)現(xiàn)有技術(shù)中相似網(wǎng)站的排除性較差的問題(例如,網(wǎng)貸網(wǎng)站和金融咨詢網(wǎng)站之間容易出現(xiàn)判斷錯(cuò)誤),在所述步驟S14之后,所述步驟S1還包括:
步驟S15:對(duì)所述多個(gè)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,提取用于確定網(wǎng)站類別的正向獨(dú)立詞和用于排除相似類別網(wǎng)站的反向獨(dú)立詞,并對(duì)所述正向獨(dú)立詞和所述反向獨(dú)立詞進(jìn)行人工加權(quán)打分。
例如,在判定網(wǎng)站是否為網(wǎng)貸網(wǎng)站時(shí),通過步驟S11-S14獲得了“我要借貸”、“年化收益率”、“金融資訊”、“網(wǎng)貸導(dǎo)航”等獨(dú)立詞,通過對(duì)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,發(fā)現(xiàn)“我要借貸”、“年化收益率”是用于重點(diǎn)判斷網(wǎng)站是否為網(wǎng)貸網(wǎng)站的獨(dú)立詞(即正向獨(dú)立詞),而“金融資訊”、“網(wǎng)貸導(dǎo)航”為用于排除資訊和導(dǎo)航類網(wǎng)站的獨(dú)立詞(即反向獨(dú)立詞),因此,需要對(duì)正向和負(fù)向獨(dú)立詞進(jìn)行人工加權(quán)打分,如“我要借貸”、“年化收益率”得分為10,而“金融資訊”、“網(wǎng)貸導(dǎo)航”得分為-10。
在上述步驟S15中,通過對(duì)多個(gè)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,進(jìn)一步提取了有助于判定網(wǎng)站類別的正向獨(dú)立詞和反向獨(dú)立詞。
步驟S2:提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;
具體地,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,將在獨(dú)立HTML標(biāo)簽中出現(xiàn)且文本長(zhǎng)度小于12的文本和title標(biāo)簽、keyword標(biāo)簽、description標(biāo)簽的文本內(nèi)容作為目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行分詞,得到的單詞作為該未知網(wǎng)站的獨(dú)立詞。
步驟S3:將從所述未知網(wǎng)站提取的獨(dú)立詞與所述步驟S1中獲得的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分,并根據(jù)所述加權(quán)得分和預(yù)設(shè)閾值來生成判定結(jié)果。
具體地,對(duì)步驟S2中提取的未知網(wǎng)站的獨(dú)立詞,與步驟S1中建立的獨(dú)立詞特征庫進(jìn)行關(guān)鍵詞匹配,匹配上后進(jìn)行加權(quán)得分,得出最終的獨(dú)立詞判定得分,并依據(jù)預(yù)設(shè)的閾值判定網(wǎng)站是否為要判定的行業(yè)網(wǎng)站。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法簡(jiǎn)化了現(xiàn)有基于機(jī)器學(xué)習(xí)和空間向量分析對(duì)特定行業(yè)網(wǎng)站進(jìn)行分類判定的過程和方法,獨(dú)立詞的提取符合人的思考邏輯,將網(wǎng)頁關(guān)鍵特征進(jìn)行了抽象和加權(quán)評(píng)分,排除了空間向量分析方法中的干擾向量維度,將多維空間降低到了二維空間進(jìn)行分析判定,同時(shí)也大大提高了其判定的準(zhǔn)確率和召回率。
實(shí)施例二
本實(shí)施例提供了一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法,與實(shí)施例一所述的方法的不同之處在于,本實(shí)施例提供的方法還包括根據(jù)判定結(jié)果調(diào)整優(yōu)化獨(dú)立詞特征庫的步驟。
參見圖2,該基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法包括以下步驟:
步驟S1:根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值。
具體地,通過提取網(wǎng)頁獨(dú)立詞、排除干擾獨(dú)立詞、統(tǒng)計(jì)獨(dú)立詞詞頻、設(shè)置獨(dú)立詞的重要程度加權(quán)以及對(duì)正向和負(fù)向獨(dú)立詞進(jìn)行人工加權(quán)打分等步驟形成獨(dú)立詞特征庫。
步驟S2:提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;
具體地,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,將在獨(dú)立HTML標(biāo)簽中出現(xiàn)且文本長(zhǎng)度小于12的文本和title標(biāo)簽、keyword標(biāo)簽、description標(biāo)簽的文本內(nèi)容作為目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行分詞,得到的單詞作為該未知網(wǎng)站的獨(dú)立詞。
步驟S3:將從所述未知網(wǎng)站提取的獨(dú)立詞與所述步驟S1中獲得的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分,并根據(jù)所述加權(quán)得分和預(yù)設(shè)閾值來生成判定結(jié)果。
具體地,對(duì)步驟S2中提取的未知網(wǎng)站的獨(dú)立詞,與步驟S1中建立的獨(dú)立詞特征庫進(jìn)行關(guān)鍵詞匹配,匹配上后進(jìn)行加權(quán)得分,得出最終的獨(dú)立詞判定得分,并依據(jù)預(yù)設(shè)的閾值判定網(wǎng)站是否為要判定的行業(yè)網(wǎng)站。
步驟S4:對(duì)所述判定結(jié)果進(jìn)行人工審核,根據(jù)審核結(jié)果調(diào)整優(yōu)化所述獨(dú)立詞特征庫。
具體地,根據(jù)實(shí)際的判定結(jié)果,對(duì)閾值和獨(dú)立詞進(jìn)行人工調(diào)整。人工對(duì)判定結(jié)果進(jìn)行審核,將審核為行業(yè)網(wǎng)站(例如,網(wǎng)貸網(wǎng)站)的網(wǎng)頁作為訓(xùn)練樣本,加到對(duì)應(yīng)的行業(yè)網(wǎng)站的總樣本庫,不斷加大正向樣本庫,并重新提取獨(dú)立詞和訓(xùn)練,使得獨(dú)立詞特征判定越來越準(zhǔn)確。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法分為獨(dú)立詞特征庫建立階段S1、未知網(wǎng)站獨(dú)立詞提取階段S2、未知網(wǎng)站獨(dú)立詞得分判定階段S3、以及獨(dú)立詞特征庫優(yōu)化調(diào)整階段S4四個(gè)階段,四個(gè)階段形成閉環(huán),最后一階段經(jīng)過人為對(duì)獨(dú)立詞判定結(jié)果進(jìn)行審核確認(rèn),不斷完善獨(dú)立詞特征的有效性,提高了判定的準(zhǔn)確率和召回率。
實(shí)施例三
本實(shí)施例提供了一種基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法,與實(shí)施例二所述的方法的不同之處在于,本實(shí)施例提供的方法與SVM(支持向量機(jī))分類算法進(jìn)行組合使用。
參見圖3,該基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法包括以下步驟:
步驟S1:根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值。
具體地,通過提取網(wǎng)頁獨(dú)立詞、排除干擾獨(dú)立詞、統(tǒng)計(jì)獨(dú)立詞詞頻、設(shè)置獨(dú)立詞的重要程度加權(quán)以及對(duì)正向和負(fù)向獨(dú)立詞進(jìn)行人工加權(quán)打分等步驟形成獨(dú)立詞特征庫。
步驟S01:對(duì)步驟S1中得到的所述多個(gè)獨(dú)立詞進(jìn)行SVM樣本訓(xùn)練,形成SVM特征庫。
步驟S2:提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;
具體地,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,將在獨(dú)立HTML標(biāo)簽中出現(xiàn)且文本長(zhǎng)度小于12的文本和title標(biāo)簽、keyword標(biāo)簽、description標(biāo)簽的文本內(nèi)容作為目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行分詞,得到的單詞作為該未知網(wǎng)站的獨(dú)立詞。
步驟S31:將從所述未知網(wǎng)站提取的獨(dú)立詞與所述步驟S1中獲得的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分;
步驟S32:將從所述未知網(wǎng)站提取的獨(dú)立詞作為SVM的計(jì)算集輸入,根據(jù)所述SVM特征庫得到SVM分類結(jié)果;
步驟S33:根據(jù)所述SVM分類結(jié)果對(duì)所述加權(quán)得分進(jìn)行修正,并根據(jù)修正后的加權(quán)得分和所述預(yù)設(shè)閾值來生成判定結(jié)果。
步驟S4:對(duì)所述判定結(jié)果進(jìn)行人工審核,根據(jù)審核結(jié)果調(diào)整優(yōu)化所述獨(dú)立詞特征庫。
具體地,根據(jù)實(shí)際的判定結(jié)果,對(duì)閾值和獨(dú)立詞進(jìn)行人工調(diào)整。人工對(duì)判定結(jié)果進(jìn)行審核,將審核為行業(yè)網(wǎng)站(例如,網(wǎng)貸網(wǎng)站)的網(wǎng)頁作為訓(xùn)練樣本,加到對(duì)應(yīng)的行業(yè)網(wǎng)站的總樣本庫,不斷加大正向樣本庫,并重新提取獨(dú)立詞和訓(xùn)練,使得獨(dú)立詞特征判定和SVM判定越來越準(zhǔn)確。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法通過與與SVM分類算法進(jìn)行組合使用,利用SVM判定結(jié)果來調(diào)整加權(quán)未知網(wǎng)頁獨(dú)立詞判定結(jié)果的加權(quán)得分,進(jìn)一步提高了判定的準(zhǔn)確率和召回率。在實(shí)際實(shí)施過程中,通過與SVM分類算法進(jìn)行組合使用,使得對(duì)網(wǎng)貸網(wǎng)站的判定準(zhǔn)確率和召回率由原有的76%和62%,提高到了96%和92%。
下面以網(wǎng)貸網(wǎng)站的判斷為例詳細(xì)闡述本發(fā)明提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法的具體流程:
第一步,對(duì)已知的網(wǎng)貸網(wǎng)站通過程序進(jìn)行獨(dú)立詞提取,提取的獨(dú)立詞包括導(dǎo)航網(wǎng)站上的導(dǎo)航鏈接文本、網(wǎng)頁正文中短語等;人工進(jìn)行獨(dú)立詞的初步篩選及獨(dú)立詞判定運(yùn)行效果的審核,主要提取導(dǎo)航內(nèi)和網(wǎng)貸相關(guān)的詞,最終提取獨(dú)立詞如圖4、圖5所示,如“我要投資”、“我要貸款”、“債券轉(zhuǎn)讓”,且這些詞出現(xiàn)在導(dǎo)航中,加權(quán)值可設(shè)置為重要;提取網(wǎng)頁正文中的“年華收益率”、“成交額”、“用戶量”,加權(quán)值設(shè)置為中等;最終得到用于判定網(wǎng)貸網(wǎng)站的獨(dú)立詞特征庫如表1所示。
表1獨(dú)立詞特征庫
第二步,對(duì)提取的獨(dú)立詞進(jìn)行SVM樣本訓(xùn)練,用于形成SVM特征庫。
第三步,對(duì)于互聯(lián)網(wǎng)未知網(wǎng)站,我們通過HTTP請(qǐng)求獲得網(wǎng)站首頁內(nèi)容,并存儲(chǔ)到本地,通過程序提取網(wǎng)頁的獨(dú)立詞信息。
第四步,對(duì)于未知網(wǎng)頁提取的獨(dú)立詞信息,通過與第一步得到的獨(dú)立詞特征庫進(jìn)行關(guān)鍵詞匹配,匹配到則以累加的方式加分,最終得到該網(wǎng)頁的獨(dú)立詞計(jì)算分值。同時(shí),將未知網(wǎng)頁提取的獨(dú)立詞信息作為SVM的計(jì)算集輸入,得到SVM分類結(jié)果:是網(wǎng)貸網(wǎng)站或不是網(wǎng)貸網(wǎng)站;再將SVM分類結(jié)果作為加權(quán)值對(duì)獨(dú)立詞計(jì)算得分進(jìn)行修正,如果SVM判定為網(wǎng)貸網(wǎng)站,則對(duì)獨(dú)立詞進(jìn)行3/2的加權(quán),如果SVM判定為不是網(wǎng)貸網(wǎng)站,則對(duì)獨(dú)立詞進(jìn)行1/2加權(quán)。
第五步,人工對(duì)判定結(jié)果進(jìn)行審核,審核為網(wǎng)貸網(wǎng)站的網(wǎng)頁,作為訓(xùn)練樣本,加到網(wǎng)貸網(wǎng)站樣本庫,不斷加大正向樣本庫,并重新提取獨(dú)立詞和訓(xùn)練,使得獨(dú)立詞特征和SVM判定越來越準(zhǔn)確。
實(shí)施例四
圖6是本發(fā)明實(shí)施例四提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖。如圖6所示,基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)包括:
獨(dú)立詞特征庫建立模塊610,用于根據(jù)已知網(wǎng)站樣本庫建立獨(dú)立詞特征庫,所述獨(dú)立詞特征庫包括用于判定網(wǎng)站類別的多個(gè)獨(dú)立詞和對(duì)應(yīng)的多個(gè)獨(dú)立詞加權(quán)值;
獨(dú)立詞提取模塊620,用于提取未知網(wǎng)站的網(wǎng)站首頁中的獨(dú)立詞;以及
判定模塊630,用于將從所述未知網(wǎng)站提取的獨(dú)立詞與所述獨(dú)立詞特征庫建立模塊建立的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分,并根據(jù)所述加權(quán)得分和預(yù)設(shè)閾值來生成判定結(jié)果。
具體地,在本實(shí)施例中,獨(dú)立詞特征庫建立模塊610包括:
關(guān)鍵字提取單元,用于對(duì)所述已知網(wǎng)站樣本庫中的多個(gè)網(wǎng)站的網(wǎng)站首頁進(jìn)行分析,從獨(dú)立HTML標(biāo)簽、title標(biāo)簽、keyword標(biāo)簽和description標(biāo)簽中提取多個(gè)關(guān)鍵字;
排除單元,用于排除所述多個(gè)關(guān)鍵字中對(duì)判定網(wǎng)站類別無用的干擾詞,得到所述多個(gè)獨(dú)立詞;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述多個(gè)獨(dú)立詞的詞頻,并根據(jù)所述詞頻對(duì)所述多個(gè)獨(dú)立詞進(jìn)行排序;
設(shè)置單元,用于設(shè)置所述多個(gè)獨(dú)立詞各自的獨(dú)立詞加權(quán)值,得到所述獨(dú)立詞特征庫;
判定效果審核單元,用于對(duì)所述多個(gè)獨(dú)立詞的判定運(yùn)行效果進(jìn)行人工審核,提取用于確定網(wǎng)站類別的正向獨(dú)立詞和用于排除相似類別網(wǎng)站的反向獨(dú)立詞,并對(duì)所述正向獨(dú)立詞和所述反向獨(dú)立詞進(jìn)行人工加權(quán)打分。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法簡(jiǎn)化了現(xiàn)有基于機(jī)器學(xué)習(xí)和空間向量分析對(duì)特定行業(yè)網(wǎng)站進(jìn)行分類判定的過程和方法,獨(dú)立詞的提取符合人的思考邏輯,將網(wǎng)頁關(guān)鍵特征進(jìn)行了抽象和加權(quán)評(píng)分,排除了空間向量分析方法中的干擾向量維度,將多維空間降低到了二維空間進(jìn)行分析判定,同時(shí)也大大提高了其判定的準(zhǔn)確率和召回率。
實(shí)施例五
圖7是本發(fā)明實(shí)施例五提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖。如圖7所示,與實(shí)施例四所述的系統(tǒng)的不同之處在于,本實(shí)施例提供的系統(tǒng)還包括:
調(diào)整優(yōu)化模塊640,用于對(duì)所述判定結(jié)果進(jìn)行人工審核,根據(jù)審核結(jié)果調(diào)整優(yōu)化所述獨(dú)立詞特征庫。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)經(jīng)過人為對(duì)獨(dú)立詞判定結(jié)果進(jìn)行審核確認(rèn),不斷完善獨(dú)立詞特征的有效性,提高了判定的準(zhǔn)確率和召回率。
實(shí)施例六
圖8是本發(fā)明實(shí)施例六提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)的原理圖。如圖8所示,與實(shí)施例五所述的系統(tǒng)的不同之處在于,本實(shí)施例提供的系統(tǒng)還包括:
SVM特征庫生成模塊650,用于對(duì)所述獨(dú)立詞特征庫建立模塊中的所述多個(gè)獨(dú)立詞進(jìn)行SVM樣本訓(xùn)練,形成SVM特征庫;
進(jìn)一步地,所述判定模塊630包括:
加權(quán)單元,用于將從所述未知網(wǎng)站提取的獨(dú)立詞與所述獨(dú)立詞特征庫建立模塊建立的所述獨(dú)立詞特征庫進(jìn)行匹配,計(jì)算加權(quán)得分;
SVM分類單元,用于將從所述未知網(wǎng)站提取的獨(dú)立詞作為SVM的計(jì)算集輸入,根據(jù)所述SVM特征庫得到SVM分類結(jié)果;
修正單元,用于根據(jù)所述SVM分類結(jié)果對(duì)所述加權(quán)得分進(jìn)行修正,并根據(jù)修正后的加權(quán)得分和所述預(yù)設(shè)閾值來生成判定結(jié)果。
本實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)通過與與SVM分類算法進(jìn)行組合使用,利用SVM判定結(jié)果來調(diào)整加權(quán)未知網(wǎng)頁獨(dú)立詞判定結(jié)果的加權(quán)得分,進(jìn)一步提高了判定的準(zhǔn)確率和召回率。
需要說明的是:上述實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)在實(shí)現(xiàn)基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類系統(tǒng)與用于基于網(wǎng)頁獨(dú)立詞的行業(yè)網(wǎng)站分類方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
以上所揭露的僅為本發(fā)明一種較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分流程,并依本發(fā)明權(quán)利要求所作的等同變化,仍屬于發(fā)明所涵蓋的范圍。