一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法
【專利摘要】本發(fā)明公開(kāi)的基于貪心策略和啟發(fā)式算法搜索候選類別的方法,屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,用以于大規(guī)模層次分類問(wèn)題中搜索出包含待分類文檔真實(shí)類別的候選類別,它采用評(píng)價(jià)指標(biāo)Vk對(duì)搜索出的候選類別進(jìn)行量化評(píng)價(jià),且采用貪心策略和啟發(fā)式算法得出最大的評(píng)價(jià)指標(biāo)Vk值,并求出具有最大Vk值的特征權(quán)重矩陣G,進(jìn)而,準(zhǔn)確地搜索出候選類別,且經(jīng)驗(yàn)證本發(fā)明提供的基于貪心策略和啟發(fā)式算法搜索候選類別的方法搜索的候選類別集合較已有方法在準(zhǔn)確率上提高了大約7.5%。
【專利說(shuō)明】一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法。
【背景技術(shù)】
[0002]以互聯(lián)網(wǎng)為代表的信息革命極大改變了人們的生活、生產(chǎn)方式,社會(huì)對(duì)網(wǎng)絡(luò)信息系統(tǒng)的依賴也日益增強(qiáng)。然而,互聯(lián)網(wǎng)的自由性、開(kāi)放性、迅捷性以及低廉的成本和高額的利潤(rùn)同時(shí)也使其成為了有害信息發(fā)育繁殖的沃土。各種令人不安的信息如湍急暗流隱藏在互聯(lián)網(wǎng)信息大潮下,包括色情、邪教、賭博、毒品、虛假新聞、宣揚(yáng)暴力在內(nèi)的各種有害信息充斥于互聯(lián)網(wǎng)上。因此,對(duì)網(wǎng)絡(luò)和信息的安全管理與控制尤為關(guān)鍵。
[0003]基于互聯(lián)網(wǎng)分類目錄的網(wǎng)絡(luò)訪問(wèn)控制是網(wǎng)絡(luò)安全管理的一種重要技術(shù)手段,通過(guò)建立全面、精確的互聯(lián)網(wǎng)分類目錄,可以實(shí)現(xiàn)快速、精細(xì)的網(wǎng)絡(luò)訪問(wèn)控制?;ヂ?lián)網(wǎng)分類目錄按照一個(gè)概念或主題類別層次將海量網(wǎng)頁(yè)信息組織為網(wǎng)絡(luò)資源分類目錄,以更好地搜索、訪問(wèn)和管理這些網(wǎng)絡(luò)資源,例如開(kāi)放目錄專案(Open Directory Project,簡(jiǎn)稱ODP目錄)、雅虎目錄(Yahoo !Directory)等。要自動(dòng)構(gòu)建網(wǎng)絡(luò)資源目錄,就需要實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上未知類別信息的分類,這里的信息類別一般被組織為一個(gè)層次式結(jié)構(gòu),典型的是一棵樹(shù)(tree)或者有向無(wú)環(huán)圖(Directed Acyclic Graph),這種類別層次一般規(guī)模巨大,其類別數(shù)目可以達(dá)到數(shù)千、甚至數(shù)萬(wàn)之多。面向網(wǎng)頁(yè)的大規(guī)模層次分類技術(shù)(large scale hierarchicalclassification)就是研究如何按照這樣一個(gè)規(guī)模巨大的類別層次對(duì)網(wǎng)頁(yè)進(jìn)行準(zhǔn)確分類,因此,大規(guī)模層次分類技術(shù)是構(gòu)建互聯(lián)網(wǎng)分類目錄的基礎(chǔ),是構(gòu)建健康、和諧的互聯(lián)網(wǎng)環(huán)境的重要技術(shù)手段,同時(shí)也是很多網(wǎng)絡(luò)應(yīng)用的基礎(chǔ),包括綠色上網(wǎng)、網(wǎng)絡(luò)信譽(yù)管理、安全過(guò)濾 坐寸ο
[0004]類別層次規(guī)模巨大是大規(guī)模層次分類技術(shù)面臨的一個(gè)主要挑戰(zhàn),大規(guī)模層次分類問(wèn)題求解方法的不同主要體現(xiàn)在對(duì)這一挑戰(zhàn)性問(wèn)題的處理策略上,目前有三種處理策略:全局處理策略(overall-conquer)、分而治之的策略(divide-and-conquer)和化繁為簡(jiǎn)的策略(reduce-and-conquer)。整體處理策略將所有類別作為一個(gè)整體,在整個(gè)數(shù)據(jù)集上進(jìn)行分類的學(xué)習(xí),然后對(duì)待分類文檔進(jìn)行分類。分而治之策略按照類別層次將一個(gè)大規(guī)模的全局分類問(wèn)題分解為一個(gè)個(gè)小規(guī)模的局部分類問(wèn)題,然后分別進(jìn)行分類的學(xué)習(xí),對(duì)待分類文檔進(jìn)行自上而下的分類。化繁為簡(jiǎn)的策略通過(guò)搜索類別層次中所有與待分類文檔相關(guān)的類別,然后在所有候選類別上進(jìn)行分類的學(xué)習(xí)和預(yù)測(cè),將一個(gè)大規(guī)模的分類問(wèn)題降低為一個(gè)小規(guī)模的分類問(wèn)題。
[0005]采用化繁為簡(jiǎn)策略的分類方法:首先根據(jù)待分類文檔搜索候選類別,然后根據(jù)候選類別的樣本訓(xùn)練分類器并對(duì)待分類文檔進(jìn)行分類,因此,這種方法又被稱為兩階段分類方法,其核心思想是通過(guò)減小分類器學(xué)習(xí)的類別數(shù)目以提高分類準(zhǔn)確率。兩階段方法基于這樣一個(gè)假設(shè):在一棵大規(guī)模類別層次樹(shù)中,給定一個(gè)文檔,其相關(guān)類別數(shù)量遠(yuǎn)少于不相關(guān)類別。兩階段分類方法的優(yōu)點(diǎn)是通過(guò)候選搜索有效減小了數(shù)據(jù)規(guī)模,因此可以靈活的選擇分類方法和分類器,分類準(zhǔn)確率比較高,因此在大規(guī)模層次分類問(wèn)題中應(yīng)用的較為廣泛。但是這種優(yōu)點(diǎn)是建立在候選類別搜索正確的前提之上的,因?yàn)槠渲械姆诸愐蕾囉诤蜻x搜索的準(zhǔn)確性,要確保分類正確,就應(yīng)當(dāng)使計(jì)算出來(lái)的候選類別集合包含待分類文檔的真實(shí)類別,因此,候選類別搜索是大規(guī)模層次分類中的一項(xiàng)關(guān)鍵技術(shù),然而已有的兩階段分類方法并未對(duì)候選搜索方法進(jìn)行深入研究。
【發(fā)明內(nèi)容】
[0006]針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明旨在提供一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法,用以于大規(guī)模層次分類問(wèn)題中搜索出包含待分類文檔真實(shí)類別的候選類另IJ,它采用評(píng)價(jià)指標(biāo)Vk對(duì)搜索出的候選類別進(jìn)行量化評(píng)價(jià),且采用貪心策略和啟發(fā)式算法得出最大的評(píng)價(jià)指標(biāo)Vk值,進(jìn)而,準(zhǔn)確地搜索出候選類別。
[0007]本發(fā)明提供的一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法,用以從測(cè)試文檔中搜索出候選類別,其包括以下步驟:
[0008]步驟SOl、輸入已知信息:提供樣本集合I = ((I1, d2,...,dn},特征集合F ={fi, f2,...fm},類別集合 L = (I1, I2,…IrI ;
[0009]步驟S02、初始化評(píng)價(jià)指標(biāo)Vk及特征權(quán)重矩陣G:采用詞頻向量初始化類別的特征權(quán)重矩陣G,通過(guò)統(tǒng)計(jì)每個(gè)詞在同一類別Ii所有文檔中的出現(xiàn)次數(shù)得到該類別的詞頻向量,從而,為每個(gè)類別Ii建立一個(gè)詞頻向量Wi, Wij為特征fj關(guān)于類別Ii的權(quán)重,并對(duì)詞頻向
量進(jìn)行標(biāo)準(zhǔn)化,使得每個(gè)詞頻向量Wi滿足
【權(quán)利要求】
1.一種基于貪心策略和啟發(fā)式算法搜索候選類別的方法,用以從測(cè)試文檔中搜索出候選類別,其特征在于,其包括以下步驟: 步驟SOl、輸入已知信息:提供樣本集合I = ((I1, d2,..., dn},特征集合F ={fi, f2,...fm},類別集合
【文檔編號(hào)】G06F17/30GK103488707SQ201310405219
【公開(kāi)日】2014年1月1日 申請(qǐng)日期:2013年9月6日 優(yōu)先權(quán)日:2013年9月6日
【發(fā)明者】何力, 賈焰, 楊樹(shù)強(qiáng), 周斌, 韓偉紅, 李愛(ài)平, 韓毅, 李莎莎, 丁兆云 申請(qǐng)人:中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)