專利名稱:基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法
技術(shù)領(lǐng)域:
本發(fā)明是針對(duì)中文網(wǎng)頁(yè)關(guān)鍵詞頻度分析和基于關(guān)鍵詞頻度分析 的網(wǎng)頁(yè)分類方法的研究,主要研究如何通過技術(shù)手段對(duì)中文網(wǎng)頁(yè)的內(nèi) 容進(jìn)行過濾提取、分詞和網(wǎng)頁(yè)關(guān)鍵詞的頻度分析,并研究了如何通過 帶有權(quán)重的中文網(wǎng)頁(yè)關(guān)鍵詞對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法,涉及網(wǎng)頁(yè)自動(dòng)獲 取、中文網(wǎng)頁(yè)預(yù)處理、中文分詞及關(guān)鍵詞頻度分析、中文網(wǎng)頁(yè)模糊分 類等技術(shù)領(lǐng)域。
背景技術(shù):
隨著Internet技術(shù)和Web技術(shù)的高速發(fā)展,Internet上網(wǎng)頁(yè)的數(shù) 量正在不斷的增加。網(wǎng)絡(luò)信息的增加大大方便了人們獲取信息,但是 過大的信息量也給人們處理信息帶來(lái)了很多的困難。在這一背景下, 傳統(tǒng)靠人工的信息處理方式己經(jīng)無(wú)法適應(yīng)大量數(shù)據(jù)處理的要求。如何 在海量的信息中過濾掉用戶反感的信息,并將用戶感興趣的信息提取 出來(lái),實(shí)現(xiàn)信息的主動(dòng)推送,同時(shí)保證人們?cè)谛畔⑦x擇方面的個(gè)人隱 私權(quán)利,逐漸成為大家所關(guān)注的研究點(diǎn)。中文網(wǎng)頁(yè)種類繁多,通常包 含很多的"噪音"信息, 一個(gè)網(wǎng)頁(yè)甚至?xí)鄠€(gè)主題。獲取網(wǎng)頁(yè)中 的有效文本內(nèi)容,并對(duì)網(wǎng)頁(yè)的海量數(shù)據(jù)進(jìn)行自動(dòng)分類,是組織和管理 網(wǎng)絡(luò)資源的關(guān)鍵。因此對(duì)中文網(wǎng)頁(yè)的內(nèi)容進(jìn)行關(guān)鍵詞頻度的分析,并基于關(guān)鍵詞頻度的分析對(duì)中文網(wǎng)頁(yè)進(jìn)行分類就顯得非常必要。
針對(duì)中文網(wǎng)頁(yè)進(jìn)行關(guān)鍵詞頻度分析和網(wǎng)頁(yè)分類有一定的難度,主 要體現(xiàn)在
第一、中文網(wǎng)頁(yè)使用中文進(jìn)行編輯,不像英文單詞之間存在空 格,需要對(duì)中文進(jìn)行分詞處理,分詞的效果直接影響到 關(guān)鍵詞的分析和網(wǎng)頁(yè)分類的結(jié)果。 第二、中文網(wǎng)頁(yè)包含大量的"噪音",很多網(wǎng)頁(yè)的編寫沒有規(guī) 范,包含很多的廣告、注釋以及其他信息,需要對(duì)網(wǎng)頁(yè) 進(jìn)行預(yù)處理,進(jìn)化網(wǎng)頁(yè)內(nèi)容,提取用戶感興趣的信息。 第三、現(xiàn)今大部分對(duì)中文網(wǎng)頁(yè)分類的研究集中在通過對(duì)中文網(wǎng) 頁(yè)進(jìn)行特征選取和向量表示,利用KNN分類算法,對(duì)網(wǎng)頁(yè) 進(jìn)行分類,該方法實(shí)現(xiàn)網(wǎng)頁(yè)分類時(shí)間代價(jià)和復(fù)雜性高。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提出了能快速 掌握網(wǎng)頁(yè)的關(guān)鍵信息及其所屬類別,從而有利于高效的組織網(wǎng)絡(luò)上海 量信息的一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法。
本發(fā)明要解決的技術(shù)問題是通過以下技術(shù)方案來(lái)實(shí)現(xiàn)的, 一種基 于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法,其特點(diǎn)是根據(jù)所分析出的中 文網(wǎng)頁(yè)的關(guān)鍵詞,依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹 配,其步驟為
1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼,對(duì)所 獲取的源碼進(jìn),行過濾和去噪,提取該網(wǎng)頁(yè)中的中文文本;2) 利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作,得到中文 網(wǎng)頁(yè)的分詞后文本;3) 通過關(guān)鍵詞頻度分析器,對(duì)該中文網(wǎng)頁(yè)的分詞后文本主要內(nèi) 容的關(guān)鍵詞進(jìn)行提取,并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序;4) 初始化數(shù)據(jù)表;該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所 對(duì)應(yīng)的類別,'^中初始類別依據(jù)中圖分類法得到,同時(shí)依據(jù) 關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè),在 查找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算, 得到同訓(xùn)練集中最相似的類別作為需要査找的類別;關(guān)鍵詞 按照前一步驟所得出的權(quán)重進(jìn)行排序,錄入至數(shù)據(jù)表;5) 按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行査 找;6) 判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別,如果分類 主題詞表中存在匹配的關(guān)鍵詞和類別,則轉(zhuǎn)入下一步驟7); 如果分類主題詞表中不存在該關(guān)鍵詞,則轉(zhuǎn)到上一步驟5);7) 將每個(gè)關(guān)鍵詞查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中;8) 對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì),分析出對(duì)該中文網(wǎng)頁(yè)隸屬率最高的不少于3個(gè)類別;9) 保存并輸出分類結(jié)果。本發(fā)明要解決的技術(shù)問題還可以通過以下技術(shù)方案來(lái)進(jìn)一步實(shí) 現(xiàn),特征在于提取網(wǎng)頁(yè)中的中文文本的方法在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè) 的類型進(jìn)行判斷,利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾,并提取出網(wǎng)頁(yè)的中文文本,該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹;(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比,確定該網(wǎng)頁(yè)的類型,網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種;(C)判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè),如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步 驟d);如果不是主題型網(wǎng)頁(yè),則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算,提取出網(wǎng)頁(yè)主題內(nèi)容 塊;(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行 過濾;(f) 提取網(wǎng)頁(yè)的中文文本; 本發(fā)明基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法主要包含網(wǎng)頁(yè)中文提取部分、中文分詞及關(guān)鍵詞頻度分析部分和中文網(wǎng)頁(yè)分類模糊匹 配部分。其中網(wǎng)頁(yè)中文提取部分涉及到基于內(nèi)容規(guī)則的網(wǎng)頁(yè)中文提取 方法。通過首先獲取到網(wǎng)頁(yè)的HTML源碼,對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理。通過測(cè) 試和分析,發(fā)現(xiàn)網(wǎng)頁(yè)中包括各種標(biāo)簽、腳本語(yǔ)言代碼、廣告及圖片鏈 接、設(shè)計(jì)人員注釋、函數(shù)聲明以及版權(quán)信息等冗余的信息。與主題無(wú) 關(guān)的噪音信息會(huì)對(duì)網(wǎng)頁(yè)正文內(nèi)容的提取的速度和精度造成很大影響, 有必要進(jìn)行去除。在提取出網(wǎng)頁(yè)的標(biāo)簽樹以后,我們通過閾值對(duì)比的 方法判斷出網(wǎng)頁(yè)的類型,當(dāng)是主題型網(wǎng)頁(yè)的時(shí)候我們采用一種基于標(biāo) 記的正則表達(dá)式匹配過濾器來(lái)過濾掉網(wǎng)頁(yè)中的非主題信息。通過幾層 的過濾器過濾之后,再提取出網(wǎng)頁(yè)中的中文文本信息。接著通過分詞器和關(guān)鍵詞頻度分析器來(lái)將所提取的中文文本信息進(jìn)行分詞,通過該 詞在文本中的權(quán)重,得到按權(quán)重排名的關(guān)鍵詞排序,至此表達(dá)該網(wǎng)頁(yè) 主題的關(guān)鍵詞已經(jīng)分析出來(lái)。之后,將所得出的關(guān)鍵詞排序結(jié)果和我 們的分類主題詞庫(kù)進(jìn)行匹配,存入一張由該網(wǎng)頁(yè)關(guān)鍵詞和所屬類別構(gòu) 成的數(shù)據(jù)表中,通過網(wǎng)頁(yè)模糊分類算法,得到該網(wǎng)頁(yè)關(guān)鍵詞所屬類別 的類別排名,取其中前幾位,進(jìn)行隸屬率的計(jì)算,最終可以得出該網(wǎng) 頁(yè)的所屬類別的模糊匹配結(jié)果?;陉P(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法能快速掌握網(wǎng)頁(yè)的關(guān) 鍵信息及其所屬類別,從而有利于高效的組織網(wǎng)絡(luò)上海量信息,具有 廣泛的意義和應(yīng)用價(jià)值。主要可以應(yīng)用在互聯(lián)網(wǎng)用戶興趣度分析; 搜索引擎目錄更新;Web內(nèi)容挖掘;在線文檔管理;數(shù)字圖書館建設(shè)。
具體實(shí)施方式
一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法,是根據(jù)所分析出 的中文網(wǎng)頁(yè)的關(guān)鍵詞,'依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊 匹配,其步驟為1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼,對(duì)所 獲取的源碼進(jìn)行過濾和去噪,提取該網(wǎng)頁(yè)中的中文文本; 目的是實(shí)現(xiàn)對(duì)各類編碼的中文網(wǎng)頁(yè)進(jìn)行預(yù)處理,去除與主題 無(wú)關(guān)的噪音信息,包括各種標(biāo)簽、腳本語(yǔ)言代碼、廣告及圖 片鏈接、設(shè)計(jì)人員注釋、函數(shù)聲明以及版權(quán)信息等冗余的信 息。與主題無(wú)關(guān)的噪音信息會(huì)對(duì)網(wǎng)頁(yè)正文內(nèi)容的提取的速度 和精度造成很大影響,有必要進(jìn)行去除。2) 利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作,得到中文 網(wǎng)頁(yè)的分詞后文本;3) 通過關(guān)鍵詞頻度分析器,對(duì)該中文網(wǎng)頁(yè)分詞后文本的主要內(nèi) 容的關(guān)鍵詞進(jìn)^ff提取,并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序;4) 初始化數(shù)據(jù)表該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所對(duì)應(yīng)的類別,其中初始類別依據(jù)中圖分類法得到,同時(shí)依據(jù) 關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè),在 査找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算,得到同訓(xùn)練集中最相似的類別作為需要查找的類別;關(guān)鍵詞 按照前一步驟所得出的權(quán)重進(jìn)行排序,錄入至數(shù)據(jù)表;為了 提高效率, 一般取關(guān)鍵詞排序的前項(xiàng)100項(xiàng)就夠了,大于100 項(xiàng)取100項(xiàng)作為上限值,小于100項(xiàng)則按原關(guān)鍵詞數(shù)目錄入;5) 按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行查 找;6) 判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別,如果分類 主題詞表中存在匹配的關(guān)鍵詞和類別,則轉(zhuǎn)入下一步驟7); 如果分類主題詞表中不存在該關(guān)鍵詞,則轉(zhuǎn)到上一步驟5);7) 將每個(gè)關(guān)鍵訶查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中;8) 對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì),分析出對(duì)該中文網(wǎng)頁(yè)隸屬 率最高的不少于3個(gè)類別;9) 保存并輸出分類結(jié)果?;趦?nèi)容規(guī)則的提取網(wǎng)頁(yè)中的中文文本的方法,在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè)的類型進(jìn)行判斷,利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過 濾,并提取出網(wǎng)頁(yè)的中文文本,該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹;(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比,確定該網(wǎng)頁(yè)的類型,網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種;(C)判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè),如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步 驟d);如果不是主題型網(wǎng)頁(yè),則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算,提取出網(wǎng)頁(yè)主題內(nèi)容 塊;(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行 過濾;(f) 提取網(wǎng)頁(yè)的中文文本; 首先數(shù)據(jù)采集層功能該層面提供根據(jù)用戶所輸入的URL獲取中文網(wǎng)頁(yè)的HTML 源碼,對(duì)所獲取的源^進(jìn)行過濾和去噪,以及提取該網(wǎng)頁(yè)中的中文字 符的技術(shù)。目的是實(shí)現(xiàn)對(duì)各類編碼的中文網(wǎng)頁(yè)進(jìn)行預(yù)處理,并提取相 應(yīng)的中文文本。接口 該層面與上一層的接口為通過流讀寫得到的中文文本流, 為上一層提供輸入數(shù)據(jù)。該層主要包括基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法中的一 個(gè)部分網(wǎng)頁(yè)過濾以及中文提取部分。 其次數(shù)業(yè)務(wù)邏輯層.功能該層面提供對(duì)中文文本的分詞和根據(jù)分詞結(jié)果進(jìn)行關(guān)鍵詞 分析的工作。目的是對(duì)中文網(wǎng)頁(yè)的中文文本內(nèi)容進(jìn)行分詞,并依照相 應(yīng)算法對(duì)分詞結(jié)果進(jìn)行關(guān)鍵詞頻度的分析。接口該層面與上一層的接口為中文網(wǎng)頁(yè)按照頻度排序的關(guān)鍵詞 表,通過該表進(jìn)一步實(shí)現(xiàn)中文網(wǎng)頁(yè)分類模糊匹配。該層主要包括基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法中的兩 個(gè)部分中文分詞及關(guān)鍵詞頻度分析部分和中文網(wǎng)頁(yè)分類模糊匹配部 分。最后表示層該層面主要提供用戶的輸入和各個(gè)部分結(jié)果的反饋。 根據(jù)本發(fā)明設(shè)計(jì)的關(guān)鍵詞頻度分析中文網(wǎng)頁(yè)分類系統(tǒng)在項(xiàng)目中得到了具體的驗(yàn)證。系統(tǒng)使用VS2005進(jìn)行了前臺(tái)的開發(fā),SQL Server2005數(shù)據(jù)庫(kù)進(jìn)行后臺(tái)協(xié)作,利用Ctt語(yǔ)言實(shí)現(xiàn)各項(xiàng)功能。用戶 在系統(tǒng)首頁(yè)面輸入相應(yīng)網(wǎng)址的URL,按步驟操作即可分別得到該網(wǎng)頁(yè) 的HTML源碼,所提取的網(wǎng)頁(yè)中文文本,該網(wǎng)頁(yè)的關(guān)鍵詞按頻度排序 結(jié)果以及該網(wǎng)頁(yè)的分類結(jié)果。系統(tǒng)所采用的分類主題詞庫(kù)是以《國(guó)家 自然科學(xué)基金申請(qǐng)項(xiàng)目分類目錄及代碼》為框架,依照現(xiàn)有學(xué)科術(shù)語(yǔ) 及常用語(yǔ)進(jìn)行擴(kuò)充得到的。在系統(tǒng)的測(cè)試網(wǎng)頁(yè)達(dá)到800篇的時(shí)候,歸 類準(zhǔn)確率封閉測(cè)試為71.2%,具有實(shí)際的應(yīng)用價(jià)值。
權(quán)利要求
1、一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法,其特征在于根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞,依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配,其步驟為1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼,對(duì)所獲取的源碼進(jìn)行過濾和去噪,提取該網(wǎng)頁(yè)中的中文文本;2)利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作,得到中文網(wǎng)頁(yè)的分詞后文本;3)通過關(guān)鍵詞頻度分析器,對(duì)該中文網(wǎng)頁(yè)的分詞后文本主要內(nèi)容的關(guān)鍵詞進(jìn)行提取,并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序;4)初始化數(shù)據(jù)表;該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所對(duì)應(yīng)的類別,其中初始類別依據(jù)中圖分類法得到,同時(shí)依據(jù)關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè),在查找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算,得到同訓(xùn)練集中最相似的類別作為需要查找的類別;關(guān)鍵詞按照前一步驟所得出的權(quán)重進(jìn)行排序,錄入至數(shù)據(jù)表;5)按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行查找;6)判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別,如果分類主題詞表中存在匹配的關(guān)鍵詞和類別,則轉(zhuǎn)入下一步驟7);如果分類主題詞表中不存在該關(guān)鍵詞,則轉(zhuǎn)到上一步驟5);7)將每個(gè)關(guān)鍵詞查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中;8)對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì),分析出對(duì)該中文網(wǎng)頁(yè)隸屬率最高的不少于3個(gè)類別;9)保存并輸出分類結(jié)果。
2、根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法, 其特征在于提取網(wǎng)頁(yè)中的中文文本的方法在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè) 的類型進(jìn)行判斷,利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾,并提取出網(wǎng)頁(yè)的中文文本,該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹;(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比,確定該網(wǎng)頁(yè)的類型,網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種;(c) 判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè),如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步驟d);如果不是主題型網(wǎng)頁(yè),則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算,提取出網(wǎng)頁(yè)主題內(nèi)容塊;(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行 過濾;(f) 提取網(wǎng)頁(yè)的中文文本。
全文摘要
一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法,是根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞,依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配,通過首先獲取到網(wǎng)頁(yè)的HTML源碼,對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理。通過測(cè)試和分析,利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾,并提取出網(wǎng)頁(yè)的中文文本,接著通過分詞器和關(guān)鍵詞頻度分析器來(lái)將所提取的中文文本信息進(jìn)行分詞,通過該詞在文本中的權(quán)重排序,通過網(wǎng)頁(yè)模糊分類算法,得到該網(wǎng)頁(yè)關(guān)鍵詞所屬類別的類別排名,取其中前幾位,進(jìn)行隸屬率的計(jì)算,得出該網(wǎng)頁(yè)的所屬類別的模糊匹配結(jié)果。有利于高效的組織網(wǎng)絡(luò)上海量信息,用于互聯(lián)網(wǎng)用戶興趣度分析;搜索引擎目錄更新;Web內(nèi)容挖掘;在線文檔管理;數(shù)字圖書館建設(shè)。
文檔編號(hào)G06F17/30GK101593200SQ20091003162
公開日2009年12月2日 申請(qǐng)日期2009年6月19日 優(yōu)先權(quán)日2009年6月19日
發(fā)明者源 馮, 盧艷宏, 壟成龍, 明 掌, 瑞 楊, 攀 王 申請(qǐng)人:淮海工學(xué)院