基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法

文檔序號(hào)：6330642閱讀：311來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法
技術(shù)領(lǐng)域：
本發(fā)明是針對(duì)中文網(wǎng)頁(yè)關(guān)鍵詞頻度分析和基于關(guān)鍵詞頻度分析的網(wǎng)頁(yè)分類方法的研究，主要研究如何通過技術(shù)手段對(duì)中文網(wǎng)頁(yè)的內(nèi) 容進(jìn)行過濾提取、分詞和網(wǎng)頁(yè)關(guān)鍵詞的頻度分析，并研究了如何通過帶有權(quán)重的中文網(wǎng)頁(yè)關(guān)鍵詞對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法，涉及網(wǎng)頁(yè)自動(dòng)獲取、中文網(wǎng)頁(yè)預(yù)處理、中文分詞及關(guān)鍵詞頻度分析、中文網(wǎng)頁(yè)模糊分類等技術(shù)領(lǐng)域。
背景技術(shù)：
隨著Internet技術(shù)和Web技術(shù)的高速發(fā)展，Internet上網(wǎng)頁(yè)的數(shù) 量正在不斷的增加。網(wǎng)絡(luò)信息的增加大大方便了人們獲取信息，但是過大的信息量也給人們處理信息帶來(lái)了很多的困難。在這一背景下，傳統(tǒng)靠人工的信息處理方式己經(jīng)無(wú)法適應(yīng)大量數(shù)據(jù)處理的要求。如何在海量的信息中過濾掉用戶反感的信息，并將用戶感興趣的信息提取出來(lái)，實(shí)現(xiàn)信息的主動(dòng)推送，同時(shí)保證人們?cè)谛畔⑦x擇方面的個(gè)人隱私權(quán)利，逐漸成為大家所關(guān)注的研究點(diǎn)。中文網(wǎng)頁(yè)種類繁多，通常包含很多的"噪音"信息，一個(gè)網(wǎng)頁(yè)甚至?xí)鄠€(gè)主題。獲取網(wǎng)頁(yè)中的有效文本內(nèi)容，并對(duì)網(wǎng)頁(yè)的海量數(shù)據(jù)進(jìn)行自動(dòng)分類，是組織和管理網(wǎng)絡(luò)資源的關(guān)鍵。因此對(duì)中文網(wǎng)頁(yè)的內(nèi)容進(jìn)行關(guān)鍵詞頻度的分析，并基于關(guān)鍵詞頻度的分析對(duì)中文網(wǎng)頁(yè)進(jìn)行分類就顯得非常必要。
針對(duì)中文網(wǎng)頁(yè)進(jìn)行關(guān)鍵詞頻度分析和網(wǎng)頁(yè)分類有一定的難度，主要體現(xiàn)在
第一、中文網(wǎng)頁(yè)使用中文進(jìn)行編輯，不像英文單詞之間存在空格，需要對(duì)中文進(jìn)行分詞處理，分詞的效果直接影響到關(guān)鍵詞的分析和網(wǎng)頁(yè)分類的結(jié)果。第二、中文網(wǎng)頁(yè)包含大量的"噪音"，很多網(wǎng)頁(yè)的編寫沒有規(guī) 范，包含很多的廣告、注釋以及其他信息，需要對(duì)網(wǎng)頁(yè) 進(jìn)行預(yù)處理，進(jìn)化網(wǎng)頁(yè)內(nèi)容，提取用戶感興趣的信息。第三、現(xiàn)今大部分對(duì)中文網(wǎng)頁(yè)分類的研究集中在通過對(duì)中文網(wǎng) 頁(yè)進(jìn)行特征選取和向量表示，利用KNN分類算法，對(duì)網(wǎng)頁(yè) 進(jìn)行分類，該方法實(shí)現(xiàn)網(wǎng)頁(yè)分類時(shí)間代價(jià)和復(fù)雜性高。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足，提出了能快速掌握網(wǎng)頁(yè)的關(guān)鍵信息及其所屬類別，從而有利于高效的組織網(wǎng)絡(luò)上海量信息的一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法。
本發(fā)明要解決的技術(shù)問題是通過以下技術(shù)方案來(lái)實(shí)現(xiàn)的，一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法，其特點(diǎn)是根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞，依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配，其步驟為
1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼，對(duì)所獲取的源碼進(jìn),行過濾和去噪，提取該網(wǎng)頁(yè)中的中文文本；2) 利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作，得到中文網(wǎng)頁(yè)的分詞后文本；3) 通過關(guān)鍵詞頻度分析器，對(duì)該中文網(wǎng)頁(yè)的分詞后文本主要內(nèi) 容的關(guān)鍵詞進(jìn)行提取，并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序;4) 初始化數(shù)據(jù)表；該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所對(duì)應(yīng)的類別，'^中初始類別依據(jù)中圖分類法得到，同時(shí)依據(jù) 關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè)，在查找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算，得到同訓(xùn)練集中最相似的類別作為需要査找的類別；關(guān)鍵詞按照前一步驟所得出的權(quán)重進(jìn)行排序，錄入至數(shù)據(jù)表；5) 按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行査找；6) 判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別，如果分類主題詞表中存在匹配的關(guān)鍵詞和類別，則轉(zhuǎn)入下一步驟7); 如果分類主題詞表中不存在該關(guān)鍵詞，則轉(zhuǎn)到上一步驟5);7) 將每個(gè)關(guān)鍵詞查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中；8) 對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì)，分析出對(duì)該中文網(wǎng)頁(yè)隸屬率最高的不少于3個(gè)類別；9) 保存并輸出分類結(jié)果。本發(fā)明要解決的技術(shù)問題還可以通過以下技術(shù)方案來(lái)進(jìn)一步實(shí) 現(xiàn)，特征在于提取網(wǎng)頁(yè)中的中文文本的方法在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè) 的類型進(jìn)行判斷，利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾，并提取出網(wǎng)頁(yè)的中文文本，該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹；(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比，確定該網(wǎng)頁(yè)的類型，網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種；(C)判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè)，如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步驟d);如果不是主題型網(wǎng)頁(yè)，則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算，提取出網(wǎng)頁(yè)主題內(nèi)容塊；(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行過濾；(f) 提取網(wǎng)頁(yè)的中文文本；本發(fā)明基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法主要包含網(wǎng)頁(yè)中文提取部分、中文分詞及關(guān)鍵詞頻度分析部分和中文網(wǎng)頁(yè)分類模糊匹配部分。其中網(wǎng)頁(yè)中文提取部分涉及到基于內(nèi)容規(guī)則的網(wǎng)頁(yè)中文提取方法。通過首先獲取到網(wǎng)頁(yè)的HTML源碼，對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理。通過測(cè) 試和分析，發(fā)現(xiàn)網(wǎng)頁(yè)中包括各種標(biāo)簽、腳本語(yǔ)言代碼、廣告及圖片鏈接、設(shè)計(jì)人員注釋、函數(shù)聲明以及版權(quán)信息等冗余的信息。與主題無(wú) 關(guān)的噪音信息會(huì)對(duì)網(wǎng)頁(yè)正文內(nèi)容的提取的速度和精度造成很大影響，有必要進(jìn)行去除。在提取出網(wǎng)頁(yè)的標(biāo)簽樹以后，我們通過閾值對(duì)比的方法判斷出網(wǎng)頁(yè)的類型，當(dāng)是主題型網(wǎng)頁(yè)的時(shí)候我們采用一種基于標(biāo) 記的正則表達(dá)式匹配過濾器來(lái)過濾掉網(wǎng)頁(yè)中的非主題信息。通過幾層的過濾器過濾之后，再提取出網(wǎng)頁(yè)中的中文文本信息。接著通過分詞器和關(guān)鍵詞頻度分析器來(lái)將所提取的中文文本信息進(jìn)行分詞，通過該詞在文本中的權(quán)重，得到按權(quán)重排名的關(guān)鍵詞排序，至此表達(dá)該網(wǎng)頁(yè) 主題的關(guān)鍵詞已經(jīng)分析出來(lái)。之后，將所得出的關(guān)鍵詞排序結(jié)果和我們的分類主題詞庫(kù)進(jìn)行匹配，存入一張由該網(wǎng)頁(yè)關(guān)鍵詞和所屬類別構(gòu) 成的數(shù)據(jù)表中，通過網(wǎng)頁(yè)模糊分類算法，得到該網(wǎng)頁(yè)關(guān)鍵詞所屬類別的類別排名，取其中前幾位，進(jìn)行隸屬率的計(jì)算，最終可以得出該網(wǎng) 頁(yè)的所屬類別的模糊匹配結(jié)果?；陉P(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法能快速掌握網(wǎng)頁(yè)的關(guān) 鍵信息及其所屬類別，從而有利于高效的組織網(wǎng)絡(luò)上海量信息，具有廣泛的意義和應(yīng)用價(jià)值。主要可以應(yīng)用在互聯(lián)網(wǎng)用戶興趣度分析；搜索引擎目錄更新；Web內(nèi)容挖掘；在線文檔管理；數(shù)字圖書館建設(shè)。
具體實(shí)施方式
一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法，是根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞，'依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配，其步驟為1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼，對(duì)所獲取的源碼進(jìn)行過濾和去噪，提取該網(wǎng)頁(yè)中的中文文本；目的是實(shí)現(xiàn)對(duì)各類編碼的中文網(wǎng)頁(yè)進(jìn)行預(yù)處理，去除與主題無(wú)關(guān)的噪音信息，包括各種標(biāo)簽、腳本語(yǔ)言代碼、廣告及圖片鏈接、設(shè)計(jì)人員注釋、函數(shù)聲明以及版權(quán)信息等冗余的信息。與主題無(wú)關(guān)的噪音信息會(huì)對(duì)網(wǎng)頁(yè)正文內(nèi)容的提取的速度和精度造成很大影響，有必要進(jìn)行去除。2) 利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作，得到中文網(wǎng)頁(yè)的分詞后文本；3) 通過關(guān)鍵詞頻度分析器，對(duì)該中文網(wǎng)頁(yè)分詞后文本的主要內(nèi) 容的關(guān)鍵詞進(jìn)^ff提取，并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序;4) 初始化數(shù)據(jù)表該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所對(duì)應(yīng)的類別，其中初始類別依據(jù)中圖分類法得到，同時(shí)依據(jù) 關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè)，在査找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算，得到同訓(xùn)練集中最相似的類別作為需要查找的類別；關(guān)鍵詞按照前一步驟所得出的權(quán)重進(jìn)行排序，錄入至數(shù)據(jù)表；為了提高效率，一般取關(guān)鍵詞排序的前項(xiàng)100項(xiàng)就夠了，大于100 項(xiàng)取100項(xiàng)作為上限值，小于100項(xiàng)則按原關(guān)鍵詞數(shù)目錄入；5) 按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行查找；6) 判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別，如果分類主題詞表中存在匹配的關(guān)鍵詞和類別，則轉(zhuǎn)入下一步驟7); 如果分類主題詞表中不存在該關(guān)鍵詞，則轉(zhuǎn)到上一步驟5);7) 將每個(gè)關(guān)鍵訶查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中；8) 對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì)，分析出對(duì)該中文網(wǎng)頁(yè)隸屬率最高的不少于3個(gè)類別；9) 保存并輸出分類結(jié)果?；趦?nèi)容規(guī)則的提取網(wǎng)頁(yè)中的中文文本的方法，在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè)的類型進(jìn)行判斷，利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾，并提取出網(wǎng)頁(yè)的中文文本，該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹；(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比，確定該網(wǎng)頁(yè)的類型，網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種；(C)判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè)，如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步驟d);如果不是主題型網(wǎng)頁(yè)，則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算，提取出網(wǎng)頁(yè)主題內(nèi)容塊；(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行過濾；(f) 提取網(wǎng)頁(yè)的中文文本；首先數(shù)據(jù)采集層功能該層面提供根據(jù)用戶所輸入的URL獲取中文網(wǎng)頁(yè)的HTML 源碼，對(duì)所獲取的源^進(jìn)行過濾和去噪，以及提取該網(wǎng)頁(yè)中的中文字符的技術(shù)。目的是實(shí)現(xiàn)對(duì)各類編碼的中文網(wǎng)頁(yè)進(jìn)行預(yù)處理，并提取相應(yīng)的中文文本。接口該層面與上一層的接口為通過流讀寫得到的中文文本流，為上一層提供輸入數(shù)據(jù)。該層主要包括基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法中的一個(gè)部分網(wǎng)頁(yè)過濾以及中文提取部分。其次數(shù)業(yè)務(wù)邏輯層.功能該層面提供對(duì)中文文本的分詞和根據(jù)分詞結(jié)果進(jìn)行關(guān)鍵詞分析的工作。目的是對(duì)中文網(wǎng)頁(yè)的中文文本內(nèi)容進(jìn)行分詞，并依照相應(yīng)算法對(duì)分詞結(jié)果進(jìn)行關(guān)鍵詞頻度的分析。接口該層面與上一層的接口為中文網(wǎng)頁(yè)按照頻度排序的關(guān)鍵詞表，通過該表進(jìn)一步實(shí)現(xiàn)中文網(wǎng)頁(yè)分類模糊匹配。該層主要包括基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法中的兩個(gè)部分中文分詞及關(guān)鍵詞頻度分析部分和中文網(wǎng)頁(yè)分類模糊匹配部分。最后表示層該層面主要提供用戶的輸入和各個(gè)部分結(jié)果的反饋。根據(jù)本發(fā)明設(shè)計(jì)的關(guān)鍵詞頻度分析中文網(wǎng)頁(yè)分類系統(tǒng)在項(xiàng)目中得到了具體的驗(yàn)證。系統(tǒng)使用VS2005進(jìn)行了前臺(tái)的開發(fā)，SQL Server2005數(shù)據(jù)庫(kù)進(jìn)行后臺(tái)協(xié)作，利用Ctt語(yǔ)言實(shí)現(xiàn)各項(xiàng)功能。用戶在系統(tǒng)首頁(yè)面輸入相應(yīng)網(wǎng)址的URL，按步驟操作即可分別得到該網(wǎng)頁(yè) 的HTML源碼，所提取的網(wǎng)頁(yè)中文文本，該網(wǎng)頁(yè)的關(guān)鍵詞按頻度排序結(jié)果以及該網(wǎng)頁(yè)的分類結(jié)果。系統(tǒng)所采用的分類主題詞庫(kù)是以《國(guó)家自然科學(xué)基金申請(qǐng)項(xiàng)目分類目錄及代碼》為框架，依照現(xiàn)有學(xué)科術(shù)語(yǔ) 及常用語(yǔ)進(jìn)行擴(kuò)充得到的。在系統(tǒng)的測(cè)試網(wǎng)頁(yè)達(dá)到800篇的時(shí)候，歸類準(zhǔn)確率封閉測(cè)試為71.2%，具有實(shí)際的應(yīng)用價(jià)值。
權(quán)利要求
1、一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法，其特征在于根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞，依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配，其步驟為1)根據(jù)用戶所輸入的網(wǎng)址URL獲取中文網(wǎng)頁(yè)的HTML源碼，對(duì)所獲取的源碼進(jìn)行過濾和去噪，提取該網(wǎng)頁(yè)中的中文文本；2)利用分詞器對(duì)所提取出的中文文本進(jìn)行分詞操作，得到中文網(wǎng)頁(yè)的分詞后文本；3)通過關(guān)鍵詞頻度分析器，對(duì)該中文網(wǎng)頁(yè)的分詞后文本主要內(nèi)容的關(guān)鍵詞進(jìn)行提取，并按照關(guān)鍵詞權(quán)重對(duì)關(guān)鍵詞進(jìn)行排序；4)初始化數(shù)據(jù)表；該數(shù)據(jù)表是用于存儲(chǔ)文本關(guān)鍵詞和關(guān)鍵詞所對(duì)應(yīng)的類別，其中初始類別依據(jù)中圖分類法得到，同時(shí)依據(jù)關(guān)鍵詞類別設(shè)定訓(xùn)練集即事先準(zhǔn)備好的已知分類的網(wǎng)頁(yè)，在查找具體的網(wǎng)頁(yè)時(shí)將未知分類網(wǎng)頁(yè)同訓(xùn)練集進(jìn)行比較計(jì)算，得到同訓(xùn)練集中最相似的類別作為需要查找的類別；關(guān)鍵詞按照前一步驟所得出的權(quán)重進(jìn)行排序，錄入至數(shù)據(jù)表；5)按照上述數(shù)據(jù)表中關(guān)鍵詞的順序進(jìn)入分類主題詞庫(kù)進(jìn)行查找；6)判斷分類主題詞表中該關(guān)鍵詞出現(xiàn)時(shí)所在的類別，如果分類主題詞表中存在匹配的關(guān)鍵詞和類別，則轉(zhuǎn)入下一步驟7)；如果分類主題詞表中不存在該關(guān)鍵詞，則轉(zhuǎn)到上一步驟5)；7)將每個(gè)關(guān)鍵詞查找的類別結(jié)果計(jì)入數(shù)據(jù)表的類別項(xiàng)中；8)對(duì)數(shù)據(jù)表中的類別信息進(jìn)行統(tǒng)計(jì)，分析出對(duì)該中文網(wǎng)頁(yè)隸屬率最高的不少于3個(gè)類別；9)保存并輸出分類結(jié)果。
2、根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法，其特征在于提取網(wǎng)頁(yè)中的中文文本的方法在于通過閾值對(duì)比對(duì)網(wǎng)頁(yè) 的類型進(jìn)行判斷，利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾，并提取出網(wǎng)頁(yè)的中文文本，該方法的步驟為(a) 依照所獲得的網(wǎng)頁(yè)源碼得到該網(wǎng)頁(yè)的標(biāo)簽樹；(b) 通過和標(biāo)準(zhǔn)網(wǎng)頁(yè)的相關(guān)閾值對(duì)比，確定該網(wǎng)頁(yè)的類型，網(wǎng) 頁(yè)類型包括主題型、鏈接型和圖片型三種；(c) 判斷網(wǎng)頁(yè)是否為主題型網(wǎng)頁(yè)，如果是主題型網(wǎng)頁(yè)則轉(zhuǎn)到步驟d);如果不是主題型網(wǎng)頁(yè)，則轉(zhuǎn)到步驟e);(d) 根據(jù)主題型網(wǎng)頁(yè)主題的相關(guān)度計(jì)算，提取出網(wǎng)頁(yè)主題內(nèi)容塊；(e) 利用基于標(biāo)記的正則表達(dá)式過濾器對(duì)網(wǎng)頁(yè)的噪音信息進(jìn)行過濾；(f) 提取網(wǎng)頁(yè)的中文文本。
全文摘要
一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法，是根據(jù)所分析出的中文網(wǎng)頁(yè)的關(guān)鍵詞，依照中文分類主題詞庫(kù)進(jìn)行中文網(wǎng)頁(yè)分類模糊匹配，通過首先獲取到網(wǎng)頁(yè)的HTML源碼，對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理。通過測(cè)試和分析，利用正則表達(dá)式過濾器對(duì)噪音信息進(jìn)行過濾，并提取出網(wǎng)頁(yè)的中文文本，接著通過分詞器和關(guān)鍵詞頻度分析器來(lái)將所提取的中文文本信息進(jìn)行分詞，通過該詞在文本中的權(quán)重排序，通過網(wǎng)頁(yè)模糊分類算法，得到該網(wǎng)頁(yè)關(guān)鍵詞所屬類別的類別排名，取其中前幾位，進(jìn)行隸屬率的計(jì)算，得出該網(wǎng)頁(yè)的所屬類別的模糊匹配結(jié)果。有利于高效的組織網(wǎng)絡(luò)上海量信息，用于互聯(lián)網(wǎng)用戶興趣度分析；搜索引擎目錄更新；Web內(nèi)容挖掘；在線文檔管理；數(shù)字圖書館建設(shè)。
文檔編號(hào)G06F17/30GK101593200SQ20091003162
公開日2009年12月2日申請(qǐng)日期2009年6月19日優(yōu)先權(quán)日2009年6月19日
發(fā)明者源馮, 盧艷宏, 壟成龍, 明掌, 瑞楊, 攀王申請(qǐng)人:淮海工學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：掌明;壟成龍;盧艷宏;馮源;楊瑞;王攀
技術(shù)所有人：淮海工學(xué)院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)關(guān)鍵詞密度檢測(cè)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)鍵詞頻度分析的中文網(wǎng)頁(yè)分類方法