文檔分類(lèi)、支持向量機(jī)模型生成的方法和裝置的制作方法

文檔序號(hào)：6398756閱讀：413來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：文檔分類(lèi)、支持向量機(jī)模型生成的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)處理技術(shù)，尤其涉及文檔分類(lèi)、支持向量機(jī)模型生成的方法和
>J-U裝直。
背景技術(shù)：
近年來(lái)，隨著互聯(lián)網(wǎng)Internet的快速發(fā)展，使得Web (網(wǎng)絡(luò))上的文檔資源呈現(xiàn)爆炸式的增長(zhǎng)，這些文檔信息數(shù)據(jù)量大，內(nèi)容繁雜。與數(shù)據(jù)庫(kù)中結(jié)構(gòu)化的信息相比，非結(jié)構(gòu)化或半結(jié)構(gòu)化的web文檔信息更加豐富和繁雜。為了充分有效地利用這些文檔資源，是用戶(hù)能夠快速有效的找到需要的信息，并且提取其中潛在的有價(jià)值的信息，則需要對(duì)這些文檔進(jìn)行分類(lèi)。目前，對(duì)文檔進(jìn)行自動(dòng)分類(lèi)的方法通常采用基于支持向量機(jī)模型的方法進(jìn)行分類(lèi)；該方法包括:訓(xùn)練階段和分類(lèi)階段。目前，現(xiàn)有技術(shù)中有多種基于支持向量機(jī)模型的文檔自動(dòng)分類(lèi)方法，下面較為詳細(xì)的介紹了一種。訓(xùn)練階段得到支持向量機(jī)模型的方法為:根據(jù)訓(xùn)練集中劃分了類(lèi)別的文檔，得到類(lèi)別特征向量；根據(jù)類(lèi)別特征向量集，可以得到支持向量機(jī)模型以及有效詞語(yǔ)集(或稱(chēng)詞典)；為便于描述，本文中將訓(xùn)練集中的樣本稱(chēng)為訓(xùn)練樣本。其中，根據(jù)訓(xùn)練集中劃分了類(lèi)別的訓(xùn)練樣本，得到類(lèi)別特征向量的一種具體方法，流程如

圖1所示，包括如下步驟:SlOl:對(duì)訓(xùn)練集中的每個(gè)訓(xùn)練樣本進(jìn)行分詞，得到每個(gè)訓(xùn)練樣本的詞語(yǔ)集合，刪除其中的停用詞。訓(xùn)練集中收集了各種已經(jīng)劃分了類(lèi)別的文檔，通常，訓(xùn)練集采用人工分類(lèi)的語(yǔ)料庫(kù)。為了保證訓(xùn)練階段得到的支持向量機(jī)模型的穩(wěn)定性和收斂性，通常訓(xùn)練集中的文檔數(shù)
量要大于一定數(shù)值。文檔(訓(xùn)練樣本)由一串連續(xù)的字序列組成，詞語(yǔ)是文檔中的基本單位；分詞就是將文檔中連續(xù)的字序列劃分為一個(gè)個(gè)詞語(yǔ)的過(guò)程，劃分出的詞語(yǔ)構(gòu)成該文檔的詞語(yǔ)集合。S102:針對(duì)每個(gè)類(lèi)別，統(tǒng)計(jì)該類(lèi)別的訓(xùn)練樣本的詞語(yǔ)集合中，各詞語(yǔ)出現(xiàn)的頻次。例如，訓(xùn)練集中的訓(xùn)練樣本共有q個(gè)類(lèi)別，分別記為:C1、c2......Cq ;其中，q為大于
2的自然數(shù)；訓(xùn)練集中所有的訓(xùn)練樣本的詞語(yǔ)集合中共有n個(gè)詞語(yǔ)，分別記為t2……tn;其中，n為大于2的自然數(shù)；針對(duì)其中第i個(gè)類(lèi)別，統(tǒng)計(jì)出第i個(gè)類(lèi)別的訓(xùn)練樣本的詞語(yǔ)集合中第j個(gè)詞語(yǔ)出現(xiàn)的頻次(次數(shù))，記為HlijtjS103:構(gòu)建類(lèi)別詞語(yǔ)矩陣。根據(jù)統(tǒng)計(jì)出的每個(gè)類(lèi)別中各詞語(yǔ)出現(xiàn)的頻次，得到每個(gè)類(lèi)別的詞語(yǔ)頻次向量；例如，第i個(gè)類(lèi)別的詞語(yǔ)頻次向量c, = {mn,mn, ,min)。構(gòu)建的qXn的類(lèi)別詞語(yǔ)矩陣Q,,。
亦即類(lèi)別詞語(yǔ)矩陣Cqxn為:
權(quán)利要求
1.一種文檔分類(lèi)方法，其特征在于，包括: 對(duì)待分類(lèi)文檔進(jìn)行分詞后，確定該待分類(lèi)文檔的特征向量；根據(jù)該待分類(lèi)文檔的特征向量、以及根據(jù)經(jīng)過(guò)類(lèi)別扁平化處理的訓(xùn)練集生成的支持向量機(jī)模型，確定該待分類(lèi)文檔所屬類(lèi)別，其中，所述訓(xùn)練集的類(lèi)別扁平化處理過(guò)程，包括:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本，對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類(lèi)別，按類(lèi)別的層級(jí)高低進(jìn)行排序；針對(duì)該訓(xùn)練樣本所屬的每個(gè)類(lèi)另IJ，從層級(jí)較高的類(lèi)別開(kāi)始，判斷該訓(xùn)練樣本所屬類(lèi)別中是否有該類(lèi)別的子類(lèi)類(lèi)別；若有，則將該類(lèi)別從該訓(xùn)練樣本所屬類(lèi)別中剔除。
2.如權(quán)利要求1所述的方法，其特征在于，所述類(lèi)別被分配了唯一的標(biāo)識(shí)，以及所述類(lèi)別的標(biāo)識(shí)中包含了該類(lèi)別的層級(jí)路徑信息。
3.如權(quán)利要求2所述的方法，其特征在于，最高層級(jí)以下的類(lèi)別的標(biāo)識(shí)由其父類(lèi)類(lèi)別的標(biāo)識(shí)和該類(lèi)別的子類(lèi)識(shí)別碼組成；其中，所述子類(lèi)識(shí)別碼是針對(duì)屬于同一父類(lèi)的一組子類(lèi)，為組內(nèi)每個(gè)子類(lèi)分配的唯一的識(shí)別碼。
4.如權(quán)利要求1-3任一所述的方法，其特征在于，所述支持向量機(jī)模型是根據(jù)訓(xùn)練集生成的具體包括: 根據(jù)所述訓(xùn)練集構(gòu)建類(lèi)別詞語(yǔ)矩陣；根據(jù)所述類(lèi)別詞語(yǔ)矩陣生成各類(lèi)別的特征向量，根據(jù)各類(lèi)別的特征向量構(gòu)建所述支持向量機(jī)模型；以及所述根據(jù)該待分類(lèi)文檔的特征向量以及支持向量機(jī)模型，確定該待分類(lèi)文檔所屬類(lèi)別具體包括:` 計(jì)算該待分類(lèi)文檔的特征向量與所述支持向量機(jī)模型中分別對(duì)應(yīng)各類(lèi)別的超平面之間的距離；根據(jù)計(jì)算的距離確定該待分類(lèi)文檔所屬類(lèi)別。
5.一種支持向量機(jī)模型生成方法，其特征在于，包括: 對(duì)訓(xùn)練集進(jìn)行類(lèi)別扁平化處理:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本，對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類(lèi)別，按類(lèi)別的層級(jí)高低進(jìn)行排序；針對(duì)該訓(xùn)練樣本所屬的每個(gè)類(lèi)別，從層級(jí)較高的類(lèi)別開(kāi)始，判斷該訓(xùn)練樣本所屬類(lèi)別中是否有該類(lèi)別的子類(lèi)類(lèi)別；若有，則將該類(lèi)別從該訓(xùn)練樣本所屬類(lèi)別中剔除；根據(jù)經(jīng)過(guò)類(lèi)別扁平化處理的訓(xùn)練集生成所述支持向量機(jī)模型。
6.如權(quán)利要求5所述的方法，其特征在于，所述類(lèi)別被分配了唯一的標(biāo)識(shí)，以及所述類(lèi)別的標(biāo)識(shí)中包含了該類(lèi)別的層級(jí)路徑信息。
7.如權(quán)利要求6所述的方法，其特征在于，最高層級(jí)以下的類(lèi)別的標(biāo)識(shí)由其父類(lèi)類(lèi)別的標(biāo)識(shí)和該類(lèi)別的子類(lèi)識(shí)別碼組成；其中，所述子類(lèi)識(shí)別碼是針對(duì)屬于同一父類(lèi)的一組子類(lèi)，為組內(nèi)每個(gè)子類(lèi)分配的唯一的識(shí)別碼。
8.一種支持向量機(jī)模型生成裝置，其特征在于，包括: 訓(xùn)練集扁平化處理模塊，用于對(duì)訓(xùn)練集進(jìn)行類(lèi)別扁平化處理:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本，對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類(lèi)別，按類(lèi)別的層級(jí)高低進(jìn)行排序；針對(duì)該訓(xùn)練樣本所屬的每個(gè)類(lèi)別，從層級(jí)較高的類(lèi)別開(kāi)始，判斷該訓(xùn)練樣本所屬類(lèi)別中是否有該類(lèi)別的子類(lèi)類(lèi)別；若有，則將該類(lèi)別從該訓(xùn)練樣本所屬類(lèi)別中剔除；將經(jīng)過(guò)類(lèi)別扁平化處理的訓(xùn)練集輸出；支持向量機(jī)模型生成模塊，用于接收所述訓(xùn)練集扁平化處理模塊輸出的訓(xùn)練集，并根據(jù)接收的訓(xùn)練集生成所述支持向量機(jī)模型。
9.如權(quán)利要求8所述的裝置，其特征在于，所述類(lèi)別被分配了唯一的標(biāo)識(shí)，以及所述類(lèi)別的標(biāo)識(shí)中包含了該類(lèi)別的層級(jí)路徑信息。
10.如權(quán)利要求9所述的裝置，其特征在于，最高層級(jí)以下的類(lèi)別的標(biāo)識(shí)由其父類(lèi)類(lèi)別的標(biāo)識(shí)和該類(lèi)別的子類(lèi)識(shí)別碼組成；其中，所述子類(lèi)識(shí)別碼是針對(duì)屬于同一父類(lèi)的一組子類(lèi)，為組內(nèi)每個(gè)子類(lèi)分配的唯一的識(shí)別碼。
全文摘要
本發(fā)明公開(kāi)了一種文檔分類(lèi)、支持向量機(jī)模型生成的方法和裝置，所述方法包括根據(jù)待分類(lèi)文檔的特征向量、以及根據(jù)經(jīng)過(guò)類(lèi)別扁平化處理的訓(xùn)練集生成的支持向量機(jī)模型，確定該待分類(lèi)文檔所屬類(lèi)別，其中，訓(xùn)練集的類(lèi)別扁平化處理過(guò)程包括針對(duì)訓(xùn)練集中的每個(gè)訓(xùn)練樣本，對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類(lèi)別，按類(lèi)別的層級(jí)高低進(jìn)行排序；針對(duì)該訓(xùn)練樣本所屬的每個(gè)類(lèi)別，從層級(jí)較高的類(lèi)別開(kāi)始，判斷該訓(xùn)練樣本所屬類(lèi)別中是否有該類(lèi)別的子類(lèi)類(lèi)別；若有，則將該類(lèi)別從該訓(xùn)練樣本所屬類(lèi)別中剔除。由于根據(jù)類(lèi)別之間的層級(jí)關(guān)系先對(duì)訓(xùn)練集進(jìn)行類(lèi)別扁平化處理，從而使得得到的支持向量機(jī)模型可適用于對(duì)多層級(jí)類(lèi)別的文檔進(jìn)行分類(lèi)，使得分類(lèi)結(jié)果具有較好的精確性。
文檔編號(hào)G06K9/62GK103106262SQ20131003312
公開(kāi)日2013年5月15日申請(qǐng)日期2013年1月28日優(yōu)先權(quán)日2013年1月28日
發(fā)明者戴明洋申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：戴明洋;
技術(shù)所有人：新浪網(wǎng)技術(shù)(中國(guó))有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

支持向量機(jī)模型相關(guān)技術(shù)

支持向量機(jī)預(yù)測(cè)模型相關(guān)技術(shù)

支持向量機(jī)回歸模型相關(guān)技術(shù)

lda文檔主題生成模型相關(guān)技術(shù)

文檔主題生成模型相關(guān)技術(shù)

機(jī)械手裝置模型產(chǎn)品相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔分類(lèi)、支持向量機(jī)模型生成的方法和裝置的制作方法