專利名稱:一種文件自動分類系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及一種文件自動分類系統(tǒng),屬于數(shù)據(jù)挖掘領(lǐng)域,適用于資源自動 歸類、網(wǎng)絡(luò)內(nèi)容監(jiān)管、垃圾郵件過濾、數(shù)字圖書館等。
背景技術(shù):
文件自動分類是數(shù)據(jù)挖掘領(lǐng)域較為熱點(diǎn)的研究問題。其目的是訓(xùn)練一個分類函 數(shù)或分類器,該函數(shù)或分類器能把待分文件映射到給定的相應(yīng)類別中。其目標(biāo)是找到分 類速度更快、更準(zhǔn)確的管理文本信息的方法。目前,大量的研究集中于文本文件分類的研究,如張曉丹等人在文獻(xiàn)《一種決 策級文本自動分類融合方法》(國家專利,專利申請?zhí)?009100878443)中公開了一種 決策級文本自動分類融合方法,其分類模型如圖1所示。該方法以信息融合為理論基 礎(chǔ),以分類精度較高的SVM、KNN,貝葉斯等文件自動分類算法為研究對象,采用多 層融合結(jié)構(gòu),串、并聯(lián)混和的形式,建立了決策級的文件自動分類融合模型。這種方法 的缺點(diǎn)是由于其僅處理文件中的本文信息,而沒有對待分類文件中的圖像、視頻、音 頻等信息進(jìn)行處理,導(dǎo)致分類的準(zhǔn)確率不理想。這主要是由于目前網(wǎng)絡(luò)數(shù)據(jù)中包含大量 的多媒體數(shù)據(jù),如視頻、圖像、音頻等,因此基于文本的分類技術(shù)已無法滿足人們的需 要。從已公開的文獻(xiàn)和實(shí)際應(yīng)用中,還未見到同時處理多種媒體的文件分類方法。 發(fā)明內(nèi)容本實(shí)用新型針對目前已有文本自動分類系統(tǒng)存在準(zhǔn)確度不高的缺點(diǎn),在已有的 決策級文本自動分類融合模型的基礎(chǔ)上,提出一種基于多種媒體(圖像、音頻、視頻和 文本信息)的文件自動分類系統(tǒng),得到準(zhǔn)確率更高的分類結(jié)果。本實(shí)用新型是通過以下技術(shù)方案實(shí)現(xiàn)的。—種文件自動分類系統(tǒng),包括輸入模塊、信息抽取模塊、文本預(yù)處理模塊、 圖像預(yù)處理模塊、視頻預(yù)處理模塊、音頻預(yù)處理模塊、文本分類模塊、圖像分類模塊、 視頻分類模塊、音頻分類模塊、融合模塊、輸出模塊;其連接關(guān)系為輸入模塊分別與信息抽取模塊、文本預(yù)處理模塊、圖像預(yù)處理 模塊、音頻預(yù)處理模塊、視頻預(yù)處理模塊的輸入端連接;信息抽取模塊的輸出端分別與 文本預(yù)處理模塊、圖像預(yù)處理模塊、音頻預(yù)處理模塊、視頻預(yù)處理模塊的輸入端連接; 文本預(yù)處理模塊的輸出端與文本分類模塊的輸入端連接;圖像預(yù)處理模塊的輸出端與圖 像分類模塊的輸入端連接;音頻預(yù)處理模塊的輸出端與音頻分類模塊的輸入端連接;視 頻預(yù)處理模塊的輸出端與視頻分類模塊的輸入端連接;文本分類模塊、圖像分類模塊、 音頻分類模塊、視頻分類模塊的輸出端與融合模塊的輸入端連接;融合模塊的輸出端與 輸出模塊連接。其主要模塊的功能為[0010]所述輸入模塊的主要功能是提供數(shù)據(jù)的輸入接口 ;所述信息抽取模塊的主要功能是從輸入的待分類文件中抽取出文本信息、圖 像信息、視頻信息、音頻信息;所述文本預(yù)處理模塊的主要功能是 算等預(yù)處理;所述圖像預(yù)處理模塊的主要功能是 測、恢復(fù)、分割等預(yù)處理;所述視頻預(yù)處理模塊的主要功能是 視頻數(shù)據(jù)進(jìn)行多維分析等預(yù)處理;所述音頻預(yù)處理模塊的主要功能是 識別等預(yù)處理;所述文本分類模塊的主要功能是在系統(tǒng)訓(xùn)練階段使用文本訓(xùn)練語料確定預(yù)先 設(shè)定的各種類別的特征、在系統(tǒng)分類階段對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類;所述文 本分類模塊可以是但不限于以下設(shè)備中的一種KNN分類器、SVM分類器、貝葉斯分類 器;所述圖像分類模塊的主要功能是在系統(tǒng)訓(xùn)練階段使用圖像訓(xùn)練語料確定預(yù)先 設(shè)定的各種類別的特征、在系統(tǒng)分類階段對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類;所述圖 像分類模塊可以是但不限于以下設(shè)備中的一種SVM分類器、基于貝葉斯網(wǎng)絡(luò)算法的分 類器、基于BP神經(jīng)網(wǎng)絡(luò)算法的分類器;所述視頻分類模塊的主要功能是在系統(tǒng)訓(xùn)練階段使用視頻訓(xùn)練語料確定預(yù) 先設(shè)定的各種類別的特征、在系統(tǒng)分類階段對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類;所 述視頻分類模塊可以是但不限于以下設(shè)備中的一種KNN分類器、SVM分類器、基于 Boosting算法的分類器;所述音頻分類模塊的主要功能是在系統(tǒng)訓(xùn)練階段使用音頻訓(xùn)練語料確定預(yù)先 設(shè)定的各種類別的特征、在系統(tǒng)分類階段對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分類;所述音 頻分類模塊可以是但不限于以下設(shè)備中的一種SVM分類器、基于GMM算法的分類 器;所述融合模塊的主要功能是采用決策級融合算法對輸入的分類結(jié)果進(jìn)行推理計 算,得到最終的分類結(jié)果;所述決策級融合算法包括但不限于貝葉斯網(wǎng)絡(luò)算法、D-S 證據(jù)理論算法、投票算法;所述輸出模塊的主要功能是提供數(shù)據(jù)的輸出功能。所述輸出模塊可以是但不 限于以下設(shè)備中的一種或者多種的組合顯示器、投影儀、打印機(jī)。其工作過程分為系統(tǒng)訓(xùn)練階段和系統(tǒng)分類階段系統(tǒng)訓(xùn)練階段的工作過程為第1步將文本訓(xùn)練語料通過輸入模塊輸入到文本預(yù)處理模塊,文本預(yù)處理模 塊對文本信息進(jìn)行預(yù)處理,包括分詞、特征提取、權(quán)重計算;然后,將經(jīng)過預(yù)處理的文 本信息傳輸?shù)轿谋痉诸惸K;第2步該步驟可與第1步同步操作將圖像訓(xùn)練語料通過輸入模塊輸入到圖 像預(yù)處理模塊,圖像預(yù)處理模塊對圖像信息進(jìn)行預(yù)處理,包括圖像變換、增強(qiáng)、邊緣檢
對文本信息進(jìn)行分詞、特征提取、權(quán)重計 對圖像信息進(jìn)行圖像變換、增強(qiáng)、邊緣檢 對視頻信息進(jìn)行特征提取、建視頻庫、對 對音頻信息進(jìn)行前端預(yù)處理、特征提取、
4測、恢復(fù)、分割;然后,將經(jīng)過預(yù)處理的圖像信息傳輸?shù)綀D像分類模塊;第3步該步驟可與第1步同步操作將視頻訓(xùn)練語料通過輸入模塊輸入到視 頻預(yù)處理模塊,視頻預(yù)處理模塊對視頻信息進(jìn)行預(yù)處理,包括特征提取、建視頻庫、對 視頻數(shù)據(jù)進(jìn)行多維分析;然后,將經(jīng)過預(yù)處理的視頻信息傳輸?shù)揭曨l分類模塊;第4步該步驟可與第1步同步操作將音頻訓(xùn)練語料通過輸入模塊輸入到音 頻預(yù)處理模塊,音頻預(yù)處理模塊對音頻信息進(jìn)行預(yù)處理,包括前端預(yù)處理、特征提取、 識別;然后,將經(jīng)過預(yù)處理的音頻信息傳輸?shù)揭纛l分類模塊;第5步文本分類模塊對經(jīng)過預(yù)處理后的文本信息提取類別特征;圖像分類模 塊對經(jīng)過預(yù)處理后的圖像信息提取類別特征;視頻分類模塊對經(jīng)過預(yù)處理后的視頻信息 提取類別特征;音頻分類模塊對經(jīng)過預(yù)處理后的音頻信息提取類別特征;第6步訓(xùn)練結(jié)束,輸出模塊輸出系統(tǒng)訓(xùn)練完成提示信息。系統(tǒng)分類階段的工作過程為第1步將待分類文件通過輸入模塊輸入到信息抽取模塊;第2步信息抽取模塊從待分類文件中抽取出文本信息、圖像信息、視頻信 息、音頻信息,分別輸入到對應(yīng)的文本預(yù)處理模塊、圖像預(yù)處理模塊、視頻預(yù)處理模 塊、音頻預(yù)處理模塊;第3步在第2步的基礎(chǔ)上,文本預(yù)處理模塊對文本信息進(jìn)行預(yù)處理,包括分 詞、特征提取、權(quán)重計算;第4步在第2步的基礎(chǔ)上,圖像預(yù)處理模塊對圖像信息進(jìn)行預(yù)處理,包括圖像 變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割;第5步在第2步的基礎(chǔ)上,視頻預(yù)處理模塊對視頻信息進(jìn)行預(yù)處理,包括特征 提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分析;第6步在第2步的基礎(chǔ)上,音頻預(yù)處理模塊對音頻信息進(jìn)行預(yù)處理,包括前端 預(yù)處理、特征提取、識別;第7步在第3步的基礎(chǔ)上,文本分類模塊對經(jīng)過預(yù)處理后的文本信息進(jìn)行分類 并將分類結(jié)果輸出至融合模塊;第8步在第4步的基礎(chǔ)上,圖像分類模塊對經(jīng)過預(yù)處理后的圖像信息進(jìn)行分類 并將分類結(jié)果輸出至融合模塊;第9步在第5步的基礎(chǔ)上,視頻分類模塊對經(jīng)過預(yù)處理后的視頻信息進(jìn)行分類 并將分類結(jié)果輸出至融合模塊;第10步在第6步的基礎(chǔ)上,音頻分類模塊對經(jīng)過預(yù)處理后的音頻信息進(jìn)行分 類并將分類結(jié)果輸出至融合模塊;第11步融合模塊采用決策級融合算法對輸入的分類結(jié)果進(jìn)行推理計算,得到 最終的分類結(jié)果。第12步分類結(jié)果經(jīng)輸出模塊輸出。有益效果1.本實(shí)用新型提出的文件自動分類系統(tǒng)對文件中的文本信息、圖像信息、視頻 信息、音頻信息分別進(jìn)行分類,然后采用決策級融合算法對分類結(jié)果進(jìn)行綜合處理,可 以得到更高準(zhǔn)確率的文本分類效果;[0045]2.本實(shí)用新型提出的文件自動分類系統(tǒng)不僅可以保證各個局部分類的正確性, 還可以適應(yīng)分類目標(biāo)的改變,保證分類系統(tǒng)的效率及準(zhǔn)確度。
圖1為已有技術(shù)的決策級文本自動分類融合模型示意圖;圖2為關(guān)于本實(shí)用新型的文件自動分類系統(tǒng)的一種具體實(shí)施方式
的結(jié)構(gòu)示意 圖。
具體實(shí)施方式
根據(jù)上述技術(shù)方案,
以下結(jié)合附圖和實(shí)施例對本實(shí)用新型進(jìn)行詳細(xì)說明。本實(shí)用新型提出的文件自動分類系統(tǒng)采用JAVA開發(fā)平臺,Oracle數(shù)據(jù)庫。如圖 2所示,本實(shí)用新型的文件自動分類系統(tǒng)包括輸入模塊、信息抽取模塊、文本預(yù)處理 模塊、圖像預(yù)處理模塊、音頻預(yù)處理模塊、視頻預(yù)處理模塊、文本分類模塊(采用KNN 算法)、圖像分類模塊(采用SVM算法)、音頻分類模塊(GMM算法)、視頻分類模塊 (SVM算法)、融合模塊(D-S證據(jù)理論算法)、輸出模塊(顯示器和打印機(jī))。采用該系統(tǒng)對21000篇語料進(jìn)行分類,其中6000篇為文本訓(xùn)練語料、5000篇為 圖像訓(xùn)練語料、3000篇為視頻訓(xùn)練語料、3000篇為音頻訓(xùn)練語料、4000篇為測試語料, 共分6個類別。其工作流程為分別系統(tǒng)訓(xùn)練階段和系統(tǒng)分類階段系統(tǒng)訓(xùn)練階段的工作過程為第1步將6000篇文本訓(xùn)練語料通過輸入模塊輸入到文本預(yù)處理模塊,文本預(yù) 處理模塊對文本信息進(jìn)行預(yù)處理,包括分詞、特征提取、權(quán)重計算;第2步將5000篇圖像訓(xùn)練語料通過輸入模塊輸入到圖像預(yù)處理模塊,圖像預(yù) 處理模塊對圖像信息進(jìn)行預(yù)處理,包括圖像變換、增強(qiáng)、邊緣檢測、恢復(fù)、分割;第3步將3000篇視頻訓(xùn)練語料通過輸入模塊輸入到視頻預(yù)處理模塊,視頻 預(yù)處理模塊對視頻信息進(jìn)行預(yù)處理,包括特征提取、建視頻庫、對視頻數(shù)據(jù)進(jìn)行多維分 析;第4步將3000篇音頻訓(xùn)練語料通過輸入模塊輸入到音頻預(yù)處理模塊,音頻預(yù) 處理模塊對音頻信息進(jìn)行預(yù)處理,包括前端預(yù)處理、特征提取、識別;第5步文本分類模塊采用KNN算法對經(jīng)過預(yù)處理后的文本信息提取類別特 征;圖像分類模塊采用SVM對經(jīng)過預(yù)處理后的圖像信息提取類別特征;視頻分類模塊采 用SVM算法對經(jīng)過預(yù)處理后的視頻信息提取類別特征;音頻分類模塊采用GMM算法對 經(jīng)過預(yù)處理后的音頻信息提取類別特征;第6步訓(xùn)練結(jié)束,輸出模塊輸出訓(xùn)練完成提示信息。系統(tǒng)分類階段,具體為第1步將4000篇測試語料通過輸入模塊輸入到信息抽取模塊;第2步信息抽取模塊從4000篇測試語料中抽取出文本信息、圖像信息、視頻 信息、音頻信息,分別輸入到對應(yīng)的文本預(yù)處理模塊、圖像預(yù)處理模塊、音頻預(yù)處理模 塊、視頻預(yù)處理模塊;[0062]第3步文本預(yù)處理模塊對文本信息進(jìn)行預(yù)處理,包括分詞、特征提取、權(quán)重 計算;第4步圖像預(yù)處理模塊對圖像信息進(jìn)行預(yù)處理,包括圖像變換、增強(qiáng)、邊緣 檢測、恢復(fù)、分割;第5步視頻預(yù)處理模塊對視頻信息進(jìn)行預(yù)處理,包括特征提取、建視頻庫、 對視頻數(shù)據(jù)進(jìn)行多維分析;第6步音頻預(yù)處理模塊對音頻信息進(jìn)行預(yù)處理,包括前端預(yù)處理、特征提 取、識別;第7步在第3步的基礎(chǔ)上,文本分類模塊采用KNN算法對經(jīng)過預(yù)處理后的文 本信息進(jìn)行分類并將分類結(jié)果輸出至融合模塊;第8步在第4步的基礎(chǔ)上,圖像分類模塊采用SVM算法對經(jīng)過預(yù)處理后的圖 像信息進(jìn)行分類并將分類結(jié)果輸出至融合模塊;第9步在第5步的基礎(chǔ)上,視頻分類模塊采用SVM算法對經(jīng)過預(yù)處理后的視 頻信息進(jìn)行分類并將分類結(jié)果輸出至融合模塊;第10步在第6步的基礎(chǔ)上,音頻分類模塊采用GMM算法對經(jīng)過預(yù)處理后的 音頻信息進(jìn)行分類并將分類結(jié)果輸出至融合模塊;第11步融合模塊采用D-S證據(jù)理論算法對輸入的分類結(jié)果進(jìn)行推理計算,得 到最終的分類結(jié)果。經(jīng)過以上操作,得到試驗(yàn)結(jié)果如表1所示。同時,為說明本實(shí)用新型的分類效果,本實(shí)驗(yàn)是在同等條件下,以相同的訓(xùn)練 語料、測試語料以及相同的分類體系分別采用KNN、SVM以及文獻(xiàn)《一種決策級文本自 動分類融合方法》(國家專利,專利申請?zhí)?009100878443)中公開的一種決策級文本 自動分類融合方法進(jìn)行分類,分類結(jié)果如表1所示表1三種算法分類效果比較[0074]
權(quán)利要求1.一種文件自動分類系統(tǒng),其特征在于包括輸入模塊、信息抽取模塊、文本預(yù) 處理模塊、圖像預(yù)處理模塊、視頻預(yù)處理模塊、音頻預(yù)處理模塊、文本分類模塊、圖像 分類模塊、視頻分類模塊、音頻分類模塊、融合模塊、輸出模塊;其連接關(guān)系為輸入模塊分別與信息抽取模塊、文本預(yù)處理模塊、圖像預(yù)處理模 塊、音頻預(yù)處理模塊、視頻預(yù)處理模塊的輸入端連接;信息抽取模塊的輸出端分別與文 本預(yù)處理模塊、圖像預(yù)處理模塊、音頻預(yù)處理模塊、視頻預(yù)處理模塊的輸入端連接;文 本預(yù)處理模塊的輸出端與文本分類模塊的輸入端連接;圖像預(yù)處理模塊的輸出端與圖像 分類模塊的輸入端連接;音頻預(yù)處理模塊的輸出端與音頻分類模塊的輸入端連接;視頻 預(yù)處理模塊的輸出端與視頻分類模塊的輸入端連接;文本分類模塊、圖像分類模塊、音 頻分類模塊、視頻分類模塊的輸出端與融合模塊的輸入端連接;融合模塊的輸出端與輸 出模塊連接。
2.如權(quán)利要求1所述的一種文件自動分類系統(tǒng),其特征在于所述文本分類模塊是 以下裝置中的一種KNN分類器、SVM分類器、貝葉斯分類器。
3.如權(quán)利要求1或2所述的一種文件自動分類系統(tǒng),其特征在于所述圖像分類模塊 是以下裝置中的一種SVM分類器、基于貝葉斯網(wǎng)絡(luò)算法的分類器、基于BP神經(jīng)網(wǎng)絡(luò) 算法的分類器。
4.如權(quán)利要求1或2所述的一種文件自動分類系統(tǒng),其特征在于所述視頻分類模塊 是以下裝置中的一種KNN分類器、SVM分類器、基于Boosting算法的分類器。
5.如權(quán)利要求1或2所述的一種文件自動分類系統(tǒng),其特征在于所述音頻分類模塊 是以下裝置中的一種SVM分類器、基于GMM算法的分類器。
6.如權(quán)利要求1或2所述的一種文件自動分類系統(tǒng),其特征在于所述輸出模塊是以 下設(shè)備中的一種或者多種的組合顯示器、投影儀、打印機(jī)。
專利摘要本實(shí)用新型涉及一種文件自動分類系統(tǒng),屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。包括輸入模塊、信息抽取模塊、文本預(yù)處理模塊、圖像預(yù)處理模塊、視頻預(yù)處理模塊、音頻預(yù)處理模塊、文本分類模塊、圖像分類模塊、視頻分類模塊、音頻分類模塊、融合模塊、輸出模塊。本實(shí)用新型提供的文件自動分類系統(tǒng)通過信息抽取模塊對文件中的文本信息、圖像信息、視頻信息、音頻信息進(jìn)行抽取,分別通過文本預(yù)處理模塊、圖像預(yù)處理模塊、視頻預(yù)處理模塊、音頻預(yù)處理模塊的預(yù)處理后,分別進(jìn)入到文本分類模塊、圖像分類模塊、視頻分類模塊、音頻分類模塊中進(jìn)行分類,再通過融合模塊對各分類結(jié)果進(jìn)行綜合處理得到最終分類結(jié)果。本實(shí)用新型可以得到更高準(zhǔn)確率的文本分類結(jié)果。
文檔編號G06F17/30GK201796362SQ20102020004
公開日2011年4月13日 申請日期2010年5月24日 優(yōu)先權(quán)日2010年5月24日
發(fā)明者喬曉東, 姚長青, 張曉丹, 朱禮軍 申請人:中國科學(xué)技術(shù)信息研究所