專利名稱:對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法以及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子文檔處理領(lǐng)域,尤其涉及一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法以及系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們保留文件的方法開始由傳統(tǒng)的紙質(zhì)文件儲(chǔ)存轉(zhuǎn)變?yōu)楦鼮榉奖憧旖莸碾娮游臋n存儲(chǔ)。電子文檔不僅可以存儲(chǔ)資料的正文內(nèi)容,還可以攜帶各種相關(guān)的文檔屬性。由于文檔管理系統(tǒng)得到了廣泛應(yīng)用,用戶不僅可以依靠其處理大量的文檔信息,還可以快捷地根據(jù)需求從中進(jìn)行檢索以提取用戶所需的特定文檔。上述文檔檢索過程指的是從文檔管理系統(tǒng)中存儲(chǔ)的大量文檔中搜索用戶期望獲得的文檔,現(xiàn)有的方法通常是對(duì)電子文檔中包括的自然語(yǔ)言文本來執(zhí)行關(guān)鍵詞檢索,或根據(jù)電子文檔攜帶的文檔屬性來進(jìn)行粗略分類后再進(jìn)行檢索。如果想提高檢索的效率,對(duì)電子文檔進(jìn)行預(yù)分類和排序是非常必要的。特定文檔的文檔管理系統(tǒng),例如法律文件的文檔管理系統(tǒng),其存儲(chǔ)了大量的電子法律文件,例如判決書等,如果僅僅依靠關(guān)鍵詞或文檔屬性對(duì)其進(jìn)行預(yù)分類,其時(shí)間復(fù)雜度較高,不僅需要投入大量的人力,還很難在有限時(shí)間內(nèi)對(duì)大量的電子法律文件進(jìn)行有效且精確的預(yù)分類。因此,從業(yè)者期望針對(duì)例如電子法律文件這一類其格式和內(nèi)容具有特殊性的電子文檔提供一種分類方法及系統(tǒng),從而達(dá)到降低此類電子文檔的分類復(fù)雜度的目的, 以及可以對(duì)大量上述電子文檔按照任意需求實(shí)現(xiàn)多維度的分類管理。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法以及系統(tǒng),以實(shí)現(xiàn)高效地對(duì)文檔進(jìn)行分類管理。為達(dá)到上述目的,一方面,本發(fā)明提供了一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法,該方法包括分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;選取所述文檔集合的全集或非空子集;構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔;根據(jù)所述條件模型對(duì)所述全集或非空子集中包括的文檔進(jìn)行分類。另一方面,本發(fā)明提供了一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng),該系統(tǒng)包括標(biāo)簽?zāi)K,用于分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;
4
選取模塊,用于選取所述文檔集合的全集或非空子集;條件構(gòu)建模塊,用于構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔。本發(fā)明提供的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法以及系統(tǒng),根據(jù)文檔來生成特征標(biāo)簽,該特征標(biāo)簽和文檔之間存在對(duì)應(yīng)關(guān)系,再構(gòu)建條件模型,所述條件模型的每一類別中包括一個(gè)或多個(gè)所述特征標(biāo)簽,根據(jù)所述對(duì)應(yīng)關(guān)系可以確定該條件模型下包括的文檔。所述條件模型即實(shí)現(xiàn)了在單一維度上對(duì)所述文檔集合的簡(jiǎn)單分類,若組合多個(gè)所述條件模型的類別,則可以在多維度上實(shí)現(xiàn)對(duì)所述文檔集合的復(fù)雜分類。上述方法和系統(tǒng)易于操作,自動(dòng)化程度高,不僅降低了文檔分類的時(shí)間復(fù)雜度,還實(shí)現(xiàn)了對(duì)大量文檔按照任意需求進(jìn)行多維度分類管理。
通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I是根據(jù)本發(fā)明的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法的一種具體實(shí)施方式
的流程圖;圖2是圖I示出的方法中進(jìn)行特征值抽取的邏輯示意圖;圖3和圖4是圖I示出的方法中構(gòu)建條件模型的具體實(shí)施示意圖;圖5是根據(jù)本發(fā)明的本發(fā)明的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng)的一種具體實(shí)施方式
的結(jié)構(gòu)示意圖。 附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作詳細(xì)描述。首先請(qǐng)參考圖1,圖I是根據(jù)本發(fā)明的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法的一種具體實(shí)施方式
的流程圖,該方法包括步驟S100,分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;步驟S200,選取所述文檔集合的全集或非空子集;步驟S300,構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔;步驟S400,根據(jù)所述條件模型對(duì)所述全集或非空子集中包括的文檔進(jìn)行分類。具體地,分別對(duì)步驟SlOO至步驟S400進(jìn)行說明。步驟SlOO中的文檔集合指的是存儲(chǔ)在文檔管理系統(tǒng)中的多個(gè)文檔構(gòu)成的集合,每一所述文檔包含正文內(nèi)容以及文檔屬性 (該文檔屬性用于描述文檔的客觀性質(zhì)或特征,例如創(chuàng)建時(shí)間、修改時(shí)間和創(chuàng)建者等)。由于所述文檔在電子數(shù)據(jù)層面上具有可擴(kuò)容性,所述文檔通常能夠隱性地包括除正文以外的更多信息,因此可認(rèn)為所述文檔的正文內(nèi)容以及文檔屬性均可以描述所述文檔的特征。請(qǐng)參考圖2,圖2是圖I示出的方法中進(jìn)行特征值抽取的邏輯示意圖,在步驟SlOO 中,首先分別從所述文檔集合中的每一文檔10內(nèi)抽取特征值20,本具體實(shí)施方式
中,所述特征值20包括文檔屬性21、引用文獻(xiàn)22、關(guān)鍵字23和其他附屬信息24中任意一種或其組合,由于文檔10的自然屬性和文化含義,上述特征值20可以客觀地描述文檔10的性質(zhì)。其中,文檔屬性21包括發(fā)文時(shí)間和發(fā)文單位,以文檔10是法院判決書為例,其文檔屬性中的發(fā)文時(shí)間可以是“2011年10月10日”,發(fā)文單位可以是“北京市朝陽(yáng)區(qū)人民法院”;引用文獻(xiàn) 22包括法律、行政法規(guī)、地方性法規(guī)等法律文獻(xiàn)中任意一種或其組合,例如所述法院判決書的引用文獻(xiàn)可以是“《專利法》”,具體地所述引用文獻(xiàn)還可以精確到上述法律文獻(xiàn)中特定組成部分,例如條款,典型的例子是所述法院判決書的引用文獻(xiàn)是“《中華人民共和國(guó)刑事訴訟法》第六十一條”。上述文檔屬性是不包含在所述文檔的正文內(nèi)容中的外置信息,而通常所述引用文獻(xiàn)和關(guān)鍵字是基于所述文檔的正文內(nèi)容分析所得,所述關(guān)鍵字包括在所述每一文檔內(nèi)預(yù)定部分出現(xiàn)的詞語(yǔ),在所述每一文檔內(nèi)出現(xiàn)的數(shù)據(jù)庫(kù)中預(yù)置的詞語(yǔ),和/或在所述每一文檔的正文內(nèi)出現(xiàn)次數(shù)超過預(yù)定閾值的詞語(yǔ),例如分析所述法院判決書的正文,其中詞語(yǔ)“版權(quán)”出現(xiàn)次數(shù)超過十次的,即判定該詞語(yǔ)“版權(quán)”為所述法院判決書的關(guān)鍵字;又例如針對(duì)所述法院判決書的格式較為固定這一特點(diǎn),從該法院判決書正文內(nèi)預(yù)定位置獲取核心詞語(yǔ)作為所述關(guān)鍵字;再例如,為了適應(yīng)不同場(chǎng)景的應(yīng)用需求,用戶可自定義數(shù)據(jù)庫(kù)中預(yù)置的詞語(yǔ),以在后續(xù)分析所述文檔的正文內(nèi)容的過程中獲得期望的結(jié)果。步驟SlOO中根據(jù)所述特征值生成特征標(biāo)簽,典型地根據(jù)所述關(guān)鍵字生成所述特征標(biāo)簽。例如根據(jù)關(guān)鍵字“盜竊”生成對(duì)應(yīng)的特征標(biāo)簽〈盜竊 >,所述文檔集合中可能有一個(gè)或多個(gè)文檔包括所述關(guān)鍵字“盜竊”,因此特征標(biāo)簽〈盜竊 > 對(duì)應(yīng)所述一個(gè)或多個(gè)包括所述關(guān)鍵字“盜竊”的文檔。相應(yīng)地,每一所述文檔也可以對(duì)應(yīng)一個(gè)或多個(gè)根據(jù)所述關(guān)鍵字生成的特征標(biāo)簽。所有所述特征標(biāo)簽對(duì)應(yīng)的文檔即所述文檔集合。步驟S200中選取所述文檔集合的全集或非空子集,具體地是根據(jù)用戶針對(duì)所述特征值的操作選取所述文檔集合中的特定文檔組成所述全集或非空子集??梢愿鶕?jù)用戶針對(duì)所述特征值中的文檔屬性來選取所述特定文檔,例如用戶指定文檔屬性中發(fā)文作者為 “北京市朝陽(yáng)區(qū)人民法院”的特定文檔,或用戶選擇發(fā)文日期在2011年10月以前的特定文檔;也可以根據(jù)用戶針對(duì)所述引用文獻(xiàn)的選擇操作來選取所述特定文檔,例如用戶選擇引用“《中華人民共和國(guó)刑事訴訟法》第六十一條”的特定文檔。上述特定文檔構(gòu)成的集合即所述文檔集合的全集或非空子集。選出所述全集或非空子集的目的在于進(jìn)行初選,尤其是所述文檔集合中包括大量不同類型的文檔時(shí),進(jìn)行合適的初選有助于提升分類的準(zhǔn)確性和效率。執(zhí)行步驟S300,開始構(gòu)建條件模型。所述條件模型代表了用幾個(gè)要素條件可描述的事件,而所述事件與所述文檔的正文內(nèi)容的自然含義相關(guān)。一個(gè)所述條件模型包括多個(gè)類別,每一所述類別代表所述事件可能出現(xiàn)的一種情況。在構(gòu)建所述條件模型時(shí)為其添加簡(jiǎn)短的描述性文字,用于簡(jiǎn)要說明所述事件。為了在所述條件模型與所述文檔之間建立對(duì)應(yīng)關(guān)系,步驟S300中采取的方法是將每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽。步驟 SlOO的說明中已經(jīng)指出所述特征標(biāo)簽是根據(jù)所述文檔的特征值生成的,因此可知該類別關(guān)聯(lián)的所述特征標(biāo)簽在所述全集或非空子集中對(duì)應(yīng)的文檔,即所述類別包括所述一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔。一些應(yīng)用場(chǎng)景中,所述條件模型的操作可能導(dǎo)致各個(gè)類別中出現(xiàn)相同的文檔,此時(shí)可以調(diào)整每一所述類別包括的文檔, 令任意兩個(gè)所述類別包括的文檔針對(duì)所述全集或非空子集互斥。在一種典型的實(shí)施例中,步驟S300中將每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽的步驟具體包括生成可視化圖形界面,該可視化圖形界面中包括多個(gè)固定區(qū)域和多個(gè)可活動(dòng)圖形元素,每一固定區(qū)域?qū)?yīng)一個(gè)所述類別,每一所述圖形元素對(duì)應(yīng)一個(gè)所述特征標(biāo)簽;接收用戶針對(duì)所述圖形元素的操作,根據(jù)該操作將所述圖形元素移動(dòng)至所述固定區(qū)域內(nèi);將每一所述固定區(qū)域?qū)?yīng)的所述類別判定為與該固定區(qū)域內(nèi)的一個(gè)或多個(gè)圖形元素對(duì)應(yīng)的所述特征標(biāo)簽相關(guān)聯(lián)。結(jié)合附圖對(duì)上述過程進(jìn)行說明,請(qǐng)參考圖3和圖4,圖3和圖4是圖I示出的方法中構(gòu)建條件模型的具體實(shí)施示意圖。需要說明的是,在進(jìn)行如圖3和圖4中示出的有關(guān)條件構(gòu)筑的操作之前,可以根據(jù)所述文檔屬性和/或引用文獻(xiàn)從所有的法院判決書中進(jìn)行初選,例如選擇發(fā)文作者為“朝陽(yáng)區(qū)人民法院”的文檔屬性,即可從該所有法院判決書中獲得一個(gè)子集,該子集包括了朝陽(yáng)區(qū)人民法院發(fā)出的所有判決書。圖3示出了一個(gè)可視化圖形界面,其中包括代表所述條件模型的圖形區(qū)域30和代表多個(gè)特征標(biāo)簽的多個(gè)圖形元素40,該圖形區(qū)域30中包括代表所述條件模型的三個(gè)類別的固定區(qū)域31、固定區(qū)域32和固定區(qū)域33。圖3示出的實(shí)施例中所述文檔集合是大量法院判決書構(gòu)成的集合。所述條件模型的描述是“盜竊金額”,即根據(jù)該描述的語(yǔ)言含義可知構(gòu)建此條件模型的目的是為了找出相關(guān)盜竊案件的這一類法院判決書并對(duì)其按照金額進(jìn)行分類。在此之前,已從每一所述法院判決書中提取所述關(guān)鍵字這一特征值,并生成相應(yīng)的特征標(biāo)簽。圖3中的多個(gè)圖形元素40示出了所述特征標(biāo)簽,典型地,浮動(dòng)在所述圖形元素 40上的說明文字與所述關(guān)鍵字一致,因此可以清晰地表明其代表的所述關(guān)鍵字的含義,由所述特征標(biāo)簽可知,從所述法院判決書組成的集合中提取出來的關(guān)鍵字包括“盜竊案”、“盜竊數(shù)額較大”、“盜竊數(shù)額巨大”、“入室盜竊”、“盜竊數(shù)額特別巨大”、“專利權(quán)侵權(quán)”、“著作權(quán)侵權(quán)”、“慣犯”、“非慣犯”。下一步,將所述條件模型“盜竊金額”的三個(gè)類別分別與所述特征標(biāo)簽相關(guān)聯(lián)。請(qǐng)參考圖4,由于上述三個(gè)類別均是描述盜竊案件的金額特征,根據(jù)語(yǔ)言使用習(xí)慣,上述三個(gè)類別中應(yīng)包括“盜竊數(shù)額較大”等特征標(biāo)簽,進(jìn)一步地將所述“盜竊數(shù)額較大”等特征標(biāo)簽與所述三個(gè)類別相關(guān)聯(lián),具體方法可以如下實(shí)現(xiàn)將代表特征標(biāo)簽“盜竊數(shù)額較大”等特征標(biāo)簽的活動(dòng)的圖形元素40拖拽至代表每一所述類別的固定區(qū)域31、固定區(qū)域32和固定區(qū)域33中,即實(shí)現(xiàn)了上述三個(gè)類別包括了關(guān)于盜竊金額的特征標(biāo)簽所對(duì)應(yīng)的所有法院判決書,形成如圖4中示出的情況。完成圖4示出的操作處理后,由于所有特征標(biāo)簽與法院判決書的對(duì)應(yīng)關(guān)系已確定,每一所述類別也可以根據(jù)其關(guān)聯(lián)的特征標(biāo)簽確定其包括的法院判決書。以第一類別為例,其關(guān)聯(lián)的特征標(biāo)簽“盜竊數(shù)額特別巨大”對(duì)應(yīng)的所有法院判決書。圖4中示出的條件模型“盜竊金額”的三個(gè)類別是用于描述盜竊案件通過盜竊金額來進(jìn)行區(qū)分的三種情況的法院判決書,上述三個(gè)類別包括的法院判決書應(yīng)針對(duì)法院判決書集合的全集或子集互斥。例如“盜竊案”非空子集對(duì)應(yīng)10份法院判決書。通過分析上述10 份法院判決書的特征標(biāo)簽對(duì)其具體所述情況進(jìn)行判定,判斷為上述10份法院判決書中有5 份構(gòu)成的第一類別屬于盜竊數(shù)額特別巨大的情況,有3份構(gòu)成第二類別屬于盜竊數(shù)額巨大的情況,還有2份構(gòu)成的第三子集屬于盜竊數(shù)額較大的情況。但有時(shí),一份判決書可能同時(shí)討論“盜竊數(shù)額巨大”和“盜竊數(shù)額較大”兩個(gè)問題,因此具有兩個(gè)相應(yīng)的特征標(biāo)簽,然而法院將案件定性為其中之一(法院對(duì)該判決書的定性說明通常記載在該判決書的正文內(nèi)容中),例如“盜竊數(shù)額較大”,因此需要根據(jù)正文內(nèi)容將該篇判決書相應(yīng)調(diào)整至對(duì)應(yīng)類別,以保證第一類別、第二類別和第三類別包括的法院判決書形成的集合兩兩互斥。在這種情況下,可提供一用于支持上述調(diào)整功能的展示窗口,用于展示該篇判決書的正文內(nèi)容以方便用戶閱讀。根據(jù)上述操作邏輯可知,用于條件構(gòu)筑的類別和特征標(biāo)簽并不總是具有一一對(duì)應(yīng)的關(guān)系,因此條件構(gòu)筑的所述類別可以容納多個(gè)特征標(biāo)簽及其所對(duì)應(yīng)文檔的并集。在此情況下,優(yōu)選地,條件構(gòu)筑仍要保持各類別的互斥。為了保持各類別的互斥,通常一個(gè)所述特征標(biāo)簽不能同時(shí)拖入多個(gè)類別中,但是可以由于上述調(diào)整功能而落入不同的類別中?;谏鲜鰳?gòu)建條件模型的跨平臺(tái)性和易用性的考慮,可以將其在實(shí)施在B/S模式的系統(tǒng)中,服務(wù)器生成所述可視化圖形界面,并發(fā)送至客戶端的瀏覽器上顯示,通過所述客戶端的瀏覽器發(fā)出拖拽圖形元素40的操作以實(shí)現(xiàn)上述關(guān)聯(lián)過程。一個(gè)實(shí)施例中,可以將上述服務(wù)器和客戶端集成在單一物理設(shè)備中,以實(shí)現(xiàn)單機(jī)應(yīng)用。圖3和圖4示出的實(shí)施例詳細(xì)說明了步驟S300的一種具體實(shí)施場(chǎng)景。在完成步驟S300后,所述條件模型的每一類別所包括的文檔已確定,因此可以根據(jù)上述包括關(guān)系對(duì)所述全集或非空子集進(jìn)行分類。所述文檔集合可以構(gòu)建多個(gè)所述條件模型進(jìn)行多方面地分類。所述條件模型只是在單一維度上對(duì)所述文檔集合進(jìn)行了分類,如果想在多個(gè)維度上對(duì)所述文檔集合進(jìn)行分類,則可以在已構(gòu)建條件模型上的基礎(chǔ)上構(gòu)建復(fù)雜分類模型,所述復(fù)雜分類模型包括所述條件模型的多個(gè)類別,因此構(gòu)建復(fù)雜分類模型后對(duì)所述文檔集合形成多維分類。相應(yīng)地,本發(fā)明提供了一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng),圖5 是根據(jù)本發(fā)明的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng)500的一種具體實(shí)施方式
的結(jié)構(gòu)示意圖,該系統(tǒng)500包括標(biāo)簽?zāi)K510,用于分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;選取模塊520,用于選取所述文檔集合的全集或非空子集;條件構(gòu)建模塊530,用于構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔。本說明書中對(duì)于系統(tǒng)500部分的描述中出現(xiàn)的術(shù)語(yǔ)及工作流程,其具體解釋可以參考本說明書關(guān)于對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法的描述中相關(guān)部分的內(nèi)容。系統(tǒng)500處理的文檔集合存儲(chǔ)在文檔管理系統(tǒng)600內(nèi),在本實(shí)施例中,文檔管理系統(tǒng)600設(shè)置在單獨(dú)的運(yùn)行環(huán)境中,例如設(shè)置在一個(gè)服務(wù)器或服務(wù)器集群中。在另一個(gè)實(shí)施例中,文檔管理系統(tǒng)600可集成在系統(tǒng)500內(nèi)。接下來具體對(duì)系統(tǒng)500進(jìn)行說明,所述特征值包括文檔屬性、引用文獻(xiàn)、關(guān)鍵字和其他附屬信息中任意一種或其組合。其中,文檔屬性包括發(fā)文時(shí)間和發(fā)文單位;所述引用文獻(xiàn)包括法律、行政法規(guī)、地方性法規(guī)或其他法律文獻(xiàn)中任意一種或其組合;所述關(guān)鍵字包括在所述每一所述文檔內(nèi)預(yù)定部分出現(xiàn)的詞語(yǔ);在所述每一文檔內(nèi)出現(xiàn)的數(shù)據(jù)庫(kù)中預(yù)置的詞語(yǔ),和/或在所述每一文檔的正文內(nèi)出現(xiàn)次數(shù)超過預(yù)定閾值的詞語(yǔ)。選取模塊520包括接收單元521和選取單元522,其中,接收單元521,用于接收用戶針對(duì)所述特征值的操作;選取單元522,用于根據(jù)所述操作選取所述文檔集合中的特定文檔組成所述全集或非空子集。設(shè)置選取模塊520的目的是對(duì)所述文檔集合進(jìn)行初選,以提高分類的準(zhǔn)確性和效率。條件構(gòu)建模塊530包括圖形單元531和關(guān)聯(lián)單元532,其中,圖形單元531,用于生成可視化圖形界面,該可視化圖形界面中包括多個(gè)固定區(qū)域和多個(gè)可活動(dòng)圖形元素,每一固定區(qū)域?qū)?yīng)一個(gè)所述類別,每一所述圖形元素對(duì)應(yīng)一個(gè)所述特征標(biāo)簽;關(guān)聯(lián)單元532, 用于接收用戶針對(duì)所述圖形元素的操作,根據(jù)該操作將所述圖形元素移動(dòng)至所述固定區(qū)域內(nèi),并將每一所述固定區(qū)域?qū)?yīng)的所述類別判定為與該固定區(qū)域內(nèi)的一個(gè)或多個(gè)圖形元素對(duì)應(yīng)的所述特征標(biāo)簽相關(guān)聯(lián)。典型地,所述用戶針對(duì)所述圖形元素的操作包括針對(duì)所述圖形元素的拖拽操作。優(yōu)選地,條件構(gòu)建模塊530還包括調(diào)整單元533,該調(diào)整單元533用于調(diào)整每一所述類別包括的文檔,令任意兩個(gè)所述類別包括的文檔針對(duì)所述全集或非空子集互斥。優(yōu)選地,系統(tǒng)500還包括復(fù)雜分類模型構(gòu)建模塊540,用于構(gòu)建復(fù)雜分類模型,該復(fù)雜分類模型包括多個(gè)所述類別及其包括的全部或部分文檔。 在優(yōu)選的實(shí)施例中,系統(tǒng)500實(shí)施為計(jì)算機(jī)程序產(chǎn)品,上述計(jì)算機(jī)程序產(chǎn)品的實(shí)施例可以通過使用用于計(jì)算機(jī)可讀信息的任何記錄介質(zhì)來實(shí)現(xiàn),所述記錄介質(zhì)包括磁介質(zhì)、光介質(zhì)或其他適合的介質(zhì)。進(jìn)一步地,系統(tǒng)500實(shí)施為B/S架構(gòu)。本發(fā)明提供的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法可以使用可編程邏輯器件來實(shí)現(xiàn),也可以實(shí)施為計(jì)算機(jī)程序軟件,例如根據(jù)本發(fā)明的實(shí)施例可以是一種計(jì)算機(jī)程序產(chǎn)品,運(yùn)行該程序產(chǎn)品使計(jì)算機(jī)執(zhí)行用于所示范的方法。所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該介質(zhì)上包含計(jì)算機(jī)程序邏輯或代碼部分,用于實(shí)現(xiàn)對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法的各個(gè)步驟。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是被安裝在計(jì)算機(jī)中的內(nèi)置介質(zhì)或者可從計(jì)算機(jī)主體拆卸的可移動(dòng)介質(zhì)(例如熱拔插技術(shù)存儲(chǔ)設(shè)備)。 所述內(nèi)置介質(zhì)包括但不限于可重寫的非易失性存儲(chǔ)器,例如RAM、ROM、快閃存儲(chǔ)器和硬盤。 所述可移動(dòng)介質(zhì)包括但不限于光存儲(chǔ)媒體(例如CD-ROM和DVD)、磁光存儲(chǔ)媒體(例如 MO)、磁存儲(chǔ)媒體(例如盒帶或移動(dòng)硬盤)、具有內(nèi)置的可重寫的非易失性存儲(chǔ)器的媒體(例如存儲(chǔ)卡)和具有內(nèi)置ROM的媒體(例如ROM盒)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,任何具有適當(dāng)編程裝置的計(jì)算機(jī)系統(tǒng)都將能夠執(zhí)行包含在程序產(chǎn)品中的本發(fā)明的方法的諸步驟。盡管本說明書中描述的多數(shù)具體實(shí)施方式
都側(cè)重于軟件程序,但是作為固件和硬件實(shí)現(xiàn)本發(fā)明提供的方法的替代實(shí)施例同樣在本發(fā)明要求保護(hù)的范圍之內(nèi)。本發(fā)明提供的對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法以及系統(tǒng),根據(jù)文檔來生成特征標(biāo)簽,該特征標(biāo)簽和文檔之間存在對(duì)應(yīng)關(guān)系,再構(gòu)建條件模型,所述條件模型的每一類別中包括一個(gè)或多個(gè)所述特征標(biāo)簽,根據(jù)所述對(duì)應(yīng)關(guān)系可以確定該條件模型下包括的文檔。所述條件模型即實(shí)現(xiàn)了在單一維度上對(duì)所述文檔集合的簡(jiǎn)單分類,若組合多個(gè)所述條件模型的類別,則可以在多維度上實(shí)現(xiàn)對(duì)所述文檔集合的復(fù)雜分類。上述方法和系統(tǒng)易于操作,自動(dòng)化程度高,不僅降低了文檔分類的時(shí)間復(fù)雜度,還實(shí)現(xiàn)了對(duì)大量文檔進(jìn)行多維度分類管理。以上所揭露的僅為本發(fā)明的一些較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
權(quán)利要求
1.一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法,該方法包括分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;選取所述文檔集合的全集或非空子集;構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔;根據(jù)所述條件模型對(duì)所述全集或非空子集中包括的文檔進(jìn)行分類。
2.根據(jù)權(quán)利要求I所述的方法,其中調(diào)整每一所述類別包括的文檔,令任意兩個(gè)所述類別包括的文檔針對(duì)所述全集或非空子集互斥。
3.根據(jù)權(quán)利要求I所述的方法,該方法還包括構(gòu)建復(fù)雜分類模型,該復(fù)雜分類模型包括一個(gè)或多個(gè)所述類別及其包括的全部或部分文檔。
4.根據(jù)權(quán)利要求I所述的方法,其中,選取所述文檔集合的全集或非空子集包括 根據(jù)用戶針對(duì)所述特征值的操作選取所述文檔集合中的特定文檔組成所述全集或非空子集。
5.根據(jù)權(quán)利要求I或4所述的方法,其中,所述特征值包括文檔屬性、引用文獻(xiàn)、關(guān)鍵字和其他附屬信息中任意一種或其組合。
6.根據(jù)權(quán)利要求5所述的方法,其中所述文檔屬性包括發(fā)文時(shí)間和發(fā)文單位。
7.根據(jù)權(quán)利要求5所述的方法,其中所述引用文獻(xiàn)包括法律、行政法規(guī)、地方性法規(guī)和其他法律文獻(xiàn)中任意一種或其組合, 并可以具體到其中的特定組成部分。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述關(guān)鍵字包括在所述每一文檔內(nèi)預(yù)定部分出現(xiàn)的詞語(yǔ);在所述每一文檔內(nèi)出現(xiàn)的數(shù)據(jù)庫(kù)中預(yù)置的詞語(yǔ);和/或在所述每一文檔的正文內(nèi)出現(xiàn)次數(shù)超過預(yù)定閾值的詞語(yǔ)。
9.根據(jù)權(quán)利要求I所述的方法,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽包括 生成可視化圖形界面,該可視化圖形界面中包括多個(gè)固定區(qū)域和多個(gè)可活動(dòng)圖形元素,每一固定區(qū)域?qū)?yīng)一個(gè)所述類別,每一所述圖形元素對(duì)應(yīng)一個(gè)所述特征標(biāo)簽;接收用戶針對(duì)所述圖形元素的操作,根據(jù)該操作將所述圖形元素移動(dòng)至所述固定區(qū)域內(nèi);將每一所述固定區(qū)域?qū)?yīng)的所述類別判定為與該固定區(qū)域內(nèi)的一個(gè)或多個(gè)圖形元素對(duì)應(yīng)的所述特征標(biāo)簽相關(guān)聯(lián)。
10.根據(jù)權(quán)利要求9所述的方法,其中所述可視化圖形界面由服務(wù)器生成,并發(fā)送至客戶端的瀏覽器上顯示;用戶針對(duì)所述圖形元素的操作包括針對(duì)所述圖形元素的拖拽操作。
11.一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng),該系統(tǒng)包括標(biāo)簽?zāi)K,用于分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;選取模塊,用于選取所述文檔集合的全集或非空子集;條件構(gòu)建模塊,用于構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述條件構(gòu)建模塊包括調(diào)整單元,用于調(diào)整每一所述類別包括的文檔,令任意兩個(gè)所述類別包括的文檔針對(duì)所述全集或非空子集互斥。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),該系統(tǒng)還包括復(fù)雜分類模型構(gòu)建模塊,用于構(gòu)建復(fù)雜分類模型,該復(fù)雜分類模型包括一個(gè)或多個(gè)所述類別及其包括的全部或部分文檔。
14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述選取模塊包括接收單元,用于接收用戶針對(duì)所述特征值的操作;選取單元,用于根據(jù)所述操作選取所述文檔集合中的特定文檔組成所述全集或非空子集。
15.根據(jù)權(quán)利要求11或14所述的系統(tǒng),其中,所述特征值包括文檔屬性、引用文獻(xiàn)、關(guān)鍵字和其他附屬信息中任意一種或其組合。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述文檔屬性包括發(fā)文時(shí)間和發(fā)文單位。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述引用文獻(xiàn)包括法律、行政法規(guī)、地方性法規(guī)和其他法律文獻(xiàn)中任意一種或其組合, 并可以具體到其中的特定組成部分。
18.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述關(guān)鍵字包括在所述每一文檔內(nèi)預(yù)定部分出現(xiàn)的詞語(yǔ);在所述每一文檔內(nèi)出現(xiàn)的數(shù)據(jù)庫(kù)中預(yù)置的詞語(yǔ);和/或在所述每一文檔的正文內(nèi)出現(xiàn)次數(shù)超過預(yù)定閾值的詞語(yǔ)。
19.根據(jù)權(quán)利要求11或12所述的系統(tǒng),其中,所述條件構(gòu)建模塊包括圖形單元,用于生成可視化圖形界面,該可視化圖形界面中包括多個(gè)固定區(qū)域和多個(gè)可活動(dòng)圖形元素,每一固定區(qū)域?qū)?yīng)一個(gè)所述類別,每一所述圖形元素對(duì)應(yīng)一個(gè)所述特征標(biāo)簽;關(guān)聯(lián)單元,用于接收用戶針對(duì)所述圖形元素的操作,根據(jù)該操作將所述圖形元素移動(dòng)至所述固定區(qū)域內(nèi),并將每一所述固定區(qū)域?qū)?yīng)的所述類別判定為與該固定區(qū)域內(nèi)的一個(gè)或多個(gè)圖形元素對(duì)應(yīng)的所述特征標(biāo)簽相關(guān)聯(lián)。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其中所述用戶針對(duì)所述圖形元素的操作包括針對(duì)所述圖形元素的拖拽操作。
全文摘要
本發(fā)明提供了一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的方法,該方法包括分析所述文檔集合,從該文檔集合中的每一文檔內(nèi)抽取特征值,并根據(jù)該特征值生成特征標(biāo)簽,每一所述特征標(biāo)簽對(duì)應(yīng)所述文檔集合中的一個(gè)或多個(gè)文檔;選取所述文檔集合的全集或非空子集;構(gòu)建條件模型,該條件模型包括多個(gè)類別,每一所述類別關(guān)聯(lián)一個(gè)或多個(gè)所述特征標(biāo)簽以及包括該一個(gè)或多個(gè)特征標(biāo)簽在所述全集或非空子集內(nèi)對(duì)應(yīng)的全部或部分文檔;根據(jù)所述條件模型對(duì)所述全集或非空子集中包括的文檔進(jìn)行分類。相應(yīng)地,本發(fā)明還提供了一種對(duì)文檔管理系統(tǒng)中的文檔集合進(jìn)行分類的系統(tǒng)。實(shí)施本發(fā)明可以降低文檔分類的時(shí)間復(fù)雜度以及實(shí)現(xiàn)對(duì)大量文檔按照任意需求進(jìn)行多維度分類管理。
文檔編號(hào)G06F17/30GK102591920SQ201110427970
公開日2012年7月18日 申請(qǐng)日期2011年12月19日 優(yōu)先權(quán)日2011年12月19日
發(fā)明者劉松濤 申請(qǐng)人:劉松濤