專利名稱:采用凍結(jié)模式的文本分類裝置、方法及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種裝置、方法以及存儲(chǔ)程序的存儲(chǔ)設(shè)備或存儲(chǔ)介質(zhì),該程序用來使計(jì)算機(jī)通過包含在文檔中的凍結(jié)模式來將文件分類到每一種文件類型。
背景技術(shù):
有很多方法被用來從多個(gè)的電子文檔中提取信息。然而,存在不同的文檔類型,例如,(1)具有正確語法的語句的正式撰寫的文檔,例如報(bào)紙上的文章;(2)具有語法錯(cuò)誤但可以理解并且經(jīng)常包括一些口頭語言的語句等的不太正式的文檔,例如電子公告板上的評(píng)論;(3)匆忙書寫就的很不正式的文檔,例如日?qǐng)?bào)。據(jù)我們所知,沒有哪種文檔處理技術(shù)能夠統(tǒng)一處理這些不同類型的文檔,因此給每一種文檔類型選擇一種合適的文檔處理技術(shù)是必要的。因而將文檔分類到每一種文檔類型也是必要的。
一種已知的文檔分類方法根據(jù)出現(xiàn)在文檔中的單詞的統(tǒng)計(jì)信息對(duì)文檔進(jìn)行分類。例如JP6-75995A等公開了一種使用某種類別文檔中相應(yīng)關(guān)鍵詞的出現(xiàn)頻率作為與該類別的相關(guān)度的方法。出現(xiàn)在某一類別的輸入文檔中的單詞的相關(guān)度被累加或組合以計(jì)算對(duì)于每一類別的相關(guān)度。輸入文檔被分入具有最大相關(guān)度的類別。在JP9-16570A中,根據(jù)是否存在文檔信息預(yù)先形成一個(gè)決定分類的決策樹。決策樹使用關(guān)鍵詞來決定分類。在JP11-45247A中,通過計(jì)算輸入文檔與某一類別中的典型文檔之間的相似度來給輸入文檔分類。其它重要的現(xiàn)有技術(shù)的非專利參考文獻(xiàn)是JP6-75995A;JP9-16570A;JP11-45247A;“自然語言處理”(由Makoto Nagao等,IwanamiShoten編輯);J.Ross.Quinlan,“C4.5,學(xué)習(xí)型機(jī)器程序設(shè)計(jì)”(MorganKaufman Pubiliser(1993));“在線學(xué)習(xí)和加速應(yīng)用的決策理論概述”(YoavFreund和Robert Schapire,計(jì)算機(jī)和系統(tǒng)科學(xué)學(xué)報(bào),55(1)119-139,1997)。
在這些方法中,文檔被分解為單詞單元。因此,為了獲得關(guān)鍵詞,對(duì)像日文或中文這類不是由單詞構(gòu)成語句的文檔執(zhí)行自然語言處理是必要的,所述處理例如是形態(tài)分析。
然而,由于存在不同的文檔類型,例如報(bào)紙文章、論文、電子郵件,即使通過使用詞典等對(duì)文檔執(zhí)行不同的自然語言處理,因?yàn)樯~、縮寫、書寫錯(cuò)誤、語法錯(cuò)誤等出現(xiàn)的不同程度的原因,很難把不同類型的文檔精確地分解為單詞單位。另外,由于這些方法主要使用一個(gè)單詞來指示內(nèi)容,例如一個(gè)名詞或關(guān)鍵詞,所以這些方法適于根據(jù)文檔的主題將其分類。但是這些現(xiàn)有的方法不適于通過文檔類型來分類文檔,例如將輸入文檔分為報(bào)紙文章類型、評(píng)論類型等等。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供一種新的、改進(jìn)的設(shè)備及方法,這種設(shè)備和方法根據(jù)文檔類型信息而非其主題通過文檔類型將文檔分類。
本發(fā)明的另一目的是根據(jù)原文分析而不依賴形態(tài)分析實(shí)現(xiàn)文檔分類。
在具有同一文檔類型的一組文檔中,對(duì)于表達(dá)方式(expressions)、句尾(ends of words)等等建立普通的特征模式。依據(jù)本發(fā)明的一個(gè)方面,經(jīng)常以這種方式出現(xiàn)在每一文檔類型中的凍結(jié)模式(以下稱為“特殊類型凍結(jié)模式”)被作為每種文檔類型的參考詞典。對(duì)于一個(gè)未分類的輸入文檔,根據(jù)出現(xiàn)在文檔中特殊類型凍結(jié)模式的外部狀態(tài),凍結(jié)模式列表被提取。對(duì)于每一文檔類型根據(jù)凍結(jié)模式列表計(jì)算其置信度。根據(jù)文檔分類的置信度確定輸入文檔所屬的文檔類型。
如上所述,依據(jù)本發(fā)明的一個(gè)方面,實(shí)現(xiàn)按照文檔類型分類,而不是按照各文檔主題分類。通過把文檔分類到各種文檔類型,選擇適合于特定文檔類型的文檔處理。由于凍結(jié)模式是指一種文檔類型的特定表達(dá)方式,因此優(yōu)點(diǎn)是凍結(jié)模式受生詞和杜撰新詞等影響的可能性較小,而這些生詞和杜撰新詞等通常會(huì)導(dǎo)致文檔分類出現(xiàn)問題。
本發(fā)明的這些如上所述以及更進(jìn)一步的目的、特征和優(yōu)點(diǎn)通過下面具體實(shí)施方式
的詳細(xì)描述、特別是結(jié)合附圖的描述將會(huì)變得更加清楚明了。
圖1是包括本發(fā)明最佳實(shí)施例的文檔分類設(shè)備示意圖。
圖2是凍結(jié)模式信息析取裝置的示意圖。
圖3是文檔分類裝置示意圖。
圖4是文檔類型決策樹的示例圖,這個(gè)決策樹決定一個(gè)文檔是屬于文檔類型1還是其它的文檔類型。
圖5是決定文件類型的決策樹示例圖,這個(gè)決策樹用來輔助決定一個(gè)文檔是屬于文檔類型2還是其它的文檔類型。
圖6是特定類型凍結(jié)模式的示意圖,所述凍結(jié)模式被分為第一群組(cluster)和第二群組。
圖7是文件類型決策樹示例圖,其中這個(gè)決策數(shù)決定一個(gè)文檔是屬于文檔類型2還是其它文檔類型,這里文檔類型2被分成子群組(sub-clusters)。
圖8是根據(jù)本發(fā)明中最佳實(shí)施例的文檔分類算法流程圖。
圖9是實(shí)施本發(fā)明最佳實(shí)施例的設(shè)備模塊圖。
具體實(shí)施例方式
圖9是本發(fā)明的設(shè)備框圖,包括處理裝置外殼500,處理裝置包括存儲(chǔ)器510,中央處理單元(cpu)520,顯示部分530,輸入/輸出單元540。用戶把必要的信息輸入到輸入/輸出單元540中,中央處理單元520根據(jù)輸入/輸出單元540的輸入信息讀出存儲(chǔ)器510中的信息以便根據(jù)輸入信息執(zhí)行預(yù)定的處理和計(jì)算,并且在顯示器530上顯示處理和計(jì)算的結(jié)果。
圖1是文檔分類裝置模塊示意圖,包括特殊類型凍結(jié)模式詞典105,文檔類型決策樹裝置106,凍結(jié)模式信息析取裝置102,和文檔分類裝置103。特殊類型凍結(jié)模式詞典105存儲(chǔ)特殊類型凍結(jié)模式以便進(jìn)行特殊類型凍結(jié)模式的析取。文檔類型決策樹裝置106存儲(chǔ)文檔類型的分類規(guī)則。凍結(jié)模式信息析取裝置102析取包含在輸入文檔中的特殊類型凍結(jié)模式。析取裝置從文檔中析取模式并且把特殊類型凍結(jié)模式轉(zhuǎn)化為凍結(jié)模式列表的形式。通過使用存儲(chǔ)在文檔類型決策樹裝置106中的決策樹,文檔分類裝置103由凍結(jié)模式列表決定輸入文檔的文檔類型。
文檔類型分類的例子是(1)書寫屬于語法正確的文檔的介紹性的文章,(2)屬于用口頭語言的文檔的電子公告板,(3)屬于匆忙書寫的文檔的日?qǐng)?bào)。在本說明書中,將以介紹性文章的文檔類型(文檔類型1)和電子公告板的文檔類型(文檔類型2)作為要分類的文檔類型的例子。
圖2是圖1中凍結(jié)模式信息析取裝置102的模塊圖。凍結(jié)模式信息析取裝置102包括原文分析裝置202和凍結(jié)模式列表產(chǎn)生裝置203,分析裝置202用于析取輸入文檔中存在的特殊類型凍結(jié)模式。析取裝置102將輸入文檔轉(zhuǎn)化為凍結(jié)模式列表。原文分析裝置202對(duì)輸入文檔的每一個(gè)句子執(zhí)行文本綜合處理,同時(shí)參考特殊類型凍結(jié)模式詞典105(圖1),從而析取存在于句子中的特殊類型凍結(jié)模式。然后,凍結(jié)模式列表產(chǎn)生裝置203通過由原文分析裝置202析取的特殊類型凍結(jié)模式將輸入文檔的每一個(gè)句子轉(zhuǎn)化為每種文檔類型的凍結(jié)模式列表。
每種文檔類型的特殊類型凍結(jié)模式被存儲(chǔ)在供原文分析裝置202參考的特殊類型凍結(jié)模式詞典中。下面表1中顯示的是文檔類型1的特殊類型凍結(jié)模式的例子。
表1.です。
.レてぃます。
.では.この.である。
.ですが、下面,表2中顯示的是存儲(chǔ)在特殊類型凍結(jié)模式詞典105中的文檔類型2的特殊類型凍結(jié)模式的例子。
表2.つて.ですね。
.つた。
.なんで.んで.でレよぅか?.かな?要存儲(chǔ)在特殊類型凍結(jié)模式詞典105中的特殊類型凍結(jié)模式從一組文檔中自動(dòng)析取。文檔被預(yù)先分類到每種文檔類型。分類后的文檔作為特殊類型凍結(jié)模式詞典105被存儲(chǔ)。
析取方法的第一個(gè)步驟是從一組文檔中析取字符串,所述字符串是任意長度字符串中具有較高的出現(xiàn)頻率。析取的字符串被作為候選的字符串。在“自然語言處理”(由Makoto Nagao等,Iwanami shoten編輯)中詳細(xì)描述了一個(gè)有效計(jì)算任意長度字符串的頻率統(tǒng)計(jì)信息的方法。對(duì)于每一個(gè)候選字符,候選字符串的前面熵Ef從鄰近候選字符串前部的字符串集合(Wf={Wf1,Wf2,...,Wfn})計(jì)算,而候選字符串的后面熵Er從鄰近候選字符串后部的字符串集合(Wr={Wr1,Wr2,...,Wrm)計(jì)算。Wf和Wr根據(jù)表達(dá)式(1)-(4)進(jìn)行計(jì)算。
表達(dá)式1(1)---Ef=-Σi=1i⇐nPf(S,wfi)×logPf(s,wfi)]]>表達(dá)式2(2)---Ef=-Σi=1i⇐mPf(S,wri)×logPr(s,wri)]]>表達(dá)式3(3)---Pf(S,wfi)=f(wfiS)f(S)]]>表達(dá)式4(4)---Pr(S,wri)=f(Swfi)f(S)]]>在表達(dá)式(1)到(4)中,S是一個(gè)候選字符串,f(S)是候選字符串的出現(xiàn)次數(shù),f(wfiS)是字符串wfiS的次數(shù),wfi鄰近于S的前部,而f(Swri)是字符串Swri的出現(xiàn)次數(shù),wri鄰近于S的后部。如果字符串S前面鄰近于不同的字符串并且出現(xiàn)的可能性相同;也就是說,如果在字符串的前部有一個(gè)表達(dá)式的界限,熵的表達(dá)式(1)就具有一個(gè)大的值。相反地,如果字符串S鄰近于較少種類的字符串并且出現(xiàn)的可能性不相同;也就是說,如果字符串S是一個(gè)包括鄰近字符的較大的表達(dá)式的一部分,字符串就具有一個(gè)小的值。類似的,表達(dá)式(2)的熵具有(1)一個(gè)大的值,如果在字符串S的后部具有一個(gè)表達(dá)式界限;(2)一個(gè)小的值,如果字符串S是一個(gè)較大的表達(dá)式的一部分。然后,只有一個(gè)前面和后面的熵都大于適當(dāng)?shù)拈撝档暮蜻x字符串作為特殊類型凍結(jié)模式被析取。
表3是從屬于文檔類型1的一組文檔中獲得的候選字符串及其熵的例子。而表4是從屬于文檔類型2的一組文檔中獲得的候選字符串及其熵的例子。
表3
表4
凍結(jié)模式列表產(chǎn)生裝置203為每一個(gè)句子產(chǎn)生一個(gè)凍結(jié)模式列表。例如,在輸入文檔具有N個(gè)句子并且存在M個(gè)要分類的文檔類型的情況下,凍結(jié)模式列表產(chǎn)生裝置203產(chǎn)生N×M的凍結(jié)模式列表。產(chǎn)生的每一個(gè)凍結(jié)模式列表是這樣一個(gè)列表,其中,列舉了對(duì)于每種文檔類型的存儲(chǔ)在特殊類型凍結(jié)模式詞典105中的特殊格凍結(jié)模式中出現(xiàn)在每個(gè)句子中的特殊類型模式。在該文檔中,“なんでライセンスにこだわるのかな?Joi′x”將被作為輸入的例句1。表5是在輸入例句1被分類時(shí)對(duì)于文檔類型1和文檔類型2的凍結(jié)模式列表表5
文檔類型1{}文檔類型2{なんで、んで、かな?}圖3是文檔分類裝置103的模塊圖。文檔分類裝置包括文檔類型置信度計(jì)算裝置302,用來使用決策樹(文檔類型決策樹)計(jì)算每一個(gè)文檔類型的置信度(文檔類型置信度);文檔類型相似度計(jì)算裝置303,用來由文檔類型置信度計(jì)算每一個(gè)文檔類型的相似度(文檔類型相似度);和文檔類型決定裝置304,用來根據(jù)文檔類型相似度確定輸入文檔的文檔類型。
每種文檔類型的決策樹被存儲(chǔ)在供文檔類型置信度計(jì)算裝置302參考的文檔類型決策樹集合中。文檔類型決策樹具有為每種文檔類型析取的作為特征的特殊類型凍結(jié)模式,并且查找在那一點(diǎn)的文檔類型的分類和置信度。存在兩種類別的文檔類型可供對(duì)輸入文檔通過決策樹進(jìn)行分類。例如,在文檔類型1的決策樹的情況下,類別是文檔類型1和其他的文檔類型。文檔類型決策樹從對(duì)于每種文檔類型所分類的一組文檔中獲得。
決策樹算法根據(jù)從具有特征向量和類別的數(shù)據(jù)集合得到的理論標(biāo)準(zhǔn)信息產(chǎn)生樹形式的分類規(guī)則。通過按照特征把數(shù)據(jù)集合遞歸地進(jìn)行劃分可以完成決策樹的結(jié)構(gòu)。關(guān)于決策樹在J.Ross.Quinlan的“C4.5,學(xué)習(xí)型機(jī)器程序設(shè)計(jì)”(Morgan Kaufman Pubiliser(1993))等相關(guān)文獻(xiàn)中有詳細(xì)描述。使用同樣的方法,例如文檔類型1的文檔類型決策樹通過產(chǎn)生由特征向量表示的數(shù)據(jù)集合和文檔類型1所屬的類別(文檔類型1/另一個(gè)文檔類型)而被建立,其特征在于文檔類型1的特殊類型凍結(jié)模式。
圖4是一種文檔類型決策樹示意圖,其用于將文檔分類成具有特殊類型凍結(jié)模式(表1)的文檔類型1或其它的文檔類型,以將文檔類型1作為其特征。圖5是另一種文檔類型決策樹示意圖,其用于將文檔分類成具有特殊類型凍結(jié)模式(表2)的文檔類型2或其它的文檔類型,以將文檔類型2作為其特征。圖4和圖5中每一個(gè)節(jié)點(diǎn)下面所示的凍結(jié)模式表示了用于分類分配到每一個(gè)節(jié)點(diǎn)的數(shù)據(jù)的特征。每一個(gè)分支所附加的“是/否”代表與數(shù)據(jù)分類相應(yīng)的特征值。節(jié)點(diǎn)/葉的上半部分顯示的值代表了分配給該節(jié)點(diǎn)/葉的數(shù)據(jù)所屬的類別。另外,節(jié)點(diǎn)/葉的下半部分顯示的值代表了數(shù)據(jù)的可能性(置信度)。通過使用數(shù)據(jù)的分類頻率分布,計(jì)算出該值,所述數(shù)據(jù)分配到屬于由節(jié)點(diǎn)/葉的上半部分所表示的分類的每一個(gè)節(jié)點(diǎn)/葉。當(dāng)某個(gè)塊不具有向下延伸的分支時(shí),這個(gè)塊稱作“葉”。當(dāng)某個(gè)塊具有向下延伸的分支時(shí),這個(gè)塊稱作“節(jié)點(diǎn)”。
輸入句子所屬的文檔類型以及在那一點(diǎn)的置信度可以通過使用圖4和圖5的文檔類型決策樹進(jìn)行查找。對(duì)于輸入的例句“なんでライセンスにてだわるのかな?Joi′x”,從每個(gè)文檔類型決策樹獲得的文檔類型和置信度的結(jié)果顯示在表6中表6
由于輸入的例句1不包括文檔類型1的任何特殊類型凍結(jié)模式,文檔類型1作為輸入例句1所屬的類別被得到;根據(jù)沿著圖4中具有“否”特征值的分支(圖4(4-a)→(4-b)→(4-c)→(4-d)→(4-e)→(4-f))最終到達(dá)的葉,從文檔類型決策樹中得出0.533作為圖4中文檔類型的置信度。另外,由于輸入例句1包括文檔類型2的特殊類型凍結(jié)模式{“なんで”、“んで”、“かな”},文檔類型2能夠作為輸入例句1所屬的類別被查找,并且,根據(jù)沿著具有“是”的“なんで”的值的分支(圖5(5-a)→(5-b))最終到達(dá)的葉(圖5(5-b)),從文檔類型決策樹中得出1.00作為圖5中文檔類型2的置信度。
例如,在圖4中文檔類型1的文檔類型決策樹的情況下,由于文檔被分類到文檔類型1或者其他的文檔類型,并且給出所分類的文檔類型的置信度,如果文檔被分類到其它的文檔類型,文檔類型1的置信度不會(huì)從文檔類型決策樹獲得。因此,如果文檔被分類到其它的文檔類型,文檔類型1的置信度“C’”通過使用其它的文檔類型的置信度“C”來計(jì)算,并且C’被用作文檔類型1的置信度的值。
表達(dá)式5(5)C’=1-C表6是輸入例句1的置信度的例子。在表6中,對(duì)于輸入例句1,文檔類型1的置信度通過使用圖4中文檔類型決策樹進(jìn)行計(jì)算,而文檔類型2的置信度通過使用圖5中文檔類型決策樹進(jìn)行計(jì)算。輸入例句1是文檔類型2中的句子。正如圖6中顯示的結(jié)果那樣,文檔類型2的置信度高于文檔類型1的置信度。然而,通常來說,僅僅使用一個(gè)決策樹不能實(shí)現(xiàn)高性能的分類。一個(gè)已知的提高分類性能的方法包括在學(xué)習(xí)型機(jī)器領(lǐng)域內(nèi)組合多個(gè)的分類裝置,例如決策樹。
在“在線學(xué)習(xí)和加速應(yīng)用的理論決策推廣”(Yoav Freund和RobertSchapire,計(jì)算機(jī)和系統(tǒng)科學(xué)學(xué)報(bào),55(1)119-139,1997)中含有組合多個(gè)的分類裝置的細(xì)節(jié)描述。一個(gè)相似的方法被用在圖1-9的分類裝置中,通過為每種文檔類型準(zhǔn)備多個(gè)的文檔類型決策樹,文檔類型的分類性能可望被提高。特別地,同一文檔類型的特殊類型凍結(jié)模式被分入多個(gè)數(shù)量的群組(cluster)。通過屬于每一群組作為特征的特殊類型凍結(jié)模式,獲得每一群組的文檔類型決策樹。對(duì)于每種文檔類型,準(zhǔn)備了多個(gè)的文檔類型決策樹。作為一種分組方法,由于從同一文檔類型的一組文檔析取的特殊類型凍結(jié)模式包括特殊類型凍結(jié)模式,該特殊類型凍結(jié)模式是可能出現(xiàn)在同一文檔中作為一定的特殊類型凍結(jié)模式的特殊類型凍結(jié)模式和較少出現(xiàn)在文檔中的特殊類型凍結(jié)模式,這種特殊類型凍結(jié)模式通過在可能出現(xiàn)在同一文檔中的特殊類型凍結(jié)模式中執(zhí)行群集(clustering)來分組。圖6是一個(gè)通過將文檔類型2的特殊類型凍結(jié)模式分組為可能出現(xiàn)在同一文檔中的特殊類型凍結(jié)模式而獲得的群組(clusters)的示例圖。
圖5中顯示的決策樹是一個(gè)從屬于圖6的群集1的特殊文檔類型凍結(jié)模式作為特征中獲得的文檔類型決策樹。然后,文檔類型決策樹由作為特征屬于該群組的特殊文檔類型凍結(jié)模式形成,借此可以為每種文檔類型準(zhǔn)備多個(gè)的文檔類型決策樹。圖7是一個(gè)決策樹的示意圖,得到該決策樹,以通過圖6所示群組2的作為特征的特殊類型凍結(jié)模式及包括凍結(jié)模式以及作為獲得數(shù)據(jù)的其它文檔類型,來決定文檔是屬于文檔類型2還是其它文檔類型。
參照?qǐng)D8的流程圖,文檔分類裝置的運(yùn)行過程描述如下400輸入一個(gè)文檔D401析取M×N凍結(jié)模式列表Vij,這里i(可供分類的文檔類型的數(shù)目)=M并且j(文檔中句子的數(shù)目)=N402初始化設(shè)置
403M次重復(fù)i404N次重復(fù)j405使用由凍結(jié)模式列表Vij得到的文檔類型決策樹計(jì)算置信度向量Cij406計(jì)算第j個(gè)句子對(duì)于文檔類型i的類型相似度Lij407改變變量j408計(jì)算文檔類型i對(duì)于輸入文檔的文檔類型相似度SLi409改變變量i410把具有最大文檔類型相似度的文檔類型作為輸入文檔的文檔類型411結(jié)束文檔分類裝置最初接收一個(gè)M×N的凍結(jié)模式列表V,該列表在凍結(jié)模式的信息析取裝置中從輸入文檔中得到。然后,在步驟405中,置信度向量Cij=(Cij1,Cij2,...,Cijk,...,Cijl)由存儲(chǔ)在文檔類型決策樹集合中的文檔類型i的文檔類型決策樹計(jì)算得到。向量Cij由文檔類型i的凍結(jié)模式列表Vij計(jì)算。這里,Cijk是對(duì)于第j個(gè)句子由文檔類型i的凍結(jié)模式列表利用第k個(gè)文檔類型決策樹計(jì)算得到的類型i的置信度,l是存儲(chǔ)在文檔類型決策樹集合中對(duì)于文檔類型i的文檔類型決策樹的數(shù)目。在此實(shí)施例中,由于文檔類型2被分為群組1和群組2,對(duì)于各自的群組1=2找到?jīng)Q策樹。隨后,在步驟406中,第j個(gè)句子對(duì)于文檔類型i的類型相似度Lij根據(jù)表達(dá)式6由置信度向量Cij計(jì)算得到。
表達(dá)式6(6)---Lij=Σk=1k⇐1αikCik]]>在表達(dá)式(6)中,αik是表示對(duì)于文檔類型i第k個(gè)文檔類型決策樹置信度的權(quán)重,給已滿足0≤αik≤1,∑αik=1的值。最好是,選擇對(duì)于計(jì)算的類型相似度Lij的訓(xùn)練文檔能夠得到最大的正確答案率的αik的值。對(duì)于輸入文檔D每個(gè)句子的文檔類型i的凍結(jié)模式列表Vij(1≤j≤N)重復(fù)執(zhí)行步驟405和406的處理。在步驟408中,在根據(jù)表達(dá)式7計(jì)算的N個(gè)類型相似度查找輸入文檔對(duì)于文檔類型i的文檔類型相似度SLi。
表達(dá)式7
(7)---SLij=Σj=1j⇐nβjLij]]>在表達(dá)式(7)中,Lij是第j個(gè)句子對(duì)于文檔類型i的類似相似度。βj表示每一個(gè)句子的權(quán)重,給出一個(gè)滿足0≤βj≤1、βj=1的值。最好是,對(duì)于計(jì)算的類型相似度SLi的訓(xùn)練文檔能夠得到最大的正確答案率的βj的值。對(duì)于每種文檔類型i(1≤i≤M)重復(fù)執(zhí)行步驟405到408的處理。然后,在步驟410中,從M個(gè)計(jì)算的文檔類型相似度SL中確定具有作為正確文檔類型的最大相似度的文檔類型作為輸入文檔的文檔類型。
雖然上面詳細(xì)說明了本發(fā)明的一個(gè)具體實(shí)施例,然而顯然,在不脫離后附權(quán)利要求所限定的本發(fā)明正確精神和范圍的情況下,可以對(duì)本發(fā)明具體實(shí)施方式
的細(xì)節(jié)做一些變化。例如,本發(fā)明適用于基于字母的語言并不局限于基于字符的語言,例如給出的日語例子。
權(quán)利要求
1.根據(jù)文檔類型對(duì)輸入文檔進(jìn)行分類的文檔分類設(shè)備,包括處理裝置,用于(a)產(chǎn)生特殊類型凍結(jié)模式以特征化文檔類型;(b)通過將輸入文檔與特殊類型固定模式進(jìn)行對(duì)照,從輸入文檔中析取為特征化列表的凍結(jié)模式;(c)根據(jù)凍結(jié)模式列表計(jì)算輸入文檔的文檔類型置信度;(d)根據(jù)計(jì)算的置信度決定輸入文檔所屬的文檔類型。
2.根據(jù)權(quán)利要求1的文檔分類設(shè)備,其中處理裝置被安排用來通過下列步驟產(chǎn)生特殊類型凍結(jié)模式以特征化文檔類型(a)使用屬于已知文檔類型的文檔集合來產(chǎn)生特殊類型凍結(jié)模式;(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
3.根據(jù)權(quán)利要求1的文檔分類設(shè)備,其中處理裝置被安排用來通過使用屬于已知文檔類型的被特殊類型凍結(jié)模式特征化的文檔集合,來查找文檔類型決策樹。
4.根據(jù)權(quán)利要求3的文檔分類設(shè)備,其中處理裝置被安排用來通過下列步驟產(chǎn)生特殊類型凍結(jié)模式以特征化輸入文檔(a)使用屬于已知文檔類型的文檔集合來產(chǎn)生特殊類型凍結(jié)模式;和(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的出現(xiàn)概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
5.根據(jù)權(quán)利要求4的文檔分類設(shè)備,其中特殊類型凍結(jié)模式被分為多個(gè)組,對(duì)于每一組作為特征的特殊類型凍結(jié)模式,查找文檔類型決策樹。
6.根據(jù)權(quán)利要求3的文檔分類設(shè)備,其中特殊類型凍結(jié)模式被分成多個(gè)組,對(duì)于每一組作為特征的特殊類型凍結(jié)模式,查找文檔類型決策樹。
7.一種特殊類型凍結(jié)模式產(chǎn)生設(shè)備,用來產(chǎn)生特征化一個(gè)文檔類型的特殊類型凍結(jié)模式,所述設(shè)備包括一種裝置,用于(a)通過使用屬于已知文檔類型的文檔集合來產(chǎn)生特殊類型凍結(jié)模式;(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的出現(xiàn)概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
8.一種文檔分類設(shè)備,用來把具有多個(gè)句子的輸入文檔根據(jù)文檔類型進(jìn)行分類,所述設(shè)備包括處理裝置,用于(a)產(chǎn)生與文檔類型相應(yīng)的特殊類型凍結(jié)模式;(b)把特殊類型凍結(jié)模式分成多個(gè)的組;(c)通過使用屬于已知文檔類型的文檔集合,由劃分成多個(gè)組的特殊類型凍結(jié)模式產(chǎn)生多個(gè)文檔類型決策樹;(d)使用相應(yīng)的特殊類型凍結(jié)模式組,為輸入文檔析取各自的凍結(jié)模式列表;(e)通過使用多個(gè)文檔類型決策樹,根據(jù)相應(yīng)的凍結(jié)模式列表來計(jì)算輸入文檔對(duì)于文檔類型的每個(gè)決策樹的置信度;以及(f)根據(jù)置信度決定輸入文檔所屬的文檔類型。
9.一種根據(jù)文檔類型將輸入文檔分類的方法,包括(a)產(chǎn)生特征化文檔類型的特殊類型凍結(jié)模式;(b)通過將輸入文檔與特殊類型凍結(jié)模式對(duì)照,從輸入文檔析取凍結(jié)模式列表;(c)根據(jù)凍結(jié)模式列表計(jì)算輸入文檔的文檔類型置信度;和(d)根據(jù)置信度決定輸入文檔所屬的文檔類型。
10.一種根據(jù)文檔類型將輸入文檔分類的方法,包括(a)產(chǎn)生特征化文檔類型的特殊類型凍結(jié)模式;(b)通過使用屬于已知文檔類型的文檔集合來查找文檔類型決策樹;(c)通過將輸入文檔與特殊類型凍結(jié)模式對(duì)照,從輸入文檔析取凍結(jié)模式列表;(d)通過使用文檔類型決策樹,根據(jù)凍結(jié)模式列表來計(jì)算輸入文檔的文檔類型置信度;(e)根據(jù)計(jì)算后的置信度決定輸入文檔所屬的文檔類型。
11.一種存儲(chǔ)文檔分類程序的存儲(chǔ)設(shè)備或者存儲(chǔ)介質(zhì),該程序用來使計(jì)算機(jī)根據(jù)權(quán)利要求9的方法對(duì)輸入文檔進(jìn)行分類。
12.一種存儲(chǔ)文檔分類程序的存儲(chǔ)設(shè)備或者存儲(chǔ)介質(zhì),該程序用來使計(jì)算機(jī)根據(jù)權(quán)利要求10的方法對(duì)輸入文檔進(jìn)行分類。
全文摘要
根據(jù)原文分析而不依賴形態(tài)分析,按文檔類型將一個(gè)文檔進(jìn)行分類。作為參考詞典為每一個(gè)文檔類型準(zhǔn)備特殊類型凍結(jié)模式。根據(jù)出現(xiàn)在文檔中的特殊類型凍結(jié)模式的外部狀態(tài),為輸入文檔析取凍結(jié)模式列表。根據(jù)凍結(jié)模式列表和輸入文檔的檢測類型來計(jì)算每個(gè)文檔類型的置信度。
文檔編號(hào)G06F17/27GK1607526SQ20041009519
公開日2005年4月20日 申請(qǐng)日期2004年10月7日 優(yōu)先權(quán)日2003年10月7日
發(fā)明者H·施米祖, S·納卡加瓦 申請(qǐng)人:惠普開發(fā)有限公司