專利名稱:文本分類參數(shù)生成器和使用所生成參數(shù)的文本分類器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及一種文本分類器,用于將給定文本分類到特定的一個(gè)或多個(gè)預(yù)定類別,具體來說,涉及一種用于生成和訓(xùn)練(或優(yōu)化)這種文本分類器中所用參數(shù)的方法和系統(tǒng)。
背景技術(shù):
存儲(chǔ)于某些基于計(jì)算機(jī)系統(tǒng)中的文本數(shù)據(jù)其數(shù)量和種類正日益增加。所存儲(chǔ)的這種自然語言文本數(shù)據(jù)包括學(xué)術(shù)論文、專利文檔、新聞文章等。為了使所存儲(chǔ)文本數(shù)據(jù)作為信息有效地利用,必須將所存儲(chǔ)文本數(shù)據(jù)的每個(gè)項(xiàng)目分類成為相應(yīng)類別。為了該用途,至此已提出了各種類型的文本分類器。
本發(fā)明涉及一種文本分類技術(shù),尤其涉及利用向量空間這種文本分類技術(shù)。基于向量空間的文本分類技術(shù)揭示于例如以下文獻(xiàn)1997年9月23日授予J.A.Catlett等人、發(fā)明名稱為“訓(xùn)練裝置和方法”的美國(guó)專利U.S.Pat.No.5,671,333;2001年2月20日授予S.T.Dumais等人、發(fā)明名稱為“用于文本分類和文本建立的方法和裝置”的美國(guó)專利U.S.Pat.No.6,192,360,所介紹的多種分類技術(shù)包括支持向量機(jī)的理論和操作;N.Nomura的發(fā)明名稱為“用于文檔處理和存儲(chǔ)媒體存儲(chǔ)的設(shè)備和方法”的日本專利申請(qǐng)公開公報(bào)11-053394(1999);以及K.Mitobe等人的發(fā)明名稱為“相似性顯示設(shè)備、用相似性顯示程序存儲(chǔ)的存儲(chǔ)媒體、文檔處理器、用文檔處理程序存儲(chǔ)的存儲(chǔ)媒體以及文檔處理方法”的日本專利申請(qǐng)公開公報(bào)2000-194723(2000)。
在此通過引用上述全部參考文獻(xiàn)作為參照。
基于向量空間的文本分類器中,通過由一向量集V1,V2,…,VM構(gòu)成的基底形成M-維向量空間,所述一向量集V1,V2,…,VM與構(gòu)成詞典的M個(gè)字W1,W2,…,WM相對(duì)應(yīng)。向量空間中的一個(gè)點(diǎn)表達(dá)要分類目標(biāo)或文本。具體來說,要分類的文本或文檔表達(dá)為一是基底(V1,V2,…,VM)的線性組合的特征向量(或文獻(xiàn)向量)。給定文本特征向量的每一分量用與該分量相關(guān)聯(lián)的字在給定文本中的出現(xiàn)頻率來表達(dá)。目標(biāo)文本分類為的類別集中每一類別由對(duì)該類別定義的基準(zhǔn)向量來表達(dá)。同樣,每一基準(zhǔn)類別也按基底(V1,V2,…,VM)的線性組合表達(dá)。通過求出給定文本特征向量和類別基準(zhǔn)向量的內(nèi)積求出兩個(gè)向量之間的距離,來計(jì)算給定文本相對(duì)于類或類別的接近程度。根據(jù)所計(jì)算的接近程度確定給定文本是否屬于該類別。
對(duì)要分類文檔集中的文檔特征向量進(jìn)行管理得到的文檔-字矩陣通過奇異值分解應(yīng)用較低等級(jí)近似法可降低特征向量的維數(shù)。目標(biāo)文檔的這種降低維數(shù)的特征向量其每個(gè)分量不是反映字本身頻率,而是反映目標(biāo)文檔與一(加權(quán))字集相關(guān)程度。這種情況下,諸如距離計(jì)算、內(nèi)積計(jì)算這種算術(shù)運(yùn)算按與原始向量空間情形相同方式是可行的。
基于向量空間的分類器根據(jù)與各個(gè)類別相關(guān)聯(lián)的基準(zhǔn)向量以及在該量值內(nèi)文檔便分類為特定類別的接近程度的量值(或閾值),來改變文檔是否屬于特定類別的結(jié)果或判定。將一類別集中所有類別的基準(zhǔn)向量的分量以及接近程度的閾值稱為“分類參數(shù)”。為了實(shí)現(xiàn)正確的分類,必須正確地確定或優(yōu)化分類參數(shù)。
傳統(tǒng)參數(shù)訓(xùn)練中,通過用具有粗略確定的初始分類參數(shù)的分類器對(duì)樣本(即選定用于訓(xùn)練的文檔)進(jìn)行分類。復(fù)查分類結(jié)果,再修改分類參數(shù)。迭代這個(gè)試-錯(cuò)過程直到獲得滿意的分類。這種對(duì)分類參數(shù)的修改可通過操作員直接由其本人修改參數(shù)來實(shí)現(xiàn),或通過操作員校正分類結(jié)果、分類器再通過基于操作員校正的機(jī)器學(xué)習(xí)重新計(jì)算參數(shù)來實(shí)現(xiàn)。
但直接修改方案中,操作員難以知道大量參數(shù)中要修改哪些參數(shù)以及如何修改所選定用于修改的一個(gè)或多個(gè)參數(shù)。而分類結(jié)果校正方案中,操作員則難以知道大量分類結(jié)果中要校正哪些分類結(jié)果。這些困難使得分類參數(shù)修改成為不一定生成所希望分類參數(shù)的費(fèi)時(shí)任務(wù)。
所作出的本發(fā)明正是要克服該技術(shù)領(lǐng)域中的上述問題和其他問題。
所需要的是一種使操作員能夠通過各種數(shù)據(jù)分析及選擇工具交互并有效地訓(xùn)練分類參數(shù)的分類參數(shù)生成方法和系統(tǒng)。
所需要的是一種可用于將類別的每個(gè)基準(zhǔn)向量視為指出的是統(tǒng)計(jì)分布點(diǎn)而非固定點(diǎn)這種情形的分類參數(shù)生成方法和系統(tǒng)。
所需要的是一種可對(duì)經(jīng)過復(fù)查的樣本計(jì)算命中率的分類參數(shù)生成方法和系統(tǒng)。該命中率是其CDOM與經(jīng)評(píng)估CDOM就類別Cr而言互相相等的文檔數(shù)目占其類別Cr的CDOM經(jīng)過評(píng)估的文檔數(shù)目的比例。
所需要的是一種具有樣本集生成及擴(kuò)展能力的分類參數(shù)生成方法和系統(tǒng)。
所需要的是一種用多個(gè)分類參數(shù)集的文本分類器。
所需要的是一種用于確定給定文本是否屬于指定類別的文本分類器。
發(fā)明內(nèi)容
根據(jù)本發(fā)明原理,提供一種用于確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別的參數(shù)集生成系統(tǒng)。該系統(tǒng)包括一文檔集,每個(gè)文檔具有識(shí)別符(ID);包含每個(gè)文檔記錄的文檔數(shù)據(jù)集,該記錄包含該文檔的文檔ID以及在預(yù)定向量空間中表示該文檔特征的特征向量;包含每個(gè)類別記錄的類別數(shù)據(jù)集,該記錄包含該類別的類別ID、類別名稱以及參數(shù)集。該參數(shù)包括在預(yù)定向量空間中表示類別特征的基準(zhǔn)向量以及對(duì)類別確定的閾值。本系統(tǒng)中,通過用文檔的該特征向量、指定類別的該基準(zhǔn)向量以及該指定類別的閾值,對(duì)每個(gè)文檔計(jì)算隸屬分?jǐn)?shù),該隸屬分?jǐn)?shù)表示文檔是否屬于該指定類別。評(píng)估樣本選擇屏使操作員能夠交互輸入用于選擇要對(duì)所計(jì)算隸屬分?jǐn)?shù)進(jìn)行評(píng)估的文檔的各種命令參數(shù)。響應(yīng)命令參數(shù)其中一個(gè)的輸入,將對(duì)文檔選擇有用的信息以可視方式顯示給操作員。評(píng)估值輸入屏示出所選擇文檔,并允許操作員對(duì)每個(gè)顯示的所選擇文檔輸入一評(píng)估值。而且,所輸入的評(píng)估值反映給指定類別的基準(zhǔn)向量。
命令參數(shù)包括對(duì)選擇準(zhǔn)則其中一個(gè)以及該選擇準(zhǔn)則范圍的指定。
可通過用預(yù)定概率分布函數(shù)其中所希望的一個(gè)對(duì)文檔分布加權(quán)來選擇評(píng)估樣本。
可根據(jù)所選擇評(píng)估樣本進(jìn)行進(jìn)一步的樣本選擇。進(jìn)一步選擇可基于與用戶所指定樣本的相似程度??赏ㄟ^從所選擇評(píng)估樣本當(dāng)中提取關(guān)鍵字并用關(guān)鍵字進(jìn)行搜索來執(zhí)行進(jìn)一步選擇。
可通過在先前和當(dāng)前計(jì)算結(jié)果之間比較得到評(píng)估樣本選擇。
由經(jīng)計(jì)算的隸屬程度(CDOM)(calculated degree of membership)中的命中率檢查參數(shù)質(zhì)量。
進(jìn)一步提供一參數(shù)訓(xùn)練系統(tǒng)發(fā)明,其特征在于,基于向量分量方差分析的加權(quán)以及文檔集和/或類別集的擴(kuò)展。
一實(shí)施例中,從實(shí)際文檔集當(dāng)中選擇合適文檔數(shù)目(即,與樣本集11相同的數(shù)目)的不同文檔集用于每個(gè)訓(xùn)練周期的訓(xùn)練。這種情況下,給出每個(gè)基準(zhǔn)向量作為分布函數(shù)。相似程度作為文檔屬于一區(qū)域的概率給出,該區(qū)域由預(yù)置閾值定義、處于類別基準(zhǔn)向量的分布范圍內(nèi)。
還揭示一利用按本發(fā)明生成的參數(shù)集的文本分類器。
本發(fā)明特征、目的和優(yōu)點(diǎn)將通過下面結(jié)合附圖的詳細(xì)說明變得更為清楚,其中圖1是示意方框圖,示出本發(fā)明的分類參數(shù)生成系統(tǒng)的配置;圖2是流程圖,示出圖1的分類參數(shù)生成系統(tǒng)1的操作原理;圖3是流程圖,示出在DOS和CDOM計(jì)算器24(圖1)的控制下在步驟24s(圖2)中執(zhí)行的操作;圖4示出樣本文檔i=11934的特征向量D11934的例子;圖5示出名稱為“出軌訓(xùn)練”的類別的基準(zhǔn)向量C234的例子;圖6是一個(gè)表格,示出設(shè)定一閾值Tk用于根據(jù)相似程度求出隸屬程度的示例方法;圖7是根據(jù)本發(fā)明的圖,示出評(píng)估目標(biāo)選擇條件-指定屏幕的例子;圖8是示出顯示基于距離的圖表的評(píng)估樣本選擇屏幕的例子;圖9是示出顯示基于向量分量的圖表的評(píng)估樣本選擇屏幕的另一個(gè)例子;圖10是示意圖,示出示例計(jì)算結(jié)果評(píng)估屏幕;圖11是示意圖,示出示例文檔信息顯示屏幕;圖12是示意圖,示出評(píng)估的CDOM表格的示例結(jié)構(gòu);圖13是示意圖,示出示例概率分布函數(shù)選擇屏幕;圖14是示意圖,示出概率函數(shù)是如何應(yīng)用于文檔分布函數(shù)以從樣本集11提取評(píng)估樣本,所述文檔分布函數(shù)諸如在圖8或9中所示;圖15是示意圖,示出根據(jù)單擊圖13的OK按鈕456顯示的示例樣本條件設(shè)定屏幕;圖16是示意圖,示出根據(jù)圖14的概率分布函數(shù)計(jì)算樣本數(shù),所述樣本是要從文檔分布中指定范圍中的每個(gè)樣本部分或塊提取的;圖17是示意圖,示出評(píng)估樣本選擇屏幕的另一個(gè)實(shí)施例,其中,對(duì)于CDOM的值1和0示出相應(yīng)的圖表;圖18A和18B是示意圖,示出計(jì)算結(jié)果評(píng)估顯示之間的差異,所述計(jì)算結(jié)果評(píng)估顯示是當(dāng)通過使用左-加強(qiáng)分布函數(shù)(left-emphasized distribution function)選擇評(píng)估目標(biāo)和通過不使用任何分布函數(shù)選擇評(píng)估目標(biāo)時(shí)分別提供的;圖19是示意圖,示出通過單擊按鈕322,根據(jù)在圖10的計(jì)算結(jié)果評(píng)估屏幕中發(fā)出的基于相似性程度的選擇命令而顯示的評(píng)估屏幕例子;圖20是示意圖,示出計(jì)算結(jié)果比較屏幕的例子;圖21是示意圖,示出計(jì)算結(jié)果比較屏幕的另一個(gè)例子;圖22是流程圖,示出通過使用在CDOM中的命中率將每個(gè)給定類別的參數(shù)質(zhì)量提高到預(yù)定水平的操作;圖23是示意方框圖,示出根據(jù)本發(fā)明的第二示例實(shí)施例的分類參數(shù)生成系統(tǒng)的配置;圖24是示意圖,示出方差計(jì)算結(jié)果顯示屏幕570的例子;圖25是示意圖,示出計(jì)算結(jié)果-顯示屏幕590的另一個(gè)例子;圖26是示意圖,示出通過方差分析/加權(quán)子系統(tǒng)590顯示的示例數(shù)據(jù)表格;圖27是流程圖,示出在根據(jù)本發(fā)明的第三實(shí)施例的樣本選擇器22的控制下執(zhí)行的示例操作;圖28是示意圖,示出搜索條件輸入屏幕的例子;圖29是示意圖,示出使存儲(chǔ)在類別數(shù)據(jù)/分類參數(shù)表格14中的條件變窄的示例方法;圖30是部分流程圖,示出在圖2中的步驟24s和26s之間插入的CDOM修改過程;圖31是示意圖,示出在第四實(shí)施例中的分布基準(zhǔn)向量的概念以及基準(zhǔn)向量和兩個(gè)示例文檔中的每一個(gè)之間的距離;圖32示出圖表A和圖表B,其中圖表A示出屬于該類別的概率密度分布,而圖表B則示出距中心向量Ck’的距離和屬于該類別的確信度之間的關(guān)系;圖33是示意方框圖,示出一個(gè)系統(tǒng)的配置,所述系統(tǒng)用于通過使用根據(jù)本發(fā)明生成的分類參數(shù)計(jì)算指定類別的給定文檔的隸屬分?jǐn)?shù);圖34是流程圖,示出圖33的系統(tǒng)的示例操作;圖35是部分流程圖,示出為了利用評(píng)估的CDOM表格430而必須添加到包括步驟804和806的流程部分的另外的步驟;圖36是示意圖,示出根據(jù)對(duì)于文檔(所述文檔屬于用戶指定的類別)的請(qǐng)求而顯示分類結(jié)果顯示屏幕840的例子;以及圖37是示意圖,示出允許帶有較好保密性的用戶評(píng)估最好使用的示例數(shù)據(jù)文件。
在所有的附圖中,在多幅圖中示出的相同單元用相同的標(biāo)記作相應(yīng)的識(shí)別。
具體實(shí)施例方式
1.實(shí)施例I具有固定的樣本集圖1是示意方框圖,示出根據(jù)本發(fā)明的第一示例實(shí)施例的分類參數(shù)生成系統(tǒng)1的示例配置和操作原理。要注意,由于分類參數(shù)生成系統(tǒng)一般包括文本或文檔分類器,所以可以說分類參數(shù)生成器或訓(xùn)練系統(tǒng)是帶有分類參數(shù)生成器或訓(xùn)練子系統(tǒng)的文本或文檔分類器。在這個(gè)意義上可以說,圖1示出帶有分類參數(shù)生成器的文本分類器。
在圖1中,每個(gè)矩形表示一個(gè)數(shù)據(jù)或一數(shù)據(jù)集,而每個(gè)圓角矩形表示一個(gè)過程或程序。帶有線畫的頭的箭頭表示數(shù)據(jù)流,而帶有填滿黑色的三角形頭的箭頭表示通過相應(yīng)箭頭指出的數(shù)據(jù)的生成。1.1.準(zhǔn)備必需的數(shù)據(jù)在圖1中,系統(tǒng)1需要樣本文檔(或樣本)集11,使用所述樣本文檔(或樣本)集11在文本分類器中用于生成分類參數(shù)。如果要部分地進(jìn)行分類的文檔集10的維數(shù)小到足以用于訓(xùn)練分類參數(shù),則實(shí)際上可以使用文檔集作為樣本集11。否則,從實(shí)際文檔集10選擇用于參數(shù)訓(xùn)練的樣本文檔11的合適數(shù)(N)22。以后詳述樣本選擇22。
在分類參數(shù)生成之前,系統(tǒng)1的操作員或用戶必須準(zhǔn)備包含一字集的詞典12,對(duì)于除了樣本文檔集11之外的每個(gè)類別,期望將所述字用于實(shí)際文檔集10和類別數(shù)據(jù)/分類參數(shù)文件14中。
雖然在圖1中,在列出數(shù)據(jù)名稱處示出各種數(shù)據(jù)集、文件或表格,諸如11、12、14、16、18等,應(yīng)該注意,這種數(shù)據(jù)集、文件和表格可以包含除清楚地示出的那些之外的任何合適的數(shù)據(jù)。還有,這種數(shù)據(jù)集、文件和表格的每一個(gè)不必定是單個(gè)集、文件或表格,可以作為彼此相關(guān)聯(lián)的分立集、文件或表格來實(shí)施。
詞典12包含字{Wjj=1,2,…,M}的M個(gè)記錄,其中,M是字?jǐn)?shù),而j是字ID(識(shí)別符)或每個(gè)字的編號(hào)。
對(duì)于每個(gè)N樣本文檔11,存儲(chǔ)樣本ID或編號(hào)i(在這個(gè)特定例子中),文檔的題目和其它著錄項(xiàng)目數(shù)據(jù),以及文檔本身,致使樣本ID與每個(gè)其它數(shù)據(jù)相關(guān)聯(lián)即,如果文檔11的維數(shù)相當(dāng)小,則將它們存儲(chǔ)在一個(gè)文件中,或存儲(chǔ)在表格或文件的一個(gè)記錄中。此外,操作員必須為每個(gè)樣本生成一個(gè)特征向量Di。如上所述,假定將每個(gè)文檔表達(dá)為在通過基底生成的M-維向量空間中的一個(gè)點(diǎn),所述基底包括相應(yīng)于M個(gè)字W1,W2,…,WM的向量集V1,V2,…,VM。在這個(gè)特定實(shí)施例中,在基底(V1,V2,…,VM)的線性組合形式中將給出樣本文檔i的特征的特征向量Di表達(dá)為Di=Σj=1Mai,jVj,---(1)]]>其中,系數(shù)ai,j是特征向量Di的第j分量,換言之,在第i文檔中的字Wj出現(xiàn)頻率fi,j的歸一化表達(dá)式。即,將第j分量ai,j表達(dá)為ai,j=fi,jfi,12+fi,22+···+fi,M2---(2)]]>因此,與相應(yīng)的樣本Id相關(guān)聯(lián)地存儲(chǔ)樣本文檔的計(jì)算的特征向量D1,D2,…,DN。要注意,雖然示出將每個(gè)樣本i、樣本ID、特征向量Di、題目和其它著錄項(xiàng)目數(shù)據(jù)以及文檔本身存儲(chǔ)在圖1中的一個(gè)集中,但不是必須如此做。可以將這些數(shù)據(jù)分開存儲(chǔ),只要除了樣本ID之外的數(shù)據(jù)與樣本ID相關(guān)聯(lián)。這對(duì)于類別數(shù)據(jù)文件14的數(shù)據(jù)也是真實(shí)的。
圖4示出樣本文檔Di=11934的特征向量D11934的例子,所述樣本文檔是標(biāo)題為“在Nemuro主線和Sannriku鐵路上的火車出軌”的文件。在這個(gè)特定例子中,假定向量空間的維數(shù)(即,包含在詞典12中的字?jǐn)?shù)(M))是600。例如,將向量D11934表達(dá)為600-分量陣列(0.159713,0.004751,…,0.015522)。
再在圖1中,操作員還必須準(zhǔn)備一類別集,將實(shí)際文檔集10的文檔和樣本文檔集11分類到其中,并生成包含有關(guān)類別的各種數(shù)據(jù)的類別數(shù)據(jù)文件14。在準(zhǔn)備階段,類別數(shù)據(jù)文件14的每個(gè)記錄包含類別識(shí)別符或數(shù)k,以及通過類別數(shù)k識(shí)別的類別Ck。
除了上述樣本選擇工具22之外,分類參數(shù)生成系統(tǒng)1包括人工界面20,通常人工界面20包括顯示器、鍵盤、鼠標(biāo)等;DOS和CDOM計(jì)算器24,用于計(jì)算表明樣本文檔與給定類別相似到何種程度的相似程度(DOS)以及表明樣本文檔屬于該給定文檔至何種程度的經(jīng)計(jì)算隸屬程度(CDOM);計(jì)算結(jié)果分析器/評(píng)估目標(biāo)選擇器26,用于使操作員能夠交互地選擇要評(píng)估的樣本;交互評(píng)估器28,用于使操作員能夠評(píng)估所選擇樣本的CDOM的正確度;以及參數(shù)更新器30,用于更新在以前的訓(xùn)練周期中已經(jīng)用于DOS計(jì)算的基準(zhǔn)向量。
可以實(shí)現(xiàn)這些部件作為在任何合適的硬件上執(zhí)行的軟件或程序,所述任何合適的硬件諸如各種計(jì)算機(jī)、包括CPU(中央處理單元)的基于計(jì)算機(jī)的系統(tǒng)等。為了這個(gè)原因,我們已經(jīng)略去這種硬件、計(jì)算機(jī)、基于計(jì)算機(jī)的系統(tǒng)、CPU等的說明和附圖。從這個(gè)觀點(diǎn),將本發(fā)明實(shí)施于任何形式的設(shè)備中,所述設(shè)備包括特定硬件、程序或存儲(chǔ)在存儲(chǔ)媒體中的程序包以及可通過傳輸媒體傳遞的數(shù)據(jù)集。
任何情況下,通過包括在硬件中的一個(gè)或多個(gè)CPU執(zhí)行下述操作。為了這個(gè)原因,雖然未示出CPU,但是在下列說明中使用CPU這個(gè)表達(dá)。
一旦在如此配置的系統(tǒng)1中得到數(shù)據(jù),我們可以進(jìn)行到參數(shù)的生成。1.2.操作原理圖2是流程圖,示出分類參數(shù)生成系統(tǒng)1未示出的CPU執(zhí)行的操作。在圖2中,操作員在步驟200中輸入要生成分類參數(shù)的類別。在這個(gè)特定的例子中,假定操作員輸入類別Ck=“火車出軌”。
在步驟210中,生成輸入類別Ck的初始分類參數(shù)。在本實(shí)施例中,用于類別Ck的分類參數(shù)是基準(zhǔn)向量Ck和DOM-決定閾值,所述基準(zhǔn)向量用于計(jì)算分到類別Ck的給定文檔的相似程度,而所述DOM-決定閾值與所計(jì)算相似程度一起用于判斷給定文檔是否屬于類別Ck。基本上,通過尋找一個(gè)平均向量而得到基準(zhǔn)向量Ck,所述平均向量的每一個(gè)分量是屬于類別Ck的特征向量的相應(yīng)分量的平均,并且對(duì)平均向量進(jìn)行歸一化,致使平均向量的長(zhǎng)度等于1,如下所述。圖5示出已經(jīng)對(duì)類別C234(“即,“火車出軌”)進(jìn)行計(jì)算的基準(zhǔn)向量C234的例子。要注意,不使用基準(zhǔn)向量的平均向量而可以使用在基于向量空間的技術(shù)中使用的任何合適的量,包括每個(gè)特征向量和基準(zhǔn)向量之間的內(nèi)積。
由于通過迭代訓(xùn)練使初始基準(zhǔn)向量Ck的正確度大大地提高,初始參考參數(shù)Ck不必須很正確。相應(yīng)地,對(duì)于操作員判斷是類別Ck的成員,樣本文檔集11的一部分或整體的平均向量等的某些樣本可以使用特征向量作為初始基準(zhǔn)向量Ck。
由于系統(tǒng)使用經(jīng)計(jì)算的隸屬程度作為分類輸出,其中,1的CDOM表示隸屬,而0的CDOM表示非隸屬,所以將單個(gè)閾值用于DOM的計(jì)算。然而,可以按大于2的任何希望水平來表達(dá)給定樣本屬于特定類別的范圍。這種情況下,用L-1DOM閾值來定義處于L級(jí)之間的L-1步驟。
將已經(jīng)按如上所述地確定的初始基準(zhǔn)向量Ck和初始DOM-決定閾值Tk存儲(chǔ)在類別Ck的類別數(shù)據(jù)文件14中,例如,如在圖1中所示。
還是在圖2中,在訓(xùn)練步驟220中進(jìn)行參數(shù)訓(xùn)練。在步驟24s中,DOS和CDOM計(jì)算器24計(jì)算類別Ck的每個(gè)樣本i的DOS(此后稱之為“量DOSi,k”),并通過使所計(jì)算DOS與類別Ck的閾值Tk相比較來確定DOM值。在圖3中詳細(xì)地示出這個(gè)過程。在圖中,在步驟240中,計(jì)算器24計(jì)算類別Ck的每個(gè)特征向量Di和基準(zhǔn)向量Ck之間的距離作為DOS。在這個(gè)特定例子中,例如,通過眾知的向量Di和Ck之間的簡(jiǎn)單Euclidean距離來定義DOS,在這個(gè)特定例子中用di,k或量DOSi,k表示,即,DOSi,k=di,k=Σj=1M(ai,j-ck,j)2,---(3)]]>其中,ck,j是基準(zhǔn)向量Ck=(ck,1,ck,2,…,ck,M)的第j分量。由于基準(zhǔn)向量Ck是平均向量的歸一化形式,所以它的每個(gè)分量是屬于類別Ck的樣本文檔的特征向量{Db|b∈B}的相應(yīng)分量的平均,如上所述,將第j分量ck,j表達(dá)為ck,j=μk,j/Σj=1Mμk,j2---(4)]]>其中,B是屬于樣本的樣本文檔ID集,而μk,j是上述平均向量的第j分量,并定義為μk,j=Σb∈Bab,j---(5)]]>通過使用公式(3),計(jì)算類別C234(=“火車出軌”)的樣本文檔11934(圖4)的距離d11934.234如下d11934.234={(0.159713-0.435595)2+(0.004751-0.012305)2+…+(0.015522-0.000806)2}1/2=例如0.9(6)要注意,本實(shí)施例使用DOS的Euclidean距離,可以使用至此建議的任何一個(gè)合適的距離(例如,Mahalanobis距離)。
接著在步驟250中,計(jì)算器24通過使所計(jì)算DOS與上述L-1閾值所定義的L水平中最接近的一個(gè)近似計(jì)算DOM值(稱為“經(jīng)計(jì)算的DOM”或“CDOM”)。這個(gè)特定實(shí)施例中,最好利用單個(gè)閾值使DOS雙值化以得到如上所述的經(jīng)計(jì)算的隸屬程度(CDOM)。具體來說,在步驟252中計(jì)算器24以DOS量值升序?qū)τ?jì)算結(jié)果進(jìn)行分類;在步驟254中,對(duì)于落在分配閾值Tk定義的范圍中的樣本的CDOM值設(shè)定為1;在步驟256中,對(duì)于余留樣本的CDOM值設(shè)定為0,完成DOM計(jì)算步驟250(即圖2中步驟24s)。
圖6示出設(shè)定DOM-決定閾值Tk的示例方法。如在圖6中表格所示,(1)閾值Tk可以是DOS的可能值(例如每個(gè)特征向量Di和相關(guān)的基準(zhǔn)向量Ck之間的距離)。這種情況下,將具有DOS等于或小于閾值Tk的樣本設(shè)定為1;并將具有DOS大于閾值Tk的樣本設(shè)定為0。
(2)如果閾值Tk是DOS的標(biāo)準(zhǔn)偏差σ(DOS),則將標(biāo)準(zhǔn)偏差σ(DOS)等于或小于閾值Tk的樣本設(shè)定為1;而將標(biāo)準(zhǔn)偏差σ(DOS)大于閾值Tk的樣本設(shè)定為0。
(3)如果閾值Tk是按DOS的量值的升序排列的樣本列表中從第一樣本開始計(jì)數(shù)的樣本的數(shù),則將列表的第一Tk樣本設(shè)定為1;將余留的或接著的樣本設(shè)定為0。
(4)可以將閾值Tk設(shè)定為屬于有關(guān)類別Ck的樣本對(duì)所有樣本的比值。這種情況下,則將相應(yīng)于Tk對(duì)所有樣本的比值的一個(gè)數(shù)的第一樣本(在按DOS的量值的升序排列的樣本列表中)設(shè)定為1;將余留的或接著的樣本設(shè)定為0。如果按百分比設(shè)定比值,則將列表的第一Tk%設(shè)定為1。然而,操作員一點(diǎn)不知道屬于比值或?qū)儆跇颖镜臄?shù)(或甚至不知道每個(gè)樣本是否屬于類別Ck)。為了這個(gè)原因,操作員可以評(píng)估初始閾值Tk的屬于比值作為他或她認(rèn)為符合的,并接著當(dāng)訓(xùn)練過程進(jìn)行時(shí)通過校正屬于比值而更新閾值Tk。
在上述Tk設(shè)定方案(1)中,如果將閾值Tk設(shè)定為0.8,則由于樣本11934對(duì)類別C234(=“火車出軌”)的距離,即d11934,234,從計(jì)算(6)得到為0.9,計(jì)算器24判斷CDOM11934,234的值為0,因?yàn)殚撝礣k小于DOS11934,234。還有,在上述Tk設(shè)定方案(4)中,如果將閾值Tk設(shè)定為40%,而且在類別C234的分類中,如果在升序樣本列表中第(40N/100)個(gè)樣本具有0.91的DOS值,則這意味著樣本11934比在升序樣本列表中的第(40N/100)個(gè)樣本出現(xiàn)得早,這導(dǎo)致計(jì)算器24判斷CDOM11934,234為1。
DOS和CDOM計(jì)算器24將計(jì)算結(jié)果即,樣本ID(Di)或樣本數(shù)i、DOSi,k和CDOMi,k,存儲(chǔ)在類別Ck的計(jì)算結(jié)果文件16中,如在圖1中所示。應(yīng)該注意,計(jì)算結(jié)果文件16每個(gè)記錄最好有兩個(gè)字段,用于存儲(chǔ)2個(gè)CDOMi,k值即在以前訓(xùn)練周期(在圖1中的單元24到30的處理構(gòu)成的周期,或通過在圖2中的步驟24s到28s、29和30s構(gòu)成的周期)中計(jì)算的一個(gè)值CDOMi,k(n),以及在當(dāng)前周期中剛計(jì)算的CDOMi,k(n+1)值。相應(yīng)地,計(jì)算器24最好存儲(chǔ)剛計(jì)算的CDOMi,k(n+1),以致導(dǎo)致保留以前的CDOMi,k(n),并與新的CDOMi,k(n+1)相區(qū)分。
完成步驟250或24s,通過對(duì)計(jì)算結(jié)果,以及如果需要,對(duì)在步驟26s中的上述計(jì)算結(jié)果應(yīng)用多種可視分析工具,分類參數(shù)生成系統(tǒng)1使操作員能夠交互地選擇要評(píng)估其計(jì)算結(jié)果的評(píng)估目標(biāo)樣本。為了這個(gè)目的,操作員可以調(diào)用評(píng)估目標(biāo)選擇條件-指定屏幕來交互地選擇要評(píng)估的合適樣本,如在圖7中所示。
在圖7中,在評(píng)估目標(biāo)選擇條件指定屏幕260上部有菜單條262,在這個(gè)系統(tǒng)1中,這個(gè)菜單條對(duì)所有屏幕都是通用的,并具有在它的余留部分中顯示的評(píng)估樣本選擇對(duì)話框264。(雖然始終顯示菜單條262,但是在接著的附圖中都將它省略了。)實(shí)際上,在菜單條262的評(píng)估菜單中選擇樣本選擇命令(未示出)導(dǎo)致評(píng)估目標(biāo)選擇器顯示評(píng)估樣本選擇對(duì)話框264,其中顯示剛才執(zhí)行DOS和CDOM計(jì)算24s的某些信息。例如,所述信息包括計(jì)算24s已經(jīng)進(jìn)行的類別Ck、分類閾值Tk的類型和值、分類Ck的成員文檔的數(shù)和百分?jǐn)?shù)、非成員文檔的數(shù)以及總文檔數(shù)。
評(píng)估目標(biāo)選擇器26還提供選擇準(zhǔn)則指定功能280,它首先使操作員能夠選擇準(zhǔn)則之一,諸如(1)文檔列表中升序排列的位置;(2)DOS或距離;(3)通過無線電按鈕281可選擇的向量分量的值;以及(4)在這種系統(tǒng)中可得到的確信度,其中,在每個(gè)訓(xùn)練周期處基準(zhǔn)向量是隨機(jī)地變化的(將在下面詳述這種系統(tǒng))。
在圖6的例子中,在選擇準(zhǔn)則指定框280中選擇距離。不管操作員對(duì)選擇準(zhǔn)則的(1)在列表中的位置,(2)距離,(3)向量分量以及(4)確信度中選擇哪一個(gè),操作員可以在選擇范圍指定框282中的三種方法中的一種方法中設(shè)定相對(duì)于所選擇的選擇準(zhǔn)則的選擇范圍。特別,操作員可以選擇文檔(a)通過在以前周期中使用的DOM-決定閾值定中心的,通過數(shù)字輸入列286或通過指定要選擇的總數(shù)284的訓(xùn)練的硝化作用(nitration of train)和/或通過要從升序的樣本列表的每個(gè)上游部分和下游部分選擇的數(shù)(未示出);
(b)在通過數(shù)字輸入列286指定的范圍中;(c)通過使用多個(gè)圖表其中一個(gè),所述多個(gè)圖表是根據(jù)選擇準(zhǔn)則指定功能280指定的選擇準(zhǔn)則自動(dòng)地選擇的。
根據(jù)下列選擇策略評(píng)估計(jì)算結(jié)果(a)選擇在DOM-決定閾值Tk的鄰域中的文檔不僅對(duì)基準(zhǔn)向量Ck的訓(xùn)練有用,而且還對(duì)DOM-決定閾值Tk的訓(xùn)練有用。這在一個(gè)階段中是特別真實(shí)的,在這個(gè)階段中,已經(jīng)對(duì)基準(zhǔn)向量Ck訓(xùn)練到如此的程度而生成足以滿足的樣本正確度,所述樣本的DOS對(duì)于DOM-決定閾值Tk不是很接近的。
在范圍規(guī)格(b)的情況中,選擇落在指定選擇準(zhǔn)則的范圍內(nèi)的文檔供計(jì)算結(jié)果的評(píng)估。在范圍規(guī)格(b)中,如果選擇準(zhǔn)則不同于在列表中的位置(1),則可以在框280中指定的物理量的行值中,或在行值的相應(yīng)的標(biāo)準(zhǔn)偏差中,通過使用相應(yīng)的無線電按鈕指定范圍。這種情況下,最好設(shè)定用于行值的按鈕,所述行值是用戶在準(zhǔn)備預(yù)置輸入的初始過程中選擇的。
在基于圖表的選擇(c)的情況中,如果選擇準(zhǔn)則不同于在列表中的位置(1),則用戶可以通過單擊一個(gè)預(yù)定的按鈕,即,在框282中的“選擇函數(shù)”按鈕288,使用如在圖13中所示的各種分布函數(shù)中的一種分布函數(shù)進(jìn)行樣本選擇。將在下面詳述使用分布函數(shù)的樣本選擇。
還有,評(píng)估樣本選擇對(duì)話框264包括一組3個(gè)無線電按鈕290,它使操作員能夠確定應(yīng)該對(duì)只有未評(píng)估的文檔,所有文檔或只有評(píng)估的文檔中的哪一種進(jìn)行接著的樣本選擇。評(píng)估樣本選擇對(duì)話框264進(jìn)一步包括從其退出或不繼續(xù)進(jìn)行樣本選擇步驟26s的取消按鈕296,以及一個(gè)OK(同意)按鈕298,以執(zhí)行在對(duì)話框264中至此指定的過程。
例如,如果操作員在框280中選擇距離(或DOS)以及在框282中“使用一個(gè)圖表”,并單擊OK按鈕298,則評(píng)估目標(biāo)選擇器26顯示基于圖表的選擇屏幕330,它包括如在圖8中所示的圖表331。在圖8中,圖表331的水平軸是一個(gè)分度滑動(dòng)開關(guān)332,它表示DOS(在這個(gè)特定例子中的距離),并具有一對(duì)光標(biāo)334和336,用于指定選擇評(píng)估目標(biāo)樣本的范圍。圖表331的垂直軸表示文檔數(shù)(或文檔計(jì)數(shù)),文檔的DOS等于在水平軸332上的一個(gè)值。
基于距離的圖表331中,通過垂直線340和包括閾值Tk的橫向表示342示出在以前周期中使用的DOM-決定閾值Tk的位置。通過使用特殊垂直線、彩色、紋理圖案或它們的任何組合等合適的加強(qiáng)技術(shù)還顯示通過光標(biāo)位置定義的范圍。不但表示滑動(dòng)光標(biāo)334和446的位置,而且還可以在選擇范圍顯示和輸入框300中用兩種方法輸入它們的位置。特別,在光標(biāo)位置表示器/輸入字段302和在范圍中心表示器/輸入字段304兩者中表示樣本選擇的范圍;在范圍間距(或?qū)挾?表示器/輸入字段306和文檔計(jì)數(shù)表示器/輸入字段308中顯示和輸入落在兩個(gè)光標(biāo)334和336之間范圍內(nèi)的文檔號(hào)。最好聯(lián)鎖在選擇范圍框300中的字段302到308中的值以及光標(biāo)334和336的位置。這使操作員通過操作光標(biāo)334和336以及光標(biāo)位置表示器/輸入字段302中的任何兩個(gè),或通過在范圍中心表示器/輸入字段304中輸入所需要的值以及在范圍間距字段306或文檔計(jì)數(shù)字段308中輸入一個(gè)值,而能夠輸入指定評(píng)估樣本選擇范圍。如此,評(píng)估目標(biāo)選擇器26在評(píng)估目標(biāo)樣本選擇中提供較高的自由度。
如果選擇標(biāo)準(zhǔn)偏差作為用于表達(dá)在圖7的范圍指定框282中的樣本選擇的范圍,則水平軸332表示在圖8的圖表331中的DOS或距離的偏差。
圖9是示意圖,示出評(píng)估樣本選擇屏幕350的另一個(gè)例子,其中,顯示基于向量分量的圖表。當(dāng)操作員選擇向量分量作為選擇準(zhǔn)則,并在選擇準(zhǔn)則框280中輸入所需要向量分量的ID或數(shù)時(shí)顯示屏幕350;單擊按鈕“用圖表”;并進(jìn)一步單擊在圖7的評(píng)估樣本選擇器264中的OK按鈕298。圖9基本上與圖8相同,除了已經(jīng)將水平軸332改變成水平軸351以表示向量分量的值。最好如此地配置評(píng)估目標(biāo)選擇器26以允許操作員通過分量數(shù)表示器/輸入字段352改變作為選擇準(zhǔn)則的向量分量的ID或數(shù)。
諸如在圖8和9中示出的基于圖表的評(píng)估樣本選擇屏幕具有返回按鈕314,用于返回到評(píng)估樣本選擇對(duì)話框264,進(jìn)行進(jìn)一步的分析或重試分析。然而當(dāng)然可能,通過菜單條262的評(píng)估菜單262引用對(duì)話框264,通過返回按鈕314返回對(duì)話框264而使使用所選擇樣本的過程成為可能。
如果在基于圖表的評(píng)估樣本選擇屏幕中單擊評(píng)估按鈕316,則未示出的系統(tǒng)CPU結(jié)束評(píng)估目標(biāo)選擇器26的過程(即,樣本選擇步驟26s),并開始處理交互評(píng)估器28。評(píng)估器28首先顯示在圖10中示出的評(píng)估屏幕,同時(shí)操作員啟動(dòng)在圖2中的評(píng)估步驟28s。
在圖10中,在評(píng)估輸入屏幕400的上面部分顯示類別;具有CDOM為1的文檔的,具有CDOM為0的文檔的,以及所有文檔的文檔計(jì)數(shù);以及對(duì)話框402包括樣本選擇范圍的信息,所選擇用于評(píng)估的文檔的數(shù),以及選擇應(yīng)用于所有樣本集,未評(píng)估樣本子集和評(píng)估樣本子集中的哪一個(gè)。評(píng)估數(shù)據(jù)顯示表格410是每個(gè)所選擇樣本的記錄。每個(gè)樣本的記錄包括文檔ID以及樣本的標(biāo)題;系統(tǒng)-計(jì)算的DOS和CDOM,決定的CDOM 412(它是在過去評(píng)估時(shí)間已經(jīng)人工地輸入的評(píng)估值);以及評(píng)估值輸入列414。
雖然從列402看到,已經(jīng)選擇了43個(gè)樣本,但是在圖10中只示出10個(gè)記錄。通過操作滑動(dòng)開關(guān)411可以顯示其余的記錄。如果為了正確地評(píng)估樣本而用戶希望檢查樣本的細(xì)節(jié),則通過單擊所需要樣本的標(biāo)題他/她可以得到詳細(xì)的信息。
圖11示出提供文檔的詳細(xì)信息的一個(gè)屏幕例子。在圖11中,文檔信息屏幕420包括用于顯示指定文檔本文的窗口422。最好屏幕420包括向量分量數(shù)輸入字段424,以致顯示指定向量分量的值。如果單擊退出按鈕426,則顯示評(píng)估屏幕400。另一方面,在評(píng)估輸入屏幕400上,包含在屏幕420中的文檔信息可以顯示在新建立的窗口中。
回到圖10,在決定的CDOM字段412中的空白意味著操作員至少對(duì)在類別顯示部分401中表示的特定類別尚未對(duì)樣本進(jìn)行評(píng)估。應(yīng)該注意,術(shù)語“評(píng)估”意味著人類操作員將評(píng)估值1或0分配給自從經(jīng)決定或經(jīng)評(píng)估就認(rèn)為是正確的CDOM或隸屬值,當(dāng)顯示評(píng)估屏幕400時(shí),最好已經(jīng)在評(píng)估字段414中設(shè)定所決定的CDOM字段412中的值。通過如此進(jìn)行,操作員只需要對(duì)評(píng)估字段414是空白的樣本進(jìn)行評(píng)估。
此外,系統(tǒng)提供覆蓋設(shè)定功能,它以通過一組無線電按鈕415到418的設(shè)定而指定的方式自動(dòng)地填充空白評(píng)估字段414。例如,按鈕集包括沒有數(shù)據(jù)輸入(或不做什么)的“沒有”按鈕415;“CDOM”按鈕416用相應(yīng)的計(jì)算的CDOM填充每個(gè)空白評(píng)估字段414;1-評(píng)估按鈕417用1填充空白評(píng)估字段414;0-評(píng)估按鈕417用0填充空白評(píng)估字段414;以及“清除”按鈕419,用于刪除在空白評(píng)估字段414中的所有數(shù)據(jù)。通過選擇按鈕415到418中的一個(gè)按鈕對(duì)所有空白評(píng)估字段414進(jìn)行覆蓋設(shè)定之后,操作員只需要檢查值的正確性,所述值是在每個(gè)未經(jīng)評(píng)估的樣本或“經(jīng)決定的CDOM”字段412是空白的記錄的空白評(píng)估字段414中的。要注意,可以使空白評(píng)估字段414仍保持空白,即,操作員不是必須填充所有評(píng)估字段。還有,操作員可以輸入與經(jīng)決定的CDOM字段412相反的值。因此,將在字段414中的評(píng)估值記錄在圖1中的評(píng)估數(shù)據(jù)集18中。在任何情況中,將在評(píng)估字段414中輸入的值寫在評(píng)估數(shù)據(jù)集18的相應(yīng)字段中的已有值的上面,如果有已有值的話。
如果沒有評(píng)估的必要,則操作員可以通過簡(jiǎn)單地單擊退出按鈕403而終止屏幕400顯示。如果操作員希望重試樣本選擇而不評(píng)估當(dāng)前在評(píng)估屏幕400中顯示的樣本,則用戶將單擊返回按鈕404。
完成了在圖2中的評(píng)估步驟28s,操作員在步驟29(圖2)中進(jìn)行檢查,看系統(tǒng)提供的CDOM值是否滿意。如果是滿意的,則由于這意味著已經(jīng)將基準(zhǔn)向量Ck和DOM-決定閾值Tk訓(xùn)練到足夠滿意的程度,操作員通過簡(jiǎn)單地單擊退出按鈕403或通過按鈕419清除評(píng)估字段414以及單擊OK按鈕406而結(jié)束參數(shù)訓(xùn)練過程2。否則,操作員單擊OK按鈕406將評(píng)估輸入值反映給基準(zhǔn)向量Ck。
根據(jù)OK按鈕406的單擊,將控制傳遞到參數(shù)更新器30,它在步驟30s(圖2)中更新分類參數(shù)。特別,將在評(píng)估字段414中的值復(fù)制到在圖430所示的經(jīng)評(píng)估的CDOM表格中的相應(yīng)存儲(chǔ)單元。如從上述說明看到,要注意評(píng)估數(shù)據(jù)集18相應(yīng)于在經(jīng)評(píng)估的CDOM表格430的列或字段中的所有數(shù)據(jù)。經(jīng)評(píng)估的CDOM表格430是經(jīng)評(píng)估值的矩陣,其中,一個(gè)軸相應(yīng)于類別數(shù)1到K,而另一個(gè)軸相應(yīng)于文檔號(hào)1到N(以及文檔識(shí)別符IDi)。對(duì)于與空白存儲(chǔ)單元相關(guān)聯(lián)的的類別,空白存儲(chǔ)單元表示尚未對(duì)與空白存儲(chǔ)單元相關(guān)聯(lián)的文檔進(jìn)行評(píng)估。根據(jù)更新經(jīng)評(píng)估的CDOM表格430,參數(shù)更新器30根據(jù)公式(4)和(5)通過使用對(duì)于類別Ck尚未評(píng)估的樣本的在表格430中的第k字段中經(jīng)評(píng)估的CDOM值,在計(jì)算結(jié)果文件16中的CDOM值,以及存儲(chǔ)在樣本文檔文件11中的特征向量來計(jì)算基準(zhǔn)向量Ck。然后,參數(shù)更新器30將新基準(zhǔn)向量寫在在類別數(shù)據(jù)文件14中的老基準(zhǔn)向量上,并結(jié)束更新步驟30s。
如上所述,根據(jù)本發(fā)明的原理,通過使用評(píng)估樣本選擇圖對(duì)話框264,操作員可以有效地選擇合適的評(píng)估目標(biāo)樣本,所述評(píng)估樣本選擇對(duì)話框264在選擇參數(shù)設(shè)定方面提供高度靈活性,而各種圖表提供決定選擇范圍的有用信息。還有,評(píng)估支持子系統(tǒng)28大大地促進(jìn)計(jì)算結(jié)果的評(píng)估,所述評(píng)估支持子系統(tǒng)28提供圖形用戶界面400和覆蓋設(shè)定功能415到419。
除了基于CDOM評(píng)估以及參數(shù)更新的參數(shù)訓(xùn)練能力以外,分類參數(shù)生成系統(tǒng)最好包括一允許用戶直接編輯諸如基準(zhǔn)向量分量、閾值、各種加權(quán)因數(shù)(后面詳細(xì)說明)等的參數(shù)編輯器。
上述實(shí)施例中,完成評(píng)估處理(即激活圖10中OK按鈕406)后,參數(shù)更新器30立即更新了分類參數(shù)。作為替代,參數(shù)更新器30可組成為顯示基于操作員剛完成評(píng)估的參數(shù)更新后將獲得的相同類別的分類結(jié)果,讓操作員查看分類結(jié)果,并響應(yīng)對(duì)操作員同意的輸入指示的接收實(shí)際更新參數(shù)。1.3.其它特征為了在說明的較早階段介紹本發(fā)明的基本概念,我們已經(jīng)省略了一些特征。下面詳述這些省略的特征。1.3.1.根據(jù)分布函數(shù)的評(píng)估樣本選擇如果在圖7的選擇范圍指定對(duì)話框282中操作分布函數(shù)選擇按鈕288,則評(píng)估目標(biāo)選擇器26顯示如在圖13中所示的分布函數(shù)選擇屏幕。在圖13中示出均勻分布函數(shù)442、左-加強(qiáng)分布函數(shù)444、右-加強(qiáng)分布函數(shù)446、兩端-加強(qiáng)分布函數(shù)448、中心-加強(qiáng)分布函數(shù)450以及用戶-可定義分布函數(shù)452。通過單擊相應(yīng)的按鈕,用戶可以選擇這些分布中所需要的一種分布。如果用戶選擇用戶-可定義分布函數(shù)452,則單擊預(yù)定按鈕454使操作員能夠用圖形編輯器確定他/她自己需要的分布特征的圖表,或?qū)⒁褱?zhǔn)備的圖表修改成需要的形狀。假定在圖13中已經(jīng)選擇左-加強(qiáng)分布函數(shù)444,在選擇需要函數(shù)之后,操作員單擊OK按鈕456以進(jìn)行到下一個(gè)處理步驟。
圖14是示意圖,示出如何將概率分布函數(shù)施加到諸如在圖8或9中所示的文檔分布函數(shù),以便從樣本集11當(dāng)中提取評(píng)估樣本。如在圖14中所示,將圖8的文檔分布331的用戶-指定范圍(從A到B)以及所選擇概率函數(shù)444的域(從0到1)分成S個(gè)樣本分段或塊。然后,將在圖表331中邊界從a到b的S+1的值表達(dá)為dt=A+{(B-A)/S}·t(t=0,1,2,…,S)。相似地,將在圖表444中邊界從0到1的S+1的值表達(dá)為xt=t/S}(t=0,1,2,…,S)。
還有,在基于分布函數(shù)的樣本方案中,根據(jù)指定分布函數(shù)444在文檔分布331的指定范圍(A~B)中從S分段提取樣本文檔的指定總數(shù)(TN)。因此,操作員必須設(shè)定樣本范圍A~B、分段的數(shù)S以及樣本的總數(shù)TN作為樣本條件。
為了這個(gè)目的,評(píng)估目標(biāo)選擇器26根據(jù)單擊OK按鈕456而顯示樣本條件設(shè)定屏幕。圖15示出樣本條件設(shè)定屏幕的例子。在圖15中,以在圖8的情況中的相同方法,操作員通過使用軟件開關(guān)302到308和/或332到336確定范圍A~B。操作員通過使用相應(yīng)的輸入列462和464進(jìn)一步指定樣本分段計(jì)數(shù)S和總數(shù)TN。在這個(gè)特定例子中,假定如此地設(shè)定樣本范圍A~B以致包括樣本集11的所有126個(gè)文檔,結(jié)果使A和B是0.625和1.125,以及將所要提取樣本的分段計(jì)數(shù)S和總數(shù)TN兩者設(shè)定為10。
設(shè)定值A(chǔ)~B、S和TN導(dǎo)致評(píng)估目標(biāo)選擇器26根據(jù)概率分布函數(shù)444立即將10個(gè)樣本分布到10個(gè)分段,即,計(jì)算要從每個(gè)分段當(dāng)中提取的樣本的數(shù)Nt。計(jì)算Nt如下Nt=N(dt)·p(xt)Σt=1SN(dt)·p(xt)·TN---(7)]]>圖16示出在上述假設(shè)情況中對(duì)于每個(gè)分段的提取樣本計(jì)數(shù)計(jì)算的例子。因此,在圖15中的樣本計(jì)數(shù)計(jì)算結(jié)果顯示部分466中立即顯示對(duì)于10個(gè)分段的計(jì)算數(shù)N1,N2,…,,NS。如果操作員對(duì)計(jì)算結(jié)果N1,N2,…,,NS滿意,則他/她單擊預(yù)定的按鈕468以評(píng)估S個(gè)樣本,這導(dǎo)致顯示如在圖10中所示的提取樣本評(píng)估屏幕。
還有,通過使用基于分布函數(shù)的評(píng)估目標(biāo)樣本方案可以如此地控制評(píng)估目標(biāo)選擇,使不斷評(píng)估的文檔的分布生成需要的曲線。特別,例如,當(dāng)從當(dāng)前標(biāo)準(zhǔn)來看,如果至今已經(jīng)選擇的經(jīng)評(píng)估文檔在較小DOS和距離一側(cè)分布較密,則在當(dāng)前訓(xùn)練周期的評(píng)估目標(biāo)選擇中,可以選擇均勻分布函數(shù)作為概率分布函數(shù)(即選擇更多較大DOS的文檔),以致導(dǎo)致當(dāng)在當(dāng)前標(biāo)準(zhǔn)中觀察時(shí),添加文檔整體,以均勻地分布,所述文檔整體的文檔是當(dāng)前評(píng)估目標(biāo)的文檔。
圖17是示意圖,示出評(píng)估樣本選擇屏幕的另一個(gè)例子,其中,示出CDOM的兩個(gè)值1和0的相應(yīng)的圖表。在圖17中,將系統(tǒng)設(shè)定CDOM為1并且操作員評(píng)估CDOM也為1的文檔標(biāo)有“經(jīng)評(píng)估的1”,并用斜線的條示出;將系統(tǒng)設(shè)定CDOM為0并且操作員評(píng)估CDOM也為0的文檔標(biāo)有“經(jīng)評(píng)估的0”,并用黑色的條示出;將至今操作員從未評(píng)估的文檔標(biāo)有“尚未”,并用白色的條示出;以及將正選擇用于評(píng)估的文檔標(biāo)有“在評(píng)估”,并用點(diǎn)子圖案的條示出。還表示“在評(píng)估”的文檔號(hào)。
圖18部分地示出當(dāng)在圖17中單擊“評(píng)估”按鈕470時(shí)計(jì)算結(jié)果評(píng)估顯示的兩個(gè)例子(實(shí)際上象圖10的方式那樣顯示這些表格)。圖18A是當(dāng)通過使用左-加強(qiáng)分布函數(shù)和將總樣本數(shù)TN設(shè)定為10而完成評(píng)估數(shù)據(jù)采樣時(shí)顯示的表格。圖18B是當(dāng)通過從升序排列的樣本列表當(dāng)中檢索前面10個(gè)樣本或文檔而完成評(píng)估數(shù)據(jù)選擇時(shí)顯示的表格。圖10B只包括正確的答案,距離較短。然而,圖10A不但包括距離較短的正確答案而且還包括距離較長(zhǎng)的正確答案。
如從上述說明看到,對(duì)于稀少地評(píng)估寬范圍或整個(gè)范圍的排序的樣本列表,基于概率分布函數(shù)的樣本方案是很有用的。在這種意義上,在參數(shù)訓(xùn)練的較早階段的計(jì)算結(jié)果評(píng)估中最好使用基于分布函數(shù)的樣本。1.3.2.根據(jù)評(píng)估目標(biāo)選擇結(jié)果進(jìn)一步選擇根據(jù)從上述評(píng)估目標(biāo)選擇得到的一個(gè)或所有文檔可以進(jìn)行進(jìn)一步的文檔搜索。下面介紹兩種另外的搜索方案。1.3.2.1.根據(jù)對(duì)一個(gè)種子文檔的相似程度選擇為了使操作員能夠有效地利用這個(gè)功能,最好提供如圖10所示的計(jì)算結(jié)果評(píng)估屏幕,所述屏幕具有列320,它通知操作員這個(gè)功能的可用性,并包括一種軟件開關(guān)以確定操作員是否需要這個(gè)功能。如果操作員需要這個(gè)功能,則在列320中顯示在表格410中選擇的文檔的文檔ID。
如果單擊OK按鈕322,則系統(tǒng)1計(jì)算在所選擇的或種子文檔DI的特征向量DI和包含在圖1的樣本集11中的每個(gè)其它文檔的特征向量Di(在這個(gè)情況中i≠I)之間的相似程度(在這個(gè)特定例子中是距離)。檢查每個(gè)文檔Di的經(jīng)計(jì)算的隸屬程度,系統(tǒng)1安排文檔的隸屬與種子文檔相反,以便從最小相似度(或距離最小)的文檔到種子文檔作出相似度降序列表;而且還安排與種子文檔具有相同CDOM的文檔,以便從較大相似度(或距離最大)的文檔到種子文檔以作出相似度升序列表。
(應(yīng)該注意,如在剛說明的情況中,當(dāng)CDOM的值是必需的時(shí),首先搜索上述評(píng)估CDOM表格得到該值。如果搜索成功,則使用所找到的值作為CDOM。否則,使用在計(jì)算結(jié)果數(shù)據(jù)集16中的相應(yīng)的未評(píng)估CDOM值作為CDOM。)然后,系統(tǒng)1顯示在相似性降序列表中包含第一文檔的預(yù)定數(shù)的第一列表以及相似性升序中包含第一文檔的預(yù)定數(shù)的第二列表。
圖19示出包括第一和第二列表的示例評(píng)估屏幕500。評(píng)估屏幕500包括種子文檔的信息,上述第一(或相似性降序列表)510以及上述第二(或相似性升序列表)520。
由于種子文檔(在這個(gè)例子中文檔ID=85590)具有為1的CDOM值,按最相似文檔開始的順序顯示與種子文檔相似性高、并且具有0的CDOM值的文檔;按最不相似文檔開始的順序顯示與種子文檔相似性低、并且具有1的CDOM值的文檔。
兩個(gè)所顯示列表的每一記錄包含一串號(hào)、文檔號(hào)以及每個(gè)文檔的標(biāo)題。此外,每個(gè)記錄包含“經(jīng)評(píng)估?”字段502,它存儲(chǔ)一個(gè)值(例如,“Y”或“N”)表示對(duì)于類別Ck(在這個(gè)特定例子中為“火車出軌”)的文檔的CDOM;以及一個(gè)標(biāo)有“評(píng)估”的評(píng)估值輸入字段504,操作員可以將需要的CDOM值輸入其中。
對(duì)種子文檔的相似性高但是CDOM不同的文檔,或?qū)ΨN子文檔的相似性低但是CDOM相同的文檔可能具有錯(cuò)誤的CDOM值。為了這個(gè),復(fù)查在兩個(gè)列表中的CDOM值對(duì)分類參數(shù)的有效改進(jìn)有很大作用。
如果,使用屬于類別并最接近DOM-決定閾值Tk的文檔和/或不屬于類別并最接近DOM-決定閾值Tk的文檔作為種子文檔,則根據(jù)DOS對(duì)種子文檔而選擇的文檔的上述評(píng)估對(duì)于分類參數(shù)的評(píng)估是特別有用的。1.3.2.2.關(guān)鍵字提取和搜索最好如此地配置系統(tǒng)1,使操作員能夠通過使用無線電按鈕310和標(biāo)有“取關(guān)鍵字”的執(zhí)行按鈕310在圖7的任何評(píng)估目標(biāo)選擇條件指定屏幕中以及圖8和9的評(píng)估樣本選擇屏幕中發(fā)出關(guān)鍵字提取/搜索命令。
如果在單擊在圖7中的OK按鈕298或在圖8或7中的“評(píng)估”按鈕316之前操作“取關(guān)鍵字”按鈕,則評(píng)估目標(biāo)選擇器26提取落在操作員輸入的值確定的范圍中的文檔共有的一個(gè)或多個(gè)關(guān)鍵字,并顯示所提取的關(guān)鍵字。這允許操作員通過使用所顯示的關(guān)鍵字準(zhǔn)備檢索條件,并用所準(zhǔn)備的檢索條件執(zhí)行檢索以得到新評(píng)估目標(biāo)文檔集。這種情況的結(jié)果是使操作員評(píng)估新文檔集來代替在圖7、8或9中所選擇的首先選擇文檔。
另一方面,在首先單擊在圖7中的OK按鈕298或在圖8和9中的評(píng)估按鈕316對(duì)在圖7到9的任何一圖中選擇的文檔進(jìn)行評(píng)估之后,操作員還可以評(píng)估提取的關(guān)鍵字和檢索文檔,然后在計(jì)算結(jié)果評(píng)估屏幕400中評(píng)估之后單擊返回按鈕404。這種情況下,對(duì)首先選擇的文檔和關(guān)鍵字搜索的文檔進(jìn)行評(píng)估,使分類參數(shù)更新過程的效率提高。
還要注意,可以使用關(guān)鍵字提取功能和基于向量分量的評(píng)估目標(biāo)選擇的組合,用于調(diào)整在加權(quán)的距離中使用的權(quán)。例如,表達(dá)距離(3)的權(quán)形式為DOSi,k=di,k=Σj=1Mwi·(ai,j-ck,j)2---(8)]]>具體來說,如在圖9中所示的對(duì)于確定向量分量的基于向量分量的文檔分布圖表中,如果在較小DOS的第一峰值(即較小距離)和較大DOS的第二峰值(即較大距離)之間的間隔較長(zhǎng),則對(duì)于在第一和第二峰值的每一個(gè)的鄰域中的文檔集只執(zhí)行關(guān)鍵字提取。然后,根據(jù)在分量軸上的位置和在該位置處的文檔號(hào)對(duì)相應(yīng)于所取得的每一個(gè)關(guān)鍵字的權(quán)進(jìn)行調(diào)整。1.3.3.類別間CDOM耦合根據(jù)本發(fā)明的原理,在每個(gè)類別的記錄中有可能包括內(nèi)含列表(ICL)530,它包含類別的ID(在所述類別中包括該類別);和/或排他類別列表(ECL)540,它包括與該類別具有非兼容關(guān)系的類別ID。這使對(duì)于CDOM評(píng)估能夠利用類別之間的內(nèi)含關(guān)系和排他關(guān)系。
例如,如果在類別集14中有類別Cx(=“事故”)和Cy(=“火車出軌”),則由于在Cx中包括類別Cy,所以屬于Cy的文檔永遠(yuǎn)不會(huì)不屬于Cx。這種情況下,類別數(shù)據(jù)集14的創(chuàng)作者(或操作員)便將包括性類別Cx的ID添加到所包括的類別Cy記錄的ICL字段530。如此進(jìn)行使下列操作成為可能。
如果在圖2的評(píng)估步驟28s中已經(jīng)評(píng)估類別k的樣本i的CDOM為1,則系統(tǒng)1對(duì)通過類別ID識(shí)別的每個(gè)類別的樣本i進(jìn)行CDOM的評(píng)估,將它稱為“基于內(nèi)含關(guān)系的評(píng)估”,所述類別ID是包含在類別k到1的類別記錄的ICL字段530中的。以及,遞歸地將基于內(nèi)含關(guān)系的評(píng)估應(yīng)用于類別中的每一個(gè),對(duì)于所述類別,在最后的基于內(nèi)含關(guān)系的評(píng)估中已經(jīng)將CDOM設(shè)定為1。
還有,有可能,如果對(duì)于一個(gè)類別Ck樣本i具有確定的CDOM值,則對(duì)于確定的另一個(gè)類別Cm樣本i必須不具有相同的CDOM值,反之亦然。這種情況下,類別Ck和Cm具有不兼容的關(guān)系。類別數(shù)據(jù)集14的操作員分別將一個(gè)類別Ck或Cm的ID添加到另一個(gè)類別Cm或Ck記錄的ECL字段540。如此進(jìn)行使下列操作成為可能。
如果在圖2的評(píng)估步驟28s中已經(jīng)評(píng)估類別k的樣本i的CDOM為兩個(gè)值中之一,則系統(tǒng)1對(duì)通過類別ID識(shí)別的每個(gè)類別的樣本i進(jìn)行CDOM的評(píng)估,將它稱為“基于不兼容關(guān)系的評(píng)估”,所述類別ID是包含在類別k到其它值的類別記錄的ECL字段540中的。遞歸地將基于不兼容關(guān)系的評(píng)估應(yīng)用于類別中的每一個(gè),對(duì)于所述類別,在最后的基于內(nèi)含關(guān)系的評(píng)估中已經(jīng)將CDOM設(shè)定為其它值。1.3.4.以前CDOM值和當(dāng)前CDOM值比較根據(jù)本發(fā)明的原理,DOS和CDOM計(jì)算器24保留在最后訓(xùn)練周期中計(jì)算的CDOM(n)值和在當(dāng)前訓(xùn)練周期中計(jì)算的CDOM(n+1)值。這使操作員能夠知道在分類參數(shù)更新之前(b)和之后(n+1)的計(jì)算結(jié)果之間的差異。
圖20是示意圖,示出計(jì)算結(jié)果比較屏幕的一個(gè)例子。在圖20中,以實(shí)線標(biāo)繪CDOM值為1的文檔(即,CDOM(n)=1的的文檔)的分布;并以虛線標(biāo)繪CDOM值為0的文檔(即,CDOM(n)=0的的文檔)的分布。在參數(shù)更新之前和之后保持CDOM值為1的文檔相應(yīng)于標(biāo)有“1→1”的圖表部分和檢查框。在參數(shù)更新之前和之后CDOM值已經(jīng)從1變化0到的文檔相應(yīng)于標(biāo)有“1→0”的圖表部分和檢查框。在參數(shù)更新之前和之后CDOM值已經(jīng)從0變化到1的文檔相應(yīng)于標(biāo)有“0→1”的圖表部分和檢查框。并且,在參數(shù)更新之前和之后保持CDOM值為0的文檔相應(yīng)于標(biāo)有“0→0”的圖表部分和檢查框。用所需要的上述標(biāo)記之一單擊圖表部分或檢查框可以導(dǎo)致選擇相關(guān)聯(lián)的文檔并使之顯示在屏幕上。
該圖表中,已經(jīng)經(jīng)受CDOM每種變化的文檔(即標(biāo)有1→0或0→1的文檔)數(shù)目越小,分類參數(shù)的會(huì)聚程度越接近。
除了CDOM(n)值之外,保留在參數(shù)更新之前的DOS值(稱之為“DOS(n)”)使之有可能顯示如在圖21中所示的另一個(gè)計(jì)算結(jié)果比較屏幕。圖21的計(jì)算結(jié)果比較屏幕包括示出在參數(shù)更新之前的計(jì)算結(jié)果的圖表(n)和示出在參數(shù)更新之后的計(jì)算結(jié)果的圖表(n+1)。在兩個(gè)圖表中,每一實(shí)線表示所有文檔的分布,每一小圓圈-連接線表示其CDOM值經(jīng)過評(píng)估為1的文檔分布,每一小x-連接線表示其CDOM值在最后一次訓(xùn)練周期經(jīng)過評(píng)估為0的文檔分布。
圖20和21的上述比較屏幕對(duì)于決定分類閾值Tk的位置(或水平)以及終止訓(xùn)練的定時(shí)是有用的。1.3.5.按CDOM計(jì)算中的命中率檢查參數(shù)質(zhì)量圖22是示出一種操作的流程圖,所述操作用于通過使用在CDOM計(jì)算中的命中率使每個(gè)給定類別的參數(shù)的質(zhì)量提高到預(yù)定水平。在圖22中,在步驟550中,操作員對(duì)某些類別的參數(shù)訓(xùn)練到某種程度。在步驟522中,使當(dāng)前類別為類別的一個(gè)Cr。然后,在步驟554中,系統(tǒng)1根據(jù)下列公式計(jì)算對(duì)于類別Cr的命中率HRr=HDNr/EDNr(9)其中,HDNr是對(duì)于類別Cr其CDOM和評(píng)估CDOM彼此相等的文檔數(shù)目,而EDNr則是對(duì)于類別Cr其CDOM已經(jīng)過評(píng)估的文檔數(shù)目。
步驟556中,系統(tǒng)1進(jìn)行測(cè)試來看命中率HRr是否等于或大于預(yù)設(shè)定目標(biāo)-命中率THRr。如果不是,則由于認(rèn)為對(duì)于類別Cr需要對(duì)參數(shù)進(jìn)行更多的訓(xùn)練,所以在步驟558中系統(tǒng)1執(zhí)行預(yù)定數(shù)目的訓(xùn)練周期,并返回步驟554。
如果在步驟556中測(cè)試結(jié)果是肯定的(YES),則由于認(rèn)為對(duì)于類別Cr已經(jīng)對(duì)參數(shù)進(jìn)行了足夠的訓(xùn)練,所以在步驟560中,系統(tǒng)1進(jìn)行另一個(gè)測(cè)試,看是否已經(jīng)用完類別。如果沒有,則將控制傳遞到步驟552,如果在步驟560中已經(jīng)用完類別,則系統(tǒng)1結(jié)束處理。
然而在步驟558中已經(jīng)訓(xùn)練對(duì)于Cr的參數(shù),如果可能,可以從類別集14中刪除類別Cr。
如上所述,本發(fā)明的參數(shù)質(zhì)量檢查方案包括從所需要的訓(xùn)練類別集生成超-標(biāo)準(zhǔn)結(jié)果的類別,提高CDOM計(jì)算參數(shù)訓(xùn)練的效率,結(jié)果生成高-正確度CDOM計(jì)算參數(shù)。2.實(shí)施例II圖23是示意方框圖,示出根據(jù)本發(fā)明的第二實(shí)施例的示例分類參數(shù)生成系統(tǒng)2。在圖23中,分類參數(shù)生成系統(tǒng)2與圖1的分類參數(shù)生成系統(tǒng)相同,除了已經(jīng)添加方差分析/加權(quán)子系統(tǒng)590。
根據(jù)本發(fā)明,系統(tǒng)2提供基于交互圖表的方差分析器,用于交互地分析每個(gè)向量分量對(duì)CDOM的判定所起作用的程度。根據(jù)分析,操作員可以使用于計(jì)算CDOM的向量分量的范圍變窄,并根據(jù)對(duì)CDOM判定的相應(yīng)作用而對(duì)各個(gè)向量分量加權(quán)。為了這個(gè)目的,系統(tǒng)2提供各種信息段。
對(duì)于可能類別的每個(gè)Ck進(jìn)行分析和加權(quán)。系統(tǒng)2首先搜索在圖12的評(píng)估的CDOM表格430中的類別Ck的列,以得到評(píng)估的CDOM值為1的文檔的第一子集以及評(píng)估的CDOM值為0的文檔的第二子集。假定第一和第二子集分別包括N1個(gè)文檔和N2個(gè)文檔。由于相同地處理兩個(gè)子集,所以我們只說明第一子集。通過特征向量{Dx|x=1,2,…,x,…,N1}表達(dá)第一子集N1個(gè)文檔。第一子集的每個(gè)特征向量表達(dá)Dx=(ax,1,ax,2,…,ax,j,…,ax,M)。同樣,將第二子集的每個(gè)特征向量表達(dá)Dy=(ay,1,ay,2,…,ay,j,…,ay,M)。
然后,系統(tǒng)2對(duì)于每個(gè)向量分量j(j=1,2,…,M)計(jì)算第一子集的N1文檔的第j分量的平均值μ(1)j為μ(1)j=1N1·Σx=1N1ax,j---(10)]]>其中,μ(1)j的(1)表示是第一子集的平均值。
此外,系統(tǒng)2對(duì)于每個(gè)向量分量j計(jì)算第一子集的N1文檔的第j分量的每個(gè)x(x=1,2,…,N1)的方差σ(1)j2為σ(1)j2=Σx=1N1(ax,j-μ(1)j)2---(11)]]>對(duì)于第二子集的相似計(jì)算生成 在參數(shù)訓(xùn)練的過程中,最好允許用戶發(fā)出方差分析命令。表示響應(yīng),通過使用評(píng)估的CDOM表格430,在樣本集11以及上述4個(gè)公式(10)~(12)中的特征向量Di(i=1~N),系統(tǒng)2對(duì)于M個(gè)向量分量的每一個(gè)計(jì)算CDOM=1的N1文檔的平均值和方差,以及CDOM=0的N2文檔的平均值和方差,如在圖26中所示。
圖24是示意圖,示出方差計(jì)算結(jié)果顯示屏幕570的例子。在圖24中,屏幕570顯示表格583和584以及圖表581和582。在每個(gè)表格583或584中,按方差的升序顯示成對(duì)的方差和向量分量號(hào)。表格583和圖表581是用于評(píng)估的CDOM為1的文檔的。表格584和圖表582是用于評(píng)估的CDOM為0的文檔的。每個(gè)圖表的水平軸表示對(duì)于CDOM=1或0的文檔的指定維數(shù)(在圖24的例子中是477)的向量分量的方差。圖表851和852具有附加的開關(guān)572,以致指定所需要的方差值。表格583和584具有附加的滑動(dòng)開關(guān)574,以致指定所需要的分量號(hào)。屏幕570還包括向量分量號(hào)指定字段576,將它鎖定到開關(guān)574。
圖25是示意圖,示出計(jì)算結(jié)果-顯示屏幕590的另一個(gè)例子。屏幕590包括示出向量分量的分布的向量分量布局圖。布局圖的水平軸表示具有CDOM=1的文檔的方差,所述方差是相對(duì)于指定的向量分量(在圖25的例子中的第478分量)計(jì)算的。布局圖的垂直軸表示具有CDOM=0的文檔的方差,所述方差是相對(duì)于指定的向量分量計(jì)算的。通過光標(biāo)592或數(shù)字輸入字段594指定向量分量,它們是相互鎖定的。示出對(duì)于CDOM=1和0的每個(gè)文檔集的第j分量的方差。
從上述顯示屏幕可以看到,有用的是用于方差的向量分量是較小的,以及評(píng)估的CDOM為1的文檔的方差值和評(píng)估的CDOM為0的文檔的方差值彼此重疊較少的。反之,要注意,導(dǎo)致評(píng)估的CDOM為1的文檔的方差值和評(píng)估的CDOM為0的文檔的方差值重疊的方差值是無效的。
還有,對(duì)于每個(gè)向量分量,系統(tǒng)2最好計(jì)算至少一類的權(quán)wj,如下所示。
wj=1/σ(1)j(13)wj=|μ(1)j-μ(0)j|/σ(1)j(14)wj=|μ(1)j-μ(0)j|/{σ(1)j+σ(0)j}(15)其中,σ(1)j是評(píng)估的CDOM為1的文檔的第j分量的標(biāo)準(zhǔn)偏差;μ(1)j是評(píng)估的CDOM為1的文檔的第j分量的平均值;而(0)表示是對(duì)于評(píng)估的CDOM為0的文檔計(jì)算的量。
在表達(dá)式(13)中,只考慮對(duì)具有CDOM=1的文檔的向量分量計(jì)算權(quán)。表達(dá)式(14)進(jìn)一步包括具有CDOM=1的文檔的平均值和具有CDOM=1的文檔的平均值之間的差。表達(dá)式(15)進(jìn)一步包括評(píng)估的CDOM為0的文檔的分量的方差。要注意,上面介紹的權(quán)表達(dá)式只是使用平均值和/或標(biāo)準(zhǔn)偏差的可能的權(quán)表達(dá)式的3個(gè)例子。為了這個(gè),可以使用除了上面列出的之外的任何合適的權(quán)表達(dá)式或公式。
系統(tǒng)2進(jìn)一步對(duì)每個(gè)向量分量計(jì)算上述權(quán),如在圖26中所示。
用公式(14)計(jì)算的分量權(quán)適合于選擇有效向量分量作為基準(zhǔn)向量的準(zhǔn)則。還有,通過公式(13)計(jì)算的分量權(quán)適合于在距離計(jì)算中使用。
在圖26中,最好如此地配置包含計(jì)算的權(quán)值的最右面3列,使之對(duì)于單擊敏感。特別,例如,如果操作員單擊公式(14)的權(quán)值,將單擊的權(quán)值放到相關(guān)聯(lián)的向量分量(j),則系統(tǒng)2將單擊的權(quán)施加到類別Ck的基準(zhǔn)向量Ck=(ck,1,ck,2,…,ck,1,…,ck,M)的相應(yīng)的分量ck,j。
通過將基準(zhǔn)向量Ck的每一個(gè)分量乘以相應(yīng)的權(quán)wi而得到加權(quán)的基準(zhǔn)向量的計(jì)算,并對(duì)經(jīng)相乘的基準(zhǔn)向量進(jìn)行歸一化以致導(dǎo)致經(jīng)相乘的基準(zhǔn)向量的長(zhǎng)度變成1。存儲(chǔ)所使用的權(quán)作為分類參數(shù)的一部分。
還有,在計(jì)算文檔的特征向量和給定類別的基準(zhǔn)向量之間的距離中可以使用權(quán)。這是如此地得到的,將特征向量的每個(gè)分量乘以任何需要的權(quán)向量的相應(yīng)分量,使乘以權(quán)的特征向量歸一化,以致導(dǎo)致乘以權(quán)的特征向量的長(zhǎng)度為1,并以通常方法計(jì)算加權(quán)的特征向量和上述加權(quán)的基準(zhǔn)向量之間的距離。
如上所述,將較重的權(quán)加到參考的有效分量,而將較輕的0權(quán)加到無效分量能夠生成高-正確度的DOS計(jì)算參數(shù)。若加權(quán)值小于圖26表格中某一范圍,最好用0作為加權(quán)值,替代用其本來的小加權(quán)值。
此外,分類參數(shù)生成系統(tǒng)1最好包括一加權(quán)調(diào)整功能。具體來說,操作員可發(fā)出一指定類別以及加權(quán)范圍的預(yù)定命令。該系統(tǒng)1通過響應(yīng)顯示一表格,該表格與圖26中的表格相類似,而且包含指定范圍內(nèi)經(jīng)過加權(quán)的基準(zhǔn)向量分量的記錄。該顯示屏中,操作員可自由改變各個(gè)所顯示的加權(quán)值。這使得操作員能夠知道那些分量經(jīng)過相當(dāng)大的加權(quán)、那些加權(quán)相當(dāng)小,這有助于操作員根據(jù)對(duì)當(dāng)前分量的加權(quán)值是否合適這一直覺判斷調(diào)整所希望分量值。3.實(shí)施例III樣本集11和類別集14的擴(kuò)充根據(jù)本發(fā)明的第三實(shí)施例的分類參數(shù)生成系統(tǒng)或具有參數(shù)生成能力的文本分類器基本上與圖1的系統(tǒng)相同,除了在本實(shí)施例中,通過如在圖27中所示的操作的作用,樣本選擇器22具有樣本集11擴(kuò)充功能;以及在圖2中的步驟24s和26s之間插入在圖30中示出的CDOM修改過程。
在本分類參數(shù)生成系統(tǒng)中,允許操作員通過人工界面20發(fā)出擴(kuò)充命令。表示響應(yīng),調(diào)用樣本選擇器22并啟動(dòng)圖27的操作。在圖27中,選擇器22首先顯示如在圖28中所示的搜索條件輸入屏幕以提示用戶輸入搜索條件,并在步驟600中接收操作員輸入的數(shù)據(jù)。在圖28中,操作員輸入分類類別,例如,“程序中的故障”,以及用于搜索的關(guān)鍵字。如果操作員希望使用一個(gè)或多個(gè)關(guān)鍵字作為用于使DOS和CDOM計(jì)算器24的結(jié)果變窄的變窄條件,則他/她通過單擊與每個(gè)所需要的關(guān)鍵字相關(guān)聯(lián)的檢查框而對(duì)需要的關(guān)鍵字作出標(biāo)記。在這個(gè)特定的例子中,假定對(duì)詞“故障”作出標(biāo)記。
在步驟602中進(jìn)行測(cè)試,看在步驟602中指定的類別是否存在于類別集14中。如果沒有,則進(jìn)行到步驟604,選擇器22顯示對(duì)這個(gè)結(jié)果的消息;詢問操作員他/她是否希望將輸入的類別添加到類別集14;以及根據(jù)他/她的答復(fù),選擇器22在預(yù)定的存儲(chǔ)器存儲(chǔ)單元中存儲(chǔ)一個(gè)值,所述值表示是否應(yīng)該將類別添加到類別集14。
然后,在步驟604中,選擇器22通過使用關(guān)鍵字(在這個(gè)特定例子中是“故障”和“程序”)從文檔集10當(dāng)中檢索文檔,并將得到的文檔添加到樣本集11。在步驟608中,選擇器22進(jìn)行測(cè)試,看是否對(duì)任何關(guān)鍵字作出標(biāo)記作為變窄條件。如果是,則在步驟610中,在類別數(shù)據(jù)集14的合適位置中記錄作出標(biāo)記的關(guān)鍵字,例如,“故障”,作為CDOM計(jì)算條件。圖29示出存儲(chǔ)在類別數(shù)據(jù)表格14中的變窄條件618的示例形式。在步驟612中,對(duì)是否應(yīng)該將更多的文檔添加到文檔集11進(jìn)行判定。如果是,則將控制傳遞到步驟600。否則,CPU結(jié)束選擇器22的操作,并根據(jù)所存儲(chǔ)的答復(fù)進(jìn)行到圖2的步驟220或210。特別,如果要將輸入類別添加到類別集14,則將控制傳遞到步驟220。否則,將控制傳遞到步驟210。
如上所述,如果對(duì)于確定的類別擴(kuò)充樣本集11,以及如果給出任何關(guān)鍵字作為變窄條件,則保留關(guān)鍵字作為用于類別的變窄條件。
還要注意,本實(shí)施例的擴(kuò)充功能不但可以擴(kuò)充文檔集11,而且還可以擴(kuò)充類別集14。
在本實(shí)施例中,接著步驟24s將控制傳遞到步驟620,在該步驟中,CPU搜索變窄條件的樣本集11,以收集和存儲(chǔ)每個(gè)樣本的統(tǒng)計(jì)數(shù)據(jù)。在步驟622中,CPU從統(tǒng)計(jì)數(shù)據(jù)確定每個(gè)樣本是否在屬于指定類別的樣本集中,并存儲(chǔ)確定結(jié)果作為隸屬標(biāo)志,當(dāng)樣本屬于類別時(shí),所述隸屬標(biāo)志取值1,當(dāng)樣本不屬于類別時(shí),所述隸屬標(biāo)志取值0。由于變窄條件,統(tǒng)計(jì)數(shù)據(jù)和確定方法相互有關(guān),可以以許多方法來確定這些事件。最簡(jiǎn)單的方案是假定變窄條件是單個(gè)詞;統(tǒng)計(jì)數(shù)據(jù)是詞在每個(gè)樣本中出現(xiàn)的次數(shù);通過所述次數(shù)和預(yù)定閾值進(jìn)行比較而確定每個(gè)樣本是否屬于指定類別。這個(gè)閾值可以是1,在這種情況下,統(tǒng)計(jì)數(shù)據(jù)可以是表示每個(gè)樣本是否包括所述詞的一段信息。
然后,在步驟624中,CPU用CDOM和隸屬標(biāo)志確定每個(gè)樣本無法屬于類別,并存儲(chǔ)結(jié)果作為修改的CDOM。在該步驟中,以下面表格所定義的方法進(jìn)行確定。
表
具體來說,給出修改的CDOM值作為在步驟24s中計(jì)算的CDOM和本實(shí)施例中的隸屬標(biāo)志值的邏輯和。
例如,如果將這個(gè)修改的CDOM判定規(guī)則應(yīng)用于一個(gè)文檔,在該文檔中,通過使用詞“軟件(software)”代替詞“程序(program)”來討論“故障(bug)”定位,則這個(gè)文檔當(dāng)然在“程序”和“軟件”之間有不同,但是與使用其它詞相比差異不是太大,導(dǎo)致CDOM為1。由于隸屬標(biāo)志當(dāng)然是1,所以修改的CDOM成為1。這相應(yīng)于上述表格中的情況1。
在一種情況下,文檔不包括詞“故障”,但是對(duì)于其它詞的出現(xiàn),相似于當(dāng)在文檔關(guān)心軟件問題而不是故障的情況中文檔進(jìn)行排除故障(debugging),由于通過搜索條件“故障”確定的隸屬標(biāo)志是0,即使CDOM是1,最終結(jié)果或修改的CDOM還是為0。這相應(yīng)于上述表格中的情況2。
在一種情況中,文檔包括詞“故障”,所使用的詞“故障”的意思是某種小蟲,但是與在其它詞的使用中文檔關(guān)心的排除故障不同,由于已經(jīng)通過使用包括“故障”和“程序”兩者的文檔建立分類參考,而CDOM是通過分類參考確定的,所以CDOM是0,導(dǎo)致修改的CDOM為0。這相應(yīng)于上述表格中的情況3。
在上述表格的特定例子的情況中,可以看到,如果計(jì)算的CDOM是0,則隸屬標(biāo)志的值對(duì)于修改的CDOM沒有影響。為了這個(gè)原因,只需在計(jì)算的CDOM為1的文檔中對(duì)作出標(biāo)記的關(guān)鍵字進(jìn)行搜索。這種情況下,所搜索文檔中只有包含變窄關(guān)鍵字“故障”的那些文檔的修改的CDOM值為1。
根據(jù)本發(fā)明,通過提供搜索條件經(jīng)過文檔搜索,操作員可以得到對(duì)于類別的樣本集。指定在搜索條件中的任何關(guān)鍵字導(dǎo)致將所指定的關(guān)鍵字自動(dòng)地添加到CDOM計(jì)算參數(shù)作為變窄條件。
可以配置根據(jù)本實(shí)施例的分類參數(shù)生成系統(tǒng),以致通過使用對(duì)于不同類別的各個(gè)搜索條件而得到對(duì)于每個(gè)類別的文檔集,并且生成對(duì)于所有收集的文檔集的文檔的分類參數(shù)集。
在上述例子中,使用字符串。然而,可以使用任何合適的通常字符表達(dá)、著錄項(xiàng)目數(shù)據(jù)等作為搜索條件。
還有可能配置分類參數(shù)生成系統(tǒng),致使通過執(zhí)行對(duì)于每個(gè)類別的相應(yīng)搜索條件的多個(gè)(L)搜索而對(duì)于每個(gè)類別準(zhǔn)備多個(gè)(L)文檔集;生成分類參數(shù)的不同集,并對(duì)多個(gè)(L)文檔集的每一個(gè)進(jìn)行訓(xùn)練,并以分開的方式存儲(chǔ);以及在一個(gè)實(shí)際的CDOM計(jì)算中,使用從7個(gè)分類參數(shù)集計(jì)算的DOS中最大的一個(gè)DOS作為DOS。例如,可以如此地配置分類參數(shù)生成系統(tǒng),以致對(duì)于類別“排除故障”保留從包括詞“程序”的文檔生成的分類參數(shù)集,和保留從包括詞“軟件”的文檔生成的分類參數(shù)集,而且在實(shí)際分類中,通過使用各個(gè)參數(shù)集計(jì)算兩個(gè)DOS值,并使用最大的DOS值作為計(jì)算的DOS。4.實(shí)施例IV基準(zhǔn)向量統(tǒng)計(jì)變化情況上述實(shí)施例中,已經(jīng)使用樣本集11。這是限制在訓(xùn)練中使用的文檔數(shù)。然而,實(shí)際上當(dāng)使用現(xiàn)行的大的文檔集時(shí),通過使用相同的樣本文檔或有時(shí)是擴(kuò)充的樣本文檔對(duì)參數(shù)進(jìn)行訓(xùn)練,但是已經(jīng)訓(xùn)練的參數(shù)不總是生成滿意的結(jié)果。為了解決這個(gè)問題,考慮一種有用的方法,即從現(xiàn)行文檔集選擇合適數(shù)目(即,與樣本集11有相同數(shù)目)的一個(gè)不同文檔集,以在訓(xùn)練的每個(gè)周期處供訓(xùn)練使用。通過如此進(jìn)行,可以在所有文檔集上訓(xùn)練分類參數(shù),而同時(shí)限制在每個(gè)訓(xùn)練迭代或周期中的文檔數(shù)。
可以以任何合適的方法在每個(gè)訓(xùn)練迭代中進(jìn)行不同文檔集的選擇。例如,可以將現(xiàn)行文檔集分成預(yù)定數(shù)目的子集,并可以一個(gè)接一個(gè)順序地使用子集?;驈默F(xiàn)行文檔集隨機(jī)地選擇預(yù)定數(shù)目的文檔。要注意,樣本集11不是必需的;然而,事先必須對(duì)文檔集10的每個(gè)文檔計(jì)算特征向量。
我們討論后面一種選擇方案的情況。這種情況下,認(rèn)為樣本文檔集(在每個(gè)周期中隨機(jī)地選擇的文檔集)是在現(xiàn)行文檔集的范圍內(nèi)變化的。相應(yīng)地,從而考慮使每個(gè)類別Ck的基準(zhǔn)向量圍繞確定的中心分布。圖31是示意圖,示出在本實(shí)施例中的分布基準(zhǔn)向量的概念以及基準(zhǔn)向量和兩個(gè)示例文檔中的每一個(gè)文檔之間的距離。為了簡(jiǎn)單起見,在圖31中只考慮兩維。圖32示出的圖表A和圖表B用于說明若將確信度用作選擇準(zhǔn)則將如何選擇評(píng)估目標(biāo)文檔。
圖31中,假定類別Ck的基準(zhǔn)向量在橢圓范圍中均勻地分布。則,考慮基準(zhǔn)向量的分布范圍的中心Ck’是通過使用所有現(xiàn)行文檔集尋找的類別的基準(zhǔn)向量。將向量Ck’稱為類別Ck的“中心向量”。點(diǎn)Da和Db分別表示文檔A和B的特征向量。向量Da和中心向量Ck’之間的距離和向量Db和中心向量Ck’之間的距離都等于d1。在這個(gè)基準(zhǔn)向量模型(或樣本集模型)中,通過在分布范圍內(nèi)的區(qū)域確定文檔Da屬于類別Ck的概率,所述區(qū)域包含在通過Da指出的中心以及半徑為dTH的一個(gè)圓中,其中,dTH是設(shè)定為類別Ck用DOM閾值的閾值距離。由于具有通過Da指出的中心以及半徑為dTH的一個(gè)圓包括大部分分布范圍,而具有通過Db指出的中心以及半徑為dTH的一個(gè)圓只包括一半以上的分布范圍,可以看到文檔A屬于類別Ck的概率大于文檔b屬于類別Ck的概率。r1和r2是中心向量Ck’分布范圍的較短半徑和較長(zhǎng)半徑。
圖32中,圖表A表示屬于類別Ck的概率密度分布(由垂直軸表示)。圖表B表示每一文檔至中心向量Ck’的距離和處于距該向量Ck’為該距離的文檔通過比較DOS和DOM閾值Tk(在特定例中=dTH)判定為屬于類別Ck的文檔的確信度兩者之間的關(guān)系。圖表A和圖表B中,水平軸表示每一文檔至中心向量Ck’的距離,標(biāo)記為“A”和“B”的曲線分別是文檔A和文檔B的。圖表B中,垂直軸表示上述確信度(DOC)。圖表B的曲線A和曲線B是使圖表B中的相應(yīng)曲線A和B積分得到的。
圖表B中,文檔判定為屬于其DOM閾值Tk為DTH的類別Ck的確信度由文檔曲線和其d座標(biāo)為dTH的垂直線之間交點(diǎn)的DOC座標(biāo)所確定。若DOM閾值例如為4.5,接著由每一曲線A和B與d座標(biāo)分別為0.72和0.65的4.5垂直線之間交點(diǎn)的DOC座標(biāo)給出每一文檔A(或B)判定為屬于類別Ck的確信度。因此,若操作員在圖7中評(píng)估樣本選擇屏內(nèi)選擇“確信度”作為選擇準(zhǔn)則,并將選擇閾值設(shè)定為0.7,便對(duì)一評(píng)估目標(biāo)選擇文檔A,不選擇文檔B。
注意,1減去CDOM=1的確信度等于判定該文檔不屬于類別Ck的確信度。
圖32特定例中,概率是0.8。
分布基準(zhǔn)向量模型能夠生成正確的分類參數(shù)。本實(shí)施例中,可在圖7中評(píng)估樣本選擇對(duì)話框264內(nèi)選擇確信度作為選擇準(zhǔn)則。注意,每當(dāng)用式(4)計(jì)算基準(zhǔn)向量Ck時(shí),必須就其分布以所計(jì)算分量值為中心的基準(zhǔn)向量的每一分量定義概率密度分布。當(dāng)根據(jù)DOS和DOM閾值Tk計(jì)算CDOM時(shí),還計(jì)算該CDOM的確信度。其他安排與第一實(shí)施例相同。5.實(shí)施例V文本分類器5.1.基本文本分類器圖33是示出系統(tǒng)3的配置的示意方框圖,所述系統(tǒng)3用于通過使用根據(jù)本發(fā)明生成的分類參數(shù)計(jì)算對(duì)于指定類別的給定文檔的隸屬分?jǐn)?shù)。在圖33中,系統(tǒng)3包括文檔數(shù)據(jù)文件11a,它包括一實(shí)際文檔集和相應(yīng)的特征向量;類別數(shù)據(jù)文件14a,它包括一類別集和可以包括搜索條件的相應(yīng)的參數(shù);文檔選擇器22a;DOS(即,加權(quán)的距離)和CDOM計(jì)算器24,它與圖1的DOS和CDOM計(jì)算器24相同;輸出部分820;以及人工界面20。
圖34是流程圖,示出系統(tǒng)3的示例操作。如果操作員指定類別或類別ID和文檔ID,則系統(tǒng)3的CPU開始圖34的操作。在步驟800中,CPU首先進(jìn)行測(cè)試,看在類別數(shù)據(jù)文件14a中與指定類別相關(guān)聯(lián)的參數(shù)中是否包括任何搜索條件。如果沒有,則將控制傳遞到步驟804。如果在步驟800中找到搜索條件,則在步驟802中,CPU在搜索條件方面搜索指定文檔,看文檔是否滿足搜索條件。如果不滿足,則在步驟810中,CPU將隸屬分?jǐn)?shù)設(shè)定為0。
(使用表達(dá)“隸屬分?jǐn)?shù)”,其意義與CDOM或隸屬標(biāo)志相同。)如果在步驟802中文檔滿足搜索條件,則在步驟804中,CPU計(jì)算DOS(例如,通過公式(8)定義的指定文檔的基準(zhǔn)向量和指定類別的基準(zhǔn)向量之間的加權(quán)的距離)。然后,在步驟806中,CPU從DOS計(jì)算CDOM,并在步驟808中輸出實(shí)際得到的隸屬分?jǐn)?shù)和CDOM作為結(jié)果,并終止操作。
通過執(zhí)行圖34的操作,對(duì)于在文檔集11a中的每一個(gè)文檔,得到屬于指定類別的文檔收集。
雖然上述文本分類器很簡(jiǎn)單,但是通過使用較好地訓(xùn)練的參數(shù),它提供正確度提高的隸屬分?jǐn)?shù)。然而,由于文本分類器不具備參數(shù)生成和訓(xùn)練能力,所以文本分類器3不允許將新類別添加到類別集14a。為了解決新類別的添加,最好使文本分類器具備參數(shù)生成和訓(xùn)練能力。5.2.帶有參數(shù)生成和訓(xùn)練能力的文本分類器這種類型的文本分類器的基本結(jié)構(gòu)與分類參數(shù)生成系統(tǒng)1(圖1)或2(圖23)的文本分類器相同。在實(shí)際使用模式中和以§4之前部分和包括§4部分所述的方式在訓(xùn)練模式中,帶有參數(shù)生成和訓(xùn)練能力的文本分類器基本上根據(jù)圖34的流程圖進(jìn)行操作。
然而,由于提供圖12的評(píng)估的CDOM表格430,所以最好利用。這是因?yàn)閷?duì)于得到所需要的CDOM,表格查找操作所費(fèi)的時(shí)間要比DOS和CDOM計(jì)算操作少。
圖35是示出添加步驟的部分流程圖,要將這些步驟添加到包括步驟804和806的流程部分,以便利用評(píng)估的CDOM表格430。在圖35中,以粗線畫出添加流程部分。在步驟802和804之間插入判定步驟830,在該步驟中進(jìn)行測(cè)試,看在評(píng)估的CDOM表格430中是否找到對(duì)于指定類別的指定文檔的評(píng)估的CDOM。如果找到,則將控制傳遞到步驟804。否則,將控制傳遞到另一個(gè)添加步驟832,在該步驟中,將找到的CDOM傳遞到輸出部分820。
在本實(shí)施例中,表格430包含的評(píng)估的CDOM越多,CDOM計(jì)算就變得越有效。如果成功地利用文本分類器的用戶的評(píng)估值,則將對(duì)增加在評(píng)估的CDOM表格430中的評(píng)估的CDOM的數(shù)目有貢獻(xiàn)。圖36是示意圖,示出分類結(jié)果顯示屏幕840的例子,所述分類結(jié)果顯示屏幕840根據(jù)請(qǐng)求而顯示屬于用戶指定的類別的文檔。如在圖36中所示,最好除了分類結(jié)果之外再提供消息842,鼓勵(lì)用戶通知分類器的管理員是否應(yīng)該尋找任何文檔的不相關(guān);以及檢查框844,將它附加到每個(gè)顯示的文檔上,要用于單擊而報(bào)告不相關(guān)。
然而,這種情況下,普通用戶和可信賴的用戶(例如,運(yùn)行文本分類器的組織的成員)最好相互區(qū)分。為了這個(gè)目的,創(chuàng)造性的分類器最好包括如在圖37中所示的文件。特別,可以將從在有資格用戶ID列表850中注冊(cè)的可信賴用戶來的評(píng)估報(bào)告直接反映給表430。然而,將從沒有在有資格用戶ID列表850中注冊(cè)的普通用戶來的評(píng)估報(bào)告一次存儲(chǔ)在用戶評(píng)估報(bào)告文件854中,以致以后操作員或管理員可以復(fù)查所存儲(chǔ)的評(píng)估報(bào)告的CDOM值。用戶評(píng)估報(bào)告文件854包括文檔ID、類別、報(bào)告時(shí)間和日期、發(fā)送報(bào)告的用戶的用戶ID等。創(chuàng)造性的分類器進(jìn)一步包括用戶數(shù)據(jù)文件852,用于存儲(chǔ)用戶需要的信息。
做這些為降低不相關(guān)這種文檔差錯(cuò)作出貢獻(xiàn),所述差錯(cuò)是當(dāng)實(shí)際上CDOM應(yīng)該是0時(shí),錯(cuò)誤地將CDOM設(shè)定為1。
可在不背離本發(fā)明的實(shí)質(zhì)和范圍的情況下構(gòu)成本發(fā)明許多寬泛的不同實(shí)施例。應(yīng)該理解,本發(fā)明不限于說明書中描述的特定實(shí)施例,而應(yīng)由所附的權(quán)利要求書定義。
權(quán)利要求
1.一種參數(shù)集生成系統(tǒng),用于確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別,其特征在于,該系統(tǒng)包括文檔集,每個(gè)文檔具有識(shí)別符(ID);包含每個(gè)文檔記錄的文檔數(shù)據(jù)集,所述記錄包含所述文檔的文檔ID以及在預(yù)定向量空間中表示所述文檔特征的特征向量;包含每個(gè)類別記錄的類別數(shù)據(jù)集,所述記錄包含所述類別的類別ID、類別名稱以及所述參數(shù)集,所述參數(shù)包括在所述預(yù)定向量空間中表示所述類別特征的基準(zhǔn)向量以及所述類別的閾值;用于通過用文檔的所述特征向量、所述基準(zhǔn)向量以及與所述指定類別相關(guān)聯(lián)的所述閾值,對(duì)每個(gè)文檔計(jì)算隸屬分?jǐn)?shù)的裝置,所述隸屬分?jǐn)?shù)表示文檔是否屬于所述指定類別;支持操作員輸入用于選擇文檔的各種命令參數(shù)、用于對(duì)所述選擇文檔評(píng)估所計(jì)算的隸屬分?jǐn)?shù)的裝置;根據(jù)所述命令參數(shù)其中一個(gè)命令參數(shù)的輸入,向所述操作員可視地顯示對(duì)于文檔的所述選擇有用的信息的裝置;用于顯示所選擇文檔以及允許所述操作員評(píng)估每個(gè)顯示的所選擇文檔的所述隸屬分?jǐn)?shù),即對(duì)此設(shè)定一經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的評(píng)估裝置;用于若對(duì)于每個(gè)所述預(yù)定類別的每個(gè)文檔存在所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)便存儲(chǔ)所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的裝置;以及用于通過利用所述存儲(chǔ)裝置中各個(gè)文檔若有的所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)來更新所述指定類別的所述基準(zhǔn)向量的裝置,所述經(jīng)計(jì)算的文檔隸屬分?jǐn)?shù)未就所述指定類別以及所述文檔數(shù)據(jù)集中包含的特征向量進(jìn)行過評(píng)估。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,用于計(jì)算隸屬分?jǐn)?shù)的所述裝置包括用于計(jì)算每個(gè)文檔的所述特征向量和所述指定類別的所述基準(zhǔn)向量之間距離的裝置;以及用于根據(jù)所述所計(jì)算距離和所述閾值計(jì)算所述隸屬分?jǐn)?shù)的裝置。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述閾值由所述距離的一可能值、所述距離的標(biāo)準(zhǔn)偏差的函數(shù)、按所述距離的升序排列的所述文檔集中第一次出現(xiàn)的文檔號(hào)以及屬于所述類別的文檔占全部文檔的比值給出,所述比值包括百分?jǐn)?shù)。
4.如權(quán)利要求2所述的系統(tǒng),其特征在于,用于支持操作員的所述裝置包括用于指定預(yù)定選擇準(zhǔn)則其中一個(gè)的裝置;以及用于對(duì)所述所指定選擇準(zhǔn)則指定范圍的裝置。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述用于指定一個(gè)選擇準(zhǔn)則的裝置包括用于指定所述距離其中一個(gè)距離、按所述距離順序排列的文檔列表中一位置以及所述特征向量的分量中所希望的一個(gè)分量的裝置。
6.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述用于指定范圍的裝置包括用于指定以所述閾值為中心的文檔號(hào)中所希望的一個(gè)文檔號(hào)、兩個(gè)邊界值和基于圖表的規(guī)格選項(xiàng)的裝置。
7.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述用于支持操作員的裝置包括用于指定本該用于所述對(duì)所述距離指定范圍的行值和所述行值偏差其中一個(gè)或所述特征向量的分量中所述所希望的一個(gè)分量的裝置。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述用于支持操作員的裝置包括用于對(duì)未經(jīng)評(píng)估的文檔、所有文檔以及經(jīng)評(píng)估的文檔中指定某一集合只應(yīng)執(zhí)行對(duì)所述選擇文檔的操作的裝置。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述用于可視地顯示信息的裝置包括響應(yīng)對(duì)所述基于圖表的說明選項(xiàng)的選擇、用于顯示文檔分布圖表用于使操作員能夠交互指定其域按所述指定的選擇準(zhǔn)則定義的所述圖表范圍的裝置。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述用于顯示文檔分布圖表的裝置包括用于對(duì)表示所述范圍的指示符進(jìn)行顯示和定位的裝置;用于顯示并輸入確定所述范圍的數(shù)字值的裝置;以及用于使所述指示符和數(shù)字值的位置互鎖的裝置。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述用于顯示文檔分布圖表的裝置包括用于顯示其域按所述距離定義的所述文檔分布圖表的裝置。
12.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述用于顯示文檔分布圖表的裝置包括用于顯示其定義域按所述特征向量的分量其中一個(gè)分量定義的所述文檔分布圖表的裝置;以及用于顯示指定所述其中一個(gè)分量的裝置。
13.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述評(píng)估裝置按所計(jì)算的距離顯示每一所述選定文檔的記錄,每個(gè)記錄包括所述所計(jì)算距離、所述所確定的隸屬分?jǐn)?shù)、若有的話包括所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)、以及經(jīng)評(píng)估的隸屬分?jǐn)?shù)設(shè)定列,如果存在,其中顯示有所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述評(píng)估裝置包括用于對(duì)全部所述選定文檔的所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)設(shè)定列中的數(shù)值圖進(jìn)行空白設(shè)定的裝置;以及用于對(duì)所述數(shù)值圖的預(yù)定圖選擇其中一個(gè)的裝置,所述預(yù)定圖案包括對(duì)所述所計(jì)算隸屬分?jǐn)?shù)的復(fù)制、全0、全1以及清除。
15.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述評(píng)估裝置包括用于響應(yīng)對(duì)所選定文檔其中一個(gè)的選擇,顯示包括所述文檔本文在內(nèi)的所述其中一個(gè)所述選定文檔的具體信息的裝置。
16.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述可視地顯示信息的裝置包括在所述預(yù)定選擇準(zhǔn)則是所述距離或所述特征向量的分量其中選定的一個(gè)分量的情況下可用于顯示一函數(shù)選擇屏幕,以允許操作員選擇預(yù)定概率分布函數(shù)其中一個(gè)的裝置;用于顯示文檔分布圖表用于使操作員能夠在所述圖表的域中交互指定一操作員希望對(duì)其應(yīng)用所述選定的概率分布函數(shù)的范圍、操作員希望將所述范圍分成的分段數(shù)以及操作員希望在所述范圍所述分段中提取的樣本總數(shù)的裝置;以及用于通過響應(yīng)根據(jù)所述選定概率分布函數(shù)從所述分段當(dāng)中提取所述評(píng)估樣本總數(shù)的裝置。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于,所述用于顯示函數(shù)選擇屏幕的裝置包括用于使操作員能夠定義其自己分布函數(shù)的裝置。
18.如權(quán)利要求9所述的系統(tǒng),其特征在于,進(jìn)一步包括響應(yīng)操作員的預(yù)定操作用于從所述選定文檔提取至少一個(gè)關(guān)鍵字的裝置;用于顯示所述至少一個(gè)關(guān)鍵字,并使操作員能夠從所述至少一個(gè)關(guān)鍵字生成搜索條件的裝置;以及用于進(jìn)一步從所述文檔集選擇滿足所述搜索條件的文檔,以便能夠?qū)λ鲞M(jìn)一步選定的文檔進(jìn)行評(píng)估的裝置。
19.如權(quán)利要求18所述的系統(tǒng),其特征在于,所述用于提取至少一個(gè)關(guān)鍵字的裝置包括用于在與所述用于指定所述所指定選擇準(zhǔn)則其范圍的裝置相同的顯示屏上顯示使所述預(yù)定操作成為可能的裝置。
20.如權(quán)利要求18所述的系統(tǒng),其特征在于,所述用于提取至少一個(gè)關(guān)鍵字的裝置包括用于在與所述用于顯示文檔分布圖表的裝置相同的顯示屏上顯示使所述預(yù)定操作成為可能的裝置。
21.如權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括響應(yīng)操作員選擇所述文檔集其中一個(gè)用于計(jì)算與所述集的每個(gè)其他文檔的相似程度的裝置;用于顯示文檔的第一列表和文檔的第二列表,所述第一列表的文檔其隸屬分?jǐn)?shù)按相似程度降序表示所述指定類別的非隸屬關(guān)系,所述第二列表的文檔其隸屬分?jǐn)?shù)按相似程度升序表示所述指定類別的隸屬關(guān)系的裝置。
22.如權(quán)利要求21所述的系統(tǒng),其特征在于,所述用于計(jì)算相似程度的裝置包括在與所述評(píng)估裝置相同顯示器上顯示使用戶能夠選擇所述所顯示的選定文檔其中一個(gè)的裝置。
23.如權(quán)利要求21所述的系統(tǒng),其特征在于,進(jìn)一步包括用于對(duì)每個(gè)類別存儲(chǔ)類別的類別ID的列表,如果評(píng)估每個(gè)類別的所述隸屬分?jǐn)?shù)為表示該類別隸屬關(guān)系的1,則應(yīng)該將所述類別的隸屬分?jǐn)?shù)設(shè)定為隸屬分?jǐn)?shù)可能值其中一個(gè)特定值的裝置;以及在評(píng)估某些文檔的隸屬分?jǐn)?shù)為1的情況中可操作,用于自動(dòng)地將文檔的隸屬分?jǐn)?shù)設(shè)定成所述特定值的裝置,所述文檔包含在與所述某些文檔相關(guān)聯(lián)的所述列表中。
24.如權(quán)利要求22所述的系統(tǒng),其特征在于,所述類別數(shù)據(jù)集的每個(gè)記錄包括所述隸屬分?jǐn)?shù)每個(gè)可能值的類別ID的列表。
25.如權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括用于顯示圖表信息用于將所述所計(jì)算的隸屬分?jǐn)?shù)與先前訓(xùn)練周期中計(jì)算的先前隸屬分?jǐn)?shù)比較的裝置。
26.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用于顯示圖表信息的裝置包括用于根據(jù)所述距離顯示文檔分布以便可知道先前和當(dāng)前訓(xùn)練周期之間所述隸屬分?jǐn)?shù)變化的裝置。
27.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用于顯示圖表信息的裝置包括用于分開顯示根據(jù)先前計(jì)算的距離的第一文檔分布圖表和根據(jù)剛才計(jì)算的距離的第二文檔分布圖表,其中用可視區(qū)分的方式在所述第一和第二文檔分布圖表兩者分別標(biāo)繪當(dāng)前隸屬分?jǐn)?shù)為1的屬于文檔和當(dāng)前隸屬分?jǐn)?shù)為0的非屬于文檔的裝置。
28.如權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括用于計(jì)算一表示某個(gè)類別所計(jì)算的隸屬分?jǐn)?shù)其正確程度的數(shù)值的裝置;以及用于將所述值用于對(duì)所述某個(gè)類別的所述參數(shù)的質(zhì)量進(jìn)行檢查的裝置。
29.如權(quán)利要求28所述的系統(tǒng),其特征在于,所述用于計(jì)算一數(shù)值的裝置包括用于通過將其所計(jì)算的隸屬關(guān)系和所述經(jīng)評(píng)估的隸屬關(guān)系相互符合的文檔其數(shù)目除以其所述某個(gè)類別的所計(jì)算的隸屬關(guān)系經(jīng)過評(píng)估的文檔其數(shù)目來計(jì)算所述數(shù)值。
30.如權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括分析裝置,用于相對(duì)于指定維數(shù)、對(duì)于所述指定類別其經(jīng)過評(píng)估的隸屬分?jǐn)?shù)為1的屬于文檔的特征向量的分量、以及對(duì)于所述指定類別其經(jīng)過評(píng)估的隸屬分?jǐn)?shù)為0的不屬于文檔的特征向量的分量進(jìn)行方差分析。
31.如權(quán)利要求30所述的系統(tǒng),其特征在于,所述分析裝置包括用于顯示表示所述屬于文檔分布的第一圖表和表示所述不屬于文檔分布的第二圖表的裝置,每個(gè)圖表的域是分量值方差;以及用于顯示并指定顯示所述第一和第二圖表的所述指定維數(shù)的裝置。
32.如權(quán)利要求31所述的系統(tǒng),其特征在于,所述分析裝置包括用于顯示分量布局圖的裝置,其中一個(gè)軸相應(yīng)于所述屬于文檔的指定維數(shù)分量的方差,而另一個(gè)軸相應(yīng)于所述不屬于文檔的指定維數(shù)分量的方差;用于在所述布局圖上指出所需分量的指出裝置;用于顯示并指定通過所述指出裝置指出的維數(shù)和分量數(shù)的裝置;用于使所述指出裝置和所述輸入裝置相互鎖定的裝置。
33.如權(quán)利要求30所述的系統(tǒng),其特征在于,進(jìn)一步包括響應(yīng)操作員包括對(duì)類別指定在內(nèi)的預(yù)定操作,用于顯示數(shù)據(jù)表的裝置,其中,對(duì)于每個(gè)分量給出有效性數(shù)據(jù),表示該分量在決定屬于所述類別的程度的有效性,以及根據(jù)所述有效性數(shù)據(jù)計(jì)算的至少一個(gè)權(quán)值;用于指定要加權(quán)的所需分量的裝置;以及用于用所述與所希望分量相關(guān)聯(lián)的至少一個(gè)加權(quán)值對(duì)所述基準(zhǔn)向量的所述希望分量加權(quán)的裝置。
34.如權(quán)利要求33所述的系統(tǒng),其特征在于,所述有效性數(shù)據(jù)包括所述屬于文檔的所述特征向量第一平均值和第一方差,以及所述不屬于文檔的所述特征向量第二平均值和第二方差。
35.如權(quán)利要求33所述的系統(tǒng),其特征在于,所述用于指定所需分量的裝置包括可對(duì)因其所述至少一個(gè)權(quán)值小于預(yù)定值的分量進(jìn)行操作、用于給予操作員一提議對(duì)所述分量應(yīng)該用0作為權(quán)值的裝置。
36.如權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括實(shí)際使用的文檔集;用于接收操作員的一搜索條件以及一類別的裝置;用于利用所述搜索條件從所述實(shí)際使用的文檔集檢索文檔,并將所述檢索得到的文檔加到所述文檔集的裝置。
37.如權(quán)利要求36所述的系統(tǒng),其特征在于,所述用于接收搜索條件的裝置包括用于將所述搜索條件中的關(guān)鍵字其中指定的一個(gè)關(guān)鍵字標(biāo)記為窄條件的裝置,所述系統(tǒng)進(jìn)一步包括用于將所述指定關(guān)鍵字登記為所述類別數(shù)據(jù)集中所述類別的所述記錄中所述窄條件的裝置;以及用于對(duì)所述給定文檔搜索所述指定關(guān)鍵字(窄條件)的裝置;用于僅當(dāng)所述所計(jì)算的隸屬分?jǐn)?shù)為1并且在所述給定文檔中找到所述指定關(guān)鍵字時(shí)才將所述給定文檔經(jīng)修改的隸屬分?jǐn)?shù)設(shè)定為1的裝置。
38.如權(quán)利要求36所述的系統(tǒng),其特征在于,進(jìn)一步包括在所述預(yù)定類別中沒有找到所述所接收類別情況下可操作、用于詢問操作員是否要將所述所接收類別加到所述預(yù)定類別的裝置;以及響應(yīng)操作員的確認(rèn)答復(fù)、用于將所述所接收類別的記錄加到所述類別數(shù)據(jù)集的裝置。
39.如權(quán)利要求33所述的系統(tǒng),其特征在于,還包括允許所述操作員直接編輯諸如基準(zhǔn)向量分量、閾值、各種加權(quán)值等任何所述參數(shù)的裝置。
40.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括在所述基準(zhǔn)向量的所述更新之前響應(yīng),用于顯示其結(jié)果將在所述基準(zhǔn)向量的所述更新之后獲得以便讓所述操作員復(fù)查所述分類結(jié)果的所述指定類別的分類結(jié)果的裝置。
41.如權(quán)利要求34所述的系統(tǒng),其特征在于,所述至少一個(gè)加權(quán)值根據(jù)至少所述第一方差計(jì)算得到。
42.如權(quán)利要求41所述的系統(tǒng),其特征在于,所述第一平均值和所述第二平均值還用于對(duì)所述至少一個(gè)加權(quán)值的計(jì)算。
43.如權(quán)利要求33所述的系統(tǒng),其特征在于,進(jìn)一步包括響應(yīng)包括對(duì)類別的指定以及加權(quán)范圍在內(nèi)的預(yù)定命令,用于顯示一加權(quán)數(shù)據(jù)表的裝置,該加權(quán)數(shù)據(jù)表僅包含在所述范圍內(nèi)進(jìn)行相應(yīng)加權(quán)的分量的記錄,每一記錄包括表示分量在決定對(duì)所述類別的屬于程度方面有效性的有效數(shù)據(jù)和對(duì)該分量所加的加權(quán)值;以及用于使操作能夠自由改變所述加權(quán)值的裝置。
44.一種參數(shù)集生成系統(tǒng),用于用戶確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別,其特征在于,該系統(tǒng)包括實(shí)際使用的文檔集,每個(gè)文檔具有一識(shí)別符(ID);包含每個(gè)文檔記錄的文檔數(shù)據(jù)集,所述記錄包含所述文檔的文檔ID以及在預(yù)定向量空間中表示所述文檔特征的特征向量;用于每個(gè)訓(xùn)練周期中從所述實(shí)際使用的文檔集當(dāng)中隨機(jī)選擇合適數(shù)量的文檔的裝置;包含每個(gè)類別記錄的類別數(shù)據(jù)集,所述記錄包含所述類別的類別ID、類別名稱以及所述參數(shù)集,所述參數(shù)包括表示所述預(yù)定向量空間中所述類別特征的中心向量、所述中心向量分布的數(shù)據(jù)表示以及用于確定文檔是否屬于該類別的閾值;用于通過用文檔的特征向量、所述指定類別的中心向量以及對(duì)所述類別的閾值,對(duì)每個(gè)文檔計(jì)算隸屬分?jǐn)?shù)的裝置,所述隸屬分?jǐn)?shù)表示文檔是否屬于所述指定類別;支持操作員輸入用于選擇文檔的各種命令參數(shù)、用于對(duì)所述選擇文檔評(píng)估所計(jì)算的隸屬分?jǐn)?shù)的裝置;根據(jù)所述命令參數(shù)其中一個(gè)命令參數(shù)的輸入,向所述操作員可視地顯示對(duì)于文檔的所述選擇有用的信息的裝置;用于顯示所選擇文檔以及允許所述操作員評(píng)估每個(gè)顯示的所選擇文檔的所述隸屬分?jǐn)?shù),即對(duì)此設(shè)定一經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的評(píng)估裝置;用于若對(duì)于每個(gè)所述預(yù)定類別的每個(gè)文檔存在所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)便存儲(chǔ)所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的裝置;用于通過利用所述存儲(chǔ)裝置中各個(gè)文檔若有的所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)來更新所述指定類別的所述基準(zhǔn)向量的裝置,所述經(jīng)計(jì)算的文檔隸屬分?jǐn)?shù)未就所述指定類別以及所述文檔數(shù)據(jù)集中包含的特征向量進(jìn)行過評(píng)估;以及用于沿其分布以所計(jì)算的分量值為中心的基準(zhǔn)向量的每一分量定義概率密度分布的裝置。
45.如權(quán)利要求44所述的系統(tǒng),其特征在于,用于計(jì)算隸屬分?jǐn)?shù)的所述裝置包括用于計(jì)算每個(gè)文檔的所述特征向量和所述指定類別的所述基準(zhǔn)向量之間距離的裝置;以及用于根據(jù)所述所計(jì)算距離和所述閾值計(jì)算所述隸屬分?jǐn)?shù)的裝置;以及用于根據(jù)所述概率密度分布和所述閾值計(jì)算所述所計(jì)算的隸屬分?jǐn)?shù)的確信度的裝置。
46.如權(quán)利要求45所述的系統(tǒng),其特征在于,所述閾值作為所述距離的一可能值、所述距離的標(biāo)準(zhǔn)偏差的一可能值、按所述距離的順序排列的文檔列表中第一文檔數(shù)以及屬于所述類別的文檔占全部文檔的比值給出,所述比值包括百分?jǐn)?shù)。
47.如權(quán)利要求44所述的系統(tǒng),其特征在于,所述用于支持操作員的裝置包括用于指定預(yù)定選擇準(zhǔn)則其中一個(gè)的裝置;以及用于對(duì)所述所指定選擇準(zhǔn)則指定范圍的裝置。
48.如權(quán)利要求47所述的系統(tǒng),其特征在于,所述用于指定一個(gè)選擇準(zhǔn)則的裝置包括用于指定所述距離其中一個(gè)距離、按所述距離順序排列的文檔列表中一位置、所述特征向量的分量中所希望的一個(gè)分量以及所述確信度的裝置。
49.一種具有參數(shù)訓(xùn)練能力用于確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別的系統(tǒng),其特征在于,該系統(tǒng)包括文檔集,每個(gè)文檔具有識(shí)別符(ID);包含每個(gè)文檔記錄的文檔數(shù)據(jù)集,所述記錄包含所述文檔的文檔ID以及在預(yù)定向量空間中表示所述文檔特征的特征向量;包含每個(gè)類別記錄的類別數(shù)據(jù)集,所述記錄包含所述類別的類別ID、類別名稱以及所述參數(shù)集,所述參數(shù)包括在所述預(yù)定向量空間中表示所述類別特征的基準(zhǔn)向量以及對(duì)所述類別確定的閾值;用于通過用文檔的特征向量、所述指定類別的基準(zhǔn)向量以及對(duì)所述類別設(shè)定的閾值,對(duì)所傳遞的文檔計(jì)算隸屬分?jǐn)?shù)的裝置,所述隸屬分?jǐn)?shù)表示所傳遞的文檔是否屬于所述指定類別;支持操作員輸入用于選擇文檔的各種命令參數(shù)、用于對(duì)所述選擇文檔評(píng)估所計(jì)算的隸屬分?jǐn)?shù)的裝置;根據(jù)所述命令參數(shù)其中一個(gè)命令參數(shù)的輸入,向所述操作員可視地顯示對(duì)于文檔的所述選擇有用的信息的裝置;用于顯示所選擇文檔以及允許所述操作員評(píng)估每個(gè)顯示的所選擇文檔的所述隸屬分?jǐn)?shù),即對(duì)此設(shè)定一經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的評(píng)估裝置;用于若對(duì)于每個(gè)所述預(yù)定類別的每個(gè)文檔存在所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)便存儲(chǔ)所述經(jīng)過評(píng)估的隸屬分?jǐn)?shù)的裝置;以及用于通過利用所述存儲(chǔ)裝置中各個(gè)文檔若有的所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)來更新所述指定類別的所述基準(zhǔn)向量的裝置,所述經(jīng)計(jì)算的文檔隸屬分?jǐn)?shù)未就所述指定類別以及所述文檔數(shù)據(jù)集中包含的特征向量進(jìn)行過評(píng)估。
50.如權(quán)利要求49所述的系統(tǒng),其特征在于,進(jìn)一步包括響應(yīng)所述存儲(chǔ)所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)的裝置中找到所述指定類別的所述給定文檔的經(jīng)評(píng)估隸屬分?jǐn)?shù)這種判定,用于提供所述找到的經(jīng)評(píng)估隸屬分?jǐn)?shù)作為輸出的裝置;用于僅當(dāng)所述存儲(chǔ)所述經(jīng)評(píng)估的隸屬分?jǐn)?shù)的裝置中沒有找到所述類別的所述給定文檔的經(jīng)評(píng)估隸屬分?jǐn)?shù)時(shí),才使所述給定文檔傳遞至所述計(jì)算隸屬分?jǐn)?shù)的裝置。
51.一種參數(shù)集生成方法,用于確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別,其特征在于,該方法包括下列步驟準(zhǔn)備一文檔集,每個(gè)文檔具有識(shí)別符(ID);準(zhǔn)備一包含每個(gè)文檔記錄的文檔數(shù)據(jù)集,所述記錄包含所述文檔的文檔ID以及在預(yù)定向量空間中表示所述文檔特征的特征向量;準(zhǔn)備一包含每個(gè)類別記錄的類別數(shù)據(jù)集,所述記錄包含所述類別的類別ID、類別名稱以及所述參數(shù)集,所述參數(shù)包括在所述預(yù)定向量空間中表示所述類別特征的基準(zhǔn)向量以及對(duì)所述類別確定的閾值;通過用文檔的特征向量、所述指定類別的基準(zhǔn)向量以及對(duì)所述類別設(shè)定的閾值,對(duì)每個(gè)文檔計(jì)算隸屬分?jǐn)?shù),所述隸屬分?jǐn)?shù)表示文檔是否屬于所述指定類別;支持操作員輸入用于選擇文檔的各種命令參數(shù)、用于對(duì)所述選擇文檔評(píng)估所計(jì)算的隸屬分?jǐn)?shù);根據(jù)所述命令參數(shù)其中一個(gè)命令參數(shù)的輸入,向所述操作員可視地顯示對(duì)于文檔的所述選擇有用的信息;顯示所選擇文檔以及允許所述操作員輸入一評(píng)估值至每個(gè)顯示的所選擇文檔;以及將所述所輸入的評(píng)估值反映到所述指定類別的所述基準(zhǔn)向量。
全文摘要
一種參數(shù)集生成方法及系統(tǒng),用于確定給定文檔是否屬于多個(gè)預(yù)定類別中指定的一個(gè)類別。評(píng)估樣本選擇屏使操作員能夠交互輸入用于選擇要對(duì)所計(jì)算隸屬分?jǐn)?shù)進(jìn)行評(píng)估的文檔的各種命令參數(shù)。響應(yīng)命令參數(shù)其中一個(gè)的輸入,將對(duì)文檔選擇有用的信息以可視方式顯示給操作員。評(píng)估值輸入屏示出所選擇文檔,并允許操作員對(duì)每個(gè)顯示的所選擇文檔輸入一評(píng)估值。所輸入的評(píng)估值反映給指定類別的基準(zhǔn)向量。
文檔編號(hào)G06F3/048GK1363899SQ01145408
公開日2002年8月14日 申請(qǐng)日期2001年12月28日 優(yōu)先權(quán)日2000年12月28日
發(fā)明者福重貴雄, 菅野祐司, 飯冢泰樹, 玉利公一 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社