專利名稱:支持分類規(guī)則創(chuàng)建的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種支持創(chuàng)建與數(shù)據(jù)項(xiàng)相對(duì)應(yīng)的分類規(guī)則的方法。
背景技術(shù):
傳統(tǒng)上,當(dāng)根據(jù)用戶創(chuàng)建的分類規(guī)則對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類時(shí),存在如 下問(wèn)題
(1) 當(dāng)添加數(shù)據(jù)時(shí)添加和/或修改規(guī)則
通常,逐一添加待分類數(shù)據(jù)項(xiàng)。在這種情況下,由于不能只根據(jù)預(yù) 先創(chuàng)建的分類規(guī)則對(duì)待添加數(shù)據(jù)項(xiàng)進(jìn)行分類,所以需要隨時(shí)添加新規(guī)則 和/或修改現(xiàn)有規(guī)則。然而,創(chuàng)建有效的分類規(guī)則并不容易。
(2) 分類規(guī)則與分類數(shù)據(jù)項(xiàng)之間的一致性 在將多個(gè)數(shù)據(jù)項(xiàng)歸類到與先前類別不同的類別中時(shí),由于對(duì)規(guī)則進(jìn)
行了添加和/或修改,所以該規(guī)則與經(jīng)分類數(shù)據(jù)項(xiàng)不一致并將該規(guī)則稱為 不一致規(guī)則。在根據(jù)預(yù)定義類別樹對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類的目錄類型檢索業(yè)
務(wù)(directory type search service)中,希望具有保證分類結(jié)果在更 新規(guī)則庫(kù)之前和更新規(guī)則庫(kù)之后相同的裝置。為了解決該問(wèn)題,驗(yàn)證是 否根據(jù)所添加和/或修改的規(guī)則將已分類數(shù)據(jù)項(xiàng)歸類到與先前所識(shí)別的 類別相同的類別中,即,驗(yàn)證是否存在不一致性。如果存在不一致性, 則對(duì)所添加和/或修改的規(guī)則進(jìn)行反復(fù)修改,直到消除不一致性。用于該 驗(yàn)證的成本很高,因此希望開發(fā)一種自動(dòng)生成沒(méi)有不一致性的規(guī)則的技 術(shù)。
(3) 分類規(guī)則之間的一致性 存在其中根據(jù)所添加和/或修改的規(guī)則以及其它規(guī)則將已知數(shù)據(jù)項(xiàng)歸類到不同類別的情況,即,創(chuàng)建了沖突規(guī)則的情況。例如,根據(jù)"如 果滿足P和Q,則將其歸類到Cl"的第一規(guī)則和"如果滿足P和R,則將
其歸類到C2"的第二規(guī)則,將滿足"P、 Q以及R"的數(shù)據(jù)項(xiàng)分別歸類到 C1和C2。如果C1與C2不同,則第一規(guī)則與第二規(guī)則為沖突規(guī)則。由于 規(guī)則庫(kù)應(yīng)當(dāng)最終將各數(shù)據(jù)項(xiàng)歸類到單一類別,所以當(dāng)發(fā)生沖突時(shí),需要 一種解決沖突的裝置。因此,已知一種預(yù)先確定規(guī)則評(píng)估順序并且隨后 使用最先匹配的規(guī)則來(lái)確定分類目標(biāo)的類別的方法(第一匹配方法)。然 而,如果存在多個(gè)沖突規(guī)則,則規(guī)則應(yīng)用順序?qū)?qiáng)烈影響分類目標(biāo)的類 別,因此難以確定各單獨(dú)規(guī)則的有效性。因此,重要的是防止沖突規(guī)則 的創(chuàng)建,但是這通常難以實(shí)現(xiàn)。
此外,例如,JP-A-2002-157262公幵了如下一種技術(shù),該技術(shù)用于 在分類系統(tǒng)客觀并且復(fù)雜的情況下為用戶提供用于對(duì)用戶想要登記的分 類規(guī)則的有效性進(jìn)行評(píng)價(jià)的信息。更具體地,在一種支持在用于基于分 類規(guī)則將電子文檔歸類到多個(gè)類別中的文檔分類系統(tǒng)中定義分類規(guī)則的 方法中,通過(guò)將由用戶通過(guò)輸入設(shè)備輸入的分類規(guī)則應(yīng)用于多個(gè)經(jīng)分類 電子文檔,來(lái)計(jì)算所應(yīng)用的分類規(guī)則的可靠度和對(duì)分類準(zhǔn)確度的提高或 維持的貢獻(xiàn)度,并將計(jì)算結(jié)果通過(guò)輸出設(shè)備通知給用戶。然而,該系統(tǒng) 不具有生成候選分類規(guī)則的功能。因此,用戶必須精通分類系統(tǒng)和這些 電子文檔的特征,而不熟練的用戶很難創(chuàng)建分類規(guī)則。此外,僅考慮新 創(chuàng)建的規(guī)則可能會(huì)導(dǎo)致與已有規(guī)則的沖突。但是,此公報(bào)沒(méi)有考慮該問(wèn) 題。
如上所述,根據(jù)背景技術(shù),很難為新數(shù)據(jù)項(xiàng)生成適當(dāng)?shù)姆诸愐?guī)則, 并且很難解決與已有分類規(guī)則的沖突。
發(fā)明內(nèi)容
因此,本發(fā)明一個(gè)目的是提供一種支持對(duì)新數(shù)據(jù)項(xiàng)適當(dāng)?shù)貏?chuàng)建分類 規(guī)則的方法。
根據(jù)本發(fā)明的支持創(chuàng)建分類規(guī)則的方法包括以下步驟將新數(shù)據(jù)項(xiàng) 和新數(shù)據(jù)項(xiàng)的類別存儲(chǔ)到存儲(chǔ)部中;從存儲(chǔ)在正確答案數(shù)據(jù)存儲(chǔ)部中的數(shù)據(jù)提取各包括一個(gè)條件和對(duì)應(yīng)類別的多個(gè)特征模式,并且將所述特征 模式存儲(chǔ)到特征模式存儲(chǔ)部中,所述條件包括存儲(chǔ)在存儲(chǔ)部中的新數(shù)據(jù) 項(xiàng)的特征元素,所述正確答案數(shù)據(jù)存儲(chǔ)部存儲(chǔ)多個(gè)數(shù)據(jù)項(xiàng)和這些數(shù)據(jù)項(xiàng) 的類別;以及將存儲(chǔ)在所述特征模式存儲(chǔ)部中的特征模式分組為第一集 合和第二集合,并將分組結(jié)果存儲(chǔ)在分組數(shù)據(jù)存儲(chǔ)部中,第一集合的特 征模式與存儲(chǔ)在所述存儲(chǔ)部中的新數(shù)據(jù)項(xiàng)的類別相匹配,而第二集合的 特征模式與所述新數(shù)據(jù)項(xiàng)的類別不匹配。
從而,自動(dòng)生成作為候選分類規(guī)則的特征模式,此外,能夠從第一 集合中選擇特定特征模式作為此后應(yīng)用的分類規(guī)則。
此外,根據(jù)本發(fā)明的方法可以包括以下步驟從分類規(guī)則存儲(chǔ)部提 取其條件部分滿足存儲(chǔ)在所述存儲(chǔ)部中的新數(shù)據(jù)項(xiàng)的分類規(guī)則,并將提 取的分類規(guī)則存儲(chǔ)到提取分類規(guī)則存儲(chǔ)部中,所述分類規(guī)則存儲(chǔ)部存儲(chǔ) 多個(gè)分類規(guī)則,每個(gè)分類規(guī)則都由數(shù)據(jù)項(xiàng)的條件部分和對(duì)應(yīng)類別組成。 此外,第一集合可以具有第一組和第二組。所述第一組可以是存儲(chǔ)在特 征模式存儲(chǔ)部中的分別包括第一特定條件和與存儲(chǔ)在所述存儲(chǔ)部中的新 數(shù)據(jù)項(xiàng)的類別相匹配的類別的特征模式組。所述提取分類規(guī)則存儲(chǔ)部可 以存儲(chǔ)滿足所述第一特定條件的分類規(guī)則。第二組可以是不包括在任意 第一組中的特征模式的組。此外,第二集合可以包括存儲(chǔ)在所述特征模 式存儲(chǔ)部中的如下特征模式的第三組,即,所述特征模式分別包括第二 特定條件和與存儲(chǔ)在所述存儲(chǔ)部中的新數(shù)據(jù)項(xiàng)的類別不同的類別。所述 提取分類規(guī)則存儲(chǔ)部可以存儲(chǔ)滿足所述第二特定條件的分類規(guī)則。因此, 可以按照經(jīng)排列的形式呈現(xiàn)特征模式的屬性和關(guān)聯(lián)、與存儲(chǔ)在分類規(guī)則 存儲(chǔ)部中的分類規(guī)則的關(guān)聯(lián)等。此外,通過(guò)這種呈現(xiàn),還可以解決沖突。 此外,上述分組步驟可以包括生成分類規(guī)則的第四組的步驟,所述 分類規(guī)則存儲(chǔ)在所述提取分類規(guī)則存儲(chǔ)部中并與第一組相對(duì)應(yīng)。
此外,根據(jù)本發(fā)明的方法進(jìn)一步包括以下步驟確定包括在第一組 中的特征模式的數(shù)目是否滿足涉及包括在與第一組相關(guān)聯(lián)的第三組中的 特征模式數(shù)目的條件;將包括在第一組中的特征模式的條件改變成包括 取反規(guī)則的條件;以及,如果包括在第三組中的特征模式的數(shù)目滿足涉的條件,則將包括 在第三組中的特征模式的條件改變成包括取反規(guī)則的條件。通過(guò)執(zhí)行這 種處理,減少了規(guī)則數(shù)目并可以構(gòu)造用戶容易理解的規(guī)則庫(kù)。另外,可 預(yù)期未來(lái)的通過(guò)使條件部分滿足將來(lái)添加的數(shù)據(jù)項(xiàng)(例如,產(chǎn)品數(shù)據(jù)) 的求反而簡(jiǎn)化的規(guī)則的效率。
此外,根據(jù)本發(fā)明的方法進(jìn)一步包括以下步驟根據(jù)包括在所述第 一集合、所述第二集合以及一第三集合中的各特征模式的特征元素計(jì)算 特征模式的分?jǐn)?shù),并且將該分?jǐn)?shù)與所述特征模式相關(guān)聯(lián)地存儲(chǔ)在所述分 組數(shù)據(jù)存儲(chǔ)部中,所述第三集合是從存儲(chǔ)在所述提取分類規(guī)則存儲(chǔ)部中 的所有分類規(guī)則中排除了包括在第四組中的分類規(guī)則的集合。從而,可 以確定要呈現(xiàn)給用戶的優(yōu)先級(jí)或要作為分類規(guī)則采用的優(yōu)先級(jí)。
此外,根據(jù)本發(fā)明的方法進(jìn)一步包括以下步驟向用戶呈現(xiàn)包括在 第一集合中的特征模式;從該用戶接受對(duì)該特征模式的指定;將指定的 特征模式存儲(chǔ)到所述分類規(guī)則存儲(chǔ)部中;識(shí)別與包括該指定特征模式的 第一組相關(guān)聯(lián)的第三組,并將包括在所識(shí)別的第三組中的特征模式存儲(chǔ) 到所述分類規(guī)則存儲(chǔ)部中;以及識(shí)別與包括該指定特征模式的第一組對(duì)
應(yīng)的第四組,并從所述分類規(guī)則存儲(chǔ)部去除包括在該第四組中的分類規(guī) 則。從而,可以正確地更新分類規(guī)則存儲(chǔ)部。
此外,根據(jù)本發(fā)明的方法進(jìn)一步包括以下步驟按存儲(chǔ)在分組數(shù)據(jù) 存儲(chǔ)部中的特征模式的分?jǐn)?shù)的降序,將存儲(chǔ)在該分組數(shù)據(jù)存儲(chǔ)部中的特 征模式作為新分類規(guī)則登記到分類規(guī)則存儲(chǔ)部中,直到隨著存儲(chǔ)在正確 答案存儲(chǔ)部中的數(shù)據(jù)項(xiàng)的誤分類的發(fā)生次數(shù)而變化并預(yù)先對(duì)其定義公式 的錯(cuò)誤率增加為止。從而,可以自動(dòng)生成新分類規(guī)則。
可以創(chuàng)建用于使計(jì)算機(jī)執(zhí)行根據(jù)本發(fā)明的上述方法的程序,并將該
程序存儲(chǔ)在諸如軟盤、CD-R0M、光磁盤、半導(dǎo)體存儲(chǔ)器以及硬盤的存儲(chǔ) 介質(zhì)或存儲(chǔ)裝置中。此外,可以通過(guò)網(wǎng)絡(luò)以數(shù)字信號(hào)發(fā)布該程序。另外, 將中間處理結(jié)果臨時(shí)存儲(chǔ)在諸如主存儲(chǔ)器的存儲(chǔ)裝置中。
圖l是本發(fā)明的實(shí)施例的框圖2是示出存儲(chǔ)在正確答案數(shù)據(jù)DB中的數(shù)據(jù)示例的圖3是示出存儲(chǔ)在分類規(guī)則DB中的數(shù)據(jù)示例的圖; 圖4是示出根據(jù)本發(fā)明實(shí)施例的主處理的流程圖的圖; 圖5是示出用于新產(chǎn)品數(shù)據(jù)的輸入屏面的示例的圖; 圖6是用于說(shuō)明出現(xiàn)模式(emerging pattern)的圖; 圖7是示出沖突解決處理的流程圖的圖; 圖8是用于說(shuō)明對(duì)滿足的定義的圖; 圖9是示出沖突解決表的第一示例的圖; 圖IO是示出沖突解決表的第二示例的圖; 圖11是示出分類規(guī)則生成處理的流程圖的第一示例的圖; 圖12是示出分類規(guī)則生成處理的流程圖的第二示例的圖; 圖13是示出分類規(guī)則登記處理的流程圖的第一示例的圖; 圖14是示出分類規(guī)則登記處理的流程圖的第二示例的圖; 圖15是示出分類規(guī)則登記處理的流程圖的第三示例的圖; 圖16是示出分類規(guī)則登記處理的流程圖的第三示例的圖; 圖17是示出在分類規(guī)則登記處理的第一示例和第二示例中顯示的 屏面的另一示例的圖;以及
圖18是示出一種計(jì)算機(jī)系統(tǒng)的圖。
具體實(shí)施例方式
圖1是根據(jù)本發(fā)明實(shí)施例的用于支持創(chuàng)建分類規(guī)則的裝置的框圖。 本實(shí)施例示出其中將產(chǎn)品數(shù)據(jù)當(dāng)作數(shù)據(jù)項(xiàng)的示例。然而,數(shù)據(jù)項(xiàng)并不限 于產(chǎn)品數(shù)據(jù)。該用于支持創(chuàng)建分類規(guī)則的裝置包括產(chǎn)品數(shù)據(jù)輸入單元1, 用于從用戶接收一對(duì)新產(chǎn)品的產(chǎn)品名稱和正確類別的輸入;新產(chǎn)品數(shù)據(jù) 存儲(chǔ)部3,用于存儲(chǔ)輸入的數(shù)據(jù);正確答案數(shù)據(jù)DB 9,其中登記有一對(duì) 預(yù)先輸入的產(chǎn)品名稱和分類數(shù)據(jù)(類別);特征模式提取器5,用于使用 存儲(chǔ)在新產(chǎn)品數(shù)據(jù)存儲(chǔ)部3和正確答案數(shù)據(jù)DB 9中的數(shù)據(jù)來(lái)生成稍后描 述的特征模式;特征模式存儲(chǔ)部15,用于存儲(chǔ)由特征模式提取器5生成的特征模式數(shù)據(jù);分類規(guī)則DBll,用于存儲(chǔ)現(xiàn)有分類規(guī)則的數(shù)據(jù);分類
規(guī)則提取器7,用于通過(guò)使用存儲(chǔ)在新產(chǎn)品數(shù)據(jù)存儲(chǔ)部3和分類規(guī)則DB 11 中的數(shù)據(jù)來(lái)提取與該新產(chǎn)品相關(guān)聯(lián)的規(guī)則;提取分類規(guī)則存儲(chǔ)部13,用 于存儲(chǔ)由分類規(guī)則提取器7提取的分類規(guī)則數(shù)據(jù);分組處理器17,用于 使用存儲(chǔ)在特征模式存儲(chǔ)部15和提取分類規(guī)則存儲(chǔ)部13中的數(shù)據(jù),來(lái) 生成沖突解決表并執(zhí)行其它處理;處理結(jié)果數(shù)據(jù)存儲(chǔ)部19,用于存儲(chǔ)作 為分組處理器17等生成的結(jié)果的沖突解決表;分類規(guī)則生成器23,用于 使用存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19和正確答案數(shù)據(jù)DB 9中的數(shù)據(jù),執(zhí) 行對(duì)分類規(guī)則的條件部分的條件的求反、分?jǐn)?shù)(score)的計(jì)算以及其它 處理;以及分類規(guī)則登記處理器21,用于使用存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ) 部19和正確答案數(shù)據(jù)DB 9中的數(shù)據(jù)來(lái)執(zhí)行到分類規(guī)則DB 11的登記和 其它處理。
圖2示出了存儲(chǔ)在正確答案數(shù)據(jù)DB 9中的數(shù)據(jù)的示例。在圖2的示 例中,與各產(chǎn)品名稱相關(guān)聯(lián)地登記多個(gè)類別。產(chǎn)品名稱可以是諸如廣告 語(yǔ)(catch phase)的產(chǎn)品名稱,也可以是該產(chǎn)品的簡(jiǎn)單名稱。這些類別 分別包括預(yù)定類別樹中的相關(guān)節(jié)點(diǎn)的名稱和類別代碼(未示出)。
圖3示出了存儲(chǔ)在分類規(guī)則DB 11中的數(shù)據(jù)的示例。在圖3的示例
中,與條件部分相關(guān)聯(lián)地登記結(jié)論部分(類別)。該條件部分包括由一個(gè)
關(guān)鍵字組成的條件、通過(guò)利用"與"組合的多個(gè)關(guān)鍵字構(gòu)成的條件等。
位于該多個(gè)關(guān)鍵字之間的空格指示"與"。此外,通過(guò)使用多個(gè)"與",
可以表示具有"或"組合的規(guī)則。此外,對(duì)于關(guān)鍵字,可以包括求反, 即,","("非")。
接下來(lái),參照?qǐng)D4到圖17,對(duì)通過(guò)圖1所示的支持創(chuàng)建分類規(guī)則的 裝置執(zhí)行的處理進(jìn)行描述。首先,該支持創(chuàng)建分類規(guī)則的裝置的產(chǎn)品數(shù) 據(jù)輸入單元1提示用戶輸入新產(chǎn)品的產(chǎn)品名稱和正確類別,接受來(lái)自用 戶的新產(chǎn)品的產(chǎn)品名稱和正確類別的輸入,以將輸入數(shù)據(jù)存儲(chǔ)到新產(chǎn)品 數(shù)據(jù)存儲(chǔ)部3中(圖4:步驟S1)。例如,顯示如圖5所示的屏面來(lái)提示 用戶輸入數(shù)據(jù)。在圖5所示的屏面示例中,提供了產(chǎn)品名稱輸入欄、正 確類別輸入欄以及"執(zhí)行"按鈕。當(dāng)用戶將數(shù)據(jù)輸入到這些輸入欄中并點(diǎn)擊"執(zhí)行"按鈕時(shí),執(zhí)行以下處理。在本發(fā)明的實(shí)施例中,逐件地對(duì) 新產(chǎn)品進(jìn)行輸入。
接下來(lái),特征模式提取器5從正確答案數(shù)據(jù)DB 9提取由存儲(chǔ)在新產(chǎn) 品數(shù)據(jù)存儲(chǔ)部3中的新產(chǎn)品的產(chǎn)品名稱的特征元素組成的全部特征模式, 構(gòu)造特征模式集合P,并將該特征模式集合P存儲(chǔ)在特征模式存儲(chǔ)部15 中(步驟S3)。例如,該特征模式是出現(xiàn)模式。出現(xiàn)模式是其發(fā)生頻率在 類別之間顯著變化的模式。例如,通過(guò)分析詞素或者單詞或短語(yǔ)的分離 處理來(lái)提取特征元素。如圖6所示,類P包括9個(gè)記錄,而類N包括5 個(gè)記錄。在圖6的示例中,對(duì)諸如天氣預(yù)測(cè)(outlook)、氣溫、濕度以 及風(fēng)的天氣數(shù)據(jù)進(jìn)行處理。天氣預(yù)測(cè)是多云、有雨以及晴朗中的一個(gè)。 氣溫是炎熱、溫暖以及寒冷中的一個(gè)。濕度是高、低以及正常中的一個(gè)。 風(fēng)是"有風(fēng)"或"無(wú)風(fēng)"。在此情況下,從圖6的數(shù)據(jù)提取的由特征元素 (晴朗、溫暖、高、有風(fēng))組成的出現(xiàn)模式如下"晴朗""溫暖""有風(fēng)" =>P,"晴朗""高"=>N,"晴朗""溫暖""高"=>N,以及"晴朗" "高""有風(fēng)"=>N。此外,對(duì)于出現(xiàn)模式的詳細(xì)提取方法,請(qǐng)參見(jiàn)在 ji匕通過(guò)弓l用并入的"The Space of Jumping Emerging Patters and Its Incremental Maintenance Algorithm", Jinyan Li, etc. , Int, 1 Conf. On Machine Learning 2000, pp 551-558, 〃DeEPs: A New Instance-based Discovery and Classification System〃, Jinyan Li, etc., July 16, 2001, Machine Learning Vol. 54. No. 2, pp. 99—124,等。
此時(shí)尚不存在支持通過(guò)使用這種出現(xiàn)模式對(duì)規(guī)則庫(kù)進(jìn)行更新操作的 想法,并且即使對(duì)于專家來(lái)說(shuō),自動(dòng)地生成候選分類規(guī)則也是很困難的。
例如,在新產(chǎn)品的產(chǎn)品名稱是"來(lái)自保加利亞的玫瑰果醬-給你花般 甜美的氣息和味道"的情況下,將"保加利亞"、"玫瑰"、"果醬"、"花"、 "味道"、"氣息"以及"你"提取為特征元素。然后,假設(shè)從正確答案 數(shù)據(jù)DB 9提取出以下特征模式由關(guān)鍵字"油"與"保加利亞"和正確 類別"香味"組成的特征模式、由關(guān)鍵字"果醬"與"氣息"和正確類 別"果醬"組成的特征模式、由關(guān)鍵字"果醬"與"玫瑰"和正確類別 "果醬"組成的特征模式、由關(guān)鍵字"你"與"花"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"你"與"果醬"和正確類別"果醬"組成 的特征模式、由關(guān)鍵字"果醬"與"花"和正確類別"果醬"組成的特 征模式、由關(guān)鍵字"你"與"氣息"和正確類別"果醬"組成的特征模 式、由關(guān)鍵字"果醬"與"氣息"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"果醬"與"保加利亞"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"保加利亞"與"氣息"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"你"與"保加利亞"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"花"與"保加利亞"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"花"、"粉紅"與"玫瑰"和正確類別"宴會(huì)/花"組成的特征 模式以及由關(guān)鍵字"花"、"玫瑰"與"氣息"和正確類別"果醬"組成 的特征模式。
在新產(chǎn)品的產(chǎn)品名稱是"其它英語(yǔ)會(huì)話/詞匯,Masuda的學(xué)習(xí)方法, 你可以容易地記住英語(yǔ)單詞"的情況下,將"英語(yǔ)會(huì)話"、"詞匯"、"學(xué) 習(xí)"、"英語(yǔ)單詞"以及"Masuda"提取為特征元素。然后,假設(shè)從正確 答案數(shù)據(jù)DB 9提取出以下特征模式由關(guān)鍵字"英語(yǔ)"與"學(xué)習(xí)"和正 確類別"字典/翻譯"組成的特征模式、由關(guān)鍵字"學(xué)習(xí)"與"電子"和 正確類別"字典/翻譯"組成的特征模式、由關(guān)鍵字"系統(tǒng)"與"學(xué)習(xí)" 和正確類別"字典/翻譯"組成的特征模式、由關(guān)鍵字"設(shè)置"與"學(xué)習(xí)" 和正確類別"字典/翻譯"組成的特征模式、由關(guān)鍵字"學(xué)習(xí)"與"字典" 和正確類別"字典/翻譯"組成的特征模式、由關(guān)鍵字"詞匯"和正確類 別"教育"組成的特征模式、由關(guān)鍵字"Masuda"和正確類別"教育" 組成的特征模式、由關(guān)鍵字"方法"和正確類別"教育"組成的特征模 式、以及由關(guān)鍵字"英語(yǔ)會(huì)話"與"學(xué)習(xí)"和正確類別"教育"組成的 特征模式。
然后,分類規(guī)則提取器7從分類規(guī)則DB ll提取其條件部分滿足存 儲(chǔ)在新產(chǎn)品數(shù)據(jù)存儲(chǔ)部3中的新產(chǎn)品的產(chǎn)品名稱的所有分類規(guī)則,構(gòu)造 分類規(guī)則集合S,并將該分類規(guī)則集合S存儲(chǔ)在提取分類規(guī)則存儲(chǔ)部13 中(步驟S5)。通過(guò)將登記在分類規(guī)則DBll中的所述所有分類規(guī)則應(yīng)用 于新產(chǎn)品的產(chǎn)品名稱,如果分類規(guī)則的條件部分滿足新產(chǎn)品的產(chǎn)品名稱,則通過(guò)使用該分類規(guī)則構(gòu)造分類集合s。
例如,在新產(chǎn)品的產(chǎn)品名稱是"來(lái)自保加利亞的玫瑰果醬-給你花般 甜美的氣息和味道"的情況下,假設(shè)提取了如下分類規(guī)則包括條件部 分"保加利亞"和結(jié)論部分"香味"的分類規(guī)則,和包括條件部分"花" 與(A)"玫瑰"和結(jié)論部分"宴會(huì)/花"的分類規(guī)則。
此外,在新產(chǎn)品的產(chǎn)品名稱是"其它英語(yǔ)會(huì)話/詞匯,Masuda的學(xué)
習(xí)方法,你可以容易地記住英語(yǔ)單詞"的情況下,假設(shè)提取如下分類規(guī)
貝(J:包括條件部分"英語(yǔ)詞匯"和結(jié)論部分"教育"的分類規(guī)則,和包 括條件部分"學(xué)習(xí)"和結(jié)論部分"字典/翻譯"的分類規(guī)則。
然后,分組處理器17使用存儲(chǔ)在提取分類規(guī)則存儲(chǔ)部13和特征模 式存儲(chǔ)部15中的數(shù)據(jù)來(lái)執(zhí)行沖突解決處理(步驟S7)。利用圖7到圖10 來(lái)描述該沖突解決處理。執(zhí)行該沖突解決處理,以通過(guò)生成沖突解決表 使用戶容易了解多個(gè)分類規(guī)則的沖突狀態(tài)。分組處理器17從存儲(chǔ)在特征 模式存儲(chǔ)部15中的特征模式集合P提取特征模式p= > c (p為一個(gè)或多 個(gè)關(guān)鍵字的集合,c為正確類別)(步驟S21)。例如,在上述第一示例中, 假設(shè)提取出由關(guān)鍵字"果醬"與"保加利亞"和正確類別"果醬"組成 的特征模式。
因此,分組處理器17提取分類規(guī)則集合S的子集S (p),其由滿足 特征模式P= > c的模式P的分類規(guī)則組成,并將該子集S (p)的數(shù)據(jù)存 儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟S23)。當(dāng)在上述第一示例中提取出 由關(guān)鍵字"果醬"與"保加利亞"和正確類別"果醬"組成的特征模式 的情況下,提取包括條件部分"保加利亞"和結(jié)論部分"香味"的分類 .規(guī)則作為子集S (p)。此外,以下利用圖8來(lái)描述滿足的定義。
在圖8中,最外面的矩形表示包括所有產(chǎn)品的整體U,左側(cè)的圓表 示其產(chǎn)品名稱包括"保加利亞"的產(chǎn)品集合A,右側(cè)的圓表示其產(chǎn)品名稱 包括"果醬"的產(chǎn)品集合B,下面的圓表示其產(chǎn)品名稱包括"玫瑰"的產(chǎn) 品集合C。此外,在與集合A到C對(duì)應(yīng)的這些圓中存在相互交疊的部分。 當(dāng)假設(shè)與集合A相對(duì)應(yīng)的圓和與集合B相對(duì)應(yīng)的圓的相交疊的部分是區(qū) 域d時(shí),包括在區(qū)域d中的產(chǎn)品在其產(chǎn)品名稱滿足條件"保加利亞"與"果醬"的產(chǎn)品組中。區(qū)域d被包括在與集合A相對(duì)應(yīng)的圓中。在如圖8
所示的圖中,如果與分類規(guī)則的條件部分相對(duì)應(yīng)的區(qū)域(在本示例中與
集合A相對(duì)應(yīng)的圓)包括與模式p (在本示例中的區(qū)域d)相對(duì)應(yīng)的區(qū)域, 則將它稱為"滿足的"。
此外,假設(shè)分類規(guī)則是"保加利亞"與",玫瑰"=> "香味"并且 特征模式是"果醬"與"保加利亞"=> "果醬"。滿足條件"果醬"與 "保加利亞"的產(chǎn)品集合對(duì)應(yīng)于如上所述的區(qū)域d。與之對(duì)照,滿足條件 "保加利亞"與",玫瑰"的產(chǎn)品集合對(duì)應(yīng)于其中從與集合A相對(duì)應(yīng)的 圓中去除區(qū)域e的區(qū)域。即,其對(duì)應(yīng)于其中從與集合A相對(duì)應(yīng)的圓中去 除了對(duì)應(yīng)于集合A的圓與對(duì)應(yīng)于集合C的圓的交疊區(qū)域后的區(qū)域。其中 從與集合A相對(duì)應(yīng)的圓中去除了區(qū)域e的區(qū)域并不總是包括與模式p相 對(duì)應(yīng)的區(qū)域d。因此,不能說(shuō)分類規(guī)則"保加利亞"與",玫瑰"= > "香
味"的條件部分"滿足"模式p。
分組處理器17確定子集S (p)是否為空(步驟S25)。在子集S (p) 為空的情況下,將在步驟S21處提取的模式p二〉c加入集合F巾(步驟S27)。 在上述第一示例中,當(dāng)在步驟S21處提取由關(guān)鍵字"果醬"與"氣息" 和正確類別"果醬"組成的特征模式的情況下,因?yàn)椴淮嬖跐M足特征模 式的模式p的任何分類規(guī)則,所以將由關(guān)鍵字"果醬"與"氣息"和正 確類別"果醬"組成的特征模式加入集合F。。將集合F。的數(shù)據(jù)存儲(chǔ)在處 理結(jié)果數(shù)據(jù)存儲(chǔ)部19中。然后,處理進(jìn)行到步驟S33。
與之對(duì)照,在子集S (p)不為空的情況下,分組處理器17從分類 規(guī)則的子集S (p)提取一個(gè)分類規(guī)則L二〉R (步驟S29)。在上述示例中, 提取出包括條件部分"保加利亞"和結(jié)論部分"香味"的分類規(guī)則。然 后,在特征模式P= > c的正確類別c與分類規(guī)則L= > R的結(jié)論部分R相 一致的情況下,將在步驟S21處提取的特征模式p= > c加入集合TL=>R。 在特征模式P二 > c的正確類別c與分類規(guī)則L= > R的結(jié)論部分R不一致 的情況下,將特征模式P^〉c加入集合F^b (步驟S31)。在上述示例中,
因?yàn)榉诸愐?guī)則的結(jié)論部分是"香味",而特征模式的正確類別是"果醬", 所以滿足"c^R"。因此,將特征模式p二〉c加入集合F^b。此外,在特征模式P=>C是由關(guān)鍵字"油"與"保加利亞"和正確類別"香味"組 成的特征模式的情況下,滿足"C二R"。因此,將特征模式p-〉c加入集
合R。將集合>R和集合IV—->R的數(shù)據(jù)存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中。 回到對(duì)圖7的說(shuō)明,確定是否已處理了子集S (p)中的所有分類規(guī) 則(步驟S33)。在存在尚未處理的分類規(guī)則的情況下,處理返回到步驟 S29。在已處理完子集S (p)的所有分類規(guī)則的情況下,確定是否己處理 完特征模式集合P的所有特征模式(步驟S35)。在特征模式集合P中存 在尚未處理的特征模式的情況下,處理返回到步驟S21。
通過(guò)執(zhí)行這種處理,對(duì)于第一示例,生成了圖9所示的沖突解決表。 在圖9的示例中,集合F。包括以下特征模式由關(guān)鍵字"果醬"與"氣 息"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"果醬"與"玫瑰" 和正確類別"果醬"組成的特征模式、由關(guān)鍵字"你"與"花"和正確 類別"果醬"組成的特征模式、由關(guān)鍵字"你"與"果醬"和正確類別
"果醬"組成的特征模式、由關(guān)鍵字"果醬"與"花"和正確類別"果 醬"組成的特征模式、由關(guān)鍵字"你"與"氣息"和正確類別"果醬" 組成的特征模式、由關(guān)鍵字"果醬"與"氣息"和正確類別"果醬"組 成的特征模式。與其條件部分(L)為"保加利亞"并且其結(jié)論部分(R) 為"香味"的分類規(guī)則相對(duì)應(yīng)的集合T ,《=>,包括由關(guān)鍵字"油"與"保 加利亞"和正確類別"香味"組成的特征模式。此外,與分類規(guī)則"保 加利亞"二> "香味"相對(duì)應(yīng)的集合F保加利亞->香味包括由關(guān)鍵字"果醬"與
"保加利亞"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"保加利 亞"與"氣息"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"你" 與"保加利亞"和正確類別"果醬"組成的特征模式、以及由關(guān)鍵字"花" 與"保加利亞"和正確類別"果醬"組成的特征模式。此外,與其條件 部分(L)為"花"與"玫瑰"并且其結(jié)論部分(R)為"宴會(huì)/花"的分 類規(guī)則相對(duì)應(yīng)的集合T花攻n會(huì)/花包括由關(guān)鍵字"花"、"粉紅"與"玫瑰" 和正確類別"宴會(huì)/花"組成的特征模式。此外,與分類規(guī)則"花"、"玫 瑰,,二> "宴會(huì)/花"相對(duì)應(yīng)的集合F花玫瑰"宴會(huì)/花包括由關(guān)鍵字"花"、"玫 瑰"與"氣息"和正確類別"果醬"組成的特征模式。對(duì)于上述第二示例,生成了如圖io所示的沖突解決表。在圖10的
示例中,集合F。包括由關(guān)鍵字"詞匯"和正確類別"教育"組成的特征
模式、由關(guān)鍵字"Masuda"和正確類別"教育"組成的特征模式以及由 關(guān)鍵字"方法"和正確類別"教育"組成的特征模式。與其條件部分(L) 為"學(xué)習(xí)"并且其結(jié)論部分(R)為"字典/翻譯"的分類規(guī)則相對(duì)應(yīng)的 集合T學(xué)習(xí)"字典/翻譯包括由關(guān)鍵字"英語(yǔ)"與"學(xué)習(xí)"和正確類別"字典/翻 譯"組成的特征模式、由關(guān)鍵字"學(xué)習(xí)"與"電子"和正確類別"字典/ 翻譯"組成的特征模式、由關(guān)鍵字"系統(tǒng)"與"學(xué)習(xí)"和正確類別"字 典/翻譯"組成的特征模式、由關(guān)鍵字"集合"與"學(xué)習(xí)"和正確類別"字 典/翻譯"組成的特征模式、以及由關(guān)鍵字"學(xué)習(xí)"與"字典"和正確類 別"字典/翻譯"組成的特征模式。此外,與分類規(guī)則"學(xué)習(xí)"=> "字 典/翻譯"相對(duì)應(yīng)的集合F學(xué)3" / 譯包括由關(guān)鍵字"英語(yǔ)會(huì)話"與"學(xué)習(xí)" 和正確類別"教育"組成的特征模式。
在這種沖突解決表中,在相反模式列中的分類規(guī)則L=>R與對(duì)應(yīng)集 合F^B是相互沖突的規(guī)則。在將它們兩者都存儲(chǔ)在分類規(guī)則DB 11中的 情況下,如果未對(duì)分類規(guī)則設(shè)置優(yōu)先級(jí)則會(huì)發(fā)生錯(cuò)誤分類。然而,在選 擇一致模式列中的對(duì)應(yīng)集合TY^來(lái)代表分類規(guī)則L= > R的情況下,可以 解決該沖突。
通過(guò)將圖9或圖10所示的沖突解決表呈現(xiàn)給用戶,可以顯示分類規(guī)
則的沖突狀態(tài)。在了解該表的上述意思之后,用戶可以指示以下操作
例如在相反模式中選擇適當(dāng)?shù)奶卣髂J揭詫⑺x特征模式添加到分類規(guī)
則DB 11,此外在一致模式列中選擇對(duì)應(yīng)特征模式并將所選特征模式添加 到分類規(guī)則DB 11,并且進(jìn)一步從分類規(guī)則DB 11排除分類規(guī)則列中的對(duì) 應(yīng)分類規(guī)則。此外,還可以執(zhí)行解決沖突所需的其它指示。
此外,即使通過(guò)將包括在相反模式列中的特征模式歸類到第一集合, 并將包括在一致模式列中的特征模式歸類到第二集合,用戶也能夠在了 解特征模式的特性之后,指示將特征模式添加到分類規(guī)則DB 11。
回到對(duì)圖4的說(shuō)明,分類規(guī)則生成器23使用存儲(chǔ)在處理結(jié)果數(shù)據(jù)存 儲(chǔ)部19中的數(shù)據(jù)執(zhí)行分類規(guī)則生成處理(步驟S9)。以下利用圖11和圖12對(duì)該處理進(jìn)行詳細(xì)描述。
下面根據(jù)圖11描述第一分類規(guī)則生成處理。分類規(guī)則生成器23根
據(jù)存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的數(shù)據(jù)識(shí)別出一個(gè)分類規(guī)則L^ 〉 R(步 驟S41)。然后,識(shí)別出在與處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的所識(shí)別的分類規(guī)
則L= > R相對(duì)應(yīng)的集合TY^和集合F,^中包括的特征模式,并確定是否 滿足|^〈<|^=>/ | (步驟S43)。 IU表示包括在集合TWb中的特征模式
的數(shù)目,K^I表示包括在集合F^b中的特征模式的數(shù)目。例如,預(yù)先設(shè)
置閾值,并確定IU與I^J之差是否等于或大于該閾值。
在滿足IU《|Ft=J的情況下,分類規(guī)則生成器23執(zhí)行對(duì)集合F^R
的規(guī)則的求反(步驟S45)。例如,當(dāng)處理其條件部分(L)為"保加利亞"
并且其結(jié)論部分(R)是"香味"的分類規(guī)則L=>R時(shí),對(duì)應(yīng)集合F^R 的特征模式li^J的數(shù)目為4。此外,因?yàn)閷?duì)應(yīng)集合T…b的特征模式IU
的數(shù)目為l,所以推定滿足步驟S43處的條件。因此,對(duì)以下特征模式執(zhí) 行規(guī)則的求反由關(guān)鍵字"果醬"與"保加利亞"和正確類別"果醬" 組成的特征模式、由關(guān)鍵字"保加利亞"與"氣息"和正確類別"果醬" 組成的特征模式、由關(guān)鍵字"你"與"保加利亞"和正確類別"果醬" 組成的特征模式以及由關(guān)鍵字"花"與"保加利亞"和正確類別"果醬" 組成的特征模式。在此,關(guān)鍵字"保加利亞"是共有的,而另一關(guān)鍵字 互不相同。然而,由于對(duì)應(yīng)的集合T吣b包括由關(guān)鍵字"油"與"保加利 亞"和正確類別"香味"組成的特征模式,所以如果將"油"用于產(chǎn)品 名稱,則正確類別變成"香味"。因此,如果特征模式包括"保加利亞", 但是不包括"油",則無(wú)法在沒(méi)有沖突的情況下釆納該分類規(guī)則。在該步 驟S45處,使用對(duì)集合TY^的特征模式中包括的"油"的求反來(lái)生成由 關(guān)鍵字"保加利亞"與""^油"和正確類別"果醬"組成的特征模式。 盡管圖9所示的集合F保細(xì)亞=>香味包括所述4個(gè)特征模式,但可將集合 F =>^替換成通過(guò)對(duì)該規(guī)則的求反而新生成的特征模式集合。
通過(guò)執(zhí)行對(duì)規(guī)則的這種求反,減少了規(guī)則的數(shù)目。因此,可以構(gòu)造 人們?nèi)菀桌斫獾囊?guī)則庫(kù)。此外,通過(guò)對(duì)規(guī)則的求反,預(yù)期條件部分更有 可能滿足將來(lái)要添加的產(chǎn)品數(shù)據(jù),并且還預(yù)期改進(jìn)未來(lái)效率。另一方面,在不滿足|21^|〈〈|^=>/ |的情況下,處理轉(zhuǎn)到步驟S47。在
步驟S45之后,或者,在步驟S43處不滿足上述條件的情況下,分類規(guī) 則生成器23判斷是否已完成對(duì)所有分類規(guī)則L二 > R的處理(步驟S47)。 如果存在尚未處理的分類規(guī)則,則處理返回步驟S41。
另一方面,在己處理完所有分類規(guī)則L=>R的情況下,分類規(guī)則生 成器23通過(guò)集合F^b和F,構(gòu)造分類規(guī)則候選集合F,并將分類規(guī)則候選 集合F的數(shù)據(jù)存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟S49)。
此外,分類規(guī)則生成器23根據(jù)正確答案數(shù)據(jù)DB 9計(jì)算分類規(guī)則候 選集合F中包括的特征元素(關(guān)鍵字)v的出現(xiàn)率score(v),并將計(jì)算 出的score(v)存儲(chǔ)在存儲(chǔ)設(shè)備中(步驟S51)。例如,針對(duì)諸如"保加利 亞"、"油"以及"果醬"的關(guān)鍵字計(jì)算出現(xiàn)率。
然后,分類規(guī)則生成器23識(shí)別出分類規(guī)則候選集合F中包括的一個(gè) 特征模式P二〉c (步驟S53),并計(jì)算Score(p=>c) = 5:pSCOre(V)(步驟 S55)。在該步驟中,計(jì)算模式p中包括的關(guān)鍵字的score (v)的和。然后, 判斷是否己處理完分類規(guī)則候選集合F中的所有特征模式(步驟S57)。 如果存在任何尚未處理的特征模式,則處理返回步驟S53。另一方面, 在已處理完分類規(guī)則候選集合F中的所有特征模式的情況下,根據(jù) Score (p= > c)值對(duì)分類規(guī)則候選集合F中的特征模式進(jìn)行排序,并將結(jié) 果存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟S59)。然后,處理返回原處理。
從而,執(zhí)行了對(duì)規(guī)則的求反并區(qū)分了分類規(guī)則候選集合F中的特征 模式的優(yōu)先次序。此外,在圖ll的處理流程中,因?yàn)樵陔S后的處理中由 用戶選擇的特征模式是與相反模式相對(duì)應(yīng)的特征模式,所以只對(duì)與該相 反模式相對(duì)應(yīng)的特征模式執(zhí)行規(guī)則的求反。
此外,可以執(zhí)行圖12而非圖11中所示的處理作為分類規(guī)則生成處
理。即,分類規(guī)則生成器23基于存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的數(shù)
據(jù)識(shí)別出一個(gè)分類規(guī)則L二〉R (步驟S61)。然后,識(shí)別出在與處理結(jié)果
數(shù)據(jù)存儲(chǔ)部19中的分類規(guī)則L= > R相對(duì)應(yīng)的集合T,^和集合F^b中包括 的特征模式,并判斷是否滿足|21=>/ |〈〈^=>/ | (步驟S63)。
在滿足條件|71^| 〈<|Fi=>」的情況下,分類規(guī)則生成器23執(zhí)行對(duì)集合F^的規(guī)則的求反(步驟S65)。另一方面,在不滿足條件IU《I/^J的 情況下,處理進(jìn)行到步驟S67。在步驟S65之后,或者在滿足步驟S63處 的條件的情況下,確定是否已處理完所有分類規(guī)則L=>R (步驟S67)。 如果存在任何尚未處理的分類規(guī)則,則處理返回到步驟S61。
在已處理完所有分類規(guī)則L=>R的情況下,根據(jù)存儲(chǔ)在處理結(jié)果數(shù) 據(jù)存儲(chǔ)部19中的數(shù)據(jù)識(shí)別出一個(gè)分類規(guī)則L^〉R (步驟S69)。然后,識(shí)
別出在與處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的分類規(guī)則L= > R相對(duì)應(yīng)的集合TY^ 和集合^^中包括的特征模式,并判斷是否滿足|71=>/!|>〉|^=>/!|(步驟371)。
在滿足條件|71=^|的情況下,分類規(guī)則生成器23執(zhí)行對(duì)集合
T^的規(guī)則的求反(步驟S73)。在上述第二示例中,集合T"b包括以下 特征模式由關(guān)鍵字"英語(yǔ)"與"學(xué)習(xí)"和正確類別"字典/翻譯"組成 的特征模式、由關(guān)鍵字"學(xué)習(xí)"與"電子"和正確類別"字典/翻譯"組 成的特征模式、由關(guān)鍵字"系統(tǒng)"與"學(xué)習(xí)"和正確類別"字典/翻譯" 組成的特征模式、由關(guān)鍵字"集合"與"學(xué)習(xí)"和正確類別"字典/翻譯" 組成的特征模式、以及由關(guān)鍵字"學(xué)習(xí)"與"字典"和正確類別"字典/ 翻譯"組成的特征模式。另一方面,對(duì)應(yīng)集合F^k包括由關(guān)鍵字"英語(yǔ) 會(huì)話"與"學(xué)習(xí)"和正確類別"教育"組成的特征模式。因此,關(guān)鍵字
"學(xué)習(xí)"是共有的,但是在還包括關(guān)鍵字"英語(yǔ)會(huì)話"的情況下,正確 類別變成"教育"。因此,通過(guò)對(duì)"英語(yǔ)會(huì)話"求反,將集合TY^改變成 包括由關(guān)鍵字"學(xué)習(xí)"與",英語(yǔ)會(huì)話"和正確類別"字典/翻譯"組成 的特征模式的集合。圖10所示的集合T學(xué)^字典/鵬包括5個(gè)特征模式,但 是集合T ^"^/,由通過(guò)執(zhí)行對(duì)規(guī)則的求反而新生成的特征模式集合來(lái) 替代。
另一方面,如果不滿足條件|71=>/ |>>|^=>/ |,則處理進(jìn)行到步驟S75。
在步驟S73之后,或者在滿足步驟S71處的條件的情況下,分類規(guī)則生 成器23判斷是否已處理完所有分類規(guī)則1^>11 (步驟S75)。如果存在任 何尚未處理的分類規(guī)則,則處理返回到步驟S69。
在己處理完所有分類規(guī)則L= > R的情況下,分類規(guī)則生成器23通過(guò) 集合R^和F巾構(gòu)造分類規(guī)則候選集合F,通過(guò)所有集合T,^構(gòu)造分類規(guī)則候選集合T,通過(guò)從包括所有已有分類規(guī)則的集合S排除包括所有沖突 規(guī)則的集合G來(lái)構(gòu)造分類規(guī)則候選集合(S-G),構(gòu)造分類規(guī)則候選集合
(S-G)UFUT (其為集合F、集合T以及集合(S-G)的并集),并將分類規(guī) 則候選集合(S-G) UFUT的數(shù)據(jù)存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟 S77)。另外,按照下列公式定義分類規(guī)則候選集合F、分類規(guī)則候選集合 T以及集合G。此外,如上所述,集合^包括在分類規(guī)則候選集合F中。 F = U FL=>R
L=>R
G、U S(p)
L=>R
此外,分類規(guī)則生成器23根據(jù)正確答案數(shù)據(jù)DB 9計(jì)算分類規(guī)則候 選集合(S-G) UFUT中包括的各特征元素(關(guān)鍵字)v的出現(xiàn)率score(v), 并將計(jì)算出的score (v)存儲(chǔ)在存儲(chǔ)裝置中(步驟S79)。
然后,分類規(guī)則生成器23識(shí)別出包括在分類規(guī)則候選集合(S-G) UF UT中的一個(gè)特征模式p=>c (步驟S81)。接下來(lái),計(jì)算Score(p=> C) = 2pSC0re(V),并將計(jì)算結(jié)果與所識(shí)別出的特征模式p= > c相關(guān)聯(lián)地存 儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟S83)。在步驟S83中,計(jì)算模式p 中包括的關(guān)鍵字的score(v)的和。然后,判斷是否己處理完分類規(guī)則候 選集合(S-G)UFUT中的所有特征模式(步驟S85)。如果在分類規(guī)則候 選集合(S-G) UFUT中存在任何尚未處理的特征模式,則處理返回到步驟 S81。在已處理完分類規(guī)則候選集合(S-G)UFUT中的所有特征模式的情 況下,根據(jù)Score (p二 > c)對(duì)分類規(guī)則候選集合(S-G) U F U T中的所有特 征模式進(jìn)行排序,并將排序結(jié)果存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟 S87)。然后,處理返回到原處理。
由此,執(zhí)行了對(duì)規(guī)則的求反并區(qū)分了分類規(guī)則候選集合(S-G) UFUT 中的特征模式的優(yōu)先次序。此外,在圖12的處理流程中,只對(duì)與相反模 式和一致模式相對(duì)應(yīng)的特征模式執(zhí)行規(guī)則的求反,這是因?yàn)樵陔S后的處 理中待登記到分類規(guī)則DB 11中的特征模式是與該相反模式或一致模式 相對(duì)應(yīng)的特征模式。
在圖11和圖12的示例中,對(duì)包括在集合F巾和集合Fl^中的特征模式進(jìn)行排序,但是可以將該優(yōu)先級(jí)提供給集合F^中的特征模式。
回到對(duì)圖4的說(shuō)明,接下來(lái),分類規(guī)則登記處理器21通過(guò)使用處理 結(jié)果數(shù)據(jù)存儲(chǔ)部19對(duì)分類規(guī)則進(jìn)行登記,并更新分類規(guī)則DB 11 (步驟 Sll)。下面參照?qǐng)D13到16對(duì)該處理進(jìn)行詳細(xì)描述。
圖13示出了分類規(guī)則登記處理的第一示例。在圖11所示的處理之 后執(zhí)行該處理。然而,可以略去步驟S41到步驟S47。分類規(guī)則登記處理 器21以基于Score (p二〉c)的排序次序列出存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部 19中的分類規(guī)則候選集合F的特征模式,并將它們顯示在顯示設(shè)備上以 提示用戶選擇任意特征模式(步驟S91)。在上述第一示例中,列出了以 下特征模式由關(guān)鍵字"果醬"與"氣息"和正確類別"果醬"組成的 特征模式、由關(guān)鍵字"果醬"與"玫瑰"和正確類別"果醬"組成的特 征模式、由關(guān)鍵字"你"與"花"和正確類別"果醬"組成的特征模式、 由關(guān)鍵字"你"與"果醬"和正確類別"果醬"組成的特征模式、由關(guān) 鍵字"果醬"與"花"和正確類別"果醬"組成的特征模式、由關(guān)鍵字
"你"與"氣息"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"果 醬"與"氣息"和正確類別"果醬"組成的特征模式、由關(guān)鍵字"保加 利亞"與",油"和正確類別"果醬"組成的特征模式、以及由關(guān)鍵字
"花"、"玫瑰"與"氣息"和正確類別"果醬"組成的特征模式。用戶 在所列出的特征模式中選擇要登記到分類規(guī)則DB 11中的特征模式。
然后,分類規(guī)則登記處理器21接受來(lái)自用戶對(duì)特征模式p= > c的選 擇(步驟S93)。接下來(lái),從處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的分類規(guī)則候選集 合F中排除所選特征模式p二〉c (步驟S95)。此外,針對(duì)包括所選特征 模式p二 > c的集合F,^來(lái)檢索處理結(jié)果數(shù)據(jù)存儲(chǔ)部19 (步驟S97)。然后, 識(shí)別出與集合F^B相對(duì)應(yīng)的分類規(guī)則L= > R,并從分類規(guī)則DB 11將該分 類規(guī)則L二 > R作為沖突規(guī)則排除(步驟S99)。另外,在已從分類規(guī)則DB 11排除該分類規(guī)則L^〉R的情況下,跳過(guò)步驟S99。此外,在該特征模 式是從集合F巾選出的情況下,因?yàn)椴淮嬖趯?duì)應(yīng)的分類規(guī)則L=>R,所以 跳過(guò)步驟S99。
此外,分類規(guī)則登記處理器21將包括在對(duì)應(yīng)集合T^B中的所有特征模式附加地登記到分類規(guī)則DBll中(步驟S101)。當(dāng)已登記該特征模式 時(shí)也跳過(guò)步驟S101。在該特征模式是從集合F巾選出的情況下,因?yàn)椴淮?br>
在對(duì)應(yīng)的TY^,所以跳過(guò)步驟S101。此外,將所選特征模式p= > c附加 地登記到分類規(guī)則DB 11中(步驟S103)。
例如,在上述第一示例中,當(dāng)選擇由關(guān)鍵字"保加利亞"與",油" 和正確類別"果醬"組成的特征模式時(shí),將該特征模式附加地登記到分類 規(guī)則DB 11中,并從分類規(guī)則DB ll排除包括條件部分"保加利亞"和結(jié) 論部分"香味"的分類規(guī)則。此外,將由關(guān)鍵字"油"與"保加利亞"和 正確類別"香味"組成的特征模式附加地登記到分類規(guī)則DB 11中。
然后,分類規(guī)則登記處理器21判斷用戶是否指示終止對(duì)特征模式的 選擇(步驟S105)。如果用戶尚未指示終止對(duì)特征模式的選擇,則處理返 回步驟S91。另一方面,當(dāng)用戶指示終止對(duì)特征模式的選擇時(shí),處理返回 原處理。
由此,將在與相反模式相關(guān)聯(lián)的特征模式中用戶認(rèn)為有必要的特征 模式添加到分類規(guī)則DB 11中,排除導(dǎo)致沖突的已登記分類規(guī)則,并添 加與對(duì)應(yīng)一致模式相關(guān)聯(lián)的特征模式。因此,當(dāng)添加新產(chǎn)品時(shí),可以在 沒(méi)有分類規(guī)則的優(yōu)先次序并且不會(huì)引起沖突的情況下對(duì)分類規(guī)則DB 11 進(jìn)行更新。
另外,盡管在圖13中未示出,但是將新產(chǎn)品的產(chǎn)品名稱和正確類別 登記到正確答案數(shù)據(jù)DB 9中。
此外,在圖ll的處理之后,可以執(zhí)行圖14所示的處理。然而,在 圖11中可以略去步驟S41到步驟S47。 g卩,分類規(guī)則登記處理器21在處 理結(jié)果數(shù)據(jù)存儲(chǔ)部19中識(shí)別出包括在分類規(guī)則集合S (p)中并且其對(duì)應(yīng) 集合F^K不為空的分類規(guī)則L= > R,并從分類規(guī)則DB 11排除掉所有這些 分類規(guī)則L二〉R (步驟111)。
此外,分類規(guī)則登記處理器21在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中識(shí)別出 包括在與所刪除的沖突規(guī)則L= > R相對(duì)應(yīng)的集合TY=>K中的特征模式,并 將所有所識(shí)別出的特征模式附加地登記到分類規(guī)則DB 11中(步驟S113)。
然后,分類規(guī)則登記處理器21根據(jù)基于Score(『〉c)的排序次序列出存儲(chǔ)在處理結(jié)果數(shù)據(jù)存儲(chǔ)部19中的分類規(guī)則候選集合F的特征模 式,并顯示該列表以提示用戶在顯示設(shè)備上選擇任意特征模式(步驟 S115)。然后,接受來(lái)自用戶對(duì)特征模式p二〉c的選擇(步驟S117),并 將所選特征模式P= > c附加地登記到分類規(guī)則DB 11中(步驟S119)。
隨后,分類規(guī)則登記處理器21判斷用戶是否指示終止對(duì)特征模式的 選擇(步驟S121)。如果用戶沒(méi)有指示終止對(duì)特征模式的選擇,則處理返 回步驟S117。另一方面,當(dāng)用戶指示終止對(duì)特征模式的選擇時(shí),處理返 回原處理。
由此,排除導(dǎo)致不一致的分類規(guī)則,并添加了與一致模式相關(guān)聯(lián)并 由于所述排除而變得必要的特征模式,并且根據(jù)用戶的指令登記與相反 模式相關(guān)聯(lián)的特征模式。執(zhí)行這種處理,還使得能夠在不對(duì)分類規(guī)則DB11 中的分類規(guī)則執(zhí)行優(yōu)先次序排序并且不會(huì)引起分類規(guī)則DB 11中的沖突 的情況下,積累能夠處理新產(chǎn)品的分類規(guī)則。
另外,在從分類規(guī)則候選集合F排除了所選特征模式的情況下,處 理可以從步驟S121返回步驟S115。
接下來(lái),利用圖15和圖16說(shuō)明分類規(guī)則登記處理的第三示例。當(dāng) 通過(guò)圖12的處理生成分類規(guī)則候選集合(S-G) UFUT時(shí)執(zhí)行該處理。另 外,本處理與上述兩個(gè)示例不同,其自動(dòng)選擇要登記到分類規(guī)則DB 11 中的分類規(guī)則。此外,通過(guò)圖12的處理計(jì)算出的分?jǐn)?shù)(score)(即,Score 的值)限定了本處理的次序。
在第三示例中,采用按照該分?jǐn)?shù)的次序添加分類規(guī)則的方法,并且 當(dāng)分類規(guī)則的添加對(duì)規(guī)則庫(kù)的準(zhǔn)確度的改進(jìn)沒(méi)有貢獻(xiàn)時(shí),終止對(duì)該規(guī)則 的添加。從而,構(gòu)造包括具有高分?jǐn)?shù)并具有最高準(zhǔn)確度的規(guī)則的規(guī)則庫(kù)。 首先,分類規(guī)則登記處理器21將包括在正確答案數(shù)據(jù)DB 9中的所有正 確答案數(shù)據(jù)歸類為集合U,并將包括在其產(chǎn)品數(shù)量最大的類別S中的正 確答案數(shù)據(jù)歸類為集合D (步驟S131)。在本實(shí)施例中,確定類別5為 默認(rèn)類別,并將未經(jīng)任何規(guī)則進(jìn)行分類的數(shù)據(jù)歸類到類別S中。此外, 最初,分類規(guī)則登記處理器21構(gòu)造未經(jīng)分類數(shù)據(jù)集合W(KJX步驟S133)。 將這些集合的數(shù)據(jù)存儲(chǔ)在工作存儲(chǔ)部區(qū)域中。此外,將X、 Y、 Z設(shè)定為X-cD、 Y=cD、 Z=0 (步驟S135)。 X是通過(guò)分類規(guī)則對(duì)其進(jìn)行的分類是正 確的產(chǎn)品的集合。Y是通過(guò)分類規(guī)則對(duì)其進(jìn)行的分類是錯(cuò)誤的產(chǎn)品的集 合。Z是從現(xiàn)在開始生成的分類規(guī)則的集合。XuY意味著經(jīng)分類的產(chǎn)品 的集合。
此外,分類規(guī)則登記處理器21計(jì)算preDrr-(lYl + IW-D|)/|U|,并將計(jì) 算結(jié)果存儲(chǔ)到存儲(chǔ)部中(步驟S137)。 lYl表示包括在集合Y中的元素?cái)?shù) 目(大小)。類似地,IW-Dl表示包括在集合W與集合D的差集W-D中的 元素?cái)?shù)目,而IUl表示集合U中的元素?cái)?shù)目。另外,因?yàn)閅二O,所以在不 包括在類別5中的產(chǎn)品被誤分類的假設(shè)下,在該步驟中計(jì)算出的preErr 是初始錯(cuò)誤率。
接下來(lái),分類規(guī)則登記處理器21提取出包括在分類規(guī)則候選集合 (S-G) UFUT中一個(gè)特征模式p= > c,其按Score(p= > c)的降序存儲(chǔ)在處 理結(jié)果數(shù)據(jù)存儲(chǔ)部19中(步驟S139)。然后,從正確答案數(shù)據(jù)DB9提取 滿足在步驟S139處提取的特征模式p二 > c的條件部分p的所有產(chǎn)品,并 通過(guò)所提取的產(chǎn)品來(lái)構(gòu)造集合E (步驟S141)。例如,將集合E的數(shù)據(jù)存 儲(chǔ)在工作存儲(chǔ)部區(qū)域中。
此外,分類規(guī)則登記處理器21從集合E提取一個(gè)產(chǎn)品e(步驟S143 ), 并確定是否滿足eeW (步驟S145)。即,確定是否已通過(guò)添加的分類規(guī)則 對(duì)產(chǎn)品e進(jìn)行了分類。在產(chǎn)品e不包括在未經(jīng)分類數(shù)據(jù)集合W中的情況 下,處理經(jīng)由分支末端B進(jìn)行到圖16的步驟S155。在產(chǎn)品e包括在未經(jīng) 分類數(shù)據(jù)集合W中的情況下,處理經(jīng)由分支末端A進(jìn)行到圖16的步驟 S147。
然后,分類規(guī)則登記處理器21將在步驟S139處提取的特征模式 P=〉c添加到集合Z(Z二ZU { p= > c }),并將產(chǎn)品e從未經(jīng)分類數(shù)據(jù)集合 W中去除(^W-{e})(步驟S147)。因?yàn)閷⑻卣髂J礁郊拥氐怯浀郊蟌 的次序與所述優(yōu)先級(jí)相一致,所以在集合Z中也保持了該次序。此外, 判斷根據(jù)在步驟S139處提取的特征模式p^〉c的產(chǎn)品e的分類目標(biāo)類別 是否與原始分類目標(biāo)類別c相匹配(步驟S149)。如果根據(jù)在步驟S139 處提取的特征模式P= > c的產(chǎn)品e的分類目標(biāo)類別與原始分類目標(biāo)類別c不匹配,則因?yàn)檫@是誤分類,而將產(chǎn)品e添加到集合Y (步驟S151)。在 根據(jù)在步驟S139處提取的特征模式p^ > c的產(chǎn)品e的分類目標(biāo)類別與原 始分類目標(biāo)類別c相匹配的情況下,因?yàn)樵撎卣髂J綄⒃摦a(chǎn)品歸類到正 確類別,所以將該產(chǎn)品e添加到集合X中(步驟S153)。
然后,分類規(guī)則登記處理器21判斷是否己處理完集合E中的所有產(chǎn) 品e (步驟S155)。如果集合E中存在任何尚未處理的產(chǎn)品e,則處理經(jīng) 由分支末端C返回到圖15的步驟S143。在集合E中不存在尚未處理的產(chǎn)
品e的情況下,計(jì)算錯(cuò)誤率En^(lYl + IW-D|)/|U|,并將錯(cuò)誤率Err存儲(chǔ)在
存儲(chǔ)設(shè)備中(步驟S157)。另外,包括在集合W中的產(chǎn)品可以包括在集合 D中,并且包括在集合E中的產(chǎn)品可以包括在集合D中。因此,通過(guò)處理 集合E,盡管lYl增大了,但是IW-Dl的減少可以小于lYl的增大量。例如,
即使從集合W排除了產(chǎn)品e,在產(chǎn)品e包括在集合D中的情況下,包括在 集合w與集合D的差集W-D中的產(chǎn)品數(shù)量也不會(huì)減少。
然后,分類規(guī)則登記處理器21判斷是否滿足Err>PreErr (步驟 S159)。在Err大于PreErr的情況下,從集合Z去除在步驟S139處識(shí)別 的特征模式p二〉c (步驟S163)。然后,處理返回到原處理。在Err小于 PreErr的情況下,設(shè)定PreErr二Err (步驟S161)。然后,判斷是否已處 理完包括在分類規(guī)則候選集合(S-G) UFUT中的所有特征模式(步驟 S165)。如果存在任何尚未處理的模式,則處理經(jīng)由分支末端D返回到步 驟S139。
由此,將特征模式作為分類規(guī)則添加到集合Z,直到錯(cuò)誤率增加為 止。然后,當(dāng)在步驟S165處判斷已處理完包括在分類規(guī)則候選集合(S-G) UFUT中的所有特征模式時(shí),分類規(guī)則登記處理器21通過(guò)集合Z對(duì)分類 規(guī)則DB ll進(jìn)行更新(步驟S167)。
通過(guò)執(zhí)行上述處理,可以創(chuàng)建能夠適當(dāng)?shù)靥幚硇庐a(chǎn)品的分類規(guī)則。 盡管以上已對(duì)本發(fā)明實(shí)施例進(jìn)行了闡述,但是本發(fā)明并不限于上述 實(shí)施例。在該說(shuō)明中,描述了包括對(duì)規(guī)則進(jìn)行求反在內(nèi)的處理流程,但 是并不總是必須執(zhí)行對(duì)規(guī)則的求反。在不對(duì)規(guī)則執(zhí)行求反的情況下,例 如,對(duì)于圖15和圖16,可以略去用于生成沖突解決表的處理。此外,圖1的多個(gè)功能塊并非總是分別對(duì)應(yīng)于實(shí)際程序模塊。 此外,如上所述,可以將用于支持創(chuàng)建分類規(guī)則的裝置配置成分立
形式,或者可以將其配置成通過(guò)一個(gè)或多個(gè)服務(wù)器實(shí)現(xiàn)上述功能,并通
過(guò)經(jīng)由網(wǎng)絡(luò)連接的終端來(lái)登記新產(chǎn)品數(shù)據(jù)。
此外,在圖13和圖14中呈現(xiàn)給用戶的屏面可以是圖17所示的一種
屏面。在圖13和圖14的說(shuō)明中,根據(jù)Score的值列舉關(guān)鍵字。然而, 如圖17所示,可以將屏面配置成包括"關(guān)鍵字提取結(jié)果",表示對(duì)新產(chǎn) 品的產(chǎn)品名稱進(jìn)行單詞或短語(yǔ)分離或語(yǔ)素分析的結(jié)果;正確類別代碼; 分類規(guī)則檢索結(jié)果(本示例中不存在),其為在分類規(guī)則DB 11中針對(duì)能 夠?qū)π庐a(chǎn)品的產(chǎn)品名稱正確地分類的規(guī)則的檢索結(jié)果;集合F。(生成新 分類規(guī)則);以及除集合F巾以外的沖突解決表。在此情況下,用戶點(diǎn)擊要 登記到分類規(guī)則DB 11中的規(guī)則,以使得該系統(tǒng)將它們登記到分類規(guī)則 DB 11中。
此外,用于支持創(chuàng)建分類規(guī)則的裝置是如圖18所示計(jì)算機(jī)設(shè)備。即, 如圖18所示,通過(guò)總線2519連接下列設(shè)備存儲(chǔ)器2501 (存儲(chǔ)裝置)、 CPU 2503 (處理器)、硬盤驅(qū)動(dòng)器(HDD) 2505、連接到顯示裝置2509的 顯示控制器2507、用于可移動(dòng)盤2511的驅(qū)動(dòng)裝置2513、輸入裝置2515、 以及用于與網(wǎng)絡(luò)相連接的通信控制器2517。在HDD 2505中存儲(chǔ)有用于執(zhí) 行本實(shí)施例中的上述處理的操作系統(tǒng)(OS)和應(yīng)用程序,并且當(dāng)由CPU 2503 執(zhí)行時(shí),從HDD 2505將它們讀取到存儲(chǔ)器2501。如有需要,CPU 2503 對(duì)顯示控制器2507、通信控制器2517以及驅(qū)動(dòng)裝置2513進(jìn)行控制,并 使它們執(zhí)行必要的操作。此外,將中間處理數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器2501中, 若有必要,將它存儲(chǔ)在HDD 2505中。在本發(fā)明的本實(shí)施例中,將用于實(shí) 現(xiàn)上述功能的應(yīng)用程序存儲(chǔ)在可移動(dòng)盤2511中并對(duì)其進(jìn)行發(fā)布,然后從 驅(qū)動(dòng)裝置2513將該應(yīng)用程序安裝到HDD 2505中。可以通過(guò)諸如因特網(wǎng) 的網(wǎng)絡(luò)和通信控制器2517將該應(yīng)用程序安裝到HDD 2505中。在上述計(jì) 算機(jī)中,諸如CPU 2503和存儲(chǔ)器2501的硬件、OS和必要的應(yīng)用程序系 統(tǒng)地相互協(xié)作,從而實(shí)現(xiàn)上文詳細(xì)描述的各種功能。
盡管已針對(duì)本發(fā)明具體優(yōu)選實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,但是本領(lǐng)域的技術(shù)人員可以提出各種改變和變型,并且本發(fā)明旨在包括落入所附 權(quán)利要求的范圍內(nèi)的這些改變和變型。
權(quán)利要求
1、一種支持創(chuàng)建分類規(guī)則的方法,其包括以下步驟將新數(shù)據(jù)項(xiàng)和所述新數(shù)據(jù)項(xiàng)的類別存儲(chǔ)到存儲(chǔ)部中;從存儲(chǔ)在正確答案數(shù)據(jù)存儲(chǔ)部中的數(shù)據(jù)提取各包括一條件和對(duì)應(yīng)類別的特征模式,并且將所述特征模式存儲(chǔ)到分組數(shù)據(jù)存儲(chǔ)部中,所述條件包括存儲(chǔ)在所述存儲(chǔ)部中的所述新數(shù)據(jù)項(xiàng)的特征元素,所述正確答案數(shù)據(jù)存儲(chǔ)部存儲(chǔ)數(shù)據(jù)項(xiàng)和所述數(shù)據(jù)項(xiàng)的類別;以及按存儲(chǔ)在所述分組數(shù)據(jù)存儲(chǔ)部中的所述特征模式的分?jǐn)?shù)的降序?qū)⒋鎯?chǔ)在所述分組數(shù)據(jù)存儲(chǔ)部中的所述特征模式作為新分類規(guī)則登記到所述分類規(guī)則存儲(chǔ)部中,直到隨著存儲(chǔ)在正確答案數(shù)據(jù)存儲(chǔ)部中的所述數(shù)據(jù)項(xiàng)的誤分類的發(fā)生次數(shù)而變化并預(yù)先對(duì)其定義公式的錯(cuò)誤率增加為止。
2、 一種用于支持創(chuàng)建分類規(guī)則的裝置,其包括存儲(chǔ)單元,用于將新數(shù)據(jù)項(xiàng)和所述新數(shù)據(jù)項(xiàng)的類別存儲(chǔ)到存儲(chǔ)部中; 提取器,用于從存儲(chǔ)在正確答案數(shù)據(jù)存儲(chǔ)部中的數(shù)據(jù)提取各包括一 條件和對(duì)應(yīng)類別的特征模式,并且將所述特征模式存儲(chǔ)到分組數(shù)據(jù)存儲(chǔ) 部中,所述條件包括存儲(chǔ)在所述存儲(chǔ)部中的所述新數(shù)據(jù)項(xiàng)的特征元素, 所述正確答案數(shù)據(jù)存儲(chǔ)部存儲(chǔ)數(shù)據(jù)項(xiàng)和所述數(shù)據(jù)項(xiàng)的類別;以及登記單元,按存儲(chǔ)在所述分組數(shù)據(jù)存儲(chǔ)部中的所述特征模式的分?jǐn)?shù) 的降序?qū)⒋鎯?chǔ)在所述分組數(shù)據(jù)存儲(chǔ)部中的所述特征模式作為新分類規(guī)則 登記到所述分類規(guī)則存儲(chǔ)部中,直到隨著存儲(chǔ)在正確答案存儲(chǔ)部中的所 述數(shù)據(jù)項(xiàng)的誤分類的發(fā)生次數(shù)而變化并預(yù)先對(duì)其定義公式的錯(cuò)誤率增加 為止。
全文摘要
支持分類規(guī)則創(chuàng)建的方法和裝置。本發(fā)明恰當(dāng)?shù)刂С譃樾聰?shù)據(jù)項(xiàng)創(chuàng)建分類規(guī)則。該方法包括以下步驟將新數(shù)據(jù)項(xiàng)和新數(shù)據(jù)項(xiàng)的類別存儲(chǔ)到存儲(chǔ)部中;從存儲(chǔ)在正確答案數(shù)據(jù)存儲(chǔ)部中的數(shù)據(jù)提取各包括一條件和對(duì)應(yīng)類別的多個(gè)特征模式,并且將所述特征模式存儲(chǔ)到特征模式存儲(chǔ)部中,所述條件包括存儲(chǔ)在存儲(chǔ)部中的新數(shù)據(jù)項(xiàng)的特征元素,所述正確答案數(shù)據(jù)存儲(chǔ)部存儲(chǔ)多個(gè)數(shù)據(jù)項(xiàng)和這些數(shù)據(jù)項(xiàng)的類別;以及將存儲(chǔ)在所述特征模式存儲(chǔ)部中的特征模式分組為第一集合和第二集合,并將分組結(jié)果存儲(chǔ)在分組數(shù)據(jù)存儲(chǔ)部中,第一集合的特征模式與存儲(chǔ)在所述存儲(chǔ)部中的新數(shù)據(jù)項(xiàng)的類別相匹配,而第二集合的特征模式與所述新數(shù)據(jù)項(xiàng)的類別不匹配。從而,自動(dòng)生成作為候選分類規(guī)則的特征模式,此外,能夠從第一集合中選擇特定特征模式作為此后應(yīng)用的分類規(guī)則。
文檔編號(hào)G06F17/30GK101430704SQ20081017814
公開日2009年5月13日 申請(qǐng)日期2005年12月15日 優(yōu)先權(quán)日2005年8月19日
發(fā)明者井上大悟, 內(nèi)野寬治, 半野宏和, 稻越宏彌 申請(qǐng)人:富士通株式會(huì)社