亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔分類(lèi)系統(tǒng)、文檔分類(lèi)方法及文檔分類(lèi)程序與流程

文檔序號(hào):12272685閱讀:506來(lái)源:國(guó)知局
文檔分類(lèi)系統(tǒng)、文檔分類(lèi)方法及文檔分類(lèi)程序與流程

技術(shù)領(lǐng)域

本發(fā)明涉及一種文檔分類(lèi)系統(tǒng)、文檔分類(lèi)方法及文檔分類(lèi)程序,尤其是涉及與訴訟相關(guān)文檔信息的文檔分類(lèi)系統(tǒng)、文檔分類(lèi)方法及文檔分類(lèi)程序。



背景技術(shù):

現(xiàn)有技術(shù)中,已提出一種在發(fā)生非法訪問(wèn)(illegal access)或機(jī)密信息泄露等與計(jì)算機(jī)相關(guān)的犯罪或法律糾紛時(shí),對(duì)原因查明或搜查所需的儀器、數(shù)據(jù)或電子記錄進(jìn)行收集/分析,并明確其法律上的證據(jù)性的裝置或技術(shù)。

尤其在美國(guó)民事訴訟中,由于需要eDiscovery(電子證據(jù)公開(kāi))等,該訴訟的原告及被告的任何一方均需要承擔(dān)作為證據(jù)提交全部相關(guān)數(shù)字信息的義務(wù)。因此,必須將計(jì)算機(jī)或服務(wù)器中所記錄的數(shù)字信息作為證據(jù)提交。

另一方面,由于隨著IT業(yè)迅速發(fā)展及普及,在當(dāng)今商務(wù)世界中幾乎所有的信息均由計(jì)算機(jī)制作,因此即使在同一企業(yè)內(nèi)部,也充斥著大量的數(shù)字信息。

因此,在為了向法庭提交證據(jù)材料而進(jìn)行準(zhǔn)備工作的過(guò)程中,容易產(chǎn)生在證據(jù)材料中還包含了未必與該訴訟相關(guān)的機(jī)密數(shù)字信息的失誤。存在提交與該訴訟無(wú)關(guān)的機(jī)密文檔信息的問(wèn)題。

近幾年來(lái),在專(zhuān)利文獻(xiàn)1~專(zhuān)利文獻(xiàn)3中提出一種與取證系統(tǒng)的文檔信息相關(guān)的技術(shù)。在專(zhuān)利文獻(xiàn)1中公開(kāi)一種取證系統(tǒng),從使用者信息中所包含的至少1人以上的使用者中指定特定人,并根據(jù)與被指定的特定人相關(guān)的訪問(wèn)履歷信息,僅抽取特定人所訪問(wèn)的數(shù)字文檔信息,并設(shè)定表示各所抽取的數(shù)字文檔信息的文檔文件是否與訴訟相關(guān)的附帶信息,并且根據(jù)附帶信息,輸出與訴訟相關(guān)的文檔文件。

另外,在專(zhuān)利文獻(xiàn)2中公開(kāi)一種取證系統(tǒng),顯示所記錄的數(shù)字信息,對(duì)多個(gè)文檔文件的每一個(gè)設(shè)定表示是否與包含于使用者信息的使用者中任意的使用者相關(guān)的使用者特定信息,并將該被設(shè)定的使用者特定信息記錄在存儲(chǔ)部中,而進(jìn)行設(shè)定,并指定至少一個(gè)以上的使用者,對(duì)設(shè)定有與所指定的使用者相對(duì)的使用者特定信息的文檔文件進(jìn)行檢索,并借助顯示部,設(shè)定表示所檢索的文檔文件是否與訴訟相關(guān)的附帶信息,根據(jù)附帶信息,輸出與訴訟相關(guān)的文檔文件。

另外,在專(zhuān)利文獻(xiàn)3中公開(kāi)一種取證系統(tǒng),接受數(shù)字文檔信息中所包含的至少一個(gè)以上的文檔文件的指定,并接受是否將所指定的文檔文件翻譯為任意一種語(yǔ)言的指定,將接受所指定的文檔文件翻譯為接受指定的語(yǔ)言,從記錄部所記錄的數(shù)字文檔信息抽取與所指定的文檔文件顯示同一內(nèi)容的共同文檔文件,并生成翻譯關(guān)聯(lián)信息,該翻譯關(guān)聯(lián)信息表示所抽取的共同的文檔文件因引用被翻譯的文檔文件的翻譯內(nèi)容而被翻譯,根據(jù)翻譯關(guān)聯(lián)信息輸出與訴訟相關(guān)的文檔文件。

專(zhuān)利文獻(xiàn)1:日本專(zhuān)利特開(kāi)2011-209930號(hào)公報(bào)

專(zhuān)利文獻(xiàn)2:日本專(zhuān)利特開(kāi)2011-209931號(hào)公報(bào)

專(zhuān)利文獻(xiàn)3:日本專(zhuān)利特開(kāi)2012-32859號(hào)公報(bào)

然而,例如專(zhuān)利文獻(xiàn)1~3中所公開(kāi)的取證系統(tǒng),需要使用多臺(tái)計(jì)算機(jī)及服務(wù)器以收集使用者的龐大的文檔信息。

通過(guò)被稱(chēng)為查閱者的用戶閱讀確認(rèn),進(jìn)行分辨將上述的數(shù)字化的龐大的文檔信息作為訴訟的證據(jù)材料是否合適的操作,必須對(duì)該文檔信息逐個(gè)進(jìn)行分辨,這樣需要消耗大量的人力。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明提供一種文檔分類(lèi)系統(tǒng)、文檔分類(lèi)方法及文檔分類(lèi)程序,使在收集數(shù)字化的文檔信息后,通過(guò)對(duì)該文檔信息自動(dòng)賦予分類(lèi)符號(hào),能夠減輕訴訟中對(duì)所使用的文檔信息分類(lèi)作業(yè)的負(fù)擔(dān)。

本發(fā)明的文檔辨別系統(tǒng)獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中的數(shù)字信息,并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后進(jìn)行分類(lèi)以易于在訴訟中使用,該文檔辨別系統(tǒng)具有:抽取部,其從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群;文檔顯示部,其將所述抽取的文檔群顯示在畫(huà)面上;分類(lèi)符號(hào)接受部,其接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類(lèi)符號(hào);選定部,其根據(jù)所述分類(lèi)符號(hào),按每個(gè)分類(lèi)符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類(lèi),解析并選定在該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞;數(shù)據(jù)庫(kù),其記錄所述被選定的關(guān)鍵詞;搜索部,其從所述文檔信息中搜索記錄在所述數(shù)據(jù)庫(kù)中的關(guān)鍵詞;得分計(jì)算部,其利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間的關(guān)聯(lián)性的得分;以及自動(dòng)分類(lèi)部,其根據(jù)所述得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào)。

在本發(fā)明中,“文檔”是指包含1個(gè)以上關(guān)鍵詞的數(shù)據(jù)。例如為電子郵件、企劃案材料、表計(jì)算材料、商洽材料、合同書(shū)、組織圖、事業(yè)企劃書(shū)等。

在本發(fā)明中,在為某種語(yǔ)言下,“關(guān)鍵詞”是指具有一定意義的語(yǔ)句的概括。例如,在從“將文檔分類(lèi)”的文章選定關(guān)鍵詞時(shí),可選“文檔”、“分類(lèi)”為關(guān)鍵詞。

在本發(fā)明中,“分類(lèi)符號(hào)”為將文檔分類(lèi)時(shí)使用的標(biāo)識(shí)符。例如,訴訟中將文檔信息作為證據(jù)使用時(shí),可根據(jù)證據(jù)的種類(lèi)賦予分類(lèi)符號(hào)。

“得分”是指,定量評(píng)價(jià)某個(gè)文檔與特定的分類(lèi)符號(hào)的聯(lián)系的強(qiáng)度。例如,得分計(jì)算部根據(jù)出現(xiàn)在文檔群中的關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重計(jì)算得分。作為一個(gè)例子,該權(quán)重根據(jù)擁有關(guān)鍵詞的、每個(gè)分類(lèi)符號(hào)的傳遞信息量決定。

另外,本發(fā)明的文檔辨別系統(tǒng)中,抽取部從文檔信息中抽取文檔群時(shí),可進(jìn)行隨機(jī)采樣。

本發(fā)明的文檔辨別系統(tǒng)中,所述搜索部從由未被賦予所述分類(lèi)符號(hào)的文檔構(gòu)成的文檔信息中搜索所述關(guān)鍵詞,所述得分計(jì)算部利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間關(guān)聯(lián)性的得分,所述自動(dòng)分類(lèi)部具有抽取未由所述分類(lèi)符號(hào)接受部接受到賦予所述分類(lèi)符號(hào)的文檔,并對(duì)文檔信息自動(dòng)賦予分類(lèi)符號(hào)的功能。

另外,本發(fā)明的文檔分類(lèi)系統(tǒng)中,所述數(shù)據(jù)庫(kù)還具有抽取并記錄與所述分類(lèi)符號(hào)具有關(guān)聯(lián)性的關(guān)聯(lián)用語(yǔ)的功能,所述搜索部還具有從所述文檔信息中搜索所述關(guān)聯(lián)用語(yǔ)的功能,所述得分計(jì)算部還具有根據(jù)所述搜索部對(duì)所述關(guān)聯(lián)用語(yǔ)進(jìn)行搜索的結(jié)果計(jì)算得分的功能,所述自動(dòng)分類(lèi)部還具有根據(jù)使用所述關(guān)聯(lián)用語(yǔ)計(jì)算的得分自動(dòng)賦予分類(lèi)符號(hào)的功能。

另外,本發(fā)明的文檔分類(lèi)系統(tǒng)還具有文檔排除部,其在文檔群中的文檔中,選定不包含由所述選定部選定的所述關(guān)鍵詞、所述關(guān)聯(lián)用語(yǔ)及與所述分類(lèi)符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞的文檔,并從所述自動(dòng)分類(lèi)部的分類(lèi)對(duì)象中排除所述被選定的文檔。

本發(fā)明的文檔分類(lèi)系統(tǒng)還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分計(jì)算部計(jì)算的得分,對(duì)由所述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫(kù)中的與分類(lèi)符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)進(jìn)行增減。

本發(fā)明的文檔分類(lèi)方法其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字信息,并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類(lèi)以易于在訴訟中使用的文檔分類(lèi)系統(tǒng),從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫(huà)面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類(lèi)符號(hào),根據(jù)所述分類(lèi)符號(hào),按每個(gè)分類(lèi)符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類(lèi),解析并選定該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào)。

本發(fā)明的文檔分類(lèi)程序其應(yīng)用于獲取記錄在多個(gè)計(jì)算機(jī)或服務(wù)器中記錄的數(shù)字信息,并對(duì)該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類(lèi)以易于在訴訟中使用的文檔分類(lèi)系統(tǒng),使計(jì)算機(jī)中實(shí)現(xiàn)如下功能,從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫(huà)面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類(lèi)符號(hào),根據(jù)所述分類(lèi)符號(hào),按每個(gè)分類(lèi)符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類(lèi),解析并選定該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào)。

發(fā)明的效果

本發(fā)明的文檔辨別系統(tǒng)、文檔辨別方法及文檔辨別程序從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫(huà)面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類(lèi)符號(hào),根據(jù)所述分類(lèi)符號(hào),按每個(gè)分類(lèi)符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類(lèi),解析并選定該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào),由此,能夠減輕查閱者分類(lèi)作業(yè)的負(fù)擔(dān)。

另外,本發(fā)明的文檔辨別系統(tǒng)中,所述搜索部從由未被賦予所述分類(lèi)符號(hào)的文檔構(gòu)成的文檔信息中搜索所述關(guān)鍵詞,所述得分計(jì)算部利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間關(guān)聯(lián)性的得分,所述自動(dòng)分類(lèi)部具有抽取未由所述分類(lèi)符號(hào)接受部接受到賦予所述分類(lèi)符號(hào)的文檔,并對(duì)文檔信息自動(dòng)賦予分類(lèi)符號(hào)的功能時(shí),對(duì)于未由分類(lèi)符號(hào)接受部接受賦予分類(lèi)符號(hào)的文檔信息,根據(jù)查閱者進(jìn)行分類(lèi)的規(guī)則性,可自動(dòng)賦予分類(lèi)符號(hào)。

另外,本發(fā)明還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分計(jì)算部計(jì)算的得分,對(duì)由所述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫(kù)中的與分類(lèi)符號(hào)有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)進(jìn)行增減,這種情況下,每重復(fù)分類(lèi)次數(shù),都可提高分類(lèi)精度。

另外,本發(fā)明從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,將所述抽取的文檔群顯示在畫(huà)面上,接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對(duì)所述顯示的文檔群賦予的分類(lèi)符號(hào),根據(jù)所述分類(lèi)符號(hào),按每個(gè)分類(lèi)符號(hào)對(duì)所述抽取的文檔群進(jìn)行分類(lèi),解析并選定該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞,記錄所述被選定的關(guān)鍵詞,從所述文檔信息搜索所述被記錄的關(guān)鍵詞,利用所述搜索結(jié)果和所述解析結(jié)果,計(jì)算表示分類(lèi)符號(hào)和文檔之間的關(guān)聯(lián)性的得分,根據(jù)所述得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào),并在文檔群的文檔中,選定不含與選定部所選定的關(guān)鍵詞、關(guān)聯(lián)用語(yǔ)及分類(lèi)符號(hào)具有相關(guān)關(guān)系的關(guān)鍵詞的文檔,而從自動(dòng)分類(lèi)部的分類(lèi)對(duì)象排除被選定的文檔,此時(shí),可更高效的進(jìn)行文檔分類(lèi)。由此,在訴訟中容易使用所收集的數(shù)字信息。

附圖說(shuō)明

圖1為本發(fā)明的第1實(shí)施方式的文檔辨別系統(tǒng)的結(jié)構(gòu)圖;

圖2為本發(fā)明的實(shí)施方式的表示選定部的解析結(jié)果的坐標(biāo)圖;

圖3為本發(fā)明的實(shí)施方式的每個(gè)階段處理的圖表;

圖4為本發(fā)明的實(shí)施方式的數(shù)據(jù)庫(kù)的處理流程的圖表;

圖5為本發(fā)明的實(shí)施方式的搜索部的處理流程的圖表;

圖6為本發(fā)明的實(shí)施方式的得分計(jì)算部的處理流程的圖表;

圖7為本發(fā)明的實(shí)施方式的自動(dòng)分類(lèi)部的處理流程的圖表;

圖8為本發(fā)明的實(shí)施方式的抽取部的處理流程的圖表;

圖9為本發(fā)明的實(shí)施方式的文檔顯示部的處理流程的圖表;

圖10為本發(fā)明的實(shí)施方式的分類(lèi)符號(hào)接受部的處理流程的圖表;圖11為本發(fā)明的實(shí)施方式的選定部的處理流程的圖表;

圖12為本發(fā)明的實(shí)施方式的文檔排除部的處理流程的圖表;

圖13為本發(fā)明的實(shí)施方式的學(xué)習(xí)部的處理流程的圖表;

圖14為本發(fā)明的實(shí)施方式的文檔顯示畫(huà)面。

符號(hào)說(shuō)明

101 文檔分類(lèi)裝置

102 抽取部

103 文檔顯示部

104 分類(lèi)符號(hào)接受部

105 選定部

106 搜索部

107 得分計(jì)算部

108 自動(dòng)分類(lèi)部

109 文檔排除部

110 學(xué)習(xí)部

201 數(shù)據(jù)庫(kù)

301 客戶端

I1 文檔顯示畫(huà)面

具體實(shí)施方式

第1實(shí)施方式

下面,參照附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行說(shuō)明。圖1表示第1實(shí)施方式的文檔辨別系統(tǒng)的結(jié)構(gòu)圖。

第1實(shí)施方式為,與專(zhuān)利侵權(quán)訴訟的文檔提交指令相對(duì)應(yīng)時(shí),對(duì)與作為被指控產(chǎn)品的產(chǎn)品A相關(guān)的文檔進(jìn)行分類(lèi)處理情況的實(shí)施例。

本發(fā)明的文檔分類(lèi)系統(tǒng)包括:抽取部102,其抽取文檔信息中包含所規(guī)定數(shù)量文檔的數(shù)據(jù)組的文檔群;文檔顯示部103,其將被抽取的文檔群顯示在畫(huà)面上;分類(lèi)符號(hào)接受部104,其接受被稱(chēng)為查閱者的用戶根據(jù)與訴訟的關(guān)聯(lián)性對(duì)所顯示的文檔群賦予的分類(lèi)符號(hào);選定部105,其根據(jù)分類(lèi)符號(hào),將抽取的文檔群分類(lèi)給每個(gè)分類(lèi)符號(hào),并在該被分類(lèi)的文檔群中解析并選定共同出現(xiàn)的關(guān)鍵詞;數(shù)據(jù)庫(kù)201,用于記錄所選定的關(guān)鍵詞;搜索部106,其從文檔信息搜索記錄在數(shù)據(jù)庫(kù)201中的關(guān)鍵詞;得分計(jì)算部107,其利用搜索部106的搜索結(jié)果和選定部105的解析結(jié)果,計(jì)算出表示分類(lèi)符號(hào)和文檔的關(guān)聯(lián)性的得分;自動(dòng)分類(lèi)部108,其根據(jù)得分的結(jié)果,自動(dòng)賦予分類(lèi)符號(hào);文檔排除部109,其用于從自動(dòng)分類(lèi)部108的分類(lèi)對(duì)象中排除被選定的文檔;學(xué)習(xí)部110,其根據(jù)選定部105的分析結(jié)果及得分計(jì)算部計(jì)算出的得分,對(duì)由選定部105選定的關(guān)鍵詞、與記錄在數(shù)據(jù)庫(kù)201中的分類(lèi)符號(hào)具有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)進(jìn)行增減。

在第1實(shí)施方式中,該文檔分類(lèi)系統(tǒng)包括文檔分類(lèi)裝置101、數(shù)據(jù)庫(kù)201及查閱者使用的客戶端301構(gòu)成,其中,文檔分類(lèi)裝置101具有抽取部102、文檔顯示部103、分類(lèi)符號(hào)接受部104、選定部105、搜索部106、得分計(jì)算部107、自動(dòng)分類(lèi)部108、文檔排除部109和學(xué)習(xí)部110。在1個(gè)文檔辨別系統(tǒng)內(nèi),客戶端301可具有多個(gè)。

文檔分類(lèi)裝置101及客戶端301為計(jì)算機(jī)或服務(wù)器,其根據(jù)各種輸入使CUP實(shí)施ROM中記錄的程序,進(jìn)行作為各種功能部的動(dòng)作。

分類(lèi)符號(hào)為將文檔分類(lèi)時(shí)使用的標(biāo)識(shí)符。訴訟中將文檔信息作為證據(jù)使用時(shí),可根據(jù)證據(jù)的種類(lèi)賦予分類(lèi)符號(hào)。第1實(shí)施方式中,分類(lèi)符號(hào)為“無(wú)關(guān)”、“有關(guān)”和“重要”3種符號(hào),其中“無(wú)關(guān)”表示此次的訴訟中無(wú)舉證能力的文檔,“有關(guān)”表示需要作為證據(jù)提交的文檔,“重要”表示與產(chǎn)品A有著特別關(guān)系的文檔,其中,對(duì)賦予“重要”符號(hào)的文檔進(jìn)行分類(lèi)。

這里所述的文檔是指,訴訟中作為證據(jù)提交的數(shù)字信息,是包含1個(gè)以上單詞的數(shù)據(jù)。例如為電子郵件、企劃案材料、表計(jì)算材料、商洽材料、合同書(shū)、組織圖、事業(yè)企劃書(shū)等。另外,可將掃描數(shù)據(jù)作為文檔處理。這種情況下,可在文檔辨別系統(tǒng)中設(shè)置OCR(光符閱讀器:Optical Character Reader)裝置,以將掃描數(shù)據(jù)轉(zhuǎn)換為文檔數(shù)據(jù)。通過(guò)使用OCR裝置轉(zhuǎn)換為文檔數(shù)據(jù),可從掃描數(shù)據(jù)中解析或搜索關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)。

例如,在第1實(shí)施方式中,對(duì)記載有與產(chǎn)品A相關(guān)的商談內(nèi)容的會(huì)議記錄或電子郵件等賦予“有關(guān)”符號(hào),對(duì)產(chǎn)品A的研發(fā)企劃書(shū)或設(shè)計(jì)書(shū)等賦予“重要”符號(hào),對(duì)與產(chǎn)品A無(wú)關(guān)的法院、地方定期召開(kāi)的會(huì)議(日本語(yǔ)“定例會(huì)”)等材料賦予“無(wú)關(guān)”符號(hào)。

另外,在為某種語(yǔ)言下,關(guān)鍵詞為具有一定意義的語(yǔ)句的概括。例如,在從“將文檔分類(lèi)”的文章選定關(guān)鍵詞時(shí),可選“文檔”、“分類(lèi)”為關(guān)鍵詞。在第1實(shí)施方式中,重點(diǎn)選擇“侵害”、“訴訟”或“專(zhuān)利公報(bào)○○號(hào)”為關(guān)鍵詞。

數(shù)據(jù)庫(kù)201為在電子介質(zhì)上記錄數(shù)據(jù)的記錄裝置,可設(shè)置在文檔分類(lèi)裝置101的內(nèi)部,例如也可作為儲(chǔ)存裝置設(shè)置在外部。

文檔分類(lèi)裝置101、數(shù)據(jù)庫(kù)201及客戶端301通過(guò)有線或無(wú)線的網(wǎng)絡(luò)連接。也可使用云計(jì)算的形式。

數(shù)據(jù)庫(kù)201記錄各分類(lèi)符號(hào)的關(guān)鍵詞。另外,可事先登記能夠根據(jù)以往的分類(lèi)處理的結(jié)果判斷與產(chǎn)品A關(guān)聯(lián)性高且若包含在文檔中則可直接賦予“重要”符號(hào)的關(guān)鍵詞。例如像產(chǎn)品A的主要功能名稱(chēng)或“訴訟”、“警告”、“專(zhuān)利公報(bào)”一類(lèi)的關(guān)鍵詞。另外,同樣地,也可以根據(jù)以往的分類(lèi)處理的結(jié)果,抽取與如下所述文章群關(guān)聯(lián)性高的一般用語(yǔ),登記為關(guān)聯(lián)用語(yǔ),其中該文章群因與產(chǎn)品A關(guān)聯(lián)性高而被賦予“重要”符號(hào)。

對(duì)于已登記于數(shù)據(jù)庫(kù)201的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ),除了根據(jù)學(xué)習(xí)部110的學(xué)習(xí)結(jié)果進(jìn)行增減,還可以通過(guò)手動(dòng)的方式進(jìn)行追加登記及刪除。

抽取部102在從文檔信息中抽取文檔群時(shí),可進(jìn)行隨機(jī)采樣。在第1實(shí)施方式中,隨機(jī)抽取全部文檔信息中兩成(20%)文檔,作為查閱者的分類(lèi)對(duì)象。抽取部102從全部文檔信息抽取的文檔的比例可自由設(shè)定。另外,可將抽取源的對(duì)象作為全部文檔信息的一部分。

文檔顯示部103向客戶端301提示如圖14所示的文檔顯示畫(huà)面I1。文檔顯示畫(huà)面I1,如圖14所示,在中間顯示作為分類(lèi)對(duì)象的文檔,并在左側(cè)顯示分類(lèi)符號(hào),而以該畫(huà)面結(jié)構(gòu)在1個(gè)畫(huà)面內(nèi)顯示分類(lèi)對(duì)象的文檔和要賦予的分類(lèi)符號(hào)。其畫(huà)面結(jié)構(gòu)也可以使顯示文檔的部位和顯示分類(lèi)符號(hào)的部位分別不同。

在第1實(shí)施方式中,文檔顯示畫(huà)面I1中的分類(lèi)符號(hào)1表示“無(wú)關(guān)”符號(hào),分類(lèi)符號(hào)2表示“有關(guān)”符號(hào),分類(lèi)符號(hào)3表示“重要”符號(hào)。另外,在賦予“有關(guān)”符號(hào)的文檔中,小類(lèi)1賦予與產(chǎn)品A的價(jià)格相關(guān)的文檔,小類(lèi)2賦予與產(chǎn)品A的開(kāi)發(fā)計(jì)劃相關(guān)的文檔。在1個(gè)分類(lèi)符號(hào)中可具有多個(gè)小類(lèi),也可不具有。

分類(lèi)符號(hào)接受部104,對(duì)文檔顯示部103顯示的文檔信息中由查閱者觀察確認(rèn)并逐個(gè)決定分類(lèi)符號(hào)的文檔,根據(jù)該決定賦予分類(lèi)符號(hào),從而可將該文檔分類(lèi)??赏ㄟ^(guò)被賦予的分類(lèi)符號(hào)進(jìn)行文檔的分類(lèi)。

選定部105對(duì)由分類(lèi)符號(hào)接受部104分類(lèi)的文檔信息進(jìn)行解析,并對(duì)被賦予“無(wú)關(guān)”、“有關(guān)”及“重要”的各分類(lèi)符號(hào)的文檔信息,選定共同頻繁出現(xiàn)的關(guān)鍵詞作為該分類(lèi)符號(hào)的關(guān)鍵詞。

圖2是表示選定部105對(duì)被賦予“重要”符號(hào)的文檔解析結(jié)果的圖表。

圖2中,縱軸R_hot表示,由查閱者賦予“重要”符號(hào)的全部文檔中,包含選定的關(guān)鍵詞作為附帶在“重要”符號(hào)中的關(guān)鍵詞,且表示被賦予“重要”符號(hào)的文檔的比例。橫軸表示,查閱者實(shí)施分類(lèi)處理的全部文檔中,包含由選定部105選定的關(guān)鍵詞的文檔的比例。

在第1實(shí)施方式中,選定部105可選定標(biāo)識(shí)于直線R_hot=R_all上部的關(guān)鍵詞作為其分類(lèi)符號(hào)的關(guān)鍵詞。

搜索部106具有從作為對(duì)象的文檔中搜索特定的關(guān)鍵詞的功能。搜索部106在搜索包含由選定部105選定的關(guān)鍵詞或由數(shù)據(jù)庫(kù)201抽取的包含關(guān)聯(lián)用語(yǔ)的文檔時(shí),由分類(lèi)符號(hào)接受部104未接受到賦予分類(lèi)符號(hào)的文檔構(gòu)成的文檔群為對(duì)象進(jìn)行搜索。

得分計(jì)算部107可根據(jù)文檔群中出現(xiàn)的關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重,利用下式計(jì)算得分。得分是指,定量評(píng)價(jià)某個(gè)文檔與特定的分類(lèi)符號(hào)的聯(lián)系的強(qiáng)度。

mi:第i個(gè)關(guān)鍵詞或關(guān)聯(lián)用語(yǔ)的出現(xiàn)頻度

wgti2:第i個(gè)鍵詞或關(guān)聯(lián)用語(yǔ)的權(quán)重

自動(dòng)分類(lèi)部108具有如下功能,即,在根據(jù)計(jì)算出的得分自動(dòng)地對(duì)文檔信息賦予分類(lèi)符號(hào)時(shí),抽取未由分類(lèi)符號(hào)接受部104接受到賦予分類(lèi)符號(hào)的文檔,并自動(dòng)對(duì)該文檔賦予分類(lèi)符號(hào)。

文檔排除部109搜索作為分類(lèi)對(duì)象的文檔信息中的不包含由數(shù)據(jù)庫(kù)201事先登記的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ),以及由選定部105選定的關(guān)鍵詞的任何一者的文檔,并可將該文檔從分類(lèi)對(duì)象事先排除。

學(xué)習(xí)部110根據(jù)分類(lèi)處理的結(jié)果學(xué)習(xí)各關(guān)鍵詞的權(quán)重,并根據(jù)該學(xué)習(xí)結(jié)果對(duì)登記在數(shù)據(jù)庫(kù)201中的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)進(jìn)行增減。

各關(guān)鍵詞所擁有的權(quán)重,可根據(jù)該關(guān)鍵詞所具有的、各分類(lèi)符號(hào)的傳遞信息量決定。附加該權(quán)重可根據(jù)下式,每疊加分類(lèi)處理而進(jìn)行學(xué)習(xí),提高精度。

wgti,0:學(xué)習(xí)前第i個(gè)選定關(guān)鍵詞的權(quán)重(初始值)

wgti,L:第L次學(xué)習(xí)后的第i個(gè)選定關(guān)鍵詞的權(quán)重

γL:第L次學(xué)習(xí)的學(xué)習(xí)參數(shù)

學(xué)習(xí)效果的閾值

另外,學(xué)習(xí)部可使用神經(jīng)網(wǎng)絡(luò)取得將分類(lèi)結(jié)果反映為附加權(quán)重的學(xué)習(xí)方法。

客戶端301用于查閱者操作,并在確認(rèn)文檔信息且決定賦予的分類(lèi)符號(hào)時(shí)使用。

在第1實(shí)施方式中,根據(jù)圖3所示的流程圖,進(jìn)行5個(gè)階段的分類(lèi)處理。

在第1階段中,使用以往分類(lèi)處理的結(jié)果,進(jìn)行關(guān)鍵詞和關(guān)聯(lián)用語(yǔ)的事先登記。此時(shí)登記的關(guān)鍵詞為,構(gòu)成對(duì)產(chǎn)品A的侵權(quán)行為的功能的名稱(chēng)或技術(shù)的名稱(chēng)等,若包含于文檔中則直接賦予“重要”符號(hào)的關(guān)鍵詞。

在第2階段中,從全部文檔信息搜索包含在第1階段中所登記的關(guān)鍵詞的文檔,并在發(fā)現(xiàn)該文檔時(shí)賦予“重要”符號(hào)。

在第3階段中,從全部文檔信息搜索在第1階段中所登記的關(guān)聯(lián)用語(yǔ),并計(jì)算包含該關(guān)聯(lián)用語(yǔ)的文檔的得分,而進(jìn)行分類(lèi)。

在第4階段中,在查閱者決定了分類(lèi)符號(hào)后,根據(jù)查閱者進(jìn)行分類(lèi)的規(guī)則性,自動(dòng)賦予分類(lèi)符號(hào)。

在第5階段中,使用第1階段~第4階段的結(jié)果進(jìn)行學(xué)習(xí)。

第1階段

下面參照?qǐng)D4對(duì)第1階段的數(shù)據(jù)庫(kù)201的處理流程進(jìn)行詳細(xì)說(shuō)明。根據(jù)數(shù)據(jù)庫(kù)201判斷進(jìn)行第幾階段的處理,并選擇第1階段的處理(STEP1:第1階段)。在本階段中,首先由數(shù)據(jù)庫(kù)201進(jìn)行關(guān)鍵詞的事先登記(STEP2)。此時(shí)登記的是根據(jù)以往的分類(lèi)處理的結(jié)果,與產(chǎn)品A關(guān)聯(lián)性高,若包含在文檔中則直接賦予“重要”符號(hào)的關(guān)鍵詞。另外,同樣地,根據(jù)以往的分類(lèi)處理的結(jié)果,抽取與如下所述文章群關(guān)聯(lián)性高的一般用語(yǔ)(STEP3),等級(jí)為關(guān)聯(lián)用語(yǔ)(STEP4),其中該文章群因與產(chǎn)品A關(guān)聯(lián)性高而被賦予“重要”符號(hào)。

第2階段

下面,參照?qǐng)D4、圖5及圖7對(duì)第2階段的數(shù)據(jù)庫(kù)201、搜索部106及自動(dòng)分類(lèi)部108的處理流程進(jìn)行詳細(xì)說(shuō)明。

根據(jù)數(shù)據(jù)庫(kù)201判斷進(jìn)行哪一階段的處理,并選擇第2階段的處理(STEP1:第2階段)。對(duì)于數(shù)據(jù)庫(kù)201,若還存在有必要事先進(jìn)行登記的關(guān)鍵詞時(shí)(STEP5:YES),進(jìn)行追加登記(STEP6)。在沒(méi)有要追加登記關(guān)鍵詞時(shí)(STEP5:NO),以及STEP6處理完成后,由搜索部106判斷進(jìn)行哪一階段的處理,并選擇第2階段的處理(STEP11:第2階段)。在本階段中,搜索部106首先判定在數(shù)據(jù)庫(kù)201內(nèi)是否存在事先在第1階段及第2階段中登記的關(guān)鍵詞(STEP12)。在不存在事先登記的關(guān)鍵詞時(shí)(STEP12:NO),第2階段的處理結(jié)束。

當(dāng)存在事先登記的關(guān)鍵詞時(shí)(STEP12:YES),在作為分類(lèi)對(duì)象的全部文檔信息中,對(duì)作為分類(lèi)對(duì)象的文檔信息搜索有沒(méi)有包含該關(guān)鍵詞的文檔(STEP13)。當(dāng)不存在包含所搜索的關(guān)鍵詞的文檔時(shí)(STEP14:NO),第2階段的處理結(jié)束。另一方面,在發(fā)現(xiàn)包含所搜索的關(guān)鍵詞的文檔時(shí)(STEP14:YES),通知自動(dòng)分類(lèi)部108(STEP15)。

動(dòng)分類(lèi)部108在接受到來(lái)自搜索部106的該通知后(STEP29:第2階段,STEP30:YES),對(duì)作為該通知對(duì)象的文檔賦予“重要”符號(hào),處理結(jié)束。在未接受到來(lái)自搜索部106的該通知時(shí)(STEP29:第2階段,STEP30:NO),不進(jìn)行任何的處理。

第3階段

下面,參照?qǐng)D4、圖5、圖6及圖7對(duì)第3階段的數(shù)據(jù)庫(kù)201、搜索部106、得分計(jì)算部107及自動(dòng)分類(lèi)部108的處理流程進(jìn)行詳細(xì)說(shuō)明。

由數(shù)據(jù)庫(kù)201判斷進(jìn)行哪一階段的處理,并選擇第3階段的處理(STEP1:第3階段)。對(duì)于數(shù)據(jù)庫(kù)201,若還存在有必要事先進(jìn)行登記的關(guān)聯(lián)用語(yǔ)時(shí)(STEP7:YES),進(jìn)行追加登記(STEP8)。在沒(méi)有要追加登記關(guān)聯(lián)用語(yǔ)時(shí)(STEP7:NO),第3階段的處理結(jié)束。

在STEP8的處理完成后,由搜索部106判斷進(jìn)行哪一階段的處理,并選擇第3階段的處理(STEP11:第3階段)。在本階段中,搜索部106判斷在數(shù)據(jù)庫(kù)201內(nèi)是否存在事先在第1階段及第2階段中登記的關(guān)聯(lián)用語(yǔ)(STEP16)。在不存在事先登記關(guān)鍵詞時(shí)(STEP16:NO),第3階段的處理結(jié)束。

在存在事先登記的關(guān)聯(lián)用語(yǔ)時(shí)(STEP16:YES),在作為分類(lèi)對(duì)象的全部文檔信息中,對(duì)分類(lèi)對(duì)象的文檔信息搜索有沒(méi)有包含該關(guān)聯(lián)用語(yǔ)的文檔(STEP17)。當(dāng)不存在包含所搜索的關(guān)鍵詞的文檔時(shí)(STEP18:NO),第3階段的處理結(jié)束。另一方面,在發(fā)現(xiàn)包含所搜索的關(guān)聯(lián)用語(yǔ)的文檔時(shí)(STEP18:YES),通知得分計(jì)算部107(STEP19)。

在得分計(jì)算部107中,當(dāng)接受到來(lái)自搜索部106的該通知時(shí)(STEP24:第3階段,STEP23:YES),采用上述式(1),根據(jù)從文檔中發(fā)現(xiàn)的關(guān)聯(lián)用語(yǔ)的種類(lèi)和該關(guān)聯(lián)用語(yǔ)所擁有的權(quán)重計(jì)算文檔的得分,并通知自動(dòng)分類(lèi)部108(STEP28)。在未接受到來(lái)自搜索部106的發(fā)現(xiàn)關(guān)聯(lián)用語(yǔ)的通知時(shí)(STEP24:第3階段,STEP23:NO),第3階段的處理結(jié)束。

自動(dòng)分類(lèi)部108在接受來(lái)自得分計(jì)算部107的得分通知時(shí)(STEP29:第3階段,STEP32:YES),對(duì)每個(gè)文檔判定得分是否超出閾值,并對(duì)得分超出閾值的文檔賦予“重要”符號(hào),當(dāng)不存在得分超出閾值的文檔時(shí)不賦予符號(hào),并結(jié)束處理(STEP33)。

第4階段

下面參照?qǐng)D4、圖5、圖6、圖7、圖8、圖9、圖10和圖11對(duì)第3階段中數(shù)據(jù)庫(kù)201、搜索部106、得分計(jì)算部107、自動(dòng)分類(lèi)部108、抽取部102、文檔顯示部103、分類(lèi)符號(hào)接受部104及選定部105的處理流程進(jìn)行詳細(xì)說(shuō)明。

在第4階段中,首先,在抽取部102中,從作為分類(lèi)對(duì)象的文檔信息中隨機(jī)采樣文檔,抽取要由查閱者手動(dòng)賦予分類(lèi)符號(hào)的作為對(duì)象的文檔群(STEP34)。在文檔顯示部103中,將所抽取的文檔群顯示在文檔顯示畫(huà)面I1上(STEP35)。

查閱者閱讀顯示在文檔顯示畫(huà)面I1上的文檔群中各文檔的內(nèi)容,并判斷產(chǎn)品A與該文檔內(nèi)容之間是否存在關(guān)聯(lián)性,決定是否賦予“重要”符號(hào)。所謂查閱者賦予“重要”符號(hào)的文檔是指,例如對(duì)產(chǎn)品A的現(xiàn)有技術(shù)進(jìn)行調(diào)查后的結(jié)果的報(bào)告書(shū),或他人警告制造產(chǎn)品A造成專(zhuān)利侵權(quán)的警告狀等。

由查閱者賦予的分類(lèi)符號(hào),通過(guò)分類(lèi)符號(hào)接受部104接受(STEP36),并根據(jù)被賦予的分類(lèi)符號(hào)將文檔分類(lèi)(STEP37)。

選定部105對(duì)在STEP37中被分類(lèi)的各文檔,進(jìn)行關(guān)鍵詞解析(STEP38),并在賦予“重要”符號(hào)的文檔中選定共同出現(xiàn)次數(shù)多的關(guān)鍵詞(STEP39)。

接下來(lái),在數(shù)據(jù)庫(kù)201中,當(dāng)選定部105在STEP39中選定的關(guān)鍵詞未被登記為表示與產(chǎn)品A有關(guān)的涉及“重要”符號(hào)的關(guān)鍵詞時(shí)(STEP1:第3階段,STEP9:YES),進(jìn)行該關(guān)鍵詞的登記。在該關(guān)鍵詞已經(jīng)被登記的情況下,不進(jìn)行任何的處理(STEP1:第3階段,STEP9:NO)。

在搜索部106中,在涉及“重要”符號(hào)的關(guān)鍵詞未登記于數(shù)據(jù)庫(kù)201時(shí)(STEP20:NO),第4階段的處理結(jié)束。在登記有該關(guān)鍵詞時(shí)(STEP20:YES),在抽取部102中抽取的已由查閱者分類(lèi)的文檔從探索對(duì)象舍去,剩余的各文檔作為對(duì)象,并執(zhí)行該關(guān)鍵詞的搜索(STEP21)。在該搜索中,當(dāng)在文檔中發(fā)現(xiàn)關(guān)鍵詞時(shí)(STEP22:YES),通知得分計(jì)算部107(STEP23)。

在得分計(jì)算部107中,在接受到發(fā)現(xiàn)關(guān)鍵詞的通知時(shí)(STEP27:YES),利用上述的式(1)計(jì)算各文檔的得分,并通知自動(dòng)分類(lèi)部。

在自動(dòng)分類(lèi)部108中,在接受來(lái)自得分計(jì)算部107的通知時(shí),(STEP32:YES),對(duì)每個(gè)文檔判斷得分是否超出閾值,并對(duì)超出閾值的文檔賦予“重要”符號(hào),對(duì)沒(méi)有超出閾值的文檔不賦予符號(hào),并結(jié)束處理(STEP33)。

第5階段

下面分別參照?qǐng)D12、圖13對(duì)在第5階段中文檔排除部109及學(xué)習(xí)部110的處理流程,進(jìn)行詳細(xì)說(shuō)明。

文檔排除部109對(duì)作為分類(lèi)對(duì)象的文檔信息中未實(shí)施第1~第4階段處理的文檔群搜索是否存在包含在第1、第2階段中事先登記的關(guān)鍵詞、在第1、第3階段中登記的關(guān)聯(lián)用語(yǔ)及在第4階段中登記的關(guān)鍵詞的文檔,當(dāng)存在未發(fā)現(xiàn)任何上述關(guān)鍵詞和關(guān)聯(lián)用語(yǔ)的文檔時(shí)(STEP40:YES),事先將該文檔從分類(lèi)對(duì)象中排除(STEP41)。

在學(xué)習(xí)部110中,根據(jù)第1~第4的處理結(jié)果,利用式(2)學(xué)習(xí)各關(guān)鍵詞的權(quán)重。該學(xué)習(xí)結(jié)果反映在數(shù)據(jù)庫(kù)201中(STEP42)。

其他實(shí)施方式

下面對(duì)本發(fā)明的其他實(shí)施方式進(jìn)行說(shuō)明。

在第1實(shí)施方式中,尤其對(duì)專(zhuān)利侵權(quán)訴訟案件的實(shí)施例進(jìn)行的說(shuō)明,但并不局限于此,本發(fā)明的文檔辨別系統(tǒng)可在卡特爾(Cartel)或反壟斷法等采用eDiscovery(電子證據(jù)公開(kāi))制度,而負(fù)有文檔提交義務(wù)的任何訴訟中加以利用。

另外,在第1實(shí)施方式中,在第1階段~第3階段的處理后實(shí)施根據(jù)查閱者進(jìn)行分類(lèi)的規(guī)則性自動(dòng)賦予分類(lèi)符號(hào)的第4階段的處理,但并不局限于此,也可并不實(shí)施第1階段~第3階段的處理,而只是單獨(dú)實(shí)施第4階段的處理。

而且,也可以在最初由抽取部102從文檔信息抽取一部分的文檔群,并在最初首先對(duì)該抽取的文檔群進(jìn)行第4階段的處理。然后,根據(jù)第4階段登記的關(guān)鍵詞進(jìn)行第1階段~第3階段的處理。

在搜索部106中,在第1實(shí)施方式的第4階段,對(duì)未由分類(lèi)符號(hào)接受部104接受分類(lèi)符號(hào)的文檔搜索由選定部105選定的關(guān)鍵詞,但并不局限于此,也可以以全部文檔信息為對(duì)象進(jìn)行該關(guān)鍵詞的搜索。

在自動(dòng)分類(lèi)部108中,在第1實(shí)施方式的第4階段,僅將未由分類(lèi)符號(hào)接受部104接受分類(lèi)符號(hào)的文檔作為分類(lèi)符號(hào)自動(dòng)賦予的對(duì)象,但并不局限于此,也可將全部文檔信息作為該自動(dòng)賦予的對(duì)象。

本發(fā)明的文檔辨別系統(tǒng)、文檔辨別方法及文檔辨別程序,從文檔信息中抽取包含所規(guī)定數(shù)量文檔的數(shù)據(jù)組作為文檔群,并將抽取的文檔群顯示在畫(huà)面上,對(duì)于顯示的文檔群,查閱者根據(jù)與訴訟的關(guān)聯(lián)性接受賦予的分類(lèi)符號(hào),并根據(jù)該分類(lèi)符號(hào),將抽取的文檔群按每個(gè)分類(lèi)符號(hào)分類(lèi),然后解析該被分類(lèi)的文檔群中共同出現(xiàn)的關(guān)鍵詞并選定,記錄選定的關(guān)鍵詞,并從文檔信息中搜索記錄的關(guān)鍵詞,然后利用搜索結(jié)果和解析結(jié)果,計(jì)算出表示分類(lèi)符號(hào)和文檔之間關(guān)聯(lián)性的得分,并根據(jù)得分的結(jié)果自動(dòng)賦予分類(lèi)符號(hào),由此能夠減輕查閱者的分類(lèi)作業(yè)的負(fù)擔(dān)。

另外,本發(fā)明的文檔辨別系統(tǒng)中,搜索部具有如下功能,即,從由未賦予分類(lèi)符號(hào)的文檔構(gòu)成的文檔信息中搜索關(guān)鍵詞的功能,得分計(jì)算部利用搜索部的搜索結(jié)果和選定部的解析結(jié)果,計(jì)算出表示分類(lèi)符號(hào)和文檔之間關(guān)聯(lián)性的得分,自動(dòng)分類(lèi)部在具有抽取未由分類(lèi)符號(hào)接受部接受賦予分類(lèi)符號(hào)的文檔,并對(duì)該文檔自動(dòng)賦予分類(lèi)符號(hào)。此時(shí),可根據(jù)查閱者進(jìn)行分類(lèi)的規(guī)則性,對(duì)未由分類(lèi)符號(hào)接受部接受賦予分類(lèi)符號(hào)的文檔信息自動(dòng)賦予分類(lèi)符號(hào)。

另外,本發(fā)明具有學(xué)習(xí)部,其根據(jù)選定部的分析結(jié)果和得分計(jì)算部計(jì)算的得分對(duì)由選定部選定的與數(shù)據(jù)庫(kù)中的分類(lèi)符號(hào)之間具有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語(yǔ)進(jìn)行增減,此時(shí)每重復(fù)分類(lèi)次數(shù),都可提高分類(lèi)精度。

另外,在本發(fā)明中,數(shù)據(jù)庫(kù)抽取并記錄與分類(lèi)符號(hào)相關(guān)的關(guān)聯(lián)用語(yǔ),搜索部從文檔信息中搜索關(guān)聯(lián)用語(yǔ),得分計(jì)算部根據(jù)搜索部搜索關(guān)聯(lián)用語(yǔ)的結(jié)果計(jì)算得分,自動(dòng)分類(lèi)部根據(jù)使用關(guān)聯(lián)用語(yǔ)計(jì)算的得分自動(dòng)賦予分類(lèi)符號(hào),并在文檔群的文檔中,選定不含與選定部所選定的關(guān)鍵詞、關(guān)聯(lián)用語(yǔ)及分類(lèi)符號(hào)具有相關(guān)關(guān)系的關(guān)鍵詞的文檔,而從自動(dòng)分類(lèi)部的分類(lèi)對(duì)象排除被選定的文檔,此時(shí),可更高效的進(jìn)行文檔分類(lèi)。由此,在訴訟中容易使用所收集的數(shù)字信息。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1