亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于分類文檔的系統(tǒng),方法和軟件的制作方法

文檔序號(hào):6434438閱讀:214來(lái)源:國(guó)知局
專利名稱:用于分類文檔的系統(tǒng),方法和軟件的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于分類文本及文檔諸如司法意見的批注的系統(tǒng)、方法及軟件。
背景技術(shù)
美國(guó)法律系統(tǒng)以及世界各地的某些其它的法律系統(tǒng)嚴(yán)重依賴于書面的司法意見---判決的書面公告---來(lái)明確表達(dá)或解釋控制糾紛解決的法律。每個(gè)司法意見不僅對(duì)于解決特殊的法律糾紛很重要,而且對(duì)于將來(lái)解決類似的糾紛也很重要。正由于此,我們法律系統(tǒng)之內(nèi)的法官及律師才不斷地尋找日益擴(kuò)大的大批以往意見或判例法,以便找到與新的糾紛的解決最為相關(guān)的意見或判例法。
為了方便這些尋找,諸如明尼蘇達(dá)州圣保羅市的West Publishing Company(經(jīng)營(yíng)商業(yè)時(shí)作為West Group)不僅收集和出版所有美國(guó)法院的司法意見,而且還根據(jù)它們所包含的法律原理或法律要點(diǎn)來(lái)概括和分類這些意見。West Group例如建立和分類批注--司法意見內(nèi)作出的要點(diǎn)的簡(jiǎn)短概括--使用其專有West KeyNumberTM系統(tǒng)(West Key Number是West Group的商標(biāo))。
West Key Number系統(tǒng)是跨越90000多個(gè)特殊法律類目或類別的超過兩千萬(wàn)批注的等級(jí)分類。每一類別不僅具有描述名稱,而且還具有唯一的字母數(shù)字代碼,稱為其Key Number(關(guān)鍵數(shù))分類。
除了極為詳細(xì)的分類系統(tǒng)諸如West Key Number系統(tǒng)外,法官和律師使用諸如美國(guó)法律報(bào)告(ALR)的產(chǎn)品來(lái)進(jìn)行調(diào)查研究,諸如ALR的產(chǎn)品提供對(duì)廣范圍的法律問題的深入學(xué)術(shù)分析。實(shí)際上,ALR大約包括14,000個(gè)不同的條款,即通常所說的注釋,每個(gè)條款都教授一個(gè)單獨(dú)的法律問題,諸如雙重審理和言論自由。每條注釋還包括際識(shí)相關(guān)司法意見以方便進(jìn)行進(jìn)一步法律研究的引證和/或批注。
為了保證其作為法律研究工具的流傳,ALR注釋被不斷地更新以引證新近的司法意見(或案例)。然而,在遍布全國(guó)的法院每天共同發(fā)布數(shù)百條新的意見并且用于識(shí)別這些案例中的哪一些案例是用作引證的好的候選案例的常規(guī)技術(shù)效率低且不準(zhǔn)確的條件下,更新是一項(xiàng)費(fèi)用大的任務(wù)。
特別地,常規(guī)技術(shù)需要選擇那些具有在West Key Number系統(tǒng)的某些類別中的批注的案例作為用于在相應(yīng)注釋中引證的候選案例。然后,將候選案例發(fā)送給用于人工復(fù)核的專業(yè)編輯器,并且其最終確定應(yīng)被引用給相應(yīng)的注釋。遺憾的是,這一過于簡(jiǎn)單化的對(duì)注釋的類別映射不僅把許多無(wú)關(guān)的案例發(fā)送到編輯器,而且還未能發(fā)送許多相關(guān)的案例,這既增加了編輯器的工作負(fù)擔(dān),又限制了所更新的注釋的準(zhǔn)確性。
因此,需要有助于分類或把司法意見分配給ALR注釋的工具及其它的法律研究工具。

發(fā)明內(nèi)容
示例性實(shí)施例的概述為了解決這些以及其它的需要,本發(fā)明人設(shè)計(jì)了有助于根據(jù)目標(biāo)分類系統(tǒng)的文本或文檔分類的系統(tǒng)、方法以及軟件。例如,一種示例性系統(tǒng)幫助把批注分類到ALR注釋;另一種系統(tǒng)幫助把批注分類到美國(guó)法理學(xué)(AmericanJurisprudence)部分(另一種百科全書式的法律參考文獻(xiàn));以及還一種系統(tǒng)幫助把批注分類到West Key Number系統(tǒng)。然而,這些以及其它的實(shí)施例也可應(yīng)用于其它類型的文件諸如電子郵件的分類。
更具體地,某些示例性系統(tǒng)通過確定一組綜合分?jǐn)?shù)來(lái)分類或幫助對(duì)輸入文本的人工分類,每個(gè)綜合分?jǐn)?shù)都對(duì)應(yīng)于在目標(biāo)分類系統(tǒng)內(nèi)各自的目標(biāo)類別。確定每個(gè)綜合分?jǐn)?shù)需要計(jì)算并把類別特定加權(quán)加到下面的至少兩種類型的分?jǐn)?shù)·基于輸入文本與和相應(yīng)一個(gè)目標(biāo)類別相關(guān)的文本之間的相似性的第一類型;·基于和輸入文本有關(guān)的非目標(biāo)類別集合和與相應(yīng)一個(gè)目標(biāo)類別相關(guān)的非目標(biāo)類別集合之間的相似性的第二類型;?假定一個(gè)或多個(gè)非目標(biāo)類別集合與輸入文本相關(guān),基于一個(gè)目標(biāo)類別的概率的第三類型;以及?假定文本與相應(yīng)一個(gè)目標(biāo)類別相關(guān),基于輸入文本的概率的第四類型。
隨后,這些示例性系統(tǒng)使用類別特定決策準(zhǔn)則諸如閾值來(lái)評(píng)估綜合分?jǐn)?shù),以便最終向一個(gè)或多個(gè)目標(biāo)類別分配或推薦分配輸入文本(或文檔或其它與輸入文本相關(guān)的數(shù)據(jù)結(jié)構(gòu))。


圖1是體現(xiàn)本發(fā)明教導(dǎo)的示例性分類系統(tǒng)100的簡(jiǎn)圖,包括一獨(dú)特的圖形用戶界面114;圖2是說明在圖1的分類系統(tǒng)100內(nèi)實(shí)施的示例性方法的流程圖;圖3是示例性批注310和對(duì)應(yīng)的名詞單詞對(duì)模型320的簡(jiǎn)圖;圖4是構(gòu)成分類系統(tǒng)100的一部分的示例性圖形用戶界面400的復(fù)制;圖5是另一示例性分類系統(tǒng)500的簡(jiǎn)圖,該系統(tǒng)類似于系統(tǒng)100,但包括附加的分類器;以及圖6是另一示例性分類系統(tǒng)600的簡(jiǎn)圖,該系統(tǒng)類似于系統(tǒng)100,但省略了一些分類器。
具體實(shí)施例方式
此說明參考并結(jié)合上述附圖,描述一個(gè)或多個(gè)發(fā)明的一個(gè)或多個(gè)實(shí)施例。這些實(shí)施例并不是為了限制而只是為了例證和講授一個(gè)或多個(gè)發(fā)明而提供的,它們被示出并足夠詳細(xì)地加以描述,以便使本領(lǐng)域的那些技術(shù)人員能夠?qū)崿F(xiàn)或?qū)嵺`本發(fā)明。因此,在適于避免妨礙本發(fā)明的地方,此說明可以省略掉本領(lǐng)域的那些技術(shù)人員己知的一些信息。
此說明包括許多術(shù)語(yǔ),具有從它們?cè)诒绢I(lǐng)域內(nèi)的使用得出的以及在此說明的上下文中的使用得出的含義。然而,作為進(jìn)一步的幫助,給出下述示例性定義。
術(shù)語(yǔ)“文檔”指機(jī)器可讀數(shù)據(jù)的任何可尋址收集或安排。
術(shù)語(yǔ)“數(shù)據(jù)庫(kù)”包括文檔的任何邏輯收集或安排。
術(shù)語(yǔ)“批注”指關(guān)于書面司法意見內(nèi)的法律要點(diǎn)的電子原文概述或摘要。與司法意見(或案例)有關(guān)的批注的數(shù)目取決于它所解決的問題的數(shù)量。
用于把批注分類到美國(guó)法律報(bào)告的示例性系統(tǒng)圖1示出一示例性文檔分類系統(tǒng)100的簡(jiǎn)圖,該系統(tǒng)100用于根據(jù)文檔分類方案自動(dòng)分類或推薦電子文檔的分類。該示例性實(shí)施例分類或推薦案例、案例引證或相關(guān)批注到用13,779個(gè)ALR注釋表示的一個(gè)或多個(gè)種類。(注釋的總數(shù)按每月20-30個(gè)注釋數(shù)量級(jí)的速率增漲)。然而,本發(fā)明并不限于任何特殊類型的文檔或分類系統(tǒng)的類型。
盡管該示例性實(shí)施例是作為分離組件的互連整體而給出的,但是某些其它的實(shí)施例使用更多或更少數(shù)量的組件來(lái)實(shí)現(xiàn)其功能性。此外,某些實(shí)施例通過局域網(wǎng)或廣域網(wǎng)來(lái)相互耦合一個(gè)或多個(gè)組件。(某些實(shí)施例使用一個(gè)或多個(gè)大型計(jì)算機(jī)或服務(wù)器來(lái)實(shí)現(xiàn)系統(tǒng)100的一個(gè)或多個(gè)部分)。因此,本發(fā)明并不限于任何特殊的功能劃分。
系統(tǒng)100包括ALR注釋數(shù)據(jù)庫(kù)110、批注數(shù)據(jù)庫(kù)120以及分類處理器130、預(yù)分類數(shù)據(jù)庫(kù)140和編輯工作站150。
ALR注釋數(shù)據(jù)庫(kù)110(更普通地為根據(jù)目標(biāo)分類方案分類的電子文檔數(shù)據(jù)庫(kù))包括數(shù)量為13779的一組注釋,通常用注釋112來(lái)表示。該示例性實(shí)施例把每個(gè)注釋視作一個(gè)類別或一個(gè)種類。諸如注釋112的每個(gè)注釋都包括諸如引證112.1和112.2的一個(gè)或多個(gè)案例引證的集合。
每個(gè)引證都標(biāo)識(shí)或與至少一條司法意見(或一般為電子文檔)諸如電子司法意見(或案例)115相關(guān)。司法意見115包括和/或與批注數(shù)據(jù)庫(kù)120內(nèi)的一個(gè)或多個(gè)批注諸如批注122和124相關(guān)。(在該示例性實(shí)施例中,一條典型的司法意見或案例具有大約6個(gè)相關(guān)的批注,盡管具有50個(gè)或更多批注的案例并不少見)。
一個(gè)樣本批注及其分配的West Key Number類別標(biāo)識(shí)符示出如下示例性批注在行政程序法案(APA)下提出的訴訟,調(diào)查為兩部分法庭首先檢查組織法規(guī)以確定議會(huì)是否在司法救濟(jì)成為有效之前打算讓受侵害方接受特定的行政途徑;如果生成的法規(guī)無(wú)記載,則法庭詢問機(jī)構(gòu)規(guī)章是否要求求助于高級(jí)代理權(quán)威。
示例性Key Number類別標(biāo)識(shí)符15AK229-行政法和程序-獨(dú)立于行政和其它權(quán)限-司法權(quán)限在數(shù)據(jù)庫(kù)120內(nèi),每個(gè)批注都與一個(gè)或多個(gè)類別標(biāo)識(shí)符相關(guān),這些標(biāo)識(shí)符例如基于West Key Number分類系統(tǒng)。(對(duì)于West Key Number系統(tǒng)的更多細(xì)節(jié),參見美國(guó)法律的West分析美國(guó)法規(guī)匯編系統(tǒng)指南,2000版,West Group,1999,該文在此并入作為參考。)例如,批注122與類別或類別標(biāo)識(shí)符122.1、122.2和122.3相關(guān),而批注124與類別或類別標(biāo)識(shí)符124.1和124.2相關(guān)。
在該示例性實(shí)施例中,批注數(shù)據(jù)庫(kù)120包括大約兩千萬(wàn)個(gè)批注并以接近每星期12,000個(gè)批注的速率增漲。大約89%的批注與單個(gè)的類別標(biāo)識(shí)符相關(guān),大約10%的批注與兩個(gè)類別標(biāo)識(shí)符相關(guān),并且大約1%的批注與兩個(gè)以上的類別標(biāo)識(shí)符相關(guān)。
另外,批注數(shù)據(jù)庫(kù)120包括諸如批注126和128的許多批注,它們尚未被分配或與數(shù)據(jù)庫(kù)110內(nèi)的ALR注釋相關(guān)。然而,批注與類別標(biāo)識(shí)符相關(guān)。具體地,批注126與類別標(biāo)識(shí)符126.1和126.2相關(guān),而批注128與類別標(biāo)識(shí)符128.1相關(guān)。
與ALR注釋數(shù)據(jù)庫(kù)110和批注數(shù)據(jù)庫(kù)120耦合的是分類處理器130。分類處理器130包括分類器131、132、133和134、綜合分?jǐn)?shù)生成器135、分配決策器136、以及決策準(zhǔn)則模塊137。處理器130確定與批注數(shù)據(jù)庫(kù)120內(nèi)的批注相關(guān)的一個(gè)或多個(gè)案例是否應(yīng)當(dāng)被分配給或被引證在注釋數(shù)據(jù)庫(kù)110的一個(gè)或多個(gè)注釋內(nèi)。處理器130還耦合到預(yù)分類數(shù)據(jù)庫(kù)140。
預(yù)分類數(shù)據(jù)庫(kù)140存儲(chǔ)和/或組織分配或引證推薦。在數(shù)據(jù)庫(kù)140內(nèi),能夠?qū)⑦@些推薦組織為單個(gè)先進(jìn)先出(FIFO)隊(duì)列,基于單個(gè)注釋或注釋的子集被組織為多個(gè)FIFO隊(duì)列。最終將這些推薦分布給工作中心150。
工作中心150與預(yù)分類數(shù)據(jù)庫(kù)140以及注釋數(shù)據(jù)庫(kù)110通信,并最終基于存儲(chǔ)在數(shù)據(jù)庫(kù)140內(nèi)的推薦而協(xié)助用戶人工更新數(shù)據(jù)庫(kù)110內(nèi)的ALR注釋。具體地,工作中心150包括工作站152、154和156。工作站152實(shí)質(zhì)上與工作站154和156相同,其包括有圖形用戶界面152.1以及用戶接口設(shè)備,諸如鍵盤和鼠際(未示出)。
通常,示例性系統(tǒng)100如下工作。批注數(shù)據(jù)庫(kù)120接收最近判決的案例的新一組批注(諸如批注126和128),并且分類處理器130確定與這些批注相關(guān)的一個(gè)或多個(gè)案例是否與ALR內(nèi)的任何注釋足夠相關(guān),以便證明向一個(gè)或多個(gè)注釋推薦批注(或相關(guān)案例)的分配是正確的。(一些其它的實(shí)施例直接把批注或相關(guān)案例分配給注釋。)分配推薦存儲(chǔ)在預(yù)分類數(shù)據(jù)庫(kù)140內(nèi)并稍后經(jīng)由工作站152、154和156內(nèi)的圖形用戶界面由工作中心150內(nèi)的編輯器檢索或呈遞給編輯器以便接受或拒絕。接受的推薦被作為引證而加到ALR注釋數(shù)據(jù)庫(kù)110內(nèi)的相應(yīng)注釋上,而被拒絕的推薦則不這樣。然而,接受的和拒絕的推薦都被反饋給分類處理器用于其決策準(zhǔn)則的遞增訓(xùn)練或調(diào)整。
更具體地,圖2示出更為詳細(xì)地說明操作系統(tǒng)100的示例性方法的流程200。流程圖200包括許多處理塊210-250。盡管在該示例性實(shí)施例中是連續(xù)安排的,但是其它的實(shí)施例可以重新排列這些塊、省略一個(gè)或多個(gè)塊和/或使用多個(gè)處理器或者被組織成兩個(gè)或多個(gè)虛擬機(jī)器或子處理器的單個(gè)處理器來(lái)并行執(zhí)行兩個(gè)或多個(gè)塊。此外,還一些實(shí)施例將這些塊實(shí)現(xiàn)為一個(gè)或多個(gè)特定互連硬件或具有在模塊之間或通過模塊傳送的有關(guān)控制及數(shù)據(jù)信號(hào)的集成電路模塊。因此,該示例性處理流程適用于軟件、固件、硬件以及混合實(shí)現(xiàn)。
此說明書的剩余部分使用以下的標(biāo)志系統(tǒng)。小寫字體的字母a、h和k分別表示注釋、批注、類別或類別標(biāo)識(shí)符,諸如West Key Number類別或類別標(biāo)識(shí)符。大寫字體的字母A、H和K分別表示全部注釋的集合、全部批注的集合、全部關(guān)鍵數(shù)分類的集合。另外,表示向量數(shù)量的變量使用粗體字的大寫字母,相應(yīng)向量的元素用小寫字體的字母來(lái)表示。例如,V表示一個(gè)向量,而v表示向量V的元素。
在塊210,該示例性方法通過將注釋數(shù)據(jù)庫(kù)110(圖1中)內(nèi)的注釋表示成基于文本的特征向量而開始。具體地,這需要基于出現(xiàn)在用于在注釋內(nèi)所引證的案例的批注中的名詞和/或名詞單詞對(duì)將每個(gè)注釋a表示成一個(gè)列特征向量Va。(其它的實(shí)施例將批注表示為雙字母組或名詞短語(yǔ)。)盡管有可能使用所有與注釋內(nèi)所引證的案例相關(guān)的批注,但是該示例性實(shí)施例從與引證案例相關(guān)的所有批注的集合中選擇那些與被表示的注釋最為相關(guān)的批注。對(duì)于每個(gè)注釋,這需要使用在注釋內(nèi)所引證的所有案例中的所有批注來(lái)建立一個(gè)特征向量,并基于被引證案例內(nèi)的批注與那些引證注釋的批注之間的相似性而從每個(gè)案例中選擇一個(gè)、兩個(gè)或三個(gè)批注,并將最相似的(多個(gè))批注表示為相關(guān)的。為了確定最相關(guān)的批注,該示例性實(shí)施例使用分類器131-134來(lái)計(jì)算相似性分?jǐn)?shù),為每個(gè)批注平均四個(gè)分?jǐn)?shù),并將最高得分的批注加上那些具有最高分?jǐn)?shù)的至少80%的分?jǐn)?shù)的批注確定為最相關(guān)的。80%的值是以經(jīng)驗(yàn)為主而選定的。
一旦被選定,就將相關(guān)批注(或可替換地將注釋的實(shí)際文本)表示成一組名詞、名詞-名詞、名詞-動(dòng)詞以及它所包含的名詞-形容詞對(duì)。單詞對(duì)中的單詞不必相鄰,但應(yīng)處于特定數(shù)量的單詞內(nèi)或彼此的字母內(nèi),即,在特殊的單詞或字母窗口內(nèi)。窗口的大小是可調(diào)整的,并可采用這樣的值,這些值從1至批注內(nèi)的單詞或字母的總數(shù)。盡管較大的窗口趨于產(chǎn)生更好的性能,但是在該示例性實(shí)施例中,對(duì)于大于32個(gè)直達(dá)(non-stop)單詞的窗口未觀察到性能上的改變。不過,為了方便,將該示例性窗口的大小設(shè)置成實(shí)際批注大小。該示例性實(shí)施例排除停止單詞(stop word)并使用全部詞的根格式。附錄A示出示例性停止詞的示例清單;然而其它的實(shí)施例使用其它的停止單詞清單。
圖3示出根據(jù)該示例性實(shí)施例的批注310的一個(gè)例子以及名詞-單詞表示320。還示出了West Key Number分類文本330以及類別標(biāo)識(shí)符340。
在一特殊的注釋向量Va內(nèi),如下定義任一特殊元素va的加權(quán)或大小va=tfa′*idfa′, (1)其中tfa′表示術(shù)語(yǔ)或與注釋a相關(guān)的名詞-單詞對(duì)的術(shù)語(yǔ)頻率(termfiequency)(即出現(xiàn)的總數(shù))。(在該示例性實(shí)施例中,這是在與注釋相關(guān)的批注集合內(nèi)術(shù)語(yǔ)出現(xiàn)的數(shù)量。)idfa′表示相關(guān)術(shù)語(yǔ)或名詞-單詞對(duì)的反文檔頻率。將idfa′定義為idfa′=log(Ndfa′),---(2)]]>其中N是該收集內(nèi)的批注的總數(shù)(例如,兩千萬(wàn)),dfa′是含有該術(shù)語(yǔ)或名詞-單詞對(duì)的批注(或更一般地為文檔)的數(shù)量。原有符號(hào)‘表明這些頻率參數(shù)是基于代理文本(proxy text),例如,相關(guān)批注的文本,這與注釋本身的文本相反。(不過,其它實(shí)施例可以單獨(dú)地或與代理文本諸如批注或其它有關(guān)文檔相組合地使用全部或部分的源自注釋的文本。)即使該示例性實(shí)施例使用與注釋本身的文本相反的、與一注釋相關(guān)的批注,但是注釋-文本向量可以包括大量的元素。實(shí)際上,某些注釋向量能夠包括幾十萬(wàn)個(gè)術(shù)語(yǔ)或名詞-單詞對(duì),它們中的大多數(shù)都有著低的術(shù)語(yǔ)頻率。因此,不僅為了將術(shù)語(yǔ)數(shù)減小到了可管理的數(shù)目,而且還為了避免己知的存在于向量空間模型內(nèi)的稀有單詞問題,該示例性實(shí)施例去除了低加權(quán)術(shù)語(yǔ)。
特別地,該示例性實(shí)施例盡可能必要地去除了許多低加權(quán)術(shù)語(yǔ),以實(shí)現(xiàn)500個(gè)術(shù)語(yǔ)的較低絕對(duì)界限或在各個(gè)注釋向量的長(zhǎng)度上縮減75%。這一處理對(duì)注釋向量?jī)?nèi)的術(shù)語(yǔ)數(shù)量產(chǎn)生的效果取決于它們的加權(quán)分布。例如,如果這些術(shù)語(yǔ)具有近似的加權(quán),則大約75%的術(shù)語(yǔ)將被去除。不過,對(duì)于具有傾斜加權(quán)分布的注釋,只有很少的10%的術(shù)語(yǔ)會(huì)被去除。在該示例性實(shí)施例中,這一處理將用于所有注釋向量的獨(dú)特術(shù)語(yǔ)的總數(shù)從大約7千萬(wàn)減少到大約8百萬(wàn)術(shù)語(yǔ)。
一些其它的實(shí)施例使用其它方法來(lái)限制向量大小。例如,一些實(shí)施例將一固定閾值加到每個(gè)類別的術(shù)語(yǔ)數(shù)上,或是加到術(shù)語(yǔ)的頻率、文檔頻率或加權(quán)上。當(dāng)基礎(chǔ)類別在特征空間不顯著變化時(shí),這些方法通常是有效的。其它的還一些實(shí)施例基于諸如交互信息的量度執(zhí)行特征選擇。然而這些方法計(jì)算上都是花費(fèi)較高的。本示例性方法試圖在這兩頭之間平衡處理。
在將注釋表示為基于文本的特征向量后所執(zhí)行的塊220需要將來(lái)自數(shù)據(jù)庫(kù)120(圖1中)的一個(gè)或多個(gè)輸入批注模型化成一組對(duì)應(yīng)的批注-文本向量。輸入批注包括最近己被加到批注數(shù)據(jù)庫(kù)120內(nèi)的批注,或者要不然是先前未被復(fù)核與數(shù)據(jù)庫(kù)110內(nèi)的ALR注釋關(guān)聯(lián)的批注。
該示例性實(shí)施例將每個(gè)輸入批注h表示為向量Vh,其中的每個(gè)元素vh類似于注釋向量的元素與該批注內(nèi)的一個(gè)術(shù)語(yǔ)或名詞-單詞對(duì)相關(guān)。將vh定義為vh=tfh*idfH,(3)其中tfh表示在該輸入批注內(nèi)的相關(guān)術(shù)語(yǔ)或名詞-單詞對(duì)的頻率(即出現(xiàn)的總數(shù)),idfH表示在所有批注內(nèi)的相關(guān)術(shù)語(yǔ)或名詞-單詞對(duì)的反文檔頻率。
在塊230,該示例性方法繼續(xù)分類處理器130(圖1中)的操作。圖2示出塊230本身包括子處理塊231-237。
塊231表示分類器131的操作,其需要基于各輸入批注文本內(nèi)的文本與和各注釋相關(guān)的文本的相似性來(lái)計(jì)算一組相似性分?jǐn)?shù)。具體地,該示例性實(shí)施例把該相似性作為批注向量Vh與各注釋向量Va之間的角度余弦來(lái)量度。
數(shù)學(xué)上,將這表示為S1=cosθah=Va′·Vh′||Va||×||Vh||,---(4)]]>
其中“·”表示常規(guī)的點(diǎn)積或內(nèi)積運(yùn)算符,Va′和Vh′表示各個(gè)向量Va和Vh已被修改而包括對(duì)應(yīng)于在注釋文本和批注內(nèi)所找到的術(shù)語(yǔ)或名詞-單詞對(duì)的那些元素。換言之,基于術(shù)語(yǔ)或名詞-單詞對(duì)的交集來(lái)計(jì)算點(diǎn)積?!琗‖表示向量變?cè)拈L(zhǎng)度。在該實(shí)施例內(nèi),基于此向量的所有元素來(lái)計(jì)算量值。
表示分類器132的操作的塊232需要基于和輸入批注相關(guān)的類別標(biāo)識(shí)符(或其它元數(shù)據(jù))與那些和每個(gè)注釋相關(guān)的那些標(biāo)識(shí)符的相似性來(lái)確定一組相似性分?jǐn)?shù)。在作出這一確定之前,將每個(gè)注釋a表示為注釋類別向量VaC向量,其中的每個(gè)元素vaC表示分配給被注釋所引證的批注的類別標(biāo)識(shí)符的加權(quán)。將每個(gè)元素vaC定義為vaC=tfaC*idfaC,---(5)]]>其中tfaC表示相關(guān)類別標(biāo)識(shí)符的頻率(即出現(xiàn)的總數(shù)),idfaC表示其反文檔頻率。將idfaC定義為idfaC=log(NCdfC),---(6)]]>其中NC是類別或類別標(biāo)識(shí)符的總數(shù)。在該示例性實(shí)施例中,NC為91997,在West Key Number系統(tǒng)內(nèi)的類別總數(shù)。dfC是在用于注釋a的類別標(biāo)識(shí)符集合之中該類別標(biāo)識(shí)符的頻率。不同于示例性的注釋-文本向量,該向量是基于選定的一組注釋批注,注釋-類別向量使用所有和與該注釋相關(guān)的所有批注相關(guān)的類別標(biāo)識(shí)符。一些實(shí)施例可使用類別-標(biāo)識(shí)符對(duì),盡管它們被發(fā)現(xiàn)在該示例性實(shí)現(xiàn)中是起反作用的。
類似地,也可以將每個(gè)輸入批注表示為批注類別向量VhC,其中的每個(gè)元素表示類別或分配給該批注的類別標(biāo)識(shí)符的加權(quán)。將每個(gè)元素vhC定義為vhC=tfhC*idfhC,---(7)]]>
其中tfhC表示類別標(biāo)識(shí)符的頻率,idfhC表示該類別標(biāo)識(shí)符的反文檔頻率。將idfhC定義為idfhC=log(NCdfaC),---(8)]]>其中NC是類別或類別標(biāo)識(shí)符的總數(shù),dfh是在與該注釋相關(guān)的類別或類別標(biāo)識(shí)符集合之中此類別或類別標(biāo)識(shí)符的頻率。
一旦建立了注釋類別和批注類別向量,分類處理器130就將每個(gè)相似性分?jǐn)?shù)S2計(jì)算為它們之間的角度的余弦。將這表示為S2=cosθah=VaC·VhC||VaC||×||VhC||,---(9)]]>對(duì)于具有一個(gè)以上相關(guān)類別標(biāo)識(shí)符的批注,該示例性實(shí)施例為那個(gè)批注與其它批注相分開地考慮每個(gè)類別標(biāo)識(shí)符,最終使用產(chǎn)生最大類別-標(biāo)識(shí)符相似性的那個(gè)類別標(biāo)識(shí)符。采用最大化標(biāo)準(zhǔn),這是由于在某些情況下,一個(gè)批注會(huì)具有兩個(gè)或更多的相關(guān)類別標(biāo)識(shí)符(或Key Number分類),表明其對(duì)兩個(gè)或更多的法律要點(diǎn)的論述。然而,在多數(shù)情形下,僅其中的一個(gè)類別標(biāo)識(shí)符與一給定注釋相關(guān)。
在塊233內(nèi),分類器133源自類別-標(biāo)識(shí)符(或其它元數(shù)據(jù))統(tǒng)計(jì)數(shù)字基于批注與一給定注釋相關(guān)的概率來(lái)確定一組相似性分?jǐn)?shù)S3。用下式來(lái)近似計(jì)算這一概率S3=P(h|a)=P({k}h|a)=maxk′∈{k}hP(k′|a),---(10)]]>其中{k}h表示分配給批注h的那一組類別標(biāo)識(shí)符。用下式來(lái)估算每個(gè)注釋的條件類別概率P(k|a)
P(k|a)=1+tf(k,a)|a|+∑k′∈atf(k′,a),---(11)]]>其中tf(k,a)是在與注釋a的批注相關(guān)的類別標(biāo)識(shí)符之中的第k個(gè)類別標(biāo)識(shí)符的術(shù)語(yǔ)頻率。|a|表示與注釋a相關(guān)的唯一類別標(biāo)識(shí)符的總數(shù)(即,采樣數(shù)或集的基數(shù));而 表示對(duì)于所有類別標(biāo)識(shí)符的術(shù)語(yǔ)頻率之和。
該示例性的相似性分?jǐn)?shù)S3的確定依賴于把類別標(biāo)識(shí)符彼此獨(dú)立地分配給批注的假定,以及{k}h中只有一個(gè)類別標(biāo)識(shí)符實(shí)際上與注釋a相關(guān)。盡管該一個(gè)類別的假定并不適用于許多注釋,但是這改進(jìn)了該系統(tǒng)的整體性能。
可替換地,人們能夠增加用于該注釋的條件類別-標(biāo)識(shí)符(Key Number類別)的概率,但是與那些具有單一Key Number類別的批注相比,這有效地處罰了具有多個(gè)Key Number類別的批注(類別分配)。一些其它的實(shí)施例使用Bayes規(guī)則來(lái)把先驗(yàn)概率合并到分類器133內(nèi)。然而,該方法的一些實(shí)驗(yàn)提出系統(tǒng)性能很可能不如該示例性實(shí)現(xiàn)中所提供的性能。
這一劣質(zhì)可能源于這樣的事實(shí),即注釋是在不同時(shí)間創(chuàng)建的,以及源于這樣的事實(shí),即一條注釋具有比其它注釋多的引證并不必然意味著對(duì)于一給定的批注更有可能發(fā)生。實(shí)際上,較大數(shù)量的引證僅僅會(huì)反映一條注釋已經(jīng)存在了較長(zhǎng)時(shí)間和/或比其它注釋更頻繁地被更新。因此,其它的實(shí)施例可以使用基于把類別數(shù)分配給注釋的頻率的先驗(yàn)概率。
在塊234內(nèi),分類器134基于P(a|h),每條注釋被給予輸入批注的文本的概率,來(lái)確定一組相似性分?jǐn)?shù)S4。在為了計(jì)算P(a|h)而導(dǎo)出實(shí)際的表達(dá)式中,該示例性實(shí)施例首先假定一輸入批注h完全被用一組描述符T來(lái)表示,其中利用某個(gè)概率P(t|h)將每個(gè)描述符t分配給一個(gè)批注。然后,基于總概率理論以及Bayes定理,將P(a|h)表示為P(a|h)=∑t∈TP(a|h,t)P(t|h)]]>=∑t∈TP(h|a,t)P(a|t)P(h|t)P(t|h)---(12)]]>
假定描述符獨(dú)立于與批注相關(guān)的類別標(biāo)識(shí)符,則這允許人們做出這樣的近似P(h|a,t)≈P(h|t) (13)并根據(jù)下式來(lái)計(jì)算相似性分?jǐn)?shù)S4S4=P(a|h)=∑t∈TP(t|h)P(a|t)---(14)]]>其中用下式來(lái)近似P(t|h)P(t|h)=tf(t,h)∑t′∈Ttf(t′,h).---(15)]]>tf(t,h)表示術(shù)語(yǔ)t在注釋內(nèi)的頻率, 表示在批注內(nèi)的所有術(shù)語(yǔ)的頻率之和。
根據(jù)Bayes定理如下定義P(a|t)P(a|t)=P(t|a)P(a)∑a′∈AP(t|a′)P(a′),---(16)]]>其中P(a)表示注釋a的先驗(yàn)概率,而P(t|a)表示被給予注釋a的鑒別器t的概率,其被估算為P(t|a)≅1|a|∑h∈aP(t|h),---(17)]]>并且 表示在注釋A的集合內(nèi)的所有注釋a′之和。由于假定所有的注釋先驗(yàn)概率P(a)與P(a′)是相等的,因此使用下式來(lái)計(jì)算P(a|t)
P(a|t)=P(t|a)∑a′∈AP(t|a′).---(18)]]>塊235表示綜合分?jǐn)?shù)生成器135的工作,其需要基于在塊231-235由分類器131-135確定的相似性分?jǐn)?shù)的集合來(lái)計(jì)算一組綜合相似性分?jǐn)?shù)CSah,每個(gè)綜合分?jǐn)?shù)表明輸入批注h與每個(gè)注釋a的相似性。更具體地,生成器135根據(jù)下式計(jì)算每個(gè)綜合分?jǐn)?shù)CSahCSah=∑i=14wiaSa,ih,---(19)]]>其中Saih表示用于輸入批注h與注釋a的第i個(gè)相似性分?jǐn)?shù)生成器的相似性分?jǐn)?shù),而wia是分配給第i個(gè)相似性分?jǐn)?shù)生成器和注釋a的加權(quán)。隨后該示例性方法的執(zhí)行在塊236繼續(xù)。
在塊236,分配決策器136基于綜合分?jǐn)?shù)集合以及決策準(zhǔn)則模塊137內(nèi)的決策準(zhǔn)則,推薦輸入批注或于批注相關(guān)的文檔諸如案例被分類或被合并到一個(gè)或多個(gè)注釋內(nèi)。在該示附性實(shí)施例中,根據(jù)下面的決策規(guī)則把批注分配給注釋IfCSah>Γa,]]>then recommend assignment og h or Dhto annotation a, (20)即如果CSah>Γa,則推薦把h或Dh分配給注釋a,其中Γa是來(lái)自決策準(zhǔn)則模塊137的注釋特定閾值,而Dh表示與批注相關(guān)的文檔,諸如法律意見。(在該示例性實(shí)施例中,每個(gè)ALR注釋都包括相關(guān)批注的文本及其全部案例引證。)在調(diào)整階段期間學(xué)習(xí)注釋-分類器加權(quán)wia,i=1至4,a∈A,以及注釋閾值Γa,a∈A。0≤wia≤1的加權(quán)反映了系統(tǒng)對(duì)把每個(gè)相似性分?jǐn)?shù)路由發(fā)送到注釋a的能力的信心。類似地,注釋閾值Γa,a∈A也被學(xué)習(xí)并反映注釋的同質(zhì)。通常,涉及窄主題的注釋趨于具有比涉及多個(gè)相關(guān)主題的那些注釋要高的閾值。
在該ALR實(shí)施例中,閾值反映了90%以上的批注(或相關(guān)文檔)未被分配給任何注釋。具體地,該示例性實(shí)施例通過在五維空間上的徹底檢索來(lái)估算最佳注釋-分類器加權(quán)和注釋閾值。將該空間離散以使檢索可管理。最佳加權(quán)是對(duì)應(yīng)于在至少90%的查全率級(jí)(recall level)上的最大精度的那些加權(quán)。
更準(zhǔn)確地,這需要嘗試四個(gè)加權(quán)變量的每個(gè)組合,并且對(duì)于每個(gè)組合,嘗試在間隔
上的20個(gè)可能的閾值。然后選擇加權(quán)與產(chǎn)生最佳精度和查全率的閾值的組合。該示例性實(shí)施例排除了任何導(dǎo)致低于90%的查全率的加權(quán)-閾值組合。
為了達(dá)到更高的精度級(jí)別,該示例性實(shí)施例有效地要求這些分配競(jìng)爭(zhēng)其分配注釋或目標(biāo)分類。該競(jìng)爭(zhēng)要求使用下面的規(guī)則Assign h to a,iffCSah>αS^---(21)]]>即,把h分配給a,如果CSah>α其中α表示大于零且小于1的一個(gè)經(jīng)驗(yàn)確定值,例如0.8,表示與{Ha}中的一個(gè)批注相關(guān)的最大綜合相似性分?jǐn)?shù),{Ha}是分配給注釋a的批注的集合。
塊240需要處理來(lái)自分類處理器130的分類推薦。為此,處理器130把分類推薦傳送到預(yù)分類數(shù)據(jù)庫(kù)140(圖1示出的)。數(shù)據(jù)庫(kù)140基于注釋、權(quán)限或其它有關(guān)準(zhǔn)則對(duì)這些推薦進(jìn)行排序并在例如單個(gè)先進(jìn)先出(FIFO)隊(duì)列中把它們作為基于單個(gè)注釋或注釋子集的多FIFO隊(duì)列進(jìn)行存儲(chǔ)。
然后通過請(qǐng)求或是自動(dòng)地把一個(gè)或多個(gè)推薦傳送給工作中心150,具體為工作站152、154和156。每個(gè)工作站都自動(dòng)地或響應(yīng)于用戶激活而顯示一個(gè)或多個(gè)圖形用戶界面,諸如圖形用戶界面152.1。
圖4示出圖形用戶界面152.1的一種示例性形式。界面152.1包括同時(shí)顯示的窗口或區(qū)域410、420、430以及按鈕440-490。
窗口410顯示來(lái)自預(yù)分類數(shù)據(jù)庫(kù)140的批注標(biāo)識(shí)符的推薦列表412。每個(gè)批注標(biāo)識(shí)符都與至少一個(gè)注釋標(biāo)識(shí)符(在窗口430示出)邏輯相關(guān)。每個(gè)列出的批注標(biāo)識(shí)符都是可利用選擇設(shè)備諸如鍵盤或鼠標(biāo)或麥克風(fēng)選擇的。一旦被選定,就通過例如反白視頻顯示來(lái)自動(dòng)高亮顯示列表412內(nèi)的批注標(biāo)識(shí)符412.1。作為響應(yīng),窗口420顯示一批注422和一案例引證424,這者彼此相關(guān),并與高亮顯示的批注標(biāo)識(shí)符412.1相關(guān)。作為進(jìn)一步的響應(yīng),窗口430顯示注釋概要432(或分類體系)的至少一部分或一章節(jié),其與利用和批注412.1相關(guān)的注釋標(biāo)識(shí)符所指定的那個(gè)注釋相關(guān)。
標(biāo)為“新章節(jié)(New Section)”的按鈕440允許用戶在該注釋概要內(nèi)創(chuàng)建新的一章節(jié)或子章節(jié)。此特征是有用的,這是由于在某些情形中,雖然批注建議是好的,但是它并不適合該注釋的一個(gè)現(xiàn)有章節(jié)。因而創(chuàng)建新的一章節(jié)或子章節(jié)就允許方便地?cái)U(kuò)展注釋。
按鈕450打開或關(guān)閉文本框的顯示,該文本框描述在當(dāng)前會(huì)話期間對(duì)當(dāng)前注釋所作出的批注分配。在該示例性實(shí)施例中,該文本框以短文本形式呈現(xiàn)每個(gè)分配,諸如<注釋或類別標(biāo)識(shí)符><子章節(jié)或章節(jié)標(biāo)識(shí)符><批注標(biāo)識(shí)符>。此特征對(duì)于超出窗口430的大小并要求滾動(dòng)窗口內(nèi)容的較大注釋概要尤其方便。
標(biāo)為“不分配(Un-Allocate)”的按鈕460允許用戶向特殊注釋重新分配或重新分類批注。因而,如果用戶改變其關(guān)于先前的、未保存的分類的意愿,則用戶能夠廢除該分類。在一些實(shí)施例中,將窗口410中標(biāo)識(shí)的批注理解成被分配給窗口430中所顯示的特殊注釋章節(jié),除非用戶判定該分配是不正確的或者是不合適的。(在一些實(shí)施例中,接受推薦需要自動(dòng)建立超級(jí)鏈接來(lái)把注釋鏈接到案例以及把案例鏈接到注釋。)標(biāo)為“下一注釋(Next Annotation)”的按鈕470允許用戶促使對(duì)被推薦分配給下一注釋的批注集合的顯示。具體地,這不僅需要從預(yù)分類數(shù)據(jù)庫(kù)140中檢索批注并在窗口410中顯示它們,而且還需要在窗口430內(nèi)顯示有關(guān)的注釋概要。
標(biāo)為“躍過注釋(Skip Anno)”的按鈕480允許用戶躍過當(dāng)前的注釋及其建議,并前進(jìn)到下一推薦及相關(guān)注釋的集合。當(dāng)一個(gè)編輯器想要另一個(gè)編輯器復(fù)核對(duì)一特殊注釋的分配時(shí),或者如果該編輯器想要在另外的時(shí)間例如在例如讀取或研究了整個(gè)注釋文本之后復(fù)核此注釋,此特征尤為有用。這些建議保留在預(yù)分類數(shù)據(jù)庫(kù)140中直到它們被復(fù)核或被去除。(在一些實(shí)施例中,這些建議是作了時(shí)間標(biāo)記的,并且可以被多個(gè)當(dāng)前建議所取代,或在一預(yù)置的時(shí)段后被自動(dòng)刪除,而該時(shí)段在某些變更中取決于該特殊注釋。)標(biāo)為“退出(Exit)”的按鈕490允許編輯器終止編輯對(duì)話。在終止時(shí),就將接受和推薦存入ALR注釋數(shù)據(jù)庫(kù)110中。
圖2示出在預(yù)分類處理之后,該示例性方法在塊250繼續(xù)執(zhí)行。塊250需要更新分類決策準(zhǔn)則。在該示例性實(shí)施例中,這需要為每個(gè)注釋計(jì)數(shù)接受和拒絕分類推薦的數(shù)目,并適當(dāng)調(diào)整注釋特定判定閾值和/或分類器加權(quán)。例如,如果對(duì)于一給定注釋的分類推薦在一天、一星期、一個(gè)月、一個(gè)季度或一年期間有80%被拒絕了,那么該示例性實(shí)施例會(huì)增大與那個(gè)注釋相關(guān)的判定閾值以降低推薦數(shù)。反之,如果80%被接受了,則可以降低該閾值以保證足夠數(shù)目的推薦得到考慮。
用于把批注分類到美國(guó)法學(xué)的示例性系統(tǒng)圖5以示例性分類系統(tǒng)500的形式示出系統(tǒng)100的一種變更,系統(tǒng)500適合于便于把文檔分類到美國(guó)法學(xué)(AmJur)的135,500個(gè)章節(jié)中的一個(gè)或多個(gè)章節(jié)。類似于ALR注釋,每個(gè)AmJur章節(jié)引證有關(guān)的案例,因?yàn)樗鼈儽环ㄔ核袥Q。同樣,更新AmJur是耗時(shí)的。
與系統(tǒng)100相比,分類系統(tǒng)500包括六個(gè)分類器即分類器131-134以及分類器510和520、綜合分?jǐn)?shù)生成器530以及分配決策器540。除了分類器131-134是對(duì)AmJur數(shù)據(jù)進(jìn)行操作,而不對(duì)ALR數(shù)據(jù)進(jìn)行操作外,分類器131-134與系統(tǒng)100中所使用的分類器相同。
替代基于AmJur章節(jié)內(nèi)所引證的批注的代理文本,分類器510和520自己來(lái)處理AmJur章節(jié)文本。更準(zhǔn)確地說,分類器510使用方案基礎(chǔ)分類器131來(lái)操作以便基于AmJur章節(jié)文本內(nèi)的名詞-單詞對(duì)的tf-idfs(術(shù)語(yǔ)頻率-反文檔頻率)生成相似性量度。并且,分類器520使用方案基礎(chǔ)分類器134來(lái)操作以便生成基于被給予輸入批注的章節(jié)文本的概率的相似性量度。
一旦計(jì)算出量度,基于其各自的相似性量度集合的數(shù)字排列,每個(gè)分類器就給每個(gè)AmJur章節(jié)分配一個(gè)相似性分?jǐn)?shù)。因此,對(duì)于任何輸入批注,這六個(gè)分類器中的每個(gè)分類器都根據(jù)這135,000個(gè)AmJur章節(jié)與該批注的相似性來(lái)有效地排序它們。假定分類器之間的差異和數(shù)據(jù)構(gòu)成分?jǐn)?shù)的基礎(chǔ),那么所有六個(gè)分類器不太可能把最相關(guān)的AmJur章節(jié)排在最高;分類器之間的差異以及它們使用的數(shù)據(jù)一般暗示了這將不會(huì)發(fā)生。表1示出了AmJur章節(jié)的部分排序列表,該列表表示各分類器如何記分或排序它們與給定批注的相似性。

表1基于六個(gè)相似性分?jǐn)?shù)的中值的部分排序列表AmJur章節(jié)綜合分?jǐn)?shù)生成器530基于每個(gè)AmJur章節(jié)對(duì)應(yīng)的六個(gè)相似性分?jǐn)?shù)的集合而為每個(gè)AmJur章節(jié)生成綜合相似性分?jǐn)?shù)。在該示例性實(shí)施例中,這需要為每個(gè)AmJur章節(jié)計(jì)算該六個(gè)分?jǐn)?shù)的中值。然而,其它實(shí)施例能夠計(jì)算所有六個(gè)或該六個(gè)排列的子集的均一或非均一加權(quán)平均值。其它的還一些實(shí)施例能夠選擇最大、最小或適度值作為AmJur章節(jié)的綜合分?jǐn)?shù)。在生成綜合分?jǐn)?shù)之后,綜合分?jǐn)?shù)生成器把標(biāo)識(shí)與最高綜合分?jǐn)?shù)相關(guān)的AmJur章節(jié)的數(shù)據(jù)、最高綜合分?jǐn)?shù)以及輸入批注轉(zhuǎn)發(fā)給分配決策器540。
基于每個(gè)固定時(shí)段輸入批注的總數(shù),分配決策器540向預(yù)分類數(shù)據(jù)庫(kù)140提供固定部分的批注-分類推薦。根據(jù)決策準(zhǔn)則模塊137內(nèi)的參數(shù)來(lái)確定固定數(shù)目以及管理推薦數(shù)的時(shí)段。例如,一個(gè)實(shí)施例基于輸入批注的綜合分?jǐn)?shù)來(lái)排列所有該時(shí)段輸入的批注,并只推薦那些排列在前百分之十六的輸入批注。
在某些情形中,一個(gè)以上的批注可以具有等于一給定截止閾值,諸如前百分之十六的綜合分?jǐn)?shù)。為了保證在這些情形中的更高準(zhǔn)確性,該示例性實(shí)例性使用該六個(gè)實(shí)際分類器分?jǐn)?shù)來(lái)重新排列與截止閾值相符的所有批注-章節(jié)對(duì)。
這需要把一特定批注-章節(jié)對(duì)的六個(gè)分類器分?jǐn)?shù)轉(zhuǎn)換成六個(gè)Z分?jǐn)?shù),并且然后相乘特定批注-章節(jié)對(duì)的六個(gè)Z分?jǐn)?shù)以產(chǎn)生一單個(gè)相似性量度。(通過假定每個(gè)分類器分?jǐn)?shù)都具有一正常分布,估算該分布的平均數(shù)及標(biāo)準(zhǔn)偏差,以及然后從分類器分?jǐn)?shù)中減去該平均數(shù)并將結(jié)果除以標(biāo)準(zhǔn)偏差,得到Z分?jǐn)?shù)。)然后根據(jù)此新的相似性量度重新排序或重新排列滿足接受標(biāo)準(zhǔn)的批注-章節(jié)對(duì),同時(shí)為實(shí)現(xiàn)期望的總推薦數(shù)而所需數(shù)量的推薦被轉(zhuǎn)發(fā)給預(yù)分類數(shù)據(jù)庫(kù)140。(其它實(shí)施例可以對(duì)所有的批注-章節(jié)對(duì)應(yīng)用該“重新排序”,并且然后基于獲得期望推薦數(shù)量所需的接受標(biāo)準(zhǔn)來(lái)過濾它們。)用于將批注分類到West Key Number系統(tǒng)的示例性系統(tǒng)圖6以示例性分類系統(tǒng)600的形式示出系統(tǒng)100的一種變更,系統(tǒng)600適合于便于把輸入批注分類到West Key Number系統(tǒng)的類別。West Key Number系統(tǒng)是一種分級(jí)分類系統(tǒng),它具有450個(gè)頂級(jí)類別,這些被進(jìn)一步細(xì)分成92000個(gè)子類別,其中的每一個(gè)都具有一個(gè)唯一的類別標(biāo)識(shí)符。與系統(tǒng)100相比,系統(tǒng)600包括分類器131和134、綜合分?jǐn)?shù)生成器610以及分配決策器620。
根據(jù)先前的實(shí)施例,分類器131和134將每個(gè)輸入批注模型化成名詞-單詞對(duì)的特征向量,以及將每個(gè)類別標(biāo)識(shí)符模型化成從分配給它的批注中提取出的名詞-單詞對(duì)的特征向量。分類器131基于分配給每個(gè)類別標(biāo)識(shí)符以及分配給一給定輸入批注的批注內(nèi)的名詞-單詞對(duì)的tf-idf乘積來(lái)生成相似性分?jǐn)?shù)。并且分類器134基于被給予輸入批注的類別標(biāo)識(shí)符的概率生成相似性分?jǐn)?shù)。因此,系統(tǒng)600生成184000個(gè)以上的相似性分?jǐn)?shù),每個(gè)分?jǐn)?shù)都表示輸入批注與采用該兩個(gè)分類器中的相應(yīng)一個(gè)的West Key Number系統(tǒng)內(nèi)的92000個(gè)以上的類別標(biāo)識(shí)符中的相應(yīng)一個(gè)類別標(biāo)識(shí)符的相似性。
綜合分?jǐn)?shù)生成器610將用于每個(gè)可能的批注-類別標(biāo)識(shí)符對(duì)的兩個(gè)相似性量度進(jìn)行組合以生成相應(yīng)的綜合相似性分?jǐn)?shù)。在該示例性實(shí)施例中,這需要基于已分配給每個(gè)類別的批注來(lái)為每個(gè)類別或類別標(biāo)識(shí)符定義兩個(gè)標(biāo)準(zhǔn)化的累積直方圖(每個(gè)分類器一個(gè))。這些直方圖近似對(duì)應(yīng)的累積密度函數(shù),允許人們確定一給定百分?jǐn)?shù)的類別標(biāo)識(shí)符記分低于某一相似性分?jǐn)?shù)的概率。
更具體地,根據(jù)分類器131和134,將用于類別標(biāo)識(shí)符c的兩個(gè)累積標(biāo)準(zhǔn)化直方圖分別表示為FC1和FC2,并按照下式來(lái)估算
FC1(s)=FC1(s-0.01)+1MC*|{hi|Si1=s}|---(22)]]>和FC2(s)=FC2(s-0.01)+1MC*|{hi|Si2=s}|,---(23)]]>其中c表示一特殊類別或類別標(biāo)識(shí)符;s=0,0.01,0.02,0.03,...,1.0;F(s<0)=0;MC表示分類到或與類別或類別標(biāo)識(shí)符c相關(guān)的批注數(shù);|{B}|表示集合B內(nèi)的元素?cái)?shù);hi,i=1,...MC表示已被分類到或與類別或類別標(biāo)識(shí)符c相關(guān)的批注的集合;Si1表示由分類器131測(cè)量的批注hi與類別標(biāo)識(shí)符c的相似性分?jǐn)?shù),而Si2表示由分類器134測(cè)量的批注hi與類別標(biāo)識(shí)符c的相似性分?jǐn)?shù)。(在此上下文內(nèi),每個(gè)相似性分?jǐn)?shù)表示一個(gè)給定分配的批注與分配給類別c的所有批注的相似性。)換言之,|{hi|Si1=s}|表示分配給從分類器131接收分?jǐn)?shù)s的類別c的批注數(shù),而|{hi|Si2=s}|表示分配給從分類器134接收分?jǐn)?shù)s的類別c的批注數(shù)。
因此,對(duì)于每個(gè)可能的分?jǐn)?shù)值(處于0和1之間,具有特定的分?jǐn)?shù)間隔),每個(gè)直方圖都提供了記分高于或低于那個(gè)特定分?jǐn)?shù)的被分配批注的百分?jǐn)?shù)。例如,對(duì)于分類器131,類別標(biāo)識(shí)符c的直方圖可能表示出當(dāng)作為一個(gè)整體與批注集合相比時(shí),分配給類別標(biāo)識(shí)符c的批注集合中的60%得分高于0.7;而對(duì)于分類器134,該直方圖可能表示出50%的被分配批注的得分高于0.7。
接下來(lái),綜合分?jǐn)?shù)生成器610使用相應(yīng)的直方圖把輸入批注的每個(gè)分?jǐn)?shù)轉(zhuǎn)換成一標(biāo)準(zhǔn)化的相似性分?jǐn)?shù),并基于該標(biāo)準(zhǔn)化分?jǐn)?shù)計(jì)算每個(gè)分類的每個(gè)綜合分?jǐn)?shù)。在該示例性實(shí)施例中,此轉(zhuǎn)換需要把每個(gè)分類器分?jǐn)?shù)映射到相應(yīng)的直方圖上,以確定其累積概率,并且然后將與一給定類別c相關(guān)的各自分?jǐn)?shù)對(duì)的累積概率相乘,以計(jì)算相應(yīng)的綜合相似性分?jǐn)?shù)。然后由分配決策器620處理輸入批注的該組綜合分?jǐn)?shù)。
分配決策器620把固定數(shù)目的最高得分類別標(biāo)識(shí)符轉(zhuǎn)發(fā)給預(yù)分類數(shù)據(jù)庫(kù)140。該示例性實(shí)施例建議對(duì)于每個(gè)輸入批注,類別標(biāo)識(shí)符具有最高5個(gè)綜合相似性分?jǐn)?shù)。
其它示例性應(yīng)用能夠用許多方式來(lái)組合所提出的各種示例性系統(tǒng)的組件以構(gòu)成更為復(fù)雜或更為簡(jiǎn)單的其它分類系統(tǒng)。另外,這些組件和系統(tǒng)能夠適合于除了批注以外的其它文檔類型。實(shí)際上,這些組件和系統(tǒng)以及所體現(xiàn)的教導(dǎo)和工作原理事實(shí)上與任何文本或數(shù)據(jù)分類上下文有關(guān)。
例如,人們能夠?qū)⒁粋€(gè)或多個(gè)示例性系統(tǒng)以及有關(guān)的變更應(yīng)用于分類電子語(yǔ)音及郵件消息。一些郵件分類系統(tǒng)可以包括一個(gè)或多個(gè)與常規(guī)規(guī)則相結(jié)合的分類器,根據(jù)發(fā)送人是否在你的地址簿中、是否與接收人在同一區(qū)域等等而把消息分類為有用的或SPAM。
附錄A示例性停止單詞a a.m ab about above accordingly across ad after afterward afterwards againagainst ago ah ahead ain′t all allows almost alone along already alright alsoalthough always am among amongst an and and/or anew another ante anyanybody anybody′s anyhow anymore anyone anyone′s anything anything′sanytime anytime′s anyway anyways anywhere anywhere′s anywise appearapprox are aren′t around as aside associated at available away awfully awhile bbanc be became because become becomes becoming been before beforehandbehalf behind being below beside besides best better between beyond both briefbut by bythe c came can can′t cannot cant cause causes certain certainly cetera cfch change changes cit cl clearly cmt co concerning consequently considercontain containing contains contra corresponding could couldn′t course curiamcurrently d day days dba de des described di did didn′t different divers do doesdoesn′t doing don′t done dowu downward downwards dr du during e e.g each ededs eg eight eighteen eighty either eleven else elsewhere enough especially et etceven ever evermore every everybody everybody′s everyone everyone′severyplace everything everything′s everywhere everywhere′s example except ffacie facto far few fewer fide fides followed following follows for forma formerformerly forth forthwith fortiori fro from further furthermore g get gets gettinggiven gives go goes going gone got gotten h had hadnk happens hardly has hasn′thave haven′t having he he′d he′ll he′s hello hence henceforth her hcrc here′shereabout hereabouts hereafter herebefore hereby herein hereinafter hereinbeforehereinbelow hereof hereto heretofore hereunder hereunto hereupon herewith hersherself hey hi him himself his hither hitherto hoc hon how howbeit howeverhowsoever hundred i i′d i′ll i′m i′ve i.e ibid ibidem id ie if ignored ii iii illusimmediate in inasmuch inc indeed indicate indicated indicates infra initio insofarinstead inthe into intra inward ipsa is isn′t it it′s its itself iv ix j jr judicata just kkeep kept kinda know known knows l la last later latter latterly le least les lesslest let let′s like likewise little looks ltd m ma′am many may maybe me
meantime meanwhile mero might million more moreover most mostly motu mrmrs ms much must my myself name namely naught near necessary neither nevernevermore nevertheless new next no no-one nobody nohow nolo nom non nonenonetheless noone nor normally nos not nothing novo now nowhere o o′clock ofofa off ofhis oft often ofthe ofthis oh on once one one′s ones oneself only ontheonto op or other others otherwise ought our ours ourself ourselves out outsideover overall overly own p p.m p.s par para paras pars particular particularlypassim per peradventure percent perchance perforce perhaps pg pgs placedplease plus possible pp probably provides q quite r rata rather really rel relativelyrem res resp respectively right s sa said same says se sec seem seemed seemingseems seen sent serious several shall shalt she she′ll she′s should shouldn′t sincesir so some somebody somebody′s somehow someone someone′s somethingsomething′s sometime sometimes somewhat somewhere somewhere′s specifiedspecify specifying still such sundry sup t take taken tam than that that′s thats thetheir theirs them themselves then thence thenceforth thenceforward there there′sthereafter thereby therefor therefore therefrom therein thereof thereon theresthereto theretofore thereunto thereupon therewith these they they′ll thing thingsthird this thither thorough thoroughly those though three through throughout thruthus to to-wit together too toward towards u uh unless until up upon upwardupwards used useful using usually v v.s value various very vi via vii viiivirtually vs w was wasn′t way we we′d we′ll we′re we′ve well went were weren′twhat what′ll what′s whatever whatsoever when whence whenever wherewhereafter whereas whereat whereby wherefore wherefiom wherein whereintowhereof whereon wheresoever whereto whereunder whereunto whereuponwherever wherewith whether which whichever while whither who who′d who′llwho′s whoever whole wholly wholy whom whose why will with within withoutwon′t would wouldn′t x y y′all ya′ll ye yeah yes yet you you′ll you′re you′ve youryours yourself yourselves z
結(jié)論在本領(lǐng)域其他方面,本發(fā)明人已經(jīng)提出了各種示例性系統(tǒng)、方法以及軟件,便于把諸如批注或相關(guān)法律案例的文本分類到分類系統(tǒng)中,諸如利用近14000個(gè)ALR注釋來(lái)表示的分類系統(tǒng)。該示例性系統(tǒng)基于文本以及類別相似性和概率關(guān)系進(jìn)行分類或做出分類推薦。該系統(tǒng)還提供了圖形用戶界面以便于編輯處理被推薦的分類,并從而自動(dòng)更新文檔收集,諸如美國(guó)法律報(bào)告、美國(guó)法學(xué)以及無(wú)數(shù)其它文檔收集。
上述實(shí)施例僅僅用于說明和講授實(shí)踐或?qū)崿F(xiàn)本發(fā)明的一種或多種方式,而并不限制本發(fā)明的廣度或范圍。僅由下面的權(quán)利要求書及其等同物來(lái)限定本發(fā)明的實(shí)際范圍,此范圍包含了實(shí)踐或?qū)崿F(xiàn)本發(fā)明教導(dǎo)的所有方式。
權(quán)利要求
1.用于將輸入文本分類到具有兩個(gè)或更多目標(biāo)類別的目標(biāo)分類系統(tǒng)的一種系統(tǒng),該系統(tǒng)包括·用于基于輸入文本以及目標(biāo)類別為每一個(gè)目標(biāo)類別至少確定第一和第二分?jǐn)?shù)的裝置;·用于為每一個(gè)目標(biāo)類別基于利用該目標(biāo)類別的第一類別特定加權(quán)縮放的第一分?jǐn)?shù)以及利用該目標(biāo)類別的第二類別特定加權(quán)縮放的第二分?jǐn)?shù)確定相應(yīng)的綜合分?jǐn)?shù)的裝置;以及·用于為每一個(gè)目標(biāo)類別基于相應(yīng)的綜合分?jǐn)?shù)以及用于該目標(biāo)類別的類別特定判定閾值確定是否將輸入文本分類到該目標(biāo)類別或推薦分類到該目標(biāo)類別的裝置。
2.將輸入文本分類到具有兩個(gè)或更多目標(biāo)類別的目標(biāo)分類系統(tǒng)的一種方法,該方法包括對(duì)于每個(gè)目標(biāo)類別·至少提供第一和第二類別特定加權(quán)以及類別特定判定閾值;·至少使用第一和第二分類方法來(lái)基于輸入文本以及目標(biāo)類別確定各自的第一和第二分?jǐn)?shù);·基于利用該類別的第一類別特定加權(quán)縮放的第一分?jǐn)?shù)以及利用該目標(biāo)類別的第二類別特定加權(quán)縮放的第二分?jǐn)?shù)來(lái)確定綜合分?jǐn)?shù);以及·基于該綜合分?jǐn)?shù)以及該類別特定判定閾值來(lái)將該輸入文本分類到該目標(biāo)類別或推薦分類到該目標(biāo)類別。
3.權(quán)利要求2的方法,其中第一和第二分?jǐn)?shù)中的至少一個(gè)分?jǐn)?shù)是基于與該輸入文本相關(guān)的一個(gè)或多個(gè)名詞-單詞對(duì)的集合以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)名詞-單詞對(duì)的集合,而每個(gè)集合內(nèi)的至少一個(gè)名詞-單詞對(duì)包括名詞和非相鄰單詞。
4.權(quán)利要求2的方法,其中提供每個(gè)第一和第二類別特定加權(quán)以及類別特定判定閾值包括基于被分類到該目標(biāo)分類系統(tǒng)的文本,搜索在預(yù)定查全率級(jí)別上產(chǎn)生預(yù)定精度級(jí)別的第一和第二類別特定加權(quán)與類別特定判定閾值的組合。
5.權(quán)利要求2的方法,其中非目標(biāo)分類系統(tǒng)包括兩個(gè)或更多非目標(biāo)類別,并且第一和第二分?jǐn)?shù)中的至少一個(gè)分?jǐn)?shù)是基于與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別。
6.權(quán)利要求5的方法·其中該輸入文本是用于法律文檔的批注;以及·其中該目標(biāo)分類系統(tǒng)以及該非目標(biāo)分類系統(tǒng)是法律分類系統(tǒng)。
7.權(quán)利要求2的方法,其中該目標(biāo)分類系統(tǒng)包括1000個(gè)以上的目標(biāo)類別。
8.權(quán)利要求2的方法,進(jìn)一步包括·顯示包括第一和第二區(qū)域的圖形用戶界面,第一區(qū)域顯示或標(biāo)識(shí)該輸入文本的至少一部分,而第二區(qū)域顯示有關(guān)該目標(biāo)分類系統(tǒng)和該輸入文本被推薦分類的至少一個(gè)目標(biāo)類別的信息;以及·在該圖形用戶界面上顯示可選特征,其中對(duì)該特征的選擇啟動(dòng)將該輸入文本分類到一個(gè)目標(biāo)類別。
9.一種機(jī)器可讀媒體,包括用于實(shí)現(xiàn)權(quán)利要求2的方法的指令。
10.將輸入文本分類到具有兩個(gè)或更多目標(biāo)類別的目標(biāo)分類系統(tǒng)的一種方法,該方法包括對(duì)于每個(gè)目標(biāo)類別·基于輸入文本和目標(biāo)類別,確定第一和第二分?jǐn)?shù);·基于利用該目標(biāo)類別的第一類別特定加權(quán)縮放的第一分?jǐn)?shù)以及利用該目標(biāo)類別的第二類別特定加權(quán)縮放的第二分?jǐn)?shù),確定綜合分?jǐn)?shù);以及·基于該綜合分?jǐn)?shù)以及該目標(biāo)類別的類別特定判定閾值,確定是否標(biāo)識(shí)該輸入文本分類到該目標(biāo)類別。
11.權(quán)利要求10的方法,其中第一和第二分?jǐn)?shù)中的至少一個(gè)分?jǐn)?shù)是基于與該輸入文本相關(guān)的一個(gè)或多個(gè)名詞-單詞對(duì)的集合以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)名詞-單詞對(duì)的集合,其中每個(gè)集合內(nèi)的至少一個(gè)名詞-單詞對(duì)包括名詞和非相鄰單詞。
12.權(quán)利要求10的方法,其中確定第一和第二分?jǐn)?shù)包括確定下列中的任何兩個(gè)·基于該輸入文本和與該目標(biāo)類別相關(guān)的文本的至少一個(gè)或多個(gè)部分之間的相似性的一個(gè)分?jǐn)?shù);·基于與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合和與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合之間的相似性的一個(gè)分?jǐn)?shù);·基于目標(biāo)類別被給予與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的概率的一個(gè)分?jǐn)?shù);以及·基于目標(biāo)類別被給予該輸入文本的至少一部分的概率的一個(gè)分?jǐn)?shù)。
13.權(quán)利要求12的方法,其中每個(gè)目標(biāo)類別是文檔,并且與該目標(biāo)類別相關(guān)的文本包括該文檔的文本或與該目標(biāo)類別相關(guān)的另一個(gè)文檔的文本。
14.權(quán)利要求10的方法·其中為每個(gè)目標(biāo)類別確定第一和第二分?jǐn)?shù)包括○基于該輸入文本和與該目標(biāo)類別相關(guān)的文本的至少一個(gè)或多個(gè)部分的相似性,確定第一分?jǐn)?shù);以及○基于與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的相似性,確定第二分?jǐn)?shù);·其中該方法進(jìn)一步包括為每個(gè)目標(biāo)類別確定○基于目標(biāo)類別被給予與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的概率的第三分?jǐn)?shù);以及○基于目標(biāo)類別被給予輸入文本的至少一部分的概率的第四分?jǐn)?shù);以及·其中該綜合分?jǐn)?shù)進(jìn)一步基于利用該目標(biāo)類別的第三類別特定加權(quán)進(jìn)行縮放的第三分?jǐn)?shù)以及利用該目標(biāo)類別的第四類別特定加權(quán)進(jìn)行縮放的第四分?jǐn)?shù)。
15.權(quán)利要求10的方法·其中該輸入文本與第一元數(shù)據(jù)相關(guān),并且每個(gè)目標(biāo)類別與第二元數(shù)據(jù)相關(guān);以及·其中第一和第二分?jǐn)?shù)中的至少一個(gè)分?jǐn)?shù)是基于第一元數(shù)據(jù)和第二元數(shù)據(jù)。
16.權(quán)利要求15的方法,其中第一元數(shù)據(jù)包括與該輸入文本相關(guān)的非目標(biāo)類別的第一集合,以及第二元數(shù)據(jù)包括與該目標(biāo)類別相關(guān)的非目標(biāo)類別的第二集合。
17.一種機(jī)器可讀媒體,包括用于執(zhí)行權(quán)利要求9的方法的指令。
18.根據(jù)具有兩個(gè)或更多目標(biāo)類別的目標(biāo)分類系統(tǒng)來(lái)分類輸入文本的一種方法,該方法包括·為每個(gè)目標(biāo)類別,基于利用該目標(biāo)類別的第一類別特定加權(quán)進(jìn)行縮放的第一分?jǐn)?shù)以及利用該目標(biāo)類別的第二類別特定加權(quán)進(jìn)行縮放的第二分?jǐn)?shù),確定綜合分?jǐn)?shù),第一和第二分?jǐn)?shù)基于輸入文本以及與該目標(biāo)類別相關(guān)的文本;以及·為每個(gè)目標(biāo)類別,基于該綜合分?jǐn)?shù)以及該目標(biāo)類別的類別特定判定閾值,將該輸入文本分類到該目標(biāo)類別或推薦分類到該目標(biāo)類別。
19.權(quán)利要求18的方法,其中從由下列分?jǐn)?shù)組成的組中選擇第一和第二分?jǐn)?shù)·基于該輸入文本和與該目標(biāo)類別相關(guān)的文本的至少一個(gè)或多個(gè)部分的相似性的一個(gè)分?jǐn)?shù);·基于與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的相似性的一個(gè)分?jǐn)?shù);·基于目標(biāo)類別被給予與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的概率的一個(gè)分?jǐn)?shù);以及·基于目標(biāo)類別被給予該輸入文本的至少一部分的概率的一個(gè)分?jǐn)?shù)。
20.權(quán)利要求18的方法,進(jìn)一步包括基于對(duì)該輸入文本的推薦分類的接受或拒絕,為一個(gè)目標(biāo)類別更新類別特定閾值。
21.將文本分類到目標(biāo)分類系統(tǒng)內(nèi)的一個(gè)或多個(gè)目標(biāo)類別的一種方法,該方法包括·在一部分的文本內(nèi)標(biāo)識(shí)一個(gè)或多個(gè)名詞-單詞對(duì)。
22.權(quán)利要求21的方法,其中在一部分的文本內(nèi)標(biāo)識(shí)一個(gè)或多個(gè)名詞-單詞對(duì)包括·在該部分的文本內(nèi)標(biāo)識(shí)第一名詞;以及·在第一名詞的預(yù)定數(shù)目的單詞內(nèi)標(biāo)識(shí)一個(gè)或多個(gè)單詞。
23.權(quán)利要求21的方法,其中在第一名詞的預(yù)定數(shù)目的單詞內(nèi)標(biāo)識(shí)一個(gè)或多個(gè)單詞包括去除一個(gè)或多個(gè)停止單詞的集合。
24.權(quán)利要求21的方法,其中該部分的文本是一段落。
25.權(quán)利要求21的方法,進(jìn)一步包括基于在該部分文本內(nèi)的一個(gè)或多個(gè)被標(biāo)識(shí)的名詞-單詞對(duì)的頻率以及在與一個(gè)目標(biāo)類別相關(guān)的文本內(nèi)一個(gè)或多個(gè)名詞-單詞對(duì)的頻率來(lái)確定一個(gè)或多個(gè)分?jǐn)?shù)。
26.權(quán)利要求25的方法,其中一個(gè)或多個(gè)分?jǐn)?shù)包括·基于該輸入文本與和該目標(biāo)類別相關(guān)的文本的至少一個(gè)或多個(gè)部分的相似性的至少一個(gè)分?jǐn)?shù);·基于與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合以及與該目標(biāo)類別相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的相似性的至少一個(gè)分?jǐn)?shù);·基于目標(biāo)類別被給予與該輸入文本相關(guān)的一個(gè)或多個(gè)非目標(biāo)類別的集合的概率的至少一個(gè)分?jǐn)?shù);以及·基于目標(biāo)類別被給予該輸入文本的至少一部分的概率的至少一個(gè)分?jǐn)?shù)。
27.權(quán)利要求25的方法,其中基于一個(gè)或多個(gè)被標(biāo)識(shí)的名詞-單詞對(duì)以及在與一個(gè)目標(biāo)類別相關(guān)的其它文本內(nèi)的一個(gè)或多個(gè)名詞-單詞對(duì)來(lái)確定一個(gè)或多個(gè)分?jǐn)?shù)包括·為每個(gè)被標(biāo)識(shí)的名詞-單詞對(duì)確定各自的加權(quán),其中各自的加權(quán)基于在該文本內(nèi)的被標(biāo)識(shí)的名詞-單詞對(duì)的術(shù)語(yǔ)頻率和在與一個(gè)目標(biāo)類別相關(guān)的其它文本內(nèi)的名詞-單詞對(duì)的反文檔頻率的乘積。
28.將輸入文本分類到目標(biāo)分類系統(tǒng)內(nèi)的一個(gè)或多個(gè)目標(biāo)類別的一種方法,該方法包括·在該輸入文本內(nèi)標(biāo)識(shí)名詞-單詞對(duì)的第一集合,其中第一集合包括由該輸入文本內(nèi)的名詞和非相鄰單詞構(gòu)成的至少一個(gè)名詞-單詞對(duì);·標(biāo)識(shí)名詞-單詞對(duì)的兩個(gè)或更多的第二集合,每個(gè)第二集合包括由與各自一個(gè)目標(biāo)類別相關(guān)的文本內(nèi)的名詞和非相鄰單詞構(gòu)成的至少一個(gè)名詞-單詞對(duì);·基于名詞-單詞對(duì)的第一和第二集合,確定一組分?jǐn)?shù);以及·基于該組分?jǐn)?shù),將該輸入文本分類到一個(gè)或多個(gè)目標(biāo)類別或推薦分類到該一個(gè)或多個(gè)目標(biāo)類別。
全文摘要
為了降低成本和提高精確度,發(fā)明人設(shè)計(jì)了用于幫助把諸如批注的文本和其它文檔分類到目標(biāo)分類系統(tǒng)內(nèi)的目標(biāo)類別上的系統(tǒng)、方法及軟件。例如,一種系統(tǒng)基于下列條件來(lái)計(jì)算綜合分?jǐn)?shù)輸入文本與分配給每個(gè)目標(biāo)類別的文本的相似性;分配給該輸入文本的非目標(biāo)類別與目標(biāo)類別的相似性;被給予分配給該輸入文本的一個(gè)或多個(gè)非目標(biāo)類別的集合的目標(biāo)類別的概率;和/或被給予分配給目標(biāo)類別的輸入文本的概率。然后該示例性系統(tǒng)使用諸如閾值的類別特定的決策準(zhǔn)則來(lái)估算綜合分?jǐn)?shù),最終把該輸入文本分配到一個(gè)或多個(gè)目標(biāo)類別或推薦分配到一個(gè)或多個(gè)目標(biāo)類別。該示例性系統(tǒng)特別適合于具有成千個(gè)類別的分類系統(tǒng)。
文檔編號(hào)G06F7/00GK1701324SQ02826650
公開日2005年11月23日 申請(qǐng)日期2002年11月1日 優(yōu)先權(quán)日2001年11月2日
發(fā)明者K·阿爾-科法希 申請(qǐng)人:Dba西方集團(tuán)西方出版社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1