專利名稱:用于文檔處理的方法、系統(tǒng)或存儲計算機(jī)程序的存儲器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理多個具有共同主題的文檔集。
背景技術(shù):
具有采用相同語言的多個描述并且共享相同內(nèi)容的文檔,在那些描述中頻繁地使用術(shù)語,所述術(shù)語的不同取決于作者關(guān)于主題所具有的專業(yè)知識程度,以及所述作者屬于的不同社會層,諸如性別或年齡組。即使所述描述是關(guān)于共同主題的,那么由非專家和由專家在他們各自的表達(dá)領(lǐng)域中使用的術(shù)語也可能是相當(dāng)不同的。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種新的并且改進(jìn)的方法、設(shè)備及其它必要的技術(shù),用于檢測由非專家使用且與由專家使用的術(shù)語所表達(dá)的意思相對應(yīng)的術(shù)語,并且反之用于檢測在這種不同的領(lǐng)域之間由專家使用且與由非專家使用的術(shù)語所表達(dá)的意思相對應(yīng)的術(shù)語。
用于轉(zhuǎn)換不同領(lǐng)域的文檔的技術(shù)的典型例子是翻譯機(jī)。使計算機(jī)執(zhí)行翻譯機(jī)的任務(wù)的技術(shù)已經(jīng)是已知的。翻譯機(jī)利用使用術(shù)語數(shù)據(jù)庫的計算機(jī)程序、用于處理語法規(guī)則的程序、用法和例句數(shù)據(jù)庫及其它系統(tǒng)特定組件,來把用自然語言寫入的文檔自動翻譯為另一種自然語言。已經(jīng)實際應(yīng)用這種技術(shù),并且存在用于個人計算機(jī)的商用語言翻譯軟件產(chǎn)品。在因特網(wǎng)上也提供某些翻譯服務(wù)。另外,用于逐詞翻譯的小型手持裝置到處都可以買到。逐詞翻譯機(jī)把用某種語言的一個詞轉(zhuǎn)換為用另一種語言、具有同樣意思的詞。基本上,把預(yù)編譯詞典存儲在存儲設(shè)備中,并且把輸入詞轉(zhuǎn)換為用另一種語言的對應(yīng)詞。這些常規(guī)的技術(shù)具有用于把文檔從一個領(lǐng)域轉(zhuǎn)換為另一領(lǐng)域的前提;即,在一個領(lǐng)域中的句子必須已知對應(yīng)于另一個領(lǐng)域中的句子,并且在一個領(lǐng)域中的詞必須已知對應(yīng)于另一個領(lǐng)域中的詞。
用于把困難的表達(dá)轉(zhuǎn)換為用同樣語言的容易的表達(dá)的意譯研究已經(jīng)問世。例如,在由Atsushi Fujita等人(2003)和Masahiro Murayama等人(2003)的研究中報告。在涉及“意譯”的研究中,基本技術(shù)是尋找將要依照模式匹配規(guī)則來由預(yù)先確定的表達(dá)模式代替的表達(dá)模式。在語言翻譯中的其它方法利用統(tǒng)計和/或概率模型。這些基于模型的方法最初準(zhǔn)備一對數(shù)據(jù)集,其用不同的語言并且具有已知是相同的內(nèi)容。接下來,根據(jù)諸如在每個數(shù)據(jù)集中句子長度之類的信息,確定用語言A和語言B的對應(yīng)句子。最后,根據(jù)它們在所述數(shù)據(jù)集中共同出現(xiàn)的關(guān)系來確定在詞之間的對應(yīng)關(guān)系。在這種和其它現(xiàn)有技術(shù)情況中,存在這樣一個前提,即對應(yīng)于語言A的詞Wa,在語言B中存在具有合理的語義準(zhǔn)確性的詞Wb。
專利文檔1是“Daily Language Computing and its Method”JP 2002-236681 A。
專利文檔2是“Association Method for Words in PaginalTranslation Sentences”JP 2002-328920 A。
非專利文檔1是http//www2.crl.go.jp/it/a133/kuma/mrs-li/midisearch.htm。
非專利文檔2是Atsushi Fujita,Kentaro Inui,YujiMatsumoto?!癟ext Correction Processing necessary forParaphrasing into Plain Expressions”。日本第65屆信息處理學(xué)會全國大會演講論文集,第五分冊,1T6-4,第99-102頁,2003年3月。
非專利文檔3是Masahiro Murayama,Masahiro Asaoka,MasanoriTsuchiya,Satoshi Sato?!癗ormalization of Terms and Supportfor Paraphrasing Declinable words based on theNormalization”,語言處理學(xué)會,第9屆年度大會,第85-88頁,(2003年3月)。
非專利文檔4是Dunning,T。(1993).Accurate methods forthe statistics of surprise and coincidence。計算語言學(xué),19(1)61-74如上所述,在常規(guī)的機(jī)器翻譯中,假定在從一種語言翻譯到另一種語言時,在兩種語言中存在相應(yīng)的詞,而且相應(yīng)文檔集可用。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種新的和改進(jìn)的方法和設(shè)備,用于檢測用于一個領(lǐng)域的術(shù)語,所述術(shù)語近似對應(yīng)于另一個領(lǐng)域中的術(shù)語,和/或反之亦然,即使在下列情況下(1)在目標(biāo)領(lǐng)域中沒有彼此對應(yīng)的已知詞對,(2)沒有事先已知彼此對應(yīng)的文檔集對,和/或(3)沒有幫助在上述領(lǐng)域中映射的詞典或辭典。
依照本發(fā)明一個方面,為了解決上述問題,(1)檢索用兩種不同的語言表達(dá)寫入的文檔集,其被記述為關(guān)于同樣的主題(這些文檔以下被稱為在領(lǐng)域A中的文檔和在領(lǐng)域B中的文檔),并且(2)當(dāng)給出兩種不同的語言表達(dá)的這種文檔集時,在出現(xiàn)于領(lǐng)域A中文檔的術(shù)語和出現(xiàn)于領(lǐng)域B中文檔的術(shù)語之間建立關(guān)聯(lián)。
為此,用檢索工具使用預(yù)先確定的關(guān)鍵詞列表來收集候選文檔,以便準(zhǔn)備用兩種不同的語言表達(dá)寫入的文檔集。然而,由于用檢索工具檢索的候選文檔包括大量的所謂的“噪聲(noise)”文檔,所以在多數(shù)情況下,并不能像正常那樣使用所述檢索結(jié)果。從而,本發(fā)明的一方面包括從所收集的文檔中刪除所述“噪聲”文檔的初始步驟。在此初始步驟之后,根據(jù)在所述文檔中的術(shù)語頻率及其它信息來把所述文檔分類為專家(expert)文檔和業(yè)余(naive)文檔,其包含不同類型的語言表達(dá)。由于出現(xiàn)在目標(biāo)專家文檔和目標(biāo)業(yè)余文檔中的術(shù)語并不總是相同的,接下來計算在所述兩個不同領(lǐng)域中術(shù)語之間的相關(guān)性。基本概念如下根據(jù)在專家文檔集和業(yè)余文檔集中的術(shù)語之間的共同出現(xiàn)關(guān)系,來獲得出現(xiàn)在專家或業(yè)余領(lǐng)域中的一個或一組術(shù)語與出現(xiàn)在另一個領(lǐng)域中的一個或一組術(shù)語的關(guān)聯(lián),所述術(shù)語記錄相同對象。
本發(fā)明應(yīng)用的一個例子是適用于打算要購買某些產(chǎn)品或貨物的用戶的推薦系統(tǒng)。即使文檔記述諸如商品之類的相同對象,通常在由具有關(guān)于所述對象的高深知識的專家所使用的術(shù)語和由具有關(guān)于所述對象的很少知識的非專家所使用的術(shù)語之間,存在相當(dāng)多的差異。所述專家常常使用技術(shù)術(shù)語和特定知識來描述所述對象,而沒有這種知識的非專家不得不用基于感知的表達(dá)或經(jīng)由相似的對象或例子來描述所述對象。所述專家試圖用他/她的知識來詳細(xì)地解釋所述產(chǎn)品,關(guān)于它在哪制造和/或它由什么材料組成,而非專家試圖使用回憶起來的、基于感知的術(shù)語來描述相同的產(chǎn)品。普通消費者在所有的專業(yè)范圍內(nèi)具有詳細(xì)的產(chǎn)品知識和涉及產(chǎn)品的專有名稱幾乎是不可能的。從而,即使專家向非專家解釋并推薦特定產(chǎn)品,這事實上要求專業(yè)知識來精明地選擇,可以設(shè)想非專家在購買之前可能不會充分理解所述解釋。
通過應(yīng)用本發(fā)明,賣方能夠用消費者理解的詞匯來向所述消費者提供關(guān)于產(chǎn)品的充足信息,并且反之,普通消費者可以容易地理解關(guān)于產(chǎn)品的信息并且選擇適合于他/她偏好和品味的信息。
圖1是用于執(zhí)行本發(fā)明優(yōu)選實施例的整個系統(tǒng)圖。
圖2是包括在圖1的系統(tǒng)內(nèi)的設(shè)備圖。
圖3是由圖1的系統(tǒng)執(zhí)行的算法的流程圖。
圖4是由圖2的設(shè)備使用的、用于從圖1的系統(tǒng)所檢索的文檔中刪除“噪聲”文檔的方法的流程圖。
圖5是由圖2的設(shè)備使用的、用于計算文檔的等級相關(guān)系數(shù)和有效值的方法的流程圖。
圖6是由圖2的設(shè)備使用的、用于把文檔分類為專家文檔和業(yè)余文檔的方法的流程圖。
圖7是由圖2的設(shè)備使用的、用于使用MLR方法來執(zhí)行詞匯映射的方法的流程圖。
圖8a是專家術(shù)語矩陣圖。
圖8b是業(yè)余術(shù)語矩陣圖。
圖8c是詞匯映射矩陣圖。
圖9是由圖2的設(shè)備使用的、用于計算圖8c的詞匯映射矩陣的算法。
具體實施例方式
圖1是包括連接到網(wǎng)絡(luò)140的用戶PC 110、站點服務(wù)器(1)120和站點服務(wù)器(2)130的系統(tǒng)圖。用戶訪問所述站點服務(wù)器(1)120和所述站點服務(wù)器(2)130,以便通過使用某種檢索工具經(jīng)由PC 110的操作來獲得必要的信息。如圖1的實施例描述了在因特網(wǎng)上的檢索。然而,可以使用任何可以檢索必要信息的檢索系統(tǒng)。所述用戶可以通過用在用戶PC 110上的計算機(jī)程序處理所獲得的信息,來獲得所想要的結(jié)果。
圖2是包括外殼200的用戶PC圖,所述用戶PC具有存儲設(shè)備210、主存儲器220、輸出裝置230、中央處理器(CPU)240、控制臺250和網(wǎng)絡(luò)I/O 260。所述用戶操作所述控制臺250以便經(jīng)由所述網(wǎng)絡(luò)I/O260從在因特網(wǎng)上的每個站點獲得必要的信息。中央處理器240根據(jù)存儲在所述存儲設(shè)備210中的文檔信息來對從因特網(wǎng)檢索的信息執(zhí)行預(yù)先確定的數(shù)據(jù)處理,并且在所述輸出裝置230上顯示結(jié)果。
圖3是由圖1的系統(tǒng)和圖2的PC執(zhí)行的、用于檢測在業(yè)余和專家文檔之間對應(yīng)術(shù)語的操作(即步驟)的流程圖。所述步驟是步驟310使用指定的術(shù)語來獲得候選文檔。
步驟320預(yù)處理所述候選文檔。
步驟330刪除“噪聲”文檔。
步驟340計算每個文檔的特征值。
步驟350用判別分析來分類所述文檔。
步驟360檢測在業(yè)余和專家文檔之間的對應(yīng)術(shù)語。
下面詳細(xì)地描述每個步驟。
(1)使用指定的術(shù)語來獲得候選文檔檢測對應(yīng)術(shù)語的第一步驟(步驟310)是準(zhǔn)備用于描述相同內(nèi)容的數(shù)據(jù)集,所述數(shù)據(jù)集包括業(yè)余文檔(由非專家寫入的文檔,以下稱為N文檔)和專家文檔(由專家寫入的文檔,以下稱為E文檔)對。通過使用術(shù)語列表來準(zhǔn)備所述數(shù)據(jù)集。
所述術(shù)語列表是可以被用作在給定領(lǐng)域中的關(guān)鍵詞的術(shù)語的列表。例如,當(dāng)選擇“酒”領(lǐng)域時,所述術(shù)語列表包括“(產(chǎn)品)酒的名字”。用戶使用檢索工具依照在所述術(shù)語列表中描述的酒名字來在因特網(wǎng)上收集關(guān)于酒的信息。指定酒名字,諸如“Auslese-ChateauCure Bon-Chateau Margaux-Vin Santo Toscano”。用那些術(shù)語作為關(guān)鍵詞來從數(shù)據(jù)庫中檢索候選文檔??梢允褂萌魏未鎯@種信息的數(shù)據(jù)庫?,F(xiàn)在描述使用搜索引擎來在因特網(wǎng)上檢索候選文檔的方法。
所述用戶用酒名字執(zhí)行檢索,所述酒名字被定義為在上述術(shù)語列表中的搜索關(guān)鍵詞。通過使用搜索引擎來檢索酒名字,所述搜索引擎作為商業(yè)產(chǎn)品或自由軟件可買到。通常,當(dāng)把酒名字指定為搜索關(guān)鍵詞時,檢索大量的候選文檔。然而,可以依照某些等級排列來選擇數(shù)目預(yù)先確定的候選項。通過使用術(shù)語列表對于所有想要的術(shù)語可以自動地獲得候選文檔。
(2)預(yù)處理候選文檔(步驟320)。
用這種方式在因特網(wǎng)上從網(wǎng)頁中自動地獲得的文檔包括各種信息,并且在多數(shù)情況下不能像正常那樣使用。把對應(yīng)于垃圾型文檔、列表型文檔和日記型文檔的文檔作為“噪聲”文檔從自動獲得的文檔中刪除。在刪除所述“噪聲”文檔之前,對從所述網(wǎng)頁中提取的文檔應(yīng)用預(yù)處理。在預(yù)處理的第一階段中,從網(wǎng)頁信息中提取可以被認(rèn)為是文檔的部分以便執(zhí)行文檔分析。接下來,把所述文檔分段為詞來提取實義詞、虛詞、助詞等等,以便能夠計算這些文檔的特征值;即,實義詞的數(shù)目值,業(yè)余詞的比例,專有名詞的比例,附加專有名詞的比例和虛詞/助詞的比例。下面描述為了計算那些特征值而用于該說明書的概念術(shù)語。
(i)實義詞(content word)的數(shù)目其是包括在網(wǎng)頁中文檔內(nèi)的實義詞的數(shù)目。實義詞包括名詞、動詞、形容詞和副詞,除了虛詞(particle word)/助詞(auxiliaryword)。
(ii)業(yè)余詞的比例=業(yè)余詞的數(shù)目/實義詞的數(shù)目業(yè)余詞是由在相關(guān)領(lǐng)域中的非專家使用的預(yù)先確定的詞。業(yè)余詞的比例是出現(xiàn)在一個網(wǎng)頁中預(yù)先確定的業(yè)余詞(以下稱為“主業(yè)余詞”)的數(shù)目與實義詞的數(shù)目的比例。
(iii)專有名詞的比例=專有名詞的數(shù)目/實義詞的數(shù)目在這里專有名詞是通常被稱為專有名詞的名詞。專有名詞的比例是出現(xiàn)在一個網(wǎng)頁中的專有名詞的數(shù)目與實義詞的數(shù)目的比例。
(iv)附加專有名詞的比例=附加專有名詞的數(shù)目/實義詞的數(shù)目附加專有名詞是通常不被認(rèn)為是專有名詞,但是需要被增加為專有名詞以便檢測所對應(yīng)術(shù)語的名詞。專有名詞的比例是在一個網(wǎng)頁中出現(xiàn)的附加專有名詞的數(shù)目與實義詞的數(shù)目的比例。
(v)虛/助詞的比例=虛詞的數(shù)目/助詞的數(shù)目/實義詞的數(shù)目通過計算在一個網(wǎng)頁中出現(xiàn)的虛詞的數(shù)目與助詞的數(shù)目的比例,并且通過用實義詞的數(shù)目除所述比例以便規(guī)一化所述比例,來計算虛詞/助詞的比例。
(vi)實義詞的n元語法(n-gram)通過使用實義詞的單語法、實義詞的雙語法、實義詞的三語法和實義詞的跳躍雙語法來檢查在文檔之間的相關(guān)性。
實義詞的單語法用于根據(jù)一個詞(或術(shù)語)的頻率來確定在文檔之間的相關(guān)性。在酒領(lǐng)域情況下,可以使用諸如“酒”、“香味”和“飲料”之類的詞的頻率。
實義詞的雙語法用于根據(jù)兩個連續(xù)詞的頻率來確定在文檔之間的相關(guān)性。在酒領(lǐng)域的情況下,使用諸如“酒精-百分比”、“這種-酒”和“生產(chǎn)國家-年代”之類的兩個連續(xù)詞的頻率。
實義詞的三語法用于根據(jù)三個連續(xù)詞的頻率來確定在文檔之間的相關(guān)性。在酒領(lǐng)域的情況下,使用諸如“酒-飯-喝酒方式”、“白色-法國-1990”和“紅色-德國-優(yōu)質(zhì)干白葡萄酒”之類的三個連續(xù)詞的頻率。
實義詞的跳躍雙語法使用在三個連續(xù)詞中的第一和最后詞以便根據(jù)這些詞的頻率來確定在文檔之間的相關(guān)性。舉例來說,可以把“高質(zhì)量”和“生產(chǎn)”指定為雙語法模式的第一詞和最后詞。由于作為結(jié)果的模式要求“高質(zhì)量-XXX-生產(chǎn)”,所以諸如“高質(zhì)量-水果串-生產(chǎn)”或“高質(zhì)量-雷司令白葡萄酒-生產(chǎn)”滿足所述條件。XXX表明任意的詞。
(vii)虛詞/助詞的n元語法類似地,使用虛詞/助詞的單語法、雙語法、三語法、虛詞/助詞雙語法、虛詞/助詞的三語法和虛詞/助詞的跳躍雙語法。
虛詞/助詞的單語法的例子包括“no”、“ga”和“ni”。虛詞/助詞雙語法的例子包括“no-ga”、“no-no”、“no-ni”。虛詞/助詞三語法三語法的例子包括“no-ga-ga”、“no-no-ga”和“no-ni-ga”。
虛詞/助詞的跳躍雙語法的例子包括“no-X-ga”、“no-X-ga”和“no-X-ga”。注意,“X”是任意的虛詞或助詞。
(viii)等級相關(guān)系數(shù)及其有效值在該實施例中,使用Spearman公式來計算等級相關(guān)系數(shù)和有效值。作為例子將用實義詞的單語法來解釋。首先,確定用于主業(yè)余文檔的、諸如“sake(液體)”、“kaori(香味)”、“nomu(飲料)”、“aji(味道)”、“kanjiru(感覺)”和“owom(考慮)”之類的詞的頻率。類似地,確定用于從某個網(wǎng)絡(luò)站點獲得的文檔的、諸如“sake(液體)”、“kaori(香味)”、“nomu(飲料)”、“aji(味道)”、“kanjiru(感覺)”和“owom(考慮)”之類的詞的頻率。接下來,對于各自的文檔計算這些詞的頻率等級。根據(jù)這些個等級信息來計算Spearman的等級相關(guān)系數(shù),并且計算所述相關(guān)系數(shù)的有效值。
(ix)主業(yè)余文檔集(或主專家文檔集)主業(yè)余文檔集是包括由非專家在某個領(lǐng)域中使用的術(shù)語的文檔收集。主專家文檔集是包括由專家在某個領(lǐng)域內(nèi)使用的術(shù)語的文檔收集。
(3)刪除“噪聲”文檔必須刪除作為來自從因特網(wǎng)上的網(wǎng)頁中檢索的文檔的“噪聲”文檔的垃圾型文檔、列表型文檔和日記型文檔。通常認(rèn)為在“噪聲”文檔中不包括為檢測用于一個領(lǐng)域的術(shù)語所必須的信息,所述術(shù)語近似對應(yīng)于用于另一領(lǐng)域中的術(shù)語。圖4是由圖1的系統(tǒng)執(zhí)行的、用于刪除“噪聲”文檔的步驟的流程圖。
410刪除垃圾型文檔。
420刪除列表型文檔。
430刪除日記型文檔。
440確認(rèn)對于所有文檔已經(jīng)執(zhí)行了刪除。
450設(shè)置下一文檔。
以下描述刪除垃圾型、列表型文檔和日記型文檔。
(A)垃圾型文檔把滿足所有下列條件的文檔定義為垃圾型文檔。垃圾型文檔字面上是垃圾并且不能用于從一個領(lǐng)域到另一領(lǐng)域的術(shù)語檢測。下面定義用于選擇垃圾型文檔的準(zhǔn)則。
(a)其實義詞的數(shù)目少。
(b)其業(yè)余詞的比例低。
(c)其專有名詞比例低。
(d)其與“主業(yè)余文檔”的相關(guān)系數(shù)低。
所述“主業(yè)余文檔集”是事先作為由非專家寫入的文檔而選擇的一組文檔。作為選擇,可以把由專家事先選擇作為文檔的一組文檔用作為“主專家文檔集”。
(B)列表型文檔把滿足所有下列條件的文檔定義為列表型文檔。這發(fā)生在下列情況,其中把關(guān)于在某個領(lǐng)域中的對象信息簡單地存儲為因特網(wǎng)上站點的列表。
(a)其專有名詞的比例高。
(b)其基于實義詞和虛詞/助詞與“主業(yè)余文檔”的相關(guān)系數(shù)低。
(c)日記型文檔把滿足所有下列條件的文檔定義為日記型文檔。日記型文檔是這樣一種文檔,其中例如描述了關(guān)于液體和酒的信息,但是主要討論了其它主題或信息。這種文檔可能出現(xiàn)在個人日記或在線百貨商店的因特網(wǎng)站點上,其涉及液體或酒并且包括許多其它主題。
(a)其涉及某個領(lǐng)域的專有名詞的比例低。
(b)其基于實義詞n元語法與主文檔的相關(guān)性低。
(c)其基于虛詞/助詞n元語法與主文檔的相關(guān)性高。
根據(jù)上述定義,因為把垃圾型文檔、列表型文檔和日記型文檔都認(rèn)為是“噪聲”文檔,所以在考慮術(shù)語領(lǐng)域檢測過程中把它們刪除。
(4)用判別分析來分類所述文檔在除去所述“噪聲”文檔之后,應(yīng)用判別分析來把其余文檔分類為業(yè)余文檔或?qū)<椅臋n。為了執(zhí)行所述判別分析,從各自輸入文檔中提取特征值。使用的特征值具有五種比例;即實義詞的數(shù)目,業(yè)余詞的比例,專有名詞的比例,附加專有名詞的比例和虛詞/助詞的比例。此外,使用根據(jù)實義詞n元語法計算的Spearman相關(guān)系數(shù)及其有效值,和根據(jù)虛詞/助詞n元語法計算的Spearman等級相關(guān)系數(shù)及其有效值。
在下面描述了根據(jù)Spearman公式來計算等級相關(guān)系數(shù)及其有效值。圖5是圖2的計算機(jī)執(zhí)行用于根據(jù)Spearman公式來計算等級相關(guān)系數(shù)及其有效值的操作的流程圖。
510在主業(yè)余文檔(Y)中n元語法的頻率。
520在輸入文檔(X)中N元語法的頻率。
530依照X和Y來計算Spearman等級相關(guān)系數(shù)(ri)和有效值(ei)。
540對于所有N元語法確認(rèn)計算。
550設(shè)置下一n元語法。
560獲得所有n元語法的等級相關(guān)系數(shù)和有效值。
以下詳細(xì)描述等級相關(guān)系數(shù)/有效值。
把實義詞單語法用作為解釋的例子。使用它們根據(jù)單個詞的頻率來計算在文檔之間的相關(guān)性。在酒領(lǐng)域情況下,根據(jù)所選擇的文檔和主業(yè)余文檔集(或主專家文檔集)來計算諸如“酒”、“香味”和“飲料”之類的詞的頻率。把這些頻率數(shù)字指定為Y(y1,y2,y3,...,yh)(步驟510)。
接下來,根據(jù)輸入文檔來計算相似的特征值;并且把相似的特征值指定為X(x1,x2,x3,...,xh)(步驟520)。這里,h表示數(shù)據(jù)或詞類型的數(shù)目,對于所述數(shù)據(jù)或詞類型計算頻率。基于Spearman公式根據(jù)這些數(shù)據(jù)來計算等級相關(guān)系數(shù)和有效值。
r1=F(X,Y)el=G(X,Y),其中r1是依照Spearman相關(guān)系數(shù)公式而計算的等級相關(guān)系數(shù),而e1是依照Spearman有效值公式計算的等級相關(guān)系數(shù)的有效值(步驟530)。采用相同的方式,對于實義詞雙語法計算r2、e2,并且對于其它n元語法也進(jìn)行類似地計算。同樣,采用相同的方式對于虛詞/助詞n元語法計算等級相關(guān)系數(shù)和有效值(步驟540和550)。結(jié)果,計算R=(r1,r2,...,rd)和E=(e1,e2,...,ed)(步驟560)。這里,d表示實義詞n元語法和虛詞/助詞n元語法的總數(shù)目。
在該實施例中,對于四種實義詞的n元語法計算Spearman相關(guān)系數(shù)及其有效值;所述四種實義詞的n元語法即,實義詞的單語法、實義詞的雙語法、實義詞的三語法和實義詞的跳躍雙語法。因此,計算八個特征值作為Spearman相關(guān)系數(shù)及其有效值。類似地,根據(jù)虛詞/助詞來計算八個特征值作為Spearman相關(guān)系數(shù)及其有效值。增加上述五個特征值,總共使用21(=5+8+8)個特征值。
接下來,使用Mahalanobis距離函數(shù)來區(qū)分輸入文檔以便把所述輸入文檔分類為業(yè)余文檔或?qū)<椅臋n。圖6是圖2的計算機(jī)執(zhí)行用于把輸入文檔分類為業(yè)余文檔、專家文檔及其它文檔的操作的流程圖。
610計算主業(yè)余文檔和主專家文檔的特征值。
620計算每個輸入文檔的特征值。
630計算在所述輸入文檔和所述主業(yè)余文檔之間的距離(Db)和在所述輸入文檔和所述主專家文檔之間的距離(Da)。
640如果在所述輸入文檔和所述主業(yè)余文檔之間的距離小于閾值,那么把所述輸入文檔分類為業(yè)余文檔。
650如果在所述輸入文檔和所述主專家文檔之間的距離(Da)小于閾值,那么把所述輸入文檔分類為專家文檔。
660把不對應(yīng)于主業(yè)余文檔或主專家文檔的文檔分類為“其它”文檔。
670確認(rèn)所有文檔被分類680設(shè)置下一文檔在下面詳細(xì)描述各自的步驟。首先,計算所述主業(yè)余文檔和所述主專家文檔的特征值。當(dāng)使用判別式來判別文檔時,這些構(gòu)成了各自集的基本總數(shù)。所述主業(yè)余文檔是具有這樣顯著特征的一組文檔,即主業(yè)余文檔選自“主業(yè)余文檔集”。計算構(gòu)成主業(yè)余文檔的各自文檔的特征值,并且計算所述特征值的平均值。所述主專家文檔也選自所述“主專家文檔集”,并且計算各自文檔的特征值,并且采用相同的方式來計算所述特征值的平均值(步驟610)。
接下來,計算所述輸入文檔的特征值(步驟620)。通過使用所述輸入文檔的特征值和所述主業(yè)余文檔的特征值,來使用Mahalanobis公式(表達(dá)式1)計算在所述輸入文檔和所述主業(yè)余文檔之間的距離(Db)。類似地,使用所述輸入文檔的特征值和所述主專家文檔的特征值用Mahalanobis公式(表達(dá)式2)來計算在所述輸入文檔和所述主專家文檔之間的距離(Dc)(步驟630)。
(表達(dá)式1)Db=(A-B)t∑b-1(A-B)(表達(dá)式2)Dc=(A-C)t∑c-1(A-C)其中A表示從各自文檔中獲得的特征值并且被表示為At=(a1,a2,...,ap),B表示所述業(yè)余文檔的特征值的平均值,并且被表示為Bt=(b1,b2,...,bp),C表示所述專家文檔的特征值的平均值,并且被表示為Ct=(c1,c2,...,cp),p表示特征向量維度的數(shù)目,t表示矩陣的轉(zhuǎn)置?!芺和∑c表示各自集的協(xié)方差矩陣(covariancematricies),而∑b-1和∑c-1表示所述協(xié)方差矩陣的逆矩陣。
如果Db小于所述預(yù)先確定的閾值,那么把所述文檔分類為業(yè)余文檔(步驟640)。如果Dc小于所述預(yù)先確定的閾值,那么把所述文檔分類為專家文檔(步驟650)。
把既沒有被分類為業(yè)余文檔也沒有被分類為專家文檔的文檔認(rèn)為是不可分類的,并且認(rèn)為其是“其它”文檔(步驟660)。
對于所有的文檔執(zhí)行上述步驟(步驟670和680)。
(6)檢測在所述業(yè)余文檔和所述專家文檔之間的對應(yīng)術(shù)語。
作為上述處理的結(jié)果,可以獲得由N文檔和E文檔組成的文檔對,所述N文檔和E文檔描述了特定的共同主題。以下描述在用于N(業(yè)余)文檔和E(專家)文檔的術(shù)語之間的關(guān)聯(lián)。
在所述業(yè)余文檔(N文檔)和所述專家文檔(E文檔)中使用不同的術(shù)語。然而,由于所述文檔描述共同的主題,所以可以推測使用具有相似含義的對應(yīng)術(shù)語。從而,可以開發(fā)出一種標(biāo)識來自E文檔和N文檔的、具有相似含義的詞對的方法。所述方法如下檢測對應(yīng)于E文檔中的第r個詞Er的一列業(yè)余詞,并且檢測對應(yīng)于N文檔中的第i個詞Ni的一列專家詞。下面描述所述細(xì)節(jié)。
(I)極大似然比率測試首先,描述了使用所述極大似然比率測試的計算方法。圖7是圖2的計算機(jī)結(jié)合極大似然比率(MLR)測試執(zhí)行操作的流程圖。
710計算被分類為業(yè)余文檔的文檔的各自術(shù)語的頻率。
720計算被分類為專家文檔的文檔的各自術(shù)語的頻率。
730計算P(A)=Prob(Ni AND Er)。
740計算P(B)=Prob(Not(Ni)AND Er)。
750根據(jù)P(A)和P(B)來計算MLR。
760在MLR超出閾值的情況下提取(Ni)和(Er)的組合。
770確認(rèn)對于所有組合執(zhí)行了計算。
780設(shè)置下一組合。
790從雙向檢測對應(yīng)術(shù)語。
參考圖7的流程圖,特別描述了圖1的系統(tǒng)用來檢測極大似然比率的方法。
考慮下列情況假定(1)從文檔N中提取了m個術(shù)語并且N的第i個術(shù)語是Ni,(2)從文檔E中提取了n個術(shù)語并且E的第r個術(shù)語是Er,并且(3)Ni和Er頻繁共同出現(xiàn)。換句話說,假定當(dāng)Ni頻繁出現(xiàn)時Er也頻繁出現(xiàn),并且當(dāng)Ni很少出現(xiàn)時Er也很少出現(xiàn)。描述了用于確定這種情況的概率太高以至于不能被認(rèn)為一致的條件。另外,將要描述用數(shù)值來表示所述概率的可信度的方法。
下面描述了用于為業(yè)余術(shù)語(在N文檔中的術(shù)語)尋找對應(yīng)專家術(shù)語(在E文檔中的術(shù)語)的方法。
考慮一對文檔,其根據(jù)一個題目被提取并且被分類為業(yè)余文檔或?qū)<椅臋n。事先確定應(yīng)該被處理的術(shù)語,而不是處理在業(yè)余文檔和專家文檔中的所有術(shù)語。為此準(zhǔn)備的業(yè)余術(shù)語列表和專家術(shù)語列表存儲了那些對應(yīng)于各自領(lǐng)域的術(shù)語。所述業(yè)余術(shù)語列表存儲了與人類感覺和主觀判斷有關(guān)的表達(dá)。
所述專家術(shù)語列表存儲了滿足下列準(zhǔn)則的術(shù)語(a)包括在所述術(shù)語列表內(nèi)的術(shù)語和與那些術(shù)語相關(guān)的術(shù)語(b)未包括在所述業(yè)余術(shù)語列表中的術(shù)語(c)以等于或高于預(yù)先確定頻率的頻率出現(xiàn)的術(shù)語假定存在來自所述業(yè)余術(shù)語列表的n個術(shù)語,其出現(xiàn)在所述業(yè)余文檔,并且所述業(yè)余術(shù)語列表的第i個術(shù)語是Ni(i=1到m)。計數(shù)所述第i個術(shù)語的頻率(步驟710)。類似地,假定在業(yè)余術(shù)語列表中的術(shù)語之間存在在所述專家文檔中的m個術(shù)語,并且所述專家列表的第r個術(shù)語是Er(r=1到n)。計數(shù)所述專家術(shù)語列表的第r個術(shù)語的頻率(步驟720)。用于計數(shù)所述頻率的單位是術(shù)語單語法、術(shù)語雙語法或術(shù)語三語法之一。根據(jù)在各自文檔中Ni和Er的頻率,來如下定義Ni和Er共同出現(xiàn)的概率P(A)(步驟730)和Ni出現(xiàn)而Er不出現(xiàn)的概率P(B)(步驟740)。
P(A)=Prob(Ni|Er)P(B)=Prob(Not(Ni)|Er)接下來,計算極大似然比率(MLR)(步驟750)。把MLR計算為下列概率的比例(1)概率P(H0),其是如果假定在P(A)和P(B)之間沒有差異(零假設(shè))的概率,和(2)概率P(H1),其是如果假定存在差異(擇一假設(shè))的概率。通過把關(guān)注的術(shù)語對(Ni和Er)考慮為依照二項式分布的兩個隨機(jī)過程來計算MLR。如下給出用于計算一個隨機(jī)變量的二項式分布概率的表達(dá)式。
(公式3)b(p,k,n)=nkpk(1-p)(n-k)]]>其中k表示某個詞實際出現(xiàn)的數(shù)目,n表示所述詞出現(xiàn)的最大可能數(shù)目,而p表示基本出現(xiàn)概率。如果在H0(零假設(shè))情況下假定概率是p0,在H1(擇一假設(shè))情況下P(A)的假定最大概率是p1,并且P(B)的假定最大概率是p2,那么把P(H0)與P(H1)的比例表示為[方程式2](公式4)λ=P(H0)P(H1)=b(p0,k1,n1)b(p1,k1,n1)b(p0,k2,n2)b(p2,k2,n2)]]>根據(jù)所述詞出現(xiàn)的數(shù)目容易地計算k1、n1、k2和n2的值。似然比的MLR是[方程式3](公式5)MLR=-2logλ通常已知所述MLR基本上遵循具有自由度為1的X2分布。如果利用這個,那么很容易設(shè)置所述閾值。換句話說,如果MLR值超出某個數(shù)值,那么可以說兩個術(shù)語Ni和Er共同出現(xiàn)的概率太高以致于不能被認(rèn)為是一致的(步驟760)。
利用上述原理,圖2的計算機(jī)使用下列方法來選擇詞匯映射候選在相對于所有目標(biāo)術(shù)語的組合,即{(Ni,Er)i=1到m,r=1到n}計算所述MLR(步驟770和780)之后,采用所述數(shù)值的降序選擇超出預(yù)先確定閾值的對,所述閾值例如為5%。檢索在所述專家列表中對應(yīng)于N中的第i個術(shù)語的術(shù)語,所述術(shù)語具有超出所述閾值的MLR值,并且采用所述MLR值的降序來在所述術(shù)語之間選擇數(shù)目預(yù)先確定的術(shù)語,借此獲得對應(yīng)于業(yè)余術(shù)語的專家術(shù)語(步驟780)。
接下來,描述了圖2的計算機(jī)用于從專家術(shù)語(在E文檔中的術(shù)語)中尋找對應(yīng)的業(yè)余術(shù)語(在N文檔中的術(shù)語)的方法。
采用如同上述類似的方式,從所存儲的列表中檢索在N中對應(yīng)于E中的第r個術(shù)語的術(shù)語,所述術(shù)語具有超出所述閾值的MLR值,并且采用所述MLR值的降序來在所述術(shù)語之間選擇數(shù)目預(yù)先確定的術(shù)語,借此獲得對應(yīng)于專家術(shù)語的業(yè)余術(shù)語(步驟780)。
(ii)基于詞匯映射矩陣計算的方法接下來,描述了基于詞匯映射矩陣T計算的方法,權(quán)重依照文檔的長度和術(shù)語頻率來調(diào)整。
圖9是圖1的系統(tǒng)結(jié)合詞匯映射矩陣執(zhí)行操作的流程圖。
810創(chuàng)建s乘n專家術(shù)語矩陣P。
820創(chuàng)建s乘m業(yè)余術(shù)語矩陣Q。
830計算m乘n詞匯映射矩陣T。
840把業(yè)余術(shù)語轉(zhuǎn)換為專家術(shù)語,并且把專家術(shù)語轉(zhuǎn)換為業(yè)余術(shù)語。
以下詳細(xì)描述了各自步驟810-840。首先,根據(jù)被分類為專家文檔的文檔集來創(chuàng)建專家術(shù)語矩陣P。這里考慮把在術(shù)語列表中的第k個術(shù)語(k=1到s)作為關(guān)鍵詞來檢索的文檔。處理那些被分類為專家文檔的文檔以便計算用于所述文檔的術(shù)語的頻率。
要加以處理的術(shù)語是在上述專家術(shù)語列表中的術(shù)語。把上述操作應(yīng)用于文檔,所述文檔是對在所述術(shù)語列表中所有術(shù)語檢索并且被分類為專家文檔的文檔,借此計算與在專家術(shù)語列表中的術(shù)語對應(yīng)的術(shù)語的頻率。計算表示專家術(shù)語頻率的s乘n矩陣P0(未示出),假定n是在所述專家文檔中術(shù)語的數(shù)目。
類似地,當(dāng)把m假定為在業(yè)余文檔中術(shù)語的數(shù)目時,計算表示業(yè)余術(shù)語頻率的s乘m矩陣Q0(未示出)。
在相互已經(jīng)共同出現(xiàn)的兩個詞之間的連接強(qiáng)度應(yīng)該更高,然而高頻率的詞常常與許多其它詞共同出現(xiàn)。為此,有必要低估這種詞作為詞匯映射候選的重要性。類似地,當(dāng)一個文檔長并且包含大量的詞時,出現(xiàn)在這種文檔中單個詞的重要性必須被低估。
從而,通過如下轉(zhuǎn)換矩陣P0的元素來創(chuàng)建s乘n專家術(shù)語矩陣(圖8a)(步驟810)[方程式4]We(k,i)=Exp(k,i)(Etf(i)*Ewf(k))]]>其中出現(xiàn)在專家文檔的第k個文檔的詞的頻率是Exp(k,i),在所有文檔中詞的頻率是Etf(i),而出現(xiàn)在所述第k個文檔中詞的總數(shù)是Ewf(k)。
類似地,通過如下轉(zhuǎn)換矩陣Q0的元素來創(chuàng)建s乘m業(yè)余術(shù)語矩陣Q(圖8b)(步驟820)[方程式5]Wn(k,i)=Naive(k,r)(Ntf(r)*Nwf(k))]]>其中出現(xiàn)在業(yè)余文檔的第k個文檔中的詞的頻率是Naive(k,r),出現(xiàn)在所有文檔中詞的頻率是Ntf(r),而出現(xiàn)在所述第k個文檔中詞的總數(shù)是Nwf(k)。
創(chuàng)建s乘n矩陣P和s乘m矩陣Q的目的是計算用于表明那些各自詞的組合強(qiáng)度的權(quán)重值,以便獲得m乘n詞匯映射矩陣T。從而,如下定義所述矩陣TT=QtP其中t表示矩陣的轉(zhuǎn)置,如下定義了所述詞匯映射矩陣T的每個權(quán)重值[方程式6]W(r,i)=Σk=1s[Exp(k,i)(Etf(i)*Ewf(k))Naive(k,r)(Ntf(r)*Nwf(k))]]]>從所述詞匯映射矩陣中提取用于映射的候選詞。例如,為了提取對應(yīng)于第i個業(yè)余術(shù)語Ni的候選專家術(shù)語,查閱詞匯映射矩陣T的第i行并且依照權(quán)重值的降序來選擇所希望術(shù)語的數(shù)目就足夠了(步驟840)。
另一方面,為了提取對應(yīng)于第r個專家術(shù)語的候選業(yè)余術(shù)語,查閱詞匯映射矩陣T的第r行并且依照權(quán)重值的降序來選擇所希望術(shù)語的數(shù)目是就足夠了(步驟840)。在這兩種情況中,優(yōu)選地是,把具有最高權(quán)重值的十個詞,不包括那些具有零值的詞挑選為候選詞。
然而,由于十個挑選的候選詞可能包括不必要的信息,所以所述方法可以不必是實際應(yīng)用的。從而,可以利用使用包括在所述術(shù)語列表內(nèi)的術(shù)語來進(jìn)一步過濾候選術(shù)語的方法。例如,只將在術(shù)語列表中描述的“酒名字”的數(shù)據(jù)保持在輸出中。另外,還可以選擇滿足非專家的偏好信息的業(yè)余術(shù)語候選項。例如,可以輸出用單語法表示偏好信息的非專家術(shù)語,所述單語法諸如“karakuchi(不甜的)”,“shitazawari-ga-yoi(好構(gòu)造)”和“ajiwai-bukai(美味的)”或者對應(yīng)于表示非專家的術(shù)語的雙語法組合的“酒名字”。因此,匹配非專家偏好的“酒名字”可以是以非專家偏好信息為基礎(chǔ)的。下面討論在應(yīng)用該過濾之后的輸出例子。
下面示出了檢索的取樣結(jié)果。
下列例子是作為那些對應(yīng)于業(yè)余術(shù)語而檢索的專家術(shù)語的示例。當(dāng)在日本因特網(wǎng)站點搜索領(lǐng)域“nihonshu(日本米酒)”時,檢測下列業(yè)余(非專家)術(shù)語“atsui(強(qiáng)烈的)”、“yutaka(醇厚的)”、“tanrei(明亮且精美的)”、“sararitof(醇合的)”、“bimi(味美的)”、“fukami(濃度)”等。對應(yīng)于那些業(yè)余術(shù)語的專家術(shù)語分別在檢索下列酒名字時產(chǎn)生“Isojiman”對應(yīng)“強(qiáng)烈的”和“醇厚的”,“Koshinokanbai”對應(yīng)“明亮的和精美的”和“醇合的”,而“Kamomidori”對應(yīng)“味美的”和“濃度”。
當(dāng)在日本因特網(wǎng)站點搜索“酒”領(lǐng)域時,檢測到了下列非專家術(shù)語“bimi(味美的)”、“koi(稠的)”、“umami(美味的)”、“suppai(酸的)”、“shitazawari(構(gòu)造)”、“kire(清晰度)”、“pittari(確切匹配)”、“fukami(濃度)”、“sawayaka(淡的)”、“yawarakaf(不含酒精的)”、“amaroyakaf(醇合且不含酒精的)”等。對應(yīng)于那些業(yè)余術(shù)語的專家術(shù)語分別在檢索下列酒名字時產(chǎn)生“Au Bon Climat”對應(yīng)“味美的”、“稠的”、“美味”、“酸的”等,而“Zonnebloem”對應(yīng)“構(gòu)造”、“清晰度”、“匹配”、“濃度”、“淡的”、“不含酒精的”、“醇合且不含酒精的”等。
下列例子是作為對應(yīng)于專家術(shù)語檢測的那些示例業(yè)余術(shù)語。
當(dāng)在日本因特網(wǎng)站點搜索“nihonshu(日本米酒)”領(lǐng)域時,檢測到了是酒名字的下列專家術(shù)語“Kagatobi”、“Hanano-mai”、“Kakubuto”等。作為對應(yīng)于這些酒名字而檢索的業(yè)余術(shù)語包括以下“oishii(鮮美的)”、“mizumizushii(涼爽的)”對應(yīng)“Kagatobi”,“johin(優(yōu)雅的)、tanrei(明亮且精美的)”對應(yīng)“Hanano-mai”,而“nameraka(不含酒精的并且醇美的)、sawciyaka(涼且淡的)、subarashii(極好的)”對應(yīng)“kakubuto”。
當(dāng)在日本站點搜索“酒”領(lǐng)域時,檢測到了是酒名字的下列專家術(shù)語“Coltassala”、“Sansoniere”等。作為那些對應(yīng)于這些酒名字而檢索的業(yè)余術(shù)語包括以下“awai(半透明的)、kihm(優(yōu)雅的)、honoka(暗淡的)、karui(明亮的)、kokochiyoi(舒適的)”對應(yīng)“Coltassala”,而“horonigai(略苦)、karai(不甜的)、johin(優(yōu)雅的)、yuuga(雅致的)”對應(yīng)“Sansoniere”。
采用上述兩種詞匯映射方法,可以通過依照術(shù)語權(quán)重值的降序選擇術(shù)語,來在雙向上選擇對應(yīng)于專用術(shù)語的候選術(shù)語,所述雙向為N->E(非專家到專家)和E->N。
權(quán)利要求
1.一種用于檢索具有共同主題的文檔且把所述文檔分類到具有第一特征值集的第一文檔集和具有第二特征值集的第二文檔集中的方法,所述方法包括根據(jù)預(yù)先確定的術(shù)語列表來檢索相關(guān)的第三文檔集;通過計算在所述第三文檔集中每個文檔的特征值來構(gòu)造第三特征值集;并且依照(a)使用所述第一特征值集和所述第三特征值集的判別式,和(b)使用所述第二特征值集和所述第三特征值集的判別式,來把在所述第三文檔集中的文檔分類到所述第一文檔集和所述第二文檔集中。
2.如權(quán)利要求1所述的方法,還包括從下列項中選擇任意的項集作為特征值集實義詞的數(shù)目、業(yè)余詞的比例、專有名詞的比例、附加專有名詞的比例、虛詞/助詞的比例、根據(jù)涉及實義詞和虛詞/助詞的n元語法模式的頻率計算的Spearman相關(guān)性系數(shù)和有效值。
3.如權(quán)利要求2所述的方法,其中檢索所述第三文檔集還包括刪除屬于下列至少之一的文檔垃圾型文檔、列表型文檔和日記型文檔。
4.如權(quán)利要求1所述的方法,其中檢索所述第三文檔集還包括刪除屬于下列至少之一的文檔垃圾型文檔、列表型文檔和日記型文檔。
5.一種用于根據(jù)具有第一特征值集的第一文檔集和具有第二特征值集的第二文檔集來檢測第一和第二文檔集具有下列至少一項(a)共同的主題、(b)在所述第二文檔集中、對應(yīng)于所述第一文檔集中的專用術(shù)語的術(shù)語或(c)在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語的方法,所述方法包括根據(jù)預(yù)先確定的術(shù)語列表來檢索相關(guān)的第三文檔集;通過計算在所述第三文檔集中每個文檔的特征值來構(gòu)造第三特征值集;依照使用所述第一特征值集和所述第三特征值集的判別式,和使用所述第二特征值集和所述第三特征值集的判別式,來把在所述第三文檔集中的文檔分類到所述第一文檔集或所述第二文檔集中;計算在第一術(shù)語列表中列出的每個術(shù)語的頻率,所述第一術(shù)語列表根據(jù)被分類到所述第一文檔集中的文檔來編譯,并且計算在第二術(shù)語列表中列出的每個術(shù)語的頻率,所述第二術(shù)語列表根據(jù)被分類到所述第二文檔集中的文檔來編譯;根據(jù)在所述第一和第二術(shù)語列表中列出的術(shù)語的頻率,來檢測在所述第二文檔集中、對應(yīng)于所述第一文檔集中的專用術(shù)語的術(shù)語;并且根據(jù)所述第一和第二術(shù)語頻率,來檢測在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語。
6.一種根據(jù)具有共同主題的第一文檔集和第二文檔集來檢測(a)在第二文檔集中、對應(yīng)于第一文檔集中的專用術(shù)語的術(shù)語或(b)在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語的方法,包括計算在第一術(shù)語列表中列出的每個術(shù)語的頻率,所述第一術(shù)語列表從所述第一文檔集來編譯,并且計算在第二術(shù)語列表中列出的每個術(shù)語的頻率,所述第二術(shù)語列表從所述第二文檔集來編譯;根據(jù)在所述第一和第二術(shù)語列表中列出的術(shù)語的頻率,來檢測在所述第二文檔集中、對應(yīng)于所述第一文檔集中的專用術(shù)語的術(shù)語;并且根據(jù)在所述第一和第二術(shù)語列表中列出的術(shù)語的頻率,來檢測在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語。
7.一種根據(jù)具有共同主題的第一文檔集和第二文檔集-其中已經(jīng)根據(jù)術(shù)語列表檢索了所述文檔集-來檢測(a)在第二文檔集中、對應(yīng)于第一文檔集中的專用術(shù)語的術(shù)語和(b)在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語的方法,包括計算專用術(shù)語對共同出現(xiàn)的概率P(A),所述專用術(shù)語對包括來自所述第一文檔集的術(shù)語和來自所述第二文檔集的術(shù)語;計算關(guān)注的術(shù)語對中出現(xiàn)在所述第一文檔集中的第一術(shù)語和所述術(shù)語對中沒有出現(xiàn)在所述第二文檔集中的第二術(shù)語沒有共同出現(xiàn)的概率P(B);根據(jù)P(A)和P(B)來計算極大似然比率;提取具有超出預(yù)先確定閾值的極大似然比率的所有術(shù)語對組合;從在第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語中,依照極大似然比率值降序來選擇數(shù)目預(yù)先確定的術(shù)語,并且把所選擇的術(shù)語采用為所述第一文檔集的、對應(yīng)于所述第二文檔集中的專用術(shù)語的候選術(shù)語;并且從在第二文檔集中、對應(yīng)于所述第一文檔集中的專用術(shù)語的術(shù)語中,依照極大似然比率值降序來選擇數(shù)目預(yù)先確定的術(shù)語,并且把所選擇的術(shù)語采用為所述第二文檔集的、對應(yīng)于所述第一文檔集中的專用術(shù)語的候選術(shù)語。
8.一種根據(jù)具有共同主題的第一文檔集和第二文檔集來檢測(a)在第二文檔集中、對應(yīng)于第一文檔集中的專用術(shù)語的術(shù)語,和/或(b)在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語的方法,已經(jīng)根據(jù)術(shù)語列表檢索了所述第一和第二文檔集,包括根據(jù)在第一術(shù)語列表中列出的每個術(shù)語的頻率,來從所述第一文檔集創(chuàng)建第一術(shù)語矩陣;根據(jù)在第二術(shù)語列表中列出的每個術(shù)語的頻率,來從所述第二文檔集創(chuàng)建第二術(shù)語矩陣;根據(jù)所述第一術(shù)語矩陣和所述第二術(shù)語矩陣的積來計算詞匯映射矩陣;依照元素值的降序來在所述詞匯映射矩陣的特定行中選擇數(shù)目預(yù)先確定的術(shù)語,以便把所選擇的術(shù)語采用為在所述第一文檔集中、對應(yīng)于所述第二文檔集中的專用術(shù)語的術(shù)語;并且依照元素的降序來在所述詞匯映射矩陣的特定列中選擇數(shù)目預(yù)先確定的術(shù)語,以便把所選擇的術(shù)語采用為在所述第二文檔集中、對應(yīng)于所述第一文檔集中的專用術(shù)語的術(shù)語。
9.如權(quán)利要求8所述的方法,其中(a)在所述術(shù)語列表中術(shù)語的數(shù)目是s,(b)從所述第一文檔集中選擇的術(shù)語數(shù)目是n,(c)由s乘n矩陣P來表示所述第一術(shù)語矩陣,(d)在所述第一文檔集的第k個文檔中第i個術(shù)語的頻率是Exp(k,i),(e)所述第i個術(shù)語的總體頻率是Etf(i),并且(f)在第k個文檔中術(shù)語的總數(shù)目是Ewf(k),矩陣P的元素是[方程式1]We(k,i)=Exp(k,i)(Etf(i)*Ewf(k))]]>(g)從所述第二文檔集中選擇的術(shù)語數(shù)目是m,(h)由s乘m矩陣Q來表示所述第二術(shù)語矩陣,并且(i)出現(xiàn)在所述第二文檔集的第k個文檔中第r個術(shù)語的頻率是Naive(k,r),(j)所述第r個術(shù)語的總體頻率是Ntf(r),并且在所述第k個文檔中術(shù)語的總數(shù)目是Nwf(k),如下給出矩陣Q的元素[方程式2]Wn(k,i)=Naive(k,r)(Ntf(r)*Nwf(k))]]>
10.一種用于執(zhí)行如權(quán)利要求1所述的方法的文檔檢索和分類系統(tǒng)。
11.一種用于執(zhí)行如權(quán)利要求2所述的方法的文檔檢索和分類系統(tǒng)。
12.一種用于執(zhí)行如權(quán)利要求3所述的方法的文檔檢索和分類系統(tǒng)。
13.一種用于執(zhí)行如權(quán)利要求4所述的方法的文檔檢索和分類系統(tǒng)。
14.一種用于執(zhí)行如權(quán)利要求5所述的方法的文件處理系統(tǒng)。
15.一種用于執(zhí)行如權(quán)利要求6所述的方法的文件處理系統(tǒng)。
16.一種用于執(zhí)行如權(quán)利要求7所述的方法的文件處理系統(tǒng)。
17.一種用于執(zhí)行如權(quán)利要求8所述的方法的文件處理系統(tǒng)。
18.一種用于執(zhí)行如權(quán)利要求9所述的方法的文件處理系統(tǒng)。
19.一種用于使計算機(jī)執(zhí)行如權(quán)利要求1所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
20.一種用于使計算機(jī)執(zhí)行如權(quán)利要求2所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
21.一種用于使計算機(jī)執(zhí)行如權(quán)利要求3所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
22.一種用于使計算機(jī)執(zhí)行如權(quán)利要求4所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
23.一種用于使計算機(jī)執(zhí)行如權(quán)利要求5所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
24.一種用于使計算機(jī)執(zhí)行如權(quán)利要求6所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
25.一種用于使計算機(jī)執(zhí)行如權(quán)利要求7所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
26.一種用于使計算機(jī)執(zhí)行如權(quán)利要求8所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
27.一種用于使計算機(jī)執(zhí)行如權(quán)利要求9所述的方法的存儲器或計算機(jī)可讀存儲介質(zhì)。
全文摘要
當(dāng)沒有詞匯對或文檔對可用于專家和業(yè)余領(lǐng)域時,檢測用于專家領(lǐng)域中的、對應(yīng)于業(yè)余領(lǐng)域中的術(shù)語的術(shù)語(例如,詞)。通過搜索因特網(wǎng)來收集文檔,所述文檔為描述相同的主題所知,并且寫入專家和業(yè)余領(lǐng)域。計數(shù)在這些文檔中出現(xiàn)的術(shù)語的頻率。所述計數(shù)用來計算在所述專家和業(yè)余語言表達(dá)的詞匯之間的對應(yīng)關(guān)系。
文檔編號G06F17/28GK1691007SQ20051006743
公開日2005年11月2日 申請日期2005年4月22日 優(yōu)先權(quán)日2004年4月22日
發(fā)明者小田弘美 申請人:惠普開發(fā)有限公司