專利名稱::一種跨語種語料自動(dòng)分類與檢索方法
技術(shù)領(lǐng)域:
:本發(fā)明屬計(jì)算機(jī)信息處理領(lǐng)域,是一種跨語種語料自動(dòng)分類與檢索方法?,F(xiàn)代科學(xué)認(rèn)為信息是人類賴以生存的三大基礎(chǔ)(物質(zhì)、能量、信息)之一。當(dāng)今社會(huì),信息已被當(dāng)作取得競爭優(yōu)勢的智力資本(GartnerGroup分析報(bào)告“查找數(shù)字信息的信息檢索系統(tǒng)”。國際電子報(bào),1996年2月19日專題)。但在信息時(shí)代不可避免地出現(xiàn)了信息超載的現(xiàn)象,特別地,九十年代信息量以大約每1.6年翻一倍的速度急劇增加。面對(duì)如此龐大的信息,要快速有效地獲取所需要的知識(shí)猶如大海撈針,難度也在不斷加大。同時(shí),隨著全球網(wǎng)絡(luò)通訊技術(shù)和光盤等信息存儲(chǔ)介質(zhì)的發(fā)展,越來越多的新增信息以計(jì)算機(jī)可讀文本的形式存在著,這不僅方便了用戶,也大大加快了信息流通的速度。然而,許多文本信息往往是規(guī)模很大,實(shí)時(shí)性強(qiáng)(如新聞?wù)Z料);語言混雜(包含英語、漢語等多種語言),內(nèi)容分布廣;格式靈活,有時(shí)還含有一定的拼寫錯(cuò)誤……。而對(duì)于特定的用戶而言,所需要的信息往往只是其中極小的一部分。隨著更多的網(wǎng)絡(luò)和文本信息可供訪問,特別是從Internet的WorldWideWeb上尋找正確的文本(或者將它們分配到所需要的用戶)將會(huì)更富挑戰(zhàn)性。面對(duì)日益突出的信息超載問題,迫切需要對(duì)這種形式的混合語料進(jìn)行更快速有效的處理。目前國內(nèi)外均已開展了有關(guān)的研究,很多成果,包括全文信息檢索(劉開英。中文全文檢索研究。見第二屆全國計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集。廈門1993年11月)、主題的自動(dòng)標(biāo)引(王永成,顧曉明。中文文獻(xiàn)主題的自動(dòng)標(biāo)引。見第二屆全國計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集。廈門1993年11月)、文本的過濾(BelkinNJ,CroftWB。InformationFilteringandInformationRetrievalTwoSidesoftheSameCoin?Commun.ACM,Dec.1992,Vol.35,No.12)以及自動(dòng)分類(吳軍,王作英等。漢語語料的自動(dòng)分類。中文信息學(xué)報(bào),1995,Vol.9,No.4)等,有的已經(jīng)走向?qū)嵱没蛏唐坊?。例如國外的GOPHER軟件,是一個(gè)在Internet上廣泛使用的全文查詢和檢索軟件。它試圖通過關(guān)鍵詞的匹配從Internet上找到使用者所關(guān)心的各種文獻(xiàn),并且用戶可以對(duì)檢索出的文獻(xiàn)是否感興趣進(jìn)行打分,該軟件能根據(jù)用戶打分的情況自動(dòng)調(diào)整下次檢索的關(guān)鍵詞。經(jīng)過幾次交互過程,檢索結(jié)果會(huì)愈來愈符合使用者口味。其它比較成熟的系統(tǒng)還有YAHOO軟件、GE的TRUMP系統(tǒng)、SRI的TACITUS系統(tǒng)等。上述系統(tǒng),無論是處理中文還是英文,其采用的技術(shù)和方法以基于主題詞(或關(guān)鍵詞)搜索、字詞頻度比較為主,而且只能處理一種語言。采用關(guān)鍵詞匹配的系統(tǒng)一般是以主題詞表為基礎(chǔ)的,文獻(xiàn)的內(nèi)容以主題詞表中詞的組合來表征和標(biāo)引,用戶的檢索或者分類要求也是以主題詞表中的詞構(gòu)成的某種表達(dá)式(如布爾表達(dá)式)表達(dá)的。這種方法往往需要手工建立主題詞典,對(duì)標(biāo)引者要求較高,比如有些詞很難判斷是否可用作關(guān)鍵詞,而且主題詞表由于其固有的特性不能及時(shí)反映變化了的情況。而基于字詞頻度比較的系統(tǒng),一般是以文本中的字詞或字詞的組合來表征文獻(xiàn)的內(nèi)容。這種系統(tǒng)需要有詞典對(duì)輸入文本進(jìn)行各種預(yù)處理,并通過禁用詞表(STOPLIST)濾掉一些對(duì)分類和檢索作用不大的高頻詞(如“的”、“了”、“the”、“a”、“and”等)、標(biāo)點(diǎn)符號(hào)等。對(duì)于漢語,預(yù)處理包括對(duì)輸入文本進(jìn)行分詞,主要有切分歧義的問題,例如“熱能發(fā)電”,只有在特定的語境下才可判斷應(yīng)切分為“熱能|發(fā)電”還是“熱|能|發(fā)電”。對(duì)于英語,預(yù)處理中要對(duì)輸入文本進(jìn)行抽詞干(Stemming),例如把“retrieve”、“retrieves”、“retrieved”、“retrieving”、“retrieval”都要變成詞干“retriev”,以便提高性能。無論是哪種語言,處理未知詞都是比較棘手的問題,因?yàn)檎Z言是個(gè)開放集,新詞總在不斷地出現(xiàn),很難建立包含所有單詞的完備詞典(建立禁用詞表也有類似問題)。本發(fā)明的目的在提出一種不依賴語種、能避免處理未知詞難題的可同時(shí)處理多種語言、簡單快速、容錯(cuò)能力強(qiáng)的語料自動(dòng)分類、檢索的方法。為了便于信息處理和交換,計(jì)算機(jī)在處理文字時(shí)一般都采用一個(gè)或多個(gè)字節(jié)對(duì)所用的字符進(jìn)行編碼(如漢字的雙字節(jié)國標(biāo)碼或機(jī)內(nèi)碼表示,英文字符的單字節(jié)ASCII碼表示),不管哪一種情況,所有造字或構(gòu)詞的基本元素都可以看成是以字節(jié)(8位二進(jìn)制)為單位所組成,它們的全體構(gòu)成一個(gè)有限的集合(256個(gè)元素)A={e1,e2,e3,…,e256}。我們稱A為字母表;A中的每個(gè)元素ei(i=1,2,…,256)稱為字母或字符。由字母或字符所組成的有窮序列稱為A上的字符串,字符串所含的字母個(gè)數(shù)稱為該串的長度,而長度為n個(gè)字母的字符串我們稱為n-Gram。從文本字符流中連續(xù)截取n個(gè)字節(jié),便可得到該文本的一個(gè)n-Gram。設(shè)想有一寬度為n(設(shè)n不超過文本的長度)的截取窗口置于文本上,從窗口中截取的連續(xù)n個(gè)字節(jié)構(gòu)成一個(gè)n-Gram,則當(dāng)窗口從文本的開頭以單字節(jié)步長(每次移動(dòng)一個(gè)字節(jié))移到文本末尾時(shí),我們便可得到該文本的所有n-Gram。截取窗口的移動(dòng)步長可以是多個(gè)字節(jié),以便跳過部分n-Gram。為了方便,對(duì)某一文本,當(dāng)截取窗口的寬度為n,移動(dòng)步長為s個(gè)字節(jié)時(shí),我們把得到的所有的n-Gram記作Gram(n,s)。它是由長度為n的字符串n-Gram組成的一個(gè)集合,也稱為該文本的Gram(n,s)表示。它具有如下特性①從文本中截取的n-Gram,既可能是一個(gè)有意義的字、詞、詞干或詞組,也可能不是自然語言中的任何字、詞;但當(dāng)s=1時(shí)文本的Gram(n,s)包括了長度為n個(gè)字節(jié)的所有詞(字、詞干或詞組)。②在某一n-Gram中,特定字母既可以出現(xiàn)若干次,也可以不出現(xiàn);但當(dāng)n-Gram為有意義的字、詞、詞干或詞組時(shí),它的組成字母以及每個(gè)字母的排列次序都應(yīng)該是有規(guī)則的。③文本的Gram(n,s)顯然與文本所包含的字、詞以及相鄰字、詞之間的先后次序(當(dāng)n>1時(shí))都有關(guān)系。由于文本中的字詞及其先后次序(即文本中詞序的部分信息)在某種程度上能反映出文本的內(nèi)容,文本的Gram(n,s)顯然也與文本的內(nèi)容有一定的關(guān)系。本發(fā)明用文本的Gram(n,s)表示以及其中的n-Gram分布特性來表示文本的特征,并由此計(jì)算文本之間的相似度;然后,根據(jù)相似度大小對(duì)文本進(jìn)行自動(dòng)聚類、領(lǐng)域分類、檢索。具體方法如下對(duì)于件數(shù)為M的一批文本T1,T2,…,TM,我們可以求出基于n-Gram的文本特征表示以及文本間的相似度,即①讀入文本Ti,從文本開始按給定的長度n和步長s產(chǎn)生Ti的Gram(n,s),并記錄所有n-Gram的總個(gè)數(shù)Ni(包括重復(fù)的n-Gram,n和s的取法在后面說明)。②將①中得到的Gram(n,s)進(jìn)行快速排序,并將結(jié)果放于緩沖區(qū)(或文件)中。③重復(fù)①②,直到M個(gè)文本都處理完畢。④采用多路歸并方法(見后面說明),統(tǒng)計(jì)出以上緩沖區(qū)(或文件)中M個(gè)文本所含的相異n-Gram,并統(tǒng)計(jì)各個(gè)n-Gram所出現(xiàn)的文本數(shù)Fk以及在Ti中的頻數(shù)Fik(即Ti的Gram(n,s)排序后第k個(gè)n-Gram重復(fù)出現(xiàn)的次數(shù)),濾掉只在一個(gè)文本中出現(xiàn)(Fk=1)的所有項(xiàng),以便壓縮n-Gram的總數(shù)目。設(shè)N為過濾后相異n-Gram的總個(gè)數(shù)。⑤對(duì)④中所有Fk>1的項(xiàng),按以下公式計(jì)算第k個(gè)n-Gram在Ti中的權(quán)重wikwik=FikNi*log2(1+Fk)----(1)]]>從而得到Ti的特征向量表示(wi1,wi2,...,wiN)。其中Ni為第①步得到的Ti中所有n-Gram的總數(shù)(包括被濾掉的所有項(xiàng)),i=1,2,...,M⑥根據(jù)向量內(nèi)積,計(jì)算Ti與Tj之間的相似度Sij=Sim(Ti,Tj)=Σk=1Nwik*wjk----(2)]]>容易看出Sij=Sji,并且0≤wik≤1,0≤sij≤1。這里i,j=1,2,...,M;k=1,2,...,N。下面對(duì)上述算法中的有關(guān)參數(shù)加以說明(1)Gram(n,s)中n和s的選擇上述方法的第①步一般取s=1,以便包括文本中所有的n-Gram,其中無效的項(xiàng)可以在第④步中加以過濾。但對(duì)于字符為雙字節(jié)編碼的文本(如漢語、全角英文),在不發(fā)生字節(jié)錯(cuò)位的情況下(字節(jié)錯(cuò)位類似于在漢語文本行中刪去半個(gè)漢字后所引起的后續(xù)文本的顯示紊亂),可以取s=2或s>2的整數(shù)(一般限定1≤s≤n),以減小n-Gram的總數(shù)目。同樣,可以根據(jù)各種語言中高頻禁用詞(STOPWORD)和關(guān)鍵詞(KEYWORD)的詞長分布情況來優(yōu)選n的值,一般取4≤n≤10。對(duì)于雙字節(jié)編碼的漢語文本,不妨在步長s=1或s=2下取n=4和n=6同時(shí)統(tǒng)計(jì)n-Gram,以便把占有較大比重的二字詞和三字詞都包括在內(nèi),并且可以減輕某些高頻一字詞(如“的”、“了”等)和全角標(biāo)點(diǎn)的干擾。而對(duì)于英文則取n>4為好,否則象{the、a、to、of、and、with、-tion(后綴)}等這些高頻項(xiàng)會(huì)把其他有用的n-Gram淹沒掉。由于大多數(shù)語言的功能詞一般是短詞長的居多,而關(guān)鍵詞的詞長相對(duì)較長(如n>4);即使對(duì)文本沒有任何先驗(yàn)知識(shí)的情況下,也不妨取n為6左右的值進(jìn)行試驗(yàn)(如n=4,5,6,7等,一般限定n≤10)。顯然,方法中n和s的值都是很容易調(diào)整的。不難看出,統(tǒng)計(jì)Gram(n,s)時(shí)直接采用的是文本字節(jié)流的信息,對(duì)輸入文本所需了解的先驗(yàn)知識(shí)(如語言知識(shí),內(nèi)容)很少。這里既不需要任何詞典(包括禁用詞表STOPLIST),也不需要對(duì)文本進(jìn)行分詞(對(duì)于漢語)或抽詞干(對(duì)于英語)等預(yù)處理,避免了對(duì)切分歧義及未知詞的處理等許多棘手的問題;因此可同時(shí)處理多種語言,具有跨語種的特點(diǎn)。所有這些都是現(xiàn)有的其他方法所還沒有的特點(diǎn)。(2)n-Gram的過濾理論上,不同n-Gram的總數(shù)為256n=28n(個(gè)),當(dāng)n=4時(shí)便有232=4294967296(個(gè)),但在真實(shí)文本中許多n-Gram是不會(huì)出現(xiàn)的。對(duì)于長度為L字節(jié)的文本,算法的第①步至多可產(chǎn)生(L/s)個(gè)左右的n-Gram,即至多與文本的長度成線性關(guān)系。隨著統(tǒng)計(jì)文本的不斷加大,重復(fù)出現(xiàn)的項(xiàng)數(shù)也會(huì)不斷增多,因而不同n-Gram的數(shù)目將逐漸趨于飽和,如圖1所示。由方法的第⑥步不難發(fā)現(xiàn),若某一n-Gram只在一個(gè)文本中出現(xiàn)(Fk=1),則用向量內(nèi)積計(jì)算文本間的相似度時(shí)該項(xiàng)的貢獻(xiàn)為0;因而在第④步進(jìn)行多路歸并時(shí)我們可以略去Fk=1的所有n-Gram。圖1是文本中所含的過濾前后不同n-Gram的數(shù)目(×104個(gè))與文本長度(×104字節(jié))之間的關(guān)系圖。試驗(yàn)結(jié)果表明,過濾后不同n-Gram的數(shù)目是很小的。顯然,進(jìn)行(示例)檢索時(shí)也可以進(jìn)行類似的過濾,即只保留在示例文本和待檢文本中都出現(xiàn)的n-Gram。由于Sij=Sji,對(duì)于M篇文章,需要進(jìn)行次內(nèi)積運(yùn)算,與M2成比例。進(jìn)行n-Gram的過濾,可以減少存儲(chǔ)量,并提高相似度的計(jì)算速度。(3)n-Gram頻率Fik、Fk的統(tǒng)計(jì)第②、④步中快速排序和歸并的目的是為了后面統(tǒng)計(jì)頻率Fik、Fk以及計(jì)算權(quán)重wik的方便。歸并即把兩個(gè)或兩個(gè)以上的有序文件合并成一個(gè)有序文件的過程,當(dāng)需要?dú)w并兩個(gè)以上的文件時(shí),采用多路歸并可以減少歸并(或文件讀寫)的趟數(shù)(克努特DE著,管紀(jì)文,蘇運(yùn)霖譯,陸汝鈐等校。計(jì)算機(jī)程序設(shè)計(jì)技巧(第三卷)排序和查找。北京國防工業(yè)出版社,1984)。因?yàn)榭焖倥判蚝蜌w并可以在準(zhǔn)線性時(shí)間內(nèi)完成,所以這種統(tǒng)計(jì)頻率的方法是高效的。(4)n-Gram權(quán)重wik的計(jì)算目前被廣泛使用的權(quán)重公式是Wik=Fik/Fk(3)對(duì)這種加權(quán)策略的直觀解釋是第k個(gè)n-Gram在Ti中出現(xiàn)的頻率越高,其貢獻(xiàn)越大;但若該n-Gram在整個(gè)文本集中出現(xiàn)的文本數(shù)較多時(shí),它對(duì)某一文本的貢獻(xiàn)將會(huì)被減弱。這種方法已被廣泛用于信息檢索等領(lǐng)域,并被證明是相當(dāng)有效的(參見SaltonG,AnotherLookatAutomaticText-RetrievalSystems。Commun.ACM,July1986,Vol.29,No.7)。算法的第⑤步在計(jì)算權(quán)重wik時(shí),綜合考慮了n-Gram在文本Ti中的局部分布(Fik項(xiàng))、Ti的長度(Ni項(xiàng))、以及n-Gram在文本集中的全局分布(Fk項(xiàng))情況。一些高頻的n-Gram,特別是包含在高頻禁用詞中的那些項(xiàng),往往分布較廣(出現(xiàn)的文本數(shù)很大),這里用log2(1+Fk)項(xiàng)給予適當(dāng)?shù)乃p。取對(duì)數(shù)log2(.)的目的是使衰減的幅度不至于太大,并使得Fk=1時(shí)與公式(3)等價(jià)。(5)根據(jù)相似度對(duì)文本進(jìn)行分類、檢索文本分類就是將大量的文本歸到一個(gè)或幾個(gè)文本類別中去,這可廣泛應(yīng)用于許多環(huán)境。這些環(huán)境有為信息檢索服務(wù)信息檢索系統(tǒng)必須操縱大量的數(shù)據(jù),其文本信息庫可能是相當(dāng)龐大的(如電子圖書館的文獻(xiàn)庫);同時(shí)用來表示文本內(nèi)容的詞匯數(shù)量又是成千上萬的。文本分類系統(tǒng)的目的就是對(duì)文本集進(jìn)行有序的組織,把相似的、相關(guān)的文本組織在一起。它作為知識(shí)的組織工具,為信息檢索提供了更高效的搜索策略和更準(zhǔn)確的查詢結(jié)果。郵件分類對(duì)用戶收到的電子郵件進(jìn)行分類。例如麻省理工學(xué)院正在為白宮開發(fā)的郵件分類系統(tǒng),能自動(dòng)地確定每天發(fā)送給總統(tǒng)的大量的電子郵件所屬的類別,如外交、稅收、環(huán)保、家居等,以安排適當(dāng)?shù)娜藛T對(duì)信件內(nèi)容進(jìn)行答復(fù);電子會(huì)議電子會(huì)議是一種新興的會(huì)議方式,所有與會(huì)者通過網(wǎng)絡(luò)電腦系統(tǒng)舉行會(huì)議,與會(huì)者是匿名的,便于形成平等的氣氛,以調(diào)動(dòng)與會(huì)者的積極性,因此能產(chǎn)生大量的意見和建議。接下來再由分類系統(tǒng)對(duì)這些意見進(jìn)行聚類和組織,最后確定需進(jìn)一步討論的主題;信息過濾每個(gè)信息用戶都有一個(gè)用戶模板,以說明該用戶的特殊需求;信息服務(wù)器提供給用戶接觸各種各樣的信息源的途徑,采用信息過濾技術(shù)來控制信息的分配,把信息分發(fā)給可能有興趣的用戶。分類時(shí)文本的類別及數(shù)量可以是預(yù)先確定好的,同時(shí)對(duì)每個(gè)文本類都提供一批預(yù)先分好類的文本,稱為訓(xùn)練文本。根據(jù)訓(xùn)練文本確定文本類的表示(即類模板)。在實(shí)際分類的時(shí)候,根據(jù)前面介紹的方法,計(jì)算所有需要分類的文本與所有類模板之間的相似度。最后按相似度最大的原則對(duì)所有的文本進(jìn)行分類--將文本歸人最相似的一個(gè)或多個(gè)文本類中,即所謂有指導(dǎo)的分類方法。上面所說的郵件分類、信息過濾等,就都屬于有指導(dǎo)的分類。文本的類別及數(shù)量也可以是不確定的,要經(jīng)過文本的組織、聚類后才能得出。這后一種情況又稱為文本聚類。有不少情況,例如電子會(huì)議,系統(tǒng)對(duì)將要處理的文本所屬的領(lǐng)域缺乏任何先驗(yàn)知識(shí),只能通過聚類方式形成文本類。聚類方法通常分為兩類,一種稱為凝聚法,或自底而上的方法,開始時(shí)每篇文本都認(rèn)為是一個(gè)文本類,然后根據(jù)文本類之間的相似情況,不斷地把文本類合并起來;另一種稱為分解法,或自頂而下的方法,開始時(shí)對(duì)全體文本給定一個(gè)較粗的分類,然后再不斷地加以細(xì)化。凝聚法的首要步驟是計(jì)算所有文本之間的相似度,建立起相似度矩陣。假定所要求的文本類數(shù)為Mc,文本的總數(shù)為M,則有如下的聚類算法(F.Murtagh,ASurveyofRecentAdvancesinHierarchicalClusteringAlgorithms,ComputerJournal,Vol.26,No.4,1983)1.設(shè)文本的類數(shù)為n,開始時(shí)n=M,有M個(gè)文本類Ci={D1},i=1,2,….M;2.若n≤Mc,則退出算法;3.尋找相似度最大的兩個(gè)類,比如說是Gi和Gj;4.將Ci和Gj合并起來,刪去Cj,n=n-1,5.重新計(jì)算合并后各文本類之間的相似度,這可以有很多方法,如最近鄰法用兩類中最相似的兩篇文本之間的相似度作為文本類的相似度,即Sim(Ci,Cj)=MAXx∈ci,y∈cjSim(x,y);]]>轉(zhuǎn)第2步。當(dāng)預(yù)先給定的類數(shù)要求滿足后,凝聚算法就自動(dòng)停止。也可用給定的相似度門限V來控制凝聚過程,當(dāng)任意兩個(gè)文本類的相似度均小于V時(shí),算法終止。除了文本分類之外,信息檢索,特別是基于內(nèi)容的檢索技術(shù),即如何有效地僅根據(jù)信息本身的內(nèi)容找到所需要的信息,也是目前研究的熱點(diǎn)。著名期刊BYTE1995年9月曾預(yù)測文本的搜索與檢索將成為繼文字處理和表格處理之后的未來的最重要的五類軟件之一。這中間核心的問題是如何在網(wǎng)絡(luò)環(huán)境下自動(dòng)地按信息本身的內(nèi)容來實(shí)現(xiàn)信息的檢索,而不是如傳統(tǒng)的信息檢索,需要手工對(duì)信息按事先設(shè)計(jì)好的格式嚴(yán)格進(jìn)行統(tǒng)一的加工后(包括分類、標(biāo)記關(guān)鍵詞或索引詞等),才能進(jìn)行有效的檢索。因?yàn)榫W(wǎng)絡(luò)上的大量信息往往是先驗(yàn)知識(shí)不充分、規(guī)模大,實(shí)時(shí)性強(qiáng)(如新聞);語言混雜(包含英語、漢語等多種語言),語言的編碼方式多樣,內(nèi)容分布廣;格式靈活,有時(shí)還含有一定的拼寫錯(cuò)誤和網(wǎng)絡(luò)傳輸錯(cuò)誤等。對(duì)于特定的用戶而言,所需要的信息往往只是其中極小的一部分。同時(shí),僅用幾個(gè)索引詞,一些用戶往往不能明確表達(dá)所要分類或檢索的要求,而以示例文本的形式給出則更方便。這時(shí),根據(jù)前面介紹的方法,計(jì)算所有文本與示例文本之間的相似度,最后按相似度大小對(duì)文本進(jìn)行檢索即可??傊瑢?duì)包含多語種的混合語料庫進(jìn)行分類和檢索,這是模式識(shí)別的問題,包括模式特征的選擇與抽取(即文本內(nèi)容的表示)以及模式按特征進(jìn)行分類(分類算法)兩個(gè)基本環(huán)節(jié)。這里提出的直接采用文本字節(jié)流中包含的n-Gram作為模式特征進(jìn)行多語種文本的分類與檢索,它具有不依賴語種、簡單快速和容錯(cuò)能力強(qiáng)等一系列優(yōu)點(diǎn)。分類、檢索實(shí)例下面的實(shí)驗(yàn)以英、漢兩種語言語料的Gram(6,1)統(tǒng)計(jì)為例,其中漢語文本為全角字符(基于GB-2312-80國標(biāo)碼的兩字節(jié)內(nèi)碼表示),而英語為ASCII碼文本。所用的方法顯然也可用于處理含有更多其他語種(或編碼方案)的語料。1。文本的自動(dòng)聚類(無指導(dǎo)分類)我們首先從已按內(nèi)容分好類的各種漢語或英語語料中選出30篇文本(編號(hào)為1~30),每篇長度在1500-6000字節(jié)之間,其中漢語文本包括地理(1~5)、法律(6~10)、數(shù)理化(11~15)、計(jì)算機(jī)(16~20)四大類;英語文本分為軍事(21~25)、教育(26~30)兩大類;每一類均包含五篇文章。然后計(jì)算所有文本兩兩之間的相似度。最后根據(jù)相似度和最近鄰法對(duì)文本進(jìn)行聚類實(shí)驗(yàn)。圖2的a~c給出上面30個(gè)文本的自動(dòng)聚類結(jié)果,其中中文1~20,英文21~30。圖2-a是基于Gram(6,1)(即s取1,n取6)求出的文本之間相似度的直方圖,圖2-b和圖2-c是基于圖的連通性(即最近鄰法)在不同的相似度門限下進(jìn)行自動(dòng)聚類的結(jié)果。這里用頂點(diǎn)表示文本,邊表示文本之間的相似度;為了直觀,各邊的長短近似反比于其相似度,并略去相似度小于指定門限的所有邊;各門限值取自直方圖中適當(dāng)?shù)墓赛c(diǎn)V1,V2(由直方圖選取門限的方法參見Otsu,N.AThresholdSelectionMethodfromGray-LevelHistograms。IEEETrans.onSystems,ManandCybernetics,Vol.9,No.1,Jan.1979)。圖2-a中可以看出類內(nèi)文本間的相似度一般大于類間的相似度,總的分布直方圖中存在較明顯的峰和谷。三個(gè)最明顯的峰值區(qū)分別對(duì)應(yīng)于不同語種(英語與漢語)的文本之間的相似度,相同語種的類間文本之間的相似度,相同語種的類內(nèi)文本間的相似度。由于字符編碼的差異較大,不同語種的文本之間的相似度幾乎為0。若采用更復(fù)雜的層次聚類的算法,即先選擇較低的門限V1將文本按語種或編碼分開,如圖2-b;然后再在同一語種中按更高的門限V2進(jìn)行領(lǐng)域聚類,如圖2-c,將會(huì)得到更好的聚類效果。2。示例分類(有指導(dǎo)分類)我們從已按中圖法分好類的各種漢語語料中選出229篇文本,并從LOB語料庫中選出27篇英語文本,總的混合語料庫共有256篇文本,每篇長度在400-5000字節(jié)之間,它們所覆蓋的類別Ci(漢語)或Ei(英語)以及各個(gè)類別所包含的文本數(shù)Ni如表1中的第一行。然后,從各類別中選取一篇文本作為相應(yīng)類的代表樣本Ri,并計(jì)算所有文本(包括Ri)與所有代表樣本之間的相似度。最后按相似度最大的原則對(duì)所有的文本進(jìn)行分類--將某一文本分入最相似的Ri所在的類別中。表1的第二、三行分別給出了基于詞頻統(tǒng)計(jì)和基于Gram(6,1)統(tǒng)計(jì)的分類結(jié)果。如對(duì)于C1類的第二行“15(13)、87%(76%)”表示“有15篇文本被分入該類其中13篇屬于正確分類,精度(正確率)為87%,查全率(見后文定義)為76%”。表中最后一列為256篇文本中正確分類的總篇數(shù)、總精度和總查全率。詞頻統(tǒng)計(jì)中分詞所用的詞典約含有七萬詞匯,過濾用的禁用詞表STOPLIST={a,and,for,in,of,that,the,to,不,的,地,和,了,是,一,在},同時(shí)被濾掉還有一些常用的全、半角標(biāo)點(diǎn)符號(hào)?;贕ram(6,1)統(tǒng)計(jì)并不需要詞典和STOPLIST。從分類的精度(正確率)來看,基于Gram(6,1)和詞頻統(tǒng)計(jì)的總精度分別為91%和86%,總的查全率也分別為91%和86%,總的結(jié)果是基于Gram(6,1)統(tǒng)計(jì)較之詞頻統(tǒng)計(jì)的要好。表1基于Gram(6,1)和基于詞頻統(tǒng)計(jì)的示例分類結(jié)果(Ci中文,Ei英文)</tables>3。不例檢索(Example-BasedRetrieval)類似于示例分類,示例檢索的目的是檢出與示例(代表樣本Ri)相關(guān)的所有文本。一般是先計(jì)算出語料庫中各文本與Ri的相似度,然后取出相似度超過一定門限的所有文本作為檢索的結(jié)果。示例檢索還允許示例樣本Ri包含有多個(gè)文本,但這里假定示例樣本Ri為單個(gè)文本的情況。測試語料為示例分類時(shí)所用的256篇文本。為了避免選例的偶然性,我們首先在同一類別內(nèi)選擇五個(gè)Ri進(jìn)行實(shí)驗(yàn),分別計(jì)算每一次的精度(Precision)和查全率(Recall),以及該類五次實(shí)驗(yàn)的平均精度和平均查全率;然后再用平均值進(jìn)行不同類別之間的比較。其中精度(Precision)=(檢出的相關(guān)文本數(shù)/檢出的總文本數(shù))×100%查全率(Recall)=(檢出的相關(guān)文本數(shù)/語料庫中相關(guān)文本的總數(shù))×100%表2是對(duì)計(jì)算機(jī)類分別基于詞頻和基于Gram(6,1)進(jìn)行實(shí)驗(yàn)的結(jié)果,每列給出的是同一查全率下各次實(shí)驗(yàn)的精度,其中最后一行為同一領(lǐng)域中五次實(shí)驗(yàn)的平均精度。圖3是3個(gè)不同領(lǐng)域中基于Gram(6,1)和基于詞頻統(tǒng)計(jì)的示例檢索的平均精度,這里英文語料僅測試一組。(詞頻統(tǒng)計(jì)時(shí)所用的詞典和STOPLIST同上。)表2中顯然有無論采用詞頻還是Gram(6,1),檢索結(jié)果都與選例有一定的關(guān)系,但它們的變化趨勢是一致的。即采用詞頻檢索的效果較好時(shí),則采用Gram(6,1)也同樣能得到很好的結(jié)果。圖3表示基于Gram(6,1)示例檢索的平均效果顯然要好一些。表2同一領(lǐng)域內(nèi)示例檢索的精度%(計(jì)算機(jī)類)</tables>下面討論本發(fā)明方法的容錯(cuò)性我們首先對(duì)前面自動(dòng)聚類時(shí)所用的30篇文本進(jìn)行一定比例的隨機(jī)污染,即用等概率對(duì)文本任一位置處的字節(jié)進(jìn)行隨意刪除、插入或改動(dòng)(用0-255之間的隨機(jī)數(shù)),直到原文被變動(dòng)過的字節(jié)數(shù)達(dá)到一定的比例。下面是污染前后的文本片斷,其中被隨機(jī)污染約10%左右。原文Only34percentofboysleavingschoolenterapprenticeshipsorlearnershipsinskilledoperations.Andyetthereisneedfortechnicaltrainingforthose…污染Onl34centofboysley,,”ingschoo_ent5rapprYntices=ipsorlearnershipNinsk衍ladoperatio#ns.AndymtthereisfortechnicaltrainiUgfoethoseI0原文041民事知識(shí)產(chǎn)權(quán)0103中華人民共和國專利法(1984年3月12日第6屆全國人民代表大會(huì)常務(wù)委員會(huì)第4次會(huì)議通過)第一條為了保護(hù)發(fā)明創(chuàng)造專利權(quán),鼓勵(lì)發(fā)明創(chuàng)造有利于發(fā)明創(chuàng)造的推廣應(yīng)用,促進(jìn)科學(xué)技術(shù)的發(fā)展,污染041民事□識(shí)產(chǎn)權(quán)xβt保埃V謝a,,~人民共和國專利法Tǎ保梗福茨輳吃攏保日第#屆全國人民‰#表大會(huì)牛務(wù)瘟員會(huì)第4次會(huì)議通供第一□為了保護(hù)發(fā)明創(chuàng)造□權(quán),鼓勵(lì)發(fā)明創(chuàng)造有利于發(fā)叢i}耐乒閿τ?!醮龠M(jìn)科學(xué)技術(shù)的舴然后對(duì)污染之后的文本進(jìn)行示例分類(示例文本從各類的原文中任選一篇,但不進(jìn)行污染)?;谠~頻統(tǒng)計(jì)時(shí)錯(cuò)分的文本數(shù)為六篇,其中包括兩篇英文和四篇漢語;而基于Gram(6,1)統(tǒng)計(jì)時(shí)只有一篇英文發(fā)生分類錯(cuò)誤。因此,基于Gram(6,1)統(tǒng)計(jì)的方法對(duì)拼寫錯(cuò)誤具有很強(qiáng)的容錯(cuò)性。本發(fā)明提出的基于n-Gram統(tǒng)計(jì)特性的文本分類和檢索方法,與現(xiàn)有的其他方法比較,其主要特點(diǎn)是對(duì)輸入文本所需了解的先驗(yàn)知識(shí)很少,可同時(shí)處理多種語言;不需要任何詞典(包括禁用詞表STOPLIST);不需要對(duì)文本進(jìn)行分詞(對(duì)于漢語)或抽詞干(對(duì)于英語)等預(yù)處理,避免了對(duì)切分歧義及未知詞的處理等許多棘手的問題。因此可廣泛用于大規(guī)模多語種語料的自動(dòng)聚類、領(lǐng)域分類、過濾、分配以及檢索等領(lǐng)域。經(jīng)對(duì)含有英、漢兩種語言的語料(共有256篇文本)進(jìn)行試驗(yàn),結(jié)果表明該方法在魯棒性(即容錯(cuò)性)、速度、檢索與分類精度等方面都優(yōu)于直接采用詞頻統(tǒng)計(jì)的方法。由于本發(fā)明具有不依賴語種、簡單快速和容錯(cuò)能力強(qiáng)等一系列優(yōu)點(diǎn),極易于在微機(jī)上實(shí)現(xiàn),并可集成到各種應(yīng)用系統(tǒng)中。附圖1為不同n-Gram的數(shù)目(×104個(gè))與文本長度(×104字節(jié))的關(guān)系圖,此時(shí)n=6,s=1。附圖2-a為聚類實(shí)例中30個(gè)文本兩兩之間的相似度分布直方圖,其歸一化相似度SIM=(Sij/Max(Sij))×100%。附圖2-b為當(dāng)門限為V1時(shí)的聚類結(jié)果。附圖2-c為當(dāng)門限為V2時(shí)的聚類結(jié)果。附圖3為基于Gram(6,1)和基于詞頻統(tǒng)計(jì)的示例檢索結(jié)果,其中給出了3個(gè)不同領(lǐng)域示例檢索的平均精度%。權(quán)利要求1.一種跨語種語料自動(dòng)分類與檢索方法,設(shè)A={e1,e2,e3,…,e256}為造字或造詞基本元素的集合,記A上長度為n個(gè)字母的字符串為n-Gram。對(duì)于某一文本,當(dāng)截取窗口寬度為n,移動(dòng)步長為s個(gè)字節(jié)時(shí),得到的所有的n-Gram記作Gram(n,s),稱為該文本的Gram(n,s)表示,其特征在于用文本的Gram(n,s)表示以及文本中的n-Gram分布特性來表示文本的特征,并由此計(jì)算文本之間的相似度;然后,根據(jù)相似度大小對(duì)文本進(jìn)行自動(dòng)聚類、領(lǐng)域分類、檢索。具體步驟如下對(duì)于件數(shù)為M的一批文本T1,T2,…,TM,我們可以求出基于n-Gram的文本特征表示以及文本間的相似度,即①讀入文本Ti,從文本開始按給定的長度n和步長s產(chǎn)生Ti的Gram(n,s),并記錄所有n-Gram的總個(gè)數(shù)Ni;②將①中得到的Gram(n,s)進(jìn)行快速排序,并將結(jié)果放于緩沖區(qū)中。③重復(fù)①②,直到M個(gè)文本都處理完畢。④采用多路歸并方法,統(tǒng)計(jì)出以上緩沖區(qū)中M個(gè)文本所含的相異n-Gram,并統(tǒng)計(jì)各個(gè)n-Gram所出現(xiàn)的文本數(shù)Fk以及在Ti中的頻數(shù)Fik,濾掉只在一個(gè)文本中出現(xiàn)(Fk=1)的所有項(xiàng),以便壓縮n-Gram的總數(shù)目。N為過濾后相異n-Gram的總個(gè)數(shù)。⑤對(duì)④中所有Fk>1的項(xiàng),按以下公式計(jì)算第k個(gè)n-Gram在Ti中的權(quán)重wikwik=FikNi*log2(1+Fk)----(1)]]>從而得到Ti的特征向量表示(wi1,wi2,...,wiN)。其中Ni為第①步得到的Ti中所有n-Gram的總數(shù),i=1,2,...,M⑥根據(jù)向量內(nèi)積,計(jì)算Ti與Ti之間的相似度Sij=Sim(Ti,Tj)=Σk=1Nwik*wjk----(2)]]>其中Sij=Sji,并且0≤wik≤1,0≤Σk=1NWik≤1,0≤Sij≤1]]>。這里i,j=1,2,...,M;k=1,2,...,N。上述步驟①中n的取值為1≤n≤10,s的取值為1≤s≤n。2.根據(jù)權(quán)利要求1所述的跨語種語料自動(dòng)分類與檢索方法,其特征在于步驟①中取s=1或2,n=2,3,4,5,6。全文摘要本發(fā)明屬計(jì)算機(jī)信息處理
技術(shù)領(lǐng)域:
,是一種跨語種語料自動(dòng)分類與檢索方法。其特點(diǎn)是用文本的Gram(n,s)表示以及其中的n-Gram分布特性來表示文本的特征,并由此計(jì)算文本之間的相似度;然后,根據(jù)相似度大小對(duì)文本進(jìn)行自動(dòng)聚類、領(lǐng)域分類、檢索。與通常的基于字詞頻統(tǒng)計(jì)方法相比,本發(fā)明可同時(shí)處理多種語言,不需要任何詞典,不需要對(duì)文本進(jìn)行分詞或抽詞干等麻煩的預(yù)處理過程。方法的容錯(cuò)性、檢索與分類的速度和精度等更為優(yōu)越,且極易于在微機(jī)上實(shí)現(xiàn)。因此可廣泛用于大規(guī)模多語種語料的自動(dòng)聚類、郵件分類、信息過濾、電子會(huì)議以及信息檢索服務(wù)等領(lǐng)域。文檔編號(hào)G06F17/30GK1158460SQ9611665公開日1997年9月3日申請(qǐng)日期1996年12月31日優(yōu)先權(quán)日1996年12月31日發(fā)明者韋雄觀,吳立德申請(qǐng)人:復(fù)旦大學(xué)