一種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法
【專(zhuān)利摘要】基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法具有如下特征:本發(fā)明將文本分為題目和正文兩個(gè)層次,通過(guò)過(guò)濾構(gòu)建題目-詞語(yǔ)向量,通過(guò)提取關(guān)鍵詞構(gòu)建較低維度的正文-詞語(yǔ)向量,并將主客觀結(jié)合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法用于詞語(yǔ)向量相似度的計(jì)算,分別得到題目和正文的相似度,進(jìn)而得到文本相似度;基于《知網(wǎng)》和語(yǔ)料庫(kù)的詞語(yǔ)-文本索引計(jì)算詞語(yǔ)語(yǔ)義相似度,使詞語(yǔ)表達(dá)簡(jiǎn)潔,計(jì)算結(jié)果能既符合主觀概念又符合客觀語(yǔ)義環(huán)境;文本相似度計(jì)算中,題目和正文并重,且將主客觀結(jié)合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法運(yùn)用其中,避免了高維度的文本-詞語(yǔ)向量,充分提取了文本信息,提高了文本相似度結(jié)果的準(zhǔn)確度,且適用于各種情況下文本的相似性分析。
【專(zhuān)利說(shuō)明】—種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及中文信息處理【技術(shù)領(lǐng)域】,特別涉及一種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法。
【背景技術(shù)】
[0003]隨著計(jì)算機(jī)在個(gè)人用戶(hù)的大量普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)用戶(hù)和網(wǎng)站數(shù)量呈現(xiàn)出爆炸式的增長(zhǎng)方式,網(wǎng)絡(luò)上的信息也隨之海量增長(zhǎng)。文本是計(jì)算機(jī)與互聯(lián)網(wǎng)世界重要的信息載體之一,文本相似度計(jì)算是文本分類(lèi)與文本聚類(lèi)等文本信息處理方式的基礎(chǔ),對(duì)提高文本分類(lèi)、文本聚類(lèi)等方面的效果有重要的意義。國(guó)內(nèi)外學(xué)者在文本相似度計(jì)算領(lǐng)域已經(jīng)有大量的研究工作,目前主流的相似度計(jì)算方法有:
(I)基于向量空間模型的相似度計(jì)算方法
向量空間模型(VSM)是將文本表不成一個(gè)向量,即表不為向量空間中的一個(gè)點(diǎn),向量的每一維表示文本的一個(gè)特征,該特征通常是一個(gè)字或詞。使用VSM進(jìn)行文本表示,需要進(jìn)行的工作包括分詞、停用詞處理、詞根處理以及權(quán)重計(jì)算等,然后文本集D中的任一文本Clj都
可以表示成形如(Wu, W2y......,WwO的向量,其中,Wu表示文本4中詞的權(quán)重。權(quán)重計(jì)算的
方法主要有TFIDF函數(shù)、布爾函數(shù)、頻度函數(shù)等。
[0004]較為簡(jiǎn)單的相似度計(jì)算方法是通過(guò)數(shù)學(xué)方法計(jì)算點(diǎn)與點(diǎn)之間的距離,并以此作為文本相似度。數(shù)學(xué)上應(yīng)用較為廣泛的距離有歐氏距離,街區(qū)距離,冪距離等。
[0005]除了距離相似度之外,學(xué)術(shù)界還提出了基于K最近鄰集(KNN)的相似度計(jì)算方法。K最鄰近方法是使用鄰近點(diǎn)作為相似度的評(píng)判標(biāo)準(zhǔn)。
[0006](2)基于短語(yǔ)的相似度計(jì)算方法
為了在文本表示中增強(qiáng)文本的語(yǔ)義聯(lián)系,許多文本表示方法采用了短語(yǔ)作為特征項(xiàng)。該方法多采用后綴樹(shù)模型,該方法采用兩個(gè)文本之間相交的短語(yǔ)占兩個(gè)文本短語(yǔ)并集的比例作為文本相似度。對(duì)于相交短語(yǔ)需要綜合考慮短語(yǔ)的個(gè)數(shù)、長(zhǎng)度、在兩個(gè)文本中的出現(xiàn)頻度以及語(yǔ)義重要性等指標(biāo),進(jìn)行加權(quán)后得到文本的相似度。在后綴樹(shù)模型中,文本被表示為短語(yǔ)的集合。在一棵后綴樹(shù)中,中間節(jié)點(diǎn)表示兩個(gè)詞串所共有的短語(yǔ),因而可以用兩個(gè)文本的后綴樹(shù)所共有的中間節(jié)點(diǎn)數(shù)來(lái)定義文本相似度。
[0007](3)基于本體的相似度計(jì)算方法
本體由概念和關(guān)系組成,文本可以看作由本體構(gòu)成的集合,可以將文本之間的相似度轉(zhuǎn)化為概念之間的相似度。該類(lèi)方法可以分為以下幾種:1)基于距離的相似度計(jì)算,該方法是根據(jù)兩個(gè)概念在本體樹(shù)狀結(jié)構(gòu)分類(lèi)體系中的路徑長(zhǎng)度來(lái)量化概念之間的語(yǔ)義距離;2)基于信息內(nèi)容的語(yǔ)義相似度計(jì)算,該方法的思想是這樣的:如果兩個(gè)概念之間共享的信息越多,它們之間的語(yǔ)義相似度也就越大;反之,共享的信息越少,相似度也就越小。在本體分類(lèi)體系樹(shù)中, 每個(gè)概念子節(jié)點(diǎn)都是對(duì)其祖先節(jié)點(diǎn)概念的一次細(xì)化和具體化。因此,可以通過(guò)被比較概念的公共父節(jié)點(diǎn)概念詞所包含的信息內(nèi)容來(lái)衡量它們之間的相似度;3)基于屬性的語(yǔ)義相似度算法,該方法認(rèn)為事物由其屬性特征反映其本身,人們用以辨識(shí)或區(qū)分該事物的標(biāo)志就是屬性特征,被比較的文本之間的公共屬性越多則證明相似度越高。
[0008]以上方法雖然各有優(yōu)點(diǎn),但是由于文本結(jié)構(gòu)的復(fù)雜性和語(yǔ)義的多樣性,在很多情況都存在不足。方法(I)中向量空間模型的構(gòu)建簡(jiǎn)便,向量空間之間計(jì)算相似度簡(jiǎn)單易行,但是文本-詞語(yǔ)向量空間模型中詞語(yǔ)的維度會(huì)很大,造成很大的語(yǔ)義噪聲,也會(huì)占用過(guò)多的存儲(chǔ)空間,并且向量空間模型在計(jì)算相似度時(shí)常用字符串匹配的方法,會(huì)割裂內(nèi)在的語(yǔ)義。方法(2)雖然考慮文本的內(nèi)在語(yǔ)義,利用短語(yǔ)的語(yǔ)義聯(lián)系得到文本的語(yǔ)義相似度計(jì)算,但是由于短語(yǔ)的復(fù)雜性,對(duì)于短語(yǔ)的提取包括后綴樹(shù)的構(gòu)建都較為困難。方法(3)利用本體進(jìn)行相似度計(jì)算,該方法直接從文本整體語(yǔ)義方面考慮文本之間的相似度,由于本體是人為構(gòu)建,因此計(jì)算結(jié)果能夠較為符合人的主觀概念,但是把數(shù)量龐大的文本集構(gòu)建成本體,工作量太大,不具有普適應(yīng)性,并且由于本體是人為構(gòu)建的,可能使得計(jì)算結(jié)果脫離客觀語(yǔ)境。
[0009]此外,文本相似度計(jì)算一般包括如下步驟:(I)對(duì)要進(jìn)行相似度計(jì)算的文本進(jìn)行結(jié)構(gòu)化處理,即通過(guò)分詞將文本表示為結(jié)構(gòu)化的向量;(2)對(duì)構(gòu)建的文本-詞語(yǔ)向量進(jìn)行過(guò)濾,使得詞語(yǔ)向量的維度盡可能小,以達(dá)到計(jì)算簡(jiǎn)便和節(jié)省空間的目的;(3)對(duì)表達(dá)文本的詞語(yǔ)向量進(jìn)行相似度計(jì)算,進(jìn)而得到文本的最終相似度,其中詞語(yǔ)向量相似度計(jì)算的傳統(tǒng)方法包括基于本體的、字符串匹配等多種方法。傳統(tǒng)的文本相似度計(jì)算方法會(huì)使表達(dá)文本信息的詞語(yǔ)向量維度較大,并且詞語(yǔ)向量相似度計(jì)算結(jié)果不能既符合主觀概念又符合客觀語(yǔ)。
[0010]文本信息結(jié)構(gòu)復(fù)雜,包含內(nèi)容廣泛,通常的文本相似度計(jì)算只考慮文本正文部分而不考慮文本題目,由于文本題目通常表達(dá)了文本內(nèi)容的主題信息,而題目的關(guān)鍵詞有可能不屬于文本正文的關(guān)鍵詞,所以如果單純以文本正文關(guān)鍵詞向量來(lái)表達(dá)文本可能會(huì)使某些關(guān)鍵信息丟失,
由此可見(jiàn),目前還沒(méi)有一種方法既能夠在表述文本信息方面做到簡(jiǎn)單易行,又能夠從語(yǔ)義角度使文本相似度計(jì)算結(jié)果既符合人的主觀概念又符合客觀語(yǔ)境。為了達(dá)到以上目的,本發(fā)明設(shè)計(jì)了一種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法,不僅使得文本表達(dá)簡(jiǎn)便,而且使得計(jì)算結(jié)果既符合人的主觀概念又能夠符合客觀語(yǔ)境。
【發(fā)明內(nèi)容】
[0011]本發(fā)明目的在于提供一種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法,用于解決文本表達(dá)存在的維度高,以及文本相似度計(jì)算結(jié)果準(zhǔn)確度或合理性有待提高的問(wèn)題。
[0012]本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:本發(fā)明是一種策略性方法。本發(fā)明將文本的表達(dá)分為兩個(gè)層次:文本題目信息和文本正文信息,并提出基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法。本發(fā)明提出的文本相似度計(jì)算方法首先將文本劃分為題目信息和正文信息兩個(gè)部分,然后通過(guò)分詞得到題目-詞語(yǔ)向量和正文-詞語(yǔ)向量,再利用主客觀結(jié)合的詞語(yǔ)語(yǔ)義相似度方法計(jì)算詞語(yǔ)向量相似度,分別得到題目語(yǔ)義相似度和正文的相似度,再將題目語(yǔ)義相似度結(jié)果與正文內(nèi)容語(yǔ)義相似度結(jié)果整合并進(jìn)行歸一化得到最終的文本相似度,如圖1與圖2所示。[0013]本發(fā)明使用如下概念和計(jì)算公式:
(I)詞語(yǔ)信息:記以詞語(yǔ)#為關(guān)鍵詞的文本向量是U1, t2,…,?η},稱(chēng)向量U1, t2,…,?η}是詞語(yǔ)PF的信息內(nèi)容,簡(jiǎn)記為Info M。
[0014](2)詞語(yǔ)覆蓋信息量:將詞語(yǔ)Jf1和的信息內(nèi)容的并集稱(chēng)作詞語(yǔ)覆蓋信息,稱(chēng)詞語(yǔ)覆蓋信息的維數(shù)為詞語(yǔ)覆蓋信息量,記為InfoanXwl, w2),即:
【權(quán)利要求】
1.一種基于主客觀語(yǔ)義的雙層次文本相似度計(jì)算方法,其特征在于,包含如下步驟: 步驟I)構(gòu)建文本語(yǔ)料庫(kù),分詞并提取關(guān)鍵詞,建立文本索引; 步驟2)將每個(gè)要進(jìn)行相似度計(jì)算的文本劃分為題目信息和文本正文內(nèi)容信息兩部分; 步驟3)將文本的題目信息作為語(yǔ)句處理,將題目語(yǔ)句分詞,并過(guò)濾掉副詞、介詞、代詞、連詞、是其他詞的子串的詞,得到語(yǔ)句-詞語(yǔ)向量,將主客觀結(jié)合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法運(yùn)用到詞語(yǔ)向量相似度計(jì)算中,得到文本題目相似度;其中主客觀結(jié)合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法包括如下步驟: 步驟31)利用《知網(wǎng)》對(duì)詞語(yǔ)的定義對(duì)義原進(jìn)行語(yǔ)義距離計(jì)算,再將義原語(yǔ)義距離歸一化得到詞語(yǔ)的主觀語(yǔ)義相似度; 步驟32)在語(yǔ)料庫(kù)的文本索引中,分別搜索要進(jìn)行相似度計(jì)算的詞語(yǔ),根據(jù)搜索結(jié)果,建立詞語(yǔ)的文本向量,然后按照公式(3)計(jì)算詞語(yǔ)客觀語(yǔ)義相似度,公式⑶為:
【文檔編號(hào)】G06F17/27GK103678275SQ201310129124
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年4月15日 優(yōu)先權(quán)日:2013年4月15日
【發(fā)明者】成衛(wèi)青, 吳旭東, 黃衛(wèi)東, 范恒亮 申請(qǐng)人:南京郵電大學(xué)