一種基于局部隨機(jī)詞匯密度模型poi中文文本分類(lèi)的方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,該基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法包括以下步驟:首先采用貝葉斯分類(lèi)器判斷文本主題是否為POI相關(guān),利用改進(jìn)的詞匯集中度、離散度和頻度方法,篩選出特征詞以構(gòu)建特征空間;依據(jù)文本與各POI類(lèi)別的相似度進(jìn)行局部區(qū)域劃分,在每個(gè)局部區(qū)域內(nèi)通過(guò)特征映射矩陣將文本轉(zhuǎn)為特征向量,最終利用SVM進(jìn)行POI文本分類(lèi)。本發(fā)明通過(guò)了執(zhí)行效率、分類(lèi)覆蓋率和準(zhǔn)確率。今后擬結(jié)合知網(wǎng)大型知識(shí)庫(kù),捕獲低頻詞匯和未見(jiàn)詞匯的語(yǔ)義概念,進(jìn)一步提高對(duì)POI文本差異的識(shí)別能力,較好的解決了現(xiàn)有的常規(guī)的特征評(píng)價(jià)函數(shù)和文本降維方法并不能取得較好的分類(lèi)性能的問(wèn)題。
【專(zhuān)利說(shuō)明】一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于海量興趣點(diǎn)文本分類(lèi)【技術(shù)領(lǐng)域】,尤其涉及一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法。
【背景技術(shù)】
[0002]傳統(tǒng)的海量興趣點(diǎn)(Point of Interest, P0I)采集方式為各級(jí)測(cè)繪部門(mén)的外業(yè)調(diào)查。這種方式所采集數(shù)據(jù)精度高,但采集效率較低,信息更新速度慢,覆蓋面往往不足。此夕卜,POI采集還有專(zhuān)業(yè)公司生產(chǎn)和VGI大眾采集(如Go2Map和Locationary公司)兩種方式,前者仍然沒(méi)有解決需要大量人工標(biāo)注POI的問(wèn)題,導(dǎo)致數(shù)據(jù)深度不足、更新困難;后者存在海量多源POI數(shù)據(jù)管理、平臺(tái)異構(gòu)、服務(wù)知名度、數(shù)據(jù)質(zhì)量和數(shù)據(jù)保密性等方面的問(wèn)題。
[0003]當(dāng)前,各種新聞網(wǎng)站、博客、門(mén)戶(hù)網(wǎng)站和大眾生活網(wǎng)站等包含了大量POI更新信息,它們準(zhǔn)確性較高,現(xiàn)勢(shì)性好,是快速獲取POI更新信息一種新途徑[2] [6] [7] [8]。而作為Web上大規(guī)模POI信息抽取的重要前期數(shù)據(jù)清洗工作之一,POI文本分類(lèi)能過(guò)濾掉大量無(wú)效文本,利于依據(jù)POI類(lèi)別采用不同方法進(jìn)行POI信息抽取,提高POI信息質(zhì)量,也便于POI信息的入庫(kù)和檢索。
[0004]與一般文本不同的是,POI文本中主題POI名稱(chēng)的語(yǔ)法位置并不固定,且同一類(lèi)別POI的名稱(chēng)多變,多個(gè)不同類(lèi)別的POI又常共處同一文本,僅僅通過(guò)句法模式或直接采用Boff(Bag of Words)的機(jī)器學(xué)習(xí)方法難以正確識(shí)別文本的主題POI類(lèi)別。此外,不同類(lèi)別POI文本間交叉和重疊用詞現(xiàn)象嚴(yán)重,如“道路”和“橋梁”類(lèi)別的POI文本中,大都包含了長(zhǎng)度信息、所跨越的地名信息,因此,常規(guī)的特征評(píng)價(jià)函數(shù)和文本降維方法并不能取得較好的分類(lèi)性能。
[0005]在文本降維研究中,TF-1DF是常見(jiàn)的降維方式,但其不能發(fā)現(xiàn)詞匯之間語(yǔ)義相似性。LS將文檔詞頻向量通過(guò)矩陣奇異值分解轉(zhuǎn)換到潛在語(yǔ)義空間,然而潛在語(yǔ)義空間的物理含義無(wú)法明確。Probabilistic LSI (pLSI)利用概率生成模型將文檔看做是某組主題分布下的詞匯集合;LDA在pLSI的基礎(chǔ)上,利用Dirichlet先驗(yàn)分布進(jìn)行文檔主題分布的描述,具有較高健壯性和準(zhǔn)確性,目前LDA及其變體已在文本層次分類(lèi)等多個(gè)方面有了深入應(yīng)用,但PLSI與LDA執(zhí)行效率較低。利用大型詞匯知識(shí)庫(kù)(WordNet、SUMO等)進(jìn)行降維,但沒(méi)有針對(duì)領(lǐng)域需求從詞匯分布特征上進(jìn)行分析。Xu[ll]通過(guò)文本中詞匯的隨機(jī)刪除和重構(gòu)來(lái)獲取詞匯間的語(yǔ)義關(guān)聯(lián)強(qiáng)度,其中僅以語(yǔ)料庫(kù)中的頻繁詞作為特征詞,且沒(méi)有給出模型迭代的停止條件。
[0006]在POI分類(lèi)相關(guān)研究中,蔣睿利用POI主題網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行網(wǎng)頁(yè)分類(lèi);張華平提出了從網(wǎng)絡(luò)的新聞中抽取POI相關(guān)信息的方式,但獲取到的Web文本不一定滿足POI文本的有效性,如搜索“武漢道路”,得到的很多文本是描述道路上發(fā)生的事件,而不是有效的POI信息。此外,較多學(xué)者從地名、機(jī)構(gòu)名及地址抽取角度進(jìn)行了與中文文本POI信息抽取相關(guān)的研究。但他們都沒(méi)有進(jìn)行POI文本的有效性驗(yàn)證,也沒(méi)有提供相應(yīng)方法判斷文本的主題POI類(lèi)別。張玲給出了 POI分類(lèi)的原則和方法;張雪英以地理命名實(shí)體所指代的空間位置、地理特征和屬性作為分類(lèi)標(biāo)準(zhǔn)設(shè)計(jì)了地理命名實(shí)體分類(lèi)體系,他們給出了 POI分類(lèi)體系,但同樣未涉及具體POI文本分類(lèi)的研究。
[0007]總體來(lái)說(shuō),目前還未見(jiàn)詳細(xì)闡述POI文本分類(lèi),常規(guī)的特征評(píng)價(jià)函數(shù)和文本降維方法并不能取得較好的分類(lèi)性能。
【發(fā)明內(nèi)容】
[0008]本發(fā)明實(shí)施例的目的在于提供一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,旨在解決現(xiàn)有的常規(guī)的特征評(píng)價(jià)函數(shù)和文本降維方法并不能取得較好的分類(lèi)性能的問(wèn)題。
[0009]本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,該基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法包括以下步驟:
[0010]采用貝葉斯分類(lèi)器判斷文本主題是否為POI相關(guān),利用改進(jìn)的詞匯集中度、離散度和頻度方法,篩選出特征詞以構(gòu)建特征空間;
[0011]依據(jù)文本與各POI類(lèi)別的相似度進(jìn)行局部區(qū)域劃分,在每個(gè)局部區(qū)域內(nèi)通過(guò)特征映射矩陣將文本轉(zhuǎn)為特征向量;
[0012]最終利用SVM進(jìn)行POI文本分類(lèi);
[0013]具體的步驟為:
[0014]第一步,文檔有效性判斷:采用貝葉斯分類(lèi)器,基于文檔詞頻向量模型進(jìn)行分類(lèi)器訓(xùn)練,只要文本中含有較多某一類(lèi)或若干類(lèi)POI常涉及的詞匯,則即可被判斷為有效;再建立建立局部隨機(jī)詞匯密度模型;
[0015]第二步,基于詞匯離散度、集中度和頻度選取出特征詞,以特征詞為維度構(gòu)建特征空間;
[0016]第三步,局部區(qū)域劃分:在局部區(qū)域劃分方法中,屬于同一 POI類(lèi)別的文本均屬于相同的局部區(qū)域,且每個(gè)局部區(qū)域需包含其他各類(lèi)別一定數(shù)量的文本作為反例,為每個(gè)局部區(qū)域設(shè)置反例文本數(shù)量的方法為:
[0017]設(shè)類(lèi)別總數(shù)為m,當(dāng)前設(shè)置反例數(shù)量的類(lèi)別為cx,計(jì)算Ci (i G {1,...,x-1,
x+1,...,m})中所有文檔與類(lèi)別Cx的相似度((Iij表示Ci類(lèi)別中第j篇文檔),相似
度大于閾值、的文本作為cx的反例,相似度&,~,公式為:
【權(quán)利要求】
1.一種基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,其特征在于,該基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法包括以下步驟: 采用貝葉斯分類(lèi)器判斷文本主題是否為POI相關(guān),利用改進(jìn)的詞匯集中度、離散度和頻度方法,篩選出特征詞以構(gòu)建特征空間; 依據(jù)文本與各POI類(lèi)別的相似度進(jìn)行局部區(qū)域劃分,在每個(gè)局部區(qū)域內(nèi)通過(guò)特征映射矩陣將文本轉(zhuǎn)為特征向量; 最終利用SVM進(jìn)行POI文本分類(lèi); 具體的步驟為: 第一步,文檔有效性判斷:采用貝葉斯分類(lèi)器,基于文檔詞頻向量模型進(jìn)行分類(lèi)器訓(xùn)練,只要文本中含有較多某一類(lèi)或若干類(lèi)POI常涉及的詞匯,則即可被判斷為有效;再建立建立局部隨機(jī)詞匯密度模型; 第二步,基于詞匯離散度、集中度和頻度選取出特征詞,以特征詞為維度構(gòu)建特征空間; 第三步,局部區(qū)域劃分:在局部區(qū)域劃分方法中,屬于同一 POI類(lèi)別的文本均屬于相同的局部區(qū)域,且每個(gè)局部區(qū)域需包含其他各類(lèi)別一定數(shù)量的文本作為反例,為每個(gè)局部區(qū)域設(shè)置反例文本數(shù)量的方法為: 設(shè)類(lèi)別總數(shù)為m,當(dāng)前設(shè)置反例數(shù)量的類(lèi)別為Cx,計(jì)算Ci(i e {1,...,x-1, x+1,m})中所有文檔與類(lèi)別cx的相似度(du表示(^類(lèi)別中第j篇文檔),相似度大于閾值入的文本作為cx的反例,相似度公式為:
2.如權(quán)利要求1所述的基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,第四步,局部特征映射矩陣的獲取:LRTDM的目標(biāo)就是求解每個(gè)局部區(qū)域內(nèi)的映射矩陣表示第j個(gè)局部區(qū)域),映射矩陣的獲取過(guò)程,Mj表示為M,具體方法為: 步驟一,定義 詞匯表:W={Wl,w2,...,wn},為POI文本集中所有的詞匯,其中詞匯總數(shù)為n=|W| ; 文檔詞頻向量模型:
3.如權(quán)利要求1所述的基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,在第一步中,特征空間由基于離散度、集中度和頻度獲取的具有最大類(lèi)別區(qū)分作用的詞匯構(gòu)成,在各局部區(qū)域內(nèi)構(gòu)建相應(yīng)的特征映射矩陣。
4.如權(quán)利要求1所述的基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,在第一步中,建立局部隨機(jī)詞匯密度模型的方法為: 步驟一,篩選出能顯著區(qū)分POI類(lèi)別的特征詞以構(gòu)建特征空間; 步驟二,以類(lèi)別為單位基于文本語(yǔ)義關(guān)聯(lián)性劃分局部區(qū)域,在局部區(qū)域內(nèi)的進(jìn)行詞匯隨機(jī)刪除和重構(gòu)過(guò)程的迭代,得到局部特征映射矩陣,從而在各局部區(qū)域內(nèi)將所有訓(xùn)練POI文本轉(zhuǎn)換到特征空間,以訓(xùn)練局部二值分類(lèi)器; 步驟三,最終利用所有局部二值分類(lèi)器共同對(duì)測(cè)試POI文本進(jìn)行分類(lèi)。
5.如權(quán)利要求1所述的基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,在第二步中,頻度指的是特征在某類(lèi)別中出現(xiàn)的次數(shù),在同一類(lèi)文本中出現(xiàn)次數(shù)多的詞匯對(duì)這類(lèi)文本有較好的代表性,特征t在Ci類(lèi)內(nèi)的頻度計(jì)算公式為:
6.如權(quán)利要求1所述的基于局部隨機(jī)詞匯密度模型POI中文文本分類(lèi)的方法,得到迭代停止條件的證明如下: 設(shè)M0為單位對(duì)角矩陣,Mk為第k次(k>2)迭代產(chǎn)生的局部特征映射矩陣,由最小乘法原理可知:
【文檔編號(hào)】G06F17/30GK103605729SQ201310577670
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年11月19日 優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】段煉, 胡寶清, 覃開(kāi)賢 申請(qǐng)人:段煉