本發(fā)明涉及一種文本特征抽取技術(shù),具體涉及一種多段落文本的特征抽取系統(tǒng)及方法。
背景技術(shù):
原始文檔經(jīng)過文本處理系統(tǒng)的預(yù)處理、分詞、詞頻統(tǒng)計(jì)、tf-idf計(jì)算及向量生成等步驟被存儲(chǔ)在持久化存儲(chǔ)體中,以備進(jìn)一步的文本計(jì)算應(yīng)用調(diào)用。
通過提取文本特征并轉(zhuǎn)化為向量存儲(chǔ),滿足了文本之間可以進(jìn)行計(jì)算比較的目的,同時(shí)需要保證文本的主要語(yǔ)義在文本向量中得以保留。那么衡量文本特征提取好壞的關(guān)鍵就是:文本的語(yǔ)義是否能夠較好的保留?,F(xiàn)有技術(shù)在文本特征提取時(shí)存在著一個(gè)顯著的缺點(diǎn),就是把文本通篇內(nèi)容對(duì)等待。但是,人們?cè)诮M織文本內(nèi)容時(shí),是把文本作為一個(gè)完整篇章來對(duì)待的,通常是用標(biāo)題來概括全篇的主題,隱含了文章的領(lǐng)域和范疇,在文本首段落明確全文的主要內(nèi)容和核心思想,其它段落分別針對(duì)主題的某個(gè)方面進(jìn)行闡述,通常每個(gè)段落的首句會(huì)表達(dá)全段的主題(但這點(diǎn)經(jīng)常被打破)。一般最后一段會(huì)作為總結(jié)段落陳述結(jié)論或回顧中心思想(資訊或簡(jiǎn)單文章可能不遵循這點(diǎn))。因而,對(duì)于各段落來講,同樣語(yǔ)句、用詞及詞頻在不同的段落其語(yǔ)義權(quán)重(即表達(dá)文本語(yǔ)義的相對(duì)重要性)是不一樣的。
總體來說,對(duì)于段落:標(biāo)題權(quán)重>摘要(如果有)權(quán)重>首段落權(quán)重>尾段落權(quán)重>其它段落權(quán)重;對(duì)于段落內(nèi)各語(yǔ)句:首句權(quán)重>其它句權(quán)重。而當(dāng)前的文本特征提取技術(shù)并沒有把這種行文過程中按段落組織語(yǔ)義的特點(diǎn)考慮進(jìn)去。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的不足,本發(fā)明的目的是提供一種多段落文本的特征抽取系統(tǒng)及方法,本發(fā)明是實(shí)現(xiàn)一種通用、可行的方法來實(shí)現(xiàn)文本特征提取,并在文本特征提取過程中,能夠體現(xiàn)文本中不同段落的權(quán)重差異。
本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供一種多段落文本的特征抽取系統(tǒng),其改進(jìn)之處在于,包括第一計(jì)算模塊、主控模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊;所述第一計(jì)算模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊均與主控模塊進(jìn)行數(shù)據(jù)交互。
進(jìn)一步地,還包括文本向量庫(kù),所述文本向量庫(kù)用于存儲(chǔ)所述主控模塊傳輸?shù)亩温湮谋鞠蛄俊?/p>
進(jìn)一步地,所述第一計(jì)算模塊用于計(jì)算段落文本中的方程組;所述第二計(jì)算模塊用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)的tf-idf計(jì)算。
進(jìn)一步地,所述權(quán)重設(shè)置模塊用于對(duì)生成的方程組進(jìn)行權(quán)重設(shè)置,所述文本處理模塊用于對(duì)段落文本進(jìn)行分段處理。
本發(fā)明還提供一種多段落文本的特征抽取系統(tǒng)的抽取方法,其改進(jìn)之處在于,包括:
對(duì)任一文本t的段落進(jìn)行標(biāo)記;
對(duì)任一文本t設(shè)置期望相對(duì)權(quán)重向量;
采用權(quán)重設(shè)置模塊和文本處理模塊分別對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取,得到段落不同權(quán)重的文本向量。
進(jìn)一步地,所述對(duì)任一文本t的段落進(jìn)行標(biāo)記,包括:
對(duì)任一文本t,由n個(gè)段落組成,第i個(gè)段落標(biāo)記為pi,則t=[p1,p2,…,pn]。
進(jìn)一步地,所述對(duì)任一文本t設(shè)置期望相對(duì)權(quán)重向量,包括:
對(duì)于任一文本t,存在一個(gè)期望相對(duì)權(quán)重向量weights=[w1,w2,…wn],其中,wi表示pi的相對(duì)權(quán)重;wi用絕對(duì)數(shù)值或相對(duì)數(shù)值表示。
進(jìn)一步地,所述對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取,得到段落不同權(quán)重的文本向量,包括下述步驟:
1)對(duì)于t中的每個(gè)段落p,采用分詞器和第二計(jì)算模塊進(jìn)行向量化處理,并將得到的段落文本向量存入n維向量數(shù)組,其中數(shù)組元素為段落pi所對(duì)應(yīng)的文本向量;
2)對(duì)于n維向量數(shù)組中的每個(gè)數(shù)組元素,文本處理模塊生成段落pi所對(duì)應(yīng)的文本向量的權(quán)重和,并存入權(quán)重和數(shù)組;
3)基于權(quán)重和數(shù)組和期望相對(duì)權(quán)重向量weights,生成用于權(quán)重分配的齊次線性方程組,并為方程組添加調(diào)節(jié)系數(shù);
4)采用第一計(jì)算模塊解方程組,得出解為調(diào)節(jié)系數(shù)數(shù)組;
5)調(diào)節(jié)各段落文本向量:把調(diào)節(jié)系數(shù)與對(duì)應(yīng)的文本向量相乘,得出調(diào)節(jié)后的段落文本向量;
6)合并段落文本向量:將n維向量數(shù)組中乘過調(diào)節(jié)系統(tǒng)的段落文本向量進(jìn)行累加,得到最終的體現(xiàn)各段落不同權(quán)重的段落文本向量,將段落文本向量存儲(chǔ)至文本向量庫(kù)中。
進(jìn)一步地,所述步驟2)中,文本向量的權(quán)重和計(jì)算方法為:將段落pi所對(duì)應(yīng)的文本向量中每個(gè)元素值相加,返回累加結(jié)果,文本向量的權(quán)重和存入權(quán)重和數(shù)組的相應(yīng)位置。
進(jìn)一步地,所述步驟3)中,齊次線性方程組以矩陣表示,最終返回一個(gè)二組數(shù)組;對(duì)每個(gè)段落增加一個(gè)調(diào)節(jié)系數(shù),包括:調(diào)節(jié)系數(shù)ci滿足等式(paragraphweight[i]*ci)/(paragraphweight[i]*ci)=weights[i];
其中:ci為段落pi的調(diào)節(jié)系數(shù);得到特定解時(shí),在方程組中添加約束條件sum(ci)=1;paragraphweight[]為權(quán)重和數(shù)組;weights[i]為期望相對(duì)權(quán)重向量;
優(yōu)選的,所述步驟5)中,即對(duì)于n維向量數(shù)組中的每個(gè)數(shù)組元素,滿足vectorarray[i][j]*coefficients[i],然后保存在原文本向量的原位置上。
其中:coefficients[i]為調(diào)節(jié)系數(shù)數(shù)組元素,vectorarray[i][j]為n維向量數(shù)組,i、j=1、2、3、......、n,i表示數(shù)組的行,j表示數(shù)組的列。
與最接近的現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案達(dá)到的有益效果是:
本發(fā)明實(shí)現(xiàn)一種通用、可行的方法來實(shí)現(xiàn)文本特征提取,并在文本特征提取過程中,能夠體現(xiàn)文本中不同段落的權(quán)重差異,具體為:
1.精度和效率高:提取的文本向量能夠更好地反應(yīng)原文的語(yǔ)義特征,能夠大幅度提高用戶可感知的文本推薦精度,并且可以根據(jù)各類應(yīng)用的需要隨時(shí)調(diào)整各段落的相對(duì)權(quán)重。
2.成本低廉:可以方便地各種文本處理系統(tǒng)銜接,只需替換原有的文本向量生成部分即可。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是現(xiàn)在技術(shù)的文本提取的主要結(jié)構(gòu)和原理圖;
圖2是多段落文本的特征抽取系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施方式,都屬于本發(fā)明所保護(hù)的范圍。
實(shí)施例一、
本發(fā)明提供一種多段落文本的特征抽取系統(tǒng),其結(jié)構(gòu)圖如圖2所示,包括第一計(jì)算模塊、主控模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊;所述第一計(jì)算模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊均與主控模塊進(jìn)行數(shù)據(jù)交互。
上述實(shí)施例中,還包括文本向量庫(kù),所述文本向量庫(kù)用于存儲(chǔ)所述主控模塊傳輸?shù)亩温湮谋鞠蛄俊?/p>
上述實(shí)施例中,所述第一計(jì)算模塊用于計(jì)算段落文本中的方程組;所述第二計(jì)算模塊用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)的tf-idf計(jì)算。
上述實(shí)施例中,所述權(quán)重設(shè)置模塊用于對(duì)生成的方程組進(jìn)行權(quán)重設(shè)置,所述文本處理模塊用于對(duì)段落文本進(jìn)行分段處理。
實(shí)施例二、
本發(fā)明還提供一種多段落文本的特征抽取系統(tǒng)的抽取方法,包括:
s1:對(duì)于任一文本t,假設(shè)其由n個(gè)段落組成,第i個(gè)段落標(biāo)記為pi,則t=[p1,p2,…,pn]。
s2:對(duì)于任一文本t,假設(shè)存在一個(gè)期望相對(duì)權(quán)重向量weights=[w1,w2,…wn],其中,wi表示pi的相對(duì)權(quán)重。wi可以用絕對(duì)數(shù)值來表示(如:整型數(shù)值),也可以相對(duì)數(shù)值來表示(如:百分比)。
s3:采用權(quán)重設(shè)置模塊和文本處理模塊分別對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取,得到段落不同權(quán)重的文本向量,包括下述子步驟:
1)對(duì)于t中的每個(gè)段落p,采用分詞器和第二計(jì)算模塊進(jìn)行向量化處理,并將得到的段落文本向量存入n維向量數(shù)組vectorarray[],其中數(shù)組元素vectorarray[i]為段落pi所對(duì)應(yīng)的文本向量;
2)對(duì)于vectorarray中的每個(gè)元素vectorarray[i],生成該向量的權(quán)重和,計(jì)算方法為:將該向量中每個(gè)元素值相加,返回累加結(jié)果。向量和存入數(shù)組paragraphweight[]的相應(yīng)位置。
3)基于paragraphweight和weights,生成用于權(quán)重分配的齊次線性方程組。方程組直接以矩陣來表示,最終返回一個(gè)二組數(shù)組。為使每個(gè)段落的文本向量在最終向量中達(dá)到相應(yīng)的相對(duì)權(quán)重要求,需要對(duì)每個(gè)段落增加一個(gè)調(diào)節(jié)系數(shù),方程組就是關(guān)于調(diào)節(jié)系數(shù)的。假設(shè)段落pi的調(diào)節(jié)系數(shù)為ci,則ci需滿足等式(paragraphweight[i]*ci)/(paragraphweight[i]*ci)=weights[i]。為得到特定解,在方程組中添加約束條件sum(ci)=1。
4)采用第一計(jì)算模塊解方程組,得出解為調(diào)節(jié)系數(shù)數(shù)組coefficients[n]。
5)調(diào)節(jié)各段落文本向量:把調(diào)節(jié)系數(shù)與對(duì)應(yīng)的文本向量相乘,得出調(diào)節(jié)后的文本向量。即對(duì)于vectorarray中的每個(gè)向量vectorarray[i],將其中的每個(gè)元素vectorarray[i][j]*coefficients[i],然后保存在原文本向量的原位置上。
6)合并文本向量:將vectorarray中乘過調(diào)節(jié)系統(tǒng)的文本向量進(jìn)行累加,得到最終的體現(xiàn)各段落不同權(quán)重的文本向量,將段落文本向量存儲(chǔ)至文本向量庫(kù)中。
本發(fā)明的技術(shù)方案在提取的文本向量能夠更好地反應(yīng)原文的語(yǔ)義特征,能夠大幅度提高用戶可感知的文本推薦精度,精度和效率高,并且可以根據(jù)各類應(yīng)用的需要隨時(shí)調(diào)整各段落的相對(duì)權(quán)重。可以方便地各種文本處理系統(tǒng)銜接,只需替換原有的文本向量生成部分即可,成本低廉。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。