一種多段落文本的特征抽取系統(tǒng)及方法與流程

文檔序號(hào)：11407138閱讀：226來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種文本特征抽取技術(shù)，具體涉及一種多段落文本的特征抽取系統(tǒng)及方法。

背景技術(shù)：

原始文檔經(jīng)過文本處理系統(tǒng)的預(yù)處理、分詞、詞頻統(tǒng)計(jì)、tf-idf計(jì)算及向量生成等步驟被存儲(chǔ)在持久化存儲(chǔ)體中，以備進(jìn)一步的文本計(jì)算應(yīng)用調(diào)用。

通過提取文本特征并轉(zhuǎn)化為向量存儲(chǔ)，滿足了文本之間可以進(jìn)行計(jì)算比較的目的，同時(shí)需要保證文本的主要語(yǔ)義在文本向量中得以保留。那么衡量文本特征提取好壞的關(guān)鍵就是：文本的語(yǔ)義是否能夠較好的保留?，F(xiàn)有技術(shù)在文本特征提取時(shí)存在著一個(gè)顯著的缺點(diǎn)，就是把文本通篇內(nèi)容對(duì)等待。但是，人們?cè)诮M織文本內(nèi)容時(shí)，是把文本作為一個(gè)完整篇章來對(duì)待的，通常是用標(biāo)題來概括全篇的主題，隱含了文章的領(lǐng)域和范疇，在文本首段落明確全文的主要內(nèi)容和核心思想，其它段落分別針對(duì)主題的某個(gè)方面進(jìn)行闡述，通常每個(gè)段落的首句會(huì)表達(dá)全段的主題(但這點(diǎn)經(jīng)常被打破)。一般最后一段會(huì)作為總結(jié)段落陳述結(jié)論或回顧中心思想(資訊或簡(jiǎn)單文章可能不遵循這點(diǎn))。因而，對(duì)于各段落來講，同樣語(yǔ)句、用詞及詞頻在不同的段落其語(yǔ)義權(quán)重(即表達(dá)文本語(yǔ)義的相對(duì)重要性)是不一樣的。

總體來說，對(duì)于段落：標(biāo)題權(quán)重>摘要(如果有)權(quán)重>首段落權(quán)重>尾段落權(quán)重>其它段落權(quán)重；對(duì)于段落內(nèi)各語(yǔ)句：首句權(quán)重>其它句權(quán)重。而當(dāng)前的文本特征提取技術(shù)并沒有把這種行文過程中按段落組織語(yǔ)義的特點(diǎn)考慮進(jìn)去。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)中的不足，本發(fā)明的目的是提供一種多段落文本的特征抽取系統(tǒng)及方法，本發(fā)明是實(shí)現(xiàn)一種通用、可行的方法來實(shí)現(xiàn)文本特征提取，并在文本特征提取過程中，能夠體現(xiàn)文本中不同段落的權(quán)重差異。

本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的：

本發(fā)明提供一種多段落文本的特征抽取系統(tǒng)，其改進(jìn)之處在于，包括第一計(jì)算模塊、主控模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊；所述第一計(jì)算模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊均與主控模塊進(jìn)行數(shù)據(jù)交互。

進(jìn)一步地，還包括文本向量庫(kù)，所述文本向量庫(kù)用于存儲(chǔ)所述主控模塊傳輸?shù)亩温湮谋鞠蛄俊?/p>

進(jìn)一步地，所述第一計(jì)算模塊用于計(jì)算段落文本中的方程組；所述第二計(jì)算模塊用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)的tf-idf計(jì)算。

進(jìn)一步地，所述權(quán)重設(shè)置模塊用于對(duì)生成的方程組進(jìn)行權(quán)重設(shè)置，所述文本處理模塊用于對(duì)段落文本進(jìn)行分段處理。

本發(fā)明還提供一種多段落文本的特征抽取系統(tǒng)的抽取方法，其改進(jìn)之處在于，包括：

對(duì)任一文本t的段落進(jìn)行標(biāo)記；

對(duì)任一文本t設(shè)置期望相對(duì)權(quán)重向量；

采用權(quán)重設(shè)置模塊和文本處理模塊分別對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取，得到段落不同權(quán)重的文本向量。

進(jìn)一步地，所述對(duì)任一文本t的段落進(jìn)行標(biāo)記，包括：

對(duì)任一文本t，由n個(gè)段落組成，第i個(gè)段落標(biāo)記為pi，則t＝[p1,p2,…,pn]。

進(jìn)一步地，所述對(duì)任一文本t設(shè)置期望相對(duì)權(quán)重向量，包括：

對(duì)于任一文本t，存在一個(gè)期望相對(duì)權(quán)重向量weights＝[w1,w2,…wn]，其中，wi表示pi的相對(duì)權(quán)重；wi用絕對(duì)數(shù)值或相對(duì)數(shù)值表示。

進(jìn)一步地，所述對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取，得到段落不同權(quán)重的文本向量，包括下述步驟：

1)對(duì)于t中的每個(gè)段落p，采用分詞器和第二計(jì)算模塊進(jìn)行向量化處理，并將得到的段落文本向量存入n維向量數(shù)組，其中數(shù)組元素為段落pi所對(duì)應(yīng)的文本向量；

2)對(duì)于n維向量數(shù)組中的每個(gè)數(shù)組元素，文本處理模塊生成段落pi所對(duì)應(yīng)的文本向量的權(quán)重和，并存入權(quán)重和數(shù)組；

3)基于權(quán)重和數(shù)組和期望相對(duì)權(quán)重向量weights，生成用于權(quán)重分配的齊次線性方程組，并為方程組添加調(diào)節(jié)系數(shù)；

4)采用第一計(jì)算模塊解方程組，得出解為調(diào)節(jié)系數(shù)數(shù)組；

5)調(diào)節(jié)各段落文本向量：把調(diào)節(jié)系數(shù)與對(duì)應(yīng)的文本向量相乘，得出調(diào)節(jié)后的段落文本向量；

6)合并段落文本向量：將n維向量數(shù)組中乘過調(diào)節(jié)系統(tǒng)的段落文本向量進(jìn)行累加，得到最終的體現(xiàn)各段落不同權(quán)重的段落文本向量，將段落文本向量存儲(chǔ)至文本向量庫(kù)中。

進(jìn)一步地，所述步驟2)中，文本向量的權(quán)重和計(jì)算方法為：將段落pi所對(duì)應(yīng)的文本向量中每個(gè)元素值相加，返回累加結(jié)果，文本向量的權(quán)重和存入權(quán)重和數(shù)組的相應(yīng)位置。

進(jìn)一步地，所述步驟3)中，齊次線性方程組以矩陣表示，最終返回一個(gè)二組數(shù)組；對(duì)每個(gè)段落增加一個(gè)調(diào)節(jié)系數(shù)，包括：調(diào)節(jié)系數(shù)ci滿足等式(paragraphweight[i]*ci)/(paragraphweight[i]*ci)＝weights[i]；

其中：ci為段落pi的調(diào)節(jié)系數(shù)；得到特定解時(shí)，在方程組中添加約束條件sum(ci)＝1；paragraphweight[]為權(quán)重和數(shù)組；weights[i]為期望相對(duì)權(quán)重向量；

優(yōu)選的，所述步驟5)中，即對(duì)于n維向量數(shù)組中的每個(gè)數(shù)組元素，滿足vectorarray[i][j]*coefficients[i]，然后保存在原文本向量的原位置上。

其中：coefficients[i]為調(diào)節(jié)系數(shù)數(shù)組元素，vectorarray[i][j]為n維向量數(shù)組，i、j＝1、2、3、......、n，i表示數(shù)組的行，j表示數(shù)組的列。

與最接近的現(xiàn)有技術(shù)相比，本發(fā)明提供的技術(shù)方案達(dá)到的有益效果是：

本發(fā)明實(shí)現(xiàn)一種通用、可行的方法來實(shí)現(xiàn)文本特征提取，并在文本特征提取過程中，能夠體現(xiàn)文本中不同段落的權(quán)重差異，具體為：

1.精度和效率高：提取的文本向量能夠更好地反應(yīng)原文的語(yǔ)義特征，能夠大幅度提高用戶可感知的文本推薦精度，并且可以根據(jù)各類應(yīng)用的需要隨時(shí)調(diào)整各段落的相對(duì)權(quán)重。

2.成本低廉：可以方便地各種文本處理系統(tǒng)銜接，只需替換原有的文本向量生成部分即可。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是現(xiàn)在技術(shù)的文本提取的主要結(jié)構(gòu)和原理圖；

圖2是多段落文本的特征抽取系統(tǒng)的結(jié)構(gòu)圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的描述。顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施方式，都屬于本發(fā)明所保護(hù)的范圍。

實(shí)施例一、

本發(fā)明提供一種多段落文本的特征抽取系統(tǒng)，其結(jié)構(gòu)圖如圖2所示，包括第一計(jì)算模塊、主控模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊；所述第一計(jì)算模塊、權(quán)重設(shè)置模塊、文本處理模塊、分詞器和第二計(jì)算模塊均與主控模塊進(jìn)行數(shù)據(jù)交互。

上述實(shí)施例中，還包括文本向量庫(kù)，所述文本向量庫(kù)用于存儲(chǔ)所述主控模塊傳輸?shù)亩温湮谋鞠蛄俊?/p>

上述實(shí)施例中，所述第一計(jì)算模塊用于計(jì)算段落文本中的方程組；所述第二計(jì)算模塊用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)的tf-idf計(jì)算。

上述實(shí)施例中，所述權(quán)重設(shè)置模塊用于對(duì)生成的方程組進(jìn)行權(quán)重設(shè)置，所述文本處理模塊用于對(duì)段落文本進(jìn)行分段處理。

實(shí)施例二、

本發(fā)明還提供一種多段落文本的特征抽取系統(tǒng)的抽取方法，包括：

s1：對(duì)于任一文本t，假設(shè)其由n個(gè)段落組成，第i個(gè)段落標(biāo)記為pi，則t＝[p1,p2,…,pn]。

s2：對(duì)于任一文本t，假設(shè)存在一個(gè)期望相對(duì)權(quán)重向量weights＝[w1,w2,…wn]，其中，wi表示pi的相對(duì)權(quán)重。wi可以用絕對(duì)數(shù)值來表示(如：整型數(shù)值)，也可以相對(duì)數(shù)值來表示(如：百分比)。

s3：采用權(quán)重設(shè)置模塊和文本處理模塊分別對(duì)上述的標(biāo)記段落和期望相對(duì)權(quán)重向量進(jìn)行特征抽取，得到段落不同權(quán)重的文本向量，包括下述子步驟：

1)對(duì)于t中的每個(gè)段落p，采用分詞器和第二計(jì)算模塊進(jìn)行向量化處理，并將得到的段落文本向量存入n維向量數(shù)組vectorarray[]，其中數(shù)組元素vectorarray[i]為段落pi所對(duì)應(yīng)的文本向量；

2)對(duì)于vectorarray中的每個(gè)元素vectorarray[i]，生成該向量的權(quán)重和，計(jì)算方法為：將該向量中每個(gè)元素值相加，返回累加結(jié)果。向量和存入數(shù)組paragraphweight[]的相應(yīng)位置。

3)基于paragraphweight和weights，生成用于權(quán)重分配的齊次線性方程組。方程組直接以矩陣來表示，最終返回一個(gè)二組數(shù)組。為使每個(gè)段落的文本向量在最終向量中達(dá)到相應(yīng)的相對(duì)權(quán)重要求，需要對(duì)每個(gè)段落增加一個(gè)調(diào)節(jié)系數(shù)，方程組就是關(guān)于調(diào)節(jié)系數(shù)的。假設(shè)段落pi的調(diào)節(jié)系數(shù)為ci，則ci需滿足等式(paragraphweight[i]*ci)/(paragraphweight[i]*ci)＝weights[i]。為得到特定解，在方程組中添加約束條件sum(ci)＝1。

4)采用第一計(jì)算模塊解方程組，得出解為調(diào)節(jié)系數(shù)數(shù)組coefficients[n]。

5)調(diào)節(jié)各段落文本向量：把調(diào)節(jié)系數(shù)與對(duì)應(yīng)的文本向量相乘，得出調(diào)節(jié)后的文本向量。即對(duì)于vectorarray中的每個(gè)向量vectorarray[i]，將其中的每個(gè)元素vectorarray[i][j]*coefficients[i]，然后保存在原文本向量的原位置上。

6)合并文本向量：將vectorarray中乘過調(diào)節(jié)系統(tǒng)的文本向量進(jìn)行累加，得到最終的體現(xiàn)各段落不同權(quán)重的文本向量，將段落文本向量存儲(chǔ)至文本向量庫(kù)中。

本發(fā)明的技術(shù)方案在提取的文本向量能夠更好地反應(yīng)原文的語(yǔ)義特征，能夠大幅度提高用戶可感知的文本推薦精度，精度和效率高，并且可以根據(jù)各類應(yīng)用的需要隨時(shí)調(diào)整各段落的相對(duì)權(quán)重。可以方便地各種文本處理系統(tǒng)銜接，只需替換原有的文本向量生成部分即可，成本低廉。

以上所述，僅為本發(fā)明的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許延祥;王飛劍;劉宗福;周東紅;黃世祥
技術(shù)所有人：北京易麥克科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本特征抽取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多段落文本的特征抽取系統(tǒng)及方法與流程