亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于觀點(diǎn)的文本分類方法

文檔序號(hào):6625312閱讀:760來(lái)源:國(guó)知局
一種基于觀點(diǎn)的文本分類方法
【專利摘要】本發(fā)明公開(kāi)了一種基于觀點(diǎn)的文本分類方法,具體步驟包括:(100)主題段的劃分;(200)語(yǔ)句主觀性的判別;(300)觀點(diǎn)句識(shí)別;(400)觀點(diǎn)句相似度計(jì)算;(500)觀點(diǎn)句聚類。通過(guò)上述方式,本發(fā)明一種基于觀點(diǎn)的文本分類方法,該方法可以實(shí)現(xiàn)動(dòng)態(tài)的、語(yǔ)義的、低維高效的文本分類,使網(wǎng)絡(luò)文本信息處理更符合人的認(rèn)知過(guò)程,更能滿足實(shí)際應(yīng)用的需求。
【專利說(shuō)明】-種基于觀點(diǎn)的文本分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘和情感計(jì)算【技術(shù)領(lǐng)域】,尤其是涉及一種基于觀點(diǎn)的文本分類 方法。

【背景技術(shù)】
[0002] 隨著Web2. 0技術(shù)的發(fā)展,網(wǎng)絡(luò)社區(qū)、博客和論壇給網(wǎng)絡(luò)用戶提供了更寬廣的平臺(tái) 來(lái)交流信息和表達(dá)意見(jiàn),商業(yè)機(jī)構(gòu)可W通過(guò)網(wǎng)絡(luò)調(diào)查客戶對(duì)產(chǎn)品的評(píng)論來(lái)了解客戶意見(jiàn)并 進(jìn)行市場(chǎng)調(diào)查與分析,對(duì)產(chǎn)品進(jìn)行在線跟蹤,不斷趕緊產(chǎn)品性能和售后服務(wù),培育潛在的消 費(fèi)群體,同時(shí)消費(fèi)者也可W通過(guò)瀏覽某產(chǎn)品的用戶評(píng)價(jià)信息來(lái)選擇是否購(gòu)買該產(chǎn)品,政府 部口可W網(wǎng)絡(luò)論壇來(lái)了解人們對(duì)某個(gè)政策法規(guī)或者時(shí)事的看法及時(shí)的了解民眾對(duì)社會(huì)管 理者的社會(huì)政治態(tài)度并作出科學(xué)合理的決策,因此,如何快速,有效處理和分析該些主觀性 的評(píng)論文本,了解其他人的想法和對(duì)事物的觀點(diǎn)和態(tài)度是網(wǎng)絡(luò)文本信息處理領(lǐng)域待解決的 重要問(wèn)題之一。
[0003] 所謂觀點(diǎn),是指一個(gè)人對(duì)某事物的想法和理解,觀點(diǎn)并非是事實(shí),因?yàn)橛^點(diǎn)既沒(méi)有 得到驗(yàn)證,也沒(méi)有得到證明和確認(rèn),如果一個(gè)觀點(diǎn)后來(lái)能夠得到證明和確認(rèn),那它就不再是 一個(gè)觀點(diǎn),而變成一個(gè)事實(shí),根據(jù)Kim和化vy對(duì)觀點(diǎn)的定義;觀點(diǎn)由四個(gè)要素組成:即主 題、持有者、陳述、情感,該四個(gè)元素之間存在著內(nèi)在的聯(lián)系,即觀點(diǎn)的持有者針對(duì)某主題發(fā) 表了具有情感的意見(jiàn)陳述。
[0004] 作為一個(gè)新興的研究領(lǐng)域,觀點(diǎn)挖掘研究引起NLP研究界的廣泛關(guān)注,近年來(lái), NLP相關(guān)的一些國(guó)際會(huì)議都設(shè)有專題來(lái)討論觀點(diǎn)挖掘問(wèn)題,眾多的研究成果可W分為兩大 類;文檔級(jí)(粗粒度)觀點(diǎn)挖掘和句子級(jí)(中粒度)觀點(diǎn)挖掘。
[0005] 粗粒度觀點(diǎn)挖掘?qū)⒃u(píng)價(jià)文本劃分為支持、反對(duì)和中立H大類,粗粒度觀點(diǎn)挖掘雖 然可W看做文本分類,但與傳統(tǒng)的面向主題的文本分類有很大的不同,在傳統(tǒng)面向主題的 文本分類中,與主題相關(guān)的詞非常重要;而在粗粒度觀點(diǎn)挖掘中,表明褒義或眶義觀點(diǎn)的情 感詞最有用。
[0006] 粗粒度觀點(diǎn)挖掘不能發(fā)現(xiàn)用戶喜歡與不喜歡的具體細(xì)節(jié),例如用戶可能對(duì)一款數(shù) 碼相機(jī)的外形設(shè)計(jì)滿意,但是對(duì)其電池的使用壽命卻不太滿意,在很多時(shí)候僅僅是該種總 體上的判斷還不夠,因?yàn)槿藗儗?duì)于某一話題進(jìn)行觀點(diǎn)和態(tài)度表達(dá)的時(shí)候除了對(duì)總體上的評(píng) 價(jià)外,往往還包括了對(duì)其中某個(gè)部分或者特性的評(píng)價(jià)。
[0007] 中粒度觀點(diǎn)挖掘主要是應(yīng)用于對(duì)事物特性發(fā)表觀點(diǎn)的抽取,該方法進(jìn)入到語(yǔ)句層 次,W便能夠提取觀點(diǎn)的具體細(xì)節(jié),當(dāng)然該里的事物可W是一個(gè)產(chǎn)品、一種服務(wù)、一個(gè)人、一 個(gè)組織、一個(gè)事件等,例如"該臺(tái)照相機(jī)的電池壽命太短"該句話,用戶評(píng)價(jià)的產(chǎn)品特征是該 款相機(jī)的"電池壽命",并且該用戶給出的結(jié)論(觀點(diǎn))是消極的。
[0008] 無(wú)論是粗粒度觀點(diǎn)挖掘還是中粒度觀點(diǎn)挖掘,像"美國(guó)先打伊拉克"和"伊拉克先 打美國(guó)"兩種不同的觀點(diǎn)都會(huì)歸類為相同的一類,因?yàn)樗鼈兪荳詞為基本特征,并沒(méi)有用到 語(yǔ)義特征(觀點(diǎn)),細(xì)粒度觀點(diǎn)挖掘是按觀點(diǎn)將文本或句子分類,類別的數(shù)量是動(dòng)態(tài)的,因?yàn)?不同的人對(duì)同一事物有不同的看法,不僅僅是贊成、反對(duì)和中立,由于細(xì)粒度觀點(diǎn)挖掘無(wú)法 得到一個(gè)通用的語(yǔ)料庫(kù),所W基于觀點(diǎn)的文本分類是觀點(diǎn)聚類。
[0009] 提出基于觀點(diǎn)的文本分類的另一個(gè)動(dòng)機(jī)是在過(guò)去的幾十年中,語(yǔ)義計(jì)算、情感計(jì) 算有了長(zhǎng)足的發(fā)展,動(dòng)態(tài)文本分類、基于語(yǔ)義的文本分類、多技術(shù)綜合的文本分類、低維高 效的文本分類有著迫切的應(yīng)用需求。


【發(fā)明內(nèi)容】

[0010] 本發(fā)明主要解決的技術(shù)問(wèn)題是提供一種基于觀點(diǎn)的文本分類方法,該方法可W實(shí) 現(xiàn)動(dòng)態(tài)的、語(yǔ)義的、低維高效的文本分類,使網(wǎng)絡(luò)文本信息處理更符合人的認(rèn)知過(guò)程,更能 滿足實(shí)際應(yīng)用的需求。
[0011] 為解決上述技術(shù)問(wèn)題,本發(fā)明采用的一個(gè)技術(shù)方案是:一種基于觀點(diǎn)的文本分類 方法,具體步驟包括: (100)主題段的劃分:首先輸入文本,通過(guò)

【權(quán)利要求】
1. 一種基于觀點(diǎn)的文本分類方法,其特征在于,具體步驟包括: (I O O ) 主題段的劃分:首先輸入文本,通過(guò)
(I £i,j £n)計(jì)算文本中每?jī)蓚€(gè)段落之間的語(yǔ)義相似度, 然后逐個(gè)找出主題發(fā)生轉(zhuǎn)換的段落候選點(diǎn)Pkl,Pk2,……,Pt,若P t滿足
,矣-1^>1, ,則確定辱為主題段落的劃分候選點(diǎn),繼續(xù)處理下一個(gè)候 選點(diǎn),如果全部主題段落劃分候選點(diǎn)都處理完畢則結(jié)束,若不滿足,判斷巧M是否滿足
,若滿足,則認(rèn)為為主題段落劃分候選點(diǎn),并繼續(xù)處理下一個(gè)主題 段落劃分候選點(diǎn),若不滿足,則判斷主題段落劃分候選點(diǎn)的下一個(gè)段落是否滿足
,認(rèn)為&不是劃分段,直至全部主題段落劃分候選點(diǎn)處理完畢則結(jié) 束,確定文本中的主題段落劃分點(diǎn),將文本中的所有自然段落合并為若干個(gè)主題段,即文本 可以表示為D=S1Ss2J:......£sn,Sn表示主題段; 其中,
(WillWi2,……,……,Wik)為段落特征向量,Wu表示文本特征詞列表中第j個(gè)元素在段 落i中的權(quán)值,權(quán)值根據(jù)詞語(yǔ)在該段出現(xiàn)的頻率計(jì)算,k為特征向量元素的個(gè)數(shù),文本特征 向量F(D) = ^W2,......,W1),W1表示文本特征詞列表中第1個(gè)元素在全文中的權(quán)值,權(quán)值 根據(jù)詞語(yǔ)在文本中出現(xiàn)的頻率計(jì)算,*^是第r個(gè)主題段落劃分候選點(diǎn)的段落的下標(biāo); (200)語(yǔ)句主觀性的判別:采用CHI統(tǒng)計(jì)方法分別對(duì)主觀文本和客觀文本進(jìn)行2-P0S主 觀模式提取,首先對(duì)訓(xùn)練語(yǔ)料庫(kù)中的句子進(jìn)行分詞和詞性標(biāo)注,然后構(gòu)造2-POS統(tǒng)計(jì)語(yǔ)言 模型,最后根據(jù)公式(1)分別為主、客觀模式集合中的每個(gè)2-POS類型計(jì)算CHI統(tǒng)計(jì)量,并 依據(jù)CHI值排序,
其中表示屬于類Ci的句子中包含第k個(gè)2-POS模式句子數(shù), 表示不屬于類Ci的句子中包含第k個(gè)2-POS模式句子數(shù),表 示屬于類Ci的句子中不包含第k個(gè)2-POS模式句子數(shù),表示既不屬于類Ci也不包含第k個(gè)2-POS模式句子數(shù),N表示語(yǔ)料中的句子總數(shù); 利用統(tǒng)計(jì)方法在康奈爾大學(xué)提供的影評(píng)數(shù)據(jù)集上獲得主觀規(guī)則; 所述主觀模式和所述主觀規(guī)則統(tǒng)稱為主觀線索,首先根據(jù)公式(2)計(jì)算主觀線索Clue 權(quán)重, Wight (Clue) =Max (CHI 值 / 最大 CHI 值,置信度 *falg) (2) 其中flag=l,則主觀線索為主觀句置信度,否則flag=0 ; 然后跟據(jù)主觀線索密度定義公式(3)計(jì)算主觀線索密度:
其中,句子包含的主觀線索詞總數(shù)為見(jiàn)相鄰的兩個(gè)主觀線索詞^和wi+1之間的非主觀 線索詞數(shù)量表示為(Jfi, ri+1),關(guān)鍵詞ri+1在句子中的權(quán)重表示為(ri+1); 根據(jù)公式(4)采用dWW/方法計(jì)算主觀線索詞的權(quán)重:
其中,表示包含詞的句子數(shù),是總句子數(shù),在句子幻中出現(xiàn)的次數(shù)表 示為; 句子是主觀性句子的可能性大小與SD(S)值的大小成正比關(guān)系; (300)觀點(diǎn)句識(shí)別:觀點(diǎn)句不同于主觀句,是主觀句子集,觀點(diǎn)句識(shí)別首先要構(gòu)造觀點(diǎn) 詞語(yǔ)字典,然后利用觀點(diǎn)詞語(yǔ)字典對(duì)句子出現(xiàn)的觀點(diǎn)詞語(yǔ)進(jìn)行統(tǒng)計(jì),將統(tǒng)計(jì)的結(jié)果,利用 ID3算法生成決策樹(shù),從而用于觀點(diǎn)句的識(shí)別; (400)觀點(diǎn)句相似度計(jì)算:首先進(jìn)行觀點(diǎn)抽取,根據(jù)步驟(100)對(duì)主題聚類,然后對(duì)同 一主題,抽取描述主題的屬性,對(duì)同一屬性評(píng)價(jià)的褒貶詞類別即為觀點(diǎn)詞,最后根據(jù)公式 (5)計(jì)算詞語(yǔ)的權(quán)重,
其中,k表示句子中出現(xiàn)的詞類數(shù),Iii表示句中i類詞的個(gè)數(shù),表示第i個(gè)觀點(diǎn)的 權(quán)重。
2.假設(shè)句子A包含詞語(yǔ)的觀點(diǎn)權(quán)重集合為WordSet (A) = (W1, W2……Wj,句子B包 含詞語(yǔ)的觀點(diǎn)權(quán)重集合為WordSet (B) = (W1, W2,…….,Wj,如果句子B的觀點(diǎn)權(quán)重集合 WordSet (B)包含 WordSet (A)中的第 i 個(gè)詞(I < i < n),即 Wi G WordSet (A) n WordSet (B), 則第i個(gè)詞出現(xiàn),Wi對(duì)句A和句B相似度的貢獻(xiàn)為Si,同理,如果Wi不在WordSet (B) 中出現(xiàn),而 Wj(Wj G WordSet (A),l 彡 j 彡 n)在 WordSet(B)中出現(xiàn),即 Wj G WordSet (A) n WordSet (B),設(shè)此時(shí)詞第j個(gè)詞的出現(xiàn),Wj對(duì)句A和句B相似度的貢獻(xiàn)為Sj, 如果第i個(gè)詞和第j個(gè)詞同時(shí)在句A和句B中出現(xiàn),則Wi和%對(duì)句A和句B的相似度的 貢獻(xiàn)為Sij,且有SiPSJSj,則相近詞對(duì)Wi和W j對(duì)A,B相似度的貢獻(xiàn)度為Sij- (SJSjXWi和 Wj的相似度大小與Sij- (SJSj)的值的大小成反比,Sij- (SJSj)的值越小,則Wi和Wj越相 似; (500)觀點(diǎn)句聚類:結(jié)合步驟(100)至步驟(400),根據(jù)公式(6)進(jìn)行觀點(diǎn)聚類,
優(yōu)先級(jí)權(quán)重,并不是所有特征都對(duì)相似度有貢獻(xiàn),有效配對(duì)指滿足優(yōu)先級(jí)規(guī)則的特征匹配, PairCiunt1為觀點(diǎn)句1的詞語(yǔ)數(shù),PairCiunt2為觀點(diǎn)句2的詞語(yǔ)數(shù)。
3.根據(jù)權(quán)利要求1所述的一種基于觀點(diǎn)的文本分類方法,其特征在于:所述步驟(200) 中的主觀規(guī)則包括: 規(guī)則1 :程度副詞(絕對(duì)、非常、相當(dāng)主觀句(0.75) 規(guī)則2 :第一人稱代詞(我、本人、個(gè)人)> 主觀句(0. 85) 規(guī)則3 :疑問(wèn)詞(難道、為什么)> 主觀句(0. 90) 規(guī)則4 :指示詞(這個(gè)、那個(gè)、某些)> 主觀句(0. 72) 規(guī)則5 :連詞(而、反而、反之)> 主觀句(0.64) 規(guī)則6 :引用語(yǔ)(他說(shuō),他認(rèn)為)> 客觀句(1. 0) 規(guī)則7 :概念定義核心動(dòng)詞(是、包含、稱為、叫做、定義為)> 客觀句(0.99) 規(guī)則8 :事實(shí)陳述核心動(dòng)詞(譽(yù)為、報(bào)道、講述)> 客觀句(0. 98) 規(guī)則9 :主張類觀點(diǎn)詞(認(rèn)為、應(yīng)該、決定、希望、想)> 主觀句(0.77) 其中觀點(diǎn)詞分為18類,不同類對(duì)主觀句判別貢獻(xiàn)不同,所述主觀規(guī)則后括號(hào)的數(shù)字為 該所述主觀規(guī)則的置信度。
【文檔編號(hào)】G06F17/30GK104331394SQ201410434035
【公開(kāi)日】2015年2月4日 申請(qǐng)日期:2014年8月29日 優(yōu)先權(quán)日:2014年8月29日
【發(fā)明者】程實(shí), 何海棠, 沈?qū)W華, 程顯毅, 施佺 申請(qǐng)人:南通大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1