專利名稱:一種面向博客群的主題傾向性處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及博客,尤其涉一種面向博客群的主題傾向性處理方法及系統(tǒng)。
背景技術(shù):
自從1997年Hatzivassiloglou和Mckeown提出一種基于自動(dòng)文本傾向性標(biāo)示的 計(jì)算模型之后,文本挖掘技術(shù)就深受越來越多專家和科研工作者的關(guān)注。本文結(jié)合自身研 究工作,文本傾向性的分析方法大致分為文本內(nèi)容與觀點(diǎn)持有者分析兩類。結(jié)合采用技術(shù) 的不同特點(diǎn),將文本內(nèi)容的傾向性分析方法進(jìn)一步分為基于統(tǒng)計(jì)和基于語義挖掘的兩類。文本內(nèi)容的傾向性分析方法Turney和Littman (2003)通過計(jì)算傾向性基準(zhǔn) 詞對與目標(biāo)詞匯間相似度的方法識別詞匯傾向性。他們選擇了七對褒貶傾向比較強(qiáng)烈 的詞匯,計(jì)算待定詞與每個(gè)基準(zhǔn)詞的SO-PMI (semantic orientation-pointwise mutual information)值來判定詞匯的傾向性。J. Kamps,M. Marx, R. J. Mokken 和 Μ· D. Rijke (2004) 利用WordNet計(jì)算詞匯傾向性。先選擇基準(zhǔn)詞,判別待定詞與基準(zhǔn)詞在WordNet中是否 為同義詞,得出詞匯的傾向性。M. J. M. Vermeij (2005)利用傾向性詞匯在產(chǎn)品評論中出現(xiàn) 次數(shù)計(jì)算用戶評論的傾向性,提出了一種按詞頻加權(quán)統(tǒng)計(jì)的方法。臺灣國立大學(xué)Lim-Wei Ku (2006)等人提出了一種面向新聞和博客的傾向性抽取模型。該模型利用對中文字符傾向 性權(quán)重的統(tǒng)計(jì)計(jì)算詞語傾向性,進(jìn)而判定整篇文檔傾向性。Ruifeng Xu等人(2008)提出了 一種基于語言學(xué)知識的傾向性分析系統(tǒng),該系統(tǒng)利用訓(xùn)練標(biāo)注文本及SVM(SUpp0rt vector machine)分類模型抽取文本傾向特征,進(jìn)而判定文本傾向性。Veselin和Claire (2008)描 述了一個(gè)主題傾向性評估模型,并利用MPQA測試集證明算法的有效性?;谡Z義分析的傾向性方法姚天昉等人(2006)利用領(lǐng)域本體來抽取語句主題 以及它的屬性,然后在句法分析的基礎(chǔ)上,識別主題和情感描述項(xiàng)之間的關(guān)系,從而最終決 定語句中每個(gè)主題的極性。Bing Liu介紹了商用產(chǎn)品信息反饋系統(tǒng)Opinion Observer,該 系統(tǒng)利用網(wǎng)絡(luò)上豐富的顧客評論資源,對商品的市場反饋情況進(jìn)行分析,為生產(chǎn)商和消費(fèi) 者提供更加直觀的商品特性評價(jià)報(bào)告。Youngho Kim和Yuchul Jung(2008)描述了一種面 向韓文經(jīng)濟(jì)領(lǐng)域詞庫的傾向性分析系統(tǒng)。Lei Yu和Jia Ma (2008)提出一種基于HowNet的 傾向性分析模型,該模型抽取文本傾向性特征,通過計(jì)算文本中情感詞與特征詞之間的語 義相似性,從而實(shí)現(xiàn)目標(biāo)文本傾向性分類。Ruifeng Xu和Kam-Fai Wong等人(2008)將基 于詞和搭配的傾向性分析方法相結(jié)合,有效提高傾向性系統(tǒng)的學(xué)習(xí)能力。作為文本傾向性的又一研究重點(diǎn),文本中觀點(diǎn)持有者(opinion holder)的分析 也得到了長足發(fā)展。借助對觀點(diǎn)持有者的分析,可以有效地發(fā)現(xiàn)不同階層人群對于同一事 件的輿論態(tài)度,為政府有關(guān)部門建立具有針對性的輿情監(jiān)管體制提供重要參考。Gildea和 Jurafsky (2002)開發(fā)了一套基于統(tǒng)計(jì)的語義角色標(biāo)注系統(tǒng)。該系統(tǒng)借助FrameNet,對目標(biāo) 文本中不同角色的語義關(guān)聯(lián)進(jìn)行挖掘。Bethard等人(2004)通過對動(dòng)詞傾向性分析,對觀 點(diǎn)持有者的類型進(jìn)行分析。Kim和Hovy (2005)使用MPQA測試集,對其中不同觀點(diǎn)的持有者 進(jìn)行分析。Soo-Min Kim(2006)提出了一種基于FrameNet的觀點(diǎn)持有者與主題傾向性分析框架,該框架通過對FrameNet中一些具有代表性的傾向性例句的語義標(biāo)注,從而實(shí)現(xiàn)在線 新聞文本中觀點(diǎn)持有者與主題間的語義關(guān)聯(lián)挖掘。表1中分別對幾種具有代表性的分析方 法進(jìn)行分類比較表1文本傾向性相關(guān)研究對比
研究人員分類 分析實(shí)現(xiàn)方法測試環(huán)境及效
對象果 Hatzivassiloglou基于統(tǒng)英文利用詞匯之間的連測試集為源自
計(jì)的文單詞 詞(and, or, but,1987年《華爾 本傾向 either-or等)訓(xùn)練生街》中的2千 性分析 成詞匯間的同義或萬個(gè)詞性標(biāo)注
反義傾向的連接圖集。識別準(zhǔn)確
率達(dá)到78.86%
Turney基于統(tǒng)英文抽取形容詞、副詞的Epinions上410
計(jì)的文短語傾向特征短語,利用篇英文評論文 本傾向傾向短語分類英文章。準(zhǔn)確率
性分析評論84%
Lun-WeiKu 基于統(tǒng)中文計(jì)算每個(gè)詞語傾向NTCm (準(zhǔn)確 計(jì)的文詞語權(quán)重,進(jìn)而評估語句率40%),網(wǎng)絡(luò) 本傾向傾向性,最后判定全博客(27.78%)
性分析文
Youngho Kim 基于語韓文建立面向領(lǐng)域傾向測試集170, 義的文詞語性詞匯集,分別計(jì)算000韓文經(jīng)濟(jì) 本傾向領(lǐng)域名詞及其形容新聞文檔,準(zhǔn)
性分析 詞表達(dá)對于文檔傾確率達(dá)到74%
向判定的影響
Soo-Min Kim 評論觀英文基于Framenet框架,測試集100句
點(diǎn)持有文本利用語義標(biāo)注方法,隨機(jī)獲取《紐 者分析挖掘目標(biāo)文本中傾約時(shí)報(bào)》新聞
向性詞語與觀點(diǎn)持樣本。準(zhǔn)確率 有者間的映射關(guān)聯(lián)達(dá)到47.9%
但現(xiàn)有技術(shù)中所提供的技術(shù)方案并沒有區(qū)分博客主題評論的篇幅與文本自身傾向態(tài)度之間的關(guān)系,在文本自身傾向態(tài)度沒有利用曾經(jīng)得出的傾向性分析案例,也沒有考 慮發(fā)表者的信譽(yù)度,沒有對博客群主題傾向性進(jìn)行文本自身傾向態(tài)度和發(fā)表者信譽(yù)度的關(guān) 聯(lián)分析,從而現(xiàn)有的技術(shù)方案的分析效率上較低,并且無法在網(wǎng)絡(luò)輿情分類檢索方面提供 完整的解決方案。下面說明與本發(fā)明相關(guān)的幾個(gè)術(shù)語文本傾向性針對某個(gè)事件,一篇文本或褒或貶的態(tài)度,也可以說是博客或BBS中 回復(fù)對于博文或主貼的贊同或反對的觀點(diǎn);博客主題一篇網(wǎng)絡(luò)日志所描述的內(nèi)容的所關(guān)注的對象(比如,政治、經(jīng)濟(jì)、文 化)。Web文本挖掘web挖掘就是從與誦相關(guān)的資源和用戶瀏覽行為中發(fā)現(xiàn)、抽取感 興趣的潛在的有用模式和隱藏的信息。它以從web上挖掘有用知識為目標(biāo),以數(shù)據(jù)挖掘、內(nèi) 容挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫、人工智能、信息檢索、可視化 等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,提供了一種面向博客群的主題傾向性處理方法及系 統(tǒng),其目的在于,在注重對于主題評論文本傾向性判定的同時(shí),兼顧博客評論發(fā)表者信譽(yù)程 度的評估,挖掘不同信譽(yù)程度用戶對于某確定主題的傾向態(tài)度。評估過程中,根據(jù)博客主題 評論篇幅長短不一的結(jié)構(gòu)特點(diǎn),針對性提出不同處理方法對于較長篇幅評論文本,分別統(tǒng) 計(jì)目標(biāo)評論中贊同、反對字符的傾向字符權(quán)重及其分布密度,建立長幅文本傾向性案例知 識庫,復(fù)用歷史成功案例的判定結(jié)果,在實(shí)現(xiàn)主題評論語義傾向判定同時(shí),提高系統(tǒng)長文本 判定的執(zhí)行效率;對于擁有少量文字的主題評論,通過計(jì)算評論中字符傾向權(quán)重之和,實(shí)現(xiàn) 評論傾向性評估。定時(shí)統(tǒng)計(jì)各評論發(fā)表者所擁有博客空間中的主題日志量、瀏覽量、回復(fù)量 以及評論傾向性,分析虛擬網(wǎng)絡(luò)社會(huì)中各評論者所發(fā)表主題日志的平均支持率,實(shí)現(xiàn)其信 譽(yù)程度的評估。進(jìn)一步建立基于資源描述框架(Resource Description Frame, RDF)博客 主題傾向關(guān)聯(lián)圖譜,并借助SPARQL (SPARQL Protocol And RDF Query Language)查詢語言 實(shí)現(xiàn)博客群中不同信譽(yù)層次人群網(wǎng)絡(luò)輿情分類檢索。本發(fā)明提供了一種面向博客群的主題傾向性處理方法,包括步驟1,計(jì)算目標(biāo)文本T中每個(gè)中文字Ci符傾向性權(quán)重Sa ;Sci = Pci-Nci ;
權(quán)利要求
1. 一種面向博客群的主題傾向性處理方法,其特征在于,包括步驟1,計(jì)算目標(biāo)文本τ中每個(gè)中文字Ci符傾向性權(quán)重、;Sci = Pci-Nci ;
2.如權(quán)利要求1所述的面向博客群的主題傾向性處理方法,其特征在于,步驟2中, 如果不存在相似的傾向性案例,還將目標(biāo)文本作為新的傾向性案例加入傾向性案例知識庫 中。
3.如權(quán)利要求1所述的面向博客群的主題傾向性處理方法,其特征在于,傾向性案例 包括案例主體、案例客體和謂詞,謂詞表示案例主體與案例客體間的二元關(guān)系。
4.如權(quán)利要求1所述的面向博客群的主題傾向性處理方法,其特征在于,還包括步驟.3,評估博客信譽(yù)程度;Reputation(A, t+1) = f(Reputation(A,t), Δ Reputation(A, t, t+1)); 其中Reputation (A, t)和Reputation (A, t+1)分別表示t和t+1時(shí)刻博客A信譽(yù)度, Δ Reputation (A, t,t+1)表示t到t+1時(shí)間間隔內(nèi)博客A的信譽(yù)程度增量;
5.如權(quán)利要求4所述的面向博客群的主題傾向性處理方法,其特征在于,步驟3中 當(dāng) P(A,At) > O 時(shí),Reputation(A,t+1) = Reputation(A,t,t+1) ·[1-Reputation(A,t)]+Reputation(A,t);當(dāng) P(A, At) = O Reputation (A, t+1) = Reputation (A, t); 當(dāng) P(A,At) < O 時(shí),Reputation(A, t+1) = Reputation(A,t, t+1) · Reputation(A, t)。
6.如權(quán)利要求5所述的面向博客群的主題傾向性處理方法,其特征在于,還包括步驟 4,利用RDFS對博客、主題以及評論三者間傾向關(guān)聯(lián)進(jìn)行知識表示,并利用博客、主題以及 評論中任意兩者之間的相應(yīng)屬性建博立客主題傾向關(guān)聯(lián)的資源描述框架。
7.如權(quán)利要求6所述的面向博客群的主題傾向性處理方法,其特征在于,還包括步驟 5,依據(jù)博客主題傾向關(guān)聯(lián)的資源描述框架建立基于RDF的主題傾向性關(guān)聯(lián)圖譜,為輿情分 類檢索提供語義查詢接口。
8.一種面向博客群的主題傾向性處理系統(tǒng),其特征在于,包括傾向性權(quán)重計(jì)算模塊,用于計(jì)算目標(biāo)文本T中每個(gè)中文字Ci符傾向性權(quán)重、;Sci = Pci-Nci ;
9.如權(quán)利要求8所述的面向博客群的主題傾向性處理系統(tǒng),其特征在于,傾向性計(jì)算 模塊,用于在不存在相似的傾向性案例時(shí),還將目標(biāo)文本作為新的傾向性案例加入傾向性 案例知識庫中。
10.如權(quán)利要求8所述的面向博客群的主題傾向性處理系統(tǒng),其特征在于,傾向性案例 包括案例主體、案例客體和謂詞,謂詞表示案例主體與案例客體間的二元關(guān)系。
全文摘要
本發(fā)明涉及一種面向博客群的主題傾向性處理方法及系統(tǒng)。該方法包括步驟1,計(jì)算目標(biāo)文本T中每個(gè)中文字Ci符傾向性權(quán)重SCi,如果SCi的絕對值小于或等于中性中文字符傾向性閾值,則將SCi置零;步驟2,如果Ncount<ThLongText,計(jì)算目標(biāo)文本的傾向性;如果Ncount≥ThLongText,則查詢預(yù)先設(shè)置的傾向性案例知識庫中的傾向性案例,如果存在相似的傾向性案例,則復(fù)用該相似的傾向性案例的傾向性;如果不存在相似的傾向性案例,則計(jì)算目標(biāo)文本的傾向性;Ncount和ThLongText分別為字符總數(shù)量和篇幅長度閾值。本發(fā)明有效實(shí)現(xiàn)了網(wǎng)絡(luò)虛擬社會(huì)環(huán)境中不同層次評論人群對于某確定主題事件的傾向挖掘,為進(jìn)一步網(wǎng)絡(luò)輿情分類檢索提供良好的語義參考解決方案。
文檔編號G06F17/30GK102073646SQ20091022352
公開日2011年5月25日 申請日期2009年11月23日 優(yōu)先權(quán)日2009年11月23日
發(fā)明者翁彧, 胡長軍, 趙沖沖, 趙立永 申請人:北京科技大學(xué)