專利名稱:基于情感相關(guān)度的觀點(diǎn)檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種觀點(diǎn)檢索方法,尤其涉及一種基于情感相關(guān)度的觀點(diǎn)檢索方法, 屬于計(jì)算機(jī)信息數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù):
互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及,在很大程度上改變了人們的生活方式。人們不僅 能夠被動(dòng)地接受信息,還能與外界進(jìn)行交互。越來越多的用戶在互聯(lián)網(wǎng)上分享自己的觀點(diǎn) 或者體驗(yàn),人們可以通過BBS、Blogs等網(wǎng)絡(luò)媒介發(fā)表對(duì)各種事物的評(píng)論。這些評(píng)論信息數(shù) 量龐大,具有強(qiáng)烈的主觀性,表達(dá)方式相當(dāng)自由,而且不規(guī)范。2010年7月由中國(guó)互聯(lián)網(wǎng)信 息中心發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明博客應(yīng)用、論壇/BBS的使用率均處 于網(wǎng)絡(luò)應(yīng)用的前列。這些觀點(diǎn)信息的迅速增長(zhǎng),為科研人員提供了廣泛的應(yīng)用和研究對(duì)象, 并引起了產(chǎn)業(yè)界和研究者的廣泛關(guān)注。
互聯(lián)網(wǎng)中主觀性的評(píng)論包含著大量具有情感傾向的信息。這些信息,無論對(duì)于普 通的網(wǎng)絡(luò)用戶,還是對(duì)于生產(chǎn)商以及其他機(jī)構(gòu)組織都有很重要的價(jià)值。如何從互聯(lián)網(wǎng)的海 量數(shù)據(jù)中高效快捷地檢索出針對(duì)某一主題的主觀評(píng)論性信息至關(guān)重要。觀點(diǎn)檢索是主題檢 索與文本傾向性分析相結(jié)合的工作,是指利用信息檢索與情感分析的技術(shù),尋找針對(duì)主題 的觀點(diǎn)評(píng)論等信息。觀點(diǎn)檢索的目標(biāo)是互聯(lián)網(wǎng)用戶發(fā)表的帶有情感傾向的評(píng)論信息。觀點(diǎn) 檢索可以分為兩個(gè)相關(guān)聯(lián)的內(nèi)容一是主題檢索,二是文本傾向性分析。文本的傾向性分析 著眼于分析文本中說話者對(duì)某些特定主題的態(tài)度,主要研究文本中不同粒度的傾向性類別 及強(qiáng)度。現(xiàn)有技術(shù)中包括基于語義的以及基于機(jī)器學(xué)習(xí)的文本傾向性研究,目前很多研究 都是二者的結(jié)合。
目前,國(guó)內(nèi)外針對(duì)觀點(diǎn)檢索的研究較多,而大部分的研究往往是把觀點(diǎn)檢索的過 程分成兩個(gè)獨(dú)立的步驟首先根據(jù)給定的查詢相關(guān)的文章并得到主題相關(guān)性分?jǐn)?shù),然后對(duì) 這些文章進(jìn)行傾向性分析,并得到這些文章的傾向性得分,最后通過線性擬合融合兩部分 分?jǐn)?shù)得到最終評(píng)分。針對(duì)觀點(diǎn)檢索的研究主要有兩種方法,即目前通常使用的線性擬合方 法和基于生成時(shí)語目模型的觀點(diǎn)檢索方法。
通常使用的線性擬合方法是將觀點(diǎn)檢索過程分為主題的相關(guān)文檔檢索和基于情 感的文檔重排序兩個(gè)階段。然后將上述兩個(gè)階段得到的相關(guān)分?jǐn)?shù)進(jìn)行一個(gè)線性擬合的過 程。文本的傾向性強(qiáng)弱并不一定是針對(duì)查詢主題的傾向性強(qiáng)弱。所以,這種僅僅基于文本 傾向性和主題相關(guān)度的融合計(jì)算方法得到的檢索結(jié)果并不能夠準(zhǔn)確地反映出查詢結(jié)果針 對(duì)查詢主題的傾向性強(qiáng)弱。
另一種研究思路主要基于生成語言模型,將上述觀點(diǎn)檢索的兩個(gè)階段通過二次擬 合或一次查詢的過程合并為一個(gè)階段。例如,利用生成語言模型進(jìn)行針對(duì)主題的情感查詢 擴(kuò)展等。但是,基于生成語言模型的方法也有一定的不足。對(duì)于詞語之間的共現(xiàn)并不能夠 很好地反映查詢主題與情感之間的緊密程度,尤其是當(dāng)窗口很大的時(shí)候,這種問題則越發(fā) 明顯。
在專利號(hào)為ZL200810118668. O的中國(guó)發(fā)明專利中,公開了ー種基于觀點(diǎn)檢索的 信息檢索文檔的評(píng)分方法。它首先建立情感詞列表,在列表中指定要在檢索系統(tǒng)中使用的 所有帶有感情色彩的詞,然后根據(jù)用戶具體輸入的查詢,生成候選結(jié)果集合;其次在系統(tǒng)中 計(jì)算文檔與用戶查詢之間的相關(guān)性,得到每篇文檔的相關(guān)性評(píng)分;然后根據(jù)文檔中與查詢 詞在一定距離范圍內(nèi)共同出現(xiàn)的情感詞的次數(shù),計(jì)算出系統(tǒng)中每篇文檔的主客觀性評(píng)分; 再將ー篇文檔的相關(guān)性評(píng)分和主客觀性評(píng)分進(jìn)行基于二次函數(shù)(即相乗)的合并,得到合 并后的文檔最終評(píng)分;最后檢索系統(tǒng)根據(jù)文檔的最終評(píng)分對(duì)系統(tǒng)中的所有候選文檔進(jìn)行排 序,并按照評(píng)分從大到小的次序顯示給用戶。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)所存在的不足,本發(fā)明所要解決的技術(shù)問題在于提供一種基于情感 相關(guān)度的觀點(diǎn)檢索方法。該方法結(jié)合查詢擴(kuò)展詞與主題的相關(guān)度,計(jì)算出文檔與主題的文 本相關(guān)度和情感相關(guān)度。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種基于情感相關(guān)度的觀點(diǎn)檢索方法,包括采用基于概率檢索模型算法計(jì)算文檔與查詢主題的文本相關(guān)度;采用基于詞語依存關(guān)系路徑的觀點(diǎn)抽取方法計(jì)算文檔與查詢主題的情感相關(guān) 度;采用線性加權(quán)的方法綜合文檔與查詢主題的文本相關(guān)度和文檔與查詢主題的情 感相關(guān)度確定文檔與查詢的最終相關(guān)性。其中較優(yōu)地,文本相關(guān)度由下式計(jì)算
權(quán)利要求
1.一種基于情感相關(guān)度的觀點(diǎn)檢索方法,其特征在于包括 采用基于概率檢索模型算法計(jì)算文檔與查詢主題的文本相關(guān)度; 采用基于詞語依存關(guān)系路徑的觀點(diǎn)抽取方法計(jì)算文檔與查詢主題的情感相關(guān)度; 采用線性加權(quán)的方法綜合文檔與查詢主題的文本相關(guān)度和文檔與查詢主題的情感相關(guān)度確定文檔與查詢的最終相關(guān)性。
2.如權(quán)利要求1所述的觀點(diǎn)檢索方法,其特征在于 所述文檔與查詢主題的文本相關(guān)度由下式計(jì)算
3.如權(quán)利要求1所述的觀點(diǎn)檢索方法,其特征在于 所述查詢主題由原始查詢主題queryOTigin (用戶輸入的查詢?cè)~或者語句)和抽取的與其相關(guān)的擴(kuò)展詞集合Queryexp構(gòu)成,Query = {queryorigin} U Queryexp,具體方法包括 a.采用查詢擴(kuò)展詞的抽取算法對(duì)原始查詢主題queryOTigin進(jìn)行擴(kuò)展,得到查詢擴(kuò)展詞集合; b.對(duì)原始查詢主題進(jìn)行檢索,判斷查詢擴(kuò)展詞是否存在于返回結(jié)果的前10篇文檔,如果不存在去除查詢擴(kuò)展詞,得到第一類查詢擴(kuò)展詞集合; c.判斷原始查詢主題的長(zhǎng)度,如果為長(zhǎng)查詢,對(duì)所述原始查詢主題進(jìn)行分詞,并將分詞后的各詞語作為第二類查詢擴(kuò)展詞集合; d.計(jì)算第一類查詢擴(kuò)展詞集合中每個(gè)擴(kuò)展詞與原始查詢主題的相關(guān)度; e.計(jì)算第二類查詢擴(kuò)展詞集合中每個(gè)擴(kuò)展詞在第二類查詢擴(kuò)展詞集合中的權(quán)重,并計(jì)算與原始查詢主題的相關(guān)度; f.合并第一查詢擴(kuò)展詞集合和第二查詢擴(kuò)展詞集合得到Query-。
4.如權(quán)利要求3所述的觀點(diǎn)檢索方法,其特征在于 所述查詢擴(kuò)展詞的抽取算法包括 1)針對(duì)給定的查詢?cè)~利用程序從通用知識(shí)網(wǎng)絡(luò)搜索相關(guān)網(wǎng)頁; 2)如果查詢?cè)~過長(zhǎng)則需先進(jìn)行分詞,然后返回步驟I)繼續(xù)搜索; 3)從得到的網(wǎng)頁中抽取錨文本作為查詢擴(kuò)展候選詞; 4)在通用知識(shí)網(wǎng)絡(luò)中搜索包含查詢?cè)~、查詢擴(kuò)展候選詞以及同時(shí)包含查詢?cè)~和查詢擴(kuò)展候選詞包含的條目數(shù); 5)計(jì)算查詢?cè)~與擴(kuò)展候選詞之間的PMI值; 6)根據(jù)PMI值進(jìn)行排序,選取PMI值最高的n個(gè)詞作為查詢擴(kuò)展。
5.如權(quán)利要求4所述的觀點(diǎn)檢索方法,其特征在于所述計(jì)算查詢?cè)~與擴(kuò)展候選詞之間的PMI值由下式計(jì)算
6.如權(quán)利要求1所述的觀點(diǎn)檢索方法,其特征在于所述計(jì)算文檔與查詢主題的情感相關(guān)度包括 a.將文檔以標(biāo)點(diǎn)符號(hào)劃分為不同的分句; b.使用基于詞語依存關(guān)系路徑的觀點(diǎn)抽取算法抽取出文檔中的觀點(diǎn)集合; c.采用基于通用知識(shí)網(wǎng)絡(luò)的詞語語義傾向性預(yù)測(cè)方法計(jì)算觀點(diǎn)的傾向性強(qiáng)度,并以傾向性強(qiáng)度的絕對(duì)值作為觀點(diǎn)的主觀性強(qiáng)度; d.針對(duì)查詢主題Query中的每個(gè)詞,逐一找出與每個(gè)詞相關(guān)的觀點(diǎn),并對(duì)這些觀點(diǎn)的主觀性強(qiáng)度求和,將求和結(jié)果作為該詞的主觀性強(qiáng)度; e.針對(duì)查詢主題Query中的每個(gè)詞,計(jì)算該詞在文檔中的傾向性權(quán)重,并以此作為該詞與文檔的情感相關(guān)度。
7.如權(quán)利要求6所述的觀點(diǎn)檢索方法,其特征在于 所述基于詞語依存關(guān)系路徑的觀點(diǎn)抽取算法包括 采集詞語依存關(guān)系路徑來構(gòu)建詞語依存關(guān)系庫(kù); 采用基于詞語依存關(guān)系鏈的匹配算法抽取評(píng)價(jià)對(duì)象和情感特征; 通過評(píng)價(jià)對(duì)象和情感特征之間的詞語依存關(guān)系判斷觀點(diǎn)極性。
8.如權(quán)利要求6所述的觀點(diǎn)檢索方法,其特征在于 所述計(jì)算查詢主題Query中每個(gè)查詢?cè)~的主觀性強(qiáng)度由下式計(jì)算;
9.如權(quán)利要求1所述的觀點(diǎn)檢索方法,其特征在于 所述計(jì)算查詢主題中每個(gè)查詢?cè)~在文檔中的傾向性權(quán)重由下式計(jì)算
10.如權(quán)利要求1所述的觀點(diǎn)檢索方法,其特征在于 所述文檔與查詢主題的相關(guān)性由下式計(jì)算
全文摘要
本發(fā)明公開了一種基于情感相關(guān)度的觀點(diǎn)檢索方法,包括如下步驟在文檔集合中,用基于概率檢索模型算法計(jì)算文檔與查詢主題的文本相關(guān)度;采用基于詞語依存關(guān)系路徑的觀點(diǎn)抽取方法計(jì)算文檔與查詢主題的情感相關(guān)度;采用線性加權(quán)的方法綜合文檔與查詢主題的文本相關(guān)度和文檔與查詢主題的情感相關(guān)度確定文檔與查詢的最終相關(guān)性。本發(fā)明在觀點(diǎn)抽取技術(shù)的基礎(chǔ)上,計(jì)算主題在文檔中的傾向性強(qiáng)弱,通過綜合文檔與主題的情感相關(guān)度以及文檔與主題的文本相關(guān)度來計(jì)算文檔與查詢的整體相關(guān)性。另外,本發(fā)明使用通用知識(shí)網(wǎng)絡(luò)對(duì)查詢主題進(jìn)行擴(kuò)展,并計(jì)算了查詢擴(kuò)展詞和查詢主題之間的相關(guān)度,可以進(jìn)一步改善觀點(diǎn)檢索的效果。
文檔編號(hào)G06F17/30GK103049470SQ20121033780
公開日2013年4月17日 申請(qǐng)日期2012年9月12日 優(yōu)先權(quán)日2012年9月12日
發(fā)明者劉瑞, 安翼, 陳君龍, 宋浪 申請(qǐng)人:北京航空航天大學(xué)