亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于句法分析的特征觀點詞對的提取方法

文檔序號:6540348閱讀:604來源:國知局
一種基于句法分析的特征觀點詞對的提取方法
【專利摘要】本發(fā)明的提出了一種基于句法分析的特征觀點詞對的提取方法。本發(fā)明屬于自然語言處理領域。本發(fā)明的最終目的是為評論信息分析提供正確的特征觀點詞對,克服現(xiàn)有特征觀點詞提取方法過于單一,召回率低等缺點。最終的特征觀點詞對,由兩個部分構成,一部分為特征詞,一部分為此特征詞的觀點。舉例,佳能相機(特征詞),喜歡(觀點詞)。本發(fā)明通過句法分析的方式找出特征觀點詞對。
【專利說明】一種基于句法分析的特征觀點詞對的提取方法
【技術領域】
[0001]本發(fā)明屬于自然語言處理領域,更為具體地講,涉及一種基于句法分析的特征觀點詞對的提取方法。
【背景技術】
[0002]當前,在各種網(wǎng)絡論壇,以及購物網(wǎng)站,點評網(wǎng)站充斥著大量的評論信息。這些評論包含著大量的口語以及語法錯誤。這些口語化和語法錯誤給文本分析帶來了大量的困擾和錯誤。
[0003]與此同時,在海量的評論的信息中存在著大量的垃圾以及無用信息,如何提取出有用的評論者的觀點,對于輿情分析,情感分析,網(wǎng)絡監(jiān)控等等相關領域都有著及其重要的作用。目前的特征觀點詞對的提取方法基于特征詞最近的形容詞,過于單一,造成觀點提取的不完整。以至于影響后面輿情分析,情感分析,網(wǎng)絡監(jiān)控等。
[0004]本方法旨在構建新的句法分析器,使用新的句法分析器提取評論信息中的特征觀點詞對,使特征觀點詞對的提取更加的準確全面。使后一步的相關工作者進行相應分析時獲得更為準確的結果。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的最終目的是為評論信息分析提供正確的特征觀點詞對,克服現(xiàn)有特征觀點詞提取方法過于單一,召回率低等缺點。最終的特征觀點詞對,由兩個部分構成,一部分為特征詞,一部分為此特征詞的觀點。舉例,佳能相機(特征詞),喜歡(觀點詞)。本發(fā)明通過句法分析的方式找出特征觀點詞對。
[0006]為了實現(xiàn)上述目的,本發(fā)明基于句法分析的特征觀點詞提取方法,其方法構成主要由以下特征構成:
[0007]一分詞以及詞性標注模塊。本模塊用來處理評論文本,在經(jīng)過本模塊后,文本將從一系列漢字串變?yōu)楠毩⒌膯卧~,同時對應各個單詞的詞性也會標記出來。單詞的詞性,即形容詞,動詞,名詞等等。舉例,整體/η來說/u菜/n的/uj質(zhì)量/n和/c 口感/n相當/d不錯/a。在本例中“/ “后面的詞性標簽符合中科院ICTCLAS標準。
[0008]一句法分析器模塊。本模塊用來處理分詞詞性標注后的序列。如上述例子本模塊處理的序列為n u n uj n c n d a。在句法分析器模塊中,會剔除無關成分僅保留n, ny,vn, v, a, I, z, i。合并保留成分η, η ;ny, ny ;ny, vn ;ny, n ;n, vn。同時對單個漢字且前面沒有副詞出現(xiàn)的動詞進行剔除。經(jīng)過上述處理過程后得到一個詞性成分序列如n,V0
[0009]一成分序列映射模塊。本模塊用來映射詞性成分序列和應提取的成分。本模塊在獲得詞性成分序列后會將其與已經(jīng)存儲在列表中的成分序列到提取成分映射作對比。如果存在這樣的映射則輸出應該提取的詞性成分以及在句子中的位置。
[0010]一成分提取模塊。本模塊根據(jù)成分序列映射模塊輸出的應該提取的詞性成分以及在句子中的位置提取相應的成分。并與特征詞形成特征觀點詞對。[0011]一固定搭配模塊。本模塊在句法分析無法正確進行時的補充。通過引進評論知識庫中的特征詞與觀點詞的固定搭配。當在一個短句子中同時出現(xiàn)特征詞與觀點詞時我們認為,特征詞與觀點詞是一個特征觀點詞對。并將其輸出。
[0012]一特征觀點詞對存儲模塊。本模塊存儲由各模塊生成的特征觀點詞對。便于后來工作者的調(diào)用。
【專利附圖】

【附圖說明】
[0013]圖1是本發(fā)明一種基于句法分析特征觀點對提取方法的具體實施原理以及框圖。
[0014]圖2是圖1中句法分析器模塊的具體實施原理以及框圖。
【具體實施方式】
[0015]下面結合附圖對本發(fā)明的【具體實施方式】進行描述,以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。
[0016]圖1是本發(fā)明一種基于句法分析特征觀點對提取方法的具體實施原理以及框圖。
[0017]在本實施例中,如圖1所示,基于句法分析特征觀點對的提取方法主要包括分詞以及詞性標注模塊1,句法分析器模塊2,成分序列映射模塊3,評論知識庫模塊4,成分提取模塊5,固定搭配模塊6,特征觀點詞對存儲模塊7。
[0018]在本實例中通過調(diào)用分詞以及詞性標注模塊I輸入的句子進行分詞以及詞性標注得到結果,舉例,整體/n來說/u菜/n質(zhì)量/n和/c 口感/n相當/d不錯/a。將這樣的分詞詞性標注序列傳遞給句法分析器模塊2。由句法分析器對這樣的序列進行處理。具體的句法分析器處理過程將在圖2中進行說明。通過句法分析器模塊2處理后得到簡單的成分序列,舉例,n, a, 1,3,5,10。η, η, η, a是需要詞的成分序列;1,3,5,10是詞的位置。句法分析器模塊將上述成分序列傳遞給成分序列映射模塊3,成分序列映射模塊3會在其列表中尋找是否有序列n,a。如果有則返回提取的成分和位置。并將其傳遞成分提取模塊5。由成分提取模塊5提取對應成分的詞,并將其組成特征觀點詞對的形式。舉例,整體(特征詞),不錯(觀點詞)。最后由成分提取模塊5將特征觀點詞對傳遞給特征觀點詞對存儲模塊
7。同時如果成分序列映射模塊3無法進行映射,則通過調(diào)用評論知識庫模塊5,固定搭配模塊6,尋找特征觀點詞對。最后將特征觀點詞對傳遞給特征觀點詞對存儲模塊7。
[0019]圖2是圖1中句法分析器模塊的具體實施原理以及框圖。
[0020]在本實例中,如圖2所示,句法分析器2主要分詞詞性標注201,成分選擇202,成分合并203,成分剔除204,動詞成分選擇205,成分序列存儲206。
[0021]在本實例中通過調(diào)用分詞詞性標注201,得到關于句子的詞性標注序列。舉例,整體/n來說/u菜/n質(zhì)量/n和/c 口感/n相當/d不錯/a。將這樣的詞性標注序列傳遞給成分選擇202。成分選擇202將這樣的序列分別傳遞給成分合并203,成分剔除204,動詞成分選擇205。成分剔除204將剔除,來說/u,和/c,相當/d。成分合并203會合并,菜/n質(zhì)量/η。同時在本例中沒有動詞。成分選擇205則不會被調(diào)用。動詞成分選擇205示例,魚香/nr雞絲/n酸/n死/V,動詞成分選擇205判斷動詞死/V的長度及以及前面是否出現(xiàn)副詞。本例中字長度為I同時前面沒有出現(xiàn)副詞所以動詞成分選擇205不會選擇動詞死/V。在經(jīng)歷以上成分合并203,成分剔除204,動詞成分選擇205后得到成分序列并將其傳遞給成分序列存儲206。
[0022]盡管上面對本發(fā)明說明性的【具體實施方式】進行了描述,以便于本技術領的技術人員理解本發(fā)明,但應該清楚,本發(fā)明不限于【具體實施方式】的范圍,對本【技術領域】的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構思的發(fā)明創(chuàng)造均在保護之列。
【權利要求】
1.一種基于句法分析的特征觀點詞對提取方法主要由以下特征構成: 一分詞以及詞性標注模塊。本模塊用來處理評論文本,在經(jīng)過本模塊后,文本將從一系列漢字串變?yōu)楠毩⒌膯卧~,同時對應各個單詞的詞性也會標記出來。單詞的詞性,即形容詞,動詞,名詞等等。舉例,整體/n來說/u菜/n的/uj質(zhì)量/n和/c 口感/n相當/d不錯/a。在本例中“/ “后面的詞性標簽符合中科院ICTCLAS標準。 一句法分析器模塊。本模塊用來處理分詞詞性標注后的序列。如上述例子本模塊處理的序列為n u n uj n c n d a。在句法分析器模塊中,會剔除無關成分僅保留n, ny, vn,v, a, I, z, io合并保留成分η, n ;ny, ny ;ny, vn ;ny, n ;n, vn。同時對單個漢字且前面沒有副詞出現(xiàn)的動詞進行剔除。經(jīng)過上述處理過程后得到一個詞性成分序列如n,V0 一成分序列映射模塊。本模塊用來映射詞性成分序列和應提取的成分。本模塊在獲得詞性成分序列后會將其與已經(jīng)存儲在列表中的成分序列到提取成分映射作對比。如果存在這樣的映射則輸出應該提取的詞性成分以及在句子中的位置。 一成分提取模塊。本模塊根據(jù)成分序列映射模塊輸出的應該提取的詞性成分以及在句子中的位置提取相應的成分。并與特征詞形成特征觀點詞對。 一固定搭配模塊。本模塊在句法分析無法正確進行時的補充。通過引進評論知識庫中的特征詞與觀點詞的固定搭配。當在一個短句子中同時出現(xiàn)特征詞與觀點詞時我們認為,特征詞與觀點詞是一個特征觀點詞對。并將其輸出。 一特征觀點詞對存儲模塊。本模塊存儲由各模塊生成的特征觀點詞對。便于后來工作者的調(diào)用。
【文檔編號】G06F17/27GK103885936SQ201410092700
【公開日】2014年6月25日 申請日期:2014年3月13日 優(yōu)先權日:2014年3月13日
【發(fā)明者】秦志光, 周爾強, 羅熹 申請人:電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1