一種基于短文本評(píng)論的知識(shí)庫(kù)構(gòu)建方法
【專利摘要】本發(fā)明的提出了一種基于短文本評(píng)論的知識(shí)庫(kù)的構(gòu)建方法。本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域。目的是為短文本分析提供相關(guān)世界知識(shí),克服現(xiàn)有的短文本分析的不足。實(shí)現(xiàn)短文本分析統(tǒng)計(jì)分析和語(yǔ)法規(guī)則的高度結(jié)合。通過構(gòu)建相關(guān)評(píng)論的知識(shí)庫(kù),獲得相關(guān)評(píng)論領(lǐng)域的相關(guān)特征詞,特征詞搭配,評(píng)價(jià)詞及評(píng)分,程度副詞及評(píng)分。通過構(gòu)建相關(guān)評(píng)論的知識(shí)庫(kù)可以短文本分析中利用評(píng)論知識(shí)庫(kù)進(jìn)行輿情分析,情感分析,信息抽取,提高相關(guān)工作的準(zhǔn)確率和效率。
【專利說明】一種基于短文本評(píng)論的知識(shí)庫(kù)構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,更為具體地講,涉及一種面向短文本評(píng)論的相關(guān)知識(shí)庫(kù)的構(gòu)建方法。
【背景技術(shù)】
[0002]當(dāng)前,在各種網(wǎng)絡(luò)論壇,以及購(gòu)物網(wǎng)站,點(diǎn)評(píng)網(wǎng)站充斥著大量的評(píng)論信息。這些評(píng)論包含著大量的口語(yǔ)以及語(yǔ)法錯(cuò)誤。這些口語(yǔ)化和語(yǔ)法錯(cuò)誤給文本分析帶來(lái)了大量的困擾和錯(cuò)誤。
[0003]對(duì)這些評(píng)論分析的處理方法無(wú)論是通過簡(jiǎn)單的統(tǒng)計(jì)分析后得出結(jié)果,或者是通過人工閱讀的方法得出結(jié)論,都無(wú)法得到科學(xué)的結(jié)果。前者統(tǒng)計(jì)分析僅能得到僅僅是相關(guān)單詞出現(xiàn)頻率,這樣單一的方式無(wú)法獲得原評(píng)論的本意。后者將會(huì)耗費(fèi)巨大的人力和物力,隨著網(wǎng)絡(luò)評(píng)論文本的增加這種方法可行性將會(huì)呈現(xiàn)指數(shù)下降。
[0004]本方法旨在利用知識(shí)庫(kù)的方法補(bǔ)充在評(píng)論分析需要用到的世界知識(shí),使短文本處理更加的科學(xué)合理高效。使分析者在遇到語(yǔ)法錯(cuò)誤或者口語(yǔ)化的表達(dá)時(shí)能夠摒棄相關(guān)錯(cuò)誤,得到正確的評(píng)論者的本意。同時(shí)使短文本處理更加快速。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的最終目的是為短文本分析提供相關(guān)世界知識(shí),克服現(xiàn)有的短文本分析的不足。實(shí)現(xiàn)短文本分析統(tǒng)計(jì)分析和語(yǔ)法規(guī)則的高度結(jié)合。通過構(gòu)建相關(guān)評(píng)論的知識(shí)庫(kù),獲得相關(guān)評(píng)論領(lǐng)域的相關(guān)特征詞,特征詞搭配,評(píng)價(jià)詞及評(píng)分,程度副詞及評(píng)分。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明面對(duì)評(píng)論知識(shí)庫(kù)構(gòu)建,其方法構(gòu)成主要由以下特征構(gòu)成:
[0007]—爬蟲模塊。主要用于爬取相關(guān)的短文本評(píng)論數(shù)據(jù)。短文本評(píng)論數(shù)據(jù)主要由兩部分構(gòu)成,第一部分為評(píng)論的相關(guān)數(shù)據(jù),第二部分為評(píng)論的相關(guān)特征詞。
[0008]一數(shù)據(jù)預(yù)處理模塊。主要用于構(gòu)造短文本評(píng)論數(shù)據(jù),以及分詞字典。短文本評(píng)論數(shù)據(jù)處理主要包括分段模塊,分為長(zhǎng)句子模塊,分為短句子模塊,以及運(yùn)用評(píng)論相關(guān)詞構(gòu)造分詞字典模塊。
[0009]一分詞以及詞性標(biāo)注模塊。主要用于下一步構(gòu)造相關(guān)知識(shí)庫(kù)提供詞性標(biāo)簽序列。相應(yīng)的標(biāo)簽序列使用中科院ICTCLAS的標(biāo)注分詞標(biāo)注,來(lái)進(jìn)行說明。
[0010]一評(píng)論相關(guān)特征詞構(gòu)造模塊。用于構(gòu)造特征詞表。特征詞主要由兩部分構(gòu)成第一部分由相關(guān)特征詞構(gòu)成比如具體的菜名(回鍋肉),商品名(電腦桌)等等。第二部分是由評(píng)論涉及的方面構(gòu)成,如環(huán)境,裝修,售后等等以及上述詞的近義詞構(gòu)成。
[0011]一搭配匹配模塊。主要用于尋找相關(guān)特征詞的搭配。主要是名詞以及具有名詞屬性的詞屬性標(biāo)簽為“/η”或者“/vn”,對(duì)于特征詞的搭配。如跟菜名的搭配可以是不錯(cuò),不能是耐用。匹配主要包括特征名詞與形容詞,特征名詞與動(dòng)詞,特征名詞與狀態(tài)詞,特征名詞與常用習(xí)語(yǔ),特征名詞與名詞。在獲得相應(yīng)的匹配后存儲(chǔ)進(jìn)知識(shí)庫(kù)中。[0012]一評(píng)價(jià)詞以及程度副詞構(gòu)建模塊。主要用于尋找評(píng)價(jià)詞,以及評(píng)價(jià)詞的評(píng)分等級(jí),程度副詞的評(píng)分等級(jí)。完成后將評(píng)價(jià)詞,評(píng)價(jià)詞評(píng)分以及程度副詞評(píng)分加入知識(shí)庫(kù)中。
[0013]一知識(shí)庫(kù)模塊。主要用來(lái)存儲(chǔ)相關(guān)特征詞,相關(guān)特征詞搭配,評(píng)價(jià)詞,評(píng)價(jià)詞評(píng)分,程度副詞,程度副詞評(píng)分。
[0014]本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的:本發(fā)明通過調(diào)用以上各個(gè)模塊獲得了特定領(lǐng)域的相關(guān)特征名詞,將其加入知識(shí)庫(kù)中。同時(shí)獲得相關(guān)特征名詞的搭配同時(shí)將特征名詞與搭配以成對(duì)出現(xiàn)的方式加入知識(shí)庫(kù)中。在獲得評(píng)價(jià)詞以及其評(píng)分等級(jí)后將其加入知識(shí)庫(kù),在獲得程度副詞評(píng)分等級(jí)后將其加入知識(shí)庫(kù)中。知識(shí)庫(kù)最終由四個(gè)部分構(gòu)成,相關(guān)特征詞,特征詞搭配,評(píng)價(jià)詞及評(píng)分,程度副詞及評(píng)分。
【專利附圖】
【附圖說明】
[0015]圖1是本發(fā)明基于短文本評(píng)論的知識(shí)庫(kù)的構(gòu)建方法的具體實(shí)施原理以及框圖。
[0016]圖2是本發(fā)明中圖1所示6模塊的具體構(gòu)建以及實(shí)施圖。
【具體實(shí)施方式】
[0017]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。
[0018]圖1是本發(fā)明基于短文本評(píng)論的知識(shí)庫(kù)的構(gòu)建方法的具體實(shí)施原理以及框圖。
[0019]在本實(shí)施例中,如圖1所示,本發(fā)明基于短文本評(píng)論的知識(shí)庫(kù)的構(gòu)建方法包括爬取數(shù)據(jù)的爬蟲模塊1,數(shù)據(jù)預(yù)處理模塊2,分詞及詞性標(biāo)注模塊3,基于詞性標(biāo)注和人工參與模塊4,分類詞典模塊5,相關(guān)特征詞模塊6,特征詞搭配模塊7,評(píng)價(jià)詞及評(píng)分模塊8,程度副詞及評(píng)分模塊9,基于評(píng)論知識(shí)庫(kù)存儲(chǔ)模塊10。
[0020]在本實(shí)例中通過調(diào)用爬蟲模塊I獲得相關(guān)的數(shù)據(jù)后,將其數(shù)據(jù)傳遞給數(shù)據(jù)預(yù)處理模塊2,由數(shù)據(jù)預(yù)處理模塊完成分開段落,分開評(píng)論中的長(zhǎng)句子,分開評(píng)論中的短句子。經(jīng)數(shù)據(jù)預(yù)處理模塊2數(shù)據(jù)傳遞給分詞及詞性標(biāo)注模塊3,由分詞及詞性標(biāo)注模塊3分詞以及詞性標(biāo)注后將數(shù)據(jù)傳遞給基于詞性標(biāo)注和人工參與模塊4。同時(shí)分詞及詞性標(biāo)注模塊3將數(shù)據(jù)傳遞給相關(guān)特征詞模塊6,特征詞搭配模塊7。相關(guān)特征詞模塊6具體處理步驟將在圖2中介紹。通過相關(guān)特征詞模塊6處理后得到相關(guān)特征詞,將其傳遞給基于評(píng)論知識(shí)庫(kù)存儲(chǔ)模塊10。通過特征詞搭配模塊7處理后得到相關(guān)特征詞的搭配,將其傳遞給基于評(píng)論知識(shí)庫(kù)存儲(chǔ)模塊10。通過基于詞性標(biāo)注和人工參與模塊4處理后的數(shù)據(jù)分別傳遞給評(píng)價(jià)詞及評(píng)分模塊8,程度副詞及評(píng)分模塊9。由評(píng)價(jià)詞及評(píng)分模塊8,程度副詞及評(píng)分模塊9處理后的到評(píng)價(jià)詞及評(píng)分,程度副詞及評(píng)分,將其分別傳遞給基于評(píng)論知識(shí)庫(kù)存儲(chǔ)模塊10。
[0021]圖2是本發(fā)明中圖1所示6模塊的具體構(gòu)建以及實(shí)施圖。
[0022]在本實(shí)例中,如圖2所示,模塊6相關(guān)特征詞模塊的構(gòu)建主要由爬蟲獲得數(shù)據(jù)模塊601,相關(guān)特征詞以及出現(xiàn)頻率模塊602,評(píng)論分為長(zhǎng)句子模塊603,構(gòu)造相關(guān)特征詞字典模塊604,評(píng)論分為短句子模塊605,分類詞典模塊606,分類詞性標(biāo)注模塊607,相關(guān)特征詞模塊 608。
[0023]由爬蟲獲得數(shù)據(jù)模塊601獲取數(shù)據(jù)后分別傳遞給評(píng)論分為長(zhǎng)句子模塊603,以及相關(guān)特征詞以及出現(xiàn)頻率模塊602。依次經(jīng)過評(píng)論分為長(zhǎng)句子模塊603,評(píng)論分為短句子模塊605,分類詞性標(biāo)注模塊607得出頻率較高的相關(guān)特征詞,并將其存儲(chǔ)在相關(guān)特征詞模塊608。構(gòu)造相關(guān)特征詞字典模塊604處理數(shù)據(jù)后得到相關(guān)特征詞字典并將其傳遞給分類詞典模塊606。再經(jīng)分類詞典模塊606傳遞給相關(guān)特征詞模塊608。分類詞典模塊通過現(xiàn)代漢語(yǔ)分類詞典獲得,在獲得相關(guān)領(lǐng)域的特征詞后將其傳遞給相關(guān)特征詞模塊608。
[0024]盡管上面對(duì)本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對(duì)本【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【權(quán)利要求】
1.一種基于短文本評(píng)論知識(shí)庫(kù)的構(gòu)建方法主要由以下特征構(gòu)成: 一爬蟲模塊。主要用于爬取相關(guān)的短文本評(píng)論數(shù)據(jù)。短文本評(píng)論數(shù)據(jù)主要由兩部分構(gòu)成,第一部分為評(píng)論的相關(guān)數(shù)據(jù),第二部分為評(píng)論的相關(guān)特征詞。 一數(shù)據(jù)預(yù)處理模塊。主要用于構(gòu)造短文本評(píng)論數(shù)據(jù),以及分詞字典。短文本評(píng)論數(shù)據(jù)處理主要包括分段模塊,分為長(zhǎng)句子模塊,分為短句子模塊,以及運(yùn)用評(píng)論相關(guān)詞構(gòu)造分詞字典模塊。 一分詞以及詞性標(biāo)注模塊。主要用于下一步構(gòu)造相關(guān)知識(shí)庫(kù)提供詞性標(biāo)簽序列。相應(yīng)的標(biāo)簽序列使用中科院ICTCLAS的標(biāo)注分詞標(biāo)注,來(lái)進(jìn)行說明。 一評(píng)論相關(guān)特征詞構(gòu)造模塊。用于構(gòu)造特征詞表。特征詞主要由兩部分構(gòu)成第一部分由相關(guān)特征詞構(gòu)成比如具體的菜名(回鍋肉),商品名(電腦桌)等等。第二部分是由評(píng)論涉及的方面構(gòu)成,如環(huán)境,裝修,售后等等以及上述詞的近義詞構(gòu)成。 一搭配匹配模塊。主要用于尋找相關(guān)特征詞的搭配。主要是名詞以及具有名詞屬性的詞屬性標(biāo)簽為“/η”或者“/vn”,對(duì)于特征詞的搭配。如跟菜名的搭配可以是不錯(cuò),不能是耐用。匹配主要包括特征名詞與形容詞,特征名詞與動(dòng)詞,特征名詞與狀態(tài)詞,特征名詞與常用習(xí)語(yǔ),特征名詞與名詞。在獲得相應(yīng)的匹配后存儲(chǔ)進(jìn)知識(shí)庫(kù)中。 一評(píng)價(jià)詞以及程度副詞構(gòu)建模塊。主要用于尋找評(píng)價(jià)詞,以及評(píng)價(jià)詞的評(píng)分等級(jí),程度副詞的評(píng)分等級(jí)。完成后將評(píng)價(jià)詞,評(píng)價(jià)詞評(píng)分以及程度副詞評(píng)分加入知識(shí)庫(kù)中。 一知識(shí)庫(kù)模塊。主要用來(lái)存儲(chǔ)相關(guān)特征詞,相關(guān)特征詞搭配,評(píng)價(jià)詞,評(píng)價(jià)詞評(píng)分,程度副詞,程度副詞評(píng)分。
【文檔編號(hào)】G06F17/27GK103886053SQ201410093764
【公開日】2014年6月25日 申請(qǐng)日期:2014年3月13日 優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】秦志光, 周爾強(qiáng), 羅熹 申請(qǐng)人:電子科技大學(xué)