基于領(lǐng)域信息的半監(jiān)督方面自動提取方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,包括:網(wǎng)絡(luò)信息爬取、信息預(yù)處理、關(guān)鍵詞提取、評論文檔重組和細粒度的標記LDA學習;本發(fā)明還公開了一種基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),包括:網(wǎng)絡(luò)信息爬取模塊、信息預(yù)處理模塊、關(guān)鍵詞提取模塊、評論文檔重組模塊和細粒度的標記LDA學習模塊。本發(fā)明可以使得提取出來的商品各個方面的描述更加明確、方面之間的區(qū)別更加清晰;另外,本發(fā)明生成的方面結(jié)構(gòu)(順序和內(nèi)容)能與預(yù)先定義在種子詞集中的商品方面結(jié)構(gòu)保持一致,從而,本發(fā)明具有能有效地將消費者描述同一商品方面的不同用語進行語義聚類,并可以在對商品進行觀點挖掘時減少人工干預(yù)等優(yōu)點。
【專利說明】基于領(lǐng)域信息的半監(jiān)督方面自動提取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種商品觀點挖掘技術(shù),特別涉及一種基于領(lǐng)域信息的半監(jiān)督方面自動提取方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子商務(wù)的日益普及,越來越多的消費者都選擇在網(wǎng)上購買商品和服務(wù),尤其是近幾年的蓬勃發(fā)展,不同模式(B2B、B2C、C3C等)、不同領(lǐng)域的各類型電子商務(wù)網(wǎng)站不斷涌現(xiàn),競爭不斷加劇,用戶需求也不斷提高。生產(chǎn)和銷售廠商總是試圖及時獲取公眾或消費者對它們產(chǎn)品和服務(wù)的評價觀點以提升產(chǎn)品質(zhì)量及銷量;而潛在的消費者在享受一種服務(wù)或購買一種產(chǎn)品之前,也想知道當前消費者的評價觀點,以便選擇真正適合自身的產(chǎn)品。通過對網(wǎng)絡(luò)上大量的消費者評論反饋進行自動化的觀點挖掘有助于解決上述問題,自動化的觀點挖掘有以下三個方面的優(yōu)勢:首先,該方法總結(jié)的結(jié)果可以避免用手工閱卷中公司的人員變動使得評價結(jié)果出現(xiàn)不一致的現(xiàn)象。其次,該類系統(tǒng)可以近實時地從網(wǎng)上吸收大量的信息進行分析,這使得調(diào)查成本相對較低。第三,觀點挖掘系統(tǒng)還可以處理多種語言的文檔,這在傳統(tǒng)方法中,對于一般人員是很難達到掌握多種語言的要求。然而,在當前主流的觀點挖掘框架中,對于商品方面的提取往往是整個框架的瓶頸,因為該步驟需要將描述相同商品方面的不同用語進行語義歸類。此問題是目前該領(lǐng)域的一個研究熱點。
[0003]當前商品方面提取的方法主要有:基于頻繁字符串和基于主題模型(topicmodel)的挖掘算法。前者的主要不足是不能將描述同一商品方面的語義相關(guān)的用語進行歸類,這導致該類方法無法用一種有結(jié)構(gòu)的方式幫助用戶快速、直觀地了解商品的各個方面特征;對于后者,大部分方法采用的是無監(jiān)督式的學習方式,這導致了以下的缺點與不足:
[0004]1.模型生成方面的粒度和分類標準可能與人的認知習慣相悖,使得結(jié)果難以被理解。
[0005]2.無監(jiān)督模型每次生成的方面序列不能保持一個穩(wěn)定的結(jié)構(gòu),導致難以在自動化的分析算法中應(yīng)用。
[0006]3.由于大部分評論都包含相同或相似的商品方面,這將使得基于單詞共現(xiàn)性原理的主題模型方法難以將各個相關(guān)但不同的方面清晰地加以區(qū)分。
[0007]因此,為了更有效地從商品評論中提取商品方面,需要引入一些先驗知識來監(jiān)督主題模型的學習過程,使得模型提取出來的商品方面分類更加清晰、更好地滿足人們的認知習慣、并以一種較穩(wěn)定的結(jié)構(gòu)輸出。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的首要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,該方法通過同時在文檔層次和詞層次對LDA模型進行標記學習,可以使得提取出來的各個商品方面的相關(guān)的信息描述得更加明確,方面之間的區(qū)別更加清晰。[0009]本發(fā)明的另一目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),該系統(tǒng)能與預(yù)先定義的方面種子詞的結(jié)構(gòu)保持一致,從而有效地將消費者描述同一商品方面的不同用語進行語義聚類,并可以在對商品進行觀點挖掘時減少人工干預(yù)。
[0010]本發(fā)明的首要目的通過下述技術(shù)方案實現(xiàn):基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,包括:
[0011]網(wǎng)絡(luò)信息爬取,從電子商務(wù)網(wǎng)站上爬取消費者對于關(guān)注商品的評論,以及電子商務(wù)網(wǎng)站中對于商品半結(jié)構(gòu)化的商品細節(jié)描述信息;
[0012]信息預(yù)處理,將爬取到的評論進行分詞、詞性標注和去除停頓詞處理,并提取評論中的特征單詞;
[0013]關(guān)鍵詞提取,從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細節(jié)描述信息中提取每個方面類別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專業(yè)領(lǐng)域定義的或符合人們認知習慣的商品方面分類作為半監(jiān)督方法的先驗知識;
[0014]評論文檔重組,將評論中各個句子利用提取的所述關(guān)鍵詞進行標記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到主題鮮明、共現(xiàn)商品方面較少的學習文檔;
[0015]細粒度的標記LDA學習,通過半監(jiān)督的LDA主題模型識別評論中的產(chǎn)品特征,將所述的產(chǎn)品特征的屬于同一方面的特征進行歸類;所述半監(jiān)督的LDA主題模型是通過加入方面-詞的約束關(guān)系來監(jiān)督模型生成更加易于理解、清晰的分類,并獲得順序和種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評論中,關(guān)鍵詞具有特定的方面傾向,如:“LCD”更多的是用來描述“屏幕”方面;
[0016]其中,所述方面類別Ci中的第j個細節(jié)描述短語Pi,j中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
【權(quán)利要求】
1.基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,其特征在于,包括: 網(wǎng)絡(luò)信息爬取,從電子商務(wù)網(wǎng)站上爬取消費者對于關(guān)注商品的評論,以及電子商務(wù)網(wǎng)站中對于商品半結(jié)構(gòu)化的商品細節(jié)描述信息; 信息預(yù)處理,將爬取到的評論進行分詞、詞性標注和去除停頓詞處理,并提取評論中的特征單詞; 關(guān)鍵詞提取,從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)化的商品細節(jié)描述信息中提取每個方面類別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專業(yè)領(lǐng)域定義的或符合人們認知習慣的商品方面分類作為半監(jiān)督方法的先驗知識; 評論文檔重組,將評論中各個句子利用提取的所述關(guān)鍵詞進行標記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到學習文檔; 細粒度的標記LDA學習,通過半監(jiān)督的LDA主題模型識別評論中的產(chǎn)品特征,將所述的產(chǎn)品特征的屬于同一方面的特征進行歸類;所述半監(jiān)督的LDA主題模型是通過加入方面-詞的約束關(guān)系來監(jiān)督模型生成分類,并獲得順序與種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評論中,關(guān)鍵詞具有特定的方面傾向; 其中,所述方面類別Ci中的第j個細節(jié)描述短語ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,其特征在于,所述的細粒度的標記LDA學習包括以下步驟: (5a)利用種子詞集初始化詞-主題相關(guān)性變量P;:相關(guān)性變量的設(shè)置表達式如下:
3.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,其特征在于,所述的評論文檔重組包括以下步驟: (4a)將評論拆分為句子,并對包含了細節(jié)描述或種子詞的句子,使用細節(jié)描述短語和種子詞進行標記,如果某個句子同時包含了單詞\和\_,當&為\的字串時,該句子只會被標記為h; (4b)將包含了相同字符串標記的句子重新組合成新的文檔。
4.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,其特征在于,所述的網(wǎng)絡(luò)信息爬取包括以下步驟: (Ia)利用Scrapy爬蟲引擎打開一個域名,定位出處理該域名的蜘蛛,所述蜘蛛指用戶自定義的類,用于從解析回應(yīng)、提取網(wǎng)頁中相應(yīng)的項或者提取出特定的URL用于后續(xù)爬取,Scrapy爬蟲引擎再請求蜘蛛提供種子URL ; (Ib)引擎從蜘蛛獲取種子URL,再包裝為請求在調(diào)度器中進行調(diào)度,引擎從調(diào)度器獲取下一個待爬取的請求; (Ic)調(diào)度器將下一個待爬取的請求返回給引擎,引擎將下一個待爬取的請求發(fā)送到下載器; (Id)當網(wǎng)頁被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; (Ie)引擎在收到下載 器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進行處理; (If)蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項,然后給引擎發(fā)送新的請求; (Ig)引擎將抓取到的項放入項目流水線,并向調(diào)度器發(fā)送請求; (Ih)重復執(zhí)行步驟(Ib)至(lg),直到調(diào)度器中所有請求都完成為止,最后斷開引擎與域之間的聯(lián)系。
5.根據(jù)權(quán)利要求1所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取方法,其特征在于,所述的信息預(yù)處理包括以下步驟: (2a)對于英文,首先將所有字符轉(zhuǎn)換為小寫,再將所有評論進行分詞及詞性標注;對于中文,直接對評論進行分詞及詞性標注; (2b)對于英文,去除停頓詞、包含數(shù)字和URL的字符串,再將所有單詞進行詞干化以得到單詞原型,最后提取詞性為名詞或名詞短語的單詞作為評論文檔的特征詞;對于中文,直接提取詞性為名詞或名詞短語的單詞作為評論文檔的特征詞; 所述的關(guān)鍵詞提取包括以下步驟: (3a)對于每一個商品細節(jié)描述短語進行分詞、去除數(shù)字、標點符號和停頓詞處理; (3b)遍歷所有細節(jié)描述短語中的各個單詞,計算出每個單詞Wm在各個方面類別Ci中的詞頻、TFIDF值,并記錄下每個類別Ci中的最大詞頻和TFIDF值; (3c)遍歷每個商品方面Ci中每個描述短語Pu的單詞Wt,判斷Wt是否是Pu中擁有最大TFIDF值的詞且Pi,j中只有唯一的單詞擁有最大的TFIDF值,如果是,則將Wt加入到方面類別Ci的種子詞集Si ;否則,判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值,如果是,則將Wt加入到方面類別Ci的種子詞集Si ;否則,判斷Wt的TFIDF值是否等于1,如果是,則將Wt加入到方面類別Ci的種子詞集Si ;否則,將Wt排除在方面Ci的種子詞集Si之外。
6.基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),其特征在于,包括:網(wǎng)絡(luò)信息爬取模塊,用于從電子商務(wù)網(wǎng)站上爬取消費者對于關(guān)注商品的評論,以及電子商務(wù)網(wǎng)站中對于商品的半結(jié)構(gòu)化的商品細節(jié)描述信息; 信息預(yù)處理模塊,用于將爬取到的評論進行分詞、詞性標注、去除停頓詞,提取評論中的特征單詞處理; 關(guān)鍵詞提取模塊,用于從電子商務(wù)網(wǎng)站中半結(jié)構(gòu)的商品細節(jié)描述信息中提取每個方面類別的關(guān)鍵詞作為半監(jiān)督主題模型的種子詞集,獲取由電商網(wǎng)站中的專業(yè)領(lǐng)域定義的或符合人們認知習慣的商品方面分類作為半監(jiān)督方法的先驗知識; 評論文檔重組模塊,用于將評論中各個句子利用提取的所述關(guān)鍵詞進行標記,然后將含有相同關(guān)鍵詞的句子重新組合成新的文檔,得到學習文檔; 細粒度的標記LDA學習模塊,用于通過半監(jiān)督的LDA主題模型識別評論中的產(chǎn)品特征并將所述的產(chǎn)品特征的屬于同一方面的特征進行歸類;所述半監(jiān)督的LDA主題模型是通過加入方面-詞的約束關(guān)系來監(jiān)督模型生成分類,并獲得順序和種子詞集中定義相一致的商品方面集;所述的方面-詞的約束關(guān)系是指在評論中,關(guān)鍵詞具有特定的方面傾向; 其中,所述方面類別Ci中的第j個細節(jié)描述短語ρ。中的關(guān)鍵詞Wt的定義為以下三種定義中的任意一種定義:
7.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),其特征在,所述的細粒度的標記LDA學習模塊具體用于: 利用種子詞集初始化詞-主題相關(guān)性變量p]f,所述相關(guān)性變量P。的設(shè)置表達式如下:
8.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),其特征在,所述的評論文檔重組模塊具體用于:將評論拆分為句子,并對包含了細節(jié)描述或種子詞的句子使用細節(jié)描述短語和種子詞進行標記,如果某個句子同時包含了單詞ti和當h為ti的字串時,該句子只會被標記為ti; 將包含了相同字符串標記的句子重新組合成新的文檔。
9.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),其特征在,所述的網(wǎng)絡(luò)信息爬取模塊具體用于: 利用Scrapy爬蟲引擎打開一個域名,定位出處理該域名的蜘蛛,再請求蜘蛛提供種子URL,所述的蜘蛛指用戶自定義的類,用于從解析回應(yīng)、提取網(wǎng)頁中相應(yīng)的項或者提取出特定的URL用于后續(xù)爬?。? 引擎從蜘蛛獲取種子URL,再包裝為請求在調(diào)度器中進行調(diào)度,最后引擎從調(diào)度器獲取下一個待爬取的請求; 調(diào)度器將下一個待爬取的請求返回給引擎,引擎將下一個待爬取的請求發(fā)送到下載器; 當網(wǎng)頁被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; 引擎在收到下載器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進行處理; 蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項,然后給引擎發(fā)送新的請求; 引擎將抓取到的項放入項目流水線并向調(diào)度器發(fā)送請求; 依次重復執(zhí)行 引擎蜘蛛獲取種子URL,再包裝為請求在調(diào)度器中進行調(diào)度,引擎從調(diào)度器獲取下一個待爬取的請求; 調(diào)度器將下一個待爬取的請求返回給引擎,引擎將下一個待爬取的請求發(fā)送到下載器; 當網(wǎng)頁被下載器下載完成以后,把響應(yīng)內(nèi)容發(fā)送到引擎; 引擎在收到下載器的響應(yīng)內(nèi)容后,將響應(yīng)內(nèi)容發(fā)送到蜘蛛進行處理; 蜘蛛處理響應(yīng)內(nèi)容并返回爬取到的項,然后給引擎發(fā)送新的請求;以及引擎將抓取到的項放入項目流水線并向調(diào)度器發(fā)送請求,直到調(diào)度器中所有請求都完成為止,最后斷開引擎與域之間聯(lián)系。
10.根據(jù)權(quán)利要求6所述的基于領(lǐng)域信息的半監(jiān)督方面自動提取系統(tǒng),其特征在,所述的信息預(yù)處理模塊具體用于: 對于英文,首先將所有字符轉(zhuǎn)換為小寫,再將所有評論進行分詞及詞性標注;對于中文,直接對評論進行分詞及詞性標注; 對于英文,去除停頓詞、包含數(shù)字和URL的字符串,再將所有單詞進行詞干化以得到單詞原型,最后提取詞性為名詞或名詞短語的單詞作為評論文檔的特征詞;對于中文,直接提取詞性為名詞或名詞短語的單詞作為評論文檔的特征詞; 所述的關(guān)鍵詞提取模塊具體用于: 對于每一個商品細節(jié)描述短語進行分詞、去除數(shù)字、標點符號和停頓詞處理; 遍歷所有細節(jié)描述短語中的各個單詞,計算出每個單詞wm在各個方面類別Ci中的詞頻、TFIDF值,并記錄下每個類別Ci中的最大詞頻和TFIDF值; 遍歷每個商品方面Ci中每個描述短語Pu的單詞wt,判斷Wt是否是ρ。中擁有最大TFIDF值的詞且Pi,j中只有唯一的單詞擁有最大的TFIDF值,如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,判斷Wt是否是P。中擁有最大TF值的詞且ρ。中只有唯一的單詞擁有最大的TF值, 如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,判斷Wt的TFIDF值是否等于1,如果是,則將Wt加入到方面Ci的種子詞集Si ;否則,將Wt排除在方面Ci的種子詞集Si之外。
【文檔編號】G06Q30/02GK103903164SQ201410114328
【公開日】2014年7月2日 申請日期:2014年3月25日 優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】蔡毅, 王濤, 梁浩鋒, 閔華清 申請人:華南理工大學