基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法
【專(zhuān)利摘要】本發(fā)明提供了一種基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,包括下述步驟:步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲(chóng),抓取與指定產(chǎn)品相關(guān)的網(wǎng)頁(yè),然后抽取網(wǎng)頁(yè)中的評(píng)論數(shù)據(jù),并保存到數(shù)據(jù)庫(kù)中;步驟2,質(zhì)量特征詞提取:首先對(duì)評(píng)論文本進(jìn)行預(yù)處理,然后利用條件隨機(jī)場(chǎng)模型從評(píng)論數(shù)據(jù)中提取質(zhì)量特征詞;步驟3,質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估:基于質(zhì)量問(wèn)題描述模板統(tǒng)計(jì)產(chǎn)品的質(zhì)量問(wèn)題,基于風(fēng)險(xiǎn)評(píng)估算法對(duì)產(chǎn)品質(zhì)量的各個(gè)方面進(jìn)行風(fēng)險(xiǎn)評(píng)估。本發(fā)明能快速有效地發(fā)現(xiàn)用戶反映的質(zhì)量問(wèn)題,并對(duì)產(chǎn)品使用過(guò)程中的質(zhì)量風(fēng)險(xiǎn)進(jìn)行實(shí)時(shí)監(jiān)督。
【專(zhuān)利說(shuō)明】
基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法
技術(shù)領(lǐng)域:
[0001] 本發(fā)明屬于產(chǎn)品質(zhì)量管理領(lǐng)域,尤其涉及一種基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn) 及風(fēng)險(xiǎn)評(píng)估方法。
【背景技術(shù)】:
[0002] 產(chǎn)品質(zhì)量是企業(yè)的生命,是一個(gè)企業(yè)整體素質(zhì)的展示,也是一個(gè)企業(yè)綜合實(shí)力的 體現(xiàn)。傳統(tǒng)的質(zhì)量管理方法往往只注重生產(chǎn)過(guò)程中的質(zhì)量管理,產(chǎn)品的出廠意味著質(zhì)量管 理的結(jié)束。隨著全面質(zhì)量管理的興起,質(zhì)量管理的范圍擴(kuò)展到了用戶使用階段,企業(yè)致力于 發(fā)現(xiàn)用戶使用過(guò)程中的產(chǎn)品質(zhì)量問(wèn)題,并將這些質(zhì)量問(wèn)題反饋給設(shè)計(jì)和生產(chǎn)部門(mén),從而改 善廣品質(zhì)量,提尚用戶體驗(yàn)。
[0003] 目前,企業(yè)主要通過(guò)售后服務(wù)部門(mén)來(lái)收集用戶使用過(guò)程中的產(chǎn)品質(zhì)量問(wèn)題。很多 大型制造企業(yè)在全國(guó)設(shè)立售后服務(wù)點(diǎn),通過(guò)售后服務(wù)點(diǎn)收集用戶在使用過(guò)程中遇到的質(zhì)量 問(wèn)題,并將這些質(zhì)量問(wèn)題反饋給設(shè)計(jì)和生產(chǎn)部門(mén),為產(chǎn)品的質(zhì)量改進(jìn)提供方向。但是由于資 金、人力、物力等的限制,售后服務(wù)點(diǎn)覆蓋的范圍有限,甚至有的企業(yè)根本就沒(méi)有設(shè)立售后 服務(wù)點(diǎn),所以傳統(tǒng)的通過(guò)售后服務(wù)部門(mén)來(lái)收集用戶使用過(guò)程中的產(chǎn)品質(zhì)量問(wèn)題并不能完全 滿足企業(yè)的需求。
[0004] 隨著網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的用戶在論壇、電商等網(wǎng)絡(luò)平臺(tái)上以評(píng)論的方式發(fā)表 自己的對(duì)某個(gè)產(chǎn)品的評(píng)價(jià),這些評(píng)論中往往隱含著用戶在使用過(guò)程中發(fā)現(xiàn)的產(chǎn)品質(zhì)量問(wèn) 題。有效利用這些評(píng)論,從中挖掘出產(chǎn)品在使用過(guò)程中的質(zhì)量問(wèn)題,彌補(bǔ)了售后服務(wù)部門(mén)收 集信息不全的缺點(diǎn)。
【發(fā)明內(nèi)容】
:
[0005] 本發(fā)明的主要目的在于提供一種基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估 方法,是對(duì)傳統(tǒng)質(zhì)量管理方法的一種補(bǔ)充。
[0006] -種基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,包括下述步驟:
[0007] 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲(chóng),抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁(yè),然后 抽取網(wǎng)頁(yè)中的評(píng)論數(shù)據(jù),并將評(píng)論數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中;
[0008] 步驟2,質(zhì)量特征詞提取:首先對(duì)評(píng)論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞 標(biāo)注三步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場(chǎng)模型,最后利用條件隨機(jī)場(chǎng)模型從 評(píng)論數(shù)據(jù)中提取質(zhì)量特征詞;
[0009] 步驟3,質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估:首先提出質(zhì)量問(wèn)題描述模板,并基于該模板統(tǒng) 計(jì)出與每個(gè)質(zhì)量特征詞相關(guān)的質(zhì)量問(wèn)題;然后提出基于質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估算法,利用 風(fēng)險(xiǎn)評(píng)估算法計(jì)算每個(gè)質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估值。
[0010]在上述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法中,在所述的步驟1 中,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁(yè)時(shí),計(jì)算產(chǎn)品名與網(wǎng)頁(yè)標(biāo)題相似度的公式為:
[0011]
[0012]其中,Z是歸一化因子,Ctk是位置系數(shù),且0 <ak ,Pk是單次相似度,Pk的取值為ο 或1。
[0013] 在上述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法中,在所述的步驟2 中,使用情感詞詞典進(jìn)行情感詞標(biāo)注。在情感詞詞典中,詞語(yǔ)的情感傾向包括三類(lèi):褒義、貶 義、中性,分別用P、N、M表示,對(duì)于褒義情感詞和貶義情感詞,情感強(qiáng)度分為1、3、5、7、9五檔, 9表示強(qiáng)度最大,1為強(qiáng)度最小,對(duì)于中性情感詞,情感強(qiáng)度均為0。
[0014] 在上述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法中,在所述的步驟3 中,質(zhì)量問(wèn)題描述模板主要分為兩類(lèi):第一類(lèi)由質(zhì)量特征詞和情感詞組成,第二類(lèi)由"不"字 和質(zhì)量特征詞組成。
[0015] 在上述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法中,在所述的步驟3 中,風(fēng)險(xiǎn)評(píng)估算法的實(shí)現(xiàn)利用了情感詞詞典和程度副詞詞典。在程度副詞詞典中,詞語(yǔ)按照 情感強(qiáng)度分為四類(lèi),分別為:"極其"、"很"、"較"、"稍",對(duì)應(yīng)的情感強(qiáng)度值為4、3、2、1。
[0016] 在上述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法中,在所述的步驟3 中,風(fēng)險(xiǎn)評(píng)估算法的公式如下:
[0017] V(S)=Vi(S)+V2(S)
[0018] 其中,V1(S)是在滿足第一類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值,V2 (S)是在滿足第二類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值。
[0019] 在上述的風(fēng)險(xiǎn)評(píng)估算法的公式中,V1(S)的計(jì)算公式為:
[0020]
[0021] 其中,Vp(S)、Vn(S)、Vm(S)分別表示質(zhì)量特征詞S的褒義風(fēng)險(xiǎn)評(píng)估值、貶義風(fēng)險(xiǎn)評(píng)估 值、中性風(fēng)險(xiǎn)評(píng)估值。a、b、c分別表示修飾特征詞S的褒義情感詞的個(gè)數(shù)、貶義情感詞的個(gè) 數(shù)、中性情感詞的個(gè)數(shù);Score (Psk)表示修飾特征詞S的第k個(gè)褒義情感詞的情感強(qiáng)度,Score (PAsk)表示修飾特征詞S的第k個(gè)褒義情感詞的程度副詞的情感強(qiáng)度,Sco re(Ns1)表示修飾 特征詞S的第1個(gè)貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個(gè)中性情感詞所在的那 條評(píng)論中的褒義情感詞的個(gè)數(shù),^表示修飾特征詞S的第i個(gè)中性情感詞所在的那條評(píng)論中 的貶義情感詞的個(gè)數(shù),Sco re(Pslj)表示修飾特征詞S的第i個(gè)中性情感詞所在的那條評(píng)論中 的第j個(gè)褒義情感詞的情感強(qiáng)度。
[0022] 在上述的風(fēng)險(xiǎn)評(píng)估算法的公式中,V2(S)的計(jì)算公式為:
[0023]
[0024] 其中,T1表示第i個(gè)模板的分值,Num1表示滿足第i個(gè)模板的評(píng)論數(shù)據(jù)出現(xiàn)的次數(shù)。
[0025] 本發(fā)明能夠自動(dòng)抓取網(wǎng)絡(luò)上與指定產(chǎn)品相關(guān)的用戶評(píng)論數(shù)據(jù),并從中發(fā)現(xiàn)產(chǎn)品的 質(zhì)量問(wèn)題,進(jìn)而對(duì)產(chǎn)品質(zhì)量的各個(gè)方面進(jìn)行風(fēng)險(xiǎn)評(píng)估。利用本發(fā)明的方法,企業(yè)可以更快速 有效地發(fā)現(xiàn)用戶反映的產(chǎn)品質(zhì)量問(wèn)題,并對(duì)產(chǎn)品使用過(guò)程中的質(zhì)量風(fēng)險(xiǎn)進(jìn)行實(shí)時(shí)監(jiān)督。
【附圖說(shuō)明】:
[0026]圖1是本發(fā)明的流程圖。
[0027]圖2是本發(fā)明的數(shù)據(jù)獲取流程圖。
[0028] 圖3是本發(fā)明的質(zhì)量特征詞提取流程圖。
[0029] 圖4是本發(fā)明的依存關(guān)系分析示例圖。
[0030] 圖5是本發(fā)明的質(zhì)量特征詞提取的訓(xùn)練文本示例。 圖6是本發(fā)明的質(zhì)量特征詞提取的特征模板。
【具體實(shí)施方式】:
[0031]下面結(jié)合具體附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
[0032] 本發(fā)明以論壇、電商等網(wǎng)絡(luò)平臺(tái)上的用戶評(píng)論為研究對(duì)象,目的是從網(wǎng)絡(luò)評(píng)論中 挖掘產(chǎn)品的質(zhì)量問(wèn)題,并做出質(zhì)量風(fēng)險(xiǎn)評(píng)估。
[0033] 基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,包括數(shù)據(jù)獲取、質(zhì)量特征詞 提取、質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估三個(gè)步驟,如圖1所示。下面分別對(duì)這三個(gè)步驟進(jìn)行詳細(xì)的 說(shuō)明。
[0034] 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲(chóng),抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁(yè),然后 抽取網(wǎng)頁(yè)中的評(píng)論數(shù)據(jù),并將評(píng)論數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中。
[0035] 數(shù)據(jù)獲取的流程如圖2所示。首先,調(diào)用百度搜索接口搜索指定產(chǎn)品,得到指定頁(yè) 數(shù)的搜索結(jié)果頁(yè),且每個(gè)搜索結(jié)果頁(yè)包含13個(gè)搜索結(jié)果;然后按照如下步驟處理每個(gè)搜索 結(jié)果頁(yè):
[0036]步驟S101:提取第i搜索結(jié)果頁(yè)中第j個(gè)搜索結(jié)果的標(biāo)題。
[0037] 步驟S102:計(jì)算標(biāo)題相似度:利用公式(1)計(jì)算標(biāo)題和產(chǎn)品名的相似度,相似度用 Sim(標(biāo)題,產(chǎn)品名)表示,并且OS Sim(標(biāo)題,產(chǎn)品名H 1。如果相似度大于等于0.8,則繼續(xù) 下一步,否則,:i加1,返回步驟SlOl。
[0045] 在公式(1)、(2)、(3)和(4)中,m是"產(chǎn)品名"中包含的文字個(gè)數(shù),η是"標(biāo)題"中包含 的文字個(gè)數(shù),"標(biāo)題(k+1-ir表示標(biāo)題中的第k+1-l個(gè)字,"產(chǎn)品名(1)"表示產(chǎn)品名中的第1
[0038] >
[0039]
[0040]
[0041]
[0042]
[0043]
[0044] ⑷ 個(gè)字。
[0046] 步驟S103:提取第i搜索結(jié)果頁(yè)中第j個(gè)搜索結(jié)果的URL。
[0047] 步驟S104:匹配URL:根據(jù)第j個(gè)搜索結(jié)果的URL,判斷該搜索結(jié)果是否為論壇或電 商網(wǎng)站,若是,則繼續(xù)下一步,否則,j加1,返回步驟S101。
[0048] 步驟S105:網(wǎng)頁(yè)抓取與信息抽取:不同類(lèi)型的網(wǎng)頁(yè)對(duì)應(yīng)的抓取與抽取策略是不同 的,所以需要對(duì)不同的網(wǎng)站制定不同的抓取與抽取模板,圖2中給出了中關(guān)村、太平洋、天極 網(wǎng)、京東、蘇寧、1號(hào)店等模板,模板的個(gè)數(shù)不限,可以進(jìn)行擴(kuò)展。
[0049]步驟S106:結(jié)束判斷:當(dāng)?shù)趇搜索結(jié)果頁(yè)的全部搜索結(jié)果都處理完后,如果在第i頁(yè) 中的13個(gè)搜索結(jié)果中,滿足標(biāo)題相似度的搜索結(jié)果個(gè)數(shù)大于10,則i+l,j = l,轉(zhuǎn)到SlOl,繼 續(xù)處理下一個(gè)搜索結(jié)果頁(yè),否則,數(shù)據(jù)獲取工作結(jié)束。
[0050]步驟2,質(zhì)量特征詞提取:首先對(duì)評(píng)論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞 標(biāo)注三步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場(chǎng)模型,最后利用條件隨機(jī)場(chǎng)模型從 評(píng)論數(shù)據(jù)中提取質(zhì)量特征詞。
[0051 ]本發(fā)明提供了從評(píng)論數(shù)據(jù)中提取質(zhì)量特征詞的方法,方法流程圖如圖3所示。首先 進(jìn)行分詞及詞性標(biāo)注S201、句法分析S202、情感詞標(biāo)注S203等三步預(yù)處理,得到結(jié)構(gòu)化文本 201;然后采用均勻采樣方法從文本201中取出500條評(píng)論的處理結(jié)果,人工將這500條評(píng)論 中的所有質(zhì)量特征詞標(biāo)注為"S",得到訓(xùn)練集202;然后以訓(xùn)練集202和特征模板203作為輸 入,利用條件隨機(jī)場(chǎng)算法訓(xùn)練出一個(gè)表征了質(zhì)量特征詞與詞語(yǔ)、詞性、依存關(guān)系、支配詞及 支配的情感方向之間統(tǒng)計(jì)關(guān)系的條件隨機(jī)場(chǎng)模型204;然后利用模型204對(duì)文本201進(jìn)行質(zhì) 量特征詞的自動(dòng)標(biāo)注,得到結(jié)果集205;最后從結(jié)果集中提取標(biāo)注為S的詞語(yǔ),得到質(zhì)量特征 詞集206。
[0052] 下面對(duì)S201~S204進(jìn)行詳細(xì)說(shuō)明:
[0053]步驟S201,分詞及詞性標(biāo)注:質(zhì)量特征詞提取的目的是從評(píng)論數(shù)據(jù)中提取出與產(chǎn) 品質(zhì)量相關(guān)的詞語(yǔ),但是由于漢語(yǔ)在書(shū)寫(xiě)時(shí)詞與詞之間不存在空格,計(jì)算機(jī)無(wú)法直接進(jìn)行 詞語(yǔ)的識(shí)別,所以,要先進(jìn)行分詞處理。分詞的作用是將連續(xù)的一段文本分成一個(gè)一個(gè)的詞 語(yǔ),例如,給定一句話"手機(jī)的屏幕很模糊",分詞后的結(jié)果為"手機(jī)的屏幕很模糊"。描述質(zhì) 量問(wèn)題的詞語(yǔ)在詞性上有一定的統(tǒng)計(jì)規(guī)律,例如:質(zhì)量特征詞大部分都是名詞;副詞是質(zhì)量 特征詞的概率幾乎為零等。所以,在分詞之后,要進(jìn)行詞性標(biāo)注,標(biāo)注出每一個(gè)詞語(yǔ)的詞性, 上述例子的標(biāo)注結(jié)果為"手機(jī)/n的/u屏幕/n很/d模糊/a"。
[0054]步驟S202,依存關(guān)系分析:依存關(guān)系分析的理論基礎(chǔ)是依存語(yǔ)法,該語(yǔ)法認(rèn)為句子 中的述語(yǔ)動(dòng)詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有的受支 配成分都以某種依存關(guān)系從屬于其支配者,依存語(yǔ)法直接描述詞與詞之間的關(guān)系。給定例 子"手機(jī)/n的/u屏幕/n很/d模糊/a",依存關(guān)系分析的結(jié)果如圖4所示。在依存關(guān)系分析的 結(jié)果中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個(gè)依存對(duì),其中一個(gè)是支配詞,另一個(gè)叫從 屬詞,依存關(guān)系用一個(gè)有向弧表示,叫做依存弧,依存弧的方向?yàn)橛芍湓~指向從屬詞,每 個(gè)依存弧上有一個(gè)標(biāo)記,叫做關(guān)系類(lèi)型,表示該依存對(duì)中的兩個(gè)詞之間存在什么樣的依存 關(guān)系。在本例中,屏幕是質(zhì)量特征詞,從圖4中可以看出,"屏幕"的支配詞為"模糊","屏幕" 與"模糊"之間的依存關(guān)系為"SBV",即主謂關(guān)系。
[0055] 步驟S203,情感詞標(biāo)注:經(jīng)過(guò)步驟S201、S202,得到了詞語(yǔ)、詞性、依存關(guān)系、支配詞 等4項(xiàng)內(nèi)容,對(duì)于"手機(jī)的屏幕很模糊"這個(gè)例子,得到的結(jié)果為圖5中表格的前5列,其中每 一行為一條記錄,每條記錄包括詞語(yǔ)、詞性、依存關(guān)系、支配詞等四個(gè)字段。情感詞標(biāo)注的基 礎(chǔ)是情感詞典,在情感詞典中,包含常用的情感詞,如"模糊"、"高"、"好"等。情感標(biāo)注的對(duì) 象為支配詞,利用情感詞典,標(biāo)注出支配詞是不是情感詞,是情感詞則標(biāo)記為?',不是情感 詞則標(biāo)記為"N"。情感標(biāo)注后得到了如圖5所示的結(jié)果。
[0056] 步驟S204,基于條件隨機(jī)場(chǎng)模型的質(zhì)量特征詞提取:基于條件隨機(jī)場(chǎng)的質(zhì)量特征 詞提取由兩部分構(gòu)成:訓(xùn)練和處理。在訓(xùn)練階段,首先采用均勻采樣方法從文本201中取出 500條評(píng)論的處理結(jié)果,人工將這500條評(píng)論中的所有質(zhì)量特征詞標(biāo)注為"S",得到訓(xùn)練集 202;然后考慮詞語(yǔ)、詞性、依存關(guān)系、支配詞及支配的情感方向等五種因素,制定出如圖6所 示的特征模板;然后以訓(xùn)練集202和特征模板203作為輸入,利用條件隨機(jī)場(chǎng)算法訓(xùn)練出一 個(gè)表征了質(zhì)量特征詞與詞語(yǔ)、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計(jì)關(guān)系的條 件隨機(jī)場(chǎng)模型204;在處理階段,利用已訓(xùn)練好的模型204對(duì)文本201進(jìn)行質(zhì)量特征詞的自動(dòng) 標(biāo)注,得到結(jié)果集205,然后從結(jié)果集中提取標(biāo)注為S的詞語(yǔ),得到質(zhì)量特征詞集206。
[0057] 步驟3,質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估:首先提出質(zhì)量問(wèn)題描述模板,并基于該模板統(tǒng) 計(jì)出與每個(gè)質(zhì)量特征詞相關(guān)的質(zhì)量問(wèn)題;然后提出基于質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估算法,利用 風(fēng)險(xiǎn)評(píng)估算法,計(jì)算出每個(gè)質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估值。
[0058] 用戶在描述質(zhì)量問(wèn)題時(shí),由于每個(gè)人的語(yǔ)言習(xí)慣不同,對(duì)同一個(gè)質(zhì)量問(wèn)題往往多 種描述形式。本發(fā)明在分析了大量評(píng)論數(shù)據(jù)的基礎(chǔ)上,抽象出可以涵蓋大部分質(zhì)量問(wèn)題描 述的模板,質(zhì)量問(wèn)題描述模板主要分為兩類(lèi):第一類(lèi)由質(zhì)量特征詞和情感詞組成,例如"屏 幕模糊",其中"屏幕"是質(zhì)量特征詞,"模糊"是情感詞;第二類(lèi)由"不"字和質(zhì)量特征詞組成, 如"讀不了通訊錄",其中含有"不"字,"通訊錄"是質(zhì)量特征詞。質(zhì)量問(wèn)題描述模板的更詳細(xì) 的分類(lèi)如表1所不,其中1、2、3為第一類(lèi)模板,4、5、6為第二類(lèi)模板。
[0059] 表1:質(zhì)量問(wèn)題描述模板詳細(xì)分類(lèi) L〇〇61 J 卜_介紹一卜風(fēng)險(xiǎn)評(píng)佶算法。
[0062]風(fēng)險(xiǎn)評(píng)估算法基于情感詞詞典和程度副詞詞典。本發(fā)明采用的情感詞詞典基于大 連理工的情感詞匯本體,選取了情感詞匯本體中的部分詞語(yǔ),并另外加入了一些新的網(wǎng)絡(luò) 用語(yǔ),還對(duì)詞語(yǔ)的情感分類(lèi)重新進(jìn)行了劃分。在本發(fā)明的情感詞詞典中,詞語(yǔ)的情感傾向包 括三類(lèi):褒義、貶義、中性,分別用P、N、M表示,對(duì)于褒義情感詞和貶義情感詞,情感強(qiáng)度分為 1、3、5、7、9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小,對(duì)于中性情感詞,情感強(qiáng)度均為0。本發(fā)明采 用的程度副詞詞典基于知網(wǎng)的程度級(jí)別詞語(yǔ)集,從中選取了部分詞語(yǔ),并另外加入了一些 常用的程度副詞。本程度副詞詞典將詞語(yǔ)按照情感強(qiáng)度分為四類(lèi),分別為:"極其"、"很"、 "較"、"稍",對(duì)應(yīng)的情感強(qiáng)度值為4、3、2、1。
[0063] 給定一個(gè)質(zhì)量特征詞S,它的風(fēng)險(xiǎn)評(píng)估值記為V(S),V(S)的計(jì)算公式如下:
[0064] V(S)=Vi(S)+V2(S) (5)
[0065] 其中,V1(S)是在滿足第一類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值,它 的計(jì)算方法如下:
[0066] 質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估分為褒義風(fēng)險(xiǎn)評(píng)估、貶義風(fēng)險(xiǎn)評(píng)估、中性風(fēng)險(xiǎn)評(píng)估三類(lèi)。
[0067] 褒義風(fēng)險(xiǎn)評(píng)估:在一條評(píng)論中,如果符合第一類(lèi)質(zhì)量描述模板,且修飾該特征詞的 情感詞是褒義的,則要進(jìn)行褒義風(fēng)險(xiǎn)評(píng)估的計(jì)算。先找出修飾該特征詞的情感詞,然后判斷 是否符合含有程度副詞的模板,若符合,則風(fēng)險(xiǎn)評(píng)估為:"情感詞的情感強(qiáng)度+程度副詞的情 感強(qiáng)度";若不符合,風(fēng)險(xiǎn)評(píng)估為:"情感詞的情感強(qiáng)度"。
[0068] 貶義風(fēng)險(xiǎn)評(píng)估:在一條評(píng)論中,如果符合第一類(lèi)質(zhì)量描述模板,且修飾該特征詞的 情感詞是貶義的,則要進(jìn)行貶義風(fēng)險(xiǎn)評(píng)估的計(jì)算。先找出修飾該特征詞的情感詞,然后判斷 是否符合含有程度副詞的模板,若符合,則風(fēng)險(xiǎn)評(píng)估為:"情感詞的情感強(qiáng)度+程度副詞的 情感強(qiáng)度";若不符合,風(fēng)險(xiǎn)評(píng)估為:"情感詞的情感強(qiáng)度"。
[0069] 中性風(fēng)險(xiǎn)評(píng)估:在一條評(píng)論中,如果符合第一類(lèi)質(zhì)量描述模板,修飾該特征詞的最 近的情感詞是中性的,則要進(jìn)行中性風(fēng)險(xiǎn)評(píng)估的計(jì)算。這時(shí),該特征詞的風(fēng)險(xiǎn)評(píng)估=這條評(píng) 論風(fēng)險(xiǎn)評(píng)估=該條評(píng)論的褒義風(fēng)險(xiǎn)評(píng)估與貶義風(fēng)險(xiǎn)評(píng)估之差。
[0070] V1 (S)的計(jì)算公式如下:
[0071]
[0072] 其中,Ti是標(biāo)準(zhǔn)化因子:
[0073] Ti = Pi+Ni (7)
[0074] 在公式(6)、(7)中^[5(5)、¥45)、¥[?(5)分別表示質(zhì)量特征詞5的褒義風(fēng)險(xiǎn)評(píng)估值、 貶義風(fēng)險(xiǎn)評(píng)估值、中性風(fēng)險(xiǎn)評(píng)估值。a、b、c分別表示修飾特征詞S的褒義情感詞的個(gè)數(shù)、貶義 情感詞的個(gè)數(shù)、中性情感詞的個(gè)數(shù);Score (Psk)表示修飾特征詞S的第k個(gè)褒義情感詞的情感 強(qiáng)度,Score(PAsk)表示修飾特征詞S的第k個(gè)褒義情感詞的程度副詞的情感強(qiáng)度,Score (Ns 1)表示修飾特征詞S的第1個(gè)貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個(gè)中性情 感詞所在的那條評(píng)論中的褒義情感詞的個(gè)數(shù),^表示修飾特征詞S的第i個(gè)中性情感詞所在 的那條評(píng)論中的貶義情感詞的個(gè)數(shù),Sco re(Pslj)表示修飾特征詞S的第i個(gè)中性情感詞所在 的那條評(píng)論中的第j個(gè)褒義情感詞的情感強(qiáng)度。
[0075] V2(S)是在滿足第二類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值。它們的 計(jì)算公式如下:
[0076]
(8)
[0077] 其中,T1表示第i個(gè)模板的分值,Num1表示滿足第i個(gè)模板的評(píng)論數(shù)據(jù)出現(xiàn)的次數(shù),i 的取值范圍為4、5、6,分別對(duì)應(yīng)第4、5、6號(hào)模板。
[0078]本發(fā)明能夠自動(dòng)抓取網(wǎng)絡(luò)上與指定產(chǎn)品相關(guān)的用戶評(píng)論數(shù)據(jù),并從中發(fā)現(xiàn)產(chǎn)品的 質(zhì)量問(wèn)題,進(jìn)而對(duì)產(chǎn)品質(zhì)量的各個(gè)方面進(jìn)行風(fēng)險(xiǎn)評(píng)估。利用本發(fā)明的方法,企業(yè)可以更快速 有效地發(fā)現(xiàn)用戶反映的產(chǎn)品質(zhì)量問(wèn)題,并對(duì)產(chǎn)品使用過(guò)程中的質(zhì)量風(fēng)險(xiǎn)進(jìn)行實(shí)時(shí)監(jiān)督。
【主權(quán)項(xiàng)】
1. 一種基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在于,包括: 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲(chóng),抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁(yè),然后抽取 網(wǎng)頁(yè)中的評(píng)論數(shù)據(jù),并將評(píng)論數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中; 步驟2,質(zhì)量特征詞提取:首先對(duì)評(píng)論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞標(biāo)注 Ξ步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場(chǎng)模型,最后利用條件隨機(jī)場(chǎng)模型從評(píng)論 數(shù)據(jù)中提取質(zhì)量特征詞; 步驟3,質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估:首先提出質(zhì)量問(wèn)題描述模板,并基于該模板統(tǒng)計(jì)出 與每個(gè)質(zhì)量特征詞相關(guān)的質(zhì)量問(wèn)題;然后提出基于質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估算法,利用風(fēng)險(xiǎn) 評(píng)估算法計(jì)算每個(gè)質(zhì)量特征詞的風(fēng)險(xiǎn)評(píng)估值。2. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:在步驟1中,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁(yè)時(shí),計(jì)算產(chǎn)品名與網(wǎng)頁(yè)標(biāo)題相似度 的公式為:其中,Z是歸一化因子,Qk是位置系數(shù),且0<ak含l,Pk是單次相似度,Pk的取值為0或1。3. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:在步驟2中,使用情感詞詞典進(jìn)行情感詞標(biāo)注。4. 如權(quán)利要求3所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:所述情感詞詞典中,詞語(yǔ)的情感傾向包括Ξ類(lèi):褒義、貶義、中性,分別用P、N、M表示,對(duì) 于褒義情感詞和貶義情感詞,情感強(qiáng)度分為1、3、5、7、9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小, 對(duì)于中性情感詞,情感強(qiáng)度均為0。5. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:在步驟3中,質(zhì)量問(wèn)題描述模板主要分為兩類(lèi):第一類(lèi)由質(zhì)量特征詞和情感詞組成,第二 類(lèi)由"不"字和質(zhì)量特征詞組成。6. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:在步驟3中,風(fēng)險(xiǎn)評(píng)估算法的實(shí)現(xiàn)利用了情感詞詞典和程度副詞詞典。7. 如權(quán)利要求6所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:所述程度副詞詞典中,詞語(yǔ)按照情感強(qiáng)度分為四類(lèi),分別為:"極其"、"很"、"較稍", 對(duì)應(yīng)的情感強(qiáng)度值為4、3、2、1。8. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:在步驟3中,風(fēng)險(xiǎn)評(píng)估算法的公式為: V(S)=Vi(S)+V2(S) 其中,Vi(S)是在滿足第一類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值,V2(S)是 在滿足第二類(lèi)質(zhì)量問(wèn)題描述模板的評(píng)論數(shù)據(jù)中,S的風(fēng)險(xiǎn)評(píng)估值。9. 如權(quán)利要求8所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:所述風(fēng)險(xiǎn)評(píng)估算法的公式中,Vi(S)的計(jì)算公式為:其中,Vp(S)、Vn(S)、Vm(S)分別表示質(zhì)量特征詞S的褒義風(fēng)險(xiǎn)評(píng)估值、貶義風(fēng)險(xiǎn)評(píng)估值、 中性風(fēng)險(xiǎn)評(píng)估值;a、b、c分別表示修飾特征詞S的褒義情感詞的個(gè)數(shù)、貶義情感詞的個(gè)數(shù)、中 性情感詞的個(gè)數(shù);Score (Psk)表示修飾特征詞S的第k個(gè)褒義情感詞的情感強(qiáng)度,Score (PAsk)表示修飾特征詞S的第k個(gè)褒義情感詞的程度副詞的情感強(qiáng)度,Score(Nsi)表示修飾 特征詞S的第1個(gè)貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個(gè)中性情感詞所在的那 條評(píng)論中的褒義情感詞的個(gè)數(shù),Ni表示修飾特征詞S的第i個(gè)中性情感詞所在的那條評(píng)論中 的貶義情感詞的個(gè)數(shù),Score(Psu)表示修飾特征詞S的第i個(gè)中性情感詞所在的那條評(píng)論中 的第j個(gè)褒義情感詞的情感強(qiáng)度。10.如權(quán)利要求8所述的基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品質(zhì)量問(wèn)題發(fā)現(xiàn)及風(fēng)險(xiǎn)評(píng)估方法,其特征在 于:所述風(fēng)險(xiǎn)評(píng)估算法的公式中,V2(S)的計(jì)算公式為:其中,Τι表示第i個(gè)模板的分值,Numi表示滿足第i個(gè)模板的評(píng)論數(shù)據(jù)出現(xiàn)的次數(shù)。
【文檔編號(hào)】G06Q30/00GK105844424SQ201610212917
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年5月30日
【發(fā)明人】徐新勝, 朱凡凡, 林靜
【申請(qǐng)人】中國(guó)計(jì)量學(xué)院