用于組織與產(chǎn)品相關(guān)的數(shù)據(jù)的方法、裝置以及計算機可讀介質(zhì)的制作方法
【專利摘要】各種實施方式涉及用于組織與產(chǎn)品相關(guān)的數(shù)據(jù)的方法、裝置以及計算機可讀介質(zhì)。實施方式涉及用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于產(chǎn)品的修正層級的方法。所述方法包括生成用于產(chǎn)品的初始層級,所述初始層級包括多個節(jié)點,每個節(jié)點代表不同的產(chǎn)品層面,所述多個節(jié)點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接。所述方法還包括從所述數(shù)據(jù)識別產(chǎn)品層面。所述方法額外地包括通過計算目標函數(shù)為所識別出的產(chǎn)品層面確定在所述初始層級中的優(yōu)化位置。所述方法進一步包括將所識別出的產(chǎn)品層面插入所述初始層級中的所述優(yōu)化位置以生成所述修正層級。
【專利說明】用于組織與產(chǎn)品相關(guān)的數(shù)據(jù)的方法、裝置W及計算機可讀 介質(zhì)
【技術(shù)領(lǐng)域】
[0001] 各種實施方式涉及用于組織與產(chǎn)品相關(guān)的數(shù)據(jù)的方法、裝置W及計算機可讀介 質(zhì)。尤其,實施方式涉及:用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于產(chǎn)品的修正層級的方法; 用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的方法;用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn) 品層面的層面情緒(sentiment)的方法;用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的方 法;用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的方法;用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn) 品評價概要的方法;W及對應(yīng)的裝置W及計算機可讀介質(zhì)。
【背景技術(shù)】
[0002] 組織與產(chǎn)品相關(guān)的數(shù)據(jù)使得數(shù)據(jù)更能理解。數(shù)據(jù)可W包括文本、圖形、表格等。例 女口,如果數(shù)據(jù)被組織的話,數(shù)據(jù)內(nèi)的訊息或者信息可W變得更清楚。取決于組織的方法,數(shù) 據(jù)內(nèi)的不同訊息或者信息可W變得更清楚。隨著數(shù)據(jù)的體積增加,越需要組織數(shù)據(jù)W識別 數(shù)據(jù)內(nèi)的訊息、信息、主題、課題、趨勢。
[0003] 與產(chǎn)品有關(guān)的數(shù)據(jù)可W指的是產(chǎn)品的一個或多個不同的層面(即特征)。例如, 如果產(chǎn)品是移動電話,示范的產(chǎn)品層面可W包括;可用性、尺寸、電池性能、處理性能W及重 量。所述數(shù)據(jù)可W包括對產(chǎn)品的評論或者評價,更具體來說,對產(chǎn)品各個層面的評論或者評 價。
【發(fā)明內(nèi)容】
[0004] 第一方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于產(chǎn)品的修正層級的方法, 所述方法包括:生成用于產(chǎn)品的初始層級,所述初始層級包括多個節(jié)點,每個節(jié)點代表不同 的產(chǎn)品層面,所述多個節(jié)點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接;從所述數(shù)據(jù)識 別產(chǎn)品層面;通過計算目標函數(shù)為所識別出的產(chǎn)品層面確定在所述初始層級中的優(yōu)化位 置;W及將所識別出的產(chǎn)品層面插入所述初始層級中的所述優(yōu)化位置W生成所述修正層 級。
[0005] 第二方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于產(chǎn)品的修正層級的裝置, 所述裝置包括:至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個 內(nèi)存和所述計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少:生成用于 產(chǎn)品的初始層級,所述初始層級包括多個節(jié)點,每個節(jié)點代表不同的產(chǎn)品層面,所述多個節(jié) 點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接;從所述數(shù)據(jù)識別產(chǎn)品層面;通過計算目 標函數(shù)為所識別出的產(chǎn)品層面確定在所述初始層級中的優(yōu)化位置;W及將所識別出的產(chǎn)品 層面插入所述初始層級中的所述優(yōu)化位置W生成所述修正層級。
[0006] 第H方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程序 代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于產(chǎn)品的修 正層級的方法,所述方法是根據(jù)所述第一方案的方法。
[0007] 第四方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的方法,所述方法包 括:從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段;根據(jù)所述第一方案基于所述數(shù)據(jù)的第二部分生成 修正層級;W及將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正 層級中的不同節(jié)點代表的產(chǎn)品層面W識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面。
[0008] 第五方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的裝置,所述裝置包 括;至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個內(nèi)存和所述 計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少;從所述數(shù)據(jù)的第一部 分識別數(shù)據(jù)段;使用第二方案的裝置基于所述數(shù)據(jù)的第二部分生成修正層級;W及將所述 數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不同節(jié)點代表 的產(chǎn)品層面W識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面。
[0009] 第六方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程序 代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的方 法,所述方法是根據(jù)第四方案的方法。
[0010] 第走方案提供了用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層面情緒的方法, 所述方法包括:從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段;根據(jù)所述第一方案,基于所述數(shù)據(jù)的 第二部分生成修正層級;將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由 所述修正層級中的不同節(jié)點代表的產(chǎn)品層面W識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面;從所 述數(shù)據(jù)段抽取與所述數(shù)據(jù)段相關(guān)的產(chǎn)品層面所對應(yīng)的觀點;將所抽取出的觀點分類為多個 觀點類別之一,每個觀點類別關(guān)聯(lián)于不同的觀點,所述層面情緒是與所述一個觀點類別關(guān) 聯(lián)的觀點。
[0011] 第八方案提供了用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層面情緒的裝置, 所述裝置包括:至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個 內(nèi)存和所述計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少:從所述數(shù) 據(jù)的第一部分識別數(shù)據(jù)段;使用第二方案的裝置基于所述數(shù)據(jù)的第二部分生成修正層級; 將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不同節(jié) 點代表的產(chǎn)品層面W識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面;從所述數(shù)據(jù)段抽取與所述數(shù)據(jù) 段相關(guān)的產(chǎn)品層面所對應(yīng)的觀點;W及將所抽取出的觀點分類為多個觀點類別之一,每個 觀點類別關(guān)聯(lián)于不同的觀點,所述層面情緒是與所述一個觀點類別關(guān)聯(lián)的觀點。
[0012] 第九方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程序 代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層 面情緒的方法,所述方法是根據(jù)第走方案的方法。
[0013] 第十方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的方法,所述方法包 括:從所述數(shù)據(jù)識別產(chǎn)品層面;基于產(chǎn)品層面在數(shù)據(jù)中的出現(xiàn)頻率W及所識別出的產(chǎn)品層 面的影響測度,生成用于每個所識別出的產(chǎn)品層面的權(quán)重因子;W及基于所生成的權(quán)重因 子來分級所識別出的產(chǎn)品層面。
[0014] 第十一方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的裝置,所述裝置 包括;至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個內(nèi)存和所 述計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少:從所述數(shù)據(jù)識別產(chǎn) 品層面;基于產(chǎn)品層面在數(shù)據(jù)中的出現(xiàn)頻率W及所識別出的產(chǎn)品層面的影響測度,生成用 于每個所識別出的產(chǎn)品層面的權(quán)重因子;W及基于所生成的權(quán)重因子來分級所識別出的產(chǎn) 品層面。
[0015] 第十二方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程 序代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的 方法,所述方法是根據(jù)第十方案的方法。
[0016] 第十H方案提供了用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的方法,所述方法包 括:根據(jù)第十方案基于所述數(shù)據(jù)的第一部分確定與產(chǎn)品相關(guān)的所分級的產(chǎn)品層面;從所述 數(shù)據(jù)的第二部分識別一個或多個特征,所述或者每個特征識別所分級的產(chǎn)品層面W及對應(yīng) 觀點;基于其對應(yīng)觀點將每個特征分類為多個觀點類別之一,每個觀點類別關(guān)聯(lián)于不同的 觀點;W及基于所述多個觀點類別中哪一個包含最多特征來確定產(chǎn)品情緒。
[0017] 第十四方案提供了用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的裝置,所述裝置包 括;至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個內(nèi)存和所述 計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少;使用第十一方案所述 的裝置基于所述數(shù)據(jù)的第一部分確定與產(chǎn)品相關(guān)的所分級的產(chǎn)品層面;從所述數(shù)據(jù)的第二 部分識別一個或多個特征,所述或者每個特征識別所分級的產(chǎn)品層面W及對應(yīng)觀點;基于 其對應(yīng)觀點將每個特征分類為多個觀點類別之一,每個觀點類別關(guān)聯(lián)于不同的觀點;W及 基于所述多個觀點類別中哪一個包含最多特征來確定產(chǎn)品情緒。
[0018] 第十五方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程 序代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的方法, 所述方法是根據(jù)第十H方案的方法。
[0019] 第十六方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn)品評價概要的方法,所述 方法包括:根據(jù)第十方案基于所述數(shù)據(jù)的第一部分確定與產(chǎn)品相關(guān)的所分級的產(chǎn)品層面; 從所述數(shù)據(jù)的第二部分抽取一個或多個數(shù)據(jù)段,基于所述數(shù)據(jù)段是否識別出所分級的產(chǎn)品 層面W及包含對應(yīng)觀點來計算用于所述或者每個所抽取出的數(shù)據(jù)段的相關(guān)性分數(shù);W及取 決于它們的相應(yīng)相關(guān)性分數(shù)來生成包括一個或多個所抽取出的數(shù)據(jù)段的產(chǎn)品評價概要。
[0020] 第十走方案提供了用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn)品評價概要的裝置,所述 裝置包括;至少一個處理器;W及至少一個內(nèi)存包括計算機程序代碼;所述至少一個內(nèi)存 和所述計算機程序代碼構(gòu)造為利用所述至少一個處理器引起所述裝置至少;使用第十一方 案的裝置基于所述數(shù)據(jù)的第一部分確定與產(chǎn)品相關(guān)的所分級的產(chǎn)品層面;從所述數(shù)據(jù)的第 二部分抽取一個或多個數(shù)據(jù)段,基于所述數(shù)據(jù)段是否識別出所分級的產(chǎn)品層面W及包含對 應(yīng)觀點來計算用于所述或者每個所抽取出的數(shù)據(jù)段的相關(guān)性分數(shù);W及取決于它們的相應(yīng) 相關(guān)性分數(shù)來生成包括一個或多個所抽取出的數(shù)據(jù)段的產(chǎn)品評價概要。
[0021] 第十八方案提供了計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,計算機程 序代碼當由計算機執(zhí)行時引起計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn)品評價概 要的方法,所述方法是根據(jù)第十六方案的方法。
[0022] 應(yīng)該理解的是,在W下說明中,一個方案(例如,方法)的進一步特征及優(yōu)勢將同 樣應(yīng)用于對應(yīng)的方案(例如,對應(yīng)裝置或者對應(yīng)計算機可讀介質(zhì))中,在此在對應(yīng)的方案中 再次陳述。
【專利附圖】
【附圖說明】
[0023] 通過W下說明書,僅依靠例子并結(jié)合附圖,本領(lǐng)域的技術(shù)人員將更好地理解和容 易明白本發(fā)明的實施方式,附圖中,類似附圖標記涉及類似部件,其中:
[0024] 圖1示出了來自維基百科(W化ipedia)的示范產(chǎn)品說明書;
[002引圖2示出了來自CNet. com的示范產(chǎn)品說明書;
[0026] 圖3a是根據(jù)實施方式的用于層級組織的框架的流程圖;
[0027] 圖3b示出了根據(jù)實施方式的用于iPhone 3G產(chǎn)品的示范層級組織;
[0028] 圖4示出了來自網(wǎng)站Viewpoints, com的示范消費者評價;
[0029] 圖5示出了來自網(wǎng)站Reevoo. com的示范消費者評價;
[0030] 圖6是根據(jù)實施方式的用于產(chǎn)品層面識別的框架的流程圖;
[0031] 圖7示出了來自開放目錄專案(OD巧的示范外部語言資源;
[003引 圖8示出了來自WordNet的示范外部語言資源;
[0033] 圖9是根據(jù)實施方式的用于情緒分類的框架的流程圖;
[0034] 圖10示出了與示范產(chǎn)品評價數(shù)據(jù)組的統(tǒng)計相關(guān)的估計數(shù)據(jù),#指代評價/句子的 數(shù)量;
[0035] 圖11示出了與示范外部語言資源的統(tǒng)計相關(guān)的估計數(shù)據(jù);
[0036] 圖12示出了與對自由文本評價的產(chǎn)品層面識別的性能相關(guān)的估計數(shù)據(jù);
[0037] 圖13示出了與層面層級生成的性能相關(guān)的估計數(shù)據(jù)。應(yīng)注意的是,'w/H'指代包 括初始層級的方法,'w/o H'指的是不包括初始層級的方法;
[0038] 圖14示出了與不同比例的初始層級的影響相關(guān)的估計數(shù)據(jù);
[0039] 圖15示出了當清除單個標準時與Fl-測量的改變的多個優(yōu)化標準.%相關(guān)的估計 數(shù)據(jù);
[0040] 圖16示出了與語言特征對于語義距離學(xué)習(xí)的影響相關(guān)的估計數(shù)據(jù);
[0041] 圖17示出了與外部語言資源對于語義距離學(xué)習(xí)的影響相關(guān)的估計數(shù)據(jù);
[0042] 圖18示出了與層面級別情緒分類的性能相關(guān)的估計數(shù)據(jù);
[0043] 圖19是根據(jù)實施方式的用于用生成的層級進行產(chǎn)品層面識別的框架的流程圖;
[0044] 圖20示出了與在生成的層級的幫助下進行層面識別的性能相關(guān)的估計數(shù)據(jù);
[0045] 圖21示出了與在層級的幫助下進行含蓄層面識別的性能相關(guān)的估計數(shù)據(jù);
[0046] 圖22是根據(jù)實施方式的用于使用層級對層面進行情緒分類的框架的流程圖;
[0047] 圖23示出了與在層級的幫助下進行層面級別情緒分類的性能相關(guān)的估計數(shù)據(jù);
[0048] 圖24示出了對例子產(chǎn)品iPhone 3GS的數(shù)個例子層面;
[0049] 圖25是根據(jù)實施方式的用于層面分級的框架的流程圖;
[0050] 圖26示出了根據(jù)實施方式的概率層面分級算法的假代碼;
[0051] 圖27示出了與在NDCG@5方面進行層面分級的性能相關(guān)的估計數(shù)據(jù);
[0052] 圖28示出了與在NDCG@10方面進行層面分級的性能相關(guān)的估計數(shù)據(jù);
[0053] 圖29示出了與在NDCG@15方面進行層面分級的性能相關(guān)的估計數(shù)據(jù);
[0054] 圖30示出了估計數(shù)據(jù),包括一表格,示出了用四種方法為iPhone3GS所分級出的 前10個層面;
[005引圖31示出了對例子產(chǎn)品i化one4的示范產(chǎn)品評價;
[0056] 圖32是根據(jù)實施方式的具有層面分級結(jié)果的用于文件級別情緒分類的框架的流 程圖;
[0057] 圖33示出了與由H個特征權(quán)重方法進行的文件級別情緒分類的性能相關(guān)的估計 數(shù)據(jù),即,布爾炬oolean)、術(shù)語頻率訂巧W及我們提出的層面分級AR權(quán)重;
[0058] 圖34是根據(jù)實施方式的具有層面分級結(jié)果的用于抽取式評價概要的框架的流程 圖;
[0059] 圖35a和3化示出了在ROUGE-I (35a)和R0UGE-2 (35b)方法與抽取式評價概要的 性能相關(guān)的估計數(shù)據(jù);
[0060] 圖36示出了估計數(shù)據(jù),包括一表格,示出了產(chǎn)品iPhone 3GS的樣本抽取概要;W 及,
[0061] 圖37是根據(jù)實施方式的計算機網(wǎng)絡(luò)裝置的示意圖。
【具體實施方式】
[0062] 各種實施方式涉及用于組織與產(chǎn)品相關(guān)的數(shù)據(jù)的方法、裝置W及計算機可讀介 質(zhì)。尤其,實施方式涉及用于生成修正層級的方法,用于識別產(chǎn)品層面的方法,用于確定層 面情緒的方法,用于分級產(chǎn)品層面的方法,用于確定產(chǎn)品情緒的方法,用于生成產(chǎn)品評價概 要的方法,W及對應(yīng)的裝置W及計算機可讀介質(zhì)。
[0063] W下的一部分說明明確地或隱含地在計算機內(nèi)存中的數(shù)據(jù)中W算法和函數(shù)性或 圖像性表征操作的形式出現(xiàn)。該些算法的描述W及函數(shù)性或圖像性表征是數(shù)據(jù)處理領(lǐng)域的 技術(shù)人員使用的含義W將它們運作的實質(zhì)最有效地傳遞給本領(lǐng)域的其他技術(shù)人員。此處, 算法通常設(shè)想為是步驟的自一致序列W形成期望結(jié)果。該些步驟是需要物理上操縱物理量 的步驟,物理量諸如能夠被存儲、傳遞、結(jié)合、比較W及W其他方式操作的電的、磁的或者光 學(xué)的信號。
[0064] 除非另有說明,如W下可見的,將理解的是,在整個說明書中,利用術(shù)語諸如"識 另IJ"、"抽取"、"分級"、"計算"、"確定"、"替換"、"生成"、"插入"、"分類"、"輸出"等的討論指 代計算機系統(tǒng)或者類似電子設(shè)備的行為W及處理,計算機系統(tǒng)或者類似電子設(shè)備將計算機 系統(tǒng)內(nèi)表示為物理量的數(shù)據(jù)操縱及轉(zhuǎn)換為由計算機系統(tǒng)或其他信息存儲、傳遞或者顯示設(shè) 備內(nèi)的物理量類似地表示的其他數(shù)據(jù)。
[0065] 本說明書還公開了用于執(zhí)行方法的操作的裝置。該種裝置可W??跇?gòu)造為用于所 需目的,或者可W包括選擇性地被激活或者由存儲在計算機中的計算機程序重構(gòu)的通用計 算機或者其他設(shè)備。此處提出的算法W及顯示器并不內(nèi)在地相關(guān)于任何特定計算機或者其 他裝置。各種通用機器可W用于根據(jù)此處教導(dǎo)的程序??商鎿Q地,用來執(zhí)行所需方法步驟 的更專用裝置的的構(gòu)造可W是合適的。常規(guī)通用計算機的結(jié)構(gòu)件見于W下說明中。
[0066] 此外,本說明書還隱含公開了計算機程序,因為對本領(lǐng)域的技術(shù)人員來說顯而易 見的是,此處描述的方法的各個步驟可W由計算機代碼實現(xiàn)。計算機程序不旨在限于任何 特定的程序語言W及其實施。將理解的是,可W使用各種程序語言W及其編碼來實施此處 包含的公開的教導(dǎo)。而且,計算機程序不旨在限于任何特定的控制流。存在許多其他變型 的計算機程序,它們能夠使用不同的控制流,該并不超出本發(fā)明的精神或范圍。
[0067] 此外,一個或多個計算機程序的步驟可W并行執(zhí)行而不是順序執(zhí)行。該種計算機 程序可W存儲在任何計算機可讀介質(zhì)上。計算機可讀介質(zhì)可W包括存儲設(shè)備,諸如磁盤或 者光盤、內(nèi)存芯片、或者適合于與通用計算機接口的其他存儲設(shè)備。計算機可讀介質(zhì)還可W 包括諸如在因特網(wǎng)系統(tǒng)中典型的硬件介質(zhì),或者諸如在GSM移動電話網(wǎng)絡(luò)中典型的無線介 質(zhì)。計算機程序當在通用計算機上加載及實施時可有效地形成實施優(yōu)選方法的布置的裝 置。
[0068] 層級框架綜述
[0069] 對于特定產(chǎn)品,層級通常歸類為數(shù)百個產(chǎn)品層面。例如,i化one3GS具有多于H百 個層面(見圖24),諸如"可用性"、"設(shè)計"、"應(yīng)用"、"3G網(wǎng)絡(luò)"等。某些層面可能比其他層 面更重要,并且對最終用戶決策W及廠商產(chǎn)品開發(fā)策略具有更大影響。例如,i化one 3GS中 的某些層面如"易用性"和"電池"受到大多數(shù)用戶的關(guān)注,并且比其他層面如"USB"更重 要。對于相機產(chǎn)品,如"透鏡"和"圖像質(zhì)量"的層面可能會大大影響消費者對于攝像機的 看法,該些層面比其他層面如"a/v連接線"和"腕帶"更加重要。因此,識別重要的產(chǎn)品層 面是對消費者和廠商兩者都有利的。消費者可W通過更多關(guān)注該些重要的層面方便地做出 明智的購買決策,而廠商可W集中在提升該些層面的質(zhì)量上從而有效提升產(chǎn)品信譽。通常, 人們從眾多評價中手動識別產(chǎn)品的重要層面是不現(xiàn)實的。
[0070] 各個實施方式涉及組織與產(chǎn)品相關(guān)的數(shù)據(jù)。特別地,實施方式涉及生成修正層級 的方法,識別產(chǎn)品層面的方法,確定層面情緒的方法,W及相應(yīng)的裝置和計算機可讀介質(zhì)。
[0071] "產(chǎn)品"可W是任意在售的商品或物品。比如,如,消費性電子產(chǎn)品、食品、服裝、交 通工具、家具等等。其中,所述產(chǎn)品可W是移動電話。
[007引"數(shù)據(jù)呵W包括任何與所述產(chǎn)品相關(guān)的信息。比如,如說明書、評價、情況說明書、 操作手冊、產(chǎn)品說明、關(guān)于產(chǎn)品的文章等等。所述數(shù)據(jù)可W包含文本、圖形、表格等或其任何 組合。通常所述數(shù)據(jù)可能涉及產(chǎn)品或個別產(chǎn)品層面(如特點)。所述數(shù)據(jù)可W包含對產(chǎn)品 及其中個別產(chǎn)品層面的觀點(如看法)或評論。所述觀點可W是離散的(如好或壞,或者 在1到10的整體數(shù)值范圍中)或者性質(zhì)上比較連續(xù)的。所述產(chǎn)品、觀點W及層面是可W從 作為文本、圖形、表格等或其任何組合的數(shù)據(jù)中推導(dǎo)出的。
[0073] 在下面的實施方式中,所述數(shù)據(jù)可W包括產(chǎn)品的觀點(如消費者評價)。所述觀點 可W是未經(jīng)組織的,將導(dǎo)致瀏覽和知識獲取上有難度。
[0074] 對于從所述數(shù)據(jù)生成評價層級的任務(wù),能夠涉及本體學(xué)習(xí)的傳統(tǒng)方法,首先從文 本中識別內(nèi)容,然后利用基于模式的方法或基于聚類的方法在該些內(nèi)容中確定父子關(guān)系。 然而,基于模式的方法常常存在內(nèi)容中父子關(guān)系的不一致性,而基于聚類的方法常導(dǎo)致低 查準率。因此,通過直接利用該些方法從評價生成層面層級,所產(chǎn)生的層級常常是不準確 的,從而導(dǎo)致不符合要求的評價。此外,所生成的層級可能不符合消費者的信息需求,消費 者期望確定的子主題被呈現(xiàn)。
[0075] 另一方面,產(chǎn)品的領(lǐng)域知識可W從網(wǎng)絡(luò)得到。領(lǐng)域知識可W被理解為關(guān)于特定產(chǎn) 品的信息。所述信息可W從公知領(lǐng)域獲得。該些知識可W提供回答消費者關(guān)鍵信息需求的 廣義結(jié)構(gòu)。例如,在論壇網(wǎng)站CNet. com上有多于248, 474個產(chǎn)品說明書。圖1和圖2分別 不出了在維基百科(WWW. Wikipedia, com)和CNet. com上的移動電話產(chǎn)品"iPhone3GS"的 產(chǎn)品說明書。該些產(chǎn)品說明書覆蓋了一些產(chǎn)品層面2 (如產(chǎn)品層面或特點)并提供了產(chǎn)品 層面2的粗粒度父子關(guān)系4。該樣的領(lǐng)域知識有利于幫助將產(chǎn)品層面組織為層級。而從領(lǐng) 域知識獲得的最初層級有利于評價組織的大概結(jié)構(gòu),大概結(jié)構(gòu)常常太粗W至于不能覆蓋評 價中所評論(如消費者觀點)的具體產(chǎn)品層面。此外,在層級中的一些層面可W不是消費 者對評價的興趣點。為了利于該兩者最佳,能夠整合初級領(lǐng)域知識結(jié)構(gòu)和評價的分布規(guī)律, 初級領(lǐng)域知識反映了產(chǎn)品中的消費者感興趣,評價的分布規(guī)律指示當前消費者關(guān)也的興趣 點和主題。因此,初級評價層級可W被進化成修正層級,修正層級反映當前消費者觀點和興 趣點。
[0076] -實施方式提供了一種通過同時利用領(lǐng)域知識(如產(chǎn)品說明書)和與產(chǎn)品相關(guān)的 數(shù)據(jù)(如消費者評價)來生成評價層級組織的域輔助方法。該實施方式的結(jié)構(gòu)如圖3的流 程圖所示。
[0077] 在100處,尋找領(lǐng)域知識W確定某一產(chǎn)品的進程描述。例如,領(lǐng)域知識可W從一個 或多個互聯(lián)網(wǎng)網(wǎng)站獲得,如,維基百科或者CNet。在102處,使用此領(lǐng)域知識來獲得初級層 面層級,即用于將與產(chǎn)品相關(guān)的產(chǎn)品層面進行組織的層級。在104處,與100和102串行或 者并行,從比如一個或多個互聯(lián)網(wǎng)網(wǎng)站獲得與產(chǎn)品相關(guān)的數(shù)據(jù)(如消費者評價)。在106 處,使用所獲得的數(shù)據(jù)來識別與產(chǎn)品相關(guān)的產(chǎn)品層面。
[0078] 在108處,基于102中開發(fā)的初級層級和106中識別的產(chǎn)品層面來生成修正層級。 在一實施方式中,采用優(yōu)化方法遞增地將106中識別的層面插入到102中開發(fā)的初級層級 的適當位置,W獲得包含所有層面的層面層級,即修正層級。W該方式,然后將104中獲得 的數(shù)據(jù)組織到108中開發(fā)的修正層級中的相應(yīng)層面節(jié)點上。一個層面的最佳位置通過計算 目標函數(shù)來獲得,目標函數(shù)旨在優(yōu)化一個或多個標準。在一實施方式中,執(zhí)行多標準優(yōu)化。
[0079] 在110處,可W執(zhí)行情緒分類W確定消費者對所述層面的觀點。所述觀點可W從 與產(chǎn)品相關(guān)的數(shù)據(jù)中抽取。在112處,情緒可W增加到層級中W獲得更為詳盡的層級結(jié)構(gòu), 即包含觀點或情緒的層級結(jié)構(gòu)。在一實施方式中,上述方法可W通過帶有顯示屏的通用計 算機或者具有顯示屏的特別設(shè)計的硬件裝置執(zhí)行。相應(yīng)的,在112處,修正層級可W被送往 顯示屏W顯示給人類消費者。圖3b示出了依照一實施方式的修正層級。
[0080] 在圖3b的實施方式中,層級涉及特定產(chǎn)品(如iPhone 3G)且包括多種節(jié)點,其 中每個節(jié)點代表不同的產(chǎn)品層面。例如,顯示了節(jié)點120(代表產(chǎn)品層面"軟件")和節(jié)點 122 (代表產(chǎn)品層面"多媒體")。節(jié)點120和122代表通過連接件124連接在一起的節(jié)點 對。連接件124指示節(jié)點120和122所代表的產(chǎn)品層面之間的父子關(guān)系。父節(jié)點是節(jié)點 120 (如軟件),因其比子節(jié)點122 (如多媒體)更靠近根節(jié)點126。層級的葉或根(如128 和130)可W代表對所述葉所連接的節(jié)點的產(chǎn)品層面的觀點。
[0081] 各個實施方式提供了基于產(chǎn)品相關(guān)的數(shù)據(jù)(如消費者情緒)生成產(chǎn)品的修正層級 的方法。所述方法包括下面的內(nèi)容。生成產(chǎn)品的初始層級,初始層級包括多個節(jié)點,每個節(jié) 點代表不同的產(chǎn)品層面,多個節(jié)點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接。從所述 數(shù)據(jù)識別所述產(chǎn)品層面。通過計算目標函數(shù)確定所識別出的產(chǎn)品層面在所述初始層級中的 優(yōu)化位置。將所識別出的產(chǎn)品層面插入初始層級中的優(yōu)化位置W生成修正層級。
[008引在實施方式中,基于產(chǎn)品的說明書來生成初始層級,例如,從諸如維基百科或CNet 的網(wǎng)站獲得的說明書。
[0083] 在實施方式中,初始層級包括一個或多個節(jié)點對,每個節(jié)點對具有連接在一起W 指示父子關(guān)系的父節(jié)點W及子節(jié)點。在實施方式中,初始層級包括根節(jié)點,每個節(jié)點對的父 節(jié)點是最靠近根節(jié)點的節(jié)點。該可W是在接近度方面是最靠近的,或者在針對根節(jié)點的介 入節(jié)點的最小數(shù)量方面是最靠近的。
[0084] 在實施方式中,將所識別出的產(chǎn)品層面插入初始層級包括將所識別出的產(chǎn)品層面 關(guān)聯(lián)于現(xiàn)有節(jié)點W指示現(xiàn)有節(jié)點代表所識別出的產(chǎn)品層面。在實施方式中,將所識別出的 產(chǎn)品層面插入初始層級包括將新節(jié)點互連入初始層級W及將所識別出的產(chǎn)品層面關(guān)聯(lián)于 新節(jié)點W指示新節(jié)點代表所識別出的產(chǎn)品層面。例如,之前插入,節(jié)點A可W連接至節(jié)點B W形成節(jié)點對。節(jié)點A可W是父節(jié)點,而節(jié)點B可W是子節(jié)點。例如,節(jié)點A可W代表產(chǎn)品 層面'硬件',而節(jié)點B可W代表產(chǎn)品層面'內(nèi)存'。新節(jié)點可W關(guān)聯(lián)于新產(chǎn)品層面'容 量',即內(nèi)存容量。因此,新節(jié)點C可W加入作為節(jié)點B的子節(jié)點,從而代表著'容量'是父 特征'內(nèi)存'的子特征。
[0085] 層級組織框架
[0086] 如圖3所示的,一實施方式包括四個要素;(a)初始層面層級獲??;化)產(chǎn)品層面 識別;(C)層面層級生成;W及(d)產(chǎn)品層面上的情緒分類。下面定義一些符號并詳細描述 該些要素。
[0087] 初步準備W及符號
[0088] 在一實施方式中,層面層級可W是由一組節(jié)點組成的樹。每個節(jié)點可W代表(或 者關(guān)聯(lián)于)一個獨特的產(chǎn)品層面。此外,在該些節(jié)點及它們代表的層面中可W有一組父子 關(guān)系R。例如,兩個相鄰節(jié)點可W互聯(lián),W指示由該兩個節(jié)點(或者節(jié)點對)代表的兩個層 面之間的父子關(guān)系。父節(jié)點可W是所述層級中最靠近根節(jié)點的那個節(jié)點。在一實施方式中, 最靠近可W是指物理上的靠近或僅僅是在兩者之間有較少的節(jié)點。
[0089] 在一實施方式中,給出了一產(chǎn)品的消費者評價,WA = {ai. ..,aj表示在所述評價 中論及的產(chǎn)品層面。tf(A°,於)表示從領(lǐng)域知識獲得的初始層級。它包括一組層面A°和一 組關(guān)系R°。各個實施方式旨在構(gòu)建一個層面層級H(A,時,W包括A中的所有層面及其父子 關(guān)系R,從而所有的消費者評價能夠分層級地組織起來。要注意的是可W是空的。
[0090] 初始層級獲得
[0091] 如前所述,在某些論壇網(wǎng)站(如維基百科,CNet)中產(chǎn)品說明書覆蓋某些產(chǎn)品層面 和該些產(chǎn)品層面中的粗粒度父子關(guān)系。該樣的領(lǐng)域知識有利于幫助將層面組織到層級中。
[0092] 在一實施方式中,初始層面層級從產(chǎn)品說明書中自動獲得。方法首先識別覆蓋產(chǎn) 品說明書的Web頁面區(qū)域并將不相干的內(nèi)容從Web頁面清除。然后該方法基于HTML標簽 解析包含有產(chǎn)品信息的區(qū)域,識別層面及其結(jié)構(gòu)。通過規(guī)劃所述層面及其結(jié)構(gòu),該方法生成 初始層面層級。
[009引產(chǎn)品層面識別
[0094] 如圖4和圖5所示,消費者評價由論壇網(wǎng)站上的不同格式組成。例如,諸如CNet. com的網(wǎng)站要求消費者給出產(chǎn)品的總體評分,提供對某些產(chǎn)品層面的概要數(shù)據(jù)或簡明的正 負面觀點(即贊成和反對),W及在自由文本156中寫下一段詳細的評價。如圖4中尤其可 見,某些其他網(wǎng)站,如Viewpoints, com,僅僅要求一個總體評分150, 一個提要式的標題152 W及一段自由文本評價154。如圖5尤其可見,某些其它網(wǎng)站,如Reevoo. com,在某些層面 上包括了一個總體評分158、簡要肯定觀點160和反對觀點162。
[009引總么除了綜合評分,消費者評價可W包括概要數(shù)據(jù)(如贊成和反對)、自由文本 評價或者兩者都有。對于概要數(shù)據(jù)(如贊成和反對),層面可W通過抽取常用名詞術(shù)語來識 另IJ。該樣,通過從概要數(shù)據(jù)抽取常用名詞術(shù)語能夠獲得高度準確的層面。此外,該些常用術(shù) 語有利于識別自由文本評價中的層面。
[0096] 圖6是根據(jù)一個實施方式的識別產(chǎn)品層面的方法的流程圖。下面描述此方法的細 節(jié)。
[0097] 在200處,如上述提出的那樣獲得消費者評價。可W理解的是,在本實施方式中, 消費者評價代表與某一產(chǎn)品相關(guān)的數(shù)據(jù)。所述數(shù)據(jù)可W從各種互聯(lián)網(wǎng)網(wǎng)站獲得。在202處, 從200中獲得的數(shù)據(jù)中抽取數(shù)據(jù)段。例如,可W將在200中獲得的每個消費者評價的自由文 本評價部分154分成句子。在204處,可W例如使用斯坦福解析器來解析每個數(shù)據(jù)段(例 女口,句子)??蒞使用此解析操作從所述數(shù)據(jù)中識別和清除不相關(guān)的內(nèi)容。
[0098] 在206處,然后可W從所述數(shù)據(jù)段解析樹中抽取常用名詞短語(N巧作為層面候 選。可W理解的是,名詞短語是從所述數(shù)據(jù)中抽取的數(shù)據(jù)段的特定類型。因此,在其他實施 方式中,可W從所述數(shù)據(jù)抽取數(shù)據(jù)段(而不是名詞短語)。
[0099] 該些NP候選可W包含噪聲(即不是層面的NP)。然而,可W規(guī)劃評價的其他部 分(比如概要數(shù)據(jù)(如贊成評價160和反對評價162))來提煉候選,因為該些其他部分可 W更清楚地識別產(chǎn)品層面。尤其,在208處,可W獲得概要數(shù)據(jù)。在210處,概要數(shù)據(jù)中的 常用名詞術(shù)語可W被探查作為特征,并用于訓(xùn)練分類器。例如,假設(shè)總共收集了 N個常用 名詞術(shù)語,每個常用名詞術(shù)語可W認為是一個樣本。也就是,每個常用名詞術(shù)語可W表示 為只有一個維度的N維矢量,即具有值1而其他都為0?;谠摲N表示法,可W訓(xùn)練分類 器。分類器可W是支持向量機(SVM)、樸素貝葉斯OJaive Bayes)和最大賭模型(Maximum 化tropyModel)。在一個實施方式中,分類器是單類支持向量機(SVM),該樣將NP候選分類 為層面或者不分類。
[0100] 可W理解的是,在一些其他實施方式中,贊成和反對評價可W是不必要的。反而, 可W提供一些其他數(shù)據(jù)(如文本,圖形,表格等),依賴于該些術(shù)語清楚地識別帶有關(guān)聯(lián)觀 點的產(chǎn)品層面。該數(shù)據(jù)可W指代一般意義上的"概要數(shù)據(jù)",其中贊成和反對評價可W是概 要數(shù)據(jù)的特定形式。該數(shù)據(jù)可W認為是概要數(shù)據(jù),因為它概括了產(chǎn)品層面W及其上對應(yīng)的 評價。概要數(shù)據(jù)可W從200中獲得的數(shù)據(jù)抽取。
[0101] 在212處,可W使用經(jīng)訓(xùn)練的分類器識別候選中的真正層面??蒞理解的是,此處 理可W不僅僅只是簡單比較每個候選和概要數(shù)據(jù)中所識別的每個層面。反而,此處理可W 使用機械學(xué)習(xí)來判斷是否新的術(shù)語與包括在概要數(shù)據(jù)中的不同但對應(yīng)的術(shù)語一樣。
[0102] 所獲得的層面可W包含一些同義詞術(shù)語,比如,如"耳機"和"頭戴式耳機"。相應(yīng) 的,在214處,可W進一步執(zhí)行同義詞聚類W獲取獨特的層面。技術(shù)上,兩個層面之間的距 離可W通過余弦相似性測量。與所獲得的層面相關(guān)的同義詞術(shù)語可W從同義詞字典(如 http://thesaurus. com)中抽取,并作為用于聚類的特征。然后在216中收集所識別的結(jié)果 層面。在一個實施方式中,可W通過帶有顯示屏的通用計算機或者帶有顯示屏的特別設(shè)計 的硬件裝置執(zhí)行所述方法。相應(yīng)的,在216處,可W將所識別的層面發(fā)送給顯示屏W顯示給 人類消費者。
[0103] 在一實施方式中,從與產(chǎn)品有關(guān)的數(shù)據(jù)識別產(chǎn)品層面包括從數(shù)據(jù)抽取一個或多個 名詞短語。
[0104] 在一實施方式中,如果所抽取的名詞短語與層面類別有關(guān)聯(lián)的產(chǎn)品層面相一致, 則將所抽取的名詞短語分類為層面類別,所述層面類別關(guān)聯(lián)于一個或多個不同的產(chǎn)品層 面。在一實施方式中,術(shù)語"相一致"可W包括但不限于"匹配"。例如,即使產(chǎn)品層面的精確 術(shù)語不包括在名詞短語中,分類處理也可W識別所述名詞短語為對應(yīng)于特定的產(chǎn)品層面。 例如,分類可W采用單類SVM執(zhí)行。在一實施方式中,層面類別可W與多個(例如,所有) 產(chǎn)品層面相關(guān)聯(lián)。該樣,所抽取的名詞短語既可W分類也可W不分類,該取決于其是否為產(chǎn) 品層面。因此,真正的產(chǎn)品層面可W從所抽取的名詞短語識別。
[0105] 在一不同的實施方式中,可W將所抽取的名詞短語分類到多個層面類別中之一, 每個層面類別關(guān)聯(lián)于不同的產(chǎn)品層面。W該方式,所抽取的名詞短語可W被識別為是否為 所識別的產(chǎn)品層面。
[0106] 在一實施方式中,可W將所抽取的多個不同的名詞短語聚類在一起,其中所抽取 的多個不同的名詞短語中的每個包括對應(yīng)的同義詞術(shù)語。W該方式,與相同產(chǎn)品層面有關(guān) 的不同名詞短語可W被合并在一起。例如,各種名詞短語可W包括術(shù)語"頭戴式耳機",而 其他各種名詞短語可W包括術(shù)語"耳機"。由于"頭戴式耳機"和"耳機"涉及相同的產(chǎn)品層 面,所W所有該些名詞短語可W被合并在一起。在本實施方式中,"頭戴式耳機"和"耳機" 是對應(yīng)的同義詞術(shù)語。在一實施方式中,可W在上面提到的分類步驟之后執(zhí)行同義詞聚類 的步驟。
[0107] 層面層級的生成
[010引為了建立層級,可W將新識別的層面遞增地插入初始層級內(nèi)的適當位置。最優(yōu)位 置可W通過多標準優(yōu)化方法找到。下面對本實施方式的進一步詳細說明。
[0109] 公式化
[0110] 在一實施方式中,給出了從評價識別出的層面A = {ai. ..,ak},W及從領(lǐng)域知識中 獲得的初始層級tf(A°,R°),使用多標準優(yōu)化方法來生成層面(即修正)層級H*,該層級分 配A中的所有層面,包括初始層級中不包括的那些,如A-A"。該方法遞增地將新識別出的層 面插入初始層級內(nèi)的適當位置。通過多標準找到最優(yōu)位置。該標準應(yīng)該保證每個層面將最 可能被分配在所述層級內(nèi)其父層面之下。
[0111] 在引入標準之前,首先需要定義度量,命名語義距離d(a,,ay), W確定層面a,和ay 之間的父子關(guān)系。d(ay,ay)用公式表示為一些W下特征的加權(quán)和,
[0112] d(ax,3y)=乙 J W jfjbx,3y) (3.1)
[011引其中,Wj是第j個特征函數(shù)?)的權(quán)值。特征函數(shù)f ( ?)的估計和d(ax,ay) 的學(xué)習(xí)(即權(quán)值《)將在后面描述。
[0114] 此外,引入信息函數(shù)In化(H) W測量層級H的整個語義距離。Info(H)用公式表示 為層級內(nèi)所有層面對的語義距離之和,如下:
[011 引
【權(quán)利要求】
1. 一種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于所述產(chǎn)品的修正層級的方法,所述方法 包括: 生成用于所述產(chǎn)品的初始層級,所述初始層級包括多個節(jié)點,每個節(jié)點代表不同的產(chǎn) 品層面,所述多個節(jié)點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接; 從所述數(shù)據(jù)識別產(chǎn)品層面; 通過計算目標函數(shù)為所識別出的產(chǎn)品層面確定在所述初始層級中的優(yōu)化位置;以及 將所識別出的產(chǎn)品層面插入所述初始層級中的所述優(yōu)化位置以生成所述修正層級。
2. 根據(jù)權(quán)利要求1所述的方法,其中,基于所述產(chǎn)品的說明書來生成所述初始層級。
3. 根據(jù)權(quán)利要求1或2所述的方法,其中,所述初始層級包括一個或多個節(jié)點對,每個 節(jié)點對具有連接在一起以指示父子關(guān)系的父節(jié)點以及子節(jié)點。
4. 根據(jù)權(quán)利要求3所述的方法,其中,所述初始層級包括根節(jié)點,所述或每個節(jié)點對的 父節(jié)點是最靠近所述根節(jié)點的節(jié)點。
5. 根據(jù)前述任一權(quán)利要求所述的方法,其中,從所述數(shù)據(jù)識別產(chǎn)品層面包括從所述數(shù) 據(jù)抽取一個或多個名詞短語。
6. 根據(jù)權(quán)利要求5所述的方法,進一步包括:如果抽取出的名詞短語符合與層面類別 關(guān)聯(lián)的產(chǎn)品層面,則將抽取出的名詞短語分類為所述層面類別,所述層面類別關(guān)聯(lián)于一個 或多個不同的產(chǎn)品層面。
7. 根據(jù)權(quán)利要求5或6所述的方法,進一步包括將多個不同的抽取出的名詞短語聚集 在一起,其中,所述多個不同的抽取出的名詞短語中的每個包括對應(yīng)的同義術(shù)語。
8. 根據(jù)前述任一權(quán)利要求所述的方法,其中,確定所述優(yōu)化位置包括: 將所識別出的產(chǎn)品層面插入所述初始層級中的多個樣本位置中的每個; 計算與每個樣本位置相關(guān)的定位分數(shù),所述定位分數(shù)是所述樣本位置的適當性的測 度;以及 基于與每個樣本位置相關(guān)的所述定位分數(shù)來確定所述優(yōu)化位置。
9. 根據(jù)權(quán)利要求8所述的方法,其中,所述定位分數(shù)是層級語義距離的改變的測度,所 述層級語義距離是用于所述初始層級中的每個節(jié)點對的層面語義距離的總和,每個層面語 義距離是由節(jié)點對所代表的兩個產(chǎn)品層面的意思之間的類似性的測度。
10. 根據(jù)權(quán)利要求8或9所述的方法,其中,所述定位分數(shù)是所述初始層級的結(jié)構(gòu)中的 改變的測度。
11. 根據(jù)權(quán)利要求8、9或10所述的方法,其中,所述定位分數(shù)是與所述初始層級中的節(jié) 點對相關(guān)的第一層面語義距離和第二層面語義距離之間的改變的測度,所述第一層面語義 距離和第二層面語義距離是由節(jié)點對所代表的兩個產(chǎn)品層面的意思之間的類似性的測度, 基于所述初始層級來計算所述第一層面語義距離,基于與所述產(chǎn)品有關(guān)的輔助數(shù)據(jù)來計算 所述第二語義距離。
12. 根據(jù)前述任一權(quán)利要求所述的方法,其中,將所識別出的產(chǎn)品層面插入所述初始層 級包括將所識別出的產(chǎn)品層面關(guān)聯(lián)于現(xiàn)有節(jié)點以指示所述現(xiàn)有節(jié)點代表所識別出的產(chǎn)品 層面。
13. 根據(jù)前述任一權(quán)利要求所述的方法,其中,將所識別出的產(chǎn)品層面插入所述初始層 級包括將新節(jié)點互連到所述初始層級內(nèi)以及將所識別出的產(chǎn)品層面關(guān)聯(lián)于所述新節(jié)點以 指示所述新節(jié)點代表所識別出的產(chǎn)品層面。
14. 根據(jù)前述任一權(quán)利要求所述的方法,進一步包括: 基于所述數(shù)據(jù)確定用于所識別出的產(chǎn)品層面的層面情緒;以及 將所述層面情緒關(guān)聯(lián)于所述修正層級中的識別出的產(chǎn)品層面。
15. 根據(jù)權(quán)利要求14所述的方法,其中,確定層面情緒包括: 從所述數(shù)據(jù)抽取一個或多個層面觀點,所述或者每個層面觀點對識別出的產(chǎn)品層面以 及對應(yīng)觀點進行識別; 基于所述對應(yīng)觀點將所述或者每個層面觀點分類為多個觀點類別之一,每個觀點類別 關(guān)聯(lián)于不同的觀點;以及 基于所述多個觀點類別中哪一個包含最多層面觀點來確定用于識別出的產(chǎn)品層面的 層面情緒。
16. 根據(jù)權(quán)利要求15所述的方法,其中,所述多個觀點類別包括正面觀點類別以及負 面觀點類別。
17. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于所述產(chǎn)品的修正層級的裝置,所述裝 置包括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 生成用于所述產(chǎn)品的初始層級,所述初始層級包括多個節(jié)點,每個節(jié)點代表不同的產(chǎn) 品層面,所述多個節(jié)點取決于不同的產(chǎn)品層面之間的關(guān)系而相互連接; 從所述數(shù)據(jù)識別產(chǎn)品層面; 通過計算目標函數(shù)為所識別出的產(chǎn)品層面確定在所述初始層級中的優(yōu)化位置;以及 將所識別出的產(chǎn)品層面插入所述初始層級中的所述優(yōu)化位置以生成所述修正層級。
18. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成用于所述產(chǎn)品的修正層 級的方法,所述方法是根據(jù)權(quán)利要求1至16中任一項所述的方法。
19. 一種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的方法,所述方法包括: 從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段; 根據(jù)權(quán)利要求1至16中任一項所述的方法,基于所述數(shù)據(jù)的第二部分生成修正層級; 以及 將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不 同節(jié)點所代表的產(chǎn)品層面以識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面。
20. 根據(jù)權(quán)利要求19所述的方法,其中,進行分類包括確定用于每個層面類別的相關(guān) 性分數(shù),所述相關(guān)性分數(shù)指示所述數(shù)據(jù)段如何類似于與所述層面類別關(guān)聯(lián)的產(chǎn)品層面。
21. 根據(jù)權(quán)利要求20所述的方法,其中,識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面包括確 定相關(guān)性分數(shù)低于預(yù)定閾值的層面類別。
22. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的裝置,所述裝置包括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段; 使用根據(jù)權(quán)利要求17所述的裝置基于所述數(shù)據(jù)的第二部分生成修正層級;以及 將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不 同節(jié)點所代表的產(chǎn)品層面以識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面。
23. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來識別產(chǎn)品層面的方法,所述方 法是根據(jù)權(quán)利要求19至21中任一項所述的方法。
24. -種用于通過與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層面情緒的方法,所述方法 包括: 從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段; 根據(jù)權(quán)利要求1至16中任一項所述的方法,基于所述數(shù)據(jù)的第二部分生成修正層級; 將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不 同節(jié)點所代表的產(chǎn)品層面以識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面; 從所述數(shù)據(jù)段抽取與所述數(shù)據(jù)段相關(guān)的產(chǎn)品層面所對應(yīng)的觀點;以及 將抽取出的觀點分類為多個觀點類別中的一個觀點類別,每個觀點類別關(guān)聯(lián)于不同的 觀點,所述層面情緒是與所述一個觀點類別關(guān)聯(lián)的觀點。
25. 根據(jù)權(quán)利要求24所述的方法,其中,所述多個觀點類別包括正面觀點類別以及負 面觀點類別。
26. -種用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層面情緒的裝置,所述裝置包 括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 從所述數(shù)據(jù)的第一部分識別數(shù)據(jù)段; 使用根據(jù)權(quán)利要求17所述的裝置基于所述數(shù)據(jù)的第二部分生成修正層級; 將所述數(shù)據(jù)段分類為多個層面類別之一,每個層面類別關(guān)聯(lián)于由所述修正層級中的不 同節(jié)點所代表的產(chǎn)品層面以識別所述數(shù)據(jù)段相關(guān)于哪個產(chǎn)品層面; 從所述數(shù)據(jù)段抽取與所述數(shù)據(jù)段相關(guān)的產(chǎn)品層面所對應(yīng)的觀點;以及 將抽取出的觀點分類為多個觀點類別中的一個觀點類別,每個觀點類別關(guān)聯(lián)于不同的 觀點,所述層面情緒是與所述一個觀點類別關(guān)聯(lián)的觀點。
27. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于通過與產(chǎn)品有關(guān)的數(shù)據(jù)確定用于產(chǎn)品層面的層面情緒 的方法,所述方法是根據(jù)權(quán)利要求24至25中任一項所述的方法。
28. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的方法,所述方法包括: 從所述數(shù)據(jù)識別產(chǎn)品層面; 基于所述產(chǎn)品層面在所述數(shù)據(jù)中的出現(xiàn)頻率以及識別出的產(chǎn)品層面的影響的測度,生 成用于每個識別出的產(chǎn)品層面的權(quán)重因子;以及 基于所生成的權(quán)重因子來分級所述識別出的產(chǎn)品層面。
29. 根據(jù)權(quán)利要求28所述的方法,其中,從所述數(shù)據(jù)識別產(chǎn)品層面包括從所述數(shù)據(jù)抽 取一個或多個名詞短語。
30. 根據(jù)權(quán)利要求29所述的方法,進一步包括:如果所抽取出的名詞短語符合與層面 類別關(guān)聯(lián)的產(chǎn)品層面,則將所抽取出的名詞短語分類為所述層面類別,所述層面類別關(guān)聯(lián) 于一個或多個不同的產(chǎn)品層面。
31. 根據(jù)權(quán)利要求29或30所述的方法,進一步包括將多個不同的抽取出的名詞短語聚 集在一起,其中,所述多個不同的抽取出的名詞短語中的每個包括對應(yīng)的同義術(shù)語。
32. 根據(jù)權(quán)利要求28至31中任一項所述的方法,進一步包括: 基于所述數(shù)據(jù)確定用于所識別出的產(chǎn)品層面的層面情緒;以及 使用所述層面情緒確定所識別出的產(chǎn)品層面的影響的測度。
33. 根據(jù)權(quán)利要求32所述的方法,其中,確定層面情緒包括: 從所述數(shù)據(jù)抽取一個或多個層面觀點,所述或者每個層面觀點對識別出的產(chǎn)品層面以 及對應(yīng)觀點進行識別; 基于所述對應(yīng)觀點將所述或者每個層面觀點分類為多個觀點類別之一,每個觀點類別 關(guān)聯(lián)于不同的觀點;以及 基于所述多個觀點類別中哪一個包含最多層面觀點來確定用于所識別出的產(chǎn)品層面 的層面情緒。
34. 根據(jù)權(quán)利要求32所述的方法,其中,根據(jù)權(quán)利要求24所述的方法來確定層面情緒。
35. 根據(jù)權(quán)利要求32至34中任一項所述的方法,,其中,確定影響的測度包括: 從所述數(shù)據(jù)確定用于所述產(chǎn)品的產(chǎn)品情緒,所述產(chǎn)品情緒關(guān)聯(lián)于觀點;以及 比較用于所識別出的產(chǎn)品層面的層面情緒和用于所述產(chǎn)品的產(chǎn)品情緒以確定所述影 響的測度。
36. 根據(jù)權(quán)利要求35所述的方法,其中,確定產(chǎn)品情緒包括: 從所述數(shù)據(jù)抽取一個或多個產(chǎn)品觀點,所述或者每個產(chǎn)品觀點識別所述產(chǎn)品以及對應(yīng) 觀點;基于所述對應(yīng)觀點將所述或者每個產(chǎn)品觀點分類為多個觀點類別之一,每個觀點類 別關(guān)聯(lián)于不同的觀點;以及 基于所述多個觀點類別中哪一個包含最多產(chǎn)品觀點來確定用于所述產(chǎn)品的所述產(chǎn)品 情緒。
37. 根據(jù)權(quán)利要求28至36中任一項所述的方法,其中,根據(jù)權(quán)利要求19所述的方法來 執(zhí)行從所述數(shù)據(jù)識別產(chǎn)品層面的步驟。
38. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的裝置,所述裝置包括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 從所述數(shù)據(jù)識別產(chǎn)品層面; 基于所述產(chǎn)品層面在所述數(shù)據(jù)中的出現(xiàn)頻率以及所識別出的產(chǎn)品層面的影響的測度, 生成用于每個所識別出的產(chǎn)品層面的權(quán)重因子;以及 基于所生成的權(quán)重因子來分級所識別出的產(chǎn)品層面。
39. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來分級產(chǎn)品層面的方法,所述方 法是根據(jù)權(quán)利要求28至37中任一項的方法。
40. -種用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的方法,所述方法包括: 根據(jù)權(quán)利要求28至36中任一項的方法,基于所述數(shù)據(jù)的第一部分來確定與所述產(chǎn)品 相關(guān)的所分級的產(chǎn)品層面; 從所述數(shù)據(jù)的第二部分識別一個或多個特征,所述或者每個特征識別所分級的產(chǎn)品層 面以及對應(yīng)觀點; 基于所述對應(yīng)觀點將每個特征分類為多個觀點類別之一,每個觀點類別關(guān)聯(lián)于不同的 觀點;以及 基于所述多個觀點類別中哪一個包含最多特征來確定所述產(chǎn)品情緒。
41. 根據(jù)權(quán)利要求40所述的方法,其中,所述產(chǎn)品情緒是基于對應(yīng)于所述特征的層面 分級來確定的。
42. 根據(jù)權(quán)利要求40或41所述的方法,其中,所述多個觀點類別包括正面觀點類別以 及負面觀點類別。
43. 根據(jù)權(quán)利要求40至42中任一項所述的方法,其中,所述數(shù)據(jù)的第一部分包括所述 產(chǎn)品的多個獨立評價,所述數(shù)據(jù)的第二部分包括所述產(chǎn)品的單個評價。
44. 根據(jù)權(quán)利要求40至42中任一項所述的方法,其中,所述數(shù)據(jù)的所述第二部分包括 所述產(chǎn)品的多個評價,所述方法進一步包括: 將所述數(shù)據(jù)的所述第二部分中的每個評價代表為向量,每個向量指示每個特征存在或 者不存在于關(guān)聯(lián)的評價中,其中,基于對應(yīng)于所述特征的層面分級將每個特征在向量中加 權(quán);以及 其中,基于每個向量來確定產(chǎn)品情緒以確定用于所述數(shù)據(jù)的所述第二部分中的每個評 價的廣品情緒。
45. -種用于從與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的裝置,所述裝置包括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 使用根據(jù)權(quán)利要求38所述的裝置,基于所述數(shù)據(jù)的第一部分確定與所述產(chǎn)品相關(guān)的 所分級的產(chǎn)品層面; 從所述數(shù)據(jù)的第二部分識別一個或多個特征,所述或者每個特征識別所分級的產(chǎn)品層 面以及對應(yīng)觀點; 基于所述對應(yīng)觀點將每個特征分類為多個觀點類別之一,每個觀點類別關(guān)聯(lián)于不同的 觀點;以及 基于所述多個觀點類別中哪一個包含最多特征來確定所述產(chǎn)品情緒。
46. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于通過與產(chǎn)品有關(guān)的數(shù)據(jù)確定產(chǎn)品情緒的方法,所述方法 是根據(jù)權(quán)利要求40至44中任一項所述的方法。
47. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn)品評價概要的方法,所述方法包括: 根據(jù)權(quán)利要求28至36中任一項所述的方法,基于所述數(shù)據(jù)的第一部分確定與所述產(chǎn) 品相關(guān)的所分級的產(chǎn)品層面; 從所述數(shù)據(jù)的第二部分抽取一個或多個數(shù)據(jù)段, 基于所述數(shù)據(jù)段是否識別出所分級的產(chǎn)品層面以及是否包含對應(yīng)觀點來計算用于所 述或者每個抽取出的數(shù)據(jù)段的相關(guān)性分數(shù);以及, 取決于它們的相應(yīng)的相關(guān)性分數(shù)來生成包括一個或多個抽取出的數(shù)據(jù)段的產(chǎn)品評價 概要。
48. 根據(jù)權(quán)利要求47所述的方法,其中,所抽取出的數(shù)據(jù)段的相關(guān)性分數(shù)取決于對由 所述數(shù)據(jù)段識別出的所分級的產(chǎn)品層面的分級。
49. 根據(jù)權(quán)利要求47或48所述的方法,其中,所抽取出的數(shù)據(jù)段的相關(guān)性分數(shù)取決于 其對應(yīng)觀點是否匹配所述產(chǎn)品的總體觀點。
50. 根據(jù)權(quán)利要求47至50中任一項所述的方法,進一步包括: 對用于抽取出的數(shù)據(jù)段的所述相關(guān)性分數(shù)與預(yù)定閾值進行比較;以及, 取決于所述比較將抽取出的數(shù)據(jù)段包括在所述產(chǎn)品評價概要中。
51. -種用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)來生成產(chǎn)品評價概要的裝置,所述裝置包括: 至少一個處理器; 以及包括計算機程序代碼的至少一個內(nèi)存; 其中,所述至少一個內(nèi)存和所述計算機程序代碼構(gòu)造為通過所述至少一個處理器使得 所述裝置至少進行以下步驟: 使用根據(jù)權(quán)利要求38所述的裝置,基于所述數(shù)據(jù)的第一部分確定與所述產(chǎn)品相關(guān)的 所分級的產(chǎn)品層面; 從所述數(shù)據(jù)的第二部分抽取一個或多個數(shù)據(jù)段; 基于所述數(shù)據(jù)段是否識別出所分級的產(chǎn)品層面以及是否包含對應(yīng)觀點來計算用于所 述或者每個抽取出的數(shù)據(jù)段的相關(guān)性分數(shù);以及, 取決于它們的相應(yīng)的相關(guān)性分數(shù)來生成包括一個或多個抽取出的數(shù)據(jù)段的產(chǎn)品評價 概要。
52. -種計算機可讀存儲介質(zhì),其上存儲有計算機程序代碼,當計算機程序代碼由計算 機執(zhí)行時使得所述計算機執(zhí)行用于基于與產(chǎn)品有關(guān)的數(shù)據(jù)生成產(chǎn)品評價概要的方法,所述 方法是根據(jù)權(quán)利要求47至50中任一項所述的方法。
【文檔編號】G06F17/00GK104350490SQ201380029313
【公開日】2015年2月11日 申請日期:2013年4月9日 優(yōu)先權(quán)日:2012年4月11日
【發(fā)明者】蔡達成, 余建興, 查正軍, 汪萌 申請人:新加坡國立大學(xué)