亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法

文檔序號(hào):10655254閱讀:287來(lái)源:國(guó)知局
基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提出一種基于主題模型的自展式特征選擇方法及系統(tǒng),該方法包括以下步驟:獲取原始評(píng)論數(shù)據(jù);選取主題模型,并根據(jù)主題模型對(duì)原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則;根據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。本發(fā)明的方法能有效地抽取相關(guān)特征,摒棄無(wú)關(guān)特征和觀點(diǎn)詞,極大地減少人工工作量及人工誤差。
【專(zhuān)利說(shuō)明】
基于主題模型的自展式特征選擇方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設(shè)及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別設(shè)及一種基于主題模型的自展式特征選擇 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速興起,在線購(gòu)物為人們帶來(lái)了便利的購(gòu)物方式,同時(shí)廣大電商 網(wǎng)站允許已購(gòu)買(mǎi)產(chǎn)品的顧客對(duì)產(chǎn)品進(jìn)行評(píng)論W供后來(lái)的潛在消費(fèi)者參考,此類(lèi)信息在網(wǎng)站 上迅速膨脹,構(gòu)成了海量數(shù)據(jù)。運(yùn)些評(píng)論信息,尤其是某些熱銷(xiāo)產(chǎn)品的評(píng)論信息,對(duì)業(yè)界和 科研人員來(lái)說(shuō)都是極其寶貴的參考材料,在觀點(diǎn)挖掘、產(chǎn)品預(yù)測(cè)等方面都有著極大的參考 價(jià)值。生產(chǎn)企業(yè)可W通過(guò)顧客的產(chǎn)品評(píng)論改進(jìn)自己的產(chǎn)品;營(yíng)銷(xiāo)團(tuán)隊(duì)通過(guò)對(duì)產(chǎn)品評(píng)論進(jìn)行 分析比較能夠得到該產(chǎn)品的銷(xiāo)售趨勢(shì)或根據(jù)不同產(chǎn)品間的比較得到熱點(diǎn)產(chǎn)品;科研人員可 W通過(guò)產(chǎn)品評(píng)論進(jìn)行顧客的情感分析等。然而運(yùn)些工作全都離不開(kāi)觀點(diǎn)挖掘。觀點(diǎn)挖掘,也 稱(chēng)為情緒分析,是對(duì)于人們關(guān)于某一實(shí)體的特征、組件、屬性等所產(chǎn)生的觀點(diǎn)、態(tài)度和情緒 進(jìn)行挖掘和分析的一種技術(shù),是自然語(yǔ)言處理學(xué)科中重要的一個(gè)領(lǐng)域,得到了學(xué)術(shù)界和業(yè) 界的重視。
[0003] 結(jié)合產(chǎn)品評(píng)論,觀點(diǎn)挖掘能十分有效地反應(yīng)用戶的對(duì)于某具體事物的具體觀點(diǎn), 具有實(shí)時(shí)性、話題敏感性和多變性的特點(diǎn)。觀點(diǎn)挖掘作為自然語(yǔ)言處理的重要組成部分,也 是機(jī)器學(xué)習(xí)中的一個(gè)重要研究領(lǐng)域。同時(shí),由于電商平臺(tái)數(shù)據(jù)的多變性和數(shù)據(jù)規(guī)模的龐大, 基于在線數(shù)據(jù)的觀點(diǎn)挖掘一直是研究的熱點(diǎn)和難點(diǎn)。網(wǎng)絡(luò)用語(yǔ)、話題的快速流行和消亡往 往要求在線觀點(diǎn)挖掘模型具有良好的應(yīng)激性及對(duì)于新用語(yǔ)的敏感性和適應(yīng)性,運(yùn)在機(jī)器學(xué) 習(xí)領(lǐng)域尚是個(gè)研究熱點(diǎn)。特征抽取是觀點(diǎn)挖掘中的重要環(huán)節(jié),提取結(jié)果的好壞將直接影響 觀點(diǎn)挖掘的結(jié)果好壞。大多數(shù)模型往往對(duì)產(chǎn)品評(píng)論利用監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)來(lái)進(jìn)行特征 提取,運(yùn)往往是因?yàn)楫a(chǎn)品評(píng)論的領(lǐng)域局限性造成的:同樣的一個(gè)特征詞在不同的專(zhuān)業(yè)領(lǐng)域 的權(quán)重大多不相等,例如"動(dòng)力"一詞在汽車(chē)等交通工具的產(chǎn)品評(píng)論中占有重要的地位,然 而在手機(jī)等數(shù)碼產(chǎn)品的評(píng)論中則是無(wú)用的"噪音"評(píng)論。W往的工作中,對(duì)于特征的抽取往 往需要人工標(biāo)定,往往就是由領(lǐng)域局限性造成的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明旨在至少解決上述技術(shù)問(wèn)題之一。
[0005] 為此,本發(fā)明的一個(gè)目的在于提出一種基于主題模型的自展式特征選擇方法,該 方法能有效地抽取相關(guān)特征,擬棄無(wú)關(guān)特征和觀點(diǎn)詞,極大地減少人工工作量及人工誤差。
[0006] 本發(fā)明的另一個(gè)目的在于提出一種基于主題模型的自展式特征選擇系統(tǒng)。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面的實(shí)施例公開(kāi)了一種基于主題模型的自展式 特征選擇方法,包括W下步驟:Sl:獲取原始評(píng)論數(shù)據(jù);S2:選取主題模型,并根據(jù)所述主題 模型對(duì)所述原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特 征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則;W及S3:根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和 觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞 與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0008] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的自展式特征選擇方法還可W具有 如下附加的技術(shù)特征:
[0009] 在一些示例中,還包括:獲取隱式特征評(píng)論,并根據(jù)所述顯示特征詞與特征詞之間 的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間的傳導(dǎo)性,將隱 式特征評(píng)論中的觀點(diǎn)詞根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。
[0010] 在一些示例中,所述主題模型為潛在的狄利克雷分布LDA。
[0011] 在一些示例中,所述S2進(jìn)一步包括:S21:將所述原始評(píng)論數(shù)據(jù)的初始特征空間設(shè) 置為空;S22:從所述原始評(píng)論數(shù)據(jù)中挑選一個(gè)特征,并計(jì)算在所述特征下每個(gè)單詞的條件 概率;S23:設(shè)置一個(gè)闊值,W保留條件概率大于所述闊值的單詞,并濾除條件概率小于所述 闊值的詞匯;S24:重復(fù)執(zhí)行所述步驟S22至步驟S23,直至得到足夠維度的特征。
[0012] 在一些示例中,所述原始評(píng)論數(shù)據(jù)中每個(gè)單詞都具有其唯一的主題,則原始評(píng)論 數(shù)據(jù)中每個(gè)詞的優(yōu)化目標(biāo)如下式:
[0013]
[0014] 其中Z表示原始評(píng)論數(shù)據(jù)中每個(gè)單詞都對(duì)應(yīng)的主題,W表示原始評(píng)論數(shù)據(jù)中的單 詞,0表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。
[0015] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,采用LDA運(yùn)種概率生 成模型來(lái)刻畫(huà)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語(yǔ)義特點(diǎn),由文本自身 的特性出發(fā)得到挖掘結(jié)果,該方法能有效地抽取相關(guān)特征,擬棄無(wú)關(guān)特征和觀點(diǎn)詞,極大減 少了人工工作量和人工誤差。另外,通過(guò)挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本,提高 觀點(diǎn)枉掘效果。
[0016] 本發(fā)明第二方面的實(shí)施例公開(kāi)了一種基于主題模型的自展式特征選擇系統(tǒng),包 括:獲取模塊,所述獲取模塊用于獲取原始評(píng)論數(shù)據(jù);處理模塊,所述處理模塊用于選取主 題模型,并根據(jù)所述主題模型對(duì)所述原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的 抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則;匹配模塊,所述匹配模塊用于根 據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間 的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀 點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0017] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)還可W具有 如下附加的技術(shù)特征:
[0018] 在一些示例中,所述匹配模塊還用于:獲取隱式特征評(píng)論,并根據(jù)所述顯示特征詞 與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間 的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。
[0019] 在一些示例中,所述主題模型為潛在的狄利克雷分布LDA。
[0020] 在一些示例中,所述處理模塊用于:將所述原始評(píng)論數(shù)據(jù)的初始特征空間設(shè)置為 空,并從所述原始評(píng)論數(shù)據(jù)中挑選一個(gè)特征,并計(jì)算在所述特征下每個(gè)單詞的條件概率,并 設(shè)置一個(gè)闊值,W保留條件概率大于所述闊值的單詞,并濾除條件概率小于所述闊值的詞 匯,并重復(fù)執(zhí)行上述過(guò)程,直至得到足夠維度的特征。
[0021] 在一些示例中,所述原始評(píng)論數(shù)據(jù)中每個(gè)詞都具有其唯一的主題,則原始評(píng)論數(shù) 據(jù)中每個(gè)單詞的優(yōu)化目標(biāo)如下式:
[0022]
[0023] 其中Z表示原始評(píng)論數(shù)據(jù)中每個(gè)單詞都對(duì)應(yīng)的主越,W表示原始評(píng)論數(shù)據(jù)中的單 詞,0表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。
[0024] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng),采用LDA運(yùn)種概率生 成模型來(lái)刻畫(huà)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語(yǔ)義特點(diǎn),由文本自身 的特性出發(fā)得到挖掘結(jié)果,該系統(tǒng)能有效地抽取相關(guān)特征,擬棄無(wú)關(guān)特征和觀點(diǎn)詞,極大減 少了人工工作量和人工誤差。另外,通過(guò)挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本,提高 觀點(diǎn)枉掘效果。
[0025] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0026] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0027] 圖1是根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法的流程圖;
[0028] 圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的主題模型特征降維概率圖模型示意圖;
[0029] 圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的語(yǔ)義關(guān)聯(lián)關(guān)系挖掘示例圖;W及
[0030] 圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)的結(jié)構(gòu)框 圖。
【具體實(shí)施方式】
[0031] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的元件或具有相同或類(lèi)似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0032] 在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)"中屯、"、"縱向橫向上"、"下"、 "前"、"后V'左'、"右V'豎曹'、"水甲V'頂'、"底V'胖V'外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對(duì) 本發(fā)明的限制。此外,術(shù)語(yǔ)"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì) 重要性。
[0033] 在本發(fā)明的描述中,需要說(shuō)明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可W是固定連接,也可W是可拆卸連接,或一體地連接;可 W是機(jī)械連接,也可W是電連接;可W是直接相連,也可W通過(guò)中間媒介間接相連,可W是 兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可W具體情況理解上述術(shù)語(yǔ)在本 發(fā)明中的具體含義。
[0034] W下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法及 系統(tǒng)。
[0035] 圖I是根據(jù)本發(fā)明一個(gè)實(shí)施例的基于主題模型的自展式特征選擇方法的流程圖。 如圖1所示,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,包括W下步驟:
[0036] 步驟Sl:獲取原始評(píng)論數(shù)據(jù)。
[0037] 步驟S2:選取主題模型,并根據(jù)主題模型對(duì)原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、顯式特征 詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則。
[0038] 具體地說(shuō),對(duì)于原始的產(chǎn)品評(píng)論(原始評(píng)論數(shù)據(jù)),語(yǔ)句中常常包含大量的無(wú)關(guān)噪 聲和重復(fù)數(shù)據(jù)(如許多相互重復(fù)的信息W及和預(yù)測(cè)目標(biāo)無(wú)關(guān)的無(wú)用信息),而運(yùn)些信息會(huì)造 成最后模型參數(shù)的激增,使得模型訓(xùn)練變得更加困難。另一方面,產(chǎn)品評(píng)論(原始評(píng)論數(shù)據(jù)) 是一個(gè)樣合了多種語(yǔ)言形式的文本,例如網(wǎng)絡(luò)流行語(yǔ)、網(wǎng)絡(luò)用語(yǔ)縮寫(xiě)、網(wǎng)頁(yè)鏈接和表情符號(hào) 等。有些數(shù)據(jù)類(lèi)型明顯與產(chǎn)品本身無(wú)關(guān),因此需要對(duì)數(shù)據(jù)進(jìn)行清洗和篩選,即在特征用于學(xué) 習(xí)之前,往往需要進(jìn)行從高維特征空間到低維特征空間的映射,保留有用信息,從而降低模 型訓(xùn)練的復(fù)雜度,諸如網(wǎng)頁(yè)鏈接、話題標(biāo)簽、位置信息W及重復(fù)的子句將被刪除,網(wǎng)絡(luò)流行 語(yǔ)及網(wǎng)絡(luò)縮寫(xiě)在遍歷了用語(yǔ)詞典后仍找不到的提醒人工標(biāo)準(zhǔn),表情符號(hào)W文字代替。
[0039] 在本發(fā)明的一個(gè)實(shí)施例中,主題模型例如為L(zhǎng)DA(Latent Dirichlet Allocation, 潛在的狄利克雷分布)dLDA作為一個(gè)統(tǒng)計(jì)生成模型,自2003年提出W來(lái),逐步成為具有多種 應(yīng)用場(chǎng)景的機(jī)器學(xué)習(xí)方法。其將文本中詞語(yǔ)進(jìn)行統(tǒng)計(jì)映射到向量空間的方法十分符合高維 特征空間到低維特征空間的轉(zhuǎn)換,同時(shí)該方法的統(tǒng)計(jì)特性也保證了其在離散數(shù)據(jù)(如文本) 上的良好分析能力。同時(shí),LDA能夠?qū)⒃~與詞之間的語(yǔ)義關(guān)聯(lián)W概率的形式表現(xiàn)出來(lái),十分 符合無(wú)監(jiān)督觀點(diǎn)挖掘?qū)τ谖谋菊Z(yǔ)義體現(xiàn)的需求,因此本發(fā)明的實(shí)施例選擇LDA來(lái)進(jìn)行數(shù)據(jù) 處理和特征抽取。
[0040] 潛在的狄利克雷分布LDA是目前常見(jiàn)的特征降維方法,是一種層次的貝葉斯模型。 其主要思想是將計(jì)算出文本中每個(gè)詞在預(yù)先設(shè)定好的主題下的概率,并通過(guò)闊值限定篩選 出有用的特征及過(guò)濾掉無(wú)用的噪聲數(shù)據(jù)?;诖耍Y(jié)合圖2所示,步驟S2進(jìn)一步包括:
[0041 ] S21:將原始評(píng)論數(shù)據(jù)的初始特征空間設(shè)置為空。
[0042] S22:從原始評(píng)論數(shù)據(jù)中挑選一個(gè)特征,并計(jì)算在特征下每個(gè)單詞的條件概率。
[0043] S23:設(shè)置一個(gè)闊值,W保留條件概率大于闊值的單詞,并濾除條件概率小于闊值 的詞匯。
[0044] S24:重復(fù)執(zhí)行步驟S22至步驟S23,直至得到足夠維度的特征。
[0045] 其中,例如,設(shè)定原始評(píng)論數(shù)據(jù)中每個(gè)單詞W都具有其唯一的主題Z,則原始評(píng)論數(shù) 據(jù)中每個(gè)詞的優(yōu)化目標(biāo)如下式:
[0046]
[0047] 其中Z表示原始評(píng)論數(shù)據(jù)中每個(gè)詞都對(duì)應(yīng)的主題,W表示原始評(píng)論數(shù)據(jù)中的單詞,0 表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。也就是說(shuō),求解 有用的特征詞的概率問(wèn)題就轉(zhuǎn)換成了求解文檔~主題的分布和主題~詞匯的分布的問(wèn)題, 而運(yùn)兩個(gè)問(wèn)題在給定文本集的前提下是可統(tǒng)計(jì)計(jì)算的,并在每個(gè)主題下將文本詞匯按條件 概率排序。由此可W知道,本發(fā)明的實(shí)施例通過(guò)設(shè)定不同的闊值適當(dāng)保留前若干個(gè)高概率 詞匯,從而完成特征篩取和降維。
[004引在上述示例中,主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關(guān)聯(lián)規(guī) 則運(yùn)=個(gè)子任務(wù)的原因在于:運(yùn)=個(gè)子任務(wù)都用到了單詞的概率表現(xiàn)。運(yùn)樣,通過(guò)設(shè)定闊 值,可W將每個(gè)主題下出現(xiàn)概率低的詞篩取掉,完成特征降維任務(wù)。同時(shí),根據(jù)高概率的單 詞抽取出特征詞、觀點(diǎn)詞并W此進(jìn)行關(guān)聯(lián)得到語(yǔ)義關(guān)聯(lián)股則。
[0049] 步驟S3:根據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與 特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬?特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0050] 具體地說(shuō),從上文描述中可知,主題模型(如LDA)能夠W統(tǒng)計(jì)概率的模式表現(xiàn)出詞 與詞之間的關(guān)聯(lián)性。運(yùn)一特性能夠十分良好的挖掘出特征詞和觀點(diǎn)詞。結(jié)合圖3所示,具體 介紹如下:
[0051] 中文文本在進(jìn)行詞性標(biāo)注之后,可根據(jù)詞性選出候選特征詞和觀點(diǎn)詞。特征詞的 詞性往往是名詞或名詞詞組,如"屏幕"、"質(zhì)量"等;觀點(diǎn)詞則往往是動(dòng)詞或形容詞W及副 詞,如"靈活"、"好看"、"適合妹子用"等。當(dāng)將正確的產(chǎn)品特征和相關(guān)的觀點(diǎn)詞匹配好之后, 就完成了對(duì)該產(chǎn)品的觀點(diǎn)挖掘。
[0052] 在本主題模型中,使用語(yǔ)義關(guān)聯(lián)規(guī)則來(lái)實(shí)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞的匹配。而語(yǔ)義關(guān) 聯(lián)規(guī)則的挖掘則依賴于主題模型。當(dāng)?shù)玫矫總€(gè)主題下單詞的概率時(shí),概率大的詞表示該詞 與主題語(yǔ)義關(guān)聯(lián)緊密,概率低表示該詞與該主題語(yǔ)義關(guān)聯(lián)稀疏。由于主題模型的特性,我們 可W人工定義主題詞作為特征種子詞,再利用主題模型對(duì)文本語(yǔ)義的概率描述得到詞與詞 之間的語(yǔ)義關(guān)聯(lián)。從特征種子詞出發(fā),結(jié)合特征詞、觀點(diǎn)詞的特有詞性及設(shè)定不同的闊值, 進(jìn)行特征抽取和觀點(diǎn)詞篩選和匹配,從而完成觀點(diǎn)挖掘。由于不同的語(yǔ)義文本在主題模型 的描述下關(guān)聯(lián)性自然不同,運(yùn)是由文本自身的特性形成的,即主題模型展現(xiàn)了文本內(nèi)部自 身的關(guān)聯(lián)性,通過(guò)極少的幾個(gè)種子詞作為起點(diǎn),挖掘出特征詞和相應(yīng)的觀點(diǎn)詞。因此,運(yùn)種 方法稱(chēng)為自展式的觀點(diǎn)挖掘,即通過(guò)模型自身特性進(jìn)行挖掘,而不需過(guò)多借助人工標(biāo)定。
[0053] 進(jìn)一步地,該方法還包括:獲取隱式特征評(píng)論,并根據(jù)顯示特征詞與特征詞之間的 關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間的傳導(dǎo)性,將隱式 特征評(píng)論中的觀點(diǎn)詞根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。具體地說(shuō),特征詞不直 接出現(xiàn)在評(píng)論中的句子稱(chēng)為隱式評(píng)論,如:"媳婦挺喜歡用的,就是不容易放進(jìn)口袋",在運(yùn) 句關(guān)于手機(jī)的評(píng)論中,關(guān)于手機(jī)特性的特征詞"大小"或"手機(jī)尺寸"并沒(méi)有出現(xiàn),然而人們 都可W看出運(yùn)句評(píng)論是對(duì)手機(jī)大小進(jìn)行了描述。被隱式特征描述的特征就稱(chēng)為隱式特征。 觀點(diǎn)挖掘的質(zhì)量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的工作中,觀點(diǎn)挖掘的研究者 們往往關(guān)注顯示特征評(píng)論,即特征直接出現(xiàn)在句子中的評(píng)論,的選取,而忽略了隱式特征的 評(píng)論。然而隱式特征平均占整體特征的20%-30%,對(duì)觀點(diǎn)挖掘結(jié)果有著不可忽視的影響。 因此隱式特征評(píng)論的挖掘工作十分必要。通過(guò)自展式特征抽取,我們已經(jīng)得到了顯式特征 詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)。則根據(jù) 運(yùn)=種關(guān)聯(lián)的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根據(jù)關(guān)聯(lián)規(guī)則得到相匹配的特征詞,貝U 可完善觀點(diǎn)挖掘的樣本,提高觀點(diǎn)挖掘效果。
[0054] 綜上,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,采用LDA運(yùn)種概 率生成模型來(lái)刻畫(huà)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語(yǔ)義特點(diǎn),由文本 自身的特性出發(fā)得到挖掘結(jié)果,該方法能有效地抽取相關(guān)特征,擬棄無(wú)關(guān)特征和觀點(diǎn)詞,極 大減少了人工工作量和人工誤差。另外,通過(guò)挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本, 提高觀點(diǎn)挖掘效果。
[0055] 本發(fā)明的進(jìn)一步實(shí)施例還提供了一種基于主題模型的自展式特征選擇系統(tǒng)。
[0056] 圖4是根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)的結(jié)構(gòu)框圖。如 圖4所示,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)100,包括:獲取模塊 110、處理模塊120和匹配模塊130。
[0057] 其中,獲取模塊110用于獲取原始評(píng)論數(shù)據(jù)。
[005引處理模塊120用于選取主題模型,并根據(jù)主題模型對(duì)原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、 顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則。
[0059] 具體地說(shuō),對(duì)于原始的產(chǎn)品評(píng)論(原始評(píng)論數(shù)據(jù)),語(yǔ)句中常常包含大量的無(wú)關(guān)噪 聲和重復(fù)數(shù)據(jù)(如許多相互重復(fù)的信息W及和預(yù)測(cè)目標(biāo)無(wú)關(guān)的無(wú)用信息),而運(yùn)些信息會(huì)造 成最后模型參數(shù)的激增,使得模型訓(xùn)練變得更加困難。另一方面,產(chǎn)品評(píng)論(原始評(píng)論數(shù)據(jù)) 是一個(gè)樣合了多種語(yǔ)言形式的文本,例如網(wǎng)絡(luò)流行語(yǔ)、網(wǎng)絡(luò)用語(yǔ)縮寫(xiě)、網(wǎng)頁(yè)鏈接和表情符號(hào) 等。有些數(shù)據(jù)類(lèi)型明顯與產(chǎn)品本身無(wú)關(guān),因此需要對(duì)數(shù)據(jù)進(jìn)行清洗和篩選,即在特征用于學(xué) 習(xí)之前,往往需要進(jìn)行從高維特征空間到低維特征空間的映射,保留有用信息,從而降低模 型訓(xùn)練的復(fù)雜度,諸如網(wǎng)頁(yè)鏈接、話題標(biāo)簽、位置信息W及重復(fù)的子句將被刪除,網(wǎng)絡(luò)流行 語(yǔ)及網(wǎng)絡(luò)縮寫(xiě)在遍歷了用語(yǔ)詞典后仍找不到的提醒人工標(biāo)準(zhǔn),表情符號(hào)W文字代替。
[0060] 在本發(fā)明的一個(gè)實(shí)施例中,主題模型例如為潛在的狄利克雷分布LDAdLDA作為一 個(gè)統(tǒng)計(jì)生成模型,自2003年提出W來(lái),逐步成為具有多種應(yīng)用場(chǎng)景的機(jī)器學(xué)習(xí)方法。其將文 本中詞語(yǔ)進(jìn)行統(tǒng)計(jì)映射到向量空間的方法十分符合高維特征空間到低維特征空間的轉(zhuǎn)換, 同時(shí)該方法的統(tǒng)計(jì)特性也保證了其在離散數(shù)據(jù)(如文本)上的良好分析能力。同時(shí),LDA能夠 將詞與詞之間的語(yǔ)義關(guān)聯(lián)W概率的形式表現(xiàn)出來(lái),十分符合無(wú)監(jiān)督觀點(diǎn)挖掘?qū)τ谖谋菊Z(yǔ)義 體現(xiàn)的需求,因此本發(fā)明的實(shí)施例選擇LDA來(lái)進(jìn)行數(shù)據(jù)處理和特征抽取。
[0061] 潛在的狄利克雷分布LDA是目前常見(jiàn)的特征降維方法,是一種層次的貝葉斯模型。 其主要思想是將計(jì)算出文本中每個(gè)詞在預(yù)先設(shè)定好的主題下的概率,并通過(guò)闊值限定篩選 出有用的特征及過(guò)濾掉無(wú)用的噪聲數(shù)據(jù)。
[0062] 基于此,處理模塊120用于將原始評(píng)論數(shù)據(jù)的初始特征空間設(shè)置為空,并從原始評(píng) 論數(shù)據(jù)中挑選一個(gè)特征,并計(jì)算在特征下每個(gè)單詞的條件概率,并設(shè)置一個(gè)闊值,W保留條 件概率大于闊值的單詞,并濾除條件概率小于闊值的詞匯,并重復(fù)執(zhí)行上述過(guò)程,直至得到 足夠維度的特征。
[0063] 其中,例如,設(shè)定原始評(píng)論數(shù)據(jù)中每個(gè)單詞W都具有其唯一的主題Z,則原始評(píng)論數(shù) 據(jù)中每個(gè)詞的優(yōu)化目標(biāo)化下式:
[0064]
[0065] 其中Z表示原始評(píng)論數(shù)據(jù)中每個(gè)詞都對(duì)應(yīng)的主題,W表示原始評(píng)論數(shù)據(jù)中的單詞,0 表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。也就是說(shuō),求解 有用的特征詞的概率問(wèn)題就轉(zhuǎn)換成了求解文檔~主題的分布和主題~詞匯的分布的問(wèn)題, 而運(yùn)兩個(gè)問(wèn)題在給定文本集的前提下是可統(tǒng)計(jì)計(jì)算的,并在每個(gè)主題下將文本詞匯按條件 概率排序。由此可W知道,本發(fā)明的實(shí)施例通過(guò)設(shè)定不同的闊值適當(dāng)保留前若干個(gè)高概率 詞匯,從而完成特征篩取和降維。
[0066] 在上述示例中,主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關(guān)聯(lián)規(guī) 則運(yùn)=個(gè)子任務(wù)的原因在于:運(yùn)=個(gè)子任務(wù)都用到了單詞的概率表現(xiàn)。運(yùn)樣,通過(guò)設(shè)定闊 值,可W將每個(gè)主題下出現(xiàn)概率低的詞篩取掉,完成特征降維任務(wù)。同時(shí),根據(jù)高概率的單 詞抽取出特征詞、觀點(diǎn)詞并W此進(jìn)行關(guān)聯(lián)得到語(yǔ)義關(guān)聯(lián)規(guī)則。
[0067] 匹配模塊130用于根據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式 特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈 式地形成特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0068] 具體地說(shuō),從上文描述中可知,主題模型(如LDA)能夠W統(tǒng)計(jì)概率的模式表現(xiàn)出詞 與詞之間的關(guān)聯(lián)性。運(yùn)一特性能夠十分良好的挖掘出特征詞和觀點(diǎn)詞。具體介紹如下:
[0069] 中文文本在進(jìn)行詞性標(biāo)注之后,可根據(jù)詞性選出候選特征詞和觀點(diǎn)詞。特征詞的 詞性往往是名詞或名詞詞組,如"屏幕"、"質(zhì)量"等;觀點(diǎn)詞則往往是動(dòng)詞或形容詞W及副 詞,如"靈活"、"好看"、"適合妹子用"等。當(dāng)將正確的產(chǎn)品特征和相關(guān)的觀點(diǎn)詞匹配好之后, 就完成了對(duì)該產(chǎn)品的觀點(diǎn)挖掘。
[0070] 在本主題模型中,使用語(yǔ)義關(guān)聯(lián)規(guī)則來(lái)實(shí)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞的匹配。而語(yǔ)義關(guān) 聯(lián)規(guī)則的挖掘則依賴于主題模型。當(dāng)?shù)玫矫總€(gè)主題下單詞的概率時(shí),概率大的詞表示該詞 與主題語(yǔ)義關(guān)聯(lián)緊密,概率低表示該詞與該主題語(yǔ)義關(guān)聯(lián)稀疏。由于主題模型的特性,我們 可W人工定義主題詞作為特征種子詞,再利用主題模型對(duì)文本語(yǔ)義的概率描述得到詞與詞 之間的語(yǔ)義關(guān)聯(lián)。從特征種子詞出發(fā),結(jié)合特征詞、觀點(diǎn)詞的特有詞性及設(shè)定不同的闊值, 進(jìn)行特征抽取和觀點(diǎn)詞篩選和匹配,從而完成觀點(diǎn)挖掘。由于不同的語(yǔ)義文本在主題模型 的描述下關(guān)聯(lián)性自然不同,運(yùn)是由文本自身的特性形成的,即主題模型展現(xiàn)了文本內(nèi)部自 身的關(guān)聯(lián)性,通過(guò)極少的幾個(gè)種子詞作為起點(diǎn),挖掘出特征詞和相應(yīng)的觀點(diǎn)詞。因此,運(yùn)種 方法稱(chēng)為自展式的觀點(diǎn)挖掘,即通過(guò)模型自身特性進(jìn)行挖掘,而不需過(guò)多借助人工標(biāo)定。
[0071] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,匹配模塊130還用于獲取隱式特征評(píng)論,并 根據(jù)顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間 的關(guān)聯(lián)=者之間的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特 征詞。具體地說(shuō),特征詞不直接出現(xiàn)在評(píng)論中的句子稱(chēng)為隱式評(píng)論,如:"媳婦挺喜歡用的, 就是不容易放進(jìn)口袋",在運(yùn)句關(guān)于手機(jī)的評(píng)論中,關(guān)于手機(jī)特性的特征詞"大小"或"手機(jī) 尺寸"并沒(méi)有出現(xiàn),然而人們都可W看出運(yùn)句評(píng)論是對(duì)手機(jī)大小進(jìn)行了描述。被隱式特征描 述的特征就稱(chēng)為隱式特征。觀點(diǎn)挖掘的質(zhì)量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的 工作中,觀點(diǎn)挖掘的研究者們往往關(guān)注顯示特征評(píng)論,即特征直接出現(xiàn)在句子中的評(píng)論,的 選取,而忽略了隱式特征的評(píng)論。然而隱式特征平均占整體特征的20%-30%,對(duì)觀點(diǎn)挖掘 結(jié)果有著不可忽視的影響。因此隱式特征評(píng)論的挖掘工作十分必要。通過(guò)自展式特征抽取, 我們已經(jīng)得到了顯式特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與 觀點(diǎn)詞之間的關(guān)聯(lián)。則根據(jù)運(yùn)S種關(guān)聯(lián)的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根據(jù)關(guān)聯(lián)規(guī) 則得到相匹配的特征詞,則可完善觀點(diǎn)挖掘的樣本,提高觀點(diǎn)挖掘效果。
[0072] 綜上,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng),采用LDA運(yùn)種概 率生成模型來(lái)刻畫(huà)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語(yǔ)義特點(diǎn),由文本 自身的特性出發(fā)得到挖掘結(jié)果,該系統(tǒng)能有效地抽取相關(guān)特征,擬棄無(wú)關(guān)特征和觀點(diǎn)詞,極 大減少了人工工作量和人工誤差。另外,通過(guò)挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本, 提高觀點(diǎn)挖掘效果。
[0073] 在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0074]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對(duì)運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項(xiàng)】
1. 一種基于主題模型的自展式特征選擇方法,其特征在于,包括以下步驟: SI:獲取原始評(píng)論數(shù)據(jù); S2:選取主題模型,并根據(jù)所述主題模型對(duì)所述原始評(píng)論數(shù)據(jù)進(jìn)行特征降維、顯式特征 詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語(yǔ)義關(guān)聯(lián)規(guī)則;以及 S3:根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與 特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬?特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。2. 根據(jù)權(quán)利要求1所述的基于主題模型的自展式特征選擇方法,其特征在于,還包括: 獲取隱式特征評(píng)論,并根據(jù)所述顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之 間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)三者之間的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根 據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。3. 根據(jù)權(quán)利要求1所述的基于主題模型的自展式特征選擇方法,其特征在于,所述主題 模型為潛在的狄利克雷分布LDA。4. 根據(jù)權(quán)利要求3所述的基于主題模型的自展式特征選擇方法,其特征在于,所述S2進(jìn) 一步包括: S21:將所述原始評(píng)論數(shù)據(jù)的初始特征空間設(shè)置為空; S22:從所述原始評(píng)論數(shù)據(jù)中挑選一個(gè)特征,并計(jì)算在所述特征下每個(gè)單詞的條件概 率; S23:設(shè)置一個(gè)閾值,以保留條件概率大于所述閾值的單詞,并濾除條件概率小于所述 閾值的詞匯; S24:重復(fù)執(zhí)行所述步驟S22至步驟S23,直至得到足夠維度的特征。5. 根據(jù)權(quán)利要求4所述的基于主題模型的自展式特征選擇方法,其特征在于,所述原始 評(píng)論數(shù)據(jù)中每個(gè)單詞都具有其唯一的主題,則原始評(píng)論數(shù)據(jù)中每個(gè)詞的優(yōu)化目標(biāo)如下式:其中z表示原始評(píng)論數(shù)據(jù)中每個(gè)單詞都對(duì)應(yīng)的主題,w表示原始評(píng)論數(shù)據(jù)中的單詞,Θ表 示滿足以α為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。6. -種基于主題模型的自展式特征選擇系統(tǒng),其特征在于,包括: 獲取模塊,所述獲取模塊用于獲取原始評(píng)論數(shù)據(jù); 處理模塊,所述處理模塊用于選取主題模型,并根據(jù)所述主題模型對(duì)所述原始評(píng)論數(shù) 據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語(yǔ)義 關(guān)聯(lián)規(guī)則; 匹配模塊,所述匹配模塊用于根據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的 匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞 之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。7. 根據(jù)權(quán)利要求6所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述匹配 模塊還用于: 獲取隱式特征評(píng)論,并根據(jù)所述顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之 間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)三者之間的傳導(dǎo)性,將隱式特征評(píng)論中的觀點(diǎn)詞根 據(jù)所述語(yǔ)義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。8. 根據(jù)權(quán)利要求6所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述主題 模型為潛在的狄利克雷分布LDA。9. 根據(jù)權(quán)利要求8所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述處理 模塊用于:將所述原始評(píng)論數(shù)據(jù)的初始特征空間設(shè)置為空,并從所述原始評(píng)論數(shù)據(jù)中挑選 一個(gè)特征,并計(jì)算在所述特征下每個(gè)單詞的條件概率,并設(shè)置一個(gè)閾值,以保留條件概率大 于所述閾值的單詞,并濾除條件概率小于所述閾值的詞匯,并重復(fù)執(zhí)行上述過(guò)程,直至得到 足夠維度的特征。10. 根據(jù)權(quán)利要求9所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述原 始評(píng)論數(shù)據(jù)中每個(gè)單詞都具有其唯一的主題,則原始評(píng)論數(shù)據(jù)中每個(gè)詞的優(yōu)化目標(biāo)如下 式:其中z表示原始評(píng)論數(shù)據(jù)中每個(gè)單詞都對(duì)應(yīng)的主題,w表示原始評(píng)論數(shù)據(jù)中的單詞,Θ表 示滿足以α為超參數(shù)的狄利克雷分布,N表示原始評(píng)論數(shù)據(jù)中的單詞數(shù)量。
【文檔編號(hào)】G06F17/30GK106021413SQ201610318849
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】徐華, 張帆, 孫曉民, 鄧俊輝
【申請(qǐng)人】清華大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1