本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種垃圾信息識(shí)別方法及裝置、系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息日益豐富,而網(wǎng)站上的各種用戶原創(chuàng)信息則魚(yú)龍混雜,無(wú)用廣告、色情等垃圾信息越來(lái)越多。因此,網(wǎng)站中的用戶原創(chuàng)信息應(yīng)事先經(jīng)過(guò)垃圾詞過(guò)濾,也就是說(shuō),應(yīng)預(yù)先對(duì)用戶原創(chuàng)信息進(jìn)行垃圾信息的識(shí)別,將識(shí)別為垃圾信息的用戶原創(chuàng)信息屏蔽掉,以確保網(wǎng)站信息的純凈度。
然而,在進(jìn)行用戶原創(chuàng)信息的發(fā)布時(shí),通過(guò)預(yù)先對(duì)用戶原創(chuàng)信息進(jìn)行語(yǔ)義轉(zhuǎn)換,從而達(dá)到避免被識(shí)別為垃圾信息的目的。例如,為避免被識(shí)別為垃圾信息,發(fā)布廣告信息時(shí),將qq號(hào)等阿拉伯?dāng)?shù)字轉(zhuǎn)換為中文數(shù)字,從而達(dá)到避免被識(shí)別為垃圾信息的目的。
目前,現(xiàn)有的垃圾信息識(shí)別一般通過(guò)與基準(zhǔn)垃圾詞進(jìn)行完全匹配或者部分匹配的方式來(lái)識(shí)別垃圾信息,而無(wú)法針對(duì)經(jīng)過(guò)語(yǔ)義轉(zhuǎn)換后的用戶原創(chuàng)信息進(jìn)行垃圾信息的識(shí)別,從而大大降低了垃圾信息識(shí)別的準(zhǔn)確性,造成垃圾信息的誤判率較高。
技術(shù)實(shí)現(xiàn)要素:
為了解決相關(guān)技術(shù)中無(wú)法針對(duì)經(jīng)過(guò)語(yǔ)義轉(zhuǎn)換后的用戶原創(chuàng)信息進(jìn)行垃圾信息識(shí)別的技術(shù)問(wèn)題,本發(fā)明提供了一種垃圾信息識(shí)別方法及裝置、系統(tǒng)。
本發(fā)明實(shí)施例提供了一種垃圾信息識(shí)別方法,包括:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對(duì)所述文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本;
通過(guò)梯度下降算法將所述還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過(guò)對(duì)所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別所述用戶原創(chuàng)信息為垃圾信息。
另外,本發(fā)明實(shí)施例提供了一種垃圾信息識(shí)別裝置,包括:
文本內(nèi)容提取模塊,用于提取用戶原創(chuàng)信息的文本內(nèi)容;
語(yǔ)義還原模塊,用于對(duì)所述文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本;匹配運(yùn)算模塊,用于通過(guò)梯度下降算法將所述還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
垃圾信息識(shí)別模塊,用于通過(guò)對(duì)所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別所述用戶原創(chuàng)信息為垃圾信息。
此外,本發(fā)明實(shí)施例還提供了一種系統(tǒng),包括:
處理器;
用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為執(zhí)行:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對(duì)所述文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本;
通過(guò)梯度下降算法將所述還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過(guò)對(duì)所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別所述用戶原創(chuàng)信息為垃圾信息。
本發(fā)明的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
在對(duì)用戶原創(chuàng)信息進(jìn)行垃圾信息識(shí)別時(shí),通過(guò)對(duì)用戶原創(chuàng)信息的文本內(nèi)容進(jìn)行語(yǔ)義還原,從而能夠針對(duì)經(jīng)過(guò)語(yǔ)義轉(zhuǎn)換后的用戶原創(chuàng)信息進(jìn)行垃圾信息的識(shí)別,大大提高了垃圾信息識(shí)別的準(zhǔn)確性,降低垃圾信息的誤判率。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本發(fā)明。
附圖說(shuō)明
此處的附圖被并入說(shuō)明書中并構(gòu)成本說(shuō)明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說(shuō)明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。
圖2是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。
圖3是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。
圖4是根據(jù)圖3對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別方法中步驟s220的一種具體實(shí)現(xiàn)流程圖。
圖5是根據(jù)圖1對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別方法中步驟s130的一種具體實(shí)現(xiàn)流程圖。
圖6是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別裝置框圖。
圖7是圖6對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別裝置中語(yǔ)義還原模塊120的一種框圖。
圖8是根據(jù)圖6對(duì)應(yīng)實(shí)施例示出的另一種垃圾信息識(shí)別裝置框圖。
圖9是圖8對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別裝置中特征提取模塊220的一種框圖。
圖10是圖6對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別裝置中匹配運(yùn)算模塊130的一種框圖。
圖11是根據(jù)一示例性實(shí)施例示出的一種系統(tǒng)的框圖。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例執(zhí)行說(shuō)明,其示例表示在附圖中。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。如圖1所示,該垃圾信息識(shí)別方法可以包括以下步驟。
在步驟s110中,提取用戶原創(chuàng)信息的文本內(nèi)容。
用戶原創(chuàng)信息是網(wǎng)絡(luò)上用戶輸入的信息。例如,論壇中,用戶對(duì)某一主題的評(píng)論留言。
可以理解的是,用戶原創(chuàng)信息包括表情、文本等內(nèi)容。
用戶原創(chuàng)信息魚(yú)龍混雜,文本中通常包含很多垃圾信息,需預(yù)先對(duì)用戶原創(chuàng)信息的文本內(nèi)容進(jìn)行垃圾信息的識(shí)別。因而,從用戶原創(chuàng)信息中提取出文本內(nèi)容。
在用戶原創(chuàng)信息中提取文本內(nèi)容時(shí),可以通過(guò)各種文本提取方法進(jìn)行提取,在此不進(jìn)行限定。
在步驟s120中,對(duì)文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本。
語(yǔ)義還原是根據(jù)語(yǔ)義對(duì)文本內(nèi)容據(jù)進(jìn)行文本處理。在對(duì)文本內(nèi)容進(jìn)行語(yǔ)義分析后,進(jìn)行相應(yīng)的還原處理,得到還原文本。
可以理解的是,為避免發(fā)布的垃圾信息被篩查出,用戶通過(guò)對(duì)語(yǔ)義轉(zhuǎn)換,從而避免發(fā)布的用戶原創(chuàng)信息被識(shí)別為垃圾信息。
例如,通過(guò)將qq號(hào)“1234567”由阿拉伯?dāng)?shù)字轉(zhuǎn)換為“一二三四五六七”,從而避免被識(shí)別為垃圾信息。
又例如,通過(guò)諧音字/組合字的轉(zhuǎn)換,將“加我微信送你”轉(zhuǎn)換為“家我威信送你”,從而避免被識(shí)別為垃圾信息。
因此,需對(duì)用戶原創(chuàng)信息的文本內(nèi)容進(jìn)行語(yǔ)義還原處理。
語(yǔ)義還原是對(duì)文本內(nèi)容進(jìn)行語(yǔ)義分析,提取文本內(nèi)容所代表的文本含義。
對(duì)文本內(nèi)容進(jìn)行語(yǔ)義分析的方法有多種,可以通過(guò)潛在語(yǔ)義索引方法,基于向量空間模型將文本內(nèi)容表示為特征-文檔的矩陣形式,并通過(guò)奇異值分解技術(shù)將矩陣降秩,將文本內(nèi)容與特征詞映射到同一低維的語(yǔ)義空間;也可以基于外部語(yǔ)義知識(shí)進(jìn)行語(yǔ)義分析,例如,通過(guò)諧音字/組合字字典,提取文本內(nèi)容中的文本含義;還可以通過(guò)其他方式對(duì)文本內(nèi)容進(jìn)行語(yǔ)義分析,在此不對(duì)語(yǔ)義分析的方法進(jìn)行限定。
在步驟s130中,通過(guò)梯度下降算法將文本內(nèi)容在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
梯度下降算法是機(jī)器學(xué)習(xí)中的一種優(yōu)化算法。
樣本模型庫(kù)是預(yù)先準(zhǔn)備的,樣本模型庫(kù)中包含有各樣本模型為垃圾信息的概率。
垃圾概率是用戶原創(chuàng)信息為垃圾信息的幾率大小。
梯度下降算法中,通過(guò)采用逐步下降的梯度對(duì)用戶原創(chuàng)信息的文本內(nèi)容與樣本模型庫(kù)中的樣本模型進(jìn)行匹配運(yùn)算,在運(yùn)算收斂后,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
在步驟s140中,通過(guò)對(duì)垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別用戶原創(chuàng)信息為垃圾信息。
垃圾概率閾值是預(yù)先設(shè)置的垃圾概率臨界值。
當(dāng)一用戶原創(chuàng)信息為垃圾信息的垃圾概率達(dá)到垃圾概率時(shí),則識(shí)別該用戶原創(chuàng)信息為垃圾信息。
例如,預(yù)設(shè)的垃圾概率閾值為70%,當(dāng)用戶原創(chuàng)信息的垃圾概率達(dá)到70%時(shí),則識(shí)別該用戶原創(chuàng)信息為垃圾信息。
利用如上所述的方法,通過(guò)將用戶原創(chuàng)信息的文本內(nèi)容進(jìn)行語(yǔ)義還原,對(duì)語(yǔ)義還原后得到的還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率,進(jìn)而根據(jù)預(yù)設(shè)的垃圾概率閾值,識(shí)別用戶原創(chuàng)信息為垃圾信息,從而能夠針對(duì)經(jīng)過(guò)語(yǔ)義轉(zhuǎn)換后的用戶原創(chuàng)信息進(jìn)行垃圾信息的識(shí)別,大大提高了識(shí)別垃圾信息的準(zhǔn)確性。
圖2是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。如圖2所示,在圖1對(duì)應(yīng)實(shí)施例示出的步驟s120可以包括以下步驟。
在步驟s121中,識(shí)別文本內(nèi)容中的中文數(shù)字。
中文數(shù)字是以中文形式表示的數(shù)字。中文數(shù)字包括中文大寫數(shù)字和中文小寫數(shù)字,例如“一”、“壹”。
在一具體的示例性實(shí)施例中,通過(guò)將文本內(nèi)容與預(yù)置的數(shù)字詞庫(kù)進(jìn)行對(duì)比,識(shí)別文本內(nèi)容中的中文數(shù)字。
在步驟s122中,對(duì)中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字,得到文本內(nèi)容對(duì)應(yīng)的還原文本。
利用如上所述的方法,通過(guò)識(shí)別用戶原創(chuàng)信息中的中文數(shù)字,再將中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字,進(jìn)而將阿拉伯?dāng)?shù)字在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率,從而能夠?qū)χ形臄?shù)字進(jìn)行垃圾信息的識(shí)別,大大提高了識(shí)別垃圾信息的準(zhǔn)確性。
可選的,在圖1對(duì)應(yīng)實(shí)施例示出的步驟s120還可以包括以下步驟:
根據(jù)預(yù)置的諧音字/組合字字庫(kù)對(duì)文本內(nèi)容的語(yǔ)義還原,得到對(duì)應(yīng)的還原文本。
諧音字/組合字字庫(kù)是包含各文本及對(duì)應(yīng)的諧音字和/或組合字的詞典。
可以理解的是,用戶原創(chuàng)信息的文本內(nèi)容中,可能還存在經(jīng)過(guò)諧音字/組合字轉(zhuǎn)換的詞。因而,通過(guò)對(duì)文本內(nèi)容進(jìn)行語(yǔ)義分析,并根據(jù)預(yù)置的諧音字/組合字字典,對(duì)文本內(nèi)容進(jìn)行語(yǔ)義還原。
例如,用戶原創(chuàng)信息本意為“流氓去死”,但為避免識(shí)別垃圾信息,發(fā)布時(shí)的文本內(nèi)容為“榴芒去死”。通過(guò)預(yù)置的諧音字/組合字字庫(kù)識(shí)別用戶原創(chuàng)信息的語(yǔ)義,并進(jìn)行諧音字/組合字的轉(zhuǎn)換,將“榴芒去死”轉(zhuǎn)換為“流氓去死”。
利用如上所述的方法,通過(guò)預(yù)置的諧音字/組合字字庫(kù)識(shí)別用戶原創(chuàng)信息的語(yǔ)義,并進(jìn)行諧音字/組合字的轉(zhuǎn)換,避免部分垃圾信息通過(guò)諧音字/組合字的轉(zhuǎn)換而無(wú)法識(shí)別為垃圾信息,大大提高了垃圾信息識(shí)別的準(zhǔn)確性。
圖3是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別方法流程圖。如圖3所示,在圖1對(duì)應(yīng)實(shí)施例中的步驟s130之前,該垃圾信息識(shí)別方法還可以包括以下步驟。
在步驟s210中,從預(yù)定的數(shù)據(jù)庫(kù)中提取內(nèi)容數(shù)據(jù)。
數(shù)據(jù)庫(kù)為按照數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)和管理網(wǎng)站社區(qū)信息的數(shù)據(jù)倉(cāng)庫(kù)。
例如,美柚社區(qū)的各種信息數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)于預(yù)定的數(shù)據(jù)庫(kù)中。
內(nèi)容數(shù)據(jù)是按照數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)于數(shù)據(jù)庫(kù)中的文本信息。
在步驟s220中,通過(guò)隨機(jī)森林算法從內(nèi)容數(shù)據(jù)中進(jìn)行文本向量的特征提取。
在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器。
文本向量是通過(guò)決策樹(shù)分類器對(duì)內(nèi)容數(shù)據(jù)進(jìn)行特征提取后表征的數(shù)據(jù)形式。
隨機(jī)森林由多個(gè)決策樹(shù)構(gòu)成。決策樹(shù)中的每一個(gè)節(jié)點(diǎn)都是關(guān)于某個(gè)特征的條件,將內(nèi)容數(shù)據(jù)按照不同的條件進(jìn)行分類,進(jìn)而根據(jù)分類將內(nèi)容數(shù)據(jù)轉(zhuǎn)換為文本向量。
在步驟s230中,根據(jù)文本向量及相應(yīng)的權(quán)重向量,得到內(nèi)容數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)類別。
權(quán)重向量是與文本向量相對(duì)應(yīng)的。權(quán)重向量中的各權(quán)重分量是與文本向量中的文本分量一一對(duì)應(yīng)的。
將內(nèi)容數(shù)據(jù)按照不同的條件進(jìn)行分類時(shí),各不同的條件對(duì)應(yīng)有相應(yīng)的權(quán)重,因此,對(duì)內(nèi)容數(shù)據(jù)進(jìn)行文本數(shù)據(jù)的特征提取后,得到的文本向量中,各文本分量也具有相應(yīng)的權(quán)重分量。
在一具體的示例性實(shí)施例中,數(shù)據(jù)類別為內(nèi)容數(shù)據(jù)對(duì)應(yīng)的信息垃圾程度,根據(jù)不同的信息垃圾程度,對(duì)內(nèi)容數(shù)據(jù)進(jìn)行分類。
在一具體的示例性實(shí)施例中,通過(guò)計(jì)算文本向量與相應(yīng)的權(quán)重向量之間的乘積,根據(jù)該乘積查找對(duì)應(yīng)的數(shù)據(jù)類別。
在步驟s240中,根據(jù)內(nèi)容數(shù)據(jù)及對(duì)應(yīng)的數(shù)據(jù)類別進(jìn)行規(guī)則引擎的配置,形成樣本模型庫(kù)。
規(guī)則引擎是一種業(yè)務(wù)規(guī)則決策組件。
規(guī)則引擎中,規(guī)則條件是與規(guī)則動(dòng)作相對(duì)應(yīng)的。通過(guò)接受數(shù)據(jù)輸入,解釋業(yè)務(wù)規(guī)則,并根據(jù)業(yè)務(wù)規(guī)則做出業(yè)務(wù)決策。當(dāng)業(yè)務(wù)規(guī)則中的規(guī)則條件滿足時(shí),則觸發(fā)執(zhí)行相應(yīng)的規(guī)則動(dòng)作。
在一具體的示例性實(shí)施例中,通過(guò)配置輸入文本內(nèi)容與內(nèi)容數(shù)據(jù)之間的相似率,在輸入的文本內(nèi)容與內(nèi)容數(shù)據(jù)相似的概率達(dá)到該相似率時(shí),則識(shí)別確認(rèn)該輸入的文本內(nèi)容為該內(nèi)容數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)類別。
例如,內(nèi)容數(shù)據(jù)b對(duì)應(yīng)的數(shù)據(jù)類別為垃圾信息,規(guī)則引擎配置時(shí)的規(guī)則條件為與內(nèi)容數(shù)據(jù)b之間的相似率為80%。經(jīng)過(guò)計(jì)算分析,得到輸入的文本內(nèi)容a與內(nèi)容數(shù)據(jù)b之間的相似率為90%,則識(shí)別確認(rèn)文本內(nèi)容a為垃圾信息。
利用如上所述的方法,通過(guò)預(yù)先進(jìn)行數(shù)據(jù)庫(kù)中內(nèi)容數(shù)據(jù)的特征提取并進(jìn)行規(guī)則引擎的配置,形成樣本模型庫(kù),在后續(xù)進(jìn)行垃圾信息的判斷時(shí),通過(guò)將文本內(nèi)容在樣本模型庫(kù)中進(jìn)行垃圾概率的計(jì)算,從而大大提高了識(shí)別垃圾信息的準(zhǔn)確性。
圖4是根據(jù)一示例性實(shí)施例示出的對(duì)步驟s220進(jìn)一步的細(xì)節(jié)的描述。如圖3所示,樣本模型庫(kù)分為多個(gè)樣本模型類,該步驟s220可以包括以下步驟。
在步驟s221中,對(duì)內(nèi)容數(shù)據(jù)進(jìn)行語(yǔ)義還原。
可以理解的是,為避免發(fā)布的垃圾信息被篩查出,用戶進(jìn)行同音字/諧音字的拆分等操作后進(jìn)行用戶原創(chuàng)信息的發(fā)布。
因此,需在內(nèi)容數(shù)據(jù)進(jìn)行語(yǔ)義還原處理。
語(yǔ)義還原是根據(jù)語(yǔ)義對(duì)內(nèi)容數(shù)據(jù)進(jìn)行文本處理。例如,將一串中文數(shù)字先轉(zhuǎn)換為阿拉伯?dāng)?shù)字,進(jìn)而再轉(zhuǎn)換為qq、微信。
在一具體的示例性實(shí)施例中,內(nèi)容數(shù)據(jù)為:家我威信送你。通過(guò)諧音字/組合字的還原將“家我威信送你”轉(zhuǎn)換成“加我微信送你”。通過(guò)預(yù)置諧音字/組合字字典,對(duì)諧音字/組合字進(jìn)行還原處理,從而篩查出垃圾信息。
在一具體的示例性實(shí)施例中,內(nèi)容數(shù)據(jù)為:不會(huì)的vyuting1028103172好多教你喔。通過(guò)語(yǔ)義還原將通過(guò)qq、微信轉(zhuǎn)為同一個(gè)詞,即將vyuting1028103172進(jìn)行提取轉(zhuǎn)化成一個(gè)通用的維度,進(jìn)而得到的語(yǔ)義還原后的內(nèi)容數(shù)據(jù)為“不會(huì)的wechat好多教你”。由于垃圾信息中通常存在加微信、qq等情況,通過(guò)將各種微信、qq號(hào)統(tǒng)一處理成一個(gè)維度,避免得到的文本向量過(guò)大,同時(shí)也避免了一個(gè)微信、qq號(hào)未出現(xiàn)過(guò)而導(dǎo)致無(wú)法識(shí)別的情況。
在步驟s222中,對(duì)語(yǔ)義還原后的內(nèi)容數(shù)據(jù)進(jìn)行分詞操作,得到內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞。
可以理解的是,內(nèi)容數(shù)據(jù)可能為多個(gè)詞語(yǔ)組成,例如“加我微信送你”。
若在語(yǔ)義還原后直接對(duì)該內(nèi)容數(shù)據(jù)進(jìn)行特征提取,將大大影響文本之間的相似度,因而在進(jìn)行特征提取之前,通過(guò)預(yù)先對(duì)內(nèi)容數(shù)據(jù)進(jìn)行分詞操作,進(jìn)而對(duì)分詞操作后得到的文本分詞分別進(jìn)行文本向量的特征提取。
分詞操作是將指的是將一個(gè)文字序列切分成一個(gè)一個(gè)單獨(dú)的詞。
如前所述,內(nèi)容數(shù)據(jù)是按照數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)于數(shù)據(jù)庫(kù)中的文本信息。而文本信息可能為一個(gè)詞,也可能為多個(gè)詞,還可能為其他形式。
因此,通過(guò)對(duì)內(nèi)容數(shù)據(jù)進(jìn)行分詞操作,將內(nèi)容數(shù)據(jù)切分成一個(gè)一個(gè)單獨(dú)的文本分詞。
對(duì)內(nèi)容數(shù)據(jù)執(zhí)行分詞操作的方式有多種??梢曰谧址畬?nèi)容數(shù)據(jù)機(jī)械地切分為一個(gè)一個(gè)的文本分詞,得到該內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞;也可以對(duì)內(nèi)容數(shù)據(jù)進(jìn)行語(yǔ)義分析,進(jìn)而基于語(yǔ)義將內(nèi)容數(shù)據(jù)切分為一個(gè)一個(gè)的文本分詞,得到該內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞;還可以通過(guò)其他的方式對(duì)內(nèi)容數(shù)據(jù)執(zhí)行分詞操作,在此不作限定。
在步驟s223中,通過(guò)隨機(jī)森林算法對(duì)內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞分別進(jìn)行文本向量的特征提取。
利用如上所述的方法,制作樣本模型庫(kù)時(shí),在對(duì)內(nèi)容數(shù)據(jù)進(jìn)行文本向量的特征提取之前,預(yù)先對(duì)內(nèi)容數(shù)據(jù)進(jìn)行語(yǔ)義還原及分詞操作,從而使從內(nèi)容數(shù)據(jù)中進(jìn)行特征提取得到的文本向量更加準(zhǔn)確,提高了樣本模型庫(kù)的準(zhǔn)確度。
圖5是根據(jù)一示例性實(shí)施例示出的對(duì)步驟s130進(jìn)一步的細(xì)節(jié)的描述。如圖5所示,樣本模型庫(kù)分為多個(gè)樣本模型類,該步驟s130可以包括以下步驟。
在步驟s131中,根據(jù)用戶原創(chuàng)信息從樣本模型庫(kù)中選取相應(yīng)的一個(gè)樣本模型類。
樣本模型庫(kù)中,將樣本模型分成多個(gè)樣本模型類,每個(gè)樣本模型類包含預(yù)定數(shù)量的樣本模型。
在步驟s132中,通過(guò)梯度下降算法對(duì)用戶原創(chuàng)信息與樣本模型類進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
進(jìn)行匹配運(yùn)算時(shí),每次均是利用一個(gè)樣本模型類中的樣本模型進(jìn)行隨機(jī)梯度運(yùn)算。即:
x(t+1)=x(t)+δx(t)
δx(t)=-ηg(t)
其中,η為學(xué)習(xí)率,g(t)為x在t時(shí)刻的梯度。
通過(guò)對(duì)樣本模型庫(kù)進(jìn)行樣本模型類的分類,在樣本模型庫(kù)中的樣本模型較多時(shí),選取一個(gè)樣本模型類進(jìn)行匹配運(yùn)算,減小匹配運(yùn)算時(shí)資源的消耗,并且可以更快地收斂。
例如,若樣本模型庫(kù)中前一半樣本模型和后一半樣本模型的梯度相同,通過(guò)將前一半樣本模型作為一個(gè)樣本模型類,后一半樣本模型作為另一個(gè)樣本模型類,從而在一次樣本模型庫(kù)的遍歷匹配運(yùn)算時(shí),樣本模型類的方法向最優(yōu)解前進(jìn)兩個(gè)step,而整體的匹配預(yù)算方法只前進(jìn)一個(gè)step。
可選的,當(dāng)樣本模型庫(kù)中存在重復(fù)的樣本模型時(shí),通過(guò)樣本模型類的分類可以更快地促進(jìn)匹配運(yùn)算的收斂。
可先的,在每一次進(jìn)行匹配運(yùn)算后,將識(shí)別為垃圾信息的內(nèi)容數(shù)據(jù)作為樣本模型保存在樣本模型庫(kù)中。
利用如上所述的方法,通過(guò)將樣本模型庫(kù)中的樣本模型分為多個(gè)樣本模型類,進(jìn)而每次在一個(gè)樣本模型類中進(jìn)行隨機(jī)梯度的匹配運(yùn)算,大大減少運(yùn)算資源的消耗,并更快地達(dá)到收斂,提高了垃圾信息識(shí)別的效率。
下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行上述垃圾信息識(shí)別方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明垃圾信息識(shí)別方法實(shí)施例。
圖6是根據(jù)一示例性實(shí)施例示出的一種垃圾信息識(shí)別裝置框圖,該系統(tǒng)包括但不限于:文本內(nèi)容獲取模塊110、語(yǔ)義還原模塊120、匹配運(yùn)算模塊130及垃圾信息識(shí)別模塊140。
文本內(nèi)容提取模塊110,用于提取用戶原創(chuàng)信息的文本內(nèi)容;
語(yǔ)義還原模塊120,用于對(duì)文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本;
匹配運(yùn)算模塊130,用于通過(guò)梯度下降算法將還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率;
垃圾信息識(shí)別模塊140,用于通過(guò)對(duì)垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別用戶原創(chuàng)信息為垃圾信息。
上述裝置中各個(gè)模塊的功能和作用的實(shí)現(xiàn)過(guò)程具體詳見(jiàn)上述垃圾信息識(shí)別方法中對(duì)應(yīng)步驟的實(shí)現(xiàn)過(guò)程,在此不再贅述。
可選的,如圖7所示,圖6對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別裝置中,語(yǔ)義還原模塊120還包括但不限于:中文數(shù)字識(shí)別單元121及數(shù)字轉(zhuǎn)換單元122。
中文數(shù)字識(shí)別單元121,用于識(shí)別文本內(nèi)容中的中文數(shù)字;
數(shù)字轉(zhuǎn)換單元122,用于對(duì)中文數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字,得到文本內(nèi)容對(duì)應(yīng)的還原文本。
可選的,圖6對(duì)應(yīng)實(shí)施例示出的垃圾信息識(shí)別裝置中,語(yǔ)義還原模塊120還包括但不限于:諧音字/組合字還原單元。
諧音字/組合字還原單元,用于根據(jù)預(yù)置的諧音字/組合字字庫(kù)對(duì)文本內(nèi)容的語(yǔ)義還原,得到對(duì)應(yīng)的還原文本。
圖8是根據(jù)圖6對(duì)應(yīng)實(shí)施例示出的另一種垃圾信息識(shí)別裝置框圖,該裝置還包括但不限于:內(nèi)容數(shù)據(jù)提取模塊210、特征提取模塊220、數(shù)據(jù)類別確定模塊230及樣本模型庫(kù)生成模塊240。
內(nèi)容數(shù)據(jù)提取模塊210,用于從預(yù)定的數(shù)據(jù)庫(kù)中提取內(nèi)容數(shù)據(jù);
特征提取模塊220,用于通過(guò)隨機(jī)森林算法從內(nèi)容數(shù)據(jù)中進(jìn)行文本向量的特征提取;
數(shù)據(jù)類別確定模塊230,用于根據(jù)文本向量及相應(yīng)的權(quán)重向量,確定內(nèi)容數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)類別;
樣本模型庫(kù)生成模塊240,用于根據(jù)內(nèi)容數(shù)據(jù)及對(duì)應(yīng)的數(shù)據(jù)類別進(jìn)行規(guī)則引擎的配置,形成樣本模型庫(kù)。
可選的,如圖9所示,圖8中對(duì)應(yīng)實(shí)施例示出的特征提取模塊220包括但不限于:語(yǔ)義還原單元221、分詞單元222及分詞特征提取單元223。
語(yǔ)義還原單元221,用于對(duì)內(nèi)容數(shù)據(jù)進(jìn)行語(yǔ)義還原;
分詞單元222,用于對(duì)語(yǔ)義還原后的內(nèi)容數(shù)據(jù)進(jìn)行分詞操作,得到內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞;
分詞特征提取單元223,用于通過(guò)隨機(jī)森林算法對(duì)內(nèi)容數(shù)據(jù)對(duì)應(yīng)的文本分詞分別進(jìn)行文本向量的特征提取。
可選的,如圖10所示,樣本模型庫(kù)分為多個(gè)樣本模型類,圖6中對(duì)應(yīng)實(shí)施例示出的匹配運(yùn)算模塊130包括但不限于:樣本模型類選取單元131和匹配運(yùn)算單元132。
樣本模型類選取單元131,用于根據(jù)用戶原創(chuàng)信息從樣本模型庫(kù)中選取相應(yīng)的一個(gè)樣本模型類;
匹配運(yùn)算單元132,用于通過(guò)梯度下降算法對(duì)用戶原創(chuàng)信息與樣本模型類進(jìn)行匹配運(yùn)算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
圖11是根據(jù)一示例性實(shí)施例示出的一種系統(tǒng)100的框圖。參考圖11,系統(tǒng)100可以包括以下一個(gè)或者多個(gè)組件:處理組件101,存儲(chǔ)器102,電源組件103,多媒體組件104,音頻組件105,傳感器組件107以及通信組件108。其中,上述組件并不全是必須的,系統(tǒng)100可以根據(jù)自身功能需求增加其他組件或減少某些組件,本實(shí)施例不作限定。
處理組件101通??刂葡到y(tǒng)100的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作以及記錄操作相關(guān)聯(lián)的操作等。處理組件101可以包括一個(gè)或多個(gè)處理器109來(lái)執(zhí)行指令,以完成上述操作的全部或部分步驟。此外,處理組件101可以包括一個(gè)或多個(gè)模塊,便于處理組件101和其他組件之間的交互。例如,處理組件101可以包括多媒體模塊,以方便多媒體組件104和處理組件101之間的交互。
存儲(chǔ)器102被配置為存儲(chǔ)各種類型的數(shù)據(jù)以支持在系統(tǒng)100的操作。這些數(shù)據(jù)的示例包括用于在系統(tǒng)100上操作的任何應(yīng)用程序或方法的指令。存儲(chǔ)器102可以由任何類型的易失性或非易失性存儲(chǔ)設(shè)備或者它們的組合實(shí)現(xiàn),如sram(staticrandomaccessmemory,靜態(tài)隨機(jī)存取存儲(chǔ)器),eeprom(electricallyerasableprogrammableread-onlymemory,電可擦除可編程只讀存儲(chǔ)器),eprom(erasableprogrammablereadonlymemory,可擦除可編程只讀存儲(chǔ)器),prom(programmableread-onlymemory,可編程只讀存儲(chǔ)器),rom(read-onlymemory,只讀存儲(chǔ)器),磁存儲(chǔ)器,快閃存儲(chǔ)器,磁盤或光盤。存儲(chǔ)器102中還存儲(chǔ)有一個(gè)或多個(gè)模塊,該一個(gè)或多個(gè)模塊被配置成由該一個(gè)或多個(gè)處理器109執(zhí)行,以完成圖1、圖2、圖3、圖4和圖5任一所示方法中的全部或者部分步驟。
電源組件103為系統(tǒng)100的各種組件提供電力。電源組件103可以包括電源管理系統(tǒng),一個(gè)或多個(gè)電源,及其他與為系統(tǒng)100生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件104包括在所述系統(tǒng)100和用戶之間的提供一個(gè)輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括lcd(liquidcrystaldisplay,液晶顯示器)和tp(touchpanel,觸摸面板)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來(lái)自用戶的輸入信號(hào)。觸摸面板包括一個(gè)或多個(gè)觸摸傳感器以感測(cè)觸摸、滑動(dòng)和觸摸面板上的手勢(shì)。所述觸摸傳感器可以不僅感測(cè)觸摸或滑動(dòng)動(dòng)作的邊界,而且還檢測(cè)與所述觸摸或滑動(dòng)操作相關(guān)的持續(xù)時(shí)間和壓力。
音頻組件105被配置為輸出和/或輸入音頻信號(hào)。例如,音頻組件105包括一個(gè)麥克風(fēng),當(dāng)系統(tǒng)100處于操作模式,如呼叫模式、記錄模式和語(yǔ)音識(shí)別模式時(shí),麥克風(fēng)被配置為接收外部音頻信號(hào)。所接收的音頻信號(hào)可以被進(jìn)一步存儲(chǔ)在存儲(chǔ)器102或經(jīng)由通信組件108發(fā)送。在一些實(shí)施例中,音頻組件105還包括一個(gè)揚(yáng)聲器,用于輸出音頻信號(hào)。
傳感器組件107包括一個(gè)或多個(gè)傳感器,用于為系統(tǒng)100提供各個(gè)方面的狀態(tài)評(píng)估。例如,傳感器組件107可以檢測(cè)到系統(tǒng)100的打開(kāi)/關(guān)閉狀態(tài),組件的相對(duì)定位,傳感器組件107還可以檢測(cè)系統(tǒng)100或系統(tǒng)100一個(gè)組件的位置改變以及系統(tǒng)100的溫度變化。在一些實(shí)施例中,該傳感器組件107還可以包括磁傳感器,壓力傳感器或溫度傳感器。
通信組件108被配置為便于系統(tǒng)100和其他設(shè)備之間有線或無(wú)線方式的通信。系統(tǒng)100可以接入基于通信標(biāo)準(zhǔn)的無(wú)線網(wǎng)絡(luò),如wifi(wireless-fidelity,無(wú)線網(wǎng)絡(luò)),2g或3g,或它們的組合。在一個(gè)示例性實(shí)施例中,通信組件108經(jīng)由廣播信道接收來(lái)自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信組件108還包括nfc(nearfieldcommunication,近場(chǎng)通信)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于rfid(radiofrequencyidentification,射頻識(shí)別)技術(shù),irda(infrareddataassociation,紅外數(shù)據(jù)協(xié)會(huì))技術(shù),uwb(ultra-wideband,超寬帶)技術(shù),bt(bluetooth,藍(lán)牙)技術(shù)和其他技術(shù)來(lái)實(shí)現(xiàn)。
在示例性實(shí)施例中,系統(tǒng)100可以被一個(gè)或多個(gè)asic(applicationspecificintegratedcircuit,應(yīng)用專用集成電路)、dsp(digitalsignalprocessing,數(shù)字信號(hào)處理器)、pld(programmablelogicdevice,可編程邏輯器件)、fpga(field-programmablegatearray,現(xiàn)場(chǎng)可編程門陣列)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。
該實(shí)施例中的系統(tǒng)的處理器執(zhí)行操作的具體方式已經(jīng)在有關(guān)該數(shù)據(jù)傳輸?shù)目刂品椒ǖ膶?shí)施例中執(zhí)行了詳細(xì)描述,此處將不再做詳細(xì)闡述說(shuō)明。
可選的,本發(fā)明還提供一種系統(tǒng),執(zhí)行圖1、圖2、圖3、圖4和圖5任一所示的垃圾信息識(shí)別方法的全部或者部分步驟。所述系統(tǒng)包括:
處理器;
用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為執(zhí)行:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對(duì)所述文本內(nèi)容進(jìn)行語(yǔ)義還原,得到還原文本;
通過(guò)梯度下降算法將所述還原文本在預(yù)置的樣本模型庫(kù)中進(jìn)行匹配運(yùn)算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過(guò)對(duì)所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進(jìn)行比較,識(shí)別所述用戶原創(chuàng)信息為垃圾信息。
該實(shí)施例中的系統(tǒng)的處理器執(zhí)行操作的具體方式已經(jīng)在有關(guān)該垃圾信息識(shí)別方法的實(shí)施例中執(zhí)行了詳細(xì)描述,此處將不做詳細(xì)闡述說(shuō)明。
在示例性實(shí)施例中,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如可以為包括指令的臨時(shí)性和非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該存儲(chǔ)介質(zhì)例如包括指令的存儲(chǔ)器102,上述指令可由系統(tǒng)100的處理器109執(zhí)行以完成上述垃圾信息識(shí)別方法。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),本領(lǐng)域技術(shù)人員可以在不脫離其范圍執(zhí)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。