1.一種基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于,包括:通過(guò)基于漢字的編輯距離計(jì)算方法計(jì)算兩個(gè)字符串的漢字距離;通過(guò)基于拼音的編輯距離計(jì)算方法計(jì)算兩個(gè)相應(yīng)字符串的拼音字符串間的拼音距離;采用將漢字距離與拼音距離相結(jié)合的模式模糊匹配方法,來(lái)進(jìn)行負(fù)面信息檢測(cè),在模式匹配的過(guò)程中先計(jì)算推文中所有的詞語(yǔ)與Trigger(觸發(fā)詞)類(lèi)關(guān)鍵詞的距離Dist,當(dāng)存在Dist的值小于設(shè)定的編輯距離閾值時(shí)再與Entity(實(shí)體詞)類(lèi)關(guān)鍵詞進(jìn)行匹配。
2.如權(quán)利要求1所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于漢字的編輯距離計(jì)算過(guò)程中,只考慮Trigger表中的詞語(yǔ)與待匹配詞語(yǔ)之間的距離,目標(biāo)串按模式串長(zhǎng)度進(jìn)行連續(xù)字符串匹配,漢字的編輯距離Dist1計(jì)算公式為:
其中|tij∩xi|為目標(biāo)串與模式串集合的交集,實(shí)際意義為目標(biāo)串與模式串的最大匹配長(zhǎng)度,|tij|為模式串的長(zhǎng)度。
3.如權(quán)利要求1所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于拼音的編輯距離計(jì)算過(guò)程中,通過(guò)比較待匹配的詞語(yǔ)的拼音與Trigger表中的詞語(yǔ)的拼音,計(jì)算編輯距離,拼音的編輯距離Dist2計(jì)算公式為:
其中,|t′mk∩x′i|為模式串與目標(biāo)串集合的交集,實(shí)際意義為模式串和目標(biāo)串的最大匹配長(zhǎng)度,|t′mk∪x′i|為模式串與目標(biāo)串集合的并集,實(shí)際意義是模式串與目標(biāo)串中包含所有字符的最小長(zhǎng)度和,Dif(||x′i|-|t′mk||)為模式串與目標(biāo)串的字符長(zhǎng)度差,|β|為鍵盤(pán)中兩字母的距離。
4.如權(quán)利要求3所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:在標(biāo)準(zhǔn)的鍵盤(pán)手勢(shì)使用規(guī)則中,根據(jù)同一個(gè)手指負(fù)責(zé)的字母之間的距離更小的原則,將第二行和第三行的字母向左靠齊,同時(shí)對(duì)右邊的位置進(jìn)行填充處理,定義β的取值公式如下:
在考慮鍵盤(pán)距離的影響不會(huì)弱化其他距離的作用情況下,得到:
鍵盤(pán)中任意兩個(gè)字母之間的距離計(jì)算公式為:得到鍵盤(pán)中兩個(gè)字母的最大距離進(jìn)而得到:
5.如權(quán)利要求1-4任一所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于編輯距離的模式模糊匹配方法,在模式匹配的過(guò)程中先計(jì)算推文中所有的詞語(yǔ)與Trigger類(lèi)關(guān)鍵詞的距離Dist,Dist=αmin Dist1+(1-α)min Dist2,其中,Dist為最后漢字距離和拼音距離的加權(quán)和,min Dist1為漢字的最小編輯距離,min Dist2為拼音的最小編輯距離,α為加權(quán)系數(shù);當(dāng)存在Dist的值小于設(shè)定的編輯距離閾值時(shí)再與Entity類(lèi)關(guān)鍵詞進(jìn)行匹配,匹配到Entity后輸出結(jié)果即為負(fù)面信息。