亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于編輯距離的負(fù)面信息模式模糊匹配方法與流程

文檔序號(hào):11807902閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于,包括:通過(guò)基于漢字的編輯距離計(jì)算方法計(jì)算兩個(gè)字符串的漢字距離;通過(guò)基于拼音的編輯距離計(jì)算方法計(jì)算兩個(gè)相應(yīng)字符串的拼音字符串間的拼音距離;采用將漢字距離與拼音距離相結(jié)合的模式模糊匹配方法,來(lái)進(jìn)行負(fù)面信息檢測(cè),在模式匹配的過(guò)程中先計(jì)算推文中所有的詞語(yǔ)與Trigger(觸發(fā)詞)類(lèi)關(guān)鍵詞的距離Dist,當(dāng)存在Dist的值小于設(shè)定的編輯距離閾值時(shí)再與Entity(實(shí)體詞)類(lèi)關(guān)鍵詞進(jìn)行匹配。

2.如權(quán)利要求1所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于漢字的編輯距離計(jì)算過(guò)程中,只考慮Trigger表中的詞語(yǔ)與待匹配詞語(yǔ)之間的距離,目標(biāo)串按模式串長(zhǎng)度進(jìn)行連續(xù)字符串匹配,漢字的編輯距離Dist1計(jì)算公式為:

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>j</mi> </munder> <msub> <mi>Dist</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&cap;</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>

其中|tij∩xi|為目標(biāo)串與模式串集合的交集,實(shí)際意義為目標(biāo)串與模式串的最大匹配長(zhǎng)度,|tij|為模式串的長(zhǎng)度。

3.如權(quán)利要求1所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于拼音的編輯距離計(jì)算過(guò)程中,通過(guò)比較待匹配的詞語(yǔ)的拼音與Trigger表中的詞語(yǔ)的拼音,計(jì)算編輯距離,拼音的編輯距離Dist2計(jì)算公式為:

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>k</mi> </munder> <msub> <mi>Dist</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>,</mo> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>&cap;</mo> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>&cup;</mo> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> <mo>|</mo> <mo>+</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

其中,|t′mk∩x′i|為模式串與目標(biāo)串集合的交集,實(shí)際意義為模式串和目標(biāo)串的最大匹配長(zhǎng)度,|t′mk∪x′i|為模式串與目標(biāo)串集合的并集,實(shí)際意義是模式串與目標(biāo)串中包含所有字符的最小長(zhǎng)度和,Dif(||x′i|-|t′mk||)為模式串與目標(biāo)串的字符長(zhǎng)度差,|β|為鍵盤(pán)中兩字母的距離。

4.如權(quán)利要求3所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:在標(biāo)準(zhǔn)的鍵盤(pán)手勢(shì)使用規(guī)則中,根據(jù)同一個(gè)手指負(fù)責(zé)的字母之間的距離更小的原則,將第二行和第三行的字母向左靠齊,同時(shí)對(duì)右邊的位置進(jìn)行填充處理,定義β的取值公式如下:

<mrow> <mi>&beta;</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <mn>9</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>,</mo> <mn>8</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mi>u</mi> <mi>l</mi> <mi>l</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>2</mn> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <mrow> <mo>(</mo> <mn>2</mn> <mo>,</mo> <mn>6</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mi>u</mi> <mi>l</mi> <mi>l</mi> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mi>u</mi> <mi>l</mi> <mi>l</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

在考慮鍵盤(pán)距離的影響不會(huì)弱化其他距離的作用情況下,得到:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>D</mi> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mo>|</mo> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>-</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>&NotEqual;</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mfrac> <mrow> <mo>|</mo> <mi>&beta;</mi> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>&beta;</mi> <mrow> <msub> <mi>i</mi> <mn>1</mn> </msub> <msub> <mi>j</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>,</mo> <msub> <mi>&beta;</mi> <mrow> <msub> <mi>i</mi> <mn>2</mn> </msub> <msub> <mi>j</mi> <mn>2</mn> </msub> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mfrac> </mtd> <mtd> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>=</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

鍵盤(pán)中任意兩個(gè)字母之間的距離計(jì)算公式為:得到鍵盤(pán)中兩個(gè)字母的最大距離進(jìn)而得到:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>D</mi> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mo>|</mo> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>-</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>&NotEqual;</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mfrac> <mrow> <mo>|</mo> <mi>&beta;</mi> <mo>|</mo> </mrow> <mrow> <mn>11</mn> <mo>&times;</mo> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> </mfrac> </mtd> <mtd> <mrow> <mrow> <mo>|</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> <mo>=</mo> <mrow> <mo>|</mo> <msubsup> <mi>t</mi> <mrow> <mi>m</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>|</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

5.如權(quán)利要求1-4任一所述的基于編輯距離的負(fù)面信息模式模糊匹配方法,其特征在于:所述基于編輯距離的模式模糊匹配方法,在模式匹配的過(guò)程中先計(jì)算推文中所有的詞語(yǔ)與Trigger類(lèi)關(guān)鍵詞的距離Dist,Dist=αmin Dist1+(1-α)min Dist2,其中,Dist為最后漢字距離和拼音距離的加權(quán)和,min Dist1為漢字的最小編輯距離,min Dist2為拼音的最小編輯距離,α為加權(quán)系數(shù);當(dāng)存在Dist的值小于設(shè)定的編輯距離閾值時(shí)再與Entity類(lèi)關(guān)鍵詞進(jìn)行匹配,匹配到Entity后輸出結(jié)果即為負(fù)面信息。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1