亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法與流程

文檔序號:11950232閱讀:來源:國知局

技術特征:

1.一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述方法包括以下步驟:

S1、獲取語料,且采用分詞開源工具對語料進行分詞,過濾停用詞;

S2、根據(jù)過濾后的分詞結(jié)果,對滑動窗口范圍內(nèi)的詞項建立有向邊以及權(quán)重,根據(jù)有向邊以及權(quán)重生成有向有權(quán)圖;

S3、采用邊權(quán)重門限閥值對有向有權(quán)圖的邊進行過濾,且保留語料中同現(xiàn)頻率較高的詞項搭配;

S4、根據(jù)過濾后的有向有權(quán)圖,篩選有向有權(quán)圖中的孤立點以及自環(huán),生成有向有權(quán)圖的子圖;

S5、根據(jù)子圖中相鄰節(jié)點之間的邊權(quán)重以及節(jié)點強度,驗證該相鄰節(jié)點是否屬于新詞搭配;

S6、根據(jù)詞性標注規(guī)則對新詞搭配進行篩選,生成最終的新詞。

2.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S1中的停用詞包括語氣詞和標點符號。

3.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S1中的分詞結(jié)果,其表現(xiàn)形式為W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示詞項集合,T表示詞性集合。

4.根據(jù)權(quán)利要求3所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S2中的有向有權(quán)圖,其表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點vi集合,所述詞項搭配對應節(jié)點vi的標簽屬性,E表示有向邊集合,所述詞項搭配之間的同現(xiàn)關系組成所述有向邊集合。

5.根據(jù)權(quán)利要求4所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S2的具體方式為:

(5a)遍歷有向有權(quán)圖G=<V,E>,在集合V中查詢是否存在節(jié)點vi的標簽為Wi,如果存在節(jié)點vi的標簽為Wi,返回節(jié)點vi,否則在有向圖中創(chuàng)建節(jié)點vi,并標注其標簽為Wi,返回節(jié)點vi;

(5b)設置滑動窗口長度l,或默認長度l設為1,重復步驟(5a),依次查詢Wi+1、Wi+2、...、Wi+l是否存在于有向圖中,若存在,返回有向有權(quán)圖中對應的節(jié)點vi+1、vi+2、...、vi+l;

(5c)建立節(jié)點vi與節(jié)點vi+1、vi+2、...、vi+k、...、vi+l的有向邊,若節(jié)點vi與節(jié)點vi+k在有向有權(quán)圖中存在有向邊,則節(jié)點vi與節(jié)點vi+k的邊權(quán)重加1,否則,建立節(jié)點vi與節(jié)點vi+k的有向邊,權(quán)重為1。

6.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S4中的孤立點是指在有向有權(quán)圖中度數(shù)為零時的節(jié)點,若有向有權(quán)圖中存在某些邊的權(quán)重低于門限閥值,則這些邊在被過濾后產(chǎn)生孤立點。

7.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S4中的自環(huán)是指所述有向有權(quán)圖中一條邊的起始節(jié)點和終止節(jié)點是同一個節(jié)點,所述自環(huán)由所述語料中的疊詞產(chǎn)生。

8.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S5的具體過程為:

(8a)計算相鄰節(jié)點vi、節(jié)點vj的分布均值μ,計算方法如下:

μ=sisj/S2

式中,si為所述子圖中節(jié)點vi的強度,sj為所述子圖中節(jié)點vj的強度,S為所述子圖中的節(jié)點總強度;

(8b)計算節(jié)點vi和節(jié)點vj的樣本均值和樣本方差s2,計算方法如下:

<mrow> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>S</mi> </mrow>

<mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>=</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow>

其中,wij為子圖中節(jié)點vi和節(jié)點vj的邊權(quán)重;

(8c)做零假設H0,

(8d)計算t檢驗值,具體計算方法如下:

<mrow> <mi>t</mi> <mo>=</mo> <mrow> <mo>(</mo> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mo>/</mo> <msqrt> <mrow> <msup> <mi>s</mi> <mn>2</mn> </msup> <mo>/</mo> <mi>S</mi> </mrow> </msqrt> <mo>;</mo> </mrow>

(8e)檢驗零假設H0,具體檢驗過程如下:判斷t檢驗值的絕對值是否大于t分布α的臨界值,若大于,則接受零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性屬于新詞搭配;否則,則拒絕零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性不屬于新詞搭配。

9.根據(jù)權(quán)利要求8所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述α=0.005,所述臨界值設為2.576。

10.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S6中的詞性標注規(guī)則是指句法結(jié)構(gòu)中的詞性搭配規(guī)則,包括ANN、NN、ANN以及NPN,其中A表示形容詞,N表示名詞,P表示前置詞。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1