1.一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述方法包括以下步驟:
S1、獲取語料,且采用分詞開源工具對語料進行分詞,過濾停用詞;
S2、根據(jù)過濾后的分詞結(jié)果,對滑動窗口范圍內(nèi)的詞項建立有向邊以及權(quán)重,根據(jù)有向邊以及權(quán)重生成有向有權(quán)圖;
S3、采用邊權(quán)重門限閥值對有向有權(quán)圖的邊進行過濾,且保留語料中同現(xiàn)頻率較高的詞項搭配;
S4、根據(jù)過濾后的有向有權(quán)圖,篩選有向有權(quán)圖中的孤立點以及自環(huán),生成有向有權(quán)圖的子圖;
S5、根據(jù)子圖中相鄰節(jié)點之間的邊權(quán)重以及節(jié)點強度,驗證該相鄰節(jié)點是否屬于新詞搭配;
S6、根據(jù)詞性標注規(guī)則對新詞搭配進行篩選,生成最終的新詞。
2.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S1中的停用詞包括語氣詞和標點符號。
3.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S1中的分詞結(jié)果,其表現(xiàn)形式為W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示詞項集合,T表示詞性集合。
4.根據(jù)權(quán)利要求3所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S2中的有向有權(quán)圖,其表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點vi集合,所述詞項搭配對應節(jié)點vi的標簽屬性,E表示有向邊集合,所述詞項搭配之間的同現(xiàn)關系組成所述有向邊集合。
5.根據(jù)權(quán)利要求4所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S2的具體方式為:
(5a)遍歷有向有權(quán)圖G=<V,E>,在集合V中查詢是否存在節(jié)點vi的標簽為Wi,如果存在節(jié)點vi的標簽為Wi,返回節(jié)點vi,否則在有向圖中創(chuàng)建節(jié)點vi,并標注其標簽為Wi,返回節(jié)點vi;
(5b)設置滑動窗口長度l,或默認長度l設為1,重復步驟(5a),依次查詢Wi+1、Wi+2、...、Wi+l是否存在于有向圖中,若存在,返回有向有權(quán)圖中對應的節(jié)點vi+1、vi+2、...、vi+l;
(5c)建立節(jié)點vi與節(jié)點vi+1、vi+2、...、vi+k、...、vi+l的有向邊,若節(jié)點vi與節(jié)點vi+k在有向有權(quán)圖中存在有向邊,則節(jié)點vi與節(jié)點vi+k的邊權(quán)重加1,否則,建立節(jié)點vi與節(jié)點vi+k的有向邊,權(quán)重為1。
6.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S4中的孤立點是指在有向有權(quán)圖中度數(shù)為零時的節(jié)點,若有向有權(quán)圖中存在某些邊的權(quán)重低于門限閥值,則這些邊在被過濾后產(chǎn)生孤立點。
7.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S4中的自環(huán)是指所述有向有權(quán)圖中一條邊的起始節(jié)點和終止節(jié)點是同一個節(jié)點,所述自環(huán)由所述語料中的疊詞產(chǎn)生。
8.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S5的具體過程為:
(8a)計算相鄰節(jié)點vi、節(jié)點vj的分布均值μ,計算方法如下:
μ=sisj/S2
式中,si為所述子圖中節(jié)點vi的強度,sj為所述子圖中節(jié)點vj的強度,S為所述子圖中的節(jié)點總強度;
(8b)計算節(jié)點vi和節(jié)點vj的樣本均值和樣本方差s2,計算方法如下:
其中,wij為子圖中節(jié)點vi和節(jié)點vj的邊權(quán)重;
(8c)做零假設H0,
(8d)計算t檢驗值,具體計算方法如下:
(8e)檢驗零假設H0,具體檢驗過程如下:判斷t檢驗值的絕對值是否大于t分布α的臨界值,若大于,則接受零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性屬于新詞搭配;否則,則拒絕零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性不屬于新詞搭配。
9.根據(jù)權(quán)利要求8所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述α=0.005,所述臨界值設為2.576。
10.根據(jù)權(quán)利要求1所述的基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,其特征在于,所述步驟S6中的詞性標注規(guī)則是指句法結(jié)構(gòu)中的詞性搭配規(guī)則,包括ANN、NN、ANN以及NPN,其中A表示形容詞,N表示名詞,P表示前置詞。