本發(fā)明涉及自然語言處理技術領域,特別涉及一種基于有向有權圖發(fā)現(xiàn)新詞的方法。
背景技術:
新詞發(fā)現(xiàn)作為自然語言處理領域的一項基礎研究,深受學術界乃至企業(yè)界的關注。隨著互聯(lián)網(wǎng)以及各種社交媒體的發(fā)展,涌現(xiàn)了大量的新詞,大量新詞的出現(xiàn)使得現(xiàn)有的分詞工具準確率下降,據(jù)統(tǒng)計,大約60%的分詞錯誤是由于新詞導致的。相比傳統(tǒng)媒體,互聯(lián)網(wǎng)媒體成為人們關注時事熱點,發(fā)表觀點的主要平臺,互聯(lián)網(wǎng)媒體(比如微博)傳播速度迅速,傳播群體廣泛,與之涌現(xiàn)的新詞也呈病毒傳染的態(tài)勢傳播,其中如“馬航”,“敬業(yè)?!?,“微信收費”等,反映了民眾的態(tài)度與看法。通過有效地發(fā)現(xiàn)新詞,及時把握熱點事件的關鍵詞,對于熱點事件發(fā)現(xiàn)以及熱點事件預警監(jiān)控具有重大的意義。
P2P借貸是新興的一個金融服務行業(yè),在美國,LeadingClub成立于2007年,目前已經(jīng)是世界第一大借貸平臺。P2P借貸行業(yè)作為新興的行業(yè),包含大量新詞,同時更新頻率快,其中如“羊毛黨”,“微眾銀行”,“e租寶”,“跑路”等,這些新詞反映了P2P借貸行業(yè)的發(fā)展,在該領域進行新詞發(fā)現(xiàn)具有一定的挑戰(zhàn)性。
在學術界,對于新詞還沒有一個明確的概念,在中文分詞領域,有新詞和未登錄詞兩種概念,未登錄詞就是當前詞庫中“未登錄”的詞,新詞屬于未登錄詞的一種。目前新詞發(fā)現(xiàn)的研究大體可以分為三種,其一是基于規(guī)則的方法,其二是基于統(tǒng)計的方法,其三是基于規(guī)則與統(tǒng)計相結合的方法?;谝?guī)則的方法準確率比較高,針對性強,但是維護規(guī)則的工作量比較大。基于統(tǒng)計的方法通過現(xiàn)有的分詞工具對語料進行分詞,根據(jù)分詞結果進行統(tǒng)計從而發(fā)現(xiàn)新詞,對語料的依賴性小,適應性比較強,然而準確率不高?;谝?guī)則與統(tǒng)計相結合的方法發(fā)揮了組合優(yōu)勢,目前大部分研究人員都采用規(guī)則與統(tǒng)計相結合的方法來發(fā)現(xiàn)新詞。
綜上,新詞的涌現(xiàn)一般與事件熱點的趨勢是相適應的,有效地發(fā)現(xiàn)新詞可以正確分析事件發(fā)展的脈絡,以及有效地把握事件輿情動態(tài),對于輿情預警監(jiān)控具有重大的意義。新詞發(fā)現(xiàn)一直是自然語言處理領域一項基礎研究,目前對于新詞發(fā)現(xiàn)已經(jīng)有大量的研究。本發(fā)明根據(jù)P2P借貸資訊的內(nèi)容,準確有效地發(fā)現(xiàn)新詞,有效地把握P2P行業(yè)的熱點,具有很好的可用性。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題在于,提供一種基于有向有權圖發(fā)現(xiàn)新詞的方法,使更加準確地發(fā)現(xiàn)語料中的新詞。
為解決上述技術問題,本發(fā)明提供如下技術方案:一種基于有向有權圖發(fā)現(xiàn)新詞的方法,包括以下步驟:
S1、獲取語料,且采用分詞開源工具對語料進行分詞,過濾停用詞;
S2、根據(jù)過濾后的分詞結果,對滑動窗口范圍內(nèi)的詞項建立有向邊以及權重,根據(jù)有向邊以及權重生成有向有權圖;
S3、采用邊權重門限閥值對有向有權圖的邊進行過濾,且保留語料中同現(xiàn)頻率較高的詞項搭配;
S4、根據(jù)過濾后的有向有權圖,篩選有向有權圖中的孤立點以及自環(huán),生成有向有權圖的子圖;
S5、根據(jù)子圖中相鄰節(jié)點之間的邊權重以及節(jié)點強度,驗證該相鄰節(jié)點是否屬于新詞搭配;
S6、根據(jù)詞性標注規(guī)則對新詞搭配進行篩選,生成最終的新詞。
進一步地,所述步驟S1中的停用詞包括語氣詞和標點符號。
進一步地,所述步驟S1中的分詞結果,其表現(xiàn)形式為W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示詞項集合,T表示詞性集合。
進一步地,所述步驟S2中的有向有權圖,其表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點vi集合,所述詞項搭配對應節(jié)點vi的標簽屬性,E表示有向邊集合,所述詞項搭配之間的同現(xiàn)關系組成所述有向邊集合。
進一步地,所述步驟S2的具體方式為:
(5a)遍歷有向有權圖G=<V,E>,在集合V中查詢是否存在節(jié)點vi的標簽為Wi,如果存在節(jié)點vi的標簽為Wi,返回節(jié)點vi,否則在有向圖中創(chuàng)建節(jié)點vi,并標注其標簽為Wi,返回節(jié)點vi;
(5b)設置滑動窗口長度l,或默認長度l設為1,重復步驟(5a),依次查詢Wi+1、Wi+2、...、Wi+l是否存在于有向圖中,若存在,返回有向有權圖中對應的節(jié)點vi+1、vi+2、...、vi+l;
(5c)建立節(jié)點vi與節(jié)點vi+1、vi+2、...、vi+k、...、vi+l的有向邊,若節(jié)點vi與節(jié)點vi+k在有向有權圖中存在有向邊,則節(jié)點vi與節(jié)點vi+k的邊權重加1,否則,建立節(jié)點vi與節(jié)點vi+k的有向邊,權重為1。
進一步地,所述步驟S4中的孤立點是指在有向有權圖中度數(shù)為零時的節(jié)點,若有向有權圖中存在某些邊的權重低于門限閥值,則這些邊在被過濾后產(chǎn)生孤立點。
進一步地,所述步驟S4中的自環(huán)是指所述有向有權圖中一條邊的起始節(jié)點和終止節(jié)點是同一個節(jié)點,所述自環(huán)由所述語料中的疊詞產(chǎn)生。
進一步地,所述步驟S5的具體過程為:
(8a)計算相鄰節(jié)點vi、節(jié)點vj的分布均值μ,計算方法如下:
μ=sisj/S2
式中,si為所述子圖中節(jié)點vi的強度,sj為所述子圖中節(jié)點vj的強度,S為所述子圖中的節(jié)點總強度;
(8b)計算節(jié)點vi和節(jié)點vj的樣本均值和樣本方差s2,計算方法如下:
其中,wij為子圖中節(jié)點vi和節(jié)點vj的邊權重;
(8c)做零假設H0,
(8d)計算t檢驗值,具體計算方法如下:
(8e)檢驗零假設H0,具體檢驗過程如下:判斷t檢驗值的絕對值是否大于t分布α的臨界值,若大于,則接受零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性屬于新詞搭配;否則,則拒絕零假設H0,即節(jié)點vi和節(jié)點vj對應的標簽屬性不屬于新詞搭配。
進一步地,所述α=0.005,所述臨界值設為2.576。
進一步地,所述步驟S6中的詞性標注規(guī)則是指句法結構中的詞性搭配規(guī)則,包括ANN、NN、ANN以及NPN,其中A表示形容詞,N表示名詞,P表示前置詞。
采用上述技術方案后,本發(fā)明至少具有如下有益效果:
1、本發(fā)明在開源工具分詞結果的基礎上,對停用詞進行過濾,降低了有向有權圖的耦合度,提高了新詞發(fā)現(xiàn)的準確性,同時提高了效率。
2、本發(fā)明設置滑動窗口長度,對固定滑動窗口范圍內(nèi)的詞項建立關聯(lián)關系,考慮了中文詞項搭配的特征。
3、本發(fā)明采用邊權重門限閥值對有向有權圖的邊進行過濾,降低了有向有權圖的耦合度,提高了效率,同時減少次要詞項搭配對新詞發(fā)現(xiàn)的噪聲影響,提高了新詞發(fā)現(xiàn)的準確性。
4、本發(fā)明根據(jù)子圖中相鄰節(jié)點之間的邊權重以及節(jié)點度數(shù),采用統(tǒng)計學的t分布來檢驗相鄰節(jié)點是否屬于新詞搭配,充分考慮有向有權圖的節(jié)點特征,提高了新詞發(fā)現(xiàn)的準確率。
5、本發(fā)明詞性標注規(guī)則對全部新詞搭配進行篩選,基于規(guī)則的方式進一步提高了新詞發(fā)現(xiàn)的準確率。
6、本發(fā)明能夠有效地,準確地發(fā)現(xiàn)P2P借貸行業(yè)的新詞,把握P2P借貸行業(yè)的口碑以及走勢,幫助民眾理性投資,具有很好的可用性。
附圖說明
圖1為本發(fā)明基于有向有權圖發(fā)現(xiàn)新詞的方法的流程圖。
圖2為依照本發(fā)明基于有向有權圖發(fā)現(xiàn)新詞的一個實例。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本申請作進一步詳細說明。
實施例
如圖1-圖2所示,圖1是本實施例一中公開的基于有向有權圖的發(fā)現(xiàn)新詞方法及各個相應步驟的流程圖,所述方法包括以下步驟:
S1、獲取語料,采用分詞開源工具對語料進行分詞,對分詞的結果進行停用詞過濾,如圖2所述,分詞結果包括“E”、“租寶”、“APPLE”、“PAY”、“螞蟻”“金服”等;
S2、根據(jù)分詞結果,對滑動窗口范圍內(nèi)的詞項建立有向邊以及權重,生成有向有權圖,“E”和“租寶”、“APPLE”和“PAY”以及“螞蟻”和“金服”各自生成帶有權重的有向邊;
S3、采用邊權重門限閥值對有向有權圖的邊進行過濾,保留語料中的同現(xiàn)頻率比較高的詞項搭配;
S4、篩選有向權重圖中的孤立點以及自環(huán),生成有向有權圖的子圖;
S5、根據(jù)子圖中相鄰節(jié)點之間的邊權重以及節(jié)點強度,驗證該相鄰節(jié)點是否屬于新詞搭配,通過假設檢驗,驗證“E”和“租寶”屬于新詞搭配,“APPLE”和“PAY”以及“螞蟻”和“金服”亦然;
S6、根據(jù)詞性標注規(guī)則對新詞搭配進行篩選,“E”和“租寶”“APPLE”和“PAY”以及“螞蟻”和“金服”符合詞性標注規(guī)則,生成最終的新詞E租寶、APPLEPAY以及螞蟻金服等。
其中,所述分詞結果,表現(xiàn)形式為W=(W1,W2,...Wi...,Wn),T=(T1,T2,...Ti...,Tn)其中W表示詞項集合,T表示詞性集合。
進一步地,所述停用詞是指在語料中應用非常廣泛然而沒有實際意義的詞項,比如語氣詞,標點符號等。
進一步地,所述有向有權圖,表現(xiàn)形式為G=<V,E>,其中V表示節(jié)點集合,語料分詞結果中的詞項對應節(jié)點的標簽屬性,其中E表示有向邊集合,詞項之間的同現(xiàn)關系組成有向邊集合。
進一步地,所述步驟S2根據(jù)分詞結果,對滑動窗口范圍內(nèi)的詞建立有向邊以及權重,生成有向有權圖的具體過程為:
(1)第一步遍歷有向有權圖G=<V,E>,在集合V中查詢是否存在節(jié)點的標簽為Wi,如果存在節(jié)點vi的標簽為Wi,返回節(jié)點vi,否則在有向圖中創(chuàng)建節(jié)點vi,并標注其標簽為Wi,返回節(jié)點vi;
(2)第二步設置滑動窗口長度l(默認長度為1),重復步驟(1),依次查詢Wi+1,Wi+2,...,Wi+l是否存在有向圖中,返回有向圖中對應的節(jié)點vi+1,vi+2,...,vi+l;
(3)第三步建立節(jié)點vi與節(jié)點vi+1,vi+2,...,vi+k,...,vi+l的有向邊,如果vi與vi+k在圖中存在有向邊,vi與vi+k的邊權重加1,否則建立vi與vi+k的有向邊,權重為1。
進一步地,所述孤立點是指在有向有權圖中度數(shù)為零的節(jié)點,某些節(jié)點對的邊權重低于門限閥值,這些邊被過濾后產(chǎn)生孤立點。
進一步地,所述自環(huán)是指有向圖中源節(jié)點以及目標節(jié)點屬于同一個節(jié)點,主要是語料中的疊詞會產(chǎn)生自環(huán)。
進一步地,所述步驟S5根據(jù)子圖中相鄰節(jié)點之間的邊權重以及節(jié)點強度,驗證該相鄰節(jié)點是否屬于新詞搭配的具體過程為:
(1)第一步是計算節(jié)點vi和vj的分布均值μ,計算方法如下:
μ=sisj/S2,其中si為子圖中節(jié)點vi的強度,sj為子圖中節(jié)點vj的強度,S為子圖中的總強度。
(2)第二步計算節(jié)點vi和vj的樣本均值和樣本方差s2,計算方法如下:
其中wij為子圖中節(jié)點vi和節(jié)點vj的邊權重。
(3)第二步是做零假設H0:
(4)第三步計算t檢驗值,具體計算方法如下:
(5)第四步是檢驗零假設H0,具體檢驗過程如下:
判斷t檢驗值的絕對值是否大于t分布α=0.005的臨界值(2.576),如果是,則接受零假設H0,即vi和vj對應的標簽屬性屬于新詞搭配,否則拒絕零假設H0,即vi和vj對應的標簽屬性不屬于新詞搭配。
進一步地,所述詞性標注規(guī)則是指句法結構中的詞性搭配規(guī)則,包括ANN,NN,ANN,NPN等,其中A表示形容詞,N表示名詞,P表示前置詞。
上述方法可以準確地發(fā)現(xiàn)語料中的新詞,具有很好的可用性。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領域的普通技術人員而言,可以理解的是,在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種等效的變化、修改、替換和變型,本發(fā)明的范圍由所附權利要求及其等同范圍限定。