亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法與流程

文檔序號(hào):11950221閱讀:254來源:國(guó)知局
一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法與流程
本發(fā)明涉及一種新詞識(shí)別的免疫遺傳方法,尤其涉及一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法,屬于自然語(yǔ)言處理應(yīng)用
技術(shù)領(lǐng)域
。
背景技術(shù)
:隨著現(xiàn)代社會(huì)計(jì)算機(jī)網(wǎng)絡(luò)科技日新月異的發(fā)展以及網(wǎng)絡(luò)使用的普及,網(wǎng)絡(luò)走進(jìn)很多人的日常生活,而且這個(gè)數(shù)字還在以極快的速度發(fā)展。在這種特殊傳媒形式和交流方式下,產(chǎn)生了很多特殊的語(yǔ)言現(xiàn)象。其中,網(wǎng)絡(luò)新詞被越來越多的人所關(guān)注。所謂新詞,指的是新近創(chuàng)造的詞語(yǔ),這樣的詞語(yǔ)可能正在被融入日常使用中,但尚未被主流語(yǔ)言所接受。新詞通常會(huì)與特定人物、出版物、時(shí)期或事件有直接聯(lián)系。而網(wǎng)絡(luò)新詞即網(wǎng)絡(luò)上出現(xiàn)的新近創(chuàng)造的詞語(yǔ),一般為非正式語(yǔ)言,多為諧音、錯(cuò)別字等改成。有些是原來普通話中沒有,在網(wǎng)絡(luò)使用過程中新出現(xiàn)的詞;有的則是在使用過程中使原來已經(jīng)存在的詞有了新意。研究網(wǎng)絡(luò)新詞有助于我們了解網(wǎng)絡(luò)文化,倡導(dǎo)網(wǎng)絡(luò)文明。網(wǎng)絡(luò)新詞的研究在自然語(yǔ)言信息處理任務(wù)中有很大意義。例如,中文分詞,文本的情感分析等。為了提高自然語(yǔ)言信息處理任務(wù)結(jié)果的準(zhǔn)確性,適應(yīng)現(xiàn)代網(wǎng)絡(luò)的發(fā)展,對(duì)網(wǎng)絡(luò)新詞的研究分析刻不容緩。網(wǎng)絡(luò)新詞識(shí)別是網(wǎng)絡(luò)新詞研究的基礎(chǔ)。網(wǎng)絡(luò)新詞大多出現(xiàn)在一些論壇、博客、網(wǎng)絡(luò)小說和游戲中。從這些文本中識(shí)別出網(wǎng)絡(luò)新詞是一項(xiàng)艱巨的任務(wù)。對(duì)漢語(yǔ)網(wǎng)絡(luò)新詞的識(shí)別,現(xiàn)在國(guó)內(nèi)有很多研究,并且已經(jīng)達(dá)到了比較理想的效果,這些研究主要使用方法有兩種:基于統(tǒng)計(jì)的方法和基于規(guī)則的方法。基于統(tǒng)計(jì)的方法需要大量的語(yǔ)料作為支撐,也是一種比較簡(jiǎn)單有效的方法。這種方法通常統(tǒng)計(jì)詞頻、成詞率等信息,利用統(tǒng)計(jì)模型,例如N-Gram,條件隨機(jī)場(chǎng)(ConditionalRandomField,CRF),支持向量機(jī)(SupportVectorMachine,SVM)等等對(duì)網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。該方法實(shí)現(xiàn)原理簡(jiǎn)單,理解容易,并且效果也比較理想,但是該方法需要大量的語(yǔ)料,耗時(shí)比較長(zhǎng)。在期刊《計(jì)算機(jī)科學(xué)》2011年38卷第1期“一種基于免疫遺傳算法的網(wǎng)絡(luò)新詞識(shí)別算法”一文中主要利用基于統(tǒng)計(jì)的方法,在遺傳算法中有針對(duì)性的加入抗體,實(shí)驗(yàn)結(jié)果表明,此方法對(duì)于符合詞群現(xiàn)象的新詞識(shí)別準(zhǔn)確率較高;然而在免疫遺傳算法中,該方法使用各基因位獨(dú)立成詞的概率之和來衡量適應(yīng)度的大小,這種適應(yīng)度函數(shù)設(shè)計(jì)方法忽略了網(wǎng)絡(luò)新詞長(zhǎng)度、網(wǎng)絡(luò)文本中出現(xiàn)頻數(shù)等信息對(duì)適應(yīng)度值的影響,并且在該方法中適應(yīng)度值的計(jì)算語(yǔ)料與最終提取新詞的語(yǔ)料不同,以上因素均導(dǎo)致該方法對(duì)不符合詞群現(xiàn)象的新詞識(shí)別準(zhǔn)確率較低,整體召回率也較低?;谝?guī)則方法對(duì)網(wǎng)絡(luò)新詞進(jìn)行識(shí)別的主要思路是:著眼于新詞的構(gòu)詞原理,將其作為理論依據(jù)并建立一個(gè)有助于識(shí)別新詞的常用語(yǔ)料庫(kù);然后研究詞語(yǔ)的自身語(yǔ)言特性,建造一個(gè)以詞語(yǔ)的自然屬性為基礎(chǔ)的特殊構(gòu)詞規(guī)則庫(kù)?;谝?guī)則的方法對(duì)新詞的識(shí)別準(zhǔn)確率較高,但需要極強(qiáng)的語(yǔ)言素養(yǎng)與相關(guān)領(lǐng)域知識(shí)背景,而且對(duì)人工的依賴性較強(qiáng)。在期刊《計(jì)算機(jī)工程與科學(xué)》,2013年35卷第9期“網(wǎng)絡(luò)新詞識(shí)別算法研究”一文中利用基于規(guī)則的方法,通過檢測(cè)詞語(yǔ)頻度變化、共現(xiàn)詞語(yǔ)分布一致性、情感傾向性遷移三項(xiàng)指標(biāo)綜合判定網(wǎng)絡(luò)新詞出現(xiàn)的規(guī)律特點(diǎn),從而設(shè)計(jì)了一種網(wǎng)絡(luò)新詞識(shí)別算法,實(shí)驗(yàn)結(jié)果證明,該算法取得了較高的準(zhǔn)確率;然而,此文中規(guī)則設(shè)置過于細(xì)致,導(dǎo)致很多網(wǎng)絡(luò)新詞被過濾掉,即并不是所有的網(wǎng)絡(luò)新詞都符合文中所總結(jié)的規(guī)律,所以該算法在召回率指標(biāo)上并不理想,即該算法只能識(shí)別出來部分網(wǎng)絡(luò)新詞。上述已有的基于規(guī)則和基于統(tǒng)計(jì)的方法雖然在網(wǎng)絡(luò)新詞識(shí)別中取得了較高的正確率,但由于統(tǒng)計(jì)方法或規(guī)則總結(jié)不恰當(dāng)?shù)仍驅(qū)е伦罱K召回率都比較低。本發(fā)明的目的旨在克服網(wǎng)絡(luò)新詞識(shí)別召回率較低的技術(shù)問題,提出使用規(guī)則和統(tǒng)計(jì)相結(jié)合的免疫遺傳方法進(jìn)行網(wǎng)絡(luò)新詞的識(shí)別。該方法通過提取示范性抗體并設(shè)計(jì)優(yōu)化適應(yīng)度函數(shù),最終達(dá)到網(wǎng)絡(luò)新詞識(shí)別的目的。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)網(wǎng)絡(luò)新詞識(shí)別召回率較低的問題,提出一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法。本發(fā)明的核心思想是利用免疫遺傳算法優(yōu)化新詞識(shí)別性能,具體的,根據(jù)網(wǎng)絡(luò)新詞的特點(diǎn)以及先驗(yàn)知識(shí)、提取網(wǎng)絡(luò)新詞中的共同語(yǔ)素,并從新聞?wù)Z料中提取獨(dú)詞,將這兩部分作為免疫遺傳方法中的示范性抗體,設(shè)計(jì)一種基于成詞率的適應(yīng)度函數(shù),使用免疫遺傳方法得到候選詞集合,最后利用規(guī)則和新聞?wù)Z料對(duì)候選詞進(jìn)行處理得到新詞。本發(fā)明涉及的相關(guān)定義如下:定義1:共同語(yǔ)素,指從網(wǎng)絡(luò)新詞中提取的能體現(xiàn)網(wǎng)絡(luò)新詞特點(diǎn)的字;記共同語(yǔ)素的集合為U,主要包括“奴”、“客”、“門”、“鳥”、“爺”、“姐”、“哥”、“女”、“曬”、“被”、“吧”、“逼”、“比”、“娘”、“擼”、“萌”、“噠”、“粗”、“爆”、“炮”、“渣”、“友”、“紙”、“怒”、“帝”、“控”、“噠”、“怒”、“紙”、“熱”、“達(dá)人”、“男”、“亞”、“嫂”34個(gè);其中,“帝”字,在“技術(shù)帝”、“表情帝”以及“挽尊帝”為主的網(wǎng)絡(luò)新詞中經(jīng)常被使用,具有粘著性強(qiáng)的特點(diǎn);定義2:獨(dú)自成詞率,指某個(gè)字作為獨(dú)詞出現(xiàn)的概率;定義3:組合成詞率,指某個(gè)字串作為一個(gè)詞出現(xiàn)的概率;定義4:獨(dú)詞,指獨(dú)自成詞率大于一定閾值的字;記獨(dú)詞集合為T;定義5:群體,指經(jīng)過二進(jìn)制編碼的一定數(shù)量個(gè)體組成的集合;其中的個(gè)體定義為:經(jīng)過二進(jìn)制編碼得到的一串二進(jìn)制數(shù);定義6:條件隨機(jī)場(chǎng),指一種基于最大熵模型和隱馬爾科夫模型的判別式概率模型,其定義如下:設(shè)G=(V,E)是一個(gè)無向圖,V是無向圖G中頂點(diǎn)的集合,E是無向圖G中邊的集合,Y={Yv|v∈V}是以G中集合V為索引的隨機(jī)變量Yv構(gòu)成的集合,v是V的元素,V是節(jié)點(diǎn)的集合;在給定X的條件下,如果每個(gè)隨機(jī)變量Yv服從馬爾科夫?qū)傩裕磒(Yv|X,Yu,u≠v)=p(Yv|X,Yu,uv),則(X,Y)就構(gòu)成一個(gè)條件隨機(jī)場(chǎng),其中,v、u分別代表集合V中的兩個(gè)元素,Yv、Yu分別代表集合Y中的兩個(gè)元素,p(Yv|X,Yu,u≠v),p(Yv|X,Yu,uv)代表兩個(gè)條件概率;一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法,包括以下步驟:步驟一、初始化候選解集合為空,并對(duì)語(yǔ)料1利用條件隨機(jī)場(chǎng)進(jìn)行分詞,得到分詞碎片;其中,所述的分詞碎片是指利用條件隨機(jī)場(chǎng)進(jìn)行分詞所得結(jié)果中連續(xù)單字組成的字串;其中,所述的語(yǔ)料1主要包括微博語(yǔ)料、貼吧語(yǔ)料以及網(wǎng)絡(luò)評(píng)論語(yǔ)料;所述的條件隨機(jī)場(chǎng),其下載地址為:http://download.csdn.net/detail/linson3344/8039087,條件隨機(jī)場(chǎng)的使用方法為如下網(wǎng)址所述:http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954;步驟二、提取示范性抗體,具體包括提取共同語(yǔ)素和提取獨(dú)詞;其中,示范性抗體,指的是用于估計(jì)最佳個(gè)體某些基因位上值的先驗(yàn)知識(shí),包括共同語(yǔ)素和獨(dú)詞;其中,提取共同語(yǔ)素所得集合為定義1中集合U;其中,提取獨(dú)詞,獨(dú)詞定義見定義4,具體為:步驟2.1初始化獨(dú)詞集合T為空,并對(duì)語(yǔ)料2中的每個(gè)字使用條件隨機(jī)場(chǎng)進(jìn)行詞位信息標(biāo)注;其中,所述的語(yǔ)料2是新聞?wù)Z料;其中,語(yǔ)料2中第i個(gè)不同的字,記為wi,下標(biāo)i的取值為1到語(yǔ)料2中不同的字的總數(shù),記為NumW;其中,詞位信息指詞的位置信息,具體到字wi的詞位信息,是S(單獨(dú)成詞)、B(詞首)、M(詞中)以及E(詞尾),wi的各個(gè)詞位信息出現(xiàn)的次數(shù)記為:fWi(S)、fWi(B)、fWi(M)和fWi(E);步驟2.2統(tǒng)計(jì)步驟2.1中字wi的詞位信息的總出現(xiàn)次數(shù);其中,記步驟2.1中字wi的詞位信息的總出現(xiàn)次數(shù)為fWi(All),其計(jì)算公式為公式(1):fWi(All)=fWi(S)+fWi(B)+fWi(M)+fWi(E)(1);步驟2.3計(jì)算步驟2.2中字的獨(dú)自成詞率,具體通過公式(2)來計(jì)算;p(Wi)=fWi(S)/fWi(All)(2);其中,獨(dú)自成詞率記為p(Wi),其含義為字wi的獨(dú)自成詞率,其定義見定義2;步驟2.4設(shè)定閾值,并判斷步驟2.3計(jì)算出來的獨(dú)自成詞率是否超過閾值,并做相應(yīng)操作:其中,所述的閾值,記為δ;δ的范圍為大于0.8,小于等于1;2.41若超出閾值δ,則將字wi加入獨(dú)詞集合T中,跳至步驟2.5;2.42若未超出閾值δ,跳至步驟2.5;步驟2.5判斷i是否等于NumW,并進(jìn)行相應(yīng)操作:2.51若i不等于NumW,則i=i+1,跳至步驟2.2;2.52若i等于NumW,則跳至步驟三;步驟三、利用免疫遺傳方法構(gòu)建候選詞集合;其中,候選詞是指通過免疫遺傳算法識(shí)別出的同時(shí)作為網(wǎng)絡(luò)新詞候選的字串,候選詞的集合稱為候選詞集合;其構(gòu)建過程具體為:步驟3.1設(shè)定最大迭代次數(shù),初始化迭代次數(shù)為1,并對(duì)步驟一中得到的分詞碎片進(jìn)行二進(jìn)制編碼,獲得包含r個(gè)個(gè)體的群體;其中,群體及個(gè)體的定義見定義5,記步驟3.1中的分詞碎片為第j個(gè)分詞碎片Slicej;其中,二進(jìn)制編碼用二進(jìn)制數(shù)0和1進(jìn)行編碼,具體為:隨機(jī)產(chǎn)生r個(gè)長(zhǎng)度為L(zhǎng)j的二進(jìn)制字串;其中,第k個(gè)二進(jìn)制字串記為wk=(wk1,wk2,…,wkLj),wkl∈{0,1},l=1,2,…,Lj;Lj表示分詞碎片Slicej的長(zhǎng)度;二進(jìn)制字串wk表示編碼后的第k個(gè)個(gè)體;即通過步驟3.1的二進(jìn)制編碼,我們得到了r個(gè)長(zhǎng)度為L(zhǎng)j的二進(jìn)制字串,每個(gè)二進(jìn)制字串代表一個(gè)編碼后的個(gè)體;步驟3.2對(duì)步驟3.1中得到的群體以交叉概率進(jìn)行交叉,具體為:其中,交叉概率,記為p1;步驟3.2.1將群體中的所有個(gè)體兩兩分組;其中,所述的兩兩分組是指對(duì)r個(gè)個(gè)體,按順序每?jī)蓚€(gè)進(jìn)行分組;若r為偶數(shù),r個(gè)個(gè)體被分為r/2組;若r為奇數(shù),最后一個(gè)個(gè)體單獨(dú)成組,即:r個(gè)個(gè)體被分為組,其中,表示對(duì)r/2向上取整;步驟3.2.2為步驟3.2.1輸出的分組產(chǎn)生隨機(jī)數(shù);其中,當(dāng)前分組為第g個(gè)分組,其對(duì)應(yīng)的隨機(jī)數(shù),記Randomg,下標(biāo)g的范圍是1到步驟3.2.3判斷步驟3.2.2產(chǎn)生的隨機(jī)數(shù)是否大于交叉概率,并做如下相應(yīng)操作;3.2.3A若Randomg>p1,產(chǎn)生隨機(jī)交叉位置,交換分組g兩個(gè)個(gè)體交叉位置之后的基因,得到兩個(gè)新個(gè)體;其中,所述的隨機(jī)交叉位置,具體為一個(gè)隨機(jī)整數(shù),其范圍為1到當(dāng)前所處理的分詞碎片Slicej的長(zhǎng)度Lj;3.2.3B若Randomg≤p1,則將第g個(gè)分組內(nèi)的兩個(gè)個(gè)體不做變化,判斷g與關(guān)系,并進(jìn)行相應(yīng)操作:3.2.3BA若則將g加1,跳至步驟3.2.2;3.2.3BB若則至此步驟3.2得到的變化后的g個(gè)分組內(nèi)的所有個(gè)體,記為交叉后群體,跳至步驟3.3;步驟3.3對(duì)步驟3.2中得到的交叉后群體以變異概率進(jìn)行變異,具體為:其中,所述的變異概率,記為p2;步驟3.3.1針對(duì)交叉后群體中的第q個(gè)個(gè)體,隨機(jī)產(chǎn)生一個(gè)0到1之間的隨機(jī)數(shù);其中,q的范圍是1到r,記第q個(gè)個(gè)體對(duì)應(yīng)的隨機(jī)數(shù)記為Randomq;步驟3.3.2判斷步驟3.3.1產(chǎn)生的隨機(jī)數(shù)是否大于變異概率,并做如下相應(yīng)操作:3.3.2A若Randomq>p2,產(chǎn)生范圍為1到當(dāng)前所處理的分詞碎片Slicej長(zhǎng)度Lj的隨機(jī)數(shù)作為變異位置,并將當(dāng)前第q個(gè)的此變異位置處的基因改變,形成第q個(gè)新個(gè)體,具體為:3.3.2AA當(dāng)?shù)趒個(gè)體的變異位置的基因?yàn)?,則將其變?yōu)?;3.3.2AB當(dāng)?shù)趒個(gè)體的變異位置的基因?yàn)?,則將其變?yōu)?;3.3.2B若Randomq≤p2,則將第q個(gè)體不做變化,并判斷q與r的關(guān)系,并進(jìn)行相應(yīng)操作:3.3.2BA若q<r,則將q=q+1,跳至步驟3.3.1;3.3.2BB若q=r,則至此步驟3.3到了變化后的r個(gè)新個(gè)體,記為變異后群體,跳至步驟3.4;步驟3.4采用適應(yīng)度函數(shù)計(jì)算步驟3.3得到的變異后群體中每個(gè)新個(gè)體的適應(yīng)度值;其中,所述的適應(yīng)度函數(shù)為如下公式(3):p(h)=Σi=1num0αβp(X0i)+Σj=1num1αp(X1j)+Σk=1nums(1+sk.lengthχ)p(sk)sk.length<5Σi=1num0αβp(X0i)+Σj=1num1αp(X1j)+Σk=1numsp(sk)sk.length≥5---(3);]]>其中,p(h)代表第h個(gè)新個(gè)體的適應(yīng)度值,h的范圍是1到r;p(X0i)表示第h個(gè)新個(gè)體中第i個(gè)獨(dú)0出現(xiàn)位置對(duì)應(yīng)字的獨(dú)自成詞率,其中,獨(dú)0出現(xiàn)位置表示0單獨(dú)出現(xiàn)的位置;num0表示第h個(gè)新個(gè)體中,獨(dú)0的個(gè)數(shù);p(X1j)表示第h個(gè)新個(gè)體中第j個(gè)1出現(xiàn)位置對(duì)應(yīng)字的獨(dú)自成詞率;num1表示第h個(gè)新個(gè)體中1的個(gè)數(shù);其中,sk表示第h個(gè)新個(gè)體中第k個(gè)連續(xù)0出現(xiàn)位置對(duì)應(yīng)的字串;nums表示第h個(gè)新個(gè)體中出現(xiàn)連續(xù)0二進(jìn)制字串的個(gè)數(shù);p(sk)表示字串sk的組合成詞率,其定義見定義3;其中,二進(jìn)制字串中連續(xù)0的個(gè)數(shù)范圍是2到步驟一中輸出分詞碎片的長(zhǎng)度;∑表示求和;α為調(diào)節(jié)系數(shù);β為懲罰因子,表示對(duì)基因中存在獨(dú)0的個(gè)體進(jìn)行懲罰;χ代表字串長(zhǎng)度加權(quán)因子,sk.length代表字串sk的長(zhǎng)度;其中,獨(dú)自成詞率通過公式(2)計(jì)算,具體通過步驟2.1到步驟2.3計(jì)算;組合成詞率通過公式(4)計(jì)算:p(sk)=f(sk)/Σi=1nf(Wsxi)---(4);]]>組合成詞率,記為p(sk),字串sk表示為sk=Wsx1Wsx2…Wsxn,f(Wsxi)表示語(yǔ)料1中字Wsxi出現(xiàn)的次數(shù),其中i取值[1,n],即1≤i≤n;f(sk)表示字串sk在語(yǔ)料1中出現(xiàn)的次數(shù);步驟3.5對(duì)步驟3.4計(jì)算的適應(yīng)度值進(jìn)行從小到大排序,并為從小至大的部分個(gè)體注射示范性抗體;所述的部分個(gè)體其數(shù)量為N%*r,N的范圍為1到100;其中,注射示范性抗體,具體步驟為:步驟3.5.1初始化獨(dú)詞出現(xiàn)位置集合和共同語(yǔ)素出現(xiàn)位置集合為空;其中,獨(dú)詞出現(xiàn)位置集合記為Position1,共同語(yǔ)素出現(xiàn)位置集合記為Position2;步驟3.5.2找到分詞碎片Slicej中獨(dú)詞出現(xiàn)的位置加入集合Position1中;找到分詞碎片Slicej中共同語(yǔ)素出現(xiàn)的位置加入集合Position2中;步驟3.5.3把需要注射示范性抗體的個(gè)體中,Position1中所有元素對(duì)應(yīng)位置的基因變?yōu)?,得到新個(gè)體;其中,記需要注射示范性抗體的個(gè)體為Ci,其中i的范圍為1到N%*r;步驟3.5.4把步驟3.5.3輸出的新個(gè)體中,Position2中所有元素對(duì)應(yīng)位置的基因變?yōu)?,得到注射完示范性抗體后的個(gè)體;步驟3.5.5判斷i與N%*r的大小關(guān)系,并進(jìn)行相應(yīng)操作:3.5.5A若i<N%*r,則將i加1,轉(zhuǎn)步驟3.5.3;3.5.5B若i=N%*r,則轉(zhuǎn)步驟3.6;至此,從步驟3.5.1到步驟3.5.5,得到了部分個(gè)體注射完示范性抗體后的新個(gè)體,這些新個(gè)體與未注射示范性抗體的部分個(gè)體,組成注射示范性抗體后的群體,記為注射后群體;步驟3.6計(jì)算步驟3.5輸出的注射后群體中每個(gè)個(gè)體的適應(yīng)度值,將適應(yīng)度值最大的個(gè)體加入候選解集合中;其中,候選解集合,即注射后群體中適應(yīng)度值最大的個(gè)體組成的集合,記為set;適應(yīng)度值的計(jì)算通過公式(3);步驟3.7使用輪盤賭方法對(duì)步驟3.5輸出的注射后群體中個(gè)體進(jìn)行選擇,產(chǎn)生新一代群體;其中,輪盤賭選擇方法又稱為適應(yīng)度比例選擇法,具體為:步驟3.7.1計(jì)算注射后群體中的個(gè)體適應(yīng)度值占總適應(yīng)度值的百分比,具體為:通過公式(5),利用步驟3.6計(jì)算出的注射后群體中每個(gè)個(gè)體適應(yīng)度值的計(jì)算結(jié)果,計(jì)算注射后群體中的個(gè)體適應(yīng)度值占總適應(yīng)度值的百分比;per(ct)=p(ct)/Σi=1rp(ci)---(5);]]>其中,注射后群體中的個(gè)體,記為ct,per(ct)代表ct適應(yīng)度值占總適應(yīng)度值的百分比;p(ct)代表個(gè)體ct的適應(yīng)度值;p(ci)表示個(gè)體ci的適應(yīng)度值;步驟3.7.2產(chǎn)生0到1之間的隨機(jī)數(shù),根據(jù)隨機(jī)數(shù)的值,確定對(duì)應(yīng)個(gè)體,并將此對(duì)應(yīng)個(gè)體作為新一代群體中的一個(gè)個(gè)體,具體為:步驟3.7.2A計(jì)算其中1≤j≤r;其中,代表對(duì)從i從1開始,到j(luò)的per(ci)取和;步驟3.7.2B產(chǎn)生0到1之間的隨機(jī)數(shù),記為Randomt,其中t的范圍為1到r;步驟3.7.2C判斷Randomt是否在范圍[Rangej,Rangej+1)內(nèi),即判斷Rangej≤Randomt<Rangej+1;3.7.2CA若是,則將Rangej對(duì)應(yīng)個(gè)體cj留到下一代,此對(duì)應(yīng)個(gè)體,為選擇后群體中的一個(gè)個(gè)體;3.7.2CB若否,則將j加1,轉(zhuǎn)步驟3.7.2C;步驟3.7.2D判斷t與r的大小關(guān)系,并進(jìn)行相應(yīng)操作:3.7.2DA若t<r,則將t加1,轉(zhuǎn)步驟3.7.2B;3.7.2DB若t=r,則得到了新一代群體,轉(zhuǎn)步驟3.8;步驟3.8判斷是否達(dá)到最大迭代次數(shù),并進(jìn)行相應(yīng)操作:3.8.1若否,則將迭代次數(shù)加1,轉(zhuǎn)步驟3.2;3.8.2若是,遍歷候選解集合求出適應(yīng)度值最大個(gè)體,即最優(yōu)解,具體通過公式(6)進(jìn)行優(yōu)化:Cbest=argmaxset(p(c))---(6);]]>其中,p(c)表示候選解集合中個(gè)體c的適應(yīng)度值,表示遍歷候選解集合set中所有個(gè)體,求出適應(yīng)度值最大個(gè)體Cbest;將步驟3.8.2得到的最優(yōu)個(gè)體中連續(xù)0出現(xiàn)位置對(duì)應(yīng)字串加入候選詞集合中;步驟四、對(duì)候選詞集合進(jìn)行去重處理,并將在語(yǔ)料2中出現(xiàn)的字串去掉,具體處理過程如步驟4.1及步驟4.2:步驟4.1對(duì)步驟三得到的候選詞集合進(jìn)行去重處理,將候選詞集合中重復(fù)的字串去掉;步驟4.2對(duì)步驟4.1得到的候選詞集合用語(yǔ)料2進(jìn)行處理,即將候選詞集合中出現(xiàn)在語(yǔ)料2中的字串去掉;至此,從步驟一到步驟四,完成了一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法。有益效果本發(fā)明一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法,對(duì)比現(xiàn)有技術(shù),具有如下有益效果:1.本方法針對(duì)網(wǎng)絡(luò)新詞的形成特點(diǎn),提取共同語(yǔ)素和獨(dú)詞作為示范性抗體,能有效提高網(wǎng)絡(luò)新詞識(shí)別的準(zhǔn)確率,降低算法的時(shí)間復(fù)雜度;2.本方法設(shè)計(jì)優(yōu)化適應(yīng)度函數(shù),充分考慮網(wǎng)絡(luò)新詞長(zhǎng)度、單字和字串所占比例等因素,并將字串的頻數(shù)信息加入適應(yīng)度函數(shù)的設(shè)計(jì)中,從而提高了網(wǎng)絡(luò)新詞識(shí)別的召回率和F值。附圖說明圖1為本發(fā)明一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法及實(shí)施例中的算法流程示意圖;圖2為本發(fā)明一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法實(shí)施例中本方法與現(xiàn)有的基于免疫遺傳算法的網(wǎng)絡(luò)新詞識(shí)別方法進(jìn)行對(duì)比實(shí)驗(yàn),所得的結(jié)果圖。具體實(shí)施方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明方法做進(jìn)一步詳細(xì)說明。實(shí)施例1圖1為本發(fā)明一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法及本實(shí)施例的流程圖。從圖1中可以看出,本發(fā)明包括如下步驟:步驟A:算法初始化;具體包括初始化最大迭代次數(shù)、交叉概率、變異概率、群體規(guī)模、調(diào)節(jié)系數(shù)、懲罰因子、長(zhǎng)度加權(quán)因子;具體到本實(shí)施例中,最大迭代次數(shù)為3,交叉概率p1為0.6,變異概率p2為0.01,群體規(guī)模r為10,調(diào)節(jié)系數(shù)α為0.1,懲罰因子β為0.2,長(zhǎng)度加權(quán)因子χ為20;步驟B:編碼;具體到實(shí)施例,采用二進(jìn)制編碼對(duì)分詞碎片進(jìn)行編碼,得到一個(gè)包含10個(gè)個(gè)體的群體,即:本實(shí)施例的群體規(guī)模為10;步驟B的編碼過程與步驟3.1相同;步驟C:交叉、變異;具體與步驟3.2和步驟3.3相同;步驟D:注射示范性抗體;具體到實(shí)施例,首先根據(jù)公式(3)計(jì)算群體中每個(gè)個(gè)體的適應(yīng)度值,然后按適應(yīng)度值對(duì)個(gè)體從小到大進(jìn)行排序,對(duì)從小到大的30%的個(gè)體進(jìn)行示范性抗體注射,具體與步驟3.4和步驟3.5相同,其中步驟3.5中的N為30;步驟E:計(jì)算每個(gè)個(gè)體適應(yīng)度,找到群體中的最優(yōu)個(gè)體,加入候選解集合中;具體與步驟3.6相同;步驟F:選擇;具體與步驟3.7相同;步驟G:判斷是否達(dá)到最大迭代次數(shù);具體與步驟3.8相同;步驟H:找到候選解集合中的最優(yōu)個(gè)體作為最終解;具體與步驟3.8.2相同;至此,步驟A到步驟H完成了一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法。實(shí)施例2本實(shí)施例將以分詞碎片“我是屌絲好么”為例對(duì)本發(fā)明所述的一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法的具體操作步驟進(jìn)行詳細(xì)說明。一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法的處理流程如圖1所示。從圖1可以看出,一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法,包括以下步驟:步驟A1、算法初始化;本實(shí)施例中參數(shù)設(shè)定與實(shí)施例1中的參數(shù)設(shè)定相同,上述參數(shù)僅作為實(shí)施例中使用的值;步驟B1、編碼;具體到本實(shí)施例,步驟B1中的編碼采用二進(jìn)制編碼,初始編碼是隨機(jī)產(chǎn)生的,如“我是屌絲好么”編碼結(jié)果如表1:表1實(shí)施例2步驟B1編碼結(jié)果編碼001100110010011001110100111101101000001010010010110011000100從表1可以看出,初始群體共包括10個(gè)個(gè)體,每個(gè)個(gè)體由一個(gè)二進(jìn)制編碼表示,每個(gè)個(gè)體中的每個(gè)基因位對(duì)應(yīng)分詞碎片“我是屌絲好么”中的一個(gè)字,例如第一個(gè)個(gè)體“001100”與分詞碎片“我是屌絲好么”的對(duì)應(yīng)關(guān)系如表2:表2實(shí)施例2步驟B1個(gè)體編碼與分詞碎片的對(duì)應(yīng)關(guān)系步驟C1、交叉和變異;對(duì)步驟B1中得到的編碼結(jié)果進(jìn)行交叉和變異過程,具體到實(shí)施例“我是屌絲好么”,交叉和變異后的編碼如表3:表3步驟C1中交叉和變異后的結(jié)果步驟D1、計(jì)算群體中個(gè)體的適應(yīng)度值,結(jié)果如表4:表4實(shí)施例2步驟D1個(gè)體適應(yīng)度值計(jì)算結(jié)果個(gè)體編碼適應(yīng)度值1011010.006024976195562910001000.0060436350645624860011000.0087349964822518930010100.0092029766891348430101000.015902907295573181110010.0221315107424024451110000.0274691046992155550100100.046943354164108671100100.056637047857802371100110.05679758297485923步驟E1、對(duì)適應(yīng)度值靠后的30%的個(gè)體注射示范性抗體。從表4中可以看出,計(jì)算完適應(yīng)度后,前三個(gè)個(gè)體的適應(yīng)度值最小,所以對(duì)前三個(gè)個(gè)體進(jìn)行示范性抗體的注射。例子“我是屌絲好么”其中示范性抗體包括獨(dú)詞“我”,“是”,“么”三個(gè),所以將對(duì)應(yīng)基因位的編碼改為1,注射完示范性抗體的結(jié)果如表5:表5實(shí)施例2步驟E1注射完示范性抗體后的編碼111101110101111101001010010100111001111000010010110010110011步驟F1、注射完示范性抗體,在此計(jì)算群體中所有個(gè)體的適應(yīng)度值,將其中適應(yīng)度值最大的個(gè)體加入候選解集合中,適應(yīng)度值計(jì)算結(jié)果如表6:表6實(shí)施例2步驟F1適應(yīng)度值計(jì)算結(jié)果個(gè)體編碼適應(yīng)度值0010100.0092029766891348430101000.015902907295573181111010.019921140293372621101010.019921140293372621111010.019921140293372621110010.0221315107424024451110000.0274691046992155550100100.046943354164108671100100.056637047857802371100110.05679758297485923從表6可以看出編碼“110011”的適應(yīng)度值最大,所以將其加入候選解集合set中;步驟G1、利用輪盤賭方法對(duì)群體進(jìn)行選擇,其結(jié)果如表7:表7實(shí)施例2步驟G1選擇后結(jié)果010010111001110010110011110101110010110011111000010010001010至此,從步驟A1到步驟G1完成了使用本發(fā)明所提的一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法中一次迭代的操作過程;接下來,將表7中選擇后結(jié)果作為步驟C1的輸入,經(jīng)過步驟C1到步驟G1,第2次迭代操作過程的結(jié)果如表8和表9所示:表8實(shí)施例2第2次迭代示范性抗體注射后適應(yīng)度值計(jì)算結(jié)果個(gè)體編碼適應(yīng)度值1101010.019921140293372621110010.0221315107424024451110010.0221315107424024451110110.0233100963413808840100100.046943354164108671100100.056637047857802371100100.056637047857802371100100.056637047857802371100110.056797582974859231100110.05679758297485923表9實(shí)施例2第2次迭代選擇后結(jié)果110011111011111011110010110010110011110010110010110010111001通過表8可以看出,在第2次迭代過程中的個(gè)體“110011”被加入候選解集合set中;此時(shí),迭代次數(shù)未達(dá)到最大迭代次數(shù)3,將表9中選擇后結(jié)果作為步驟C1的輸入進(jìn)行第3次迭代操作;經(jīng)過步驟C1到步驟G1,第3次迭代過程的結(jié)果如下表10和表11所示:表10實(shí)施例2第3次迭代示范性抗體注射后適應(yīng)度值計(jì)算結(jié)果個(gè)體編碼適應(yīng)度值1110010.0221315107424024451110110.0233100963413808841110110.0233100963413808841100100.056637047857802371100100.056637047857802371100100.056637047857802371100100.056637047857802371100100.056637047857802371100110.056797582974859231100110.05679758297485923表11實(shí)施例2第3次迭代選擇后結(jié)果110010110011110010111011110010110011110011110010110010110010通過表10可以看出,在第3次迭代操作過程中,將個(gè)體“110011”加入候選解集合set中;再經(jīng)判斷此時(shí)已經(jīng)達(dá)到了最大迭代次數(shù)3,所以轉(zhuǎn)步驟H1;步驟H1、找到候選解集合中適應(yīng)度值最大的個(gè)體作為最優(yōu)解,具體為:在set中有三個(gè)個(gè)體,均為“110011”,則:最優(yōu)解編碼與分詞碎片的對(duì)應(yīng)關(guān)系如表12:表12實(shí)施例2步驟H1最優(yōu)解編碼與分詞碎片對(duì)應(yīng)關(guān)系從最優(yōu)解基因中提取連續(xù)0出現(xiàn)位置對(duì)應(yīng)的字串,得到候選詞“屌絲”。實(shí)施例3為了進(jìn)一步驗(yàn)證本發(fā)明一種基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法的有效性,本實(shí)施例采用微博語(yǔ)料,共計(jì)3538058條,使用新華社1993年到2004年所有發(fā)布的新聞數(shù)據(jù),共計(jì)9,517,292個(gè)句子作為新聞?wù)Z料,使用本發(fā)明提出的基于成詞率適應(yīng)度函數(shù)的新詞識(shí)別免疫遺傳方法進(jìn)行網(wǎng)絡(luò)新詞識(shí)別與丁建立、慈祥等人提出的免疫遺傳算法進(jìn)行網(wǎng)絡(luò)新詞識(shí)別實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如圖2所示。丁建立,慈祥等人的方法中使用的適應(yīng)度函數(shù)如下:f(s)=Σi=1L2i/(IWP)2---(7);]]>IWP=p(word(wi))p(wi)---(8);]]>公式(7)中L代表分詞碎片的長(zhǎng)度,f(s)代表個(gè)體s的適應(yīng)度值;公式(8)中,p(word(wi))表示漢字wi在語(yǔ)料庫(kù)中作為一個(gè)單字詞出現(xiàn)的次數(shù),p(wi)表示在語(yǔ)料庫(kù)中漢字wi總的出現(xiàn)次數(shù),所用語(yǔ)料為搜狗互聯(lián)網(wǎng)語(yǔ)料庫(kù)。從圖2中可以看出,本發(fā)明中的方法在網(wǎng)絡(luò)新詞識(shí)別中取得了較好的效果,在召回率和F值上較丁建立、慈祥的方法均有所提高,通過適應(yīng)度函數(shù)的設(shè)計(jì),大部分網(wǎng)絡(luò)新詞通過本發(fā)明的方法均能正確識(shí)別。但是由于微博語(yǔ)料的不規(guī)則性,導(dǎo)致會(huì)識(shí)別出一些錯(cuò)誤的網(wǎng)絡(luò)新詞,導(dǎo)致最終實(shí)驗(yàn)的準(zhǔn)確率會(huì)有所降低。以上顯示和描述了本發(fā)明的基本原理、主要特征和優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都在要求保護(hù)的本發(fā)明范圍內(nèi),本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1