一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其涉及一種基于BeamSearch的微博文本規(guī)范化方法。
【背景技術(shù)】
[0002]常用的自然語(yǔ)言處理技術(shù)如分詞、詞性標(biāo)注、句法分析等都是基于規(guī)范化的文本。而這些技術(shù)對(duì)非規(guī)范化的文本如微博的處理性能不是很好。因此使用傳統(tǒng)語(yǔ)料訓(xùn)練出來(lái)的模型是不能直接運(yùn)用于微博文本的,對(duì)微博文本的處理需要作新的研宄。
[0003]由于微博文本存中許多不規(guī)范的語(yǔ)言現(xiàn)象,特別是非規(guī)范詞的大量使用。例如:
[0004]I)剛才看陳老濕圍脖才知道盆友c來(lái)寧波了。
[0005]2)不交作業(yè)的孩紙木有紅花。
[0006]如果用傳統(tǒng)的模型對(duì)其進(jìn)行分詞和詞性標(biāo)注,性能肯定是不好的,因此,應(yīng)先對(duì)文本進(jìn)行規(guī)范化,再作其它處理。上例可規(guī)范化為:
[0007]I)剛才看陳老師微博才知道朋友c來(lái)寧波了。
[0008]2)不交作業(yè)的孩子沒(méi)有紅花。
[0009]因此對(duì)微博文本的規(guī)范化是非常重要。它將一些非詞典詞轉(zhuǎn)換成符合傳統(tǒng)語(yǔ)言規(guī)范的詞,從而我們能使用一些基于傳統(tǒng)語(yǔ)料訓(xùn)練得到的模型來(lái)對(duì)微博進(jìn)行處理。
[0010]傳統(tǒng)的對(duì)微博處理方法一般是串行處理的,先作文本規(guī)范化,然后再進(jìn)行分詞、詞性標(biāo)注等其他處理,這樣處理一是效率較低,二就錯(cuò)誤具有傳播性,如果規(guī)范化錯(cuò)了,則必然導(dǎo)致后面的任務(wù)的錯(cuò)誤率增加。
【發(fā)明內(nèi)容】
[0011]本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)。
[0012]本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法,包括如下步驟:
[0013]步驟1,構(gòu)建標(biāo)注語(yǔ)料庫(kù),將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集;
[0014]步驟2,采用SVM模型訓(xùn)練學(xué)習(xí)構(gòu)造微博詞典,即〈非規(guī)范詞,規(guī)范詞1|規(guī)范詞2 I……I規(guī)范詞N〉標(biāo)準(zhǔn)化候選集;
[0015]步驟3,利用訓(xùn)練集、開(kāi)發(fā)集及微博詞典,使用BeamSearch方法訓(xùn)練學(xué)習(xí)出一個(gè)基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型;
[0016]步驟4,利用聯(lián)合模型,對(duì)測(cè)試集中待處理的微博文本同時(shí)進(jìn)行文本規(guī)范化及分詞、詞性標(biāo)注,實(shí)現(xiàn)對(duì)聯(lián)合模型的性能測(cè)試。
[0017]本發(fā)明的有益效果是:本發(fā)明標(biāo)注了大量句子的微博文本作訓(xùn)練語(yǔ)料,采用微博詞典,擴(kuò)大候選結(jié)果,建立基于微博文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型,所述聯(lián)合模型能同時(shí)作用于三個(gè)任務(wù),相互產(chǎn)生影響,從而提高各自的性能,進(jìn)而提高整體性能。
[0018]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0019]進(jìn)一步,步驟I的具體實(shí)現(xiàn)為:
[0020]步驟1.1,從微博中爬取一定數(shù)量的微博文本,對(duì)微博文本進(jìn)行常規(guī)化處理,得到多個(gè)微博句子;
[0021]步驟1.2,對(duì)微博句子進(jìn)行語(yǔ)料標(biāo)注,得到標(biāo)注語(yǔ)料庫(kù);
[0022]步驟1.3,將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料按預(yù)定比例分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。
[0023]進(jìn)一步,步驟3的具體實(shí)現(xiàn)為:
[0024]步驟3.1,根據(jù)候選搜索寬度值設(shè)定BeamSearch搜索寬度K ;
[0025]步驟3.2利用訓(xùn)練集進(jìn)行一次訓(xùn)練,得到一個(gè)聯(lián)合模型;
[0026]步驟3.3,利用開(kāi)發(fā)集測(cè)試當(dāng)前聯(lián)合模型的性能,得到一個(gè)測(cè)試結(jié)果;
[0027]步驟3.4,判斷聯(lián)合模型的訓(xùn)練次數(shù)是否達(dá)到預(yù)定訓(xùn)練次數(shù),如果是執(zhí)行步驟3.5,否則返回步驟3.2 ;
[0028]步驟3.5,選取測(cè)試結(jié)果最優(yōu)的聯(lián)合模型作為當(dāng)前搜索寬度為K的聯(lián)合模型;
[0029]步驟3.6,判斷K值設(shè)定次數(shù)是否達(dá)到預(yù)定值,如果是執(zhí)行步驟3.7,否則返回步驟3.1 ;
[0030]步驟3.7,選取性能最優(yōu)的聯(lián)合模型及對(duì)應(yīng)的搜索寬度K作為最終的聯(lián)合模型。
[0031]進(jìn)一步,所述步驟3.2的具體實(shí)現(xiàn)為:
[0032]步驟3.2.1,初始化基礎(chǔ)模型,同時(shí)初始化候選標(biāo)注集為空;
[0033]步驟3.2.2:按順序選取訓(xùn)練集中的一個(gè)微博句子,執(zhí)行步驟3.2.3 ;
[0034]步驟3.2.3:按順序選取所述微博句子中的一個(gè)字,執(zhí)行步驟3.2.4 ;
[0035]步驟3.2.4:將當(dāng)前處理的字分別加入已標(biāo)注的每個(gè)候選標(biāo)注序列,對(duì)每個(gè)已標(biāo)注的候選標(biāo)注序列進(jìn)行分割、詞性、規(guī)范化標(biāo)注,得到多個(gè)包含該字的已標(biāo)注的候選標(biāo)注序列,構(gòu)成當(dāng)前的候選標(biāo)注集;
[0036]步驟3.2.6,根據(jù)當(dāng)前模型對(duì)當(dāng)前的候選標(biāo)注集中每個(gè)候選標(biāo)注序列進(jìn)行打分,依據(jù)分?jǐn)?shù)排序,選取前K個(gè)候選標(biāo)注序列作為新的候選標(biāo)注集;
[0037]步驟3.2.7,判斷黃金標(biāo)注標(biāo)準(zhǔn)是否在新的候選標(biāo)注集中,如果不在,依據(jù)黃金標(biāo)注標(biāo)準(zhǔn)對(duì)當(dāng)前模型進(jìn)行修改,返回步驟3.2.2,否則執(zhí)行步驟3.2.8 ;
[0038]步驟3.2.8,判斷所述微博句子中是否還有待處理的字,如果有,返回步驟3.2.3,否則執(zhí)行步驟3.2.9 ;
[0039]步驟3.2.9,判斷是否還有待處理的微博句子,如果有返回步驟3.2.2,否則當(dāng)前得到的模型即為基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型。
[0040]進(jìn)一步,所述步驟3.2.4的具體實(shí)現(xiàn)為:
[0041]步驟3.2.4.1,將當(dāng)前處理的字加入已標(biāo)注的每個(gè)候選標(biāo)注序列的最后一個(gè)詞的詞尾,與已標(biāo)注的候選標(biāo)注序列的最后一個(gè)詞構(gòu)造一個(gè)新詞,該新詞的詞義標(biāo)注為原詞義,得到第一候選標(biāo)注集;
[0042]步驟3.2.4.2,將當(dāng)前處理的字加入已標(biāo)注的每個(gè)候選標(biāo)注序列的最后一個(gè)詞的詞尾,該字本身構(gòu)成一個(gè)新詞,分別對(duì)新詞標(biāo)注為詞性集中的每一種詞性,得到第二候選標(biāo)注集;
[0043]步驟3.2.4.3,針對(duì)第二候選標(biāo)注集中的每一個(gè)選標(biāo)注序列,對(duì)當(dāng)前處理字的前一個(gè)詞,判斷微博詞典中是否有該詞的標(biāo)準(zhǔn)化候選集,如有,則將該詞的標(biāo)準(zhǔn)化候選集中的所有標(biāo)準(zhǔn)化詞代替該詞,得到第三候選標(biāo)注集;
[0044]步驟3.2.4.4,將第一候選標(biāo)注集、第二候選標(biāo)注集和第三候選標(biāo)注集作為當(dāng)前候選標(biāo)注集。
[0045]采用上述進(jìn)一步方案的有益效果是:當(dāng)前的處理方法是通常是線性處理模式,即首先對(duì)微博文本進(jìn)行規(guī)范化,然后再做其它處理詞、句分析。但由于漢語(yǔ)并不存在空格,而規(guī)范化實(shí)際上是詞與詞之間的轉(zhuǎn)換,因此規(guī)范化的前提是基于詞,而一個(gè)好的分詞模型又需要規(guī)范化,因此分詞和規(guī)范化是密不可分的,上述進(jìn)一步特征實(shí)現(xiàn)了分詞、標(biāo)注和規(guī)范化的同時(shí)進(jìn)行。
[0046]進(jìn)一步,步驟3.2.7中依據(jù)黃金標(biāo)注標(biāo)準(zhǔn)對(duì)當(dāng)前模型進(jìn)行修改的具體操作為:將黃金標(biāo)注標(biāo)準(zhǔn)中的每個(gè)特征的權(quán)重加I;同時(shí)選取新的候選標(biāo)注集中分?jǐn)?shù)最高的候選標(biāo)注序列,對(duì)該候選標(biāo)注序列的每個(gè)特征的權(quán)重減I。
[0047]本發(fā)明解決上述技術(shù)問(wèn)題的另一技術(shù)方案如下:一種微博文本規(guī)范化及分詞和詞性標(biāo)注的系統(tǒng),包括語(yǔ)料庫(kù)建立模塊、微博詞典建立模塊、聯(lián)合模型建立模塊和聯(lián)合模型測(cè)試豐吳塊;
[0048]所述語(yǔ)料庫(kù)建立模塊,其用于構(gòu)建標(biāo)注語(yǔ)料庫(kù),將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集;
[0049]所述微博詞典建立模塊,其用于采用SVM模型訓(xùn)練學(xué)習(xí)構(gòu)造微博詞典,即〈非規(guī)范詞,規(guī)范詞11規(guī)范詞2 I……I規(guī)范詞N〉標(biāo)準(zhǔn)化候選集;
[0050]所述聯(lián)合模型建立模塊,其用于利用訓(xùn)練集、開(kāi)發(fā)集及微博詞典,使用BeamSearch方法訓(xùn)練學(xué)習(xí)出一個(gè)基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型,其中聯(lián)合模型主要包括特征的權(quán)重及BeamSearch搜索寬度;
[0051]所述聯(lián)合模型測(cè)試模塊,其用于利用聯(lián)合模型,對(duì)測(cè)試集中待處理的微博文本同時(shí)進(jìn)行文本規(guī)范化及分詞、詞性標(biāo)注,實(shí)現(xiàn)對(duì)聯(lián)合模型的性能測(cè)試。
[0052]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0053]進(jìn)一步,所述語(yǔ)料庫(kù)建立模塊包括常規(guī)化單元、語(yǔ)料標(biāo)注單元和語(yǔ)料分配單元;
[0054]所述常規(guī)化單元,其用于從微博中爬取一定數(shù)量的微博文本,對(duì)微博文本進(jìn)行常規(guī)化處理,得到多個(gè)微博句子;
[0055]所述語(yǔ)料標(biāo)注單元,其用于對(duì)微博句子進(jìn)行語(yǔ)料標(biāo)注,得到標(biāo)注語(yǔ)料庫(kù);
[0056]所述語(yǔ)料分配單元,其用于將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)