一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)的制作方法

文檔序號(hào)：8223473閱讀：577來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域，尤其涉及一種基于BeamSearch的微博文本規(guī)范化方法。
【背景技術(shù)】
[0002]常用的自然語(yǔ)言處理技術(shù)如分詞、詞性標(biāo)注、句法分析等都是基于規(guī)范化的文本。而這些技術(shù)對(duì)非規(guī)范化的文本如微博的處理性能不是很好。因此使用傳統(tǒng)語(yǔ)料訓(xùn)練出來(lái)的模型是不能直接運(yùn)用于微博文本的，對(duì)微博文本的處理需要作新的研宄。
[0003]由于微博文本存中許多不規(guī)范的語(yǔ)言現(xiàn)象，特別是非規(guī)范詞的大量使用。例如:
[0004]I)剛才看陳老濕圍脖才知道盆友c來(lái)寧波了。
[0005]2)不交作業(yè)的孩紙木有紅花。
[0006]如果用傳統(tǒng)的模型對(duì)其進(jìn)行分詞和詞性標(biāo)注，性能肯定是不好的，因此，應(yīng)先對(duì)文本進(jìn)行規(guī)范化，再作其它處理。上例可規(guī)范化為:
[0007]I)剛才看陳老師微博才知道朋友c來(lái)寧波了。
[0008]2)不交作業(yè)的孩子沒(méi)有紅花。
[0009]因此對(duì)微博文本的規(guī)范化是非常重要。它將一些非詞典詞轉(zhuǎn)換成符合傳統(tǒng)語(yǔ)言規(guī)范的詞，從而我們能使用一些基于傳統(tǒng)語(yǔ)料訓(xùn)練得到的模型來(lái)對(duì)微博進(jìn)行處理。
[0010]傳統(tǒng)的對(duì)微博處理方法一般是串行處理的，先作文本規(guī)范化，然后再進(jìn)行分詞、詞性標(biāo)注等其他處理，這樣處理一是效率較低，二就錯(cuò)誤具有傳播性，如果規(guī)范化錯(cuò)了，則必然導(dǎo)致后面的任務(wù)的錯(cuò)誤率增加。

【發(fā)明內(nèi)容】

[0011]本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)的不足，提供一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)。
[0012]本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法，包括如下步驟:
[0013]步驟1，構(gòu)建標(biāo)注語(yǔ)料庫(kù)，將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集；
[0014]步驟2，采用SVM模型訓(xùn)練學(xué)習(xí)構(gòu)造微博詞典，即〈非規(guī)范詞，規(guī)范詞1|規(guī)范詞2 I……I規(guī)范詞N〉標(biāo)準(zhǔn)化候選集;
[0015]步驟3，利用訓(xùn)練集、開(kāi)發(fā)集及微博詞典，使用BeamSearch方法訓(xùn)練學(xué)習(xí)出一個(gè)基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型；
[0016]步驟4，利用聯(lián)合模型，對(duì)測(cè)試集中待處理的微博文本同時(shí)進(jìn)行文本規(guī)范化及分詞、詞性標(biāo)注，實(shí)現(xiàn)對(duì)聯(lián)合模型的性能測(cè)試。
[0017]本發(fā)明的有益效果是:本發(fā)明標(biāo)注了大量句子的微博文本作訓(xùn)練語(yǔ)料，采用微博詞典，擴(kuò)大候選結(jié)果，建立基于微博文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型，所述聯(lián)合模型能同時(shí)作用于三個(gè)任務(wù)，相互產(chǎn)生影響，從而提高各自的性能，進(jìn)而提高整體性能。
[0018]在上述技術(shù)方案的基礎(chǔ)上，本發(fā)明還可以做如下改進(jìn)。
[0019]進(jìn)一步，步驟I的具體實(shí)現(xiàn)為:
[0020]步驟1.1，從微博中爬取一定數(shù)量的微博文本，對(duì)微博文本進(jìn)行常規(guī)化處理，得到多個(gè)微博句子；
[0021]步驟1.2，對(duì)微博句子進(jìn)行語(yǔ)料標(biāo)注，得到標(biāo)注語(yǔ)料庫(kù)；
[0022]步驟1.3，將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料按預(yù)定比例分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。
[0023]進(jìn)一步，步驟3的具體實(shí)現(xiàn)為:
[0024]步驟3.1，根據(jù)候選搜索寬度值設(shè)定BeamSearch搜索寬度K ；
[0025]步驟3.2利用訓(xùn)練集進(jìn)行一次訓(xùn)練，得到一個(gè)聯(lián)合模型；
[0026]步驟3.3，利用開(kāi)發(fā)集測(cè)試當(dāng)前聯(lián)合模型的性能，得到一個(gè)測(cè)試結(jié)果；
[0027]步驟3.4，判斷聯(lián)合模型的訓(xùn)練次數(shù)是否達(dá)到預(yù)定訓(xùn)練次數(shù)，如果是執(zhí)行步驟3.5，否則返回步驟3.2 ；
[0028]步驟3.5，選取測(cè)試結(jié)果最優(yōu)的聯(lián)合模型作為當(dāng)前搜索寬度為K的聯(lián)合模型；
[0029]步驟3.6，判斷K值設(shè)定次數(shù)是否達(dá)到預(yù)定值，如果是執(zhí)行步驟3.7，否則返回步驟3.1 ；
[0030]步驟3.7，選取性能最優(yōu)的聯(lián)合模型及對(duì)應(yīng)的搜索寬度K作為最終的聯(lián)合模型。
[0031]進(jìn)一步，所述步驟3.2的具體實(shí)現(xiàn)為:
[0032]步驟3.2.1，初始化基礎(chǔ)模型，同時(shí)初始化候選標(biāo)注集為空；
[0033]步驟3.2.2:按順序選取訓(xùn)練集中的一個(gè)微博句子，執(zhí)行步驟3.2.3 ;
[0034]步驟3.2.3:按順序選取所述微博句子中的一個(gè)字，執(zhí)行步驟3.2.4 ;
[0035]步驟3.2.4:將當(dāng)前處理的字分別加入已標(biāo)注的每個(gè)候選標(biāo)注序列，對(duì)每個(gè)已標(biāo)注的候選標(biāo)注序列進(jìn)行分割、詞性、規(guī)范化標(biāo)注，得到多個(gè)包含該字的已標(biāo)注的候選標(biāo)注序列，構(gòu)成當(dāng)前的候選標(biāo)注集；
[0036]步驟3.2.6，根據(jù)當(dāng)前模型對(duì)當(dāng)前的候選標(biāo)注集中每個(gè)候選標(biāo)注序列進(jìn)行打分，依據(jù)分?jǐn)?shù)排序，選取前K個(gè)候選標(biāo)注序列作為新的候選標(biāo)注集；
[0037]步驟3.2.7，判斷黃金標(biāo)注標(biāo)準(zhǔn)是否在新的候選標(biāo)注集中，如果不在，依據(jù)黃金標(biāo)注標(biāo)準(zhǔn)對(duì)當(dāng)前模型進(jìn)行修改，返回步驟3.2.2，否則執(zhí)行步驟3.2.8 ;
[0038]步驟3.2.8，判斷所述微博句子中是否還有待處理的字，如果有，返回步驟3.2.3，否則執(zhí)行步驟3.2.9 ;
[0039]步驟3.2.9，判斷是否還有待處理的微博句子，如果有返回步驟3.2.2，否則當(dāng)前得到的模型即為基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型。
[0040]進(jìn)一步，所述步驟3.2.4的具體實(shí)現(xiàn)為:
[0041]步驟3.2.4.1，將當(dāng)前處理的字加入已標(biāo)注的每個(gè)候選標(biāo)注序列的最后一個(gè)詞的詞尾，與已標(biāo)注的候選標(biāo)注序列的最后一個(gè)詞構(gòu)造一個(gè)新詞，該新詞的詞義標(biāo)注為原詞義，得到第一候選標(biāo)注集；
[0042]步驟3.2.4.2，將當(dāng)前處理的字加入已標(biāo)注的每個(gè)候選標(biāo)注序列的最后一個(gè)詞的詞尾，該字本身構(gòu)成一個(gè)新詞，分別對(duì)新詞標(biāo)注為詞性集中的每一種詞性，得到第二候選標(biāo)注集；
[0043]步驟3.2.4.3，針對(duì)第二候選標(biāo)注集中的每一個(gè)選標(biāo)注序列，對(duì)當(dāng)前處理字的前一個(gè)詞，判斷微博詞典中是否有該詞的標(biāo)準(zhǔn)化候選集，如有，則將該詞的標(biāo)準(zhǔn)化候選集中的所有標(biāo)準(zhǔn)化詞代替該詞，得到第三候選標(biāo)注集；
[0044]步驟3.2.4.4，將第一候選標(biāo)注集、第二候選標(biāo)注集和第三候選標(biāo)注集作為當(dāng)前候選標(biāo)注集。
[0045]采用上述進(jìn)一步方案的有益效果是:當(dāng)前的處理方法是通常是線性處理模式，即首先對(duì)微博文本進(jìn)行規(guī)范化，然后再做其它處理詞、句分析。但由于漢語(yǔ)并不存在空格，而規(guī)范化實(shí)際上是詞與詞之間的轉(zhuǎn)換，因此規(guī)范化的前提是基于詞，而一個(gè)好的分詞模型又需要規(guī)范化，因此分詞和規(guī)范化是密不可分的，上述進(jìn)一步特征實(shí)現(xiàn)了分詞、標(biāo)注和規(guī)范化的同時(shí)進(jìn)行。
[0046]進(jìn)一步，步驟3.2.7中依據(jù)黃金標(biāo)注標(biāo)準(zhǔn)對(duì)當(dāng)前模型進(jìn)行修改的具體操作為:將黃金標(biāo)注標(biāo)準(zhǔn)中的每個(gè)特征的權(quán)重加I;同時(shí)選取新的候選標(biāo)注集中分?jǐn)?shù)最高的候選標(biāo)注序列，對(duì)該候選標(biāo)注序列的每個(gè)特征的權(quán)重減I。
[0047]本發(fā)明解決上述技術(shù)問(wèn)題的另一技術(shù)方案如下:一種微博文本規(guī)范化及分詞和詞性標(biāo)注的系統(tǒng)，包括語(yǔ)料庫(kù)建立模塊、微博詞典建立模塊、聯(lián)合模型建立模塊和聯(lián)合模型測(cè)試豐吳塊；
[0048]所述語(yǔ)料庫(kù)建立模塊，其用于構(gòu)建標(biāo)注語(yǔ)料庫(kù)，將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)注語(yǔ)料分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集；
[0049]所述微博詞典建立模塊，其用于采用SVM模型訓(xùn)練學(xué)習(xí)構(gòu)造微博詞典，即〈非規(guī)范詞，規(guī)范詞11規(guī)范詞2 I……I規(guī)范詞N〉標(biāo)準(zhǔn)化候選集；
[0050]所述聯(lián)合模型建立模塊，其用于利用訓(xùn)練集、開(kāi)發(fā)集及微博詞典，使用BeamSearch方法訓(xùn)練學(xué)習(xí)出一個(gè)基于微博的文本規(guī)范化、分詞、詞性標(biāo)注的聯(lián)合模型，其中聯(lián)合模型主要包括特征的權(quán)重及BeamSearch搜索寬度；
[0051]所述聯(lián)合模型測(cè)試模塊，其用于利用聯(lián)合模型，對(duì)測(cè)試集中待處理的微博文本同時(shí)進(jìn)行文本規(guī)范化及分詞、詞性標(biāo)注，實(shí)現(xiàn)對(duì)聯(lián)合模型的性能測(cè)試。
[0052]在上述技術(shù)方案的基礎(chǔ)上，本發(fā)明還可以做如下改進(jìn)。
[0053]進(jìn)一步，所述語(yǔ)料庫(kù)建立模塊包括常規(guī)化單元、語(yǔ)料標(biāo)注單元和語(yǔ)料分配單元；
[0054]所述常規(guī)化單元，其用于從微博中爬取一定數(shù)量的微博文本，對(duì)微博文本進(jìn)行常規(guī)化處理，得到多個(gè)微博句子；
[0055]所述語(yǔ)料標(biāo)注單元，其用于對(duì)微博句子進(jìn)行語(yǔ)料標(biāo)注，得到標(biāo)注語(yǔ)料庫(kù)；
[0056]所述語(yǔ)料分配單元，其用于將標(biāo)注語(yǔ)料庫(kù)中的標(biāo)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：滕順祥;錢(qián)濤;姬東鴻;白旭;
技術(shù)所有人：北京牡丹電子集團(tuán)有限責(zé)任公司數(shù)字電視技術(shù)中心;
我是此專(zhuān)利的發(fā)明人

上一篇：一種時(shí)間信息抽取方法及系統(tǒng)的制作方法
上一篇：生成文本摘要的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種微博文本規(guī)范化及分詞和詞性標(biāo)注的方法及系統(tǒng)的制作方法