1.融合實(shí)體特性的越南語(yǔ)命名實(shí)體識(shí)別方法,其特征在于:所述融合實(shí)體特性的越南語(yǔ)命名實(shí)體識(shí)別方法的具體步驟如下:
Step1、首先根據(jù)越南語(yǔ)命名實(shí)體特點(diǎn),提取越南語(yǔ)命名實(shí)體有效特征,對(duì)形成的越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料進(jìn)行識(shí)別建模,得到越南語(yǔ)最大熵命名實(shí)體識(shí)別模型;
Step2、從越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料中隨機(jī)選取測(cè)試語(yǔ)料通過(guò)已建好的越南語(yǔ)最大熵命名實(shí)體識(shí)別模型進(jìn)行識(shí)別,得到最大熵命名實(shí)體識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的融合實(shí)體特性的越南語(yǔ)命名實(shí)體識(shí)別方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先人工編寫(xiě)爬蟲(chóng)程序,從越南語(yǔ)網(wǎng)站和中越交流圈中收集越南語(yǔ)新聞?wù)Z料網(wǎng)頁(yè)信息;
Step1.2、獲取到的越南語(yǔ)新聞?wù)Z料網(wǎng)頁(yè)信息進(jìn)行過(guò)濾、去重、去垃圾信息等操作,得到越南語(yǔ)文本級(jí)語(yǔ)料庫(kù),并把越南語(yǔ)文本級(jí)語(yǔ)料庫(kù)存放到數(shù)據(jù)庫(kù)中;
Step1.3、從Step1.2數(shù)據(jù)庫(kù)中取出越南語(yǔ)文本級(jí)語(yǔ)料,根據(jù)越南語(yǔ)分詞工具進(jìn)行越南語(yǔ)文本級(jí)語(yǔ)料庫(kù)的語(yǔ)料分詞,并進(jìn)行人工校對(duì),形成越南語(yǔ)分詞句子級(jí)語(yǔ)料庫(kù),并把越南語(yǔ)分詞句子級(jí)語(yǔ)料庫(kù)的語(yǔ)料存放到數(shù)據(jù)庫(kù)中;
Step1.4、從Step1.3數(shù)據(jù)庫(kù)中取出越南語(yǔ)分詞句子級(jí)語(yǔ)料,根據(jù)越南語(yǔ)詞性標(biāo)注工具對(duì)越南語(yǔ)分詞句子級(jí)語(yǔ)料進(jìn)行越南語(yǔ)句子級(jí)詞性標(biāo)注;再進(jìn)行人工校對(duì),形成越南語(yǔ)句子級(jí)詞性標(biāo)注語(yǔ)料庫(kù),并把越南語(yǔ)句子級(jí)詞性標(biāo)注語(yǔ)料庫(kù)的語(yǔ)料存放到數(shù)據(jù)庫(kù)中;
Step1.5、從Step1.4數(shù)據(jù)庫(kù)中取出越南語(yǔ)句子級(jí)詞性標(biāo)注語(yǔ)料,再應(yīng)用越南語(yǔ)組塊標(biāo)注工具對(duì)越南語(yǔ)句子級(jí)詞性標(biāo)注語(yǔ)料進(jìn)行越南語(yǔ)句子級(jí)組塊標(biāo)記,再進(jìn)行人工校對(duì),形成越南語(yǔ)句子級(jí)組塊標(biāo)記語(yǔ)料庫(kù),并把越南語(yǔ)句子級(jí)組塊標(biāo)記語(yǔ)料庫(kù)的語(yǔ)料存放到數(shù)據(jù)庫(kù)中;
Step1.6、從Step1.5數(shù)據(jù)庫(kù)中取出越南語(yǔ)句子級(jí)組塊標(biāo)記語(yǔ)料,再人工標(biāo)記越南語(yǔ)命名實(shí)體語(yǔ)料,形成越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料,并把越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料存入數(shù)據(jù)庫(kù)中;
Step1.7、根據(jù)越南語(yǔ)命名實(shí)體特點(diǎn),并結(jié)合Step1.6步驟取出越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料,提取越南語(yǔ)命名實(shí)體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個(gè)數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫(kù)信息特征、首字母是否為大寫(xiě)信息特征、字首字母是否為大寫(xiě)信息特征、外來(lái)詞信息特征等;
Step1.8、根據(jù)Step1.7中已選取的越南語(yǔ)命名實(shí)體有效特征,結(jié)合從Step1.6中取出的越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式;
Step1.9、從Step1.8中獲取已標(biāo)注好的訓(xùn)練格式語(yǔ)料,使用最大熵統(tǒng)計(jì)方法進(jìn)行分析,生成越南語(yǔ)最大熵命名實(shí)體識(shí)別模型。
3.根據(jù)權(quán)利要求1或2所述的融合實(shí)體特性的越南語(yǔ)命名實(shí)體識(shí)別方法,其特征在于:所述步驟Step2的具體步驟為:
Step2.1、隨機(jī)選取越南語(yǔ)句子級(jí)命名實(shí)體語(yǔ)料,得到越南語(yǔ)句子級(jí)命名實(shí)體測(cè)試語(yǔ)料;
Step2.2、根據(jù)獲得的越南語(yǔ)句子級(jí)的命名實(shí)體測(cè)試語(yǔ)料,經(jīng)過(guò)已建好的越南語(yǔ)最大熵命名實(shí)體識(shí)別模型進(jìn)行標(biāo)注,得到越南語(yǔ)句子級(jí)命名實(shí)體標(biāo)注序列化標(biāo)記結(jié)果。