本發(fā)明涉及融合實體特性的越南語命名實體識別方法,屬于自然語言處理
技術(shù)領(lǐng)域:
。
背景技術(shù):
:越南語命名實體識別是指自動識別越南語文本語料中的人名、地名、組織機構(gòu)名、時間、數(shù)字、百分號和貨幣的過程,其是越南語詞法分析、句法分析、文本分析、信息檢索等工作中的主要環(huán)節(jié),是上層機器翻譯的重要基礎(chǔ),起著非常重要的作用。在上層的機器翻譯中,越南語命名實體識別起到關(guān)鍵作用。隨著互聯(lián)網(wǎng)搜索技術(shù)的不斷提高,命名實體也越來越備受重視,其決定著搜索的好壞;同時其對文本、語義分析、雙語實體翻譯等起到重要作用。技術(shù)實現(xiàn)要素:本發(fā)明提供了融合實體特性的越南語命名實體識別方法,以用于解決越南語命名實體識別正確率不高、不能有效識別復(fù)雜的命名實體、不能更好挖掘和結(jié)合實體特性等問題。本發(fā)明的技術(shù)方案是:融合實體特性的越南語命名實體識別方法,所述融合實體特性的越南語命名實體識別方法的具體步驟如下:Step1、首先根據(jù)越南語命名實體特點,提取越南語命名實體有效特征,對形成的越南語句子級命名實體語料進(jìn)行識別建模,得到越南語最大熵命名實體識別模型;Step2、從越南語句子級命名實體語料中隨機選取測試語料通過已建好的越南語最大熵命名實體識別模型進(jìn)行識別,得到最大熵命名實體識別結(jié)果。作為本發(fā)明的優(yōu)選方案,所述步驟Step1的具體步驟為:Step1.1、首先人工編寫爬蟲程序,從越南語網(wǎng)站和中越交流圈中收集越南語新聞?wù)Z料網(wǎng)頁信息;本發(fā)明考慮到由于不同的網(wǎng)頁結(jié)構(gòu),爬蟲程序中爬取的位置和標(biāo)簽也不同,且沒有現(xiàn)成的程序,因此針對爬取不同任務(wù)要進(jìn)行編寫程序。要盡可能全面地選取不同方面的題材的語料,例如:新聞、政治、經(jīng)濟和文化等方面。Step1.2、獲取到的越南語新聞?wù)Z料網(wǎng)頁信息進(jìn)行過濾、去重、去垃圾信息等操作,得到越南語文本級語料庫,并把越南語文本級語料庫存放到數(shù)據(jù)庫中,方便下一步分詞工作使用;本發(fā)明考慮到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽、無效字符等噪音,這些噪音是無效的。因此,要通過過濾、去噪音等操作去除,得到只含有越南語的高質(zhì)量的文本級語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步越南語分詞工作使用。所述步驟Step1.2的具體步驟為:Step1.2.1、對爬取的網(wǎng)頁信息進(jìn)行有效的過濾,去無效字符和網(wǎng)頁;Step1.2.2、對得到的有效網(wǎng)頁進(jìn)行去重、去垃圾信息等預(yù)處理操作;Step1.2.3、對得到的越南語文本級語料存放在數(shù)據(jù)庫中??紤]到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽等噪音,這些噪音是無效的。因此,要通過過濾、去垃圾信息等操作去除,得到只含有越南語的高質(zhì)量的文本級語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步使用。Step1.3、從Step1.2數(shù)據(jù)庫中取出越南語文本級語料,越南語詞與詞之間空格隔開,不能按照空格來進(jìn)行分詞,但是分詞是命名實體識別前期基礎(chǔ)工作;因此,根據(jù)越南語分詞工具進(jìn)行越南語文本級語料庫的語料分詞,并進(jìn)行人工校對,形成越南語分詞句子級語料庫,并把越南語分詞句子級語料庫的語料存放到數(shù)據(jù)庫中,方便下一步詞性標(biāo)注工作使用;本發(fā)明中分詞處理過程,是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,同時由于越南語的詞是由一個或者多個音節(jié)構(gòu)成,不能按照空格對來確定分詞。使用越南語分詞工具進(jìn)行分詞之后,需要人工校對,考慮到越南語分詞工具不可能正確地切分所有的越南語詞,分詞錯誤會影響到下一步的越南語詞性標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.4、從Step1.3數(shù)據(jù)庫中取出越南語分詞句子級語料越南語詞的詞性有助于識別命名實體,同時也是命名前期工作不可缺少工作之一;因此根據(jù)越南語詞性標(biāo)注工具對越南語分詞句子級語料進(jìn)行越南語句子級詞性標(biāo)注;考慮到工具分詞不是完全正確和防止錯誤向后累積,故再進(jìn)行人工校對,形成越南語句子級詞性標(biāo)注語料庫,并把越南語句子級詞性標(biāo)注語料庫的語料存放到數(shù)據(jù)庫中,方便下一步組塊分析工作使用;本發(fā)明中詞性標(biāo)注過程,同時也是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,詞性以及上下文信息是本專利最大熵模型中重要的識別特征,因此需要使用本實驗室詞性標(biāo)注工具進(jìn)行詞性標(biāo)記;考慮到越南語詞性標(biāo)注過程中,困難在于越南語兼類詞的影響和考慮到越南語分詞工具不可能正確地切分所有的越南語詞,詞性標(biāo)注錯誤會影響到下一步的越南語組塊標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,故詞性標(biāo)記之后需要進(jìn)行人工校對;存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.5、從Step1.4數(shù)據(jù)庫中取出越南語句子級詞性標(biāo)注語料,越南語組塊類型和長度有利于命名實體識別,因此再應(yīng)用越南語組塊標(biāo)注工具對越南語句子級詞性標(biāo)注語料進(jìn)行越南語句子級組塊標(biāo)記,考慮到工具分詞不是完全正確和防止錯誤向后累積,故再進(jìn)行人工校對,形成越南語句子級組塊標(biāo)記語料庫,并把越南語句子級組塊標(biāo)記語料庫的語料存放到數(shù)據(jù)庫中,方便下一步人工標(biāo)記命名實體語料使用;本發(fā)明中組塊分析與標(biāo)記,同時也是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,組塊類型和長度有利于識別命名實體邊界和類型,因此,本專利需要使用本實驗室的越南語組塊分析工具進(jìn)行組塊標(biāo)記??紤]到工具分詞不是完全正確和防止錯誤向后累積,故進(jìn)行人工校對,形成越南語句子級組塊標(biāo)記語料庫,存放數(shù)據(jù)庫是為了方便管理數(shù)據(jù)和下一步人工標(biāo)記命名實體語料使用。Step1.6、從Step1.5數(shù)據(jù)庫中取出越南語句子級組塊標(biāo)記語料根據(jù)定義的實體類型,考慮到越南語命名實體語料缺乏,故再人工標(biāo)記越南語命名實體語料,形成越南語句子級命名實體語料,并把越南語句子級命名實體語料存入數(shù)據(jù)庫中,方便下一步形成訓(xùn)練語料工作使用;本發(fā)明過程中標(biāo)記越南語命名實體句子級語料,主要考慮目前還沒有公開的越南語命名實體語料可供使用,且本專利需要大量的訓(xùn)練語料,因此要進(jìn)行人工標(biāo)記,形成一定規(guī)模的訓(xùn)練語料,存放數(shù)據(jù)庫是為了方便數(shù)據(jù)的管理和下一步形成含有實體特性訓(xùn)練格式的語料做準(zhǔn)備。Step1.7、根據(jù)越南語命名實體特點,并結(jié)合Step1.6步驟取出越南語句子級命名實體語料,提取越南語命名實體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等;本發(fā)明中根據(jù)越南語言和實體特點,提取出有效的全局特征和局部特征。全局特征:針對所有的實體類型,并且滿足所有實體類型的,主要包括有:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征:實體類型之間差別較大,各自有各自的特點,這樣就可以更大限度區(qū)別實體類型,有利于實體類型的識別,主要包括有音節(jié)個數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等。Step1.8、根據(jù)Step1.7中已選取的越南語命名實體有效特征,結(jié)合從Step1.6中取出的越南語句子級命名實體語料,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式;本發(fā)明中使用最大熵的統(tǒng)計分析方法,對于不同的機器學(xué)習(xí)方法,訓(xùn)練語料格式不一樣,因此,本文將選取的最大熵訓(xùn)練語料結(jié)合所選取的越南語命名實體特征,生成最大熵模型訓(xùn)練時所需要的語料格式。Step1.9、從Step1.8中獲取已標(biāo)注好的訓(xùn)練格式語料,使用最大熵統(tǒng)計方法進(jìn)行分析,生成越南語最大熵命名實體識別模型。此優(yōu)選方案設(shè)計是本專利的重要組成部分,主要結(jié)合越南語實體特性,生成基于最大熵的越南語命名實體識別模型。主要包括語料的預(yù)處理過程;越南語語料進(jìn)行分詞、詞性標(biāo)注、組塊標(biāo)注和人工標(biāo)記越南語命名實體語料,根據(jù)越南語言和實體特點,選取有效的識別特征(局部特征和全局特征);根據(jù)已標(biāo)記的語料和選取的有效特征,生成模型訓(xùn)練時所需要的樣式;使用最大熵統(tǒng)計分析方法進(jìn)行建模。作為本發(fā)明的優(yōu)選方案,所述步驟Step2的具體步驟為:Step2.1、隨機選取越南語句子級命名實體語料,得到越南語句子級命名實體測試語料;本發(fā)明中要對已構(gòu)建的融合實體特性的越南語最大熵命名實體模型進(jìn)行測試,考查該模型的性能。測試需要測試語料,且來源于數(shù)據(jù)庫中已人工標(biāo)記好的越南語句子級命名實體語料,為了盡可能保證數(shù)據(jù)的準(zhǔn)確性,盡量測試語料不包括在訓(xùn)練語料中。Step2.2、根據(jù)獲得的越南語句子級的命名實體測試語料,經(jīng)過已建好的越南語最大熵命名實體識別模型進(jìn)行標(biāo)注,得到越南語句子級命名實體標(biāo)注序列化標(biāo)記結(jié)果。本發(fā)明中使用最大熵統(tǒng)計分析方法對已獲取的測試語料進(jìn)行測試,生成測試語料標(biāo)記結(jié)果,將識別的結(jié)果與正確結(jié)果進(jìn)行比較。此優(yōu)選方案設(shè)計是對生成的模型的進(jìn)行測試其性能的好壞以及通過測試比較每個特征對模型的貢獻(xiàn),為以后的研究提供一定的依據(jù)。本發(fā)明的有益效果是:1、本發(fā)明的融合實體特性的越南語最大熵命名實體識別方法,與現(xiàn)有的越南語命名實體相比,提高了越南語命名實體識別的正確率,本發(fā)明取得了較好的效果;2、本發(fā)明的融合實體特性的越南語最大熵命名實體識別方法,與現(xiàn)有的越南語命名實體識別方法(全局特征)相比較,本文結(jié)合越南語更多、更有效的和有利于識別越南語命名實體特征(局部特征和全局特征),能夠更好識別越南語復(fù)雜實體。3、本發(fā)明的融合實體特性的越南語最大熵命名實體識別方法,對越南語命名實體識別實現(xiàn)了有效的識別,為后續(xù)工作的組塊分析、句法分析、語義分析、信息抽取、信息檢索和機器翻譯等工作提供強有力的支撐。附圖說明圖1為本發(fā)明中的總的流程圖;圖2為本發(fā)明中的建模流程圖。具體實施方式實施例1:如圖1-2所示,融合實體特性的越南語命名實體識別方法,所述融合實體特性的越南語命名實體識別方法的具體步驟如下:Step1、首先根據(jù)越南語命名實體特點,提取越南語命名實體有效特征,對形成的越南語句子級命名實體語料進(jìn)行識別建模,得到越南語最大熵命名實體識別模型;Step2、從越南語句子級命名實體語料中隨機選取測試語料通過已建好的越南語最大熵命名實體識別模型進(jìn)行識別,得到最大熵命名實體識別結(jié)果。實施例2,如圖1-2所示,融合實體特性的越南語命名實體識別方法,本實施例與實施例1相同,其中:作為本發(fā)明的優(yōu)選方案,所述步驟Step1的具體步驟為:Step1.1、首先人工編寫爬蟲程序,從越南語網(wǎng)站和中越交流圈中收集越南語新聞?wù)Z料網(wǎng)頁信息;本發(fā)明考慮到由于不同的網(wǎng)頁結(jié)構(gòu),爬蟲程序中爬取的位置和標(biāo)簽也不同,且沒有現(xiàn)成的程序,因此針對爬取不同任務(wù)要進(jìn)行編寫程序。要盡可能全面地選取不同方面的題材的語料,例如:新聞、政治、經(jīng)濟和文化等方面。Step1.2、獲取到的越南語新聞?wù)Z料網(wǎng)頁信息進(jìn)行過濾、去重、去垃圾信息等操作,得到越南語文本級語料庫,并把越南語文本級語料庫存放到數(shù)據(jù)庫中,方便下一步分詞工作使用;本發(fā)明考慮到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽、無效字符等噪音,這些噪音是無效的。因此,要通過過濾、去噪音等操作去除,得到只含有越南語的高質(zhì)量的文本級語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步越南語分詞工作使用。所述步驟Step1.2的具體步驟為:Step1.2.1、對爬取的網(wǎng)頁信息進(jìn)行有效的過濾,去無效字符和網(wǎng)頁;Step1.2.2、對得到的有效網(wǎng)頁進(jìn)行去重、去垃圾信息等預(yù)處理操作;Step1.2.3、對得到的越南語文本級語料存放在數(shù)據(jù)庫中??紤]到爬取到的越南語網(wǎng)頁語料中存在一些重復(fù)網(wǎng)頁、網(wǎng)頁標(biāo)簽等噪音,這些噪音是無效的。因此,要通過過濾、去垃圾信息等操作去除,得到只含有越南語的高質(zhì)量的文本級語料,存放在數(shù)據(jù)庫是為了能方便數(shù)據(jù)的管理和下一步使用。Step1.3、從Step1.2數(shù)據(jù)庫中取出越南語文本級語料,越南語詞與詞之間空格隔開,不能按照空格來進(jìn)行分詞,但是分詞是命名實體識別前期基礎(chǔ)工作;因此,根據(jù)越南語分詞工具進(jìn)行越南語文本級語料庫的語料分詞,并進(jìn)行人工校對,形成越南語分詞句子級語料庫,并把越南語分詞句子級語料庫的語料存放到數(shù)據(jù)庫中,方便下一步詞性標(biāo)注工作使用;本發(fā)明中分詞處理過程,是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,同時由于越南語的詞是由一個或者多個音節(jié)構(gòu)成,不能按照空格對來確定分詞。使用越南語分詞工具進(jìn)行分詞之后,需要人工校對,考慮到越南語分詞工具不可能正確地切分所有的越南語詞,分詞錯誤會影響到下一步的越南語詞性標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.4、從Step1.3數(shù)據(jù)庫中取出越南語分詞句子級語料越南語詞的詞性有助于識別命名實體,同時也是命名前期工作不可缺少工作之一;因此根據(jù)越南語詞性標(biāo)注工具對越南語分詞句子級語料進(jìn)行越南語句子級詞性標(biāo)注;考慮到工具分詞不是完全正確和防止錯誤向后累積,故再進(jìn)行人工校對,形成越南語句子級詞性標(biāo)注語料庫,并把越南語句子級詞性標(biāo)注語料庫的語料存放到數(shù)據(jù)庫中,方便下一步組塊分析工作使用;本發(fā)明中詞性標(biāo)注過程,同時也是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,詞性以及上下文信息是本專利最大熵模型中重要的識別特征,因此需要使用本實驗室詞性標(biāo)注工具進(jìn)行詞性標(biāo)記;考慮到越南語詞性標(biāo)注過程中,困難在于越南語兼類詞的影響和考慮到越南語分詞工具不可能正確地切分所有的越南語詞,詞性標(biāo)注錯誤會影響到下一步的越南語組塊標(biāo)注結(jié)果的正確性和兼類詞消歧的正確性,故詞性標(biāo)記之后需要進(jìn)行人工校對;存放到數(shù)據(jù)庫為了能方便數(shù)據(jù)的管理和下一步詞性標(biāo)注工作使用。Step1.5、從Step1.4數(shù)據(jù)庫中取出越南語句子級詞性標(biāo)注語料,越南語組塊類型和長度有利于命名實體識別,因此再應(yīng)用越南語組塊標(biāo)注工具對越南語句子級詞性標(biāo)注語料進(jìn)行越南語句子級組塊標(biāo)記,考慮到工具分詞不是完全正確和防止錯誤向后累積,故再進(jìn)行人工校對,形成越南語句子級組塊標(biāo)記語料庫,并把越南語句子級組塊標(biāo)記語料庫的語料存放到數(shù)據(jù)庫中,方便下一步人工標(biāo)記命名實體語料使用;本發(fā)明中組塊分析與標(biāo)記,同時也是越南語命名實體識別工作的前提與基礎(chǔ),是不可缺少的一步,組塊類型和長度有利于識別命名實體邊界和類型,因此,本專利需要使用本實驗室的越南語組塊分析工具進(jìn)行組塊標(biāo)記??紤]到工具分詞不是完全正確和防止錯誤向后累積,故進(jìn)行人工校對,形成越南語句子級組塊標(biāo)記語料庫,存放數(shù)據(jù)庫是為了方便管理數(shù)據(jù)和下一步人工標(biāo)記命名實體語料使用。Step1.6、從Step1.5數(shù)據(jù)庫中取出越南語句子級組塊標(biāo)記語料根據(jù)定義的實體類型,考慮到越南語命名實體語料缺乏,故再人工標(biāo)記越南語命名實體語料,形成越南語句子級命名實體語料,并把越南語句子級命名實體語料存入數(shù)據(jù)庫中,方便下一步形成訓(xùn)練語料工作使用;本發(fā)明過程中標(biāo)記越南語命名實體句子級語料,主要考慮目前還沒有公開的越南語命名實體語料可供使用,且本專利需要大量的訓(xùn)練語料,因此要進(jìn)行人工標(biāo)記,形成一定規(guī)模的訓(xùn)練語料,存放數(shù)據(jù)庫是為了方便數(shù)據(jù)的管理和下一步形成含有實體特性訓(xùn)練格式的語料做準(zhǔn)備。Step1.7、根據(jù)越南語命名實體特點,并結(jié)合Step1.6步驟取出越南語句子級命名實體語料,提取越南語命名實體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等;本發(fā)明中根據(jù)越南語言和實體特點,提取出有效的全局特征和局部特征。全局特征:針對所有的實體類型,并且滿足所有實體類型的,主要包括有:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征:實體類型之間差別較大,各自有各自的特點,這樣就可以更大限度區(qū)別實體類型,有利于實體類型的識別,主要包括有音節(jié)個數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等。所述步驟Step1.7具體步驟為:本文所選取的全局特征,針對所有的實體類型進(jìn)行選取的:(1)詞上下文信息特征:本文選取詞以及上下文信息做為本文的特征,詞字符包含豐富形態(tài)信息。(2)詞性上下文信息的特征:本文選取詞性以及上下文作為本文的詞性特征,詞性能夠有效地判斷詞在句子中所起的角色,同時也影響當(dāng)前詞及周圍詞的大致信息。例如:中,詞性順序為“NNN”構(gòu)成了一個組織機構(gòu)名;中“Np”表示人名的名詞;“1//M”其中詞性“M”在識別數(shù)字時,起到了很明顯的作用;“十億”翻譯為:等等;在越南語的句子中,句子中的動詞、形容詞、副詞等等不可能成為實體的標(biāo)志,這樣可以減小搜索范圍,同時也降低了識別錯誤率,提高處理效率。因此,本文選取詞性和詞性前后兩個詞性作為本文的特征。(3)組塊上下文信息特征:用組塊技術(shù)處理命名實體識別技術(shù)是可行的,因為名詞性組塊的定義和命名實體名稱結(jié)構(gòu)有很強的相似性,所以只考慮越南語的名詞性組塊、時間組塊、數(shù)詞組塊等來分析越南語的命名實體識別問題是可行的,其他類型組塊(形容詞組塊、副詞組塊等)不可能成為實體,這樣可以減少識別范圍和模型搜索范圍。本文選取組塊以及上下文信息特征,組塊標(biāo)記能夠有效的幫助識別實體的邊界和類型。首先,“阮芳去學(xué)校?!狈g為在句子中是一個名詞組塊,確定了人名實體邊界,同時也確定了名詞組塊的實體類型;可以確定數(shù)字的類型和數(shù)字的邊界等等;組塊的標(biāo)記有利于命名實體邊界和類型的識別,同時對組塊的長度可以有效地輔助識別實體,組織機構(gòu)名往往比較長;時間、數(shù)字、百分號、人名、地名往往組塊長度較短。因此,本文選取當(dāng)前組塊標(biāo)記、前后兩個詞的組塊標(biāo)記和組塊長度作為本文的有效特征。本文所選取的局部特征,主要考慮到實體類型不一樣,所選取的實體特征不一樣,本文根據(jù)越南語語言特點和實體特點進(jìn)行選取各種實體類型特征:(1)詞素個數(shù)信息特征:本文選取詞素個數(shù)信息作為本文的有效特征,本特征主要針對越南語人名選取的特征,如表1所示。表1越南人名詞素個數(shù)比例據(jù)整理與收集的數(shù)據(jù)統(tǒng)計分析,越南語的人名主要以2,3,4個詞素組成。主要受墊字影響,墊字可以省略也可以不省略,比如“Tình”,等等。對于其它越南語的構(gòu)詞,主要是1個詞素和2個詞素為主,其它詞素的個數(shù)比例很小,而人名的詞素個數(shù)主要集中在3,2,4為主,因此,越南語詞素的個數(shù)對于越南語的識別是有效的,本文選取當(dāng)前詞詞素個數(shù)作為本文的有效特征,其他詞素個數(shù)不再考慮。(2)指示詞信息特征:本文選取指示詞作為本文的有效的特征。指示詞能為實體識別提供一定的啟發(fā)信息,此特征已廣泛應(yīng)用于英文和中文的命名實體當(dāng)中,指示詞往往與實體緊挨。比如指示詞“公司”“學(xué)?!薄按髮W(xué)”“先生”“夫人”(bà),“叔叔”(bác),省縣到去在等等;在識別百分比時可以用“%”作為指示詞特征,識別時間時可以用“年”,“月”,“日”等做為指示詞。因此,本文選取指示詞作為有效特征。(3)首詞素是否存在姓氏庫信息特征:本文選取首音節(jié)是否在姓氏庫中存在來判斷該越南語詞是否是人名實體,越南語人名和中文人名一樣,首音節(jié)是姓氏,很有可能構(gòu)成的是人名。本文統(tǒng)計了越南語的人名姓氏庫,判斷第一個詞素是否存在在姓氏庫中,這樣可以減小判斷范圍,有利于越南語人名的識別。(4)首字母是否為大寫信息特征:本文選取越南語詞中第一個詞素的首字母是否大寫,在越南語正式的書寫中人名和地名的首字母是大寫。因此本文選取首字母是否為大寫來區(qū)別實體詞語非實體詞。例如:“北京市”翻譯成“福建省”翻譯成人名中等等,因此,該特征可以作為本文的特征。(5)其它詞素的首字母是否為大寫信息特征:本文選取除了首字母以外,其他音節(jié)第一個字母是否大寫,因為對于人名和地名來說,每個音節(jié)的首字母都是大寫,而對于組織機構(gòu)名和時間來說并非全部大寫。例如:組織機構(gòu)名中的詞素的首字母為小寫;地名中所有的詞素為大寫;人名中所有的詞素的首字母均為大寫。(6)外來詞信息特征:本文針對于非漢越地名選取“-”作為本文特征。對越南語地名的統(tǒng)計分析發(fā)現(xiàn),除了漢越地名外,其他地名在拼寫時會出現(xiàn)“-”,例如。因此本文根據(jù)當(dāng)前詞中是否含有“-”,進(jìn)行判斷是否是非漢越詞。(7)命名實體字典信息特征:其目的在于有效利用越南語命名實體的相關(guān)字典信息,從而彌補訓(xùn)練語料資源受限的不足。其中人名字典分為“越南語姓氏表”、“越南語人名用字表”、“越南語墊字用字表”;地名詞典涉及到“常用地名表”和“縮寫地名表”;組織機構(gòu)名字典涉及到“常用機構(gòu)名表”和“縮寫機構(gòu)名表”;時間字典表涉及到“常用時間表達(dá)方式表”。此優(yōu)選方案設(shè)計是本專利的核心內(nèi)容之一,主要根據(jù)越南語言和實體特點進(jìn)行選取有效的識別特征(局部特征和全局特征),有效地挖掘了各實體的特點,為本專利的下一步制定模型訓(xùn)練所需格式提供前提基礎(chǔ)。Step1.8、根據(jù)Step1.7中已選取的越南語命名實體有效特征,結(jié)合從Step1.6中取出的越南語句子級命名實體語料,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式;其中,制定最大熵模型訓(xùn)練所需要的訓(xùn)練格式時,采用人工把取出的越南語句子級命名實體語料標(biāo)注標(biāo)注成列的格式形成訓(xùn)練格式;本發(fā)明中使用最大熵的統(tǒng)計分析方法,對于不同的機器學(xué)習(xí)方法,訓(xùn)練語料格式不一樣,因此,本文將選取的最大熵訓(xùn)練語料結(jié)合所選取的越南語命名實體特征,生成最大熵模型訓(xùn)練時所需要的語料格式。Step1.9、從Step1.8中獲取已標(biāo)注好的訓(xùn)練格式語料,使用最大熵統(tǒng)計方法進(jìn)行分析,生成越南語最大熵命名實體識別模型。此優(yōu)選方案設(shè)計是本專利的重要組成部分,主要結(jié)合越南語實體特性,生成基于最大熵的越南語命名實體識別模型。主要包括語料的預(yù)處理過程;越南語語料進(jìn)行分詞、詞性標(biāo)注、組塊標(biāo)注和人工標(biāo)記越南語命名實體語料,根據(jù)越南語言和實體特點,選取有效的識別特征(局部特征和全局特征);根據(jù)已標(biāo)記的語料和選取的有效特征,生成模型訓(xùn)練時所需要的樣式;使用最大熵統(tǒng)計分析方法進(jìn)行建模。實施例3:如圖1-2所示,融合實體特性的越南語命名實體識別方法,本實施例與實施例2相同,其中:作為本發(fā)明的優(yōu)選技術(shù)方案,所述步驟Step2的具體步驟為:Step2.1、隨機選取越南語句子級命名實體語料,得到越南語句子級命名實體測試語料;本發(fā)明中要對已構(gòu)建的融合實體特性的越南語最大熵命名實體模型進(jìn)行測試,考查該模型的性能。測試需要測試語料,且來源于數(shù)據(jù)庫中已人工標(biāo)記好的越南語句子級命名實體語料,為了盡可能保證數(shù)據(jù)的準(zhǔn)確性,盡量測試語料不包括在訓(xùn)練語料中。Step2.2、根據(jù)獲得的越南語句子級的命名實體測試語料,經(jīng)過已建好的越南語最大熵命名實體識別模型進(jìn)行標(biāo)注,得到越南語句子級命名實體標(biāo)注序列化標(biāo)記結(jié)果。本發(fā)明中使用最大熵統(tǒng)計分析方法對已獲取的測試語料進(jìn)行測試,生成測試語料標(biāo)記結(jié)果,將識別的結(jié)果與正確結(jié)果進(jìn)行比較。此優(yōu)選方案設(shè)計是對生成的模型的進(jìn)行測試其性能的好壞以及通過測試比較每個特征對模型的貢獻(xiàn),為以后的研究提供一定的依據(jù)。本實施例構(gòu)建了規(guī)模為140392詞的越南語句子級命名實體語料庫,為本專利模型的構(gòu)建與測試提供了語料的支撐;從構(gòu)建好的越南語句子級命名實體語料中取出部分做為測試語料;這些待測試的命名實體識別最好是沒有包含在最大熵模型中所需要的基本特征模板訓(xùn)練樣式的訓(xùn)練語料當(dāng)中,這樣為了測試該模型的準(zhǔn)確性;為了驗證本發(fā)明識別出來的命名實體的效果,將采用統(tǒng)一的評價標(biāo)準(zhǔn):正確率(Precision)、召回率(Recall)、F值做為本發(fā)明的評價標(biāo)準(zhǔn),衡量本發(fā)明的性能。F=2*P*RP+R]]>本發(fā)明為了驗證該發(fā)明的的有效性、可行性設(shè)計以下幾組實驗進(jìn)行驗證:實驗一:為了證明本文發(fā)明方法的效果與現(xiàn)有的條件隨機場方法(CRFs)進(jìn)行比較,實驗結(jié)果如表所示。表2方法對比方法正確率召回率F值CRFs(條件隨機場)84.84%83.73%84.27%ME(最大熵)88.35%86.69%87.51%表2中可以看出,本發(fā)明的方法的效果明顯高于現(xiàn)有的條件隨機場方法效果,主要由于現(xiàn)有的條件隨機場方法所選的有效特征有限,未能挖掘更多有效的識別特征。實驗二:為了驗證全局變量和局部變量對于最大熵模型的貢獻(xiàn)度,用準(zhǔn)確率進(jìn)行評價,實驗結(jié)果如下表所示。表3特征貢獻(xiàn)度對比特征準(zhǔn)確率局部特征85.32%全局特征84.45%表3中可以看出,全局特征針對所有類型的實體識別,沒有針對性,而其中現(xiàn)有的條件隨機場方法就是采用全局特征進(jìn)行實體識別的,而本發(fā)明的最大熵方法中采用了全局特征、局部特征,且局部特征準(zhǔn)確率比全局高,主要因為局部特征更能具體表征各實體的特點,因此,本發(fā)明的實體識別效果更佳,能夠更好識別越南語復(fù)雜實體。上面結(jié)合附圖對本發(fā)明的具體實施方式作了詳細(xì)說明,但是本發(fā)明并不限于上述實施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。當(dāng)前第1頁1 2 3