一種融合了越南語語言特點的pcfg模型的越南語短語樹庫構(gòu)建方法

文檔序號：10552889閱讀：281來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種融合了越南語語言特點的pcfg模型的越南語短語樹庫構(gòu)建方法
【專利摘要】本發(fā)明涉及一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，屬自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率；再制定越南語語言特征概率；將越南語語言特征概率作為語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中，得到融合了越南語語言特點的PCFG模型；再進行初級越南語短語樹庫的構(gòu)建；再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正，最后得到最終的越南語短語樹庫。本發(fā)明避免了人工收集和標注越南語短語樹庫的過程，節(jié)省了人力和構(gòu)建樹庫的時間；相比采用傳統(tǒng)PCFG構(gòu)建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高。
【專利說明】
一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu) 建方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，屬于自然語言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 越南與云南山水相連，兩國人民之間的交往歷史悠久，語言溝通在雙方人民友好往來與相處、相互學(xué)習(xí)方面起到了十分重要的作用。因此，針對漢越雙語的研究工作具有重要的現(xiàn)實意義。在越南語和漢語的互譯過程中，越南語的句法分析是十分重要的基礎(chǔ)工作。句法分析是根據(jù)給定的語法體系，自動推導(dǎo)出句子的語法結(jié)構(gòu)，分析句子所包含的語法單元和這些語法單元之間的關(guān)系，將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語法樹。除了為詞義消歧、語義分析提供技術(shù)支撐之外，句法分析的結(jié)果可直接用于機器翻譯、問答系統(tǒng)、信息抽取等應(yīng)用中，并改善應(yīng)用的性能。目前的機器翻譯系統(tǒng)越來越依賴于句法分析，串到樹、樹到串以及樹到樹的方法已經(jīng)應(yīng)用到機器翻譯中，并在不斷地提高機器翻譯的準確率。短語結(jié)構(gòu)分析法就是將句子切分成短語，分析出句子短語之間的層次關(guān)系。短語結(jié)構(gòu)樹主要是由終結(jié)點、非終結(jié)點以及短語標記構(gòu)成的，其中最基本的成分是句法標記，也就是非終結(jié)點（例如名詞短語NP、動詞短語VP)。短語句法分析是機器分析語言句法特征非常有效的方法之一。越南語短語標注體系和越南語短語樹庫的構(gòu)建，已經(jīng)成為整個越南語短語句法分析的核心工作，如果能對該問題加以有效合理的解決，那么對對越南語的句法分析、機器翻譯、信息抽取等上層應(yīng)用可以提供有力支撐。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明提供了一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，以用于解決人工標注越南語短語樹庫比較困難的問題，構(gòu)建規(guī)模較大的越南語短語樹庫比較稀缺的問題，本發(fā)明構(gòu)建的越南語短語樹庫對越南語的句法分析、機器翻譯、信息抽取等上層應(yīng)用能提供有力支撐。
[0004] 本發(fā)明的技術(shù)方案是:一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，所述融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法的具體步驟如下：
[0005] Stepl、首先構(gòu)建越南語短語樹語料，并利用得到的語料獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率；
[0006] Step2、分析越南語的語言特征，主要針對越南語狀語后置和定語后置的特點，制定越南語語言特征概率；
[0007] Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中，得到融合了越南語語言特點的 PCFG模型；
[0008] Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語文本語料庫，作為構(gòu)建初級越南語短語樹庫的測試語料；
[0009] Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語短語樹庫的構(gòu)建；
[0010] Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正，最后得到最終的越南語短語樹庫。
[0011]所述步驟stepl中，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的具體步驟如下：
[0012] Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子；
[0013] Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南語短語樹；
[0014] Stepl.3、對得到的越南語短語樹進行人工校對，得到越南語短語樹語料；
[0015] Stepl .4、將得到的越南語短語樹語料利用Inside-Outside算法，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率。
[0016] 所述步驟Step4的具體步驟如下：
[0017] Step4.1、對爬取的越南語語料進行預(yù)處理，去除html標簽、格式標簽、字符編碼和噪首過濾等；
[0018] Step4.2、從預(yù)處理得到的語料中提取出正文和標題；
[0019] Step4.3、對Step4.2中得到的語料進行去重、機器標注處理，最后進行人工校對，形成越南語文本語料庫，作為構(gòu)建越南語短語樹庫的測試語料。
[0020] 本發(fā)明的有益效果是：
[0021] 1、構(gòu)建的越南語短語樹庫對越南語的句法分析、機器翻譯、信息抽取等上層應(yīng)用能提供有力支撐；
[0022] 2、構(gòu)建了規(guī)模相對較大的越南語短語樹語料庫；
[0023] 3、本發(fā)明提出的構(gòu)建短語樹的方法省略了人工收集和標注越南語短語樹庫的過程，大大的節(jié)省了人力和構(gòu)建樹庫的時間；
[0024] 4、本發(fā)明提出的構(gòu)建短語樹的方法在語料規(guī)模較小的情況下相比采用傳統(tǒng)PCFG 構(gòu)建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高。
【附圖說明】
[0025]圖1為本發(fā)明中的流程圖。
【具體實施方式】
[0026]實施例1:如圖1所示，一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法。融合語言特點與上下文無關(guān)文法(PCFG)的越南語短語樹庫構(gòu)建方法的具體步驟如下：
[0027] Stepl、首先構(gòu)建越南語短語樹語料，并利用得到的語料獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率；
[0028] Step2、分析越南語的語言特征，主要針對越南語狀語后置和定語后置的特點，制定越南語語言特征概率；
[0029] Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中，得到融合了越南語語言特點的 PCFG模型；
[0030] Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語文本語料庫，作為構(gòu)建初級越南語短語樹庫的測試語料；
[0031] Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語短語樹庫的構(gòu)建；
[0032] Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正，最后得到最終的越南語短語樹庫。
[0033]所述步驟Stepl中，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的具體步驟如下：
[0034] Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子；
[0035] Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南語短語樹；
[0036] Stepl.3、對得到的越南語短語樹進行人工校對，得到越南語短語樹語料；
[0037] Step 1.4、將得到的越南語短語樹語料利用Ins i de-〇ut s ide算法，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率。
[0038] 所述步驟Step4的具體步驟如下：
[0039] Step4.1、對爬取的越南語語料進行預(yù)處理，去除html標簽、格式標簽、字符編碼和噪首過濾等；
[0040] Step4.2、從預(yù)處理得到的語料中提取出正文和標題；
[0041] Step4.3、對Step4.2中得到的語料進行去重、機器標注處理，最后進行人工校對，形成越南語文本語料庫，作為構(gòu)建初級越南語短語樹庫的測試語料。
[0042]其中，所述步驟Stepl中首先構(gòu)建越南語短語樹語料，并利用得到的語料獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率，具體的包含部分語法規(guī)則概率的選取結(jié) 果如表1所示；
[0043] 表1部分越南語語法規(guī)則概率示例
1〇〇45]^構(gòu)建一定數(shù)量的越南語短語樹語料是進行越南語短語樹庫構(gòu)建的基礎(chǔ)。只有建設(shè) 出高質(zhì)量的語料，才能以之為基礎(chǔ)進行信息化開發(fā)工作。短語樹語料也是進行融合語言特點PCFG短語樹庫構(gòu)建研究不可缺少的一個組成部分。構(gòu)建一定數(shù)量的短語樹語料具體步驟如下：
[0046] 1)、從VLSP平臺的組塊語料中獲取分詞以后的越南語句子；
[0047]首先在VLSP平臺上下載越南語組塊的語料，提取分詞得到的越南語單句3000句。 [0048] 2)、把得到的分詞之后的越南語句子放在VLSP平臺中分析得到對應(yīng)的越南語短語樹；
[0049] 把得到的3000句分詞之后的越南語單句，放在VLSP平臺中可以得到對應(yīng)的短語結(jié) 構(gòu)樹庫。
[0050] 3)、對得到的越南語短語樹讓越南語老師和學(xué)生進行人工校對，從而得到準確率比較高的越南語短語樹庫；
[0051] 為了能夠更好的進行樹庫轉(zhuǎn)換工作，請越南語老師和越南留學(xué)生對得到的3000句短語結(jié)構(gòu)樹庫進行人工校對，以保證實驗基礎(chǔ)語料的準確性。
[0052] 4)、利用得到短語樹庫語料，將其中的2000句作為訓(xùn)練語料，1000句作為測試語料，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率；
[0053]對于規(guī)則概率值的估計一般做法是:首先通過統(tǒng)計訓(xùn)練語料庫中出現(xiàn)的規(guī)則及其出現(xiàn)次數(shù)，然后再利用最大似然估計從規(guī)則出現(xiàn)頻率估計出規(guī)則使用概率，作為規(guī)則的概率值，計算公式如下：
(1)
[0055] 這里C(A-X)表示規(guī)則A-X在樹庫中出現(xiàn)的次數(shù)，Pr(A-X)表示規(guī)則A-X的估計概率值。
[0056] 這種做法使得規(guī)則概率值的設(shè)定對訓(xùn)練語料庫的依賴程度非常的大，這就要求要有一個很大規(guī)模的樹庫作為訓(xùn)練語料，但在目前越南語樹庫規(guī)模較小的情況下，這種方法將使得概率值的設(shè)定完全依賴于樹庫中的句子，無法反映自然語言的真實規(guī)律。本文的做法還是沿用已有的Inside-Outside算法，首先通過樹庫統(tǒng)計得到規(guī)則的初始集，然后利用 EM算法在訓(xùn)練語料庫中進行迭代訓(xùn)練從而得到一個收斂的PCFG文法，唯一不同的一點在于產(chǎn)生式規(guī)則初始概率的設(shè)定上。為了盡量減少規(guī)則概率的估計對語料庫的依賴，我們對利用公式(1)得到的規(guī)則的初始估計概率值進行再次估算，做法如下：
[0057]設(shè)置一個閥值Y，將規(guī)則分成高頻規(guī)則集和低頻規(guī)則集HFR和LFR，分別如下：
[0058] HFR={A-X|Pr(A-X)> y } (2)
[0059] LFR={A-X|Pr(A-XK y } (3)
[0060] 假設(shè)M為LFR集合中規(guī)則的個數(shù)，N為HFR中所有規(guī)則的概率值的總和，即
[0061] N= E(A-X)eHFRPr(A-X) (4)
[0062] 此時再利用公式(5)與(6)得到用于開始迭代的初始概率值
C5) (:6)
[0065]這里a取值范圍為0-1，是再次估計后HFR集合中所有規(guī)則的估計概率值的總和；同樣的，（1 -a)為LFR集合中規(guī)則的概率值總和，在本文的實驗中a取值0.9。
[0066]其中，所述Step2分析越南語的語言特征，主要針對越南語狀語后置和定語后置的特點，制定越南語語言特征概率，具體的包含語言特征概率的選取結(jié)果如表2所示；
[0067] 越南語屬于南亞語系，它是越南國家的母語。大多數(shù)說越南語的人都分布在東南亞。越南語是一種相當固定語序的語言，由固定的語序構(gòu)成主謂賓（SV0)，也就是說，他們一般的語序為:主語+謂語+賓語。每一種語言都有自己的語序，越南語主要依靠成分的順序去傳達重要的語法信息。盡管越南語文本的書寫來源于拉丁字母表的變種(形體簡單清楚，便于認讀書寫，流傳很廣，成為世界最通行的字母。始于十七世紀，廣泛流行于二十世紀），越南語有三個明顯的特點區(qū)別去西方語言。
[0068] 漢語和越南語差異性從修飾詞與定語的位置、狀語的位置、補賓語的位置這三個方面來討論：
[0069] 首先，從修飾詞-定語的位置進行分析，越南語定語位置和漢語不同，越南語定語一般在中心詞后邊。例如："C61am&t (她是)c6gSi (女孩)xinh衝p(美麗的)"。越南語里只有當數(shù)詞、量詞或指示代詞"各"、"每"等充當?shù)亩ㄕZ排在中心語之時，漢語和越語定位置才是相同的，例如:Anh.dlmua (他買了）m§t. quA tSo (-個蘋果）；Mo i nguoi (每個人)dlu cuM (都笑了）。另外一種修飾詞-定語的位置情況是，越南語的描寫性多層定語的結(jié)構(gòu)順序與漢語呈鏡像關(guān)系，漢語中描寫性定語的順序是：1-2-3-4_中心語;與之相反，越語的順序是：中心語m-l。例如：C61&(她是）cdg&i (女孩）xinhdQp tiMt (最美剛的）mfildi tii'ng (My (我見過的)"。
[0070] 其次，從修飾詞-狀語的位置進行分析，從狀語的位置分析分為三種情況:第一，漢語與越南語狀語成分大多數(shù)情況下是一致的，但是時間狀語的問題上不相同，在漢語習(xí)慣中，時間的狀語是放在主語后面，但在越南語中時間狀語放是在句末的，例如："Ngai Mi6ng. _d:4n Idphpc ng&_y_(他沒來上課);h6m.nay(今天)"；第二，越南語中由介詞短語充當?shù)?時間的狀語，一般這樣的時間狀語也放在句末，例如：& Mngxanha(我就遠離家鄉(xiāng)）tunM (從小)"；第三，越南語里表示處所的狀語一般位于謂語動詞之后，例如："T6i thir^mg an(我常常吃飯）dqu如Sn lij phyc vi..i(在食堂）。
[0071]最后，從修飾詞-補語和賓語的位置來進行分析:第一種情況:補語的語義指向賓語部分時，越南語的賓語和補語部分不能同時放在動詞后面，例如："C6ay danhc6nX她打孩子）kh6cr6i (哭了）"；第二種情況:補語的語義指向動詞時，越語的賓語和補語能同時現(xiàn)于動詞之后，例如："MldanM(媽媽織毛衣)dtnhanh(很快)"。
[0072] 更具上面的針對越南語的語法特征的分析，制定出越南語語法特征概率，具體的特征概率的部分示例在表2中給出。
[0073] 表2部分越南語語言特征概率示例
[0075]其中，所述步驟Step3中將越南語語言特征概率作為融合了越南語語言特點的 PCFG模型中的語法規(guī)則概率的補充和語法規(guī)則概率一起融入到傳統(tǒng)的PCFG模型中，得到融合了越南語語言特點的PCFG模型；
[0076] 結(jié)合Step2中得到的越南語語言特征概率以及Stepl中得到的語法規(guī)則概率的分析，提出共現(xiàn)概率的計算方法，同時將這些方法融入到傳統(tǒng)PCFG模型中，最終得到針對越南語短語樹構(gòu)建的新的PCFG模型。
[0077]對于結(jié)構(gòu)共現(xiàn)概率的計算，我們采用的是最大似然估計的方法，以下是具體計算公式。對于處于句首的句法范疇C有向前共現(xiàn)概率：
(7)
[0079]對于非句首的句法范疇C有向前共現(xiàn)概率：
(8)
[0081 ] 類似的有計算向后共現(xiàn)概率的方法。對于處于句尾的句法范疇C有向后共現(xiàn)概率：
(9)
[0083]對于非句尾的句法范疇C有向后共現(xiàn)概率：
(10)
[0085]在本文中統(tǒng)計概率時出現(xiàn)的數(shù)據(jù)稀疏問題我們采用一種簡單的平滑方法來處理。對于以上公式(9)到（10)，統(tǒng)一用公式（11)來表示：
(11)
[0087]其中P是要求的概率，M是分子，是某一個要統(tǒng)計的頻次，N是分母，是某一個總數(shù)。對于統(tǒng)計得到M為零的情況，即出現(xiàn)零概率情況時，令其概率為1/N。為了保證總概率和為1，其他情況的概率則根據(jù)公式(12)來計算：
(12)
[0089] 其中，所述Step4中將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對等步驟形成文本語料庫，作為構(gòu)建初級越南語短語樹的測試語料；
[0090]基于前面構(gòu)建的越南語短語樹語料，這里使用MST算法訓(xùn)練得到依存關(guān)系模型，然后利用得到的模型對新的越南語句子進行訓(xùn)練，這里我們將越南語短語樹庫的規(guī)模擴充到 20萬句。
[0091 ] 1 )、從中國國際廣播電臺的越南語版塊上爬取越南語新聞、廣播、博客、論壇、學(xué)習(xí) 中國、娛樂等十三個方面的語料；
[0092] 網(wǎng)絡(luò)新聞以網(wǎng)絡(luò)為載體，具有全面、實時、多元等多個特點。在越南網(wǎng)絡(luò)新聞中，關(guān) 于中越兩國之間的新聞報道越來越多，無疑互聯(lián)網(wǎng)已經(jīng)成為目前容量最大、速度最快和信息最為全面的新聞信息傳播平臺。因此，這種時效性的越南語網(wǎng)絡(luò)應(yīng)該作為我們語料的主要采集地。
[0093] 目前，由于互聯(lián)網(wǎng)的快速發(fā)展，關(guān)于越南語新聞的報道有很多網(wǎng)站，但是就越南語新聞的權(quán)威性來講，目前，主要有以下網(wǎng)站，如下表3所示。
[0094] 表3語料選取
[0096]由于中國國際廣播電臺作為中越兩國官方信息來源，它不僅實時的報道越南語國內(nèi)國家的實時新聞，還會報道中越兩國之間各行各業(yè)，比如經(jīng)濟，政治、文化和娛樂等方面的信息，信息比較全面。不僅向中國而且向世界傳達越南的真實面貌，并將世界其他國家的信息傳達給越南國內(nèi)的讀者。所以本文選取中國國際廣播電臺網(wǎng)站作為越南語新聞?wù)Z料的獲取來源。
[0097] 2)、對爬取的越南語語料進行預(yù)處理，去除html標簽、格式標簽、字符編碼和噪音過濾等；
[0098] 采集到新聞網(wǎng)頁不僅包含了主題型網(wǎng)頁，也包含了大量的目錄型網(wǎng)頁。其中主題型網(wǎng)頁包含了主要的新聞信息，比如新聞標題、新聞?wù)?、發(fā)布時間、作者，但也包含了許多噪音信息，比如，圖片、廣告、HTML標簽等。而目錄型網(wǎng)頁則認為是噪音信息，必須過濾掉。通過對噪聲網(wǎng)頁特征的深入分析，本文采用特征閾值判別和規(guī)則相結(jié)合的方法過濾噪音網(wǎng) 頁，然后根據(jù)HTML標簽過濾規(guī)則對網(wǎng)頁數(shù)據(jù)進一步處理。
[0099] 3)、從預(yù)處理得到的語料中提取出正文和標題；
[0100]通過上一步，可以得到新聞?wù)奈谋緝?nèi)容，但是內(nèi)容是由段落構(gòu)成，每個段落中有包含了一句或者n(你大于等于2)多句子構(gòu)成，分詞和詞性標注模型的訓(xùn)練要求是句子級語料，所以有必要多新聞文本內(nèi)容進行處理。通過句號、問號、感嘆號為標識進行自動切分，得到越南語句子級文本語料庫。
[0101] 4)、對Step4.3中得到的語料進行去重、機器標注處理，最后由越南語老師和學(xué)生進行人工校對，形成文本語料庫；
[0102] 越南語的自然語言處理最重要的基礎(chǔ)工作就是對越南語進行分詞和詞性標注，它也是越南語信息處理中重要的基礎(chǔ)環(huán)節(jié)。有監(jiān)督的訓(xùn)練方法需要標注語料，無論是分詞還是詞性標注，都需要從標注好的語料中學(xué)習(xí)、統(tǒng)計并提取標注規(guī)則，進而對非標注語料進行準確的標注。然而人工標注語料既費時又費力，所以為了節(jié)省時間和開銷，我們采用了機器標注(已有的越南語分詞工具VnTokenizer)，人工校對的方式進行，最后形成文本語料庫。 [0103]其中，所述步驟Step5中把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語短語樹庫的構(gòu)建；
[0104]基于Step3中得到的融合語言特點PCFG模型用Step4得到的越南語文本語料進行越南語短語樹庫的構(gòu)建，最終得到初級越南語短語樹庫。
[0105]其中，所述步驟Step6中利用短語樹庫校正器對新生成的初級越南語短語樹庫進行校正，最后得到質(zhì)量較高的越南語短語樹庫。
[0106]由于step5中得到的初級越南語短語樹庫在質(zhì)量上存在一些問題，主要是由于所得到的到Step2中得到的越南語語言特征概率以及Stepl中得到的語法規(guī)則概率并不能完全覆蓋所有的越南語語法規(guī)則和語言特點所造成的，針對這一問題，利用短語樹庫校正器對初級越南語短語樹庫進行校正，最后得到質(zhì)量較高的越南語短語樹庫。
[0107] 本發(fā)明首先獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率;再制定越南語語言特征概率;將越南語語言特征概率作為語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中，得到融合了越南語語言特點的PCFG模型;再進行初級越南語短語樹庫的構(gòu)建;再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正，最后得到最終的越南語短語樹庫。
[0108] 實驗結(jié)果如表4所示。表4中可以看出，采用以融合語言特點與上下文無關(guān)文法 (PCFG)的越南語短語樹庫構(gòu)建方法所生成的越南語短語樹庫，準確率相比采用傳統(tǒng)PCFG構(gòu) 建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高
[0109] 其中，采用PARSEVAL句法分析評價體系，它是一種國際上通用的評測標準。主要由準確率(LP)、召回率(LR)和F值三個指標，F(xiàn)值綜合考慮了準確率和召回率。其定義如下：
[0113]表4其他方法和本發(fā)明方法的比較
[0115]上面結(jié)合附圖對本發(fā)明的【具體實施方式】作了詳細說明，但是本發(fā)明并不限于上述實施方式，在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi)，還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。
【主權(quán)項】
1. 一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，其特征在于：所述融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法的具體步驟如下： Stepl、首先構(gòu)建越南語短語樹語料，并利用得到的語料獲取融合了越南語語言特點的 PCFG模型中的語法規(guī)則概率； Step2、分析越南語的語言特征，主要針對越南語狀語后置和定語后置的特點，制定越南語語言特征概率； Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中，得到融合了越南語語言特點的PCFG模型； Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語文本語料庫，作為構(gòu)建初級越南語短語樹庫的測試語料； Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語短語樹庫的構(gòu)建； Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正，最后得到最終的越南語短語樹庫。2. 根據(jù)權(quán)利要求1所述的融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，其特征在于:所述步驟Stepl中，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的具體步驟如下： Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子； Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南語短語樹； Step 1.3、對得到的越南語短語樹進行人工校對，得到越南語短語樹語料； Step 1.4、將得到的越南語短語樹語料利用Ins i de-〇ut s i de算法，獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率。3. 根據(jù)權(quán)利要求1所述的融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法，其特征在于:所述步驟Step4的具體步驟如下： Step4.1、對爬取的越南語語料進行預(yù)處理，去除html標簽、格式標簽、字符編碼和噪音過濾等； Step4.2、從預(yù)處理得到的語料中提取出正文和標題； Step4.3、對Step4.2中得到的語料進行去重、機器標注處理，最后進行人工校對，形成越南語文本語料庫，作為構(gòu)建越南語短語樹庫的測試語料。
【文檔編號】G06F17/27GK105912529SQ201610242291
【公開日】2016年8月31日
【申請日】2016年4月19日
【發(fā)明人】郭劍毅, 李英, 余正濤, 線巖團, 毛存禮, 陳瑋
【申請人】昆明理工大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭劍毅;李英;余正濤;線巖團;毛存禮;陳瑋;
技術(shù)所有人：昆明理工大學(xué);
我是此專利的發(fā)明人

上一篇：面向智能機器人的信息處理方法及系統(tǒng)的制作方法
上一篇：一種問句分類方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

融合蛋白的構(gòu)建相關(guān)技術(shù)

構(gòu)建融合蛋白相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種融合了越南語語言特點的pcfg模型的越南語短語樹庫構(gòu)建方法