一種融合了越南語語言特點的pcfg模型的越南語短語樹庫構(gòu)建方法
【專利摘要】本發(fā)明涉及一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法,屬自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率;再制定越南語語言特征概率;將越南語語言特征概率作為語法規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語語言特點的PCFG模型;再進行初級越南語短語樹庫的構(gòu)建;再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正,最后得到最終的越南語短語樹庫。本發(fā)明避免了人工收集和標注越南語短語樹庫的過程,節(jié)省了人力和構(gòu)建樹庫的時間;相比采用傳統(tǒng)PCFG構(gòu)建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高。
【專利說明】
一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu) 建方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法, 屬于自然語言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 越南與云南山水相連,兩國人民之間的交往歷史悠久,語言溝通在雙方人民友好 往來與相處、相互學(xué)習(xí)方面起到了十分重要的作用。因此,針對漢越雙語的研究工作具有重 要的現(xiàn)實意義。在越南語和漢語的互譯過程中,越南語的句法分析是十分重要的基礎(chǔ)工作。 句法分析是根據(jù)給定的語法體系,自動推導(dǎo)出句子的語法結(jié)構(gòu),分析句子所包含的語法單 元和這些語法單元之間的關(guān)系,將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語法樹。除了為詞義消歧、語義 分析提供技術(shù)支撐之外,句法分析的結(jié)果可直接用于機器翻譯、問答系統(tǒng)、信息抽取等應(yīng)用 中,并改善應(yīng)用的性能。目前的機器翻譯系統(tǒng)越來越依賴于句法分析,串到樹、樹到串以及 樹到樹的方法已經(jīng)應(yīng)用到機器翻譯中,并在不斷地提高機器翻譯的準確率。短語結(jié)構(gòu)分析 法就是將句子切分成短語,分析出句子短語之間的層次關(guān)系。短語結(jié)構(gòu)樹主要是由終結(jié)點、 非終結(jié)點以及短語標記構(gòu)成的,其中最基本的成分是句法標記,也就是非終結(jié)點(例如名詞 短語NP、動詞短語VP)。短語句法分析是機器分析語言句法特征非常有效的方法之一。越南 語短語標注體系和越南語短語樹庫的構(gòu)建,已經(jīng)成為整個越南語短語句法分析的核心工 作,如果能對該問題加以有效合理的解決,那么對對越南語的句法分析、機器翻譯、信息抽 取等上層應(yīng)用可以提供有力支撐。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供了一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方 法,以用于解決人工標注越南語短語樹庫比較困難的問題,構(gòu)建規(guī)模較大的越南語短語樹 庫比較稀缺的問題,本發(fā)明構(gòu)建的越南語短語樹庫對越南語的句法分析、機器翻譯、信息抽 取等上層應(yīng)用能提供有力支撐。
[0004] 本發(fā)明的技術(shù)方案是:一種融合了越南語語言特點的PCFG模型的越南語短語樹庫 構(gòu)建方法,所述融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法的具體步驟 如下:
[0005] Stepl、首先構(gòu)建越南語短語樹語料,并利用得到的語料獲取融合了越南語語言特 點的PCFG模型中的語法規(guī)則概率;
[0006] Step2、分析越南語的語言特征,主要針對越南語狀語后置和定語后置的特點,制 定越南語語言特征概率;
[0007] Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法 規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語語言特點的 PCFG模型;
[0008] Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語 文本語料庫,作為構(gòu)建初級越南語短語樹庫的測試語料;
[0009] Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語 短語樹庫的構(gòu)建;
[0010] Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正,最后得到最 終的越南語短語樹庫。
[0011]所述步驟stepl中,獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的 具體步驟如下:
[0012] Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子;
[0013] Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南 語短語樹;
[0014] Stepl.3、對得到的越南語短語樹進行人工校對,得到越南語短語樹語料;
[0015] Stepl .4、將得到的越南語短語樹語料利用Inside-Outside算法,獲取融合了越南 語語言特點的PCFG模型中的語法規(guī)則概率。
[0016] 所述步驟Step4的具體步驟如下:
[0017] Step4.1、對爬取的越南語語料進行預(yù)處理,去除html標簽、格式標簽、字符編碼和 噪首過濾等;
[0018] Step4.2、從預(yù)處理得到的語料中提取出正文和標題;
[0019] Step4.3、對Step4.2中得到的語料進行去重、機器標注處理,最后進行人工校對, 形成越南語文本語料庫,作為構(gòu)建越南語短語樹庫的測試語料。
[0020] 本發(fā)明的有益效果是:
[0021] 1、構(gòu)建的越南語短語樹庫對越南語的句法分析、機器翻譯、信息抽取等上層應(yīng)用 能提供有力支撐;
[0022] 2、構(gòu)建了規(guī)模相對較大的越南語短語樹語料庫;
[0023] 3、本發(fā)明提出的構(gòu)建短語樹的方法省略了人工收集和標注越南語短語樹庫的過 程,大大的節(jié)省了人力和構(gòu)建樹庫的時間;
[0024] 4、本發(fā)明提出的構(gòu)建短語樹的方法在語料規(guī)模較小的情況下相比采用傳統(tǒng)PCFG 構(gòu)建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高。
【附圖說明】
[0025]圖1為本發(fā)明中的流程圖。
【具體實施方式】
[0026]實施例1:如圖1所示,一種融合了越南語語言特點的PCFG模型的越南語短語樹庫 構(gòu)建方法。融合語言特點與上下文無關(guān)文法(PCFG)的越南語短語樹庫構(gòu)建方法的具體步驟 如下:
[0027] Stepl、首先構(gòu)建越南語短語樹語料,并利用得到的語料獲取融合了越南語語言特 點的PCFG模型中的語法規(guī)則概率;
[0028] Step2、分析越南語的語言特征,主要針對越南語狀語后置和定語后置的特點,制 定越南語語言特征概率;
[0029] Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法 規(guī)則概率的補充和語法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語語言特點的 PCFG模型;
[0030] Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語 文本語料庫,作為構(gòu)建初級越南語短語樹庫的測試語料;
[0031] Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語 短語樹庫的構(gòu)建;
[0032] Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正,最后得到最 終的越南語短語樹庫。
[0033]所述步驟Stepl中,獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率的 具體步驟如下:
[0034] Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子;
[0035] Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南 語短語樹;
[0036] Stepl.3、對得到的越南語短語樹進行人工校對,得到越南語短語樹語料;
[0037] Step 1.4、將得到的越南語短語樹語料利用Ins i de-〇ut s ide算法,獲取融合了越南 語語言特點的PCFG模型中的語法規(guī)則概率。
[0038] 所述步驟Step4的具體步驟如下:
[0039] Step4.1、對爬取的越南語語料進行預(yù)處理,去除html標簽、格式標簽、字符編碼和 噪首過濾等;
[0040] Step4.2、從預(yù)處理得到的語料中提取出正文和標題;
[0041] Step4.3、對Step4.2中得到的語料進行去重、機器標注處理,最后進行人工校對, 形成越南語文本語料庫,作為構(gòu)建初級越南語短語樹庫的測試語料。
[0042]其中,所述步驟Stepl中首先構(gòu)建越南語短語樹語料,并利用得到的語料獲取融合 了越南語語言特點的PCFG模型中的語法規(guī)則概率,具體的包含部分語法規(guī)則概率的選取結(jié) 果如表1所示;
[0043] 表1部分越南語語法規(guī)則概率示例
1〇〇45]^構(gòu)建一定數(shù)量的越南語短語樹語料是進行越南語短語樹庫構(gòu)建的基礎(chǔ)。只有建設(shè) 出高質(zhì)量的語料,才能以之為基礎(chǔ)進行信息化開發(fā)工作。短語樹語料也是進行融合語言特 點PCFG短語樹庫構(gòu)建研究不可缺少的一個組成部分。構(gòu)建一定數(shù)量的短語樹語料具體步驟 如下:
[0046] 1)、從VLSP平臺的組塊語料中獲取分詞以后的越南語句子;
[0047]首先在VLSP平臺上下載越南語組塊的語料,提取分詞得到的越南語單句3000句。 [0048] 2)、把得到的分詞之后的越南語句子放在VLSP平臺中分析得到對應(yīng)的越南語短語 樹;
[0049] 把得到的3000句分詞之后的越南語單句,放在VLSP平臺中可以得到對應(yīng)的短語結(jié) 構(gòu)樹庫。
[0050] 3)、對得到的越南語短語樹讓越南語老師和學(xué)生進行人工校對,從而得到準確率 比較高的越南語短語樹庫;
[0051] 為了能夠更好的進行樹庫轉(zhuǎn)換工作,請越南語老師和越南留學(xué)生對得到的3000句 短語結(jié)構(gòu)樹庫進行人工校對,以保證實驗基礎(chǔ)語料的準確性。
[0052] 4)、利用得到短語樹庫語料,將其中的2000句作為訓(xùn)練語料,1000句作為測試語 料,獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率;
[0053]對于規(guī)則概率值的估計一般做法是:首先通過統(tǒng)計訓(xùn)練語料庫中出現(xiàn)的規(guī)則及其 出現(xiàn)次數(shù),然后再利用最大似然估計從規(guī)則出現(xiàn)頻率估計出規(guī)則使用概率,作為規(guī)則的概 率值,計算公式如下:
(1)
[0055] 這里C(A-X)表示規(guī)則A-X在樹庫中出現(xiàn)的次數(shù),Pr(A-X)表示規(guī)則A-X的估計 概率值。
[0056] 這種做法使得規(guī)則概率值的設(shè)定對訓(xùn)練語料庫的依賴程度非常的大,這就要求要 有一個很大規(guī)模的樹庫作為訓(xùn)練語料,但在目前越南語樹庫規(guī)模較小的情況下,這種方法 將使得概率值的設(shè)定完全依賴于樹庫中的句子,無法反映自然語言的真實規(guī)律。本文的做 法還是沿用已有的Inside-Outside算法,首先通過樹庫統(tǒng)計得到規(guī)則的初始集,然后利用 EM算法在訓(xùn)練語料庫中進行迭代訓(xùn)練從而得到一個收斂的PCFG文法,唯一不同的一點在于 產(chǎn)生式規(guī)則初始概率的設(shè)定上。為了盡量減少規(guī)則概率的估計對語料庫的依賴,我們對利 用公式(1)得到的規(guī)則的初始估計概率值進行再次估算,做法如下:
[0057]設(shè)置一個閥值Y,將規(guī)則分成高頻規(guī)則集和低頻規(guī)則集HFR和LFR,分別如下:
[0058] HFR={A-X|Pr(A-X)> y } (2)
[0059] LFR={A-X|Pr(A-XK y } (3)
[0060] 假設(shè)M為LFR集合中規(guī)則的個數(shù),N為HFR中所有規(guī)則的概率值的總和,即
[0061] N= E(A-X)eHFRPr(A-X) (4)
[0062] 此時再利用公式(5)與(6)得到用于開始迭代的初始概率值
C5) (:6)
[0065]這里a取值范圍為0-1,是再次估計后HFR集合中所有規(guī)則的估計概率值的總和;同 樣的,(1 -a)為LFR集合中規(guī)則的概率值總和,在本文的實驗中a取值0.9。
[0066]其中,所述Step2分析越南語的語言特征,主要針對越南語狀語后置和定語后置的 特點,制定越南語語言特征概率,具體的包含語言特征概率的選取結(jié)果如表2所示;
[0067] 越南語屬于南亞語系,它是越南國家的母語。大多數(shù)說越南語的人都分布在東南 亞。越南語是一種相當固定語序的語言,由固定的語序構(gòu)成主謂賓(SV0),也就是說,他們一 般的語序為:主語+謂語+賓語。每一種語言都有自己的語序,越南語主要依靠成分的順序去 傳達重要的語法信息。盡管越南語文本的書寫來源于拉丁字母表的變種(形體簡單清楚,便 于認讀書寫,流傳很廣,成為世界最通行的字母。始于十七世紀,廣泛流行于二十世紀),越 南語有三個明顯的特點區(qū)別去西方語言。
[0068] 漢語和越南語差異性從修飾詞與定語的位置、狀語的位置、補賓語的位置這三個 方面來討論:
[0069] 首先,從修飾詞-定語的位置進行分析,越南語定語位置和漢語不同,越南語定語 一般在中心詞后邊。例如:"C61am&t (她是)c6gSi (女孩)xinh衝p(美麗的)"。越南語里只有 當數(shù)詞、量詞或指示代詞"各"、"每"等充當?shù)亩ㄕZ排在中心語之時,漢語和越語定位置才是 相同的,例如:Anh.dlmua (他買了)m§t. quA tSo (-個蘋果);Mo i nguoi (每個人)dlu cuM (都 笑了)。另外一種修飾詞-定語的位置情況是,越南語的描寫性多層定語的結(jié)構(gòu)順序與漢語 呈鏡像關(guān)系,漢語中描寫性定語的順序是:1-2-3-4_中心語;與之相反,越語的順序是:中心 語m-l。例如:C61&(她是)cdg&i (女孩)xinhdQp tiMt (最美剛的)mfildi tii'ng (My (我見 過的)"。
[0070] 其次,從修飾詞-狀語的位置進行分析,從狀語的位置分析分為三種情況:第一,漢 語與越南語狀語成分大多數(shù)情況下是一致的,但是時間狀語的問題上不相同,在漢語習(xí)慣 中,時間的狀語是放在主語后面,但在越南語中時間狀語放是在句末的,例如:"Ngai Mi6ng. _d:4n Idphpc ng&_y_(他沒來上課);h6m.nay(今天)";第二,越南語中由介詞短語充當?shù)?時間的狀語,一般這樣的時間狀語也放在句末,例如:& Mngxanha(我就遠離家鄉(xiāng))tunM (從小)";第三,越南語里表示處所的狀語一般位于謂語動詞之后,例如:"T6i thir^mg an(我 常常吃飯)dqu如Sn lij phyc vi..i(在食堂)。
[0071]最后,從修飾詞-補語和賓語的位置來進行分析:第一種情況:補語的語義指向賓 語部分時,越南語的賓語和補語部分不能同時放在動詞后面,例如:"C6ay danhc6nX她打孩 子)kh6cr6i (哭了)";第二種情況:補語的語義指向動詞時,越語的賓語和補語能同時現(xiàn)于 動詞之后,例如:"MldanM(媽媽織毛衣)dtnhanh(很快)"。
[0072] 更具上面的針對越南語的語法特征的分析,制定出越南語語法特征概率,具體的 特征概率的部分示例在表2中給出。
[0073] 表2部分越南語語言特征概率示例
[0075]其中,所述步驟Step3中將越南語語言特征概率作為融合了越南語語言特點的 PCFG模型中的語法規(guī)則概率的補充和語法規(guī)則概率一起融入到傳統(tǒng)的PCFG模型中,得到融 合了越南語語言特點的PCFG模型;
[0076] 結(jié)合Step2中得到的越南語語言特征概率以及Stepl中得到的語法規(guī)則概率的分 析,提出共現(xiàn)概率的計算方法,同時將這些方法融入到傳統(tǒng)PCFG模型中,最終得到針對越南 語短語樹構(gòu)建的新的PCFG模型。
[0077]對于結(jié)構(gòu)共現(xiàn)概率的計算,我們采用的是最大似然估計的方法,以下是具體計算 公式。對于處于句首的句法范疇C有向前共現(xiàn)概率:
(7)
[0079]對于非句首的句法范疇C有向前共現(xiàn)概率:
(8)
[0081 ] 類似的有計算向后共現(xiàn)概率的方法。對于處于句尾的句法范疇C有向后共現(xiàn)概率:
(9)
[0083]對于非句尾的句法范疇C有向后共現(xiàn)概率:
(10)
[0085]在本文中統(tǒng)計概率時出現(xiàn)的數(shù)據(jù)稀疏問題我們采用一種簡單的平滑方法來處理。 對于以上公式(9)到(10),統(tǒng)一用公式(11)來表示:
(11)
[0087]其中P是要求的概率,M是分子,是某一個要統(tǒng)計的頻次,N是分母,是某一個總數(shù)。 對于統(tǒng)計得到M為零的情況,即出現(xiàn)零概率情況時,令其概率為1/N。為了保證總概率和為1, 其他情況的概率則根據(jù)公式(12)來計算:
(12)
[0089] 其中,所述Step4中將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對 等步驟形成文本語料庫,作為構(gòu)建初級越南語短語樹的測試語料;
[0090]基于前面構(gòu)建的越南語短語樹語料,這里使用MST算法訓(xùn)練得到依存關(guān)系模型,然 后利用得到的模型對新的越南語句子進行訓(xùn)練,這里我們將越南語短語樹庫的規(guī)模擴充到 20萬句。
[0091 ] 1 )、從中國國際廣播電臺的越南語版塊上爬取越南語新聞、廣播、博客、論壇、學(xué)習(xí) 中國、娛樂等十三個方面的語料;
[0092] 網(wǎng)絡(luò)新聞以網(wǎng)絡(luò)為載體,具有全面、實時、多元等多個特點。在越南網(wǎng)絡(luò)新聞中,關(guān) 于中越兩國之間的新聞報道越來越多,無疑互聯(lián)網(wǎng)已經(jīng)成為目前容量最大、速度最快和信 息最為全面的新聞信息傳播平臺。因此,這種時效性的越南語網(wǎng)絡(luò)應(yīng)該作為我們語料的主 要采集地。
[0093] 目前,由于互聯(lián)網(wǎng)的快速發(fā)展,關(guān)于越南語新聞的報道有很多網(wǎng)站,但是就越南語 新聞的權(quán)威性來講,目前,主要有以下網(wǎng)站,如下表3所示。
[0094] 表3語料選取
[0096]由于中國國際廣播電臺作為中越兩國官方信息來源,它不僅實時的報道越南語國 內(nèi)國家的實時新聞,還會報道中越兩國之間各行各業(yè),比如經(jīng)濟,政治、文化和娛樂等方面 的信息,信息比較全面。不僅向中國而且向世界傳達越南的真實面貌,并將世界其他國家的 信息傳達給越南國內(nèi)的讀者。所以本文選取中國國際廣播電臺網(wǎng)站作為越南語新聞?wù)Z料的 獲取來源。
[0097] 2)、對爬取的越南語語料進行預(yù)處理,去除html標簽、格式標簽、字符編碼和噪音 過濾等;
[0098] 采集到新聞網(wǎng)頁不僅包含了主題型網(wǎng)頁,也包含了大量的目錄型網(wǎng)頁。其中主題 型網(wǎng)頁包含了主要的新聞信息,比如新聞標題、新聞?wù)?、發(fā)布時間、作者,但也包含了許多 噪音信息,比如,圖片、廣告、HTML標簽等。而目錄型網(wǎng)頁則認為是噪音信息,必須過濾掉。通 過對噪聲網(wǎng)頁特征的深入分析,本文采用特征閾值判別和規(guī)則相結(jié)合的方法過濾噪音網(wǎng) 頁,然后根據(jù)HTML標簽過濾規(guī)則對網(wǎng)頁數(shù)據(jù)進一步處理。
[0099] 3)、從預(yù)處理得到的語料中提取出正文和標題;
[0100]通過上一步,可以得到新聞?wù)奈谋緝?nèi)容,但是內(nèi)容是由段落構(gòu)成,每個段落中有 包含了一句或者n(你大于等于2)多句子構(gòu)成,分詞和詞性標注模型的訓(xùn)練要求是句子級語 料,所以有必要多新聞文本內(nèi)容進行處理。通過句號、問號、感嘆號為標識進行自動切分,得 到越南語句子級文本語料庫。
[0101] 4)、對Step4.3中得到的語料進行去重、機器標注處理,最后由越南語老師和學(xué)生 進行人工校對,形成文本語料庫;
[0102] 越南語的自然語言處理最重要的基礎(chǔ)工作就是對越南語進行分詞和詞性標注,它 也是越南語信息處理中重要的基礎(chǔ)環(huán)節(jié)。有監(jiān)督的訓(xùn)練方法需要標注語料,無論是分詞還 是詞性標注,都需要從標注好的語料中學(xué)習(xí)、統(tǒng)計并提取標注規(guī)則,進而對非標注語料進行 準確的標注。然而人工標注語料既費時又費力,所以為了節(jié)省時間和開銷,我們采用了機器 標注(已有的越南語分詞工具VnTokenizer),人工校對的方式進行,最后形成文本語料庫。 [0103]其中,所述步驟Step5中把測試語料加載到融合了越南語語言特點的PCFG模型中 進行初級越南語短語樹庫的構(gòu)建;
[0104]基于Step3中得到的融合語言特點PCFG模型用Step4得到的越南語文本語料進行 越南語短語樹庫的構(gòu)建,最終得到初級越南語短語樹庫。
[0105]其中,所述步驟Step6中利用短語樹庫校正器對新生成的初級越南語短語樹庫進 行校正,最后得到質(zhì)量較高的越南語短語樹庫。
[0106]由于step5中得到的初級越南語短語樹庫在質(zhì)量上存在一些問題,主要是由于所 得到的到Step2中得到的越南語語言特征概率以及Stepl中得到的語法規(guī)則概率并不能完 全覆蓋所有的越南語語法規(guī)則和語言特點所造成的,針對這一問題,利用短語樹庫校正器 對初級越南語短語樹庫進行校正,最后得到質(zhì)量較高的越南語短語樹庫。
[0107] 本發(fā)明首先獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則概率;再制定越 南語語言特征概率;將越南語語言特征概率作為語法規(guī)則概率的補充和語法規(guī)則概率一起 融入到PCFG模型中,得到融合了越南語語言特點的PCFG模型;再進行初級越南語短語樹庫 的構(gòu)建;再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正,最后得到最終的越 南語短語樹庫。
[0108] 實驗結(jié)果如表4所示。表4中可以看出,采用以融合語言特點與上下文無關(guān)文法 (PCFG)的越南語短語樹庫構(gòu)建方法所生成的越南語短語樹庫,準確率相比采用傳統(tǒng)PCFG構(gòu) 建越南語短語樹庫和最大熵構(gòu)建越南語短語樹庫方法準確率明顯提高
[0109] 其中,采用PARSEVAL句法分析評價體系,它是一種國際上通用的評測標準。主要由 準確率(LP)、召回率(LR)和F值三個指標,F(xiàn)值綜合考慮了準確率和召回率。其定義如下:
[0113]表4其他方法和本發(fā)明方法的比較
[0115]上面結(jié)合附圖對本發(fā)明的【具體實施方式】作了詳細說明,但是本發(fā)明并不限于上述 實施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前 提下作出各種變化。
【主權(quán)項】
1. 一種融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法,其特征在于: 所述融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方法的具體步驟如下: Stepl、首先構(gòu)建越南語短語樹語料,并利用得到的語料獲取融合了越南語語言特點的 PCFG模型中的語法規(guī)則概率; Step2、分析越南語的語言特征,主要針對越南語狀語后置和定語后置的特點,制定越 南語語言特征概率; Step3、將越南語語言特征概率作為融合了越南語語言特點的PCFG模型中的語法規(guī)則 概率的補充和語法規(guī)則概率一起融入到PCFG模型中,得到融合了越南語語言特點的PCFG模 型; Step4、將爬取的越南語網(wǎng)頁經(jīng)過規(guī)則提取、去重、機器標注、人工校對形成越南語文本 語料庫,作為構(gòu)建初級越南語短語樹庫的測試語料; Step5、把測試語料加載到融合了越南語語言特點的PCFG模型中進行初級越南語短語 樹庫的構(gòu)建; Step6、再利用短語樹庫校正器對新生成的越南語短語樹庫進行校正,最后得到最終的 越南語短語樹庫。2. 根據(jù)權(quán)利要求1所述的融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方 法,其特征在于:所述步驟Stepl中,獲取融合了越南語語言特點的PCFG模型中的語法規(guī)則 概率的具體步驟如下: Stepl. 1、從VLSP的組塊語料中獲取分詞以后的越南語句子; Stepl. 2、把得到的分詞之后的越南語句子放在VLSP網(wǎng)站中分析得到對應(yīng)的越南語短 語樹; Step 1.3、對得到的越南語短語樹進行人工校對,得到越南語短語樹語料; Step 1.4、將得到的越南語短語樹語料利用Ins i de-〇ut s i de算法,獲取融合了越南語語 言特點的PCFG模型中的語法規(guī)則概率。3. 根據(jù)權(quán)利要求1所述的融合了越南語語言特點的PCFG模型的越南語短語樹庫構(gòu)建方 法,其特征在于:所述步驟Step4的具體步驟如下: Step4.1、對爬取的越南語語料進行預(yù)處理,去除html標簽、格式標簽、字符編碼和噪音 過濾等; Step4.2、從預(yù)處理得到的語料中提取出正文和標題; Step4.3、對Step4.2中得到的語料進行去重、機器標注處理,最后進行人工校對,形成 越南語文本語料庫,作為構(gòu)建越南語短語樹庫的測試語料。
【文檔編號】G06F17/27GK105912529SQ201610242291
【公開日】2016年8月31日
【申請日】2016年4月19日
【發(fā)明人】郭劍毅, 李英, 余正濤, 線巖團, 毛存禮, 陳瑋
【申請人】昆明理工大學(xué)