專利名稱:一種基于詞位標注的藏文分詞方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機及藏文信息處理領(lǐng)域,更具體地說,涉及藏文分詞領(lǐng)域,提供了 一種基于詞位標注的藏文分詞方法。
背景技術(shù):
隨著計算機對藏文支持能力的增強,以及我國少數(shù)民族地區(qū)信息化進程的逐步推 進,越來越多的藏文信息開始通過計算機進行存儲和傳播,藏文信息處理的研究也從操作 系統(tǒng)支持、排版印刷、輸入法和字庫等基礎(chǔ)的文字層面逐步轉(zhuǎn)向文字識別、文語轉(zhuǎn)換、文本 校正、信息檢索、機器翻譯等文本層面。然而,藏文是一種拼音文字,其各音節(jié)之間由音節(jié)點 分隔,但是詞與詞之間卻沒有分隔標記,同漢語類似,分詞是藏文信息處理的基礎(chǔ)。藏文音 節(jié)(藏字)的結(jié)構(gòu)如圖1所示,藏文句子由多個藏文音節(jié)構(gòu)成,如圖2所示。經(jīng)過多年的發(fā)展,研究人員已經(jīng)提出了多種藏文分詞方法,包括基于字符串匹配 的方法、基于格助詞和接續(xù)特征的方法。基于字符串匹配的分詞方法又稱為機械分詞方法。這種方法依照特定的策略將待 分析的文字序列與詞典中的詞條進行匹配,若在詞典中找到某個詞,則匹配成功(識別出 一個詞)。按照掃描方向的不同,字符串匹配方法可以分為正向匹配和逆向匹配,也可以同 時從兩個方向進行切分,發(fā)現(xiàn)切分歧義,并進行切分歧義消解。基于格助詞和接續(xù)特征的方法充分利用藏文的語言特性進行分詞。利用字切分 特征和字性庫先‘認字’,利用標點符號和關(guān)聯(lián)詞將藏文的段落分成句子,在單個句子中利 用格助詞將句子‘分塊’,再用詞典進行塊內(nèi)分詞。該方法的技術(shù)特點是,綜合運用藏文字、 詞、句等各類形態(tài)特征,在藏文格助詞、接續(xù)特征、字性知識庫以及詞典的支持下,采用逐級 定位的確定性算法實現(xiàn)藏文的自動分詞?,F(xiàn)有的藏文分詞方法雖然在小規(guī)模實驗中取得了較好的效果,但由于藏文語言文 字的特點,存在將兩個藏字緊縮為一個藏字等等同漢語不同的情況,在方法實現(xiàn)中需要考 慮很多細節(jié)問題;同時,上述方法在切分的各個階段,包括斷句、分塊、塊內(nèi)分詞等都存在切 分歧義的情況,導(dǎo)致切分精度不高;另外,上述方法都依賴于藏文詞典,對新詞術(shù)語、命名實 體等未登錄詞的處理效果不盡如人意。
發(fā)明內(nèi)容
針對現(xiàn)有藏文分詞方法中對切分歧義及未登錄詞等兩個重要問題處理效果較差 的問題,本發(fā)明的目的在于提供一種藏文分詞的方法,以期在整體上取得更好的分詞結(jié)果。所述方法包括以下步驟A.對輸入的藏文文本,以標點符號為標志切分為一系列藏文句子;B.對每個藏文句子,以藏文音節(jié)點為標志切分為一系列藏文音節(jié);C.對每個藏文音節(jié),根據(jù)其所處上下文環(huán)境采用優(yōu)選方法從知識庫中查找并選擇 一個詞位標簽賦予該音節(jié),詞位標簽為如下五種之一詞首,詞中,詞尾,獨立,緊縮;
D.將所有被標記為“緊縮”的音節(jié)還原為兩個音節(jié),并依前后順序分別標記為“詞 尾”和“獨立”;E.將被標記為詞首的音節(jié)至其后面第一個被標記為詞尾的音節(jié)合并為一個詞; 如果被標記為詞首的音節(jié)與其后面第一個被標記為詞尾的音節(jié)之間有一個或者多個被標 記為詞中的音節(jié),則將被標記為詞首的音節(jié)與其后面第一個被標記為詞尾的音節(jié)以及二者 之間一個或者多個被標記為詞中的音節(jié)合并為一個詞;F.將所有被標記為“獨立”的音節(jié)以及所有未被合并的音節(jié)作為單音節(jié)詞;G.將經(jīng)過以上處理的藏文詞序列作為分詞結(jié)果輸出。所述標點符號包括藏文單垂符、雙垂符、四垂符、句間空格等。所述上下文環(huán)境包括該音節(jié)之前的一個或者多個音節(jié),該音節(jié)之后的一個或者 多個音節(jié)。所述詞位標簽共五種詞首、詞中、詞尾、獨立、緊縮。各詞位標簽的具體含義為 在由多個音節(jié)構(gòu)成的藏文詞中,第一個音節(jié)為“詞首”,最后一個音節(jié)為“詞尾”,它們之間的 所有音節(jié)都為“詞中”;若一個詞由單個音節(jié)構(gòu)成,則此音節(jié)將被標記為“獨立”;藏文中存 在部分音節(jié)是由兩個音節(jié)按照語法規(guī)則合并形成的緊縮音節(jié),此時該音節(jié)將被標記為“緊 縮”。所述知識庫包含了所有的藏文音節(jié)在不同的上下文環(huán)境中被標記為五種詞位標 簽之一的概率值,該概率值通過預(yù)先對語料進行統(tǒng)計獲得。語料由一批藏文文本組成,每個 藏文文本包含若干藏文句子,每個藏文句子包含若干藏文音節(jié),每個音節(jié)對應(yīng)一個詞位標 簽。在語料中,每個音節(jié)的詞位標簽由人工標注而成。對語料的統(tǒng)計,首先計算一個音節(jié)在 一個上下文環(huán)境中被標記為五種詞位標簽之一的次數(shù),并計算該音節(jié)與該上下文環(huán)境在語 料中同現(xiàn)的總次數(shù),前者除以后者即為該音節(jié)在該上下文環(huán)境中被標記為該詞位標簽的概 率值。所述優(yōu)選方法是指當前音節(jié)在當前上下文環(huán)境中有多個詞位標簽可選時,根據(jù)預(yù) 先統(tǒng)計的概率值,取概率值最大的詞位標簽作為當前音節(jié)的詞位標簽。所述緊縮音節(jié)是指,藏文中部分詞如屬格助詞“S”、作格助詞“ ^f ”、位格助詞“ s ”、 飾集詞“%.”、離合詞“ ^‘”、終結(jié)詞“ ”等,可以省略音節(jié)點直接黏附于其前面的音節(jié)后,與 其前面的音節(jié)一起合并形成一個新的音節(jié),這個新的音節(jié)即被稱為緊縮音節(jié)。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為本發(fā)明能夠平衡地看待詞表詞和未登錄詞的識別問題。將藏文文本中所有的詞都 采用統(tǒng)一的音節(jié)標注過程來實現(xiàn)。在構(gòu)建所需的知識庫時,既不必專門強調(diào)詞表詞信息,也 不用專門設(shè)計特定的未登錄詞識別模塊,又避免了采用藏文格助詞和接續(xù)特征所引起的各 種歧義,使得系統(tǒng)的設(shè)計大大簡化。在音節(jié)標注過程中,所有的音節(jié)根據(jù)預(yù)定義的特征進行 詞位特征的學習,獲得一個知識庫,然后在待切分的藏文文本上,根據(jù)音節(jié)所處的上下文環(huán) 境,得到一個詞位的分類結(jié)果。最后根據(jù)詞位標簽的定義,獲得最終的分詞結(jié)果。整個過程 中,沒有顯式地區(qū)分詞表詞和未登錄詞,所有的處理都是在音節(jié)一級的單元上完成,使得分 詞稱為音節(jié)重組的簡單過程。知識庫的構(gòu)建過程中考慮了音節(jié)所處的上下文環(huán)境,實質(zhì)上 體現(xiàn)了相鄰音節(jié)之間的結(jié)合緊密程度。
圖1是一個典型的藏文音節(jié)的結(jié)構(gòu)圖;藏文的音節(jié)可以有一個或多個基本字符組 成,最多可以有七個;這七個基本字符里有一個基字和一個元音符號,其它的字符分別加在 基字的上、下、前、后、再后。在一個音節(jié)里面,除了基字之外,其它部分都可能不出現(xiàn)。最簡 單的藏文音節(jié)只包含一個基字,而不包含其他組成部分;圖2是一個典型的藏文句子的結(jié)構(gòu)圖;藏文句子中以音節(jié)點分隔相鄰音節(jié),句子 以空格或者藏文的單垂符、雙垂符、四垂符等結(jié)束;圖3是本發(fā)明方法的流程圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。如圖3所示,本發(fā)明所述的分詞方法300的具體流程是對于輸入的藏文文本 302,步驟304根據(jù)標點符號和空格將藏文文本切分為一系列的藏文句子;對于切分出來的 每個藏文句子,步驟306以藏文音節(jié)點為標志將句子切分為一系列藏文音節(jié);對每個音節(jié), 步驟308從知識庫310中查找當前音節(jié)在當前的上下文中可能的詞位標簽及相應(yīng)的概率 值,若標簽不唯一,則選擇概率值最大的詞位標簽作為當前音節(jié)的標簽;步驟312將被標記 為“緊縮”標簽的藏文音節(jié)拆分成兩個音節(jié)并分別標記為“詞尾”和“獨立”;步驟314將所 有被標記為“詞首”的音節(jié)與其后面第一個被標記為“詞尾”的音節(jié)以及二者之間一個或者 多個被標記為“詞中”的音節(jié)合并為一個詞;步驟316將所有被標記為“獨立”的音節(jié)以及 所有未被合并的音節(jié)作為單音節(jié)詞;步驟318將經(jīng)過以上處理的藏文詞序列作為分詞結(jié)果 輸出。在具體的實施過程中,將五種詞位標簽分別以一個大寫英文字母表示B表示詞 首,M表示詞中,E表示詞尾,S表示獨立,J表示緊縮。單音節(jié)詞對應(yīng)的詞位標簽序列是S, 雙音節(jié)詞對應(yīng)的詞位標簽序列是BE ;三音節(jié)詞對應(yīng)的詞位標簽序列是BME ;四音節(jié)詞對應(yīng) 的詞位標簽序列是BMME ;五音節(jié)詞對應(yīng)的此為標簽序列是BMMME ;由更多音節(jié)構(gòu)成的詞,其 對應(yīng)的詞位標簽序列可以類推,首標簽為B,尾標簽為E,中間是多個M標簽。下面結(jié)合附圖和具體實施例來對本發(fā)明提供的技術(shù)方案進行詳細描述。實施例一一個典型的藏文句子的分詞過程對于輸入的藏文文本302。,·^^^‘響布‘巧‘勺^^專^從茍^^氣考 ’‘^^啻和叫卻"^步驟304根據(jù)藏文的單垂符“1”將其切分為一個藏文句子;步驟306將藏文句子切分成一系列藏文音節(jié)(這里以斜線隔開),切分之后的結(jié)果 為:^7^7 〒/ 命7 命I 有7 多7 -gy f/夠7 知丨 W/ 氣丨 ■’/ %丨 _7 1;步驟308對每個音節(jié)貼詞位標簽,這里將詞位標簽放在斜線后面表示,貼標簽之 后的結(jié)果為
VB f/ ^'/S ^'/B 響7J 節(jié)/B % f'/B f/E f/B ^'/J ^'/S aiVS ^'/B ^VE ^'/B n/E ^'/B
^'/E I'/S ψ/Β _7E ^'/S 1;
步驟312將標記為J的音節(jié)拆分并還原為兩個音節(jié),處 理之后的結(jié)果為(以下劃線標出該步驟所影響的部分,下同) ,'/B 考 VE f/S ^'/B ^/E 令/S ^/B % f'/B f/E f/B %/ 令/S ^VS
aiVS ^'/B ^VE ^'/B f^'/E ^'/B ^wVE I'/S ^'/B 囑./E ^'/S 1;步驟314將所有被標記為B的音節(jié)與其后面 被標記為E的音節(jié)合并為一個詞,處理之后的結(jié)果為 ^y ^vs 如/ ^vs w ^ / ^vs ^vs aiVs 從.『/t/s —w/s ι;步驟316將所有被標記為S的音節(jié)以及所有未被合并的音節(jié)作為單音節(jié)詞,處理 之后的結(jié)果為 Wl s^l聯(lián)/ w ^ /^y ^y ^y ^ψη ^fv ’戰(zhàn)丨 Iy 和"W/ ^y ];步驟318將以上結(jié)果作為最終分詞結(jié)果輸出。實施例二 另一個典型的藏文句子的分詞過程對于輸 入的藏 文文本 302:步驟304根據(jù)藏文的單垂符“1”將其切分為一個藏文句子;步驟306將藏文句子切分成一系列藏文音節(jié)(這里以斜線隔開),切分之后的結(jié)果 為
茂’/ ^y ^y ^ '/ η,·/ q,·/ Φη 茂’/ ajgqy ajy 面氣/ ^^iy ga^y ^y ^y ^y 而,嘆./ajy ψ·/ 氣/ y .步驟308對每個音節(jié)貼詞位標簽,這里將詞位標簽放在斜線后面表示,貼標簽之 后的結(jié)果為
VB ^'/E ^'/S 節(jié)/B 瀘VM ^/M 噴/E 畸./B 誠./J ^'/S 31^ZB 53VE —./B 霄/J %/B
ψ/Ε ^Τ'/Β 識7J l^'/S 53TB Ψ Ε 氣/S 1;步驟312將標記為J的音節(jié)拆分并還原為兩個音節(jié),處理之后的結(jié)果為 VB ^/E ^S ^/B
^VM ^'/M ,'/E ,'/B ^/E ^VS ^VS 3i^ZB 即/E ^/B ^/E 漢./S %/Β,'/B ψ/Ε 吶卻甩 ^/E
;7S iVS 51VB 妒VE,/S 1;步驟314將所有被標記為B的音節(jié)與其后面被標記為E的音節(jié)以及 二者之間一個或者多個被標記為M的音節(jié)合并為一個詞,處理之后的結(jié)果為 ,布y ^ys 有舉”隊噴/ q和/ ^ys 有'/S觀啊■/嚴/S 兩矛7 l^Trq/廠/S i,7S 5r^VVSl;步驟316將所有被標記為S的音節(jié)以及所有 未被合并的音節(jié)作為單音節(jié)詞,處理之后的結(jié)果為步驟318將以上結(jié)果作為最終分詞結(jié)果輸出。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于詞位標注的藏文分詞方法,其步驟為1)以標點符號為標志,將輸入的藏文文本切分為一系列藏文句子;2)對每個藏文句子,以藏文音節(jié)點為標志,將其切分為一系列藏文音節(jié);3)對每個藏文音節(jié),根據(jù)藏文音節(jié)所處上下文環(huán)境從知識庫中查找并選擇一個詞位標 簽賦予該音節(jié);所述詞位標簽包括詞首、詞中、詞尾、獨立、緊縮;所述知識庫包含藏文音 節(jié)在不同的上下文環(huán)境中被標記為五種所述詞位標簽之一的概率值;4)將所有被標記為緊縮的音節(jié)還原為兩個音節(jié),并依前后順序分別標記為詞尾和獨立;5)將被標記為詞首的音節(jié)至其后面第一個被標記為詞尾的音節(jié)合并為一個詞;6)將所有被標記為獨立的音節(jié)以及所有未被合并的音節(jié)作為單音節(jié)詞。
2.如權(quán)利要求1所述的方法,其特征在于所述知識庫的建立方法為1)選取一批藏文文本,作為訓(xùn)練語料;2)對訓(xùn)練語料中的每個音節(jié)進行詞位標簽標注;3)對對標注的訓(xùn)練語料進行統(tǒng)計,首先計算一個音節(jié)在某一上下文環(huán)境中被標記為五 種所述詞位標簽之一的次數(shù)n,并計算該音節(jié)與該上下文環(huán)境在訓(xùn)練語料中同現(xiàn)的總次數(shù) N,然后利用η除以N得到該音節(jié)在該上下文環(huán)境中被標記為所標注詞位標簽的概率值。
3.如權(quán)利要求1或2所述的方法,其特征在于所述從知識庫中查找并選擇一個詞位標 簽賦予該音節(jié)時,如果該音節(jié)在當前上下文環(huán)境中有多個詞位標簽可選,則取概率值最大 的詞位標簽作為該音節(jié)的詞位標簽。
4.如權(quán)利要求3所述的方法,其特征在于所述上下文環(huán)境包括當前音節(jié)之前的一個 或者多個音節(jié),當前音節(jié)之后的一個或者多個音節(jié)。
5.如權(quán)利要求3所述的方法,其特征在于所述標點符號包括藏文單垂符、雙垂符、四 垂符、句間空格。
6.如權(quán)利要求1所述的方法,其特征在于將所有被標記為緊縮的音節(jié)還原為兩個音 節(jié),依前后順序,將所還原后的兩音節(jié)中前面音節(jié)標記為詞尾,將后面音節(jié)標記為獨立。
7.如權(quán)利要求1所述的方法,其特征在于如果被標記為詞首的音節(jié)與其后面第一個被 標記為詞尾的音節(jié)之間有一個或者多個被標記為詞中的音節(jié),則將被標記為詞首的音節(jié)與 其后面第一個被標記為詞尾的音節(jié)以及二者之間一個或者多個被標記為詞中的音節(jié)合并 為一個詞。
全文摘要
本發(fā)明公開了一種基于詞位標注的藏文分詞方法,屬于藏文信息處理領(lǐng)域。本方法為1)對輸入的藏文文本,以標點符號為標志切分為一系列藏文句子;2)對每個藏文句子,以藏文音節(jié)點為標志切分為一系列藏文音節(jié);3)對每個藏文音節(jié),根據(jù)其所處上下文環(huán)境從知識庫中查找并選擇一個詞位標簽賦予該音節(jié);4)將所有被標記為緊縮的音節(jié)還原為兩個音節(jié),并依前后順序分別標記為詞尾和獨立;5)將被標記為詞首的音節(jié)至其后面第一個被標記為詞尾的音節(jié)合并為一個詞;6)將所有被標記為獨立的音節(jié)以及所有未被合并的音節(jié)作為單音節(jié)詞。本發(fā)明沒有顯式地區(qū)分詞表詞和未登錄詞,所有的處理都是在音節(jié)一級的單元上完成,使得分詞稱為音節(jié)重組的簡單過程。
文檔編號G06F17/27GK102135956SQ201110116500
公開日2011年7月27日 申請日期2011年5月6日 優(yōu)先權(quán)日2011年5月6日
發(fā)明者劉匯丹, 吳健, 諾明花, 馬龍龍 申請人:中國科學院軟件研究所