一種基于sc文法的分詞標(biāo)音連寫方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分詞標(biāo)音連寫方法及裝置,特別涉及一種漢盲翻譯系統(tǒng)中基于SC文法的分詞標(biāo)音連寫方法及裝置,屬于計(jì)算機(jī)科學(xué)中的機(jī)器翻譯技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]機(jī)器翻譯是指利用電子計(jì)算機(jī)將一種自然語言轉(zhuǎn)換成另一種自然語言表達(dá)的過程。漢盲翻譯系統(tǒng)把中文信息自動(dòng)翻譯為盲文字符,這對(duì)盲人的教育、生活等起到非常大的幫助。盲文是一種特殊形式的拼音文字,要實(shí)現(xiàn)漢字到盲文的翻譯,首先應(yīng)將漢語進(jìn)行分詞連寫,再轉(zhuǎn)換成拼音,然后由拼音轉(zhuǎn)換成盲文,所以漢語分詞標(biāo)音的準(zhǔn)確性就在很大程度上決定了漢盲翻譯的準(zhǔn)確性。分詞連寫是漢語盲文獨(dú)有的重要規(guī)則。分詞是把一個(gè)一個(gè)的詞分開來寫;連寫是按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于摸讀,將一些詞連起來寫。分詞連寫,必須遵循漢語語法、語言的邏輯性、習(xí)慣性和音節(jié)長(zhǎng)短程度的基本規(guī)則。在漢語轉(zhuǎn)換成拼音的過程中,由于漢字有多音字問題,但詞的多音現(xiàn)象就比字的多音現(xiàn)象少得多,三字以上的詞很少有多音現(xiàn)象,所以正確的分詞連寫可大大減少多音現(xiàn)象。但單獨(dú)的多音字問題還是會(huì)存在,如何正確地給多音字標(biāo)音就必須利用上下文語境進(jìn)行自然語言分析處理。所以在漢字到盲文的轉(zhuǎn)換過程有兩個(gè)難點(diǎn):1、提高漢語分詞連寫的正確性;2、結(jié)合上下文的語境分析給多音字正確標(biāo)音。由于國(guó)內(nèi)目前針對(duì)漢語到盲文的翻譯還停留在人工階段,為了給盲人帶來更多更好的教育素材,繁重的翻譯工作帶來了準(zhǔn)確率的降低,因此迫切需要一套針對(duì)漢語到盲文的高準(zhǔn)確率的分詞標(biāo)音連寫方法,從而為漢盲翻譯打下夯實(shí)的基礎(chǔ)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是為解決實(shí)現(xiàn)漢盲機(jī)器翻譯的問題,提出一種基于SC文法的分詞標(biāo)音連寫方法及裝置,實(shí)現(xiàn)快速、準(zhǔn)確的分詞標(biāo)音連寫。
[0004]本發(fā)明的思想是:1、基于SC文法的分詞歧義規(guī)則,利用自然語言中的鄰接約束條件,建立歧義切分規(guī)則庫,以排除不合法切分來提高分詞精度;2、基于SC文法的分詞連寫規(guī)則庫和連寫語料統(tǒng)計(jì)庫,按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于盲人摸讀,將一些詞連起來寫。連寫語料統(tǒng)計(jì)庫用來連寫那些無法表示為規(guī)則的連寫知識(shí);3、基于SC文法的字典庫,利用字典進(jìn)行正向最大匹配來進(jìn)行分詞,發(fā)生歧義的字段調(diào)用分詞歧義規(guī)則來獲得正確的切分結(jié)果,解析該詞的上下文語境獲得正確的詞性標(biāo)注和標(biāo)音。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0006]—種基于SC文法的分詞標(biāo)音連寫方法,基于字典庫、組合歧義詞庫、分詞歧義規(guī)則庫、連寫規(guī)則庫和連寫語料統(tǒng)計(jì)庫,包括以下步驟:
[0007](I)接收待分詞標(biāo)音的漢語字符串和文章體裁類型;
[0008]所述字符串為純漢字字符串,即為不包含數(shù)字、標(biāo)點(diǎn)符號(hào)、ASCII碼字符等特殊符號(hào)的字符串;如果字符串中包含非漢字字符,對(duì)其進(jìn)行分割,對(duì)分割后的非漢字子串單獨(dú)處理,如直接生成詞節(jié)點(diǎn)并賦予相應(yīng)類型,對(duì)漢字字串轉(zhuǎn)步驟(2)經(jīng)過分詞標(biāo)音連寫后與其他經(jīng)處理的非漢字子串合并后輸出即可。
[0009](2)對(duì)漢語字符串基于字典庫進(jìn)行分詞,并對(duì)分詞后的詞塊進(jìn)行詞性標(biāo)注和標(biāo)音;
[0010](3)根據(jù)文章體裁類型,調(diào)用相應(yīng)的連寫規(guī)則庫,基于連寫規(guī)則庫中的盲文分詞連寫規(guī)則對(duì)步驟(2)的詞塊進(jìn)行組合連寫;
[0011](4)基于連寫語料統(tǒng)計(jì)庫對(duì)組合后的詞塊進(jìn)行二次組合連寫;
[0012](5)將生成的分詞標(biāo)音連寫后的漢語字符串輸出。
[0013]所述字典庫用于漢語分詞、詞性標(biāo)注和標(biāo)音,包括漢語單詞符號(hào)、語法語義屬性標(biāo)識(shí)符、上下文區(qū)分函數(shù)、單詞的拼音。
[0014]所述字典庫通過以下過程構(gòu)建:根據(jù)漢語字典知識(shí)定義一套語法語義屬性分類體系,并進(jìn)行收錄,語言工程人員在調(diào)試語料的過程中進(jìn)一步完善。
[0015]所述基于字典庫進(jìn)行分詞通過以下過程完成:
[0016]a.參照字典庫,利用正向最大匹配算法對(duì)語句進(jìn)行拆分得到詞塊;
[0017]b.根據(jù)詞塊的交叉特征進(jìn)行交叉歧義判斷;
[0018]C.基于組合歧義詞庫對(duì)詞塊進(jìn)行歧義判斷;
[0019]d.根據(jù)歧義規(guī)則,通過推理消除歧義;
[0020]e.輸出分詞結(jié)果。
[0021]所述交叉歧義是形如字串AXB,其中AX構(gòu)成一個(gè)詞,同時(shí)XB也構(gòu)成一個(gè)詞,這類歧義現(xiàn)象即為交叉歧義。其中,A、X、B的長(zhǎng)度大于等于一個(gè)字長(zhǎng)。如“有時(shí)間”、“不同情況”、“大腦袋”等均存在交叉歧義。
[0022]所述組合歧義詞庫用于識(shí)別存在組合歧義的詞塊,庫里收錄的是存在組合歧義的二字詞,組合歧義詞是形如AB的詞串,其中A,B分別獨(dú)立成詞,如句子“他將來上海?!敝械摹皩怼本褪墙M合歧義詞。
[0023]所述組合歧義詞庫通過以下過程構(gòu)建:語言工程師在調(diào)試大批量語料的過程中逐步收錄。
[0024]所述分詞歧義規(guī)則庫用于推理消除歧義詞塊,得到正確的分詞結(jié)果,包括歧義詞塊、條件函數(shù)、正確分詞操作。
[0025]所述分詞歧義規(guī)則庫通過以下過程構(gòu)建:語言工程師在調(diào)試大批量語料的過程中逐步總結(jié)完善規(guī)則。分詞歧義規(guī)則庫細(xì)分為交叉歧義規(guī)則和組合歧義規(guī)則兩類,具有交叉歧義的詞塊調(diào)用交叉歧義規(guī)則推理消歧,具有組合歧義的詞塊調(diào)用組合歧義規(guī)則推理消歧。
[0026]所述基于組合歧義詞庫對(duì)詞塊進(jìn)行歧義判斷通過以下過程完成:
[0027]a.對(duì)當(dāng)前詞塊,利用二分查找算法查詢組合歧義詞庫;
[0028]b.根據(jù)查詢結(jié)果,輸出組合歧義標(biāo)志。
[0029]所述根據(jù)歧義規(guī)則,通過推理消除歧義通過以下過程完成:
[0030]a.對(duì)當(dāng)前含歧義標(biāo)志的詞塊,匹配歧義規(guī)則中的歧義詞塊部分;
[0031 ] b.若匹配成功,進(jìn)行條件函數(shù)檢查;
[0032]c.若條件檢查滿足,執(zhí)行正確分詞操作;
[0033]d.輸出正確的分詞結(jié)果。
[0034]所述對(duì)分詞后的詞塊進(jìn)行詞性標(biāo)注和標(biāo)音通過以下過程完成:
[0035]a.對(duì)當(dāng)前的詞塊,從字典庫中取出該詞塊的字典信息;
[0036]b.逐條進(jìn)行上下文函數(shù)檢查;
[0037]c.若上下文檢查滿足,取出該條的詞性和拼音。
[0038]所述連寫規(guī)則庫用于對(duì)分詞并標(biāo)注后的詞塊進(jìn)行組合連寫,包括規(guī)則詞塊部分、條件函數(shù)、連寫操作。根據(jù)不同的文章體裁,連寫規(guī)則庫細(xì)分為文言文規(guī)則庫和現(xiàn)代文規(guī)則庫。
[0039]所述連寫規(guī)則庫通過以下過程構(gòu)建:根據(jù)盲文出版物中定義的連寫規(guī)則進(jìn)行逐條收錄,語言工程人員在調(diào)試語料的過程中進(jìn)一步完善。
[0040]所述基于連寫規(guī)則對(duì)詞塊進(jìn)行組合連寫通過以下過程完成:
[0041 ] a.對(duì)當(dāng)前若干詞塊,匹配連寫規(guī)則中的詞塊部分;
[0042]b.若匹配成功,進(jìn)行條件函數(shù)檢查;
[0043]c.若條件檢查滿足,執(zhí)行正確連寫操作;
[0044]d輸出連寫后的分詞結(jié)果。
[0045]所述連寫語料統(tǒng)計(jì)庫用于對(duì)根據(jù)連寫規(guī)則組合后的詞塊進(jìn)行二次組合連寫,庫里收錄的是需要組合連寫的詞塊,如“三大紀(jì)律”。連寫語料統(tǒng)計(jì)庫細(xì)分為基礎(chǔ)詞庫和用戶詞庫,其中基礎(chǔ)詞庫收錄了一些通用的連寫詞塊,用戶詞庫包括用戶自定義需要連寫的詞塊。
[0046]所述連寫語料統(tǒng)計(jì)庫通過以下過程構(gòu)建:根據(jù)盲文出版物中定義的一些具體連寫詞塊進(jìn)行收錄,語言工程人員在調(diào)試語料的過程中進(jìn)一步完善。
[0047]所述基于連寫語料統(tǒng)計(jì)庫對(duì)組合后的詞塊進(jìn)行二次組合連寫通過以下過程完成:
[0048]a.對(duì)當(dāng)前詞塊,按照用戶詞庫、基礎(chǔ)詞庫的順序進(jìn)行匹配;
[0049]b.若匹配成功,執(zhí)行連寫組合;
[0050]c.輸出連寫后的詞塊結(jié)果;
[0051]—種基于SC文法的分詞標(biāo)音連寫裝置,基于字典庫、組合歧義詞庫、連寫語料統(tǒng)計(jì)庫、連寫規(guī)則庫和分詞歧義規(guī)則庫,包括依次連接的分詞模塊、詞性標(biāo)注及標(biāo)音模塊、一次組合連寫模塊和二次組合連寫模塊,分詞模塊、詞性標(biāo)注及標(biāo)音模塊分別與字典庫相連,分詞模塊還與組合歧義詞庫和分詞歧義規(guī)則庫分別相連,一次組合連寫模塊與連寫規(guī)則庫相連,二次組合連寫模塊與連寫語料統(tǒng)計(jì)庫相連;
[0052]分詞模塊用于對(duì)輸入漢語字符串基于字典庫進(jìn)行分割,拆分成獨(dú)立的詞塊,并在分割的過程中對(duì)得到的詞塊基于交叉歧義特征以及組合歧義詞庫判斷是否存在歧義,并對(duì)存在歧義的詞基于分詞歧義規(guī)則庫消除切分歧義,得到正確的詞塊;
[0053]詞性標(biāo)注及標(biāo)