對(duì)組合后的詞塊進(jìn)行二次組合連寫;
[0095]從左到右依次取出經(jīng)過一次連寫組合后的詞塊,按最長最優(yōu)原則匹配用戶詞庫,基礎(chǔ)詞庫中的詞塊,匹配成功后進(jìn)行組合連寫,得到二次組合連寫后的詞塊。
[0096]2008年/QCH/nian2,/BD/,小李/QCH/xiao31i3 晉升/VP/jin4shengl 為/SV/wei2 這個(gè)/QCH/zhe4ge4項(xiàng)目 /NP/xiang4mu4的/DEF/deO總工程師/QCH/zong3gonglcheng2shil。/BD/ο
[0097](5)將生成的分詞標(biāo)音連寫后的漢語字符串輸出。
[0098]基于上述一種基于SC文法的分詞標(biāo)音連寫方法,實(shí)現(xiàn)了一種基于SC文法的分詞標(biāo)音連寫裝置,如圖5所示,從圖中可以看出,該裝置基于字典庫、連寫語料統(tǒng)計(jì)庫、連寫規(guī)則庫、組合歧義詞庫和分詞歧義規(guī)則庫,包括分詞模塊、詞性標(biāo)注及標(biāo)音模塊、一次組合連寫模塊和二次組合連寫模塊,分詞模塊、詞性標(biāo)注及標(biāo)音模塊分別與字典庫相連,分詞模塊還與組合歧義詞庫和分詞歧義規(guī)則庫分別相連,一次組合連寫模塊與連寫規(guī)則庫相連,二次組合連寫模塊與連寫語料統(tǒng)計(jì)庫相連;
[0099]分詞模塊用于對(duì)輸入漢語字符串基于字典庫進(jìn)行分割,拆分成獨(dú)立的詞塊,并在分割的過程中對(duì)得到的詞塊基于交叉歧義特征以及組合歧義詞庫判斷是否存在歧義,并對(duì)存在歧義的詞基于分詞歧義規(guī)則庫消除切分歧義,得到正確的詞塊;
[0100]詞性標(biāo)注及標(biāo)音模塊用于對(duì)分詞后的詞塊基于字典庫通過上下文函數(shù)檢查對(duì)分詞模塊得到的詞塊進(jìn)行正確的詞性標(biāo)注和標(biāo)音從而得到詞塊的正確詞性和拼音;
[0101]—次組合連寫模塊用于對(duì)詞性標(biāo)注后的詞塊進(jìn)行組合連寫,該模塊基于連寫規(guī)則庫通過對(duì)條件函數(shù)進(jìn)行檢查得到連寫組合后的詞塊;
[0102]二次組合連寫模塊用于對(duì)一次組合連寫后的詞塊進(jìn)行連寫語料統(tǒng)計(jì)庫的查詢匹配操作得到連寫組合后的詞塊,并將帶有詞性標(biāo)注和標(biāo)音的詞塊輸出。
[0103]伴隨時(shí)間的推移,人們會(huì)不斷的改變現(xiàn)有此的用法以及不斷的創(chuàng)造出新詞,因此所述字典庫、組合歧義詞庫、連寫語料統(tǒng)計(jì)庫、連寫規(guī)則庫和分詞歧義規(guī)則庫均可以維護(hù),使其根據(jù)時(shí)代的發(fā)展內(nèi)容不斷更改完善,從而提高分詞的準(zhǔn)確性。
[0104]實(shí)驗(yàn)結(jié)果
[0105]基于SC文法的分詞標(biāo)音連寫方法有效地解決了漢盲轉(zhuǎn)換過程中的漢語分詞歧義、連寫和多音字的正確標(biāo)音問題,實(shí)現(xiàn)了漢語到盲文的高效智能翻譯轉(zhuǎn)換。翻譯準(zhǔn)確率高于90%。
[0106]本發(fā)明采用人工智能技術(shù),有機(jī)地融合了規(guī)則和實(shí)例等多種分析處理策略,高效準(zhǔn)確地對(duì)漢語句子進(jìn)行分詞標(biāo)音連寫,提高了漢盲翻譯的正確性。本發(fā)明設(shè)計(jì)了一種基于SC文法的,可擴(kuò)展性好的,表示效率高的,人性化的規(guī)則表示語言,該規(guī)則表示具有普適性,可擴(kuò)展到其他自然語言處理問題的解決上。
【主權(quán)項(xiàng)】
1.一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于:基于字典庫、組合歧義詞庫、分詞歧義規(guī)則庫、連寫規(guī)則庫和連寫語料統(tǒng)計(jì)庫,包括以下步驟: 步驟一、接收待分詞標(biāo)音的漢語字符串和文章體裁類型; 步驟二、對(duì)漢語字符串基于字典庫進(jìn)行分詞,并對(duì)分詞后的詞塊進(jìn)行詞性標(biāo)注和標(biāo)音;步驟三、根據(jù)文章體裁類型,調(diào)用相應(yīng)的連寫規(guī)則庫,基于連寫規(guī)則庫中的盲文分詞連寫規(guī)則對(duì)步驟(2)的詞塊進(jìn)行組合連寫; 步驟四、基于連寫語料統(tǒng)計(jì)庫對(duì)組合后的詞塊進(jìn)行二次組合連寫; 步驟五、將生成的分詞標(biāo)音連寫后的漢語字符串輸出。2.根據(jù)權(quán)利要求1所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述字典庫用于漢語分詞、詞性標(biāo)注和標(biāo)音,包括漢語單詞符號(hào)、語法語義屬性標(biāo)識(shí)符、上下文區(qū)分函數(shù)、單詞的拼音。3.根據(jù)權(quán)利要求1所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述基于字典庫進(jìn)行分詞通過以下過程完成:: a.參照字典庫,利用正向最大匹配算法對(duì)語句進(jìn)行拆分得到詞塊; b.根據(jù)詞塊的交叉特征進(jìn)行交叉歧義判斷; c.基于組合歧義詞庫對(duì)詞塊進(jìn)行歧義判斷; d.根據(jù)歧義規(guī)則,通過推理消除歧義; e.輸出分詞結(jié)果。4.根據(jù)權(quán)利要求3所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述組合歧義詞庫用于識(shí)別存在組合歧義的詞塊,庫里收錄的是存在組合歧義的詞。5.根據(jù)權(quán)利要求3-4任一所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述分詞歧義規(guī)則庫用于推理消除歧義詞塊,得到正確的分詞結(jié)果,包括歧義詞塊、條件函數(shù)、正確分詞操作,所述根據(jù)歧義規(guī)則,通過推理消除歧義通過以下過程完成: a.對(duì)當(dāng)前含歧義標(biāo)志的詞塊,匹配歧義規(guī)則中的歧義詞塊部分; b.若匹配成功,進(jìn)行條件函數(shù)檢查; c.若條件檢查滿足,執(zhí)行正確分詞操作; d.輸出正確的分詞結(jié)果。6.根據(jù)權(quán)利要求1所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述對(duì)分詞后的詞塊進(jìn)行詞性標(biāo)注和標(biāo)音通過以下過程完成: a.對(duì)當(dāng)前的詞塊,從字典庫中取出該詞塊的字典信息; b.逐條進(jìn)行上下文函數(shù)檢查; c.若上下文檢查滿足,取出該條的詞性和拼音。7.根據(jù)權(quán)利要求1所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述連寫規(guī)則庫用于對(duì)分詞并標(biāo)注后的詞塊進(jìn)行組合連寫,包括規(guī)則詞塊部分、條件函數(shù)、連寫操作;根據(jù)不同的文章體裁,連寫規(guī)則庫細(xì)分為文言文規(guī)則庫和現(xiàn)代文規(guī)則庫;所述基于連寫規(guī)則對(duì)詞塊進(jìn)行組合連寫通過以下過程完成: a.對(duì)當(dāng)前若干詞塊,匹配連寫規(guī)則中的詞塊部分; b.若匹配成功,進(jìn)行條件函數(shù)檢查; c.若條件檢查滿足,執(zhí)行正確連寫操作; d.輸出連寫后的分詞結(jié)果。8.根據(jù)權(quán)利要求1所述的一種基于SC文法的分詞標(biāo)音連寫方法,其特征在于,所述連寫語料統(tǒng)計(jì)庫用于對(duì)根據(jù)連寫規(guī)則組合后的詞塊進(jìn)行二次組合連寫,庫里收錄的是需要組合連寫的詞塊;連寫語料統(tǒng)計(jì)庫細(xì)分為基礎(chǔ)詞庫和用戶詞庫,其中基礎(chǔ)詞庫收錄了一些通用的連寫詞塊,用戶詞庫包括用戶自定義需要連寫的詞塊;所述基于連寫語料統(tǒng)計(jì)庫對(duì)組合后的詞塊進(jìn)行二次組合連寫通過以下過程完成: a.對(duì)當(dāng)前詞塊,按照用戶詞庫、基礎(chǔ)詞庫的順序進(jìn)行匹配; b.若匹配成功,執(zhí)行連寫組合; c.輸出連寫后的詞塊結(jié)果。9.一種基于SC文法的分詞標(biāo)音連寫裝置,其特征在于,基于字典庫、組合歧義詞庫、連寫語料統(tǒng)計(jì)庫、連寫規(guī)則庫和分詞歧義規(guī)則庫,包括依次連接的分詞模塊、詞性標(biāo)注及標(biāo)音模塊、一次組合連寫模塊和二次組合連寫模塊,分詞模塊、詞性標(biāo)注及標(biāo)音模塊分別與字典庫相連,分詞模塊還與組合歧義詞庫和分詞歧義規(guī)則庫分別相連,一次組合連寫模塊與連寫規(guī)則庫相連,二次組合連寫模塊與連寫語料統(tǒng)計(jì)庫相連; 分詞模塊用于對(duì)輸入漢語字符串基于字典庫進(jìn)行分割,拆分成獨(dú)立的詞塊,并在分割的過程中對(duì)得到的詞塊基于交叉歧義特征以及組合歧義詞庫判斷是否存在歧義,并對(duì)存在歧義的詞基于分詞歧義規(guī)則庫消除切分歧義,得到正確的詞塊; 詞性標(biāo)注及標(biāo)音模塊用于對(duì)分詞后的詞塊基于字典庫通過上下文函數(shù)檢查對(duì)分詞模塊得到的詞塊進(jìn)行正確的詞性標(biāo)注和標(biāo)音從而得到詞塊的正確詞性和拼音; 一次組合連寫模塊用于對(duì)詞性標(biāo)注后的詞塊進(jìn)行組合連寫,該模塊基于連寫規(guī)則庫通過對(duì)條件函數(shù)進(jìn)行檢查得到連寫組合后的詞塊; 二次組合連寫模塊用于對(duì)一次組合連寫后的詞塊進(jìn)行連寫語料統(tǒng)計(jì)庫的查詢匹配操作得到連寫組合后的詞塊,并將帶有詞性標(biāo)注和標(biāo)音的詞塊輸出。10.根據(jù)權(quán)利要求9所述的一種基于SC文法的分詞標(biāo)音連寫裝置,其特征在于,所述字典庫、組合歧義詞庫、連寫語料統(tǒng)計(jì)庫、連寫規(guī)則庫和分詞歧義規(guī)則庫均可以維護(hù),使其根據(jù)時(shí)代的發(fā)展內(nèi)容不斷更改完善,從而提高分詞的準(zhǔn)確性。
【專利摘要】本發(fā)明涉及一種基于SC文法的分詞標(biāo)音連寫方法及裝置,屬于計(jì)算機(jī)計(jì)算機(jī)科學(xué)中的機(jī)器翻譯技術(shù)領(lǐng)域。本發(fā)明首先基于SC文法的分詞歧義規(guī)則,利用自然語言中的鄰接約束條件,建立歧義切分規(guī)則庫,以排除不合法切分來提高分詞精度;其次基于SC文法的分詞連寫規(guī)則庫和連寫語料統(tǒng)計(jì)庫,連寫語料統(tǒng)計(jì)庫用來連寫那些無法表示為規(guī)則的連寫知識(shí);最后基于SC文法的字典庫,利用字典進(jìn)行正向最大匹配來進(jìn)行分詞,發(fā)生歧義的字段調(diào)用分詞歧義規(guī)則來獲得正確的切分結(jié)果,解析該詞的上下文語境獲得正確的詞性標(biāo)注和標(biāo)音。對(duì)比現(xiàn)有技術(shù),本發(fā)明提高了分詞的準(zhǔn)確性,并且分詞歧義規(guī)則庫、組合歧義詞庫、連寫規(guī)則庫、字典庫和連寫語料統(tǒng)計(jì)庫易于擴(kuò)展和維護(hù)。
【IPC分類】G06F17/28, G06F17/27
【公開號(hào)】CN105630770
【申請(qǐng)?zhí)枴緾N201510994505
【發(fā)明人】黃河燕, 黃靜
【申請(qǐng)人】華建宇通科技(北京)有限責(zé)任公司, 北京理工大學(xué)
【公開日】2016年6月1日
【申請(qǐng)日】2015年12月25日