一種基于詞對(duì)齊的歷史典籍分詞方法與流程

文檔序號(hào)：11177133閱讀：764來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域，具體是一種基于詞對(duì)齊的歷史典籍分詞方法。

背景技術(shù)：

中文分詞，指將連續(xù)的漢字序列按照一定的規(guī)范重新合成詞序列的過(guò)程。分詞是自然語(yǔ)言處理中由字到詞的重要部分，是對(duì)文字進(jìn)行文本分類(lèi)，信息檢索等處理的保證?，F(xiàn)有的主要分詞方法有基于規(guī)則的分詞方法和基于統(tǒng)計(jì)的分詞方法。很多分詞方法在現(xiàn)代漢語(yǔ)中取得了較為理想的分詞效果，大部分算法及其商業(yè)實(shí)現(xiàn)均已達(dá)到很高的水平。古文較現(xiàn)代漢語(yǔ)來(lái)說(shuō)，更簡(jiǎn)潔緊湊，除了歷史典籍和人名以外，通常詞就指單字，而且古文句法結(jié)構(gòu)比現(xiàn)代漢語(yǔ)更加靈活。目前，對(duì)于古漢語(yǔ)分詞的嘗試并不多：南通大學(xué)的錢(qián)志勇等學(xué)者用hmm方法對(duì)先秦時(shí)期的部分語(yǔ)料進(jìn)行了分詞以及標(biāo)注；南京師范大學(xué)的石民等學(xué)者用crf對(duì)《左傳》進(jìn)行了分詞。以上兩種方法都需要大規(guī)模語(yǔ)料庫(kù)的支持。如果在目前這種缺乏面向古漢語(yǔ)的分詞詞典和大規(guī)模的分詞訓(xùn)練語(yǔ)料的情況下，將現(xiàn)代漢語(yǔ)的分詞方法直接套用到古漢語(yǔ)中，必然得不到較為滿(mǎn)意的效果。

技術(shù)實(shí)現(xiàn)要素：

在古漢語(yǔ)翻譯過(guò)程中，名詞、術(shù)語(yǔ)一般保留不變，每個(gè)單字翻譯對(duì)應(yīng)該詞本身；而其他詞性的字，一般情況下，每個(gè)字對(duì)應(yīng)一個(gè)或多個(gè)詞。本發(fā)明基于古漢語(yǔ)翻譯的特點(diǎn)以及缺乏古漢語(yǔ)分詞語(yǔ)料的現(xiàn)狀，提出了一種基于詞對(duì)齊的歷史典籍分詞方法，通過(guò)詞對(duì)齊這個(gè)橋梁，利用現(xiàn)代漢語(yǔ)中豐富的語(yǔ)料資源和方法，實(shí)現(xiàn)了在缺少古漢語(yǔ)標(biāo)注語(yǔ)料的前提下對(duì)古漢語(yǔ)進(jìn)行分詞，提高了分詞的準(zhǔn)確率。

為實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

一種基于詞對(duì)齊的歷史典籍分詞方法，包括以下步驟：

步驟1：對(duì)平行語(yǔ)料中的現(xiàn)代漢語(yǔ)進(jìn)行分詞，對(duì)古文進(jìn)行逐字拆分。將古文和現(xiàn)代漢語(yǔ)使用ibmmodel3模型進(jìn)行詞對(duì)齊。

步驟2：對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行預(yù)處理，消除標(biāo)點(diǎn)符號(hào)及副詞的干擾。

步驟3：根據(jù)步驟2中經(jīng)預(yù)處理得到的詞對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并。

步驟4：對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)。

進(jìn)一步地,步驟2所述的對(duì)齊結(jié)果的預(yù)處理的具體步驟如下：

(1)對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行逐條校驗(yàn)，刪除對(duì)齊概率小于或等于零、古文單字或?qū)?yīng)現(xiàn)代漢語(yǔ)為非漢字的對(duì)齊結(jié)果；

(2)步驟2中對(duì)每條對(duì)齊結(jié)果中兩個(gè)詞或字的詞性進(jìn)行檢驗(yàn)，若副詞在對(duì)齊文件中對(duì)齊名詞，則保留；反之，則刪除。由于一般情況下，副詞在古文中只表達(dá)虛意，在對(duì)齊中會(huì)形成較大的干擾，但有些副詞同時(shí)還對(duì)應(yīng)著名詞、動(dòng)詞等其他詞性，若直接刪除，勢(shì)必會(huì)對(duì)某些人名、地名的分詞產(chǎn)生影響，因此只留下對(duì)齊名詞的副詞對(duì)齊結(jié)果。

進(jìn)一步地，步驟3中古文單字合并的具體步驟如下：

(1)對(duì)已經(jīng)拆分成單字的古漢語(yǔ)，逐字查詢(xún)其對(duì)應(yīng)的現(xiàn)代漢語(yǔ)，若相鄰兩個(gè)字均對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ)翻譯，則合并這兩個(gè)字；

(2)繼續(xù)觀察后面的單字，若依然對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ)，則繼續(xù)合并。直到下一個(gè)字不再和前面的詞指向同一個(gè)漢語(yǔ)翻譯為止；

(3)若單字是零到九的用于表示年代的數(shù)詞，則對(duì)它們進(jìn)行合并。

進(jìn)一步地，步驟4中對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)的具體步驟如下：

(1)對(duì)每一個(gè)由三個(gè)及三個(gè)以上的字構(gòu)成的詞，在現(xiàn)代漢語(yǔ)翻譯中對(duì)該詞進(jìn)行查找，若成功找到，則視為分詞結(jié)果正確；

本發(fā)明的有益效果：本發(fā)明通過(guò)詞對(duì)齊這個(gè)橋梁，利用現(xiàn)代漢語(yǔ)中豐富的語(yǔ)料資源和方法，結(jié)合古漢語(yǔ)翻譯過(guò)程中的一些特點(diǎn)，解決了在缺乏面向古漢語(yǔ)的分詞詞典和大規(guī)模的分詞訓(xùn)練語(yǔ)料的情況下對(duì)古漢語(yǔ)進(jìn)行分詞的問(wèn)題，提高了分詞的準(zhǔn)確率。

附圖說(shuō)明

圖1本發(fā)明方法的流程示意圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。

參見(jiàn)附圖1，一種基于詞對(duì)齊的歷史典籍分詞方法：首先對(duì)平行語(yǔ)料中的現(xiàn)代漢語(yǔ)進(jìn)行分詞，對(duì)古文進(jìn)行逐字拆分，并將古文和現(xiàn)代漢語(yǔ)使用ibmmodel3模型進(jìn)行詞對(duì)齊；其次，對(duì)上一步中得到的對(duì)齊結(jié)果進(jìn)行處理，消除標(biāo)點(diǎn)符號(hào)及副詞的干擾；再次，根據(jù)經(jīng)預(yù)處理得到的對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并；最后，對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)。

實(shí)施例1

本實(shí)施例以eclipse為開(kāi)發(fā)平臺(tái)，java為開(kāi)發(fā)語(yǔ)言。在《史記》中的《秦始皇本紀(jì)》、《秦本紀(jì)》、《項(xiàng)羽本紀(jì)》、《高祖本紀(jì)》和《呂后本紀(jì)》的古文與白話(huà)文的4145句對(duì)語(yǔ)料上進(jìn)行。以下為具體過(guò)程：

步驟2：對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行預(yù)處理，消除標(biāo)點(diǎn)符號(hào)及副詞的干擾：

(2)對(duì)每條對(duì)齊結(jié)果中兩個(gè)詞或字的詞性進(jìn)行檢驗(yàn)，若副詞在對(duì)齊結(jié)果中對(duì)齊名詞，則保留；反之，則刪除。因?yàn)橐话闱闆r下，副詞在古文中只表達(dá)虛意，在對(duì)齊中會(huì)形成較大的干擾，但有些副詞同時(shí)還對(duì)應(yīng)著名詞、動(dòng)詞等其他詞性，若直接刪除，勢(shì)必會(huì)對(duì)某些人名、地名的分詞產(chǎn)生影響，因此只留下對(duì)齊名詞的副詞對(duì)齊結(jié)果。

例如古文中的“耳”：“耳”在古文中普遍用作虛詞，不翻譯，但重耳、張耳等歷史典籍人物是名詞，為消除虛詞干擾，需要對(duì)“耳”在對(duì)齊文件里對(duì)齊的現(xiàn)代漢語(yǔ)翻譯進(jìn)行詞性判斷，若是名詞，例如：“重耳”，則保留；若不是名詞，則直接刪除。

步驟3：根據(jù)步驟2中處理好的對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并：

(2)繼續(xù)觀察后面的單字，若依然對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ)，則繼續(xù)合并。直到下一個(gè)字不再和前面的詞指向同一個(gè)漢語(yǔ)翻譯為止；例如：古漢語(yǔ)“周武王伐紂，并殺惡來(lái)”對(duì)應(yīng)現(xiàn)代漢語(yǔ)“周武王討伐紂王，連同惡來(lái)一起殺死”。在詞對(duì)齊結(jié)果中，“周”、“武”、“王”三字均對(duì)齊同一詞“周武王”，所以就將這三個(gè)字合并作為一個(gè)詞。而“伐”對(duì)齊“討伐”，因此，將“伐”同前面的“王”分離開(kāi)。

(3)若單字為零到九，用于表示年代的數(shù)詞，則對(duì)它們進(jìn)行合并。

步驟4：對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)：

(2)若未找到，說(shuō)明該候選詞合并有誤，應(yīng)當(dāng)對(duì)其進(jìn)行分割：從候選詞的第一個(gè)字后開(kāi)始分割，將產(chǎn)生的兩個(gè)詞段分別在現(xiàn)代漢語(yǔ)中進(jìn)行查找比對(duì)。若成功找到，則保留分割結(jié)果，此時(shí)視為分割成功；若未找到，則繼續(xù)從第二個(gè)詞后分割，并以此類(lèi)推，直到找到相匹配的詞段。例如：“張良悅”是一個(gè)由三個(gè)字構(gòu)成的詞。在現(xiàn)代漢語(yǔ)翻譯中進(jìn)行查找后未發(fā)現(xiàn)該詞，說(shuō)明分詞有誤，須對(duì)該詞進(jìn)行分割。從第一個(gè)字后分割得到“張”和“良悅”，進(jìn)行查找比對(duì)后均無(wú)匹配詞段。再次對(duì)該詞分割，得到“張良”和“悅”，查找后發(fā)現(xiàn)“張良”成功匹配，則視為分割正確，遂將分詞結(jié)果替換為“張良/悅”。

根據(jù)以上步驟，本發(fā)明將分詞效果與結(jié)巴分詞、斯坦福分詞以及nlpir分詞方法做了對(duì)比，見(jiàn)表1，結(jié)巴分詞和nlpir是目前國(guó)內(nèi)廣泛使用的分詞方法，斯坦福分詞是國(guó)外具有代表性的一種中文分詞方法。

表1不同分詞方法結(jié)果對(duì)比

從表1中可以看出，本發(fā)明提出的方法在分詞準(zhǔn)確率、召回率以及f1度量方面明顯優(yōu)于其他方法。f1度量是準(zhǔn)確率和召回率的調(diào)和平均。

以上所述，僅為本發(fā)明較佳的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi)，根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：車(chē)超;吳曉婷
技術(shù)所有人：大連大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞對(duì)齊的歷史典籍分詞方法與流程