亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞對(duì)齊的歷史典籍分詞方法與流程

文檔序號(hào):11177133閱讀:764來(lái)源:國(guó)知局
一種基于詞對(duì)齊的歷史典籍分詞方法與流程

本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體是一種基于詞對(duì)齊的歷史典籍分詞方法。



背景技術(shù):

中文分詞,指將連續(xù)的漢字序列按照一定的規(guī)范重新合成詞序列的過(guò)程。分詞是自然語(yǔ)言處理中由字到詞的重要部分,是對(duì)文字進(jìn)行文本分類(lèi),信息檢索等處理的保證?,F(xiàn)有的主要分詞方法有基于規(guī)則的分詞方法和基于統(tǒng)計(jì)的分詞方法。很多分詞方法在現(xiàn)代漢語(yǔ)中取得了較為理想的分詞效果,大部分算法及其商業(yè)實(shí)現(xiàn)均已達(dá)到很高的水平。古文較現(xiàn)代漢語(yǔ)來(lái)說(shuō),更簡(jiǎn)潔緊湊,除了歷史典籍和人名以外,通常詞就指單字,而且古文句法結(jié)構(gòu)比現(xiàn)代漢語(yǔ)更加靈活。目前,對(duì)于古漢語(yǔ)分詞的嘗試并不多:南通大學(xué)的錢(qián)志勇等學(xué)者用hmm方法對(duì)先秦時(shí)期的部分語(yǔ)料進(jìn)行了分詞以及標(biāo)注;南京師范大學(xué)的石民等學(xué)者用crf對(duì)《左傳》進(jìn)行了分詞。以上兩種方法都需要大規(guī)模語(yǔ)料庫(kù)的支持。如果在目前這種缺乏面向古漢語(yǔ)的分詞詞典和大規(guī)模的分詞訓(xùn)練語(yǔ)料的情況下,將現(xiàn)代漢語(yǔ)的分詞方法直接套用到古漢語(yǔ)中,必然得不到較為滿(mǎn)意的效果。



技術(shù)實(shí)現(xiàn)要素:

在古漢語(yǔ)翻譯過(guò)程中,名詞、術(shù)語(yǔ)一般保留不變,每個(gè)單字翻譯對(duì)應(yīng)該詞本身;而其他詞性的字,一般情況下,每個(gè)字對(duì)應(yīng)一個(gè)或多個(gè)詞。本發(fā)明基于古漢語(yǔ)翻譯的特點(diǎn)以及缺乏古漢語(yǔ)分詞語(yǔ)料的現(xiàn)狀,提出了一種基于詞對(duì)齊的歷史典籍分詞方法,通過(guò)詞對(duì)齊這個(gè)橋梁,利用現(xiàn)代漢語(yǔ)中豐富的語(yǔ)料資源和方法,實(shí)現(xiàn)了在缺少古漢語(yǔ)標(biāo)注語(yǔ)料的前提下對(duì)古漢語(yǔ)進(jìn)行分詞,提高了分詞的準(zhǔn)確率。

為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:

一種基于詞對(duì)齊的歷史典籍分詞方法,包括以下步驟:

步驟1:對(duì)平行語(yǔ)料中的現(xiàn)代漢語(yǔ)進(jìn)行分詞,對(duì)古文進(jìn)行逐字拆分。將古文和現(xiàn)代漢語(yǔ)使用ibmmodel3模型進(jìn)行詞對(duì)齊。

步驟2:對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行預(yù)處理,消除標(biāo)點(diǎn)符號(hào)及副詞的干擾。

步驟3:根據(jù)步驟2中經(jīng)預(yù)處理得到的詞對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并。

步驟4:對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)。

進(jìn)一步地,步驟2所述的對(duì)齊結(jié)果的預(yù)處理的具體步驟如下:

(1)對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行逐條校驗(yàn),刪除對(duì)齊概率小于或等于零、古文單字或?qū)?yīng)現(xiàn)代漢語(yǔ)為非漢字的對(duì)齊結(jié)果;

(2)步驟2中對(duì)每條對(duì)齊結(jié)果中兩個(gè)詞或字的詞性進(jìn)行檢驗(yàn),若副詞在對(duì)齊文件中對(duì)齊名詞,則保留;反之,則刪除。由于一般情況下,副詞在古文中只表達(dá)虛意,在對(duì)齊中會(huì)形成較大的干擾,但有些副詞同時(shí)還對(duì)應(yīng)著名詞、動(dòng)詞等其他詞性,若直接刪除,勢(shì)必會(huì)對(duì)某些人名、地名的分詞產(chǎn)生影響,因此只留下對(duì)齊名詞的副詞對(duì)齊結(jié)果。

進(jìn)一步地,步驟3中古文單字合并的具體步驟如下:

(1)對(duì)已經(jīng)拆分成單字的古漢語(yǔ),逐字查詢(xún)其對(duì)應(yīng)的現(xiàn)代漢語(yǔ),若相鄰兩個(gè)字均對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ)翻譯,則合并這兩個(gè)字;

(2)繼續(xù)觀察后面的單字,若依然對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ),則繼續(xù)合并。直到下一個(gè)字不再和前面的詞指向同一個(gè)漢語(yǔ)翻譯為止;

(3)若單字是零到九的用于表示年代的數(shù)詞,則對(duì)它們進(jìn)行合并。

進(jìn)一步地,步驟4中對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)的具體步驟如下:

(1)對(duì)每一個(gè)由三個(gè)及三個(gè)以上的字構(gòu)成的詞,在現(xiàn)代漢語(yǔ)翻譯中對(duì)該詞進(jìn)行查找,若成功找到,則視為分詞結(jié)果正確;

(2)若未找到,說(shuō)明該候選詞合并有誤,應(yīng)當(dāng)對(duì)其進(jìn)行分割:從候選詞的第一個(gè)字后開(kāi)始分割,將產(chǎn)生的兩個(gè)詞段分別在現(xiàn)代漢語(yǔ)中進(jìn)行查找比對(duì)。若成功找到,則保留分割結(jié)果,此時(shí)視為分割成功;若未找到,則繼續(xù)從第二個(gè)詞后分割,并以此類(lèi)推,直到找到相匹配的詞段。

本發(fā)明的有益效果:本發(fā)明通過(guò)詞對(duì)齊這個(gè)橋梁,利用現(xiàn)代漢語(yǔ)中豐富的語(yǔ)料資源和方法,結(jié)合古漢語(yǔ)翻譯過(guò)程中的一些特點(diǎn),解決了在缺乏面向古漢語(yǔ)的分詞詞典和大規(guī)模的分詞訓(xùn)練語(yǔ)料的情況下對(duì)古漢語(yǔ)進(jìn)行分詞的問(wèn)題,提高了分詞的準(zhǔn)確率。

附圖說(shuō)明

圖1本發(fā)明方法的流程示意圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。

參見(jiàn)附圖1,一種基于詞對(duì)齊的歷史典籍分詞方法:首先對(duì)平行語(yǔ)料中的現(xiàn)代漢語(yǔ)進(jìn)行分詞,對(duì)古文進(jìn)行逐字拆分,并將古文和現(xiàn)代漢語(yǔ)使用ibmmodel3模型進(jìn)行詞對(duì)齊;其次,對(duì)上一步中得到的對(duì)齊結(jié)果進(jìn)行處理,消除標(biāo)點(diǎn)符號(hào)及副詞的干擾;再次,根據(jù)經(jīng)預(yù)處理得到的對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并;最后,對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn)。

實(shí)施例1

本實(shí)施例以eclipse為開(kāi)發(fā)平臺(tái),java為開(kāi)發(fā)語(yǔ)言。在《史記》中的《秦始皇本紀(jì)》、《秦本紀(jì)》、《項(xiàng)羽本紀(jì)》、《高祖本紀(jì)》和《呂后本紀(jì)》的古文與白話(huà)文的4145句對(duì)語(yǔ)料上進(jìn)行。以下為具體過(guò)程:

步驟1:對(duì)平行語(yǔ)料中的現(xiàn)代漢語(yǔ)進(jìn)行分詞,對(duì)古文進(jìn)行逐字拆分。將古文和現(xiàn)代漢語(yǔ)使用ibmmodel3模型進(jìn)行詞對(duì)齊。

步驟2:對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行預(yù)處理,消除標(biāo)點(diǎn)符號(hào)及副詞的干擾:

(1)對(duì)步驟1中得到的對(duì)齊結(jié)果進(jìn)行逐條校驗(yàn),刪除對(duì)齊概率小于或等于零、古文單字或?qū)?yīng)現(xiàn)代漢語(yǔ)為非漢字的對(duì)齊結(jié)果;

(2)對(duì)每條對(duì)齊結(jié)果中兩個(gè)詞或字的詞性進(jìn)行檢驗(yàn),若副詞在對(duì)齊結(jié)果中對(duì)齊名詞,則保留;反之,則刪除。因?yàn)橐话闱闆r下,副詞在古文中只表達(dá)虛意,在對(duì)齊中會(huì)形成較大的干擾,但有些副詞同時(shí)還對(duì)應(yīng)著名詞、動(dòng)詞等其他詞性,若直接刪除,勢(shì)必會(huì)對(duì)某些人名、地名的分詞產(chǎn)生影響,因此只留下對(duì)齊名詞的副詞對(duì)齊結(jié)果。

例如古文中的“耳”:“耳”在古文中普遍用作虛詞,不翻譯,但重耳、張耳等歷史典籍人物是名詞,為消除虛詞干擾,需要對(duì)“耳”在對(duì)齊文件里對(duì)齊的現(xiàn)代漢語(yǔ)翻譯進(jìn)行詞性判斷,若是名詞,例如:“重耳”,則保留;若不是名詞,則直接刪除。

步驟3:根據(jù)步驟2中處理好的對(duì)齊結(jié)果對(duì)古文單字進(jìn)行合并:

(1)對(duì)已經(jīng)拆分成單字的古漢語(yǔ),逐字查詢(xún)其對(duì)應(yīng)的現(xiàn)代漢語(yǔ),若相鄰兩個(gè)字均對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ)翻譯,則合并這兩個(gè)字;

(2)繼續(xù)觀察后面的單字,若依然對(duì)應(yīng)同一個(gè)現(xiàn)代漢語(yǔ),則繼續(xù)合并。直到下一個(gè)字不再和前面的詞指向同一個(gè)漢語(yǔ)翻譯為止;例如:古漢語(yǔ)“周武王伐紂,并殺惡來(lái)”對(duì)應(yīng)現(xiàn)代漢語(yǔ)“周武王討伐紂王,連同惡來(lái)一起殺死”。在詞對(duì)齊結(jié)果中,“周”、“武”、“王”三字均對(duì)齊同一詞“周武王”,所以就將這三個(gè)字合并作為一個(gè)詞。而“伐”對(duì)齊“討伐”,因此,將“伐”同前面的“王”分離開(kāi)。

(3)若單字為零到九,用于表示年代的數(shù)詞,則對(duì)它們進(jìn)行合并。

步驟4:對(duì)合并結(jié)果中由三個(gè)或者三個(gè)以上的字構(gòu)成的詞進(jìn)行校驗(yàn):

(1)對(duì)每一個(gè)由三個(gè)及三個(gè)以上的字構(gòu)成的詞,在現(xiàn)代漢語(yǔ)翻譯中對(duì)該詞進(jìn)行查找,若成功找到,則視為分詞結(jié)果正確;

(2)若未找到,說(shuō)明該候選詞合并有誤,應(yīng)當(dāng)對(duì)其進(jìn)行分割:從候選詞的第一個(gè)字后開(kāi)始分割,將產(chǎn)生的兩個(gè)詞段分別在現(xiàn)代漢語(yǔ)中進(jìn)行查找比對(duì)。若成功找到,則保留分割結(jié)果,此時(shí)視為分割成功;若未找到,則繼續(xù)從第二個(gè)詞后分割,并以此類(lèi)推,直到找到相匹配的詞段。例如:“張良悅”是一個(gè)由三個(gè)字構(gòu)成的詞。在現(xiàn)代漢語(yǔ)翻譯中進(jìn)行查找后未發(fā)現(xiàn)該詞,說(shuō)明分詞有誤,須對(duì)該詞進(jìn)行分割。從第一個(gè)字后分割得到“張”和“良悅”,進(jìn)行查找比對(duì)后均無(wú)匹配詞段。再次對(duì)該詞分割,得到“張良”和“悅”,查找后發(fā)現(xiàn)“張良”成功匹配,則視為分割正確,遂將分詞結(jié)果替換為“張良/悅”。

根據(jù)以上步驟,本發(fā)明將分詞效果與結(jié)巴分詞、斯坦福分詞以及nlpir分詞方法做了對(duì)比,見(jiàn)表1,結(jié)巴分詞和nlpir是目前國(guó)內(nèi)廣泛使用的分詞方法,斯坦福分詞是國(guó)外具有代表性的一種中文分詞方法。

表1不同分詞方法結(jié)果對(duì)比

從表1中可以看出,本發(fā)明提出的方法在分詞準(zhǔn)確率、召回率以及f1度量方面明顯優(yōu)于其他方法。f1度量是準(zhǔn)確率和召回率的調(diào)和平均。

以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1