亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

<dfn id="erglg"><thead id="erglg"></thead></dfn>

一種文本矯正的方法和裝置的制作方法

文檔序號:6433365閱讀:158來源:國知局
專利名稱:一種文本矯正的方法和裝置的制作方法
一種文本矯正的方法和裝置
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別涉及一種文本矯正的方法和裝置。
背景技術(shù)
隨著社會的發(fā)展,科技的進(jìn)步,國際學(xué)術(shù)交流越來越頻繁。在各國之間進(jìn)行學(xué)術(shù)文獻(xiàn)的非母語交流時,尤其對于經(jīng)驗不足的人來說,表達(dá)是否地道,詞語搭 配是否恰當(dāng)是常常被困擾的問題。例如,想用英文表達(dá)“綠色食品”,對于母語是漢語的人來說,很可能表達(dá)成“green food”,但實(shí)際上,地道的說法應(yīng)該是“organic food”,可以看出,高質(zhì)量的學(xué)術(shù)論文,離不開地道的語言表達(dá)方式。目前已經(jīng)存在對文本進(jìn)行查錯的技術(shù),但這種差錯通常只能查出拼寫錯誤或者語法錯誤,而不能對文本中不地道的表達(dá)或者不恰當(dāng)?shù)脑~語搭配進(jìn)行矯正。

發(fā)明內(nèi)容本發(fā)明提供了一種文本矯正的方法和裝置,以便于實(shí)現(xiàn)對文本中不地道的表達(dá)或者不恰當(dāng)?shù)脑~語搭配進(jìn)行矯正。具體技術(shù)方案如下一種文本矯正的方法,該方法包括S1、獲取待矯正文本;S2、利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找所述待矯正文本的相似文本;S3、將所述相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中所述差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為所述原始詞對應(yīng)的候選詞;S4、利用候選詞分別對所述待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù);S5、分別針對所述候選文本和所述待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù);S6、分別計算所述M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定,所述對象詞為文本中的原始詞或候選詞。其中,所述步驟S2具體包括計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本作為所述待矯正文本的相似文本。計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度具體包括計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的編輯距離,利用所述編輯距離確定相似度;或者,利用所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的差異詞特征向量之間的距離,計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的相似距離,利用所述相似距離確定相似度。
更進(jìn)一步地,在所述步驟S3中確定出差異詞對之后,還包括判斷所述差異詞對是否為同義詞對,將不是同義詞對的差異詞對刪除。具體地,判斷所述差異詞對是否為同義詞對包括判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的同義詞典中以同義詞對的形式出現(xiàn),如果是,則確定所述差異詞對為同義詞對;或者,判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的翻譯詞典中具有相同的譯文,如果是,則確定所述差異詞對為同義詞對。在所述步驟S5中,文本流利度由文本中對象詞在大規(guī)模語料庫中的出現(xiàn)概率以及對象詞與上下文在所述標(biāo)準(zhǔn)文本庫或大規(guī)模語料庫中的共現(xiàn)概率確定。具體地,在所述S6中,所述文本的搭配概率為文本中各對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率之和。優(yōu)選地,該方法還包括將所述矯正后的文本在彈出的文本框中顯示,且將所述待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,將矯正后文本中的候選詞進(jìn)行突出顯示。較優(yōu)地,在所述步驟S6之后還包括S7、分別計算所述矯正后文本中候選詞的評分以及所述待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在所述標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率和/或該詞語與文本中其他詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定;S8、根據(jù)所述矯正后文本中候選詞的評分與所述待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。較優(yōu)地,將所述矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯
/Jn ο更進(jìn)一步地,該方法還包括在所述矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在所述標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含所述組合的例句在彈出的文本框中顯示。一種文本矯正的裝置,該裝置包括輸入單元,用于獲取待矯正文本;相似文本確定單元,用于利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找所述待矯正文本的相似文本;差異詞確定單元,用于將所述相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中所述差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為所述原始詞對應(yīng)的候選詞;候選文本確定單元,用于利用候選詞分別對所述待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù);流利度計算單元,用于分別針對所述候選文本和所述待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù);搭配概率計算單元,用于分別計算所述M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定,所述對象詞為文本中的原始詞或候選詞。其中,所述相似文本確定單元計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本作為所述待矯正文本的相似文本。所述相似文本確定單元具體計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的編輯距離,利用所述編輯距離確定相似度;或者,利用所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的差異詞特征向量之間的距離,計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的相似距離,利用所述相似距離確定相似度。較優(yōu)地,該裝置還包括同義詞判斷單元,用于判斷所述差異詞確定單元確定的差異詞對是否為同義詞,將不是同義詞對的差異詞對刪除后,將剩余的差異詞對提供給所述候選文本確定單元。所述同義詞對判斷單元具體判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的同義詞典中以同義詞對的形式出現(xiàn),如果是,則確定所述差異詞對為同義詞對;或者,判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的翻譯詞典中具有相同的譯文,如果是,則確定所述差異詞對為同義詞對。所述流利度計算單元根據(jù)文本中對象詞在大規(guī)模語料庫中的出現(xiàn)概率以及對象詞與上下文在所述標(biāo)準(zhǔn)文本庫或大規(guī)模語料庫中的共現(xiàn)概率確定文本流利度。其中,搭配概率計算單元在計算文本的搭配概率時,具體計算文本中各對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率之和。較優(yōu)地,該裝置還包括第一顯示單元,用于將所述矯正后的文本在彈出的文本框中顯示,且將所述待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,將矯正后文本中的候選詞進(jìn)行突出顯示。更進(jìn)一步地,該裝置還包括詞語評分單元,用于分別計算所述矯正后文本中候選詞的評分以及所述待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在所述標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率和/或該詞語與文本中其他詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定;置信度評分單元,用于根據(jù)所述矯正后文本中候選詞的評分與所述待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。優(yōu)選地,該裝置還包括第二顯示單元,用于將所述矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯示。 較優(yōu)地,該裝置還包括例句參考單元,用于在所述矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在所述標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含所述組合的例句;第三顯示單元,用于在彈出的文本框中顯示所述例句參考單元確定的例句。由以上技術(shù)方案可以看出,本發(fā)明提供的方法和裝置基于標(biāo)準(zhǔn)文本庫,將文本流利度和詞語間的搭配概率融入文本的矯正,從而實(shí)現(xiàn)對文本中不地道的表達(dá)或者不恰當(dāng)?shù)脑~語搭配進(jìn)行矯正。
圖1為本發(fā)明實(shí)施例一提供的方法流程圖;圖2為本發(fā)明實(shí)施例一提供的包含矯正后文本的文本框?qū)嵗龍D;圖3為本發(fā)明實(shí)施例二提供的裝置結(jié)構(gòu)圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。實(shí)施例一、首先對本發(fā)明所提供的方法進(jìn)行描述,圖1為本發(fā)明實(shí)施例一提供的方法流程圖,如圖1所示,該方法可以包括以下步驟 步驟101 :獲取待矯正文本。在本發(fā)明實(shí)施例中,待矯正文本可以是段落、句子或者短語等。步驟102 :利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找上述待矯正文本的相似文本。根據(jù)不同的待矯正文本類型,在本步驟中可以相應(yīng)選取標(biāo)準(zhǔn)文本庫。例如,如果待矯正文本是句子,則該標(biāo)準(zhǔn)文本庫可以是標(biāo)準(zhǔn)例句庫,更具體地,如果用于學(xué)術(shù)論文的矯正,則可以采用學(xué)術(shù)論文例句庫。在查找相似文本時,可以計算待矯正文本和標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本。例如,待矯正文本是句子,則計算待矯正句子與標(biāo)準(zhǔn)例句庫中例句之間的相似度,選擇相似度滿足預(yù)設(shè)相似度閾值的例句作為待矯正句子的相似例句。其中,相似度的計算方式可以采用但不限于利用文本之間的編輯距離計算文本之間的相似度,或者,利用文本之間差異詞的相似距離計算文本之間的相似度。上述文本之間的編輯距離指的是從其中一個文本轉(zhuǎn)換到另一個文本所需要的最少的操作數(shù)目,操作包括插入、刪除或替換等,該部分為已有技術(shù),在此不再贅述。上述差異詞的相似距離可以采用差異詞的特征向量之間的距離進(jìn)行計算。需要說明的是,本步驟確定出的相似文本可能是一個,也可能是多個。也可能找不到相似文本,如果找不到相似文本,則結(jié)束矯正流程,可以認(rèn)為該待矯正文本無需矯正。步驟103 :將相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中差異詞對中待矯正文本的差異詞確定為原始詞,相似文本中的差異詞確定為原始詞對應(yīng)的候選詞。本步驟中將相似文本與待矯正文本逐一進(jìn)行比較,確定出不一致的詞語即為差異詞。需要說明的是,在比較時會首先對相似文本和待矯正文本進(jìn)行文本分析和停用詞過濾的處理,該部分為已有的成熟技術(shù),在此不再贅述。舉個例子,為了描述方便,我們以確定出一個相似文本為例待矯正文本Using the suggested method, we increased the performance ofthe system。相似文本;Using the proposed method,we improved the performance of thesystem。將上述相似文本和待矯正文本進(jìn)行比較后,確定出差異詞對為suggested(原始詞)和proposed (候選詞),increased (原始詞)和improved (候選詞)。作為一種優(yōu)選的實(shí)施方式,在確定出差異詞對后,可以進(jìn)一步判斷差異詞對是否為同義詞對,將不是同義詞對的差異詞對刪除。其中同義詞對的判斷方法可以采用但不限于以下兩種方式方式1:利用預(yù)設(shè)的同義詞典實(shí)現(xiàn),即判斷差異詞對中的兩個差異詞是否在同義詞典中以同義 詞對的形式出現(xiàn),如果是,則判斷出該差異詞對為同義詞對。方式2 :利用預(yù)設(shè)的翻譯詞典實(shí)現(xiàn),即判斷差異詞對中的兩個差異詞是否在翻譯詞典中具有相同的譯文,如果是,則判斷出該差異詞對為同義詞對。步驟104 :利用候選詞分別對待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù)。接續(xù)上例,利用proposed對suggested進(jìn)行替換后,構(gòu)成候選文本I ;利用improved對increased進(jìn)行替換后,構(gòu)成候選文本2 ;利用proposed對suggested進(jìn)行替換且利用improved對increased進(jìn)行替換后,構(gòu)成候選文本3。具體如下候選文本 I Using the proposed method, we increased the performance ofthe system。候選文本 2 Using the suggested method, we improved the performance ofthe system。候選文本3 Using the proposed method, we improved the performance of thesystem。實(shí)際上就是采用不同位置的原始詞和候選詞排列組合的方式構(gòu)成的各文本中除了待矯正文本之外,其他都是候選文本。步驟105 :分別針對候選文本和待矯正文本計算文本流利度,從中選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù)。其中文本流利度由文本中原始詞或候選詞在大規(guī)模語料庫中的出現(xiàn)概率以及原始詞或候選詞與上下文在所述標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率確定。例如,可以采用如下公式計算文本流利度
F(E) = ^Y4P(Wr\Wr-l^'^ 1^1-N )+ ^C ZC (^)⑴
Wi '-eWi^e其中,F(xiàn)(E)為文本E的流利度,e為文本E中的原始詞和候選詞構(gòu)成的集合,P (Wi Iwp1,…,Wi_N)為原始詞或候選詞Wi與其前N個詞語在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,當(dāng)然也可以選擇與其后N個詞語在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,或者其前后N個詞語在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,在此僅以與其前N個詞語在標(biāo)準(zhǔn)文本庫中共現(xiàn)的概率為例,其中N為預(yù)設(shè)的正整數(shù),C(Wi)為Wi在大規(guī)模語料庫中的出現(xiàn)概率,λ Μ和λ。為預(yù)設(shè)的權(quán)值參數(shù)。以上述例子中的候選文本2為例,計算該候選文本2的流利度。在該候選文本2中,原始詞和候選詞包括suggested和improved,如果公式(I)中N設(shè)為I,則可以分別計算suggested與the在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,improved與we在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,統(tǒng)計suggested在大規(guī)模語料庫中的出現(xiàn)概率以及improved在大規(guī)模語料庫中的出現(xiàn)概率,利用公式(I)計算候選文本2的流利度。
假設(shè)分別計算待矯正文本、候選文本1、候選文本2和候選文本3的流利度后,選出流利度排在前2個的文本為待矯正文本和候選文本3。需要說明的是,在文本流利度的計算中,考慮原始詞或候選詞與上下文在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率僅是其中一種方式,或者,可以考慮原始詞或候選詞與上下文在大規(guī)模語料庫中的共現(xiàn)概率,或者,綜合考慮原始詞或候選詞與上下文在大規(guī)模語料庫和標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率。當(dāng)然,文本流利度也可以采用已有的其他計算方式。步驟106 :分別計算選出的M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中原始詞與其他各詞語在標(biāo)準(zhǔn)文本庫中的搭配概率以及候選詞與其他各詞語在標(biāo)準(zhǔn)文本庫中的搭配概率確定。例如,可以采用如下公式計算文本的搭配概率
·
其中,CO(E)為文本E的搭配概率,e為文本E中的原始詞和候選詞構(gòu)成的集合,r (wi; Wj)為文本E中的原始詞或候選詞Wi與其他詞語Wi在標(biāo)準(zhǔn)文本庫中的搭配概率。以上述的候選文本3為例,計算propose與候選文本3中其他各詞語在標(biāo)準(zhǔn)文本庫中的搭配概率,以及improved與候選文本3中其他各詞語在標(biāo)準(zhǔn)文本中的搭配概率,將·計算得到的搭配概率進(jìn)行求和后得到候選文本3的搭配概率。需要說明的是,搭配概率通常是通過統(tǒng)計詞語的固定搭配得到的,由于搭配概率的確定方法是已有技術(shù),在此不再贅述。在計算出N2個文本的搭配概率后,按照搭配概率從高到低的順序從中選出矯正后文本。作為一種優(yōu)選的實(shí)施例,從中選出一個文本作為矯正后文本。接續(xù)上例,假設(shè)計算待矯正文本和候選文本3的搭配概率后,候選文本3的搭配概率高,則選擇候選文本3作為矯正后文本。在本實(shí)施例中可以將矯正后的文本作為建議在彈出的文本框中進(jìn)行顯示,如圖2所示,且可以將矯正后的文本中的候選詞進(jìn)行突出顯示,并將待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,圖2中以黑體進(jìn)行顯示。在確定出矯正后文本之后,更優(yōu)地,還可以進(jìn)一步對該矯正后文本中候選詞的置信度進(jìn)行評價,即執(zhí)行以下步驟步驟107 :分別計算矯正后文本中候選詞的評分以及待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文的共現(xiàn)概率和/或該詞語與文本中其他詞語的搭配概率確定。例如,可以采用如下公式計算詞語在文本中的評分,該詞語為矯正后文本中的候選詞或待矯正文本中對應(yīng)的原始詞
Conf(Wi^E) = AlPiwi^, ···,wM,-, wi+n) + A2 ^ Km,')(3)
WiGE ,WjGE ,Wj^Wi其中,confW, E)為原始詞或候選詞Wi在文本E中的評分,P (W^n, ···, Wi^1, Wi,wi+1,…,wi+n)為Wi與其上下η個詞語在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,體現(xiàn)了 Wi的流利度,η為預(yù)設(shè)的正整數(shù),Hwi, wp為Wi與文本E中其他詞語%在標(biāo)準(zhǔn)文本庫中的搭配概率,入1和λ 2為預(yù)設(shè)的權(quán)值參數(shù)。以矯正后文本中的候選詞proposed為例,如果設(shè)定η為I,則計算the proposedmethod在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率,計算proposed與該矯正后文本中其他詞語的搭配概率之和,然后按照公式(3)進(jìn)行計算得到該候選詞proposed的評分。步驟108 :根據(jù)矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。其中,矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分差異越大,則矯正后文本中候選詞的置信度越高。例如,可以計算矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分的比值,比值越大,該矯正后文本中候選詞的置信度越高。仍接續(xù)上例,按照公式(3)計算proposed在矯正后文本中的評分,計算suggested 在待矯正文本中的評分,求兩者的比值,比值越大,說明proposed的置信度越高,也就是說,從suggested修改為proposed的準(zhǔn)確性越高。同樣計算improved在矯正后文本中的評分,計算increased在待矯正文本中的評分,求兩者的比值,比值越大,說明improved的置信度越高,也就是說,從increased修改為improved的準(zhǔn)確性越高。優(yōu)選地,可以將矯正后文本中候選詞的置信度的打分進(jìn)行顯示,例如,可以將置信度的打分對應(yīng)到不同的置信度級別,例如,當(dāng)置信度的打分值高于閾值Ul時,給出三顆星,當(dāng)置信度的打分值在閾值Ul和u2之間時,給出兩顆星,當(dāng)置信度的打分值低于閾值u2時,給出一顆星。如圖2中所示。這樣就能夠給與用戶更清楚的指導(dǎo)作用,供用戶確定是否選擇矯正后的文本。除此之外,在本發(fā)明的實(shí)施例中,還可以進(jìn)一步確定矯正后文本中候選詞與該矯正后文本中其他詞語的搭配概率最大的詞語,以該候選詞和確定的該詞語的組合作為query在標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含該組合的例句同時顯示給用戶作為參考。如圖2所不,proposed在矯正后文本中與method的搭配概率最大,則以propose method的組合作為query在標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,可以確定出包含該組合的例句,從中選出一個或多個作為參考進(jìn)行顯示。另外,在彈出的文本框中,用戶可以選擇是否采用矯正后文本中的候選詞,如果用戶拒絕采用,則可以點(diǎn)擊拒絕采用的標(biāo)識,如圖2中置信度框中的“ X ”,這樣就會撤銷對應(yīng)的候選詞還原成對應(yīng)的原始詞。以上是對本發(fā)明所提供的方法進(jìn)行的詳細(xì)描述,下面結(jié)合實(shí)施例二對本發(fā)明提供的文本矯正的裝置進(jìn)行詳細(xì)描述。實(shí)施例二、圖3為本發(fā)明實(shí)施例二提供的裝置結(jié)構(gòu)圖,如圖3所示,該裝置可以包括輸入單元300、相似文本確定單元301、差異詞確定單元302、候選文本確定單元303、流利度計算單元304和搭配概率計算單元305。輸入單元300獲取待矯正文本。在本發(fā)明實(shí)施例中,待矯正文本可以是段落、句子或者短語等。相似文本確定單元301利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找待矯正文本的相似文本。
根據(jù)不同的待矯正文本類型可以選擇相應(yīng)的標(biāo)準(zhǔn)文本庫,例如,如果待矯正文本是句子,則該標(biāo)準(zhǔn)文本庫可以是標(biāo)準(zhǔn)例句庫,更具體地,如果用于學(xué)術(shù)論文的矯正,則可以采用更加專業(yè)的學(xué)術(shù)論文例句庫。在查找相似文本時,相似文本確定單元301通過計算待矯正文本與標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本作為待矯正文本的相似文本。具體地,相似度的計算方式可以采用但不限于計算待矯正文本與標(biāo)準(zhǔn)文本庫中文本之間的編輯距離,利用編輯距離確定相似度,其中文本之間的編輯距離指的是從其中一個文本轉(zhuǎn)換到另一個文本所需要的最少的操作數(shù)目,操作包括插入、刪除或替換等,該部分為已有技術(shù),在此不再贅述。或者,利用待矯正文本與標(biāo)準(zhǔn)文本庫中文本的差異詞特征向量之間的距離,計算待矯正文本與標(biāo)準(zhǔn)文本庫中文本之間的相似距離,利用相似距離確定相似度。相似文本確定單元301確定出的相似文本可能是一個,也可能是多個,也可能找不到相似文本,如果找不到相似文本,則結(jié)束矯正流程,認(rèn)為該待矯正文本無需矯正。差異詞確定單元302將相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為原始詞對應(yīng)的候選詞。候選文本確定單元303利用候選詞分別對待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù)。也就是說,選擇不同位置的原始詞和候選詞排列組合的方式構(gòu)成的各文本中除了待矯正文本之外,其他都是候選文本。流利度計算單元304分別針對候選文本和待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù)。具體地,流利度計算單元304可以根據(jù)文本中對象詞在大規(guī)模語料庫中的出現(xiàn)概率以及對象詞與上下文在標(biāo)準(zhǔn)文本庫或大規(guī)模語料庫中的共現(xiàn)概率確定文本流利度,其中對象詞為文本中的原始詞或候選詞。例如,在計算文本流利度時,可以采用實(shí)施例一中所述的公式(I)進(jìn)行計算,在此不再贅述。搭配概率計算單元305分別計算M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中對象詞與其他各詞語在標(biāo)準(zhǔn)文本庫中的搭配概率確定。其中,搭配概率計算單元305在計算文本的搭配概率時,具體計算文本中各對象詞與其他各詞語在標(biāo)準(zhǔn)文本庫中的搭配概率之和,例如可以采用實(shí)施例一中公式(2)所示的方式。作為一種優(yōu)選的實(shí)施方式,在按照搭配概率從高到低的順序從中選出一個文本作為校正后的文本。另外,該裝置還可以包括同義詞判斷單元306,用于判斷差異詞確定單元302確定的差異詞對是否為同義詞,將不是同義詞對的差異詞對刪除后,將剩余的差異詞對信息提供給候選文本確定單元303。具體地,同義詞對判斷單元306可以采用但不限于以下方式判斷同義詞對判斷差異詞對中的兩個差異詞是否在預(yù)設(shè)的同義詞典中以同義詞對的形式出現(xiàn),如果是,則確定差異詞對為同義詞對;或者,判斷差異詞對中的兩個差異詞是否在預(yù)設(shè)的翻譯詞典中具有相同的譯文,如果是,則確定差異詞對為同義詞對。為了將矯正后的結(jié)果展現(xiàn)給用戶供用戶參考和選擇,該裝置還可以包括第一顯示單元307,用于將矯正后的文本在彈出的文本框中顯示,且將待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,將矯正后文本中的候選詞進(jìn)行突出顯示。該裝置在確定出矯正后文本之后,還可以進(jìn)一步對矯正后文本中候選詞的置信度進(jìn)行評價,此時,該裝置還可以包括詞語評分單元308和置信度評分單元309。詞語評分單元308分別計算矯正后文本中候選詞的評分以及待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率和/或該詞語與文本中其他詞語在標(biāo)準(zhǔn)文本庫中的搭配概率確定。在計算詞語在文本中的評分時,可以采用諸如實(shí)施例一中公式(3)所示的方式。置信度評分單元309根據(jù)矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。其中,矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分差異越大,則矯正后文本中候選詞的置信度越高。例如,可以計算矯正后文本中候選詞的評分與待矯正文本中對應(yīng)原始詞的評分的比值,比值越大,該矯正后文本中候選詞的置信度越高。此時,該裝置還可以包括第二顯示單元310,用于將矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯示。除此之外,為了證明矯正后文本中所采用候選詞的置信度較高,可以進(jìn)一步為用戶提供一些參考文本,此時,該裝置還可以包括例句參考單元311和第三顯示單元312。例句參考單元311在矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含組合的例句。第三顯示單元312在彈出的文本框中顯示例句參考單元確定的例句。上述第一顯示單元307、第二顯示單元310和第三顯示單元312可以分別設(shè)置為獨(dú)立的單元,也設(shè)置為一個單元實(shí)現(xiàn)。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種文本矯正的方法,其特征在于,該方法包括 51、獲取待矯正文本; 52、利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找所述待矯正文本的相似文本; 53、將所述相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中所述差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為所述原始詞對應(yīng)的候選詞; 54、利用候選詞分別對所述待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù); 55、分別針對所述候選文本和所述待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù); 56、分別計算所述M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定,所述對象詞為文本中的原始詞或候選詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2具體包括計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本作為所述待矯正文本的相似文本。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度具體包括 計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的編輯距離,利用所述編輯距離確定相似度;或者, 利用所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的差異詞特征向量之間的距離,計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的相似距離,利用所述相似距離確定相似度。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S3中確定出差異詞對之后,還包括 判斷所述差異詞對是否為同義詞對,將不是同義詞對的差異詞對刪除。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,判斷所述差異詞對是否為同義詞對包括 判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的同義詞典中以同義詞對的形式出現(xiàn),如果是,則確定所述差異詞對為同義詞對;或者, 判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的翻譯詞典中具有相同的譯文,如果是,則確定所述差異詞對為同義詞對。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S5中,文本流利度由文本中對象詞在大規(guī)模語料庫中的出現(xiàn)概率以及對象詞與上下文在所述標(biāo)準(zhǔn)文本庫或大規(guī)模語料庫中的共現(xiàn)概率確定。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述S6中,所述文本的搭配概率為文本中各對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率之和。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括將所述矯正后的文本在彈出的文本框中顯示,且將所述待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,將矯正后文本中的候選詞進(jìn)行突出顯示。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S6之后還包括 ·57、分別計算所述矯正后文本中候選詞的評分以及所述待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在所述標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率和/或該詞語與文本中其他詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定;S8、根據(jù)所述矯正后文本中候選詞的評分與所述待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,該方法還包括將所述矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯示。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括在所述矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在所述標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含所述組合的例句在彈出的文本框中顯示。
12.—種文本矯正的裝置,其特征在于,該裝置包括輸入單元,用于獲取待矯正文本;相似文本確定單元,用于利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找所述待矯正文本的相似文本;差異詞確定單元,用于將所述相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中所述差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為所述原始詞對應(yīng)的候選詞;候選文本確定單元,用于利用候選詞分別對所述待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成Ml個候選文本,Ml為正整數(shù);流利度計算單元,用于分別針對所述候選文本和所述待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù);搭配概率計算單元,用于分別計算所述M2個文本的搭配概率,選出搭配概率排在前M3 個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù),其中文本的搭配概率由文本中對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定,所述對象詞為文本中的原始詞或候選詞。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述相似文本確定單元計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的相似度,確定相似度滿足預(yù)設(shè)相似度閾值的文本作為所述待矯正文本的相似文本。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述相似文本確定單元具體計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的編輯距離,利用所述編輯距離確定相似度;或者,利用所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本的差異詞特征向量之間的距離,計算所述待矯正文本與所述標(biāo)準(zhǔn)文本庫中文本之間的相似距離,利用所述相似距離確定相似度。
15.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置還包括同義詞判斷單元,用于判斷所述差異詞確定單元確定的差異詞對是否為同義詞,將不是同義詞對的差異詞對刪除后,將剩余的差異詞對提供給所述候選文本確定單元。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述同義詞對判斷單元具體判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的同義詞典中以同義詞對的形式出現(xiàn),如果是,則確定所述差異詞對為同義詞對;或者,判斷所述差異詞對中的兩個差異詞是否在預(yù)設(shè)的翻譯詞典中具有相同的譯文,如果是,則確定所述差異詞對為同義詞對。
17.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述流利度計算單元根據(jù)文本中對象詞在大規(guī)模語料庫中的出現(xiàn)概率以及對象詞與上下文在所述標(biāo)準(zhǔn)文本庫或大規(guī)模語料庫中的共現(xiàn)概率確定文本流利度。
18.根據(jù)權(quán)利要求12所述的裝置,其特征在于,搭配概率計算單元在計算文本的搭配概率時,具體計算文本中各對象詞與其他各詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率之和。
19.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置還包括第一顯示單元,用于將所述矯正后的文本在彈出的文本框中顯示,且將所述待矯正文本中對應(yīng)的原始詞進(jìn)行突出顯示,將矯正后文本中的候選詞進(jìn)行突出顯示。
20.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置還包括詞語評分單元,用于分別計算所述矯正后文本中候選詞的評分以及所述待矯正文本中對應(yīng)原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在所述標(biāo)準(zhǔn)文本庫中的共現(xiàn)概率和/或該詞語與文本中其他詞語在所述標(biāo)準(zhǔn)文本庫中的搭配概率確定;置信度評分單元,用于根據(jù)所述矯正后文本中候選詞的評分與所述待矯正文本中對應(yīng)原始詞的評分差異,為矯正后文本中候選詞的置信度進(jìn)行打分。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,該裝置還包括第二顯示單元,用于將所述矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯示。
22.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置還包括例句參考單元,用于在所述矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在所述標(biāo)準(zhǔn)文本庫中進(jìn)行查詢,確定包含所述組合的例句;第三顯示單元,用于在彈出的文本框中顯示所述例句參考單元確定的例句。
全文摘要
本發(fā)明提供了一種文本矯正的方法和裝置,其中方法包括獲取待矯正文本;利用預(yù)設(shè)的標(biāo)準(zhǔn)文本庫查找待矯正文本的相似文本;將相似文本與待矯正文本進(jìn)行比較,確定差異詞對,其中差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為原始詞對應(yīng)的候選詞;利用候選詞分別對待矯正文本中對應(yīng)的原始詞進(jìn)行替換構(gòu)成M1個候選文本,M1為正整數(shù);分別針對候選文本和待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數(shù);分別計算M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數(shù)。本發(fā)明能夠?qū)崿F(xiàn)對文本中不地道的表達(dá)或者不恰當(dāng)?shù)脑~語搭配進(jìn)行矯正。
文檔編號G06F17/27GK102999483SQ20111027624
公開日2013年3月27日 申請日期2011年9月16日 優(yōu)先權(quán)日2011年9月16日
發(fā)明者劉占一, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1