校正語料中的成語錯誤的裝置和方法
【專利摘要】本申請公開了一種校正語料中的成語錯誤的裝置和方法,該裝置包括:變形成語檢測單元,檢測語料中成語的變形;第一判斷單元,判斷成語的變形是否存在于近義詞詞典或易混淆詞詞典中;語義相似確定單元,在確定成語的變形不在近義詞詞典和易混淆詞詞典中時,確定其與原成語之間的語義是否相似;第二判斷單元,在確定成語的變形與原成語之間的語義不相似時,確定其不正確,否則確定其正確;語音相似度計算單元,在確定成語的變形不正確的情況下,計算成語的變形與原成語之間的語音相似度;字形相似度計算單元,在確定成語的變形不正確的情況下,計算其與原成語之間的字形相似度;以及校正單元,在確定成語的變形不正確的情況下,校正成語的變形。
【專利說明】校正語料中的成語錯誤的裝置和方法
【技術領域】
[0001]本發(fā)明涉及人工智能領域,具體地,涉及自然語言處理領域,特別是文本校對領域。更具體地,本發(fā)明涉及一種校正語料中的成語錯誤的裝置和方法。
【背景技術】
[0002]成語作為中文文本中一類較特殊的詞匯,具有特定的結構形式以及用法規(guī)范。但是,實際中,成語在具體使用時常常發(fā)生形變,比如成語“哀鴻遍野”在相似語境中會被表述為“悲鴻遍野”、“哀聲遍野”等。根據(jù)使用正確與否可將這些形變分為兩類:一類是成語在具體語境下的巧學妙用;另一類是漢字錄入時,由于輸入法或漢字識別技術造成的差錯,雖然這類錯誤對讀者閱讀時的語義理解影響不大,但卻給自然語言處理工作帶來了困難。因此,糾正此類錯誤有利于輔助文本校對,對詞匯理解、文本切分甚至句法分析都具有重要作用。
[0003]目前,傳統(tǒng)的文本糾錯方法難以將成語的正確變形和錯誤變形進行正確區(qū)分。
[0004]一方面,由于成語本身較固定,所以其出現(xiàn)的概率絕大多數(shù)情況下高于其變形詞出現(xiàn)的概率。如成語“一石二鳥”的變形詞“一石三鳥”,在判斷“一石三鳥”是否需要糾錯并給出糾錯建議“一石二鳥”時,若采用統(tǒng)計的方法,“一石二鳥”與上下文的相關性很可能高于“一石三鳥”與上下文的相關性,因此“一石三鳥”被判為錯誤形變,造成過度糾錯。
[0005]另一方面,由于成語的語義往往隱含于字面意義之中,不是其構成成分的簡單相力口,所以若僅僅依賴規(guī)則庫而不考慮具體語境信息也會造成錯誤遺漏,如規(guī)則庫中定義“唉聲嘆氣”屬于“哀聲嘆氣”的相似詞,借此錯誤地推斷出“唉鴻遍野”屬于“哀鴻遍野”的相似詞而跳過糾錯。
【發(fā)明內容】
[0006]在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0007]鑒于【背景技術】部分所述的需求,本發(fā)明關注于提高對成語錯誤的糾錯能力。具體地,本發(fā)明提出了一種基于音形義三個方面的混合的成語糾錯裝置和方法。
[0008]根據(jù)本發(fā)明的一個方面,提供了一種校正語料中的成語錯誤的裝置,包括:變形成語檢測單元,被配置為檢測語料中的成語的變形;第一判斷單元,被配置為判斷成語的變形是否存在于近義詞詞典以及判斷成語的變形是否存在于易混淆詞詞典中,并且進一步在成語的變形在近義詞詞典中時確定成語的變形正確,在成語的變形在易混淆詞詞典中時確定成語的變形不正確;語義相似確定單元,被配置為在第一判斷單元確定成語的變形不在近義詞詞典和易混淆詞詞典的任何一個中時,確定成語的變形與原成語之間的語義是否相似;第二判斷單元,被配置為在語義相似確定單元確定成語的變形與原成語之間的語義不相似的情況下,確定成語的變形不正確,否則確定成語的變形正確;語音相似度計算單元,被配置為在第二判斷單元確定成語的變形不正確的情況下,計算成語的變形與原成語之間的語音相似度;字形相似度計算單元,被配置為在第二判斷單元確定成語的變形不正確的情況下,計算成語的變形與原成語之間的字形相似度;以及校正單元,被配置為在第一判斷單元或第二判斷單元確定成語的變形不正確的情況下,校正成語的變形。
[0009]根據(jù)本發(fā)明的另一個方面,提供了一種校正語料中的成語錯誤的方法,包括:檢測語料中的成語的變形;判斷成語的變形是否存在于近義詞詞典以及判斷成語的變形是否存在于易混淆詞詞典中,并進一步在成語的變形在近義詞詞典中時確定成語的變形正確,在成語的變形在易混淆詞詞典中時確定成語的變形不正確;在確定成語的變形不在近義詞詞典和易混淆詞詞典的任何一個中時,確定成語的變形與原成語之間的語義是否相似;在確定成語的變形與原成語之間的語義不相似的情況下,確定成語的變形不正確,并計算成語的變形與原成語之間的語音相似度和/或字形相似度,否則確定成語的變形正確;以及在確定成語的變形不正確的情況下,校正成語的變形。
[0010]依據(jù)本發(fā)明的其它方面,還提供了相應的計算機程序代碼、計算機可讀存儲介質和計算機程序產品。
[0011]通過以下結合附圖對本發(fā)明的優(yōu)選實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
【專利附圖】
【附圖說明】
[0012]為了進一步闡述本申請的以上和其它優(yōu)點和特征,下面結合附圖對本申請的【具體實施方式】作進一步詳細的說明。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分。具有相同的功能和結構的元件用相同的參考標號表示。應當理解,這些附圖僅描述本申請的典型示例,而不應看作是對本申請的范圍的限定。在附圖中:
[0013]圖1示出了根據(jù)本申請的一個實施例的用于校正語料中的成語錯誤的裝置的結構圖;
[0014]圖2示出了根據(jù)本申請的一個實施例的語義相似確定單元的結構圖;
[0015]圖3示出了根據(jù)本申請的一個實施例的字形相似度計算單元的結構圖;
[0016]圖4示出了作為示例的“哀”和“衰”的16*16字形點陣信息的圖;
[0017]圖5示出了根據(jù)本申請的另一個實施例的用于校正語料中的成語錯誤的裝置的結構圖;
[0018]圖6示出了根據(jù)本申請的一個實施例的用于校正語料中的成語錯誤的方法的流程圖;
[0019]圖7示出了根據(jù)本申請的另一個實施例的用于校正語料中的成語錯誤的方法的流程圖;
[0020]圖8示出了根據(jù)本申請的一個實施例的用于確定成語的變形與原成語之間的語義是否相似的處理的流程圖;
[0021]圖9示出了根據(jù)本申請的一個實施例的用于計算成語的變形不同于原成語的字符與原成語中對應字符之間的字形相似度的處理的流程圖;
[0022]圖10示出了根據(jù)本申請的一個實施例的用于計算成語的變形不同于原成語的字符與原成語中對應字符之間的字形的局部相似度的處理的流程圖;以及
[0023]圖11是其中可以實現(xiàn)根據(jù)本發(fā)明的實施例的方法和/或裝置的通用個人計算機的示例性結構的框圖。
【具體實施方式】
[0024]在下文中將結合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
[0025]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的設備結構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。
[0026]下文中的描述按如下順序進行:
[0027]1.校正語料中的成語錯誤的裝置
[0028]1.1第一實施例
[0029]i)變形成語檢測單元
[0030]ii)第一判斷單元
[0031]iii)語義相似確定單元
[0032]iv)第二判斷單元
[0033]V)語音相似度計算單元
[0034]Vi )字形相似度計算單元
[0035]vii)校正單元
[0036]1.2第二實施例
[0037]2.校正語料中的成語錯誤的方法
[0038]3.用以實施本申請的裝置和方法的計算設備
[0039][1.校正語料中的成語錯誤的裝置]
[0040]〈1.1第一實施例>
[0041]首先參照圖1描述根據(jù)本申請的一個實施例的用于校正語料中的成語錯誤的裝置的結構。如圖1所示,用于校正語料中的成語錯誤的裝置100包括變形成語檢測單元101、第一判斷單元102、語義相似確定單元103、第二判斷單元104、語音相似度計算單元105、字形相似度計算單元106和校正單元107。
[0042]其中,變形成語檢測單元101被配置為檢測語料中的成語的變形。第一判斷單元102被配置為判斷成語的變形是否存在于近義詞詞典以及判斷成語的變形是否存在于易混淆詞詞典中,并且進一步在成語的變形在近義詞詞典中時確定成語的變形正確,在成語的變形在易混淆詞詞典中時確定成語的變形不正確。語義相似確定單元103被配置為在第一判斷單元102確定成語的變形不在近義詞詞典和易混淆詞詞典的任何一個中時,確定成語的變形與原成語之間的語義是否相似。第二判斷單元104被配置為在語義相似確定單元103確定成語的變形與原成語之間的語義不相似的情況下,確定成語的變形不正確,否則確定成語的變形正確。語音相似度計算單元105被配置為在第二判斷單元104確定成語的變形不正確的情況下,計算成語的變形與原成語之間的語音相似度。字形相似度計算單元106被配置為在第二判斷單元104確定成語的變形不正確的情況下,計算成語的變形與原成語之間的字形相似度。校正單元107被配置為在第一判斷單元102或第二判斷單元104確定成語的變形不正確的情況下,校正成語的變形。
[0043]通過上述配置,裝置100能夠方便、準確地定位到成語錯誤并進行糾正,且能防止過度糾錯的發(fā)生。具體地,通過音形義相結合的方式,提高了成語錯誤糾正的準確性。下面具體描述該裝置100的各個單元的配置。
[0044]i)變形成語檢測單元
[0045]變形成語檢測單元101被配置為檢測語料中的成語的變形。成語的變形是指成語在具體使用時發(fā)生一些形變從而導致字面上的不一致的現(xiàn)象。具體地,例如可以采用模式匹配的方法檢測成語的變形。
[0046]在一個實施例中,該變形成語檢測單元101被配置為檢測語料中與成語之間有一個字符或兩個字符不同的字符序列作為成語的變形。設置該規(guī)則是由于成語內部結構具有一定的嚴密性,所以當它發(fā)生變形時通常只會局部變化,例如,只變化一個字符或兩個字符。應該理解,變化的字符可以位于成語的任意位置上。
[0047]作為一個說明性示例,例如,原成語為“哀鴻遍野”,在僅考慮一個字符不同的字符序列的檢測時,需要分四種情況考慮:“x鴻遍野”、“哀X遍野”、“哀鴻X野”和“哀鴻遍X ”,其中“ X ”表示在相應位置上出現(xiàn)的不同于原成語的字符。當變形成語檢測單元101檢測到滿足上述四種情況之一的字符序列時,就將其作為成語的變形。
[0048]應該注意,以上雖然示出了只變化一個字符的情形作為示例,但是并不限于此,而是還可以考慮變化兩個字符的字符序列的檢測。
[0049]此外,變形成語檢測單元101還可以被配置為依據(jù)如下規(guī)則檢測成語的變形:檢測作為成語的變形的字符序列至少包括兩個單字詞。
[0050]在這種實施例中,變形成語檢測單元101在檢測成語的變形時,例如僅考慮如下模式的四字序列:1+1+1+1模式、1+2+1模式、2+1+1模式和1+1+2模式。作為說明性不例,例如“悲鴻遍野”屬于1+1+2模式,符合該規(guī)則,而“哀傷遍野”屬于2+2模式,不符合該規(guī)則,從而不被檢測為成語的變形。
[0051]雖然以上示出了變形成語檢測單元101所依據(jù)的檢測規(guī)則,但是實際中并不限于此,而是可以根據(jù)實際要求對規(guī)則進行修改或組合。例如,變形成語檢測單元101可以被配置為結合以上兩種規(guī)則執(zhí)行成語的變形的檢測。
[0052]然后,變形成語檢測單元101將檢測到的成語的變形提供給第一判斷單元102。
[0053]ii)第一判斷單元
[0054]第一判斷單元102從變形成語檢測單元101接收所檢測到的成語的變形,并判斷該成語的變形是否存在于近義詞詞典或易混淆詞詞典中。在該成語的變形在近義詞詞典中時第一判斷單元102確定該成語的變形正確,在該成語的變形在易混淆詞詞典中時第一判斷單元102確定該成語的變形不正確。
[0055]其中,近義詞詞典是預先構建的用于存儲成語的相似詞的詞典。成語的相似詞是成語在具體語境下衍生出的一系列雖形變但義相似的詞,例如“悲鴻遍野”,相似詞屬于成語的正確變形。易混淆詞詞典是預先構建的用于存儲成語的易混淆詞的詞典,易混淆詞是由于各種錯誤比如輸入錯誤或識別錯誤等導致的誤用的成語,例如“衰鴻遍野”,易混淆詞屬于成語的錯誤變形。
[0056]因此,第一判斷單元102利用已經存在的近義詞詞典和易混淆詞詞典的信息,可以初步判斷該成語的變形是否正確。具體地,當成語的變形在近義詞詞典中時,說明該變形是原成語的相似詞,是具體語境下的正確用法,從而確定該成語的變形正確。相反,如果成語的變形在易混淆詞詞典中,則說明該變形是由于某種錯誤生成的,從而判斷該成語的變形不正確,在這種情況下,可以利用后面將要描述的校正單元107對其進行校正。
[0057]在確定該成語的變形不在近義詞詞典和易混淆詞詞典的任何一個中時,第一判斷單元102將該成語的變形提供給語義相似確定單元103。
[0058]iii)語義相似確定單元
[0059]語義相似確定單元103從第一判斷單元102接收成語的變形并且確定該成語的變形與原成語之間的語義是否相似。如上所述,由于此時第一判斷單元102根據(jù)現(xiàn)有的信息無法直接確定該成語的變形是否正確,即該成語的變形可能是新出現(xiàn)的變形或者可能是未出現(xiàn)過的錯誤變形,因此需要利用語義相似確定單元103進行進一步判斷。
[0060]語義相似確定單元103用于判斷成語的變形與原成語之間的語義是否相似,在語義相似的情況下,認為該成語的變形是具體語境下的正確用法,否則認為是出現(xiàn)的錯誤。
[0061]在一個實施例中,如圖2所示,語義相似確定單元103包括特征獲取模塊201和分類器202。其中,特征獲取模塊201被配置為從語料中提取成語的變形的上下文作為上下文特征,獲取成語的變形出現(xiàn)的頻率作為頻率特征,獲取成語的變形不同于原成語的字符的詞性作為詞性特征,獲取成語的變形不同于原成語的字符與原成語中對應字符之間的語義的相似度作為語義特征。分類器202基于包括該特征獲取單元獲取的上下文特征、頻率特征、詞性特征以及語義特征的特征向量,對該成語的變形進行二元分類。
[0062]如上所述,該語義相似確定單元103將語義相似的判斷視為分類問題,并且,在分類時考慮了詞本身的特征(比如,上下文特征和頻率特征)和詞素的特征(比如,詞性特征和語義特征)兩者。應該注意,雖然以上示出了這些特征的示例,但是語義相似確定單元103也可以適當?shù)厥褂闷渌卣鱽磉M行判斷。
[0063]下面具體描述各個特征的獲取和使用。
[0064]上下文特征通過從語料中提取成語的變形的上下文信息獲得。例如,相關部分的語料表示為w_2 I1 W W1 W2,其中W表示成語的變形詞,W_2和I1分別表示出現(xiàn)在W之前的兩個詞,W1和W2則表示出現(xiàn)在W之后的兩個詞。
[0065]在一個示例中,可以用以該成語的變形為前提的各個上下文的條件概率表示該上下文特征。換言之,在表示為特征向量時,上下文特征所對應的項可以通過WfWfW1和W2各自對應的條件概率P (Wi Iw)、即在該成語的變形為W的前提下上下文信息分別為Wi的概率表示。應該理解,也可以用其他方式表示上下文特征。
[0066]此外,頻率特征是從大規(guī)模語料中統(tǒng)計出的該成語的變形出現(xiàn)的頻率??梢岳斫?,出現(xiàn)頻率越高,其為正確變形的可能性越大。
[0067]詞性特征是該成語的變形不同于原成語的字符在語料庫中出現(xiàn)概率最大的詞性。在一個示例中,詞性特征包括兩個可能值,分別表示詞性為數(shù)詞、形容詞、動詞或名詞,以及詞性不是數(shù)詞、形容詞、動詞和名詞中的任何一個。當然,詞性特征也可以直接表示為該詞的詞性。
[0068]在觀察成語的正確變形時可以發(fā)現(xiàn),成語中數(shù)詞、形容詞、動詞和名詞等詞素發(fā)生正確形變的概率較高,例如“一石二鳥”中的數(shù)詞“二”,“哀鴻遍野”中的形容詞“哀”。因此,詞性特征可以作為成語的變形是否正確的一個判斷依據(jù)。
[0069]作為一個示例,形變詞素C的詞性(Part of Speech,P0S)特征可從大規(guī)模語料詞性標注后的統(tǒng)計結果中統(tǒng)計得出。具體地,可以基于如下公式(I)所示。
【權利要求】
1.一種校正語料中的成語錯誤的裝置,包括: 變形成語檢測單元,被配置為檢測所述語料中的成語的變形; 第一判斷單元,被配置為判斷所述成語的變形是否存在于近義詞詞典以及判斷所述成語的變形是否存在于易混淆詞詞典中,并且進一步在所述成語的變形在所述近義詞詞典中時確定所述成語的變形正確,在所述成語的變形在所述易混淆詞詞典中時確定所述成語的變形不正確; 語義相似確定單元,被配置為在所述第一判斷單元確定所述成語的變形不在所述近義詞詞典和所述易混淆詞詞典的任何一個中時,確定所述成語的變形與原成語之間的語義是否相似; 第二判斷單元,被配置為在所述語義相似確定單元確定所述成語的變形與原成語之間的語義不相似的情況下,確定所述成語的變形不正確,否則確定所述成語的變形正確; 語音相似度計算單元,被配置為在所述第二判斷單元確定所述成語的變形不正確的情況下,計算所述成語的變形與原成語之間的語音相似度; 字形相似度計算單元,被配置為在所述第二判斷單元確定所述成語的變形不正確的情況下,計算所述成語的變形與原成語之間的字形相似度;以及 校正單元,被配置為在所述第一判斷單元或所述第二判斷單元確定所述成語的變形不正確的情況下,校正所述成語的變形。
2.根據(jù)權利要求1所述的裝置,還包括: 實時更新單元,被配置為在所述第二判斷單元確定所述成語的變形正確的情況下實時更新所述近義詞詞典,以及在所述第二判斷單元確定所述成語的變形不正確的情況下實時更新所述易混淆詞詞典?!?br>
3.根據(jù)權利要求1或2所述的裝置,其中,所述語音相似度計算單元和所述字形相似度計算單元被配置為分別計算所述成語的變形不同于原成語的字符與原成語中對應字符之間的語音的相似度和字形的相似度。
4.根據(jù)權利要求1或2所述的裝置,其中,所述語義相似確定單元包括: 特征獲取模塊,被配置為從所述語料中提取所述成語的變形的上下文作為上下文特征,獲取所述成語的變形出現(xiàn)的頻率作為頻率特征,獲取所述成語的變形不同于原成語的字符的詞性作為詞性特征,獲取所述成語的變形不同于原成語的字符與原成語中對應字符之間的語義的相似度作為語義特征;以及 分類器,基于包括所述特征獲取單元獲取的所述上下文特征、所述頻率特征、所述詞性特征以及所述語義特征的特征向量,對所述成語的變形進行二元分類。
5.根據(jù)權利要求4所述的裝置,其中,用以所述成語的變形為前提的各個上下文的條件概率表示所述上下文特征。
6.根據(jù)權利要求4所述的裝置,其中,所述詞性特征為所述字符在語料庫中出現(xiàn)概率最大的詞性。
7.根據(jù)權利要求4所述的裝置,其中,所述語義特征利用語義知識庫獲得。
8.根據(jù)權利要求3所述的裝置,其中,所述字形相似度計算單元包括全局相似度計算模塊和局部相似度計算模塊,分別被配置為計算該兩個字符之間的全局相似度和局部相似度,并且所述字形相似度計算單元還被配置為計算所述全局相似度和局部相似度的加權和作為所述字形相似度。
9.根據(jù)權利要求8所述的裝置,其中,所述局部相似度計算模塊被配置為: 將所述兩個字符的點陣分別分割為多個子點陣; 將每個子點陣進行水平方向和豎直方向上的投影,以獲得每個子點陣的水平向量和豎直向量,并利用所述兩個字符的對應子點陣的水平向量之間的相似度和豎直向量之間的相似度計算所述兩個字符的對應子點陣之間的相似度;以及 對所述兩個字符的子點陣之間的相似度進行求和,以得到所述兩個字符的局部相似度。
10.一種校正語料中的成語錯誤的方法,包括: 檢測所述語料中的成語的變形; 判斷所述成語的變形是否存在于近義詞詞典以及判斷所述成語的變形是否存在于易混淆詞詞典中,并進一步在所述成語的變形在所述近義詞詞典中時確定所述成語的變形正確,在所述成語的變形在所述易混淆詞詞典中時確定所述成語的變形不正確; 在確定所述成語的變形不在所述近義詞詞典和所述易混淆詞詞典的任何一個中時,確定所述成語的變形與原成語之間的語義是否相似; 在確定所述成語的變形與原成語之間的語義不相似的情況下,確定所述成語的變形不正確,并計算所述成語的變形與原成語之間的語音相似度和/或字形相似度,否則確定所述成語的變形正確;以及 在確定所述成語的變形不 正確的情況下,校正所述成語的變形。
【文檔編號】G06F17/27GK103853702SQ201210520870
【公開日】2014年6月11日 申請日期:2012年12月6日 優(yōu)先權日:2012年12月6日
【發(fā)明者】鄭仲光, 周小佩, 孟遙, 于浩 申請人:富士通株式會社