專利名稱:電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種文檔檢錯(cuò)、改錯(cuò)裝置及方法,特別是關(guān)于一種適用于中文、日文文檔的二階段式檢錯(cuò)及改錯(cuò)裝置及其方法。本發(fā)明所提供的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法,是利用二次斷詞的方式,達(dá)到正確檢出錯(cuò)字并改正錯(cuò)字的功效。
由于電腦應(yīng)用的普及,利用電腦處理各種文件,已經(jīng)成為現(xiàn)代商業(yè)活動(dòng)的標(biāo)準(zhǔn)作業(yè)方式。在所有電腦處理的文檔中,內(nèi)容的正確是一切處理的前提。因此,如何確保電腦文檔內(nèi)容的正確,成為文件處理領(lǐng)域當(dāng)中的一大課題。
在以中文(含簡體中文及繁體中文)、日文作為處理對象的應(yīng)用當(dāng)中,無論以常用的鍵盤輸入方式、語音、OCR辨識(shí)方式,或者由文檔呼出方式所取得的文檔,均有錯(cuò)別字的問題。
所謂“錯(cuò)字”,通常是指某一中文字,由于電腦辨識(shí)或書寫上筆畫增減、改變、誤置或鍵盤操作的漏打、多打、誤打、選字錯(cuò)誤等原因,造成字形的誤差。而所謂“別字”,是指應(yīng)該使用某字,因?yàn)檎J(rèn)知上的錯(cuò)誤而使用其他字的錯(cuò)誤。此外,在中國大陸所使用的中文字與臺(tái)灣使用的中文字互相之間,因用法的不同所產(chǎn)生的差異,也是目前一般文檔(尤其是簡、繁互換所得的文檔)常見的問題。以上以及其他用字的誤差,以下統(tǒng)稱為“錯(cuò)別字?!睂τ谖募谐霈F(xiàn)的錯(cuò)別字,常用技術(shù)是在系統(tǒng)輸入取得文檔之后,利用人工加以校正。由于人工校對極為耗時(shí),目前電子信息界已研究出若干以電腦自動(dòng)檢測錯(cuò)別字及/或自動(dòng)改正錯(cuò)別字的系統(tǒng),以滿足使用者大量自動(dòng)或半自動(dòng)校正錯(cuò)別字的要求。
中國臺(tái)灣發(fā)明專利案第59572號(hào)揭示一種“中文錯(cuò)字自動(dòng)檢測法及檢測裝置”,該方法可以自動(dòng)對中文文檔中的錯(cuò)別字,加以檢出,以供使用者改正錯(cuò)別字。該方法是利用統(tǒng)計(jì)方法,先將文句中的文字作假斷詞處理,選出不常出現(xiàn)的低頻單字詞,標(biāo)示為可能的錯(cuò)別字。該方法提供一種高查全率的檢錯(cuò)方法,但其缺點(diǎn)為不能提供正確字的建議、精確率低,且其字接續(xù)表參數(shù)量龐大,處理速度無法提高。
中國臺(tái)灣第83103817號(hào)專利申請案,揭示一種“中文錯(cuò)別字自動(dòng)修正方法與裝置”,該方法先將文字轉(zhuǎn)換為近似字集,再對近似字集斷詞。之后,利用一次斷詞的方式,對各字串組合作評分,找到可能的錯(cuò)別字,并提供改正建議。該方法由于近似字集相當(dāng)龐大,斷詞相當(dāng)費(fèi)時(shí),且因評分所用的詞間字接續(xù)表參數(shù)數(shù)量龐大,取樣統(tǒng)計(jì)不易完整。在應(yīng)用上,也有所不便。
因此目前亟需一種能提供高查全率、高精確率,且可提高速度的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法。同時(shí)也需有一種與文檔的輸入方法無關(guān),均能提供自動(dòng)檢錯(cuò)、改錯(cuò)功能的裝置與方法。
本發(fā)明的目的是提供一種高查全率及高精確率的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法;本發(fā)明的另一目的是提供一種速度可以提高的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法;本發(fā)明的另一目的是提供一種能適用于不同輸入方法的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法。
經(jīng)本發(fā)明人發(fā)現(xiàn),利用一種“二次斷詞”法,即經(jīng)由第一次斷詞,將文句回歸到無錯(cuò)的原始形式;再經(jīng)第二次斷詞將文句轉(zhuǎn)換成較正確的文字,即可提供高查全率及高精確率的檢錯(cuò)及改錯(cuò)功能。在本發(fā)明的方法中,首先將文句經(jīng)由斷詞分析,以確定字音及字形;其次,將所有文字分別轉(zhuǎn)換為一種音代碼形式及一種形代碼形式。接著依據(jù)所得的音代碼或形代碼在詞庫中查找字詞,并依查得的字詞對該文句作第二次斷詞。最后,依據(jù)第二次斷詞的結(jié)果,形成建議使用者更改的文句。
本發(fā)明的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法由于分別采取二次斷詞、詞性分析、音形代碼轉(zhuǎn)換的作法,可以達(dá)到高查全率、高精確率、高速度的效果。
現(xiàn)討論如下1.第一次斷詞可作用的前提,在于經(jīng)由斷詞的長度與頻率,可以有效地確定可能的錯(cuò)字點(diǎn),保障高查全率。
2.在第一次斷詞時(shí)同時(shí)進(jìn)行的詞性分析,是采用一個(gè)詞性接續(xù)表進(jìn)行的。利用其結(jié)果可以分析詞與詞之間詞性的配合程度。避免將正常的詞匯連用的情況,誤為錯(cuò)字點(diǎn),以提高精確率。詞性接續(xù)表具有文法分析的性質(zhì),比(詞間)字接續(xù)表而言,更具有一般性與推廣性。實(shí)驗(yàn)證明其效果極佳。
3.以100個(gè)詞性分類的分析為例,詞性接續(xù)表約有1000多項(xiàng)資料。而字接續(xù)表動(dòng)輒幾十萬項(xiàng)資料。因此以詞性接續(xù)表的拼字改錯(cuò)分析,可以節(jié)約查表時(shí)間、加快處理速度。
本發(fā)明的上述及其他目的及優(yōu)點(diǎn),可由以下結(jié)合附圖的詳細(xì)說明而更加清楚。
圖1表示本發(fā)明電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)方法的系統(tǒng)流程圖。
圖2表示本發(fā)明電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置第二階段斷詞處理子系統(tǒng)的系統(tǒng)圖。
表Ⅰ顯示適用在本發(fā)明的形代碼對照表的一部份內(nèi)容。
經(jīng)本發(fā)明人發(fā)現(xiàn),目前在一般電腦文檔中,最常見的錯(cuò)別字發(fā)生在同(近)音字,形近似字及簡繁轉(zhuǎn)換字。在同(近)音字方面,最常發(fā)生在以拼音輸入法所輸入的詞匯,例如“平均值”誤為“平均質(zhì)”,“必會(huì)”誤為“避諱”或“閉會(huì)”。而形近似字則較常發(fā)生在以字形為基礎(chǔ)的輸入法(例如倉頡輸入法)輸入之文件,或以O(shè)CR輸入的文件。例如在倉頡輸入法將“市場形勢(勢的倉頡碼為土戈大尸)”誤為“市場形劫(劫的倉頡碼為土戈大尸)”,或以O(shè)CR將“已經(jīng)”誤判為“正經(jīng)”等。而在簡繁轉(zhuǎn)換字方面,則主要發(fā)生在簡體對繁體字為一對多的場合,例如將“後面”誤為“后面”等。
由于在電腦文檔中發(fā)生錯(cuò)別字的原因并非只有一個(gè)方面,對電腦文檔檢錯(cuò)及改錯(cuò)方法必須能夠解決各種原因所致的錯(cuò)別字。為達(dá)成上述目的,本發(fā)明透過不同的代碼對照表及一種二階段斷詞技術(shù),以確保不同原因造成的錯(cuò)別字均能一一檢出,并予改正。
圖1表示本發(fā)明電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)方法的系統(tǒng)流程圖。以下依據(jù)
本發(fā)明之方法。
在利用本發(fā)明的電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法進(jìn)行錯(cuò)別字檢測時(shí),首先系統(tǒng)在步驟101從文檔中取出一段定長度的文字,并以標(biāo)點(diǎn)符號(hào)為界,將標(biāo)點(diǎn)符號(hào)之前的文字認(rèn)為一個(gè)單位“句子”,作為處理對象。
在此處理階段,所有文字依據(jù)通用的編碼方式賦予一個(gè)代碼。適用的編碼方式包括工業(yè)界常用的BIG5碼等。
其次,在步驟102,由系統(tǒng)從一以共用編碼方式編碼的詞典中,查出該句子中任何二字以上子字串所構(gòu)成的字詞。依此步驟所取得的字詞(子字串),可能互相重疊。因此必須有一作業(yè)方式,選取不重疊,接續(xù)緊密的詞匯段落。接著在步驟103依據(jù)所取得的字詞詞長、詞頻、詞性接續(xù)情形,依據(jù)一定規(guī)則,決定該句子最佳的詞匯分段方式。適用于此步驟的斷詞方式,可以是如常用的中國臺(tái)灣第81105610號(hào)專利案“中文文檔壓縮處理方法及裝置”所揭示的斷詞方法。至此完成第一階段的斷詞處理。
第一階段的斷詞處理是利用固有詞典將句子作預(yù)斷詞,以節(jié)省后續(xù)處理的時(shí)間。
圖2表示本發(fā)明第二階段斷詞處理子系統(tǒng)的系統(tǒng)圖。如圖所示,第二階段斷詞處理子系統(tǒng)包括一個(gè)原始文檔存儲(chǔ)體201、一個(gè)原始文件到代碼轉(zhuǎn)換裝置202、一個(gè)代碼對照表203、一個(gè)代碼檔存儲(chǔ)體204、一個(gè)代碼到目的文檔轉(zhuǎn)換裝置205、一輸出代碼轉(zhuǎn)換對照表206及一目的文檔存儲(chǔ)體207。
上述代碼對照表203如果是一個(gè)音代碼對照表,則可以依據(jù)每個(gè)文字的發(fā)音,例如以注音符號(hào)作為其代碼。因此,在此對照表中,同音字有相同的編碼。如果代碼對照表是一個(gè)形代碼對照表,則是將每組字形接近或易發(fā)生相同誤輸入的文字,歸納為一組一組的字集(cluster),并以其中一個(gè)字,作為其編碼。
表Ⅰ顯示適用于本發(fā)明的形代碼對照表的一部份內(nèi)容。在此代碼對照表中,第1欄為每一字集的組成字,第2、3欄為其倉頡碼,第4欄為字集的代碼。
此外,如果代碼對照表203為一簡繁字碼對照表,則包含所有單一簡體字對照至數(shù)繁體字的字庫,并以其發(fā)音代碼(如注音符號(hào))作為其代碼。
每一句子在步驟104轉(zhuǎn)換為代碼之后,即于步驟105儲(chǔ)存于代碼文檔存儲(chǔ)體204中,供代碼到目的文字檔轉(zhuǎn)換裝置205進(jìn)行轉(zhuǎn)換處理。在步驟106轉(zhuǎn)換裝置205依據(jù)句子的代碼,在一以代碼編碼的詞典中,找出與句子中的字串代碼相同的子字串,并予記錄。接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串的詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的詞匯分段(斷詞)方式。最后在步驟108依據(jù)所選出的詞匯重新構(gòu)成新的句子。
如有必要,轉(zhuǎn)換裝置205可于步驟109顯示處理結(jié)果,供使用者確認(rèn);否則即自動(dòng)更正句子內(nèi)容,并在步驟110依據(jù)輸出代碼對照表206的代碼,將更動(dòng)后的句子,轉(zhuǎn)換成以通用編碼方式編碼的目的文檔,而儲(chǔ)存于該目的文檔存儲(chǔ)體207中。
在本發(fā)明中,轉(zhuǎn)換裝置205決定最佳斷詞方式的方法,可以利用任何常用的方式,例如前述第83103817號(hào)專利案所述。但本發(fā)明的實(shí)例利用以下的步驟,可能達(dá)到更優(yōu)異的效果。
斷詞的計(jì)算方式為選取一組詞匯Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>為最大值。
其中POSi為Wi的詞性,而Ci為Wi的更改字?jǐn)?shù)。
定義詞長(︱Wi︱)一中文詞匯所包含的字?jǐn)?shù)。如“快樂”的詞長為2,而“快”的詞長為1。
詞頻(Prob(Wi))詞匯在文章中出現(xiàn)的頻率,如“快樂”在某一100萬詞匯的資料中出現(xiàn)100次,則其詞頻為0.001。
詞性接續(xù)機(jī)率(Prob(POSi︱POSi-1))某詞性X的詞匯在句子的第i-1個(gè)位置出現(xiàn)的條件下,詞性Y的詞匯接著在第i個(gè)位置出現(xiàn)的機(jī)率。例如在一資料中動(dòng)詞共出現(xiàn)100次而其后出現(xiàn)名詞的情況共32次,則動(dòng)詞與名詞的接續(xù)機(jī)率Prob(名詞︱動(dòng)詞)=0.32。
更改字?jǐn)?shù)(Ci)在第二次斷詞作業(yè)中,所考慮的音碼相同詞(或形碼相同詞)與同位置原始輸入資料不同的字?jǐn)?shù)。例如“形勢”為同位置“形劫”的同形詞,則更改字?jǐn)?shù)為1。
雖然不拘束于任何理論,但本發(fā)明提供上述公式的依據(jù)是綜合多項(xiàng)中文電腦處理的研究報(bào)告,以及發(fā)明人長期所作的研究試驗(yàn),所獲得的結(jié)論。說明如下1.最簡單、有效的“長詞優(yōu)先原則”可以達(dá)到90%以上的正確率。然而當(dāng)兩種斷詞的結(jié)果詞長相同時(shí),“長詞優(yōu)先原則”就無法決定采用何者。
2.在上述情形下,詞的使用常用方式的資料,可以在大部份的情形下,幫助選擇正確的斷詞。這些常態(tài)的統(tǒng)計(jì)資料包括詞使用頻率、相鄰詞性的鄰接出現(xiàn)的頻率等。例如在詞性方面“程度副詞‖形容詞”優(yōu)于“時(shí)間副詞‖動(dòng)詞”,因此在斷詞處理時(shí),后者應(yīng)為優(yōu)先。
3.上述公式實(shí)施的效果,會(huì)因辭典所收納的辭匯,處理文章的類型,而有若干程度的變動(dòng)。經(jīng)過詳細(xì)分析,對大量不同類型文章進(jìn)行實(shí)驗(yàn)調(diào)整公式,決定該式。
以下說明
具體實(shí)施例方式實(shí)施例一同音錯(cuò)別字的轉(zhuǎn)換首先系統(tǒng)在步驟101從原始文檔存儲(chǔ)體201的待處理文檔中取出一段定長度的文字,并以標(biāo)點(diǎn)符號(hào)為界,選定一個(gè)單位“句子”,作為處理對象“其平均質(zhì)頗為可信”。
待處理文檔是用教育部公布的BIG5碼,其代碼為其平均質(zhì)頗為可信A8E4 A5AD A7A1 BDE8 BBE1 ACB0 A569 AB48由待處理的句子得知,其中的“質(zhì)”字為“值”的同音錯(cuò)別字。
處理時(shí),在步驟102由系統(tǒng)從一以BIG5碼編碼的詞典中,查出該句子中任何二字以上子字串所構(gòu)成的字詞。在步驟103將所取得當(dāng)為平行四邊形時(shí),拆分后D1D3內(nèi)同為“/”左斜直線或“\”右斜直線段,D2D4為“一”直線段,上述的橫線段、左斜直線和右斜直線分別歸納定義為橫筆和撇捺筆。當(dāng)為不規(guī)則四邊形時(shí),拆分后D1D2D3D4內(nèi)可同時(shí)取“フ”折筆。
本發(fā)明中,凡用“田”字和“米”字圖對線符進(jìn)行拆分編碼時(shí),如遇某個(gè)方位或多個(gè)方位無筆畫或只有一筆畫時(shí),可向下一方位借二筆或一筆進(jìn)行編碼,也可采用“假設(shè)筆畫法”的方法來取筆編碼。
本發(fā)明用“米”字圖或“田”字圖拆分線符后,在某個(gè)或幾個(gè)方位沒有筆畫時(shí),可假設(shè)該方位內(nèi)的筆畫為五種筆畫中的任意一種筆畫,或固定為折“フ”筆畫。也可假設(shè)該方位內(nèi)的筆畫為上一方位內(nèi)的小數(shù)筆畫。即A2方位內(nèi)筆畫為“丿”,對應(yīng)數(shù)碼為“3”,則無筆畫的方位,A3的假設(shè)筆畫為“丨”筆,對應(yīng)數(shù)碼為“2”,即2<3,為小數(shù)筆畫。如字母“レ”與“ヘ”放入“田”字圖或“米”字圖中拆分,則“レ”在A 2角內(nèi)無筆畫,“ヘ”線符的A4角內(nèi)無筆畫,若假設(shè)無筆畫的位置為折筆筆畫,編碼舉例レJUBB,ヘNTTW。
本發(fā)明通過“米”字或“田”字拆分線符,再加上無筆畫位置采用假設(shè)筆畫的辦法來取筆編碼,可把特殊的線符確定在特殊的位置上,簡稱線符定位法,具體方法是a、處在字符右下角的線符,如逗號(hào)“,”、句號(hào)“?!?,處在字符左上角,右上角的線符,如單引號(hào)“‘’”、雙引號(hào)““””,處在字符左下角的線符,如直角“
”等。置于“田”字圖或“米”字圖中各自的對應(yīng)的位置內(nèi),即左上角A1或S1S2的位置內(nèi),右上角A2或S3S4的位置內(nèi),右下角A3或S5S6的位置內(nèi),左下角A4或S7S8的位置內(nèi),則無筆畫的方位用假設(shè)筆畫替代,結(jié)合定位符號(hào)取筆編碼。
b、對于帶方向性的特殊線符的定位辦法是將帶方向性的特殊線符放入“田”字圖或“米”字圖中各自相對應(yīng)的位置內(nèi),即左方A1A4或S2S1S8S7方位內(nèi);右方A2A3或S3S4S5S6方位內(nèi),上方A1A2或S1S2S3S4方位內(nèi);下方A3A4或S5S6S7S8方位內(nèi),則無<p>接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串的詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的斷詞方式。
斷詞的計(jì)算方式為選取一組詞匯Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>為最大值。
其中POSi為Wi的詞性,而Ci為Wi的更改字?jǐn)?shù)。
詞長(︱Wi︱)一中文詞匯所包含的字?jǐn)?shù)。“平均值”的詞長為3,而“平均”的詞長為2。
詞頻(Prob(Wi))詞匯在1百萬個(gè)詞匯文章中出現(xiàn)的頻率,如“平均值”詞頻為1次,“平均”詞頻為101次,“質(zhì)”詞頻為33次。
詞性接續(xù)機(jī)率(Porb(POSi︱POSi-1))某詞性X的詞匯在句子的第i-1個(gè)位置出現(xiàn)的條件下,詞性Y的詞匯接著在第i個(gè)位置出現(xiàn)的機(jī)率。例如在上例中“平均值”在“其”后出現(xiàn)的接續(xù)機(jī)率為Porb(Na︱Nh),“平均”在“其”后出現(xiàn)的接續(xù)機(jī)率為Prob(VH︱Nn),“質(zhì)”在“平均”后出現(xiàn)的接續(xù)機(jī)率為Porb(nA︱Nh)。
更改字?jǐn)?shù)(Ci)在第二次斷詞作業(yè)中,所考慮的同音詞與同位置原始輸入資料不同的字?jǐn)?shù)。例如“平均值”為同位置“平均質(zhì)”的同音詞,則更改字?jǐn)?shù)為1。
經(jīng)計(jì)算后所得的結(jié)果包括以下︱其︱平均︱質(zhì)︱頗為︱可信︱2.498×10-8︱其︱平均值︱頗為︱可信︱3.194×10-5最后在步驟108轉(zhuǎn)換裝置205依據(jù)所計(jì)算的數(shù)值,選擇較高的詞匯重新構(gòu)成新的句子︱其︱平均值︱頗為︱可信︱。
此外,轉(zhuǎn)換裝置205也可于步驟109顯示處理結(jié)果,供使用者確認(rèn);否則即自動(dòng)更正句子內(nèi)容,并由代碼到目的碼轉(zhuǎn)換裝置205在步驟110依據(jù)輸出代碼轉(zhuǎn)換對照表206的代碼,將更動(dòng)后的句子,轉(zhuǎn)換成以共用編碼方式編碼的目的文檔,而儲(chǔ)存于該目的文檔存儲(chǔ)體207中。如此即完成同音錯(cuò)別字改錯(cuò)步驟。
實(shí)施例二形近似錯(cuò)別字的轉(zhuǎn)換首先系統(tǒng)在步驟101從原始文檔存儲(chǔ)體201的待處理文檔中取出一段定長度的文字,并以標(biāo)點(diǎn)符號(hào)為界,選定一個(gè)單位“句子”,作為處理對象“造成市場形劫及力量”。
由待處理的句子得知,是“造成市場形勢及力量”的形近似錯(cuò)別字。
其次,在步驟102由系統(tǒng)從一以BIG5碼編碼的詞典中,查出該句子中任何二字以上子字串所構(gòu)成的字詞。在步驟103將所取得的字詞依據(jù)常用的斷詞方法,作第一階段的預(yù)斷詞處理。結(jié)果如下︱造成︱市場︱形︱劫︱及︱力量︱。
在步驟104系統(tǒng)設(shè)定所要處理的是形近似錯(cuò)別字。因此原始文件到代碼轉(zhuǎn)換裝置202便在代碼對照表203中取得形代碼對照表,將所要處理的句子,轉(zhuǎn)換為形代碼,并于步驟105將所得結(jié)果儲(chǔ)存于代碼檔存儲(chǔ)體204中︱造成︱市場︱形︱劫︱及︱力量︱。
↓↓ ↓↓ ↓ ↓ ↓ ↓↓︱胴怕︱咩佞︱俠︱劫︱扳︱六馬︱。
形代碼對照表是將每組字形接近或易發(fā)生相同誤輸入的文字,歸納為一組一組的字集(cluster),并以其中一個(gè)字,作為其編碼。例如上述的“胴”是代表下列形近似字集“造週迥胴…”,“怕”是代表下列形近似字集“成叨怍怕…”,“咩”是代表下列形近似字集“市辛咩洋”,以此類推。
文字檔轉(zhuǎn)換裝置205在步驟106依據(jù)句子的形代碼,在一以形碼編碼的詞典208中,找出與句子中的字串代碼相同的子字串︱造成︱市場︱形︱劫︱及︱力量︱︱胴怕︱咩佞︱俠︱劫︱扳︱六馬︱
︱VK33︱Nc30︱Na42︱VD45︱Ca24︱Na41︱,及︱造成︱市場︱形勢︱及︱力量︱︱胴怕︱咩佞︱俠劫︱扳︱六碼︱︱VK33︱Nc30︱Na99︱Ca24︱Na41︱。等等接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串的詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的斷句方式。
斷詞的計(jì)算方式為選取一組詞匯Wi,i-1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>為最大值。
經(jīng)計(jì)算后所得的結(jié)果為︱造成︱市場︱形劫︱及︱力量︱3.697×10-5︱造成︱市場︱形勢︱及︱力量︱2.184×10-2最后在步驟108轉(zhuǎn)換裝置205依據(jù)所計(jì)算的數(shù)值,選擇較高的詞匯重新構(gòu)成新的句子︱造成︱市場︱形勢︱及︱力量︱。
此外,轉(zhuǎn)換裝置205也可于步驟109顯示處理結(jié)果,供使用者確認(rèn);否則即自動(dòng)更正句子內(nèi)容,并由代碼到目的碼轉(zhuǎn)換裝置205在步驟110依據(jù)輸出代碼轉(zhuǎn)換對照表206的代碼,將更動(dòng)后的句子,轉(zhuǎn)換成以共用編碼方式編碼的目的文檔,而儲(chǔ)存于該目的文檔存儲(chǔ)體207中。如此即完成形近似錯(cuò)別字改錯(cuò)步驟。
上述形近似錯(cuò)別字的改錯(cuò)方法,可以應(yīng)用在任何以文字形體特征作為輸入依據(jù)的輸入法,以改正錯(cuò)別字。適用的實(shí)例包括以倉頡碼輸入的文檔及以O(shè)CR輸入的文檔。
實(shí)施例三簡繁轉(zhuǎn)換錯(cuò)別字的改正首先系統(tǒng)在步驟101從原始文檔存儲(chǔ)體201的待處理文檔中取出一段定長度的文字,并以標(biāo)點(diǎn)符號(hào)為界,選定一個(gè)單位“句子”,作為處理對象“老板徙后面端來湯面和鹵豆腐干”。
由待處理的句子得知,是“老闆徙後面端來湯麵和滷豆腐干”的繁簡轉(zhuǎn)換錯(cuò)別字。
其次,在步驟102由系統(tǒng)從一繁簡對照詞典中,查出該句子中任何二字以上子字串所構(gòu)成的字詞。在步驟103將所取得的字詞依據(jù)常用的斷詞方法,作第一階段的預(yù)斷詞處理。結(jié)果如下︱老板︱徙︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐干︱。
在步驟104系統(tǒng)設(shè)定所要處理的是繁簡轉(zhuǎn)換錯(cuò)別字。因此原始文件到代碼轉(zhuǎn)換裝置202便在代碼對照表203中取得繁簡轉(zhuǎn)換代碼對照表,將所要處理的句子,轉(zhuǎn)換為繁簡轉(zhuǎn)換代碼,并于步驟105將所得結(jié)果儲(chǔ)存于代碼檔存儲(chǔ)體204中︱老板︱徙︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐干︱。
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓↓老 板 徙 后 面 端 來 湯 面 和 鹵 豆腐干簡繁字碼對照表203包含所有單一簡體字對照至數(shù)繁體字的字庫,并以其中一繁體字作為其代碼。
文字檔轉(zhuǎn)換裝置205在步驟106依據(jù)句子的繁簡轉(zhuǎn)換代碼,在一以代碼編碼的詞典208中,找出與句子中的字串代碼相同的子字串︱老板︱從︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐︱干︱?!? ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓ ↓老板 從 后 面 端 來 湯 面 和 鹵 豆腐 干↓↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓ ↓︱Na︱ Pb ︱Na︱Na︱Vc︱Vc︱Na︱Na︱Ca︱Vc︱ Na ︱ Na ︱,及︱老闆︱從︱後面︱端︱來︱湯麵︱和︱滷︱豆腐乾︱?!? ↓ ↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓↓↓老板 從 后面 端 來 湯面 和 鹵 豆腐干↓↓ ↓ ↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓↓↓︱ Na︱ Pb ︱Nc︱ Vc ︱Vc︱Na︱Ca︱Vc ︱ Na ︱等等。
接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串的詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的斷句方式。
斷句的計(jì)算方式為選取一組詞匯Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>當(dāng)為平行四邊形時(shí),拆分后D1D3內(nèi)同為“/”左斜直線或“\”右斜直線段,D2D4為“一”直線段,上述的橫線段、左斜直線和右斜直線分別歸納定義為橫筆和撇捺筆。當(dāng)為不規(guī)則四邊形時(shí),拆分后D1D2D3D4內(nèi)可同時(shí)取“フ”折筆。
本發(fā)明中,凡用“田”字和“米”字圖對線符進(jìn)行拆分編碼時(shí),如遇某個(gè)方位或多個(gè)方位無筆畫或只有一筆畫時(shí),可向下一方位借二筆或一筆進(jìn)行編碼,也可采用“假設(shè)筆畫法”的方法來取筆編碼。
本發(fā)明用“米”字圖或“田”字圖拆分線符后,在某個(gè)或幾個(gè)方位沒有筆畫時(shí),可假設(shè)該方位內(nèi)的筆畫為五種筆畫中的任意一種筆畫,或固定為折“フ”筆畫。也可假設(shè)該方位內(nèi)的筆畫為上一方位內(nèi)的小數(shù)筆畫。即A2方位內(nèi)筆畫為“丿”,對應(yīng)數(shù)碼為“3”,則無筆畫的方位,A3的假設(shè)筆畫為“丨”筆,對應(yīng)數(shù)碼為“2”,即2<3,為小數(shù)筆畫。如字母“レ”與“ヘ”放入“田”字圖或“米”字圖中拆分,則“レ”在A 2角內(nèi)無筆畫,“ヘ”線符的A4角內(nèi)無筆畫,若假設(shè)無筆畫的位置為折筆筆畫,編碼舉例レJUBB,ヘNTTW。
本發(fā)明通過“米”字或“田”字拆分線符,再加上無筆畫位置采用假設(shè)筆畫的辦法來取筆編碼,可把特殊的線符確定在特殊的位置上,簡稱線符定位法,具體方法是a、處在字符右下角的線符,如逗號(hào)“,”、句號(hào)“?!?,處在字符左上角,右上角的線符,如單引號(hào)“‘’”、雙引號(hào)““””,處在字符左下角的線符,如直角“
”等。置于“田”字圖或“米”字圖中各自的對應(yīng)的位置內(nèi),即左上角A1或S1S2的位置內(nèi),右上角A2或S3S4的位置內(nèi),右下角A3或S5S6的位置內(nèi),左下角A4或S7S8的位置內(nèi),則無筆畫的方位用假設(shè)筆畫替代,結(jié)合定位符號(hào)取筆編碼。
b、對于帶方向性的特殊線符的定位辦法是將帶方向性的特殊線符放入“田”字圖或“米”字圖中各自相對應(yīng)的位置內(nèi),即左方A1A4或S2S1S8S7方位內(nèi);右方A2A3或S3S4S5S6方位內(nèi),上方A1A2或S1S2S3S4方位內(nèi);下方A3A4或S5S6S7S8方位內(nèi),則無句子中任何二字以上子字串所構(gòu)成的字詞。在步驟103將所取得的字詞依據(jù)常用的斷句方法,作第一階段的預(yù)斷句處理。結(jié)果如下︱發(fā)出︱金︱石︱一様︱饗︱脆︱的︱聲音︱在步驟104系統(tǒng)設(shè)定所要處理的是OCR辨識(shí)錯(cuò)字。因此原始文件到代碼轉(zhuǎn)換裝置202便在代碼對照表203中取得OCR辨識(shí)形似對照表。將所要處理的句子,轉(zhuǎn)換為OCR代碼,并于步驟105將所得結(jié)果儲(chǔ)存于代碼檔存儲(chǔ)體204中︱發(fā)出︱金︱石︱一様︱饗︱脆︱的︱聲音︱↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓︱登山︱全 石︱一株︱響︱脫︱約︱聲音︱形代碼對照表是將每組字形接近容易經(jīng)OCR辨識(shí)選成誤輸入的文字,歸納為一組一組之字集(cluster),并以其中一個(gè)字,作為其編碼。例如上述的“登”是代表下列形近似字集“發(fā)登澄”,“山”是代表下列行近似字集“山出仙…”,“全”是代表下列形的近似字集“全金仝…”,以此類推。
文檔轉(zhuǎn)換裝置205在步驟106依據(jù)句子的形代碼,在一以代碼編碼的詞典208中,找出與句子中的字串代碼相同的子字串︱發(fā)出︱金︱石︱一様︱饗︱脆︱的︱聲音︱︱登山︱金︱石︱一株︱響︱脫︱約︱聲音︱︱V R ︱Na︱Na︱D a︱ A ︱ A ︱Ta︱Na︱,及︱發(fā)出︱金屬︱一様︱響脆︱的︱聲音︱︱發(fā)山︱金石︱一株︱響脫︱約︱聲音︱︱ VR ︱ Na ︱ Da ︱ VH ︱Ta︱ Na ︱。
接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串之詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的斷句方式。
斷句的計(jì)算方式為選取一組詞匯Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>為最大值。
經(jīng)計(jì)算后所得的結(jié)果為︱發(fā)出︱金︱石︱一様︱饗︱脆︱的︱聲音︱2.19*12-12
︱發(fā)出︱金屬︱一様︱響脆︱的︱聲音︱3.86*10-9最后在步驟108轉(zhuǎn)換裝置205依據(jù)所計(jì)算的數(shù)值,選擇較高的詞匯重新構(gòu)成新的句子︱發(fā)出︱金屬︱一様︱響脆︱的︱聲音︱。
此外,轉(zhuǎn)換裝置205也可于步驟109顯示處理結(jié)果,供使用者確認(rèn);否則即自動(dòng)更正句子內(nèi)容,并由代碼到目的碼轉(zhuǎn)換裝置205在步驟110依據(jù)輸出代碼轉(zhuǎn)換對照表206的代碼,將更動(dòng)后的句子,轉(zhuǎn)換成以共用編碼方式編碼的目的文檔,而儲(chǔ)存于該目的文檔存儲(chǔ)體207中。如此即完成OCR辨識(shí)錯(cuò)字改錯(cuò)步驟。
在本發(fā)明所提供的方法中,改正的結(jié)果可能獲得在候選字中所沒有的正確字。
實(shí)施例五日文文稿改錯(cuò)實(shí)施例首先系統(tǒng)在步驟101從原始文檔存儲(chǔ)體201的待處理文檔中取出一段定長度之文字,并以標(biāo)點(diǎn)符號(hào)為界,選定一個(gè)單位“句子”,作為處理對象“それは自然化學(xué)を研究する。”由待處理的句子得知,其中的“化學(xué)”為“科學(xué)”的同音錯(cuò)別字。
其次,在步驟102由系統(tǒng)從一日文詞典中,查出該句子中任何日文子字串所構(gòu)成的字詞。在步驟103將所取得的字詞依據(jù)常用的斷句方法,作第一階段的預(yù)斷句處理。結(jié)果如下︱それごは︱自然︱化學(xué)︱を︱研究︱する︱在步驟104系統(tǒng)設(shè)定所要處理的是形近似錯(cuò)別字。因此原始文件到代碼轉(zhuǎn)換裝置202便在代碼對照表203中取得日文音代碼對照表,將所要處理的句子,轉(zhuǎn)換為日文音代碼,并于步驟105將所得結(jié)果儲(chǔ)存于代碼檔存儲(chǔ)體(204)中︱そ れ ご は︱ 自然 ︱ 化學(xué) ︱を︱ 研究 ︱する︱。
︱So re de Wa︱Shi zen︱Ka gaku︱O ︱Ken Kyuu︱Su ru︱簡繁字碼對照表203包含所有單一簡體字對照至數(shù)繁體字的字庫,并以其發(fā)音代碼作為其代碼。
文字檔轉(zhuǎn)換裝置205在步驟106依據(jù)句子的日文發(fā)音代碼,在一以代碼編碼的詞典208中,找出與句子中的字串代碼相同的子字串︱そ れ で は︱ 自然 ︱ 化學(xué) ︱を︱研究 ︱する︱。
︱So re de wa︱Shi zen︱Ka gaku︱O︱Ken Kyuu︱Su ru︱︱ 接續(xù) ︱ 名詞︱名詞 ︱賓︱ 動(dòng)名 ︱動(dòng)Ⅲ︱,及︱そ れ で は︱ 自然科學(xué) ︱を︱ 研究 ︱する︱。
︱So re de wa︱Shi zen Ka gaku︱O︱Ken Kyuu︱Su ru︱︱ 接續(xù) ︱名詞︱賓︱ 動(dòng)名 ︱動(dòng)Ⅲ︱等等。
接著,轉(zhuǎn)換裝置205在步驟107依據(jù)所記錄的子字串的詞長、詞頻、詞性接續(xù),更改字?jǐn)?shù)等四項(xiàng)因子,決定出最佳的斷句方式。
斷句的計(jì)算方式為選取一組詞匯Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>為最大值。
經(jīng)計(jì)算后所得的結(jié)果為︱そ れ ゎ で は︱自然 ︱化學(xué)︱を︱研究︱する︱3.71×10-9︱そ れ で は︱自然科學(xué) ︱を︱研究︱する︱2.92×10-6最后在步驟108轉(zhuǎn)換裝置205依據(jù)所計(jì)算的數(shù)值,選擇較高的詞匯重新構(gòu)成新的句子。
“それでは自然科學(xué)を研究する”此外,轉(zhuǎn)換裝置205也可于步驟109顯示處理結(jié)果,供使用者確認(rèn);否則即自動(dòng)更正句子內(nèi)容,并由代碼到目的碼轉(zhuǎn)換裝置205在步驟110依據(jù)輸出代碼轉(zhuǎn)換對照表206的代碼,將更動(dòng)后的句子,轉(zhuǎn)換成以共用編碼方式編碼的目的文檔。而儲(chǔ)存于該目的文檔存儲(chǔ)體(207)中。如此即完成日文同音錯(cuò)字改正步驟。
以上是對本發(fā)明電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置及方法的實(shí)施例的說明,本領(lǐng)域的技術(shù)人員不難由上述說明明了本發(fā)明的精神,并據(jù)以作出各種不同的變化與引伸。若不超出本發(fā)明的精神,均應(yīng)屬本發(fā)明專利范圍之內(nèi)。52 小NC弓金酒4553 尢KU大山尢3854 尸S 尸 馬3755 山U 山 山156 川LLL 中中中 甽557 工MLM 一中一 酒4558 己SU尸山六12159 已SU尸山六12160 巳RU口山匈5161 巾LB中月巾3062 干MJ一十舨4563 卄JJ十十姨3064 弋IP戈心俠3965 弓N 弓 了3366 才DH木竹匈5167 丑NG弓土了3368 丐MYVS 一卜女尸丐 169 不MF一火不 370 中L 中 甽 571 豐QJ手十六 12172 丹BY月卜始4873 之INO 戈弓人 了3374 尹SK尸大核4075 予NINN 弓戈弓弓予 176 云MMI 一一戈 佞5077 井TT廿廿奘3178 互MVNM 一女弓一互 179 五MDM 一木一 岑3580 亢YHN 卜竹弓 尢3881 仁OMM 人一一 佞5082 什OJ人十尢3883 仃OMN 人一弓 佞5084 仆OY人卜杓3985 仇OKN 人大弓 穹3986 仍O(shè)NHS 人弓竹尸舨4587 今OIN 人戈弓 岑3588 介OLL 人中中 刺3789 仄MO一人岑3590 元MMU 一一山 佞5091 允IHU 戈竹山 匈5192 內(nèi)OB人月穹3993 六YC卜金六 12194 兮CMVS 金一女尸兮 195 公Cl金戈穹3996 冗BHN 月竹弓 冬1697 兇UK山大咩4198 分CSH 金尸竹 扳5099 切PSH 心尸竹 切39100 刈KLN 大中弓 耽33101 勻PIM 心戈一 六 121102 勾PI心戈匈51表一
權(quán)利要求
1.一種電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)裝置,包括一待處理文檔獲取裝置,含有一個(gè)原始文檔存儲(chǔ)體,并可一待處理文檔中取出一段相當(dāng)長度的文字,視為一個(gè)“句子”,儲(chǔ)存于該一個(gè)原始文檔存儲(chǔ)體,作為處理對象;一預(yù)斷詞處理裝置,含有一以與該待處理句子共用的編碼方式編碼的詞典,依據(jù)一定規(guī)則將該待處理句子中任何子字串所構(gòu)成的字詞,以不重疊的接續(xù)方式排列;一原始文件到代碼轉(zhuǎn)換裝置,含有一個(gè)代碼對照表及一個(gè)代碼文檔存儲(chǔ)體,可依據(jù)該代碼對照表,將該待處理句子的文字轉(zhuǎn)換成代碼,儲(chǔ)存于代碼文檔存儲(chǔ)體;一代碼到目的文檔轉(zhuǎn)換裝置,含有一代碼詞典,可依據(jù)該待處理句子的代碼,在該代碼詞典中,找出與該待處理句子中所含字串代碼相同的子字串,并依據(jù)該待處理句子中至少二子字串的特性,決定出最佳的斷詞方式及適用的詞匯,并更正該待處理句子的內(nèi)容;及一輸出裝置,含有一輸出代碼轉(zhuǎn)換對照表及一目的文檔存儲(chǔ)體,可依據(jù)該輸出代碼轉(zhuǎn)換對照表,將該以代碼編碼的待處理句子,轉(zhuǎn)換成供輸出用的編碼格式,儲(chǔ)存于該目的文檔存儲(chǔ)體中。
2.如權(quán)利要求1所述的裝置,其特征在于該代碼到目的檔轉(zhuǎn)換裝置是依照該待處理句子的詞長(︱Wi︱一詞匯所包含的字?jǐn)?shù))、詞頻(Prob(Wi)一詞匯在一般文章中出現(xiàn)的頻率)、詞性接續(xù)機(jī)率(Porb(POSi︱POSi-1)某詞性X的詞匯在句子的第i-1個(gè)位置出現(xiàn)的條件下,詞性Y的詞匯接著在第i個(gè)位置出現(xiàn)的機(jī)率)及更改字?jǐn)?shù)(Ci在代碼到目的文檔轉(zhuǎn)換作業(yè)中,建議更改的字詞與同位置原輸入資料不同的字?jǐn)?shù))等,決定出最佳的斷詞方式及適用的詞匯。
3.如權(quán)利要求2所述的裝置,其特征在于該代碼到目的文檔轉(zhuǎn)換裝置,是依據(jù)該待處理句子中所有子字串的特性,決定出最佳的斷詞方式及適用的詞匯。
4.如權(quán)利要求3所述的裝置,其特征在于該代碼到目的文檔轉(zhuǎn)換裝置決定斷詞及適用詞匯的方式是選取一組辭匯Wi,i=1到n,使得Σi=1nα×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-β×Ci]]>為最大值。其中,POSi為Wi的詞性,︱Wi︱?yàn)樵~長,Prob(Wi)為詞頻,Porb(POSi︱POSi-1)為詞性接續(xù)機(jī)率,而Ci為Wi的更改字?jǐn)?shù)。
5.如權(quán)利要求1,2,3或4所述的裝置,其特征在于代碼到目的文檔轉(zhuǎn)換裝置另含一界面裝置,含有一顯示裝置,可于代碼到目的文檔轉(zhuǎn)換處理中,顯示處理結(jié)果,供使用者確認(rèn),并依據(jù)使用者指令,決定斷句及適用詞匯。
6.如權(quán)利要求1,2,3或4所述的裝置,其特征在于代碼對照表是一個(gè)中日文音代碼對照表,以文字的發(fā)音為其編碼規(guī)則;該對照表中,所有同音字的代碼均相同。
7.如權(quán)利要求1,2,3或4所述的裝置,其特征在于代碼對照表是一個(gè)形代碼對照表,將字形接近或易發(fā)生混同誤輸入的文字,歸納為一組一組的字集(cluster),每一字集被賦予一代碼。
8.如權(quán)利要求1,2,3或4所述裝置,其特征在于代碼對照表為一簡繁字碼對照表,包含所有單一簡體字對照至數(shù)繁體字的字組的集合,每一字組被賦予一代碼。
9.如權(quán)利要求8所述的裝置,其特征在于代碼對照表是以各組繁簡字組之一代表繁體字的字碼作為其代碼。
10.一種電腦文檔自動(dòng)檢錯(cuò)、改錯(cuò)方法,包括待處理句子取得-從一待處理文檔中取出一段相當(dāng)長度的文字,視為一個(gè)“句子”,作為處理對象;預(yù)斷詞-依據(jù)一定規(guī)則,將該待處理句子中任何子字串所構(gòu)成的字詞,以不重疊的接續(xù)方式排列;代碼轉(zhuǎn)換-依據(jù)一代碼對照表,將該待處理句子的文字轉(zhuǎn)換成代碼;改正處理-依據(jù)該待處理句子的代碼,于一以該代碼編輯而成的代碼詞典中,找出與該待處理句子中所含字串代碼相同的子字串,并依據(jù)該待處理句子中至少二子字串的特性,決定出最佳的斷詞方式及適用的詞匯,并更正該待處理句子的內(nèi)容而以代碼型式存在;及目的碼轉(zhuǎn)換-依據(jù)一輸出代碼轉(zhuǎn)換對照表,將該以代碼編碼的待處理句子,轉(zhuǎn)換成供輸出用的編碼格式,作為輸出用目的文檔。
11.如權(quán)利要求10所述的方法,其特征在于改正處理包括將該待處理句子的“詞長”(︱Wi︱一詞匯所包含的字?jǐn)?shù))、“詞頻”(Prob(Wi)一詞匯在一般文章中出現(xiàn)的頻率)、“詞性接續(xù)機(jī)率”(Porb(POSi︱POSi-1)某詞性X的詞匯在句子的第i-1個(gè)位置出現(xiàn)的條件下,詞性Y的詞匯接著在第i個(gè)位置出現(xiàn)的機(jī)率)及“更改字?jǐn)?shù)”(Ci在代碼到目的檔轉(zhuǎn)換作業(yè)中,建議更改的字詞與同位置原輸入資料不同的字?jǐn)?shù))等,作為決定出最佳的斷詞方式及適用的詞匯的依據(jù)。
12.如權(quán)利要求11所述的方法,其中特征在于改正處理包括依據(jù)該待處理句子中所有子字串的特性,決定出最佳的斷詞方式及適用的詞匯。
13.如權(quán)利要求12所述方法,其特征在于改正處理包括在該代碼詞典中,與該待處理句子所含字串代碼相同的子字串中,選取一組辭匯Wi=1到n,使得Σi=1nα×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-β×Ci]]>為最大值的計(jì)算其中,POSi為Wi的詞性,︱Wi︱?yàn)樵~長,Prob(Wi)為詞頻,Porb(POSi︱POSi-1)為詞性接續(xù)機(jī)率,而Ci為Wi的更改字?jǐn)?shù)。
14.如權(quán)利要求10,11,12或13所述的方法,特征在于改正處理另含一顯示處理結(jié)果,供使用者確認(rèn),并依據(jù)使用者指令,決定斷句及適用詞匯的步驟。
15.如權(quán)利要求10,11,12或13所述的方法,其特征在于代碼對照表是一個(gè)中日文音代碼對照表,以文字的發(fā)音為其編碼規(guī)則;該對照表中,所有同音字的代碼均相同。
16.如權(quán)利要求10,11,12或13所述的方法,其特征在于代碼對照表是一個(gè)形代碼對照表,將字形接近或易發(fā)生混同誤輸入的文字,歸納為一組一組的字集(cluster),每一字集被賦予一代碼。
17.如權(quán)利要求10,11,12或13所述的方法,其特征在于代碼對照表為一簡繁字碼對照表,包含所有單一簡體字對照至數(shù)繁體字的字組的集合,每一字組被賦予一代碼。
18.如權(quán)利要求17所述的方法,其特征在于代碼對照表以各組繁簡字組之一代表繁體字的字碼作為其代碼。
全文摘要
利用一種“二次斷詞”法,亦即經(jīng)由第一次斷詞,將文句回歸到無錯(cuò)的原始形式;再經(jīng)第二次斷詞將文句轉(zhuǎn)換成較正確的文字,即可提供高查全率及高精確率的檢錯(cuò)及改錯(cuò)功能。在本發(fā)明的方法中,首先將文句經(jīng)由斷詞分析,以確定字音及字形;其次,將所有文字分別轉(zhuǎn)換為一種音代碼形式及一種形代碼形式。接著依據(jù)所得的音代碼或形代碼在詞庫中查詢字詞,并依查得的字詞對該文句作第二次斷詞。最后,依據(jù)第二次斷詞的結(jié)果,形成建議使用者更改的文句。
文檔編號(hào)G06F17/20GK1228565SQ9711470
公開日1999年9月15日 申請日期1997年7月18日 優(yōu)先權(quán)日1997年7月18日
發(fā)明者張俊盛, 林翠芬 申請人:睿揚(yáng)資訊股份有限公司, 張俊盛, 林翠芬