亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶反饋的行業(yè)拼寫錯誤檢查方法

文檔序號:6543745閱讀:241來源:國知局
基于用戶反饋的行業(yè)拼寫錯誤檢查方法
【專利摘要】本發(fā)明公開了一種基于用戶反饋的行業(yè)拼寫錯誤檢查方法,該方法利用分類設(shè)計的用戶字典,采用N-gram方法對英文文本進行拼寫錯誤檢查,并通過大語料數(shù)據(jù)庫搜索來完成正確單詞的推薦,從而實現(xiàn)與用戶相關(guān)聯(lián)的拼寫錯誤檢查。N-gram作為自然語言處理的基本方法,通過單詞或語句特征以及語料庫中的統(tǒng)計信息對文本中的錯誤進行檢查;分類設(shè)計的用戶字典根據(jù)當(dāng)前使用者的歷史信息,結(jié)合語料庫的統(tǒng)計數(shù)據(jù)選擇出與用戶輸入文本中錯誤單詞最相關(guān)的推薦單詞;使用維特比算法找出數(shù)據(jù)庫中條件概率乘積最大的單詞鏈,提高大語料庫中隱馬爾科夫模型的計算效率和數(shù)據(jù)庫中統(tǒng)計信息的使用效率。
【專利說明】基于用戶反饋的行業(yè)拼寫錯誤檢查方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種英文拼寫錯誤檢查方法,利用了包含大量語言信息的語料庫、自然語言統(tǒng)計模型以及隱馬爾科夫模型等相關(guān)技術(shù),涉及自然語言處理特別是英文拼寫檢查領(lǐng)域。
【背景技術(shù)】
[0002]首先對本發(fā)明中用到的縮寫進行定義:
[0003]NLP (Natural Language Processing):自然語言處理;
[0004]BNC (British National Corpus):英國國家語料庫;
[0005]LDC (Linguistic Data Consortium):語言數(shù)據(jù)聯(lián)盟;
[0006]LD (Levenshtein Distance):編輯距離;
[0007]N-gram:N 元語法。
[0008]拼寫錯誤檢查(Spelling Checker)是NLP的一個重要分支和基礎(chǔ)環(huán)節(jié),它將自然語言處理為無錯誤和可理解的文本,對于機器翻譯、語音合成、語音識別等高級的NLP技術(shù)有著天然的支撐作用。同時,這項技術(shù)可以有效提高用戶界面的友好性和智能性,具有重要的實際應(yīng)用價值。
[0009]早期的NLP主要采用基于句法-語義規(guī)則的方法。隨著語料庫建設(shè)和語料庫語言學(xué)的崛起,大規(guī)模真實文本的處理成為自然語言處理的主要目標(biāo)?;谝?guī)則的方法在發(fā)展多年以后,依然不能突破準(zhǔn)確率和效率兩方面的制約,而統(tǒng)計方法逐漸展現(xiàn)出在自然語言處理領(lǐng)域更多的優(yōu)勢。自然語言處理中越來越多地使用基于統(tǒng)計的自動學(xué)習(xí)方法來獲取語言知識,這也包括拼寫錯誤檢查在內(nèi)。基于統(tǒng)計的方法主要涉及語料庫和統(tǒng)計語言模型兩個方面。
[0010]多個組織和研究機構(gòu)提供了各自的語料庫及其各種統(tǒng)計數(shù)據(jù),如面向文本分類研究的中英文新聞分類語料、BNC, LDC、Gutenberg項目提供的4200多本免費電子書、萬篇隨機抽取論文中文DBLP資源、UCI評價排序數(shù)據(jù)等。
[0011]Google的Brants與Franz將網(wǎng)頁文本用Penn Treebank的方式進行了元素化,總共產(chǎn)生了超過IT的數(shù)據(jù),詳細內(nèi)容如表I所示。Google公布的基于IT網(wǎng)頁文本數(shù)據(jù)的5-grams語料庫是目前基于統(tǒng)計方法的比較全面的英文語料庫。該語料庫提供了從I?5-grams的統(tǒng)計信息,為基于統(tǒng)計方法的自然語言處理提供豐富的分析數(shù)據(jù)來源。
[0012]語料庫方面,字典為單詞糾錯提供了最基本的非詞錯誤檢查能力,設(shè)計具有良好的管理接口、可擴展的標(biāo)準(zhǔn)字典,可以為用戶提供單詞檢測的基本功能和提高系統(tǒng)性能;支持統(tǒng)計方法的語料庫是實現(xiàn)拼寫錯誤檢查的基礎(chǔ),它為自然語言處理模型提供了規(guī)??捎^、信息詳實的可用數(shù)據(jù);基于語義的語料庫是專業(yè)領(lǐng)域劃分的優(yōu)良模型,但由于語法規(guī)則的低效,這一方法無法得到實用。需要采用統(tǒng)計方法間接地實現(xiàn)行業(yè)分類的語料庫。
[0013]傳統(tǒng)的拼寫錯誤檢查注重于解決將正確單詞輸入為無效單詞的非詞錯誤檢查,常用的方法是使用一個可靠的詞庫和確定的距離測度,如LD。由于人工建立可靠詞庫的代價很高,傳統(tǒng)的拼寫檢查使用的詞庫是比較小的。隨著統(tǒng)計模型被引入到拼寫錯誤中,錯誤模型與N-gram語言模型成為拼寫錯誤檢查系統(tǒng)的關(guān)鍵組成部分。Kukich提出錯誤概率的轉(zhuǎn)移矩陣與特征向量在拼寫糾錯中的應(yīng)用,是后來N-gram方法實現(xiàn)的基礎(chǔ)。Brill和Moore證明了一個好的統(tǒng)計模型是提高拼寫檢查精度的關(guān)鍵,但建立這樣的錯誤模型需要對糾錯詞組做大量的手工標(biāo)記,這涉及到極高的成本。Whitelaw等使用Web文本在一定程度上提高了這一效率。隨著Web技術(shù)和應(yīng)用的發(fā)展,拼寫錯誤檢查也越來越受到關(guān)注,更多的拼寫錯誤類型被提及,如漏寫、錯增字母,交換若干字母的順序,錯誤的合并、拆分單詞,誤用單詞等等。這些方法主要解決的問題是查找輸入錯誤、搜索候選單詞空間和建立候選單詞評分函數(shù)。
[0014]現(xiàn)有拼寫錯誤檢查模型中,大部分都是基于N-gram模型的離線模型,這一方法現(xiàn)在已經(jīng)成為拼寫檢查研究的主流。模型的主要思路是使用擴展的貝葉斯公式計算自然語言中的統(tǒng)計信息,最大的特點是采用了統(tǒng)計方法、模型簡單高效。當(dāng)前研究主要使用的工具是N-gram模型、擴展的貝葉斯公式和隱馬爾科夫模型。分為用貝葉斯公式統(tǒng)計單詞概率、使用隱馬爾科夫模型求解N-gram模型參數(shù)以及貝葉斯公式中隱馬爾科夫模型的快速求解這幾個方面。模型的效率和實用性是這一領(lǐng)域迫切需要解決的問題。

【發(fā)明內(nèi)容】

[0015]技術(shù)問題:在拼寫錯誤檢查系統(tǒng)中,語料庫作為整個模型的基礎(chǔ),其中的計算和查詢過程不可避免的成為整個系統(tǒng)的性能瓶頸。如果語料庫基于語法規(guī)則或者只統(tǒng)計單詞出現(xiàn)的頻次,在查詢過程中很容易出現(xiàn)規(guī)則爆炸導(dǎo)致的性能低下或者因統(tǒng)計數(shù)據(jù)不足導(dǎo)致的計算結(jié)果不準(zhǔn)確。拼寫錯誤檢查模型方面,簡單的根據(jù)某一測度進行匹配或者只采用N-gram計算模型,前者獲得的檢查結(jié)果存在較大的誤差,后者對系統(tǒng)的性能產(chǎn)生較大的影響。本發(fā)明要解決的技術(shù)問題是系統(tǒng)缺少基于用戶反饋的動態(tài)調(diào)整能力,無法有效的綜合使用多種語料庫信息。針對不能有效利用多種語料庫的問題,采用用戶字典、行業(yè)語料庫和核心語料庫相互結(jié)合、加權(quán)計算的方法。這種方法具有查詢快速,計算結(jié)果準(zhǔn)確,對上下文環(huán)境適應(yīng)性高等特點,能夠在不同的用戶和文本環(huán)境下自動調(diào)節(jié)語料庫對不同部分的使用,有效的提高系統(tǒng)效率和保證結(jié)果準(zhǔn)確性。本發(fā)明通過使用維特比算法對N-gram模型中的馬爾科夫鏈進行計算,獲得最有可能的正確單詞構(gòu)成的集合。在語料庫中根據(jù)錯誤單詞前N-1個單詞對各個可能的單詞進行概率的計算,按照LD測度和單詞在語料庫所處的部分計算權(quán)值,獲得按照正確單詞的出現(xiàn)概率排序的推薦列表。根據(jù)用戶選取的正確單詞以及上下文,將用戶文本中的信息統(tǒng)計入系統(tǒng)的語料庫中。系統(tǒng)得到新的統(tǒng)計信息后,根據(jù)N-gram模型中的統(tǒng)計算法,對語料庫數(shù)據(jù)表中相關(guān)記錄的單詞頻次和條件概率進行修正,使得語料庫與用戶的實際使用同步,記錄所有歷史文本的統(tǒng)計數(shù)據(jù),完成拼寫錯誤檢查系統(tǒng)的整體更新。
[0016]技術(shù)方案:
[0017]為解決上述技術(shù)問題,本發(fā)明利用N-gram語料庫數(shù)據(jù)和相關(guān)的統(tǒng)計方法,提出了一種基于用戶反饋的行業(yè)拼寫錯誤檢查方法。該拼寫錯誤檢查方法具體如下:
[0018]一種基于用戶反饋的行業(yè)拼寫錯誤檢查方法,包括步驟:
[0019]I)語料庫和用戶字典的獲取與建立:[0020]語料庫分為核心語料庫和行業(yè)語料庫,作為存儲語言信息的核心統(tǒng)計數(shù)據(jù),保存著整體統(tǒng)計語言和行業(yè)用語的詞法、語法和語義信息,當(dāng)進行拼寫錯誤檢查時,核心語料庫和行業(yè)語料庫為拼寫檢查模型提供所有的單詞、語句信息,給出整個語言的全局?jǐn)?shù)據(jù);同時,根據(jù)用戶自行構(gòu)建的字典,獲取關(guān)于用戶的特殊語料信息;
[0021]在數(shù)據(jù)庫中,定義數(shù)據(jù)表對整體的語料及用戶語料信息進行存儲;
[0022]2)拼寫檢查模型的構(gòu)建:
[0023]拼寫錯誤檢查模型的構(gòu)建是以N-gram模型對語料庫的統(tǒng)計信息進行計算,取得條件概率最大的單詞鏈組合,步驟包括:
[0024]21)單詞的正確性判斷:對文本中的單詞做核心語料庫的匹配,如果單詞不在核心語料庫中,再依次使用行業(yè)語料庫和用戶字典進行判斷;如果前述三種數(shù)據(jù)表中均不存在,則判斷為錯誤單詞,進行下一步;
[0025]22)正確單詞的推薦:根據(jù)各語料庫中與錯誤單詞在編輯距離下相近的單詞,計算這些單詞的概率及其上下文聯(lián)合概率,再按各個語料庫的權(quán)值計算與錯誤單詞最相關(guān)的正確單詞,選擇所有語料庫加權(quán)后概率最大的若干個單詞構(gòu)成正確單詞的推薦列表;
[0026]3)通過拼寫檢查模型中的錯誤檢查和單詞推薦對用戶輸入的文本進行處理;
[0027]4)更新與用戶相關(guān)的文本統(tǒng)計信息、字典和語料庫:對用戶輸入的文本和選擇的正確單詞進行統(tǒng)計,將文本中的正確單詞信息和上下文信息統(tǒng)計入用戶字典、核心語料庫和相應(yīng)的行業(yè)語料庫。
[0028]所述步驟I)中,有效語料庫以及用戶字典的必要條件包括:
[0029](I)用戶字典中不存在錯誤單詞,也即必須是從牛津、朗文等公認的標(biāo)準(zhǔn)字典中獲取的正確單詞,或者用戶自定義的行業(yè)或特殊單詞;
[0030](2)核心語料庫足夠大,不存在行業(yè)、時效等偏向性,并且必須包含有N-gram信息,用來提供基本的單詞上下文統(tǒng)計信息;
[0031](3)行業(yè)語料庫按照需求進行初步的劃分,并根據(jù)用戶的選擇自然生成,單個用戶可以是多個行業(yè)語料庫的使用者。
[0032]所述步驟21)中,使用維特比算法在N-gram模型中快速計算當(dāng)前單詞在核心語料庫、行業(yè)語料中的概率,并獲得當(dāng)前單詞與前N-1個單詞出現(xiàn)的聯(lián)合概率,實現(xiàn)對當(dāng)前單詞正確性的判定。
[0033]所述步驟22)中,對錯誤單詞所在的位置使用N-gram模型在行業(yè)語料庫與核心語料庫中進行搜索,并通過編輯距離以及單詞出現(xiàn)概率在用戶字典中進行匹配,以獲得最有可能的單詞列表;對于每個單詞在不同語料庫中的概率,采用加權(quán)概率對推薦單詞列表進行排序,然后向用戶給出排序后的推薦結(jié)果。
[0034]所述步驟4)中,系統(tǒng)對用戶輸入的文本進行錯誤檢查后,計算用戶輸入中的文本統(tǒng)計信息,為用戶字典和語料庫中的N-gram數(shù)據(jù)提供更新信息,將相應(yīng)的數(shù)據(jù)表更新后,用新的語料庫數(shù)據(jù)和用戶字典提供錯誤檢查服務(wù)。
[0035]本方法中,使用的統(tǒng)計語言模型就是使用隱馬爾科夫模型檢查語料庫中使得以錯誤單詞所在位置的上下文相關(guān)單詞鏈出現(xiàn)概率最高的單詞作為正確單詞列表,各個語料庫具有不同的權(quán)值,通過語料庫內(nèi)單詞的概率和語料庫的加權(quán)計算,得到排序后的推薦單詞列表。拼寫錯誤檢查通過用戶對推薦單詞的選擇完成。[0036]本方法基于N-gram自然語言處理模型,采用核心語料庫、按行業(yè)分類的語料庫、用戶字典和統(tǒng)計語言模型,為用戶輸入的文本提供錯誤檢查和正確單詞推薦的功能。在用戶輸入一段文本后,服務(wù)器對文本進行元素化,將文本切分為N元文法下的單詞鏈集合,從而計算每個單詞鏈中最后一個單詞在語料庫中的條件概率。統(tǒng)計語言模型計算出若干個概率最大的單詞作為正確單詞的備選集合,如果原單詞在備選集合中,則判定原單詞正確,否則用戶從備選集合中選擇一個單詞作為正確單詞。
[0037]本發(fā)明針對拼寫錯誤檢查系統(tǒng)的效率和實用性問題,利用分類語料庫加權(quán)計算的方式,結(jié)合LD測度和搜索算法,以先查錯后推薦的方式進行單詞拼寫錯誤檢查,可以高效快速的實現(xiàn)錯誤檢查和上下文關(guān)聯(lián)性更強的單詞推薦;采用了維特比算法,提出了一種統(tǒng)計語言模型,能夠快速計算用戶文本中單詞在語料庫中加權(quán)概率最大的單詞列表。獲得推薦單詞列表的用戶,根據(jù)實際情況選擇正確的單詞并反饋給系統(tǒng),系統(tǒng)將用戶選擇的單詞及其上下文統(tǒng)計信息加入到和用戶相關(guān)的語料庫中:通過統(tǒng)計模型計算該單詞在核心語料庫、行業(yè)語料庫和用戶字典中的更新數(shù)據(jù)并添加到數(shù)據(jù)表中,以新的數(shù)據(jù)對下一次到來的用戶文本進行拼寫錯誤檢查,從而實現(xiàn)了系統(tǒng)能根據(jù)實際使用環(huán)境和不同的用戶為文本提供拼寫錯誤檢查的特性。
[0038]有益效果:本發(fā)明具有語料庫使用效率高、數(shù)據(jù)基于用戶實際反饋進行調(diào)整等特點,使得系統(tǒng)的實用性強,檢查速度快,數(shù)據(jù)同步性高(根據(jù)使用情況及時更新語料庫數(shù)據(jù));結(jié)合使用多個不同的語料庫,能夠在多用戶、高并發(fā)請求的環(huán)境下有效的實現(xiàn)高效的拼寫錯誤檢查。
【專利附圖】

【附圖說明】
[0039]圖1為本發(fā)明所述的N-gram統(tǒng)計模型圖。
[0040]圖2為本發(fā)明所述的拼寫錯誤檢查系統(tǒng)結(jié)構(gòu)圖。
[0041]圖3為本發(fā)明的具體實施流程圖。
[0042]圖4為拼寫錯誤檢查功能模塊圖。
[0043]圖5 為 GooglelT N-gram 數(shù)據(jù)信息表。
【具體實施方式】
[0044]下面結(jié)合附圖和具體示例對本發(fā)明再作進一步詳細的說明。
[0045]本發(fā)明的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,主要解決目前拼寫錯誤檢查中缺少用戶關(guān)聯(lián)和快速搜索大語料庫的問題,涉及到自然語言處理、用戶字典設(shè)計以及數(shù)據(jù)庫搜索等相關(guān)技術(shù)。該方法利用分類設(shè)計的用戶字典,采用N-gram方法對英文文本進行拼寫錯誤檢查,并通過大語料數(shù)據(jù)庫搜索來完成正確單詞的推薦,從而實現(xiàn)與用戶相關(guān)聯(lián)的拼寫錯誤檢查。N-gram模型(圖1)作為自然語言處理的基本方法,通過單詞或語句特征以及語料庫中的統(tǒng)計信息對文本中的錯誤進行檢查;分類設(shè)計的用戶字典根據(jù)當(dāng)前使用者的歷史信息,結(jié)合語料庫的統(tǒng)計數(shù)據(jù)選擇出與用戶輸入文本中錯誤單詞最相關(guān)的推薦單詞;使用維特比算法找出數(shù)據(jù)庫中條件概率乘積最大的單詞鏈,提高大語料庫中隱馬爾科夫模型的計算效率和數(shù)據(jù)庫中統(tǒng)計信息的使用效率。整個系統(tǒng)的結(jié)構(gòu)和各部分的功能模塊劃分如圖2、圖4所示,以下為各部分的設(shè)計原理和實施細節(jié)的描述。[0046]1、語料庫和用戶字典的獲取與建立:
[0047]語料庫分為核心語料庫和行業(yè)語料庫,作為存儲語言信息的核心統(tǒng)計數(shù)據(jù),保存著整體統(tǒng)計語言和行業(yè)用語的詞法、語法和語義信息,當(dāng)進行拼寫錯誤檢查時,語料庫為拼寫檢查模型提供所有的單詞、語句信息,給出統(tǒng)計語言的全局?jǐn)?shù)據(jù);同時,根據(jù)用戶自行構(gòu)建的字典,獲取關(guān)于用戶的特殊語料信息,并通過統(tǒng)計用戶輸入的文本記錄其歷史信息;在數(shù)據(jù)庫中,定義數(shù)據(jù)表對各個語料庫及用戶輸入信息進行存儲。具體的表結(jié)構(gòu)如下:
[0048](I)用戶字典表結(jié)構(gòu)
【權(quán)利要求】
1.基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,包括步驟: 步驟一、語料庫和用戶字典的獲取與建立: 語料庫分為用戶字典、核心語料庫和行業(yè)語料庫,作為存儲語言信息的核心統(tǒng)計數(shù)據(jù),保存著整個語言的詞法、語法和語義信息,當(dāng)進行拼寫錯誤檢查時,語料庫為拼寫錯誤檢查模型提供所有的單詞、語句信息,給出整個語言的全局?jǐn)?shù)據(jù);同時,根據(jù)用戶輸入的文本以及使用情況,獲取新的關(guān)于用戶的語料信息,更新語料庫和用戶字典; 在數(shù)據(jù)庫中,定義數(shù)據(jù)表對整體的語料及用戶輸入信息進行存儲; 步驟二、拼寫錯誤檢查模型的構(gòu)建: 拼寫錯誤檢查模型的構(gòu)建是以N-gram模型對語料庫的統(tǒng)計信息進行計算,取得條件概率最大的單詞鏈組合; 步驟三、系統(tǒng)交互界面通過使用拼寫錯誤檢查模型中的錯誤檢查和單詞推薦對用戶輸入的文本進行處理; 步驟四、更新與用戶相關(guān)的文本統(tǒng)計信息、字典和語料庫:對用戶的輸入和選擇的正確單詞進行統(tǒng)計,將正確文本中的單詞信息和上下文統(tǒng)計入用戶字典、核心語料庫和相應(yīng)的行業(yè)語料庫。
2.根據(jù)權(quán)利要求1所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,所述步驟一中,有效語料庫以及用戶字典的必要條件包括: (1)字典中不存在錯誤單詞,也即必須是從牛津、朗文等公認的標(biāo)準(zhǔn)字典中獲取的正確單詞,以及用戶自定義的行業(yè)或特殊單詞; (2)核心語料庫足夠大,不存在行業(yè)、時效偏向性,并且必須包含有N-gram信息,用來提供基本的單詞鏈統(tǒng)計信息; (3)行業(yè)語料庫按照需求進行初步的劃分,并根據(jù)用戶的選擇自然生成,某個用戶可以是多個行業(yè)語料庫的使用者; (4)用戶字典是根據(jù)用戶的輸入需求構(gòu)造的字典,可以讓用戶自行管理。
3.根據(jù)權(quán)利要求1所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,所述步驟二中,具體包括: 步驟2.1單詞的正確性判斷:對文本中的單詞做標(biāo)準(zhǔn)字典的匹配,如果單詞不在標(biāo)準(zhǔn)字典中,再依次使用行業(yè)語料庫和用戶字典進行判斷;如果前述三種數(shù)據(jù)表中均不存在,則判斷為錯誤單詞,進行下一步; 步驟2.2正確單詞的推薦:根據(jù)編輯距離和單詞鏈聯(lián)合概率,采用各語料庫加權(quán)計算與錯誤單詞最相關(guān)的正確單詞,選擇組合概率最大的若干個單詞構(gòu)成錯誤單詞的推薦列表。
4.根據(jù)權(quán)利要求3所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,所述步驟2.1中,使用維特比算法在N-gram模型中快速匹配當(dāng)前單詞在各個語料庫中的出現(xiàn)概率,并獲得當(dāng)前單詞與前N-1個單詞出現(xiàn)的聯(lián)合概率,實現(xiàn)對當(dāng)前單詞正確性的判定。
5.根據(jù)權(quán)利要求3所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,所述步驟2.2中,通過編輯距離以及單詞出現(xiàn)概率對推薦單詞列表進行排序,然后向用戶給出推薦結(jié)果;用來排序單詞列表的權(quán)值是對單詞在各個語料庫中的概率進行加權(quán)計算獲得的。
6.根據(jù)權(quán)利要求1所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,所述步驟四中,對用戶輸入的文本進行錯誤檢查后,計算用戶輸入中的文本統(tǒng)計信息,為用戶字典和語料庫中的N-gram數(shù)據(jù)提供更新信息,將相應(yīng)的數(shù)據(jù)表更新后,用新的語料庫數(shù)據(jù)和字典提供錯誤檢查服務(wù)。
7.根據(jù)權(quán)利要求1所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,使用隱馬爾科夫模型檢查語料庫中使得以錯誤單詞所在位置的上下文相關(guān)單詞鏈出現(xiàn)概率最高的單詞作為正確單詞列表,各個語料庫具有不同的權(quán)值,通過語料庫內(nèi)單詞的概率和語料庫的加權(quán)計算,得到排序后的推薦單詞列表;拼寫錯誤檢查通過用戶對推薦單詞的選擇完成。
8.根據(jù)權(quán)利要求1所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,采用用戶字典、核心語料庫、行業(yè)語料庫和統(tǒng)計語言模型,在用戶輸入一段文本后,服務(wù)器對文本進行元素化,將文本切分為N元文法下的單詞鏈集合,從而計算每個單詞鏈中最后一個單詞在語料庫中的條件概率;統(tǒng)計語言模型計算出若干個概率最大的單詞作為正確單詞的備選集合,如果原單詞在備選集合中,則判定原單詞正確,否則用戶從備選集合中選擇一個單詞作為正確單詞。
9.根據(jù)權(quán)利要求8所述的基于用戶反饋的行業(yè)拼寫錯誤檢查方法,其特征是,統(tǒng)計語言模型采用維特比算法,計算用戶文本中單詞在語料庫中加權(quán)概率最大的單詞列表;獲得推薦單詞列表的用戶,根據(jù)實際情況選擇正確的單詞及其上下文統(tǒng)計信息加入到和用戶相關(guān)的語料庫中;通過統(tǒng)計語言模型計算該單詞在用戶字典、核心語料庫和行業(yè)語料庫中的更新數(shù)據(jù)并添加到數(shù)據(jù)表 中,以新的數(shù)據(jù)對下一次到來的用戶文本進行拼寫錯誤檢查。
【文檔編號】G06F17/27GK103885938SQ201410149427
【公開日】2014年6月25日 申請日期:2014年4月14日 優(yōu)先權(quán)日:2014年4月14日
【發(fā)明者】楊明, 羅軍舟, 倪俊輝, 馬成平, 任新才 申請人:東南大學(xué), 焦點科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1