專利名稱::網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)文本信息的智能處理領(lǐng)域,特別涉及在網(wǎng)絡(luò)搜索過程中關(guān)鍵詞信息的自動糾錯、相關(guān)提示技術(shù)。
背景技術(shù):
:在信息技術(shù)時代,通過互聯(lián)網(wǎng)的手段來獲取各種信息的方式在爆炸式增長,并日益成為人獲取時信息和知識的主要途徑。在人們獲取信息的同時,特別是有目的的去網(wǎng)絡(luò)尋找自己想得到的信息的時候,都會使用到網(wǎng)絡(luò)信息搜索系統(tǒng),有時會不可避免地遇到一些問題。例如,在搜索系統(tǒng)運行過程中,用輸入的一些關(guān)鍵詞得不到査詢結(jié)果,或者得到的查詢結(jié)果密切度不大,其導致用戶不能搜到滿意的結(jié)果。其錯誤類型可歸結(jié)為下表的五種情況。在表中,第l、2情況,可以歸結(jié)為同音字錯誤,如大分歧密碼(達芬奇密碼)、莫明其妙(莫名其妙);第3種情況屬于多字/漏字、字型、詞型錯誤;第4、5種情況,用戶會輸入拼音,如chengxusheji(程序設(shè)計)、kaoyan2007(考研2007),在正常情況中,需要提示正確的中文。<table>tableseeoriginaldocumentpage4</column></row><table>對上述五種情況,目前常規(guī)的處理方法不能滿足實際應(yīng)用的需求。如通過預置錯誤詞表的方法,盡可能把出現(xiàn)錯誤的詞列舉出來,并且給出正確的提示結(jié)果,但這種方法有其局限性,因為實際使用中出現(xiàn)的錯詞不一定都在錯詞表中,這就使部分詞沒有正確的提示結(jié)果。通過音字轉(zhuǎn)換的方法,對錯詞只能做同音字的糾錯,不能解決漏字、多字、錯字情況;同時,常規(guī)的音字轉(zhuǎn)換只做漢字的轉(zhuǎn)換,不能處理拼音、數(shù)字和標點等混合情況。這些缺陷就給用戶在網(wǎng)絡(luò)搜索中因不能輸入準確的關(guān)鍵詞而導致不能提供想要的信息。
發(fā)明內(nèi)容針對上述問題,本發(fā)明提供了一種在網(wǎng)絡(luò)搜索過程中提示正確的或最貼近關(guān)鍵詞的系統(tǒng)及方法,提高了用戶獲取信息的感受。本發(fā)明主要通過音字轉(zhuǎn)換和模糊糾錯技術(shù)手段來糾正用戶輸入的多音字錯誤、字型、詞型錯誤,解決用戶在輸入過程中的字符替換錯誤、多字/漏字錯誤和字符位置錯誤等類型。并在此基礎(chǔ)上擴展了基礎(chǔ)功能,引入中英文、標點混合糾錯,模糊匹配技術(shù),相關(guān)提示技術(shù),增強了智能糾錯的功能。本發(fā)明通過如下措施來實現(xiàn)在互聯(lián)網(wǎng)絡(luò)平臺上,首先,通過相關(guān)數(shù)據(jù)信息的訓練,建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫;然后,輸入文本,拼音糾錯部分計算音字錯誤,模糊匹配計算詞型糾錯;最后,將所有結(jié)果進行相關(guān)度過濾,對多個結(jié)果進行排序,得到最接近的幾個結(jié)果。如圖1所示,該系統(tǒng)主要包括以下部分文本語料數(shù)據(jù)庫模塊對數(shù)據(jù)庫中的數(shù)據(jù)進行分析、規(guī)范和初始化,作為訓練語料;切分字符模塊包括初始化相應(yīng)的訓練詞典,并對訓練文本信息進行分詞處理;統(tǒng)計語言模型模塊對切分后的訓練文本計算,得到詞的概率模型和詞間的轉(zhuǎn)移概率模型;建立索引模塊建立訓練語料中詞和文檔位置的索引;規(guī)范提示信息模塊對訓練數(shù)據(jù)進行規(guī)范化處理,得到可能作為提示結(jié)果的規(guī)范化信息;輸入搜索信息模塊在輸入界面輸入相應(yīng)的文字;拼音糾錯模塊切分字音轉(zhuǎn)換后的字符串,按照切分單位做拼音到漢字的轉(zhuǎn)換,使用動態(tài)規(guī)劃的算法,取得概率較大的幾個結(jié)果;詞型匹配模塊根據(jù)模糊匹配的原理,匹配相關(guān)的字詞,得到多個相近的結(jié)果;相關(guān)度過濾模塊對拼音糾錯結(jié)果和詞型糾錯結(jié)果作相關(guān)度計算,并使用訓練語料計算的索引過濾結(jié)果;最后顯示結(jié)果模塊輸出關(guān)鍵詞的提示結(jié)果。本發(fā)明系統(tǒng)所使用的主要功能模塊包括切分字串(包括中文、拼音、英文字串,及其混合字串),統(tǒng)計語言模型,建立索引,規(guī)范提示信息,拼音糾錯,詞型匹配和相關(guān)度過濾等。其中的每個部分都是本發(fā)明得以實現(xiàn)并成功應(yīng)用的基礎(chǔ)并構(gòu)成了一個技術(shù)系統(tǒng)。各功能模塊和所使用的方法具體說明如下-切分字串模塊。在處理涉及中文的字符串時,需要進行分詞,詞能夠代表一個有意義的語言單位。針對不同的應(yīng)用需求,這里采用了不同的切分方法。如在計算統(tǒng)計語言模型階段,對語料數(shù)據(jù)采用了基于正向最大匹配的切詞算法。對拼音糾錯階段的拼音字符串采用全切分的算法,把一個拼音句子的所有切分可能找出來。統(tǒng)計語言模型模塊主要記錄詞概率結(jié)果和詞的轉(zhuǎn)移概率結(jié)果。詞的概率用每個詞出現(xiàn)在語料中的次數(shù)表示。詞的轉(zhuǎn)移概率為一個詞出現(xiàn)在另一個詞后面的次數(shù)。在得到次數(shù)后做規(guī)范化處理,如取次數(shù)的對數(shù)作為概率數(shù)據(jù)。具體計算概率時,可用不同的方法,如詞的概率算法可用投籃法,轉(zhuǎn)移概率可用二元語法記錄。如圖2所示,這個過程主要分三部分初始化數(shù)據(jù)、計算語言模型和將計算結(jié)果寫入文件。建立索引模塊對提示信息進行索引,記錄相應(yīng)的詞和相應(yīng)位置,作為之后的結(jié)果排序和過濾的數(shù)據(jù)。建立索引的過程如圖3所示,主要包括讀取切分字串的信息,進行分詞,建索引和把數(shù)據(jù)寫入文件等部分。規(guī)范提示信息模塊,主要對數(shù)據(jù)信息的進行規(guī)范化,以后的詞型匹配階段的分析提供數(shù)據(jù)。拼音糾錯模塊。具體過程如圖4所示。首先,對輸入字符串進行字音轉(zhuǎn)換,規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串;其次,進行字符串的切分,構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖;再次,并對字符串中的拼音轉(zhuǎn)化成中文;最后,使用動態(tài)規(guī)劃算法求得幾條最佳路徑,返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值。其中糾錯過程主要包括三部分對同音錯別字的糾正、拼音到漢字的轉(zhuǎn)換和多個同音詞的提示。系統(tǒng)的核心功能是拼音到漢字的轉(zhuǎn)換。目前,解決拼音到漢字主要有基于規(guī)則的方法和基于語料庫統(tǒng)計的方法?;谝?guī)則的方法可以運用短語規(guī)則、模式匹配、模糊匹配等方法。其應(yīng)用的范圍有限,很難通過制定大量的規(guī)則來覆蓋所有可能出現(xiàn)的情況。基于統(tǒng)計的方法運用基于字、詞的n-gram模型。這里使用基于統(tǒng)計的轉(zhuǎn)移概率模型,通過對現(xiàn)有的數(shù)據(jù)進行分詞,計算詞的概率和轉(zhuǎn)移概率,獲取語言模型,作為轉(zhuǎn)換階段的后驗概率?;跀?shù)據(jù)信息的統(tǒng)計,構(gòu)建關(guān)于詞的概率模型。在訓練階段,通過對大規(guī)模數(shù)據(jù)信息的機器學習來訓練模型參數(shù)。在轉(zhuǎn)換階段通過計算選取后驗概率最大者作為轉(zhuǎn)換結(jié)果?;谟柧毮P偷闹杏⑽?、數(shù)字、標點混合糾錯技術(shù)是本發(fā)明的關(guān)鍵,如€++71173!1可以提示為C十+語言。其混合糾錯流程如圖5所示??梢钥闯?,轉(zhuǎn)化后的字符串區(qū)分情況切分是重點,切分出以詞的拼音串為單位的拼音串、英文串和標點。之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串,漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算,這樣在糾錯的過程中就可以支持拼音、中英文、標點的混合串的糾錯。通過這樣的處理,比一般的拼音糾錯更細化,更貼近用戶實際的輸入情況。詞型匹配模塊。詞型糾錯需要計算字串間的相似度,這里主要基于詞的模糊匹配思想,在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示,計算兩個字符串間的編輯距離。所謂的編輯距離讓兩個字符串變成相同字符串需要操作的最小次數(shù)。其操作包括把一個字符變成另一個字符;刪除某個字符;插入某個字符等。采用模糊匹配的方式,就可以對用戶輸入中的漏字/多字/錯字進行詞型補全糾正。這里可以詞為單位計算兩個字符串間的相似度。同時,為每個詞建立了索引,計算相似度時,如只計算有詞相關(guān)的串,其就能大大加快系統(tǒng)運行的速度。相關(guān)度過濾模塊。如圖6所示,拼音糾錯和詞型糾錯計算后,得到了多個相關(guān)的結(jié)果。這些結(jié)果與真實結(jié)果的相近程度需要通過一定的排序算法重新排序。排序規(guī)則設(shè)定為重疊程度(降序)一>詞頻(升序)。處理完成的結(jié)果集合按照以上規(guī)則綜合排序,重疊程度數(shù)值相同時按照詞頻規(guī)則排序。操作方法如下首先,在系統(tǒng)進行糾錯之前,針對數(shù)據(jù)信息訓練,得到統(tǒng)計語言模型、建立索引和規(guī)范的提示信息;其次,輸入要搜索的關(guān)鍵詞到系統(tǒng)后,先執(zhí)行拼音糾錯,對輸入字符串進行字音轉(zhuǎn)換,規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串;第三,進行字符串的切分,構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖;第四,把其中的拼音轉(zhuǎn)化成中文;第五,使用動態(tài)規(guī)劃算法求得幾條最佳路徑,返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值;第六,在詞型糾錯階段,計算兩個字符串間的編輯距離,在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示;第七,對拼音糾錯和詞型糾錯的計算結(jié)果,通過一定的排序算法重新排序并顯示在終端。通過以上方法,解決了通常的拼音糾錯問題,還解決漏字、多字、錯字情況;同時,還能處理拼音、數(shù)字和標點等混合情況。這些設(shè)計更符合用戶網(wǎng)絡(luò)搜索中的使用偏好。圖l是本發(fā)明的系統(tǒng)框架圖。圖2是本發(fā)明的統(tǒng)計語言模型模塊圖。圖3是本發(fā)明的建立索引模塊圖。圖4是本發(fā)明的拼音糾錯模塊圖。圖5是本發(fā)明的混合糾錯流程圖。圖6是本發(fā)明的相關(guān)度過濾模塊圖。圖7是本發(fā)明的運行步驟框圖。具體實施例方式下面結(jié)合附圖,說明本發(fā)明的實施方式。本發(fā)明技術(shù)所用的系統(tǒng)整體結(jié)構(gòu)和運行流程可參考圖1,具體方法步驟如圖7所示首先,在系統(tǒng)進行糾錯和詞型匹配之前,需要針對數(shù)據(jù)信息訓練,得到統(tǒng)計語言模型、索引和規(guī)范的提示信息。在計算語言模型階段、建立索引和規(guī)范提示信息階段可采用基于正向最大匹配的切詞算法。這部分是預先計算好的結(jié)果,存儲到計算機文件中。每次系統(tǒng)運行時,把這幾部分計算結(jié)果載入計算機內(nèi)存中。統(tǒng)計模型模塊記錄詞概率和詞的轉(zhuǎn)移概率。在得到概率后做規(guī)范化處理,如取次數(shù)的對數(shù)作為概率數(shù)據(jù)。詞索引對切分好的字串進行索引,記錄相應(yīng)的詞和相應(yīng)位置,作為之后的結(jié)果排序和過濾的數(shù)據(jù)。具體流程可參見如圖2、圖3。其次,在需要糾錯的相關(guān)信息發(fā)送到系統(tǒng)時,先執(zhí)行拼音糾錯,如圖4、圖5所示。對輸入字符串進行字音轉(zhuǎn)換,規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串。第三步,進行字符串的切分,構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖。第四步,把其中的拼音轉(zhuǎn)化成中文。第五步,使用動態(tài)規(guī)劃算法求得幾條最佳路徑,返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值。對中英文、數(shù)字、標點混合糾錯時,需要對字音轉(zhuǎn)化后的字符串切分,切分出拼音串(以詞的拼音串為單位)、英文串和標點。之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串,漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算,這樣在糾錯的過程中就可以支持拼音、中英文、標點的混合串的糾錯。第六步,在詞型糾錯階段,計算兩個字符串間的編輯距離,在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示。采用模糊匹配的方式,就可以對用戶輸入中的漏字/多字/錯字進行詞型補全的糾正。第七步,對拼音糾錯和詞型糾錯的計算結(jié)果,通過一定的排序算法重新排序。按照重疊程度(降序)一〉詞頻(升序)進行排序并顯示在終端,如圖6所示。例l,拼音輸入糾錯liyuchun首先輸入串liyuchun。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,liyuchun。第三步字符串切分計算結(jié)果為liyuchun|liyuchun|liyuchun|liyuchun......第四步音字轉(zhuǎn)化計算結(jié)果為liyuchun:李宇春李玉春李遇春......li:犁厘梨……,yuchun:于春愚蠢余春……liyu:離獄理喻李渝……,chun:春椿醇……第五步最佳路徑計算結(jié)果為李宇春李遇春李裕春……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為李宇春李裕春李遇春最終結(jié)果李宇春李裕春李遇春例2,拼音輸入糾錯halibote首先輸入串halibote。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,halibote。第三步字符串切分計算結(jié)果為haliboteIhalibote|halibote......第四步音字轉(zhuǎn)化計算結(jié)果為halibote:哈里波特哈利波特;hali:蛤蠣哈里哈利,bote:波特……h(huán)a:蛤哈鉿……,li:犁厘梨……,bote:波特;第五步最佳路徑計算結(jié)果為哈利波特哈里波特哈力柏特……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為哈利波特哈里波特最終結(jié)果哈利波特哈里波特例3,英文拼音混合糾錯mbaliankaoyingyu首先輸入串mbaliankaoyingyuo第二步字音轉(zhuǎn)化計算結(jié)果為不改變,mbaliankaoyingyu。第三步字符串切分計算結(jié)果為mbaliankaoyingyu|mbaliankaoyingyu|mbaliankaoyingyumba:mba,liankaoyingyu:耳關(guān)考英語;mba:mba,lian:聯(lián)蓮連......,kao:考拷烤,yingyu:英語應(yīng)于應(yīng)予mba:mba,liankao:耳關(guān)考,yingyu:英語應(yīng)于應(yīng)予......第五步最佳路徑計算結(jié)果為mba聯(lián)考英語mba連考英語......第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為mba.聯(lián)考英語最終結(jié)果mba聯(lián)考英語例4,英文拼音混合糾錯c++yuyan首先輸入串0++乂1^311。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,c++yuyan0第三步字符串切分計算結(jié)果為第四步音字轉(zhuǎn)化計算結(jié)果為C++:c++,yuyan:語言于研于琰......c++:c++,yu:迂淤于盂榆虞……,yan:淹鹽嚴第五步最佳路徑計算結(jié)果為0++語言0++與鹽0++與眼第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為c+十語言最終結(jié)果0++語言例5,英文、中文錯字混合糾錯VCd握住沉浮第四步音字轉(zhuǎn)化計算結(jié)果為首先輸入串vcd握住沉浮。第二步字音轉(zhuǎn)化計算結(jié)果為vcdwozhuchenfu。第三步字符串切分計算結(jié)果為VcdwozhuchenfuIvcdwozhuchenfuliyuchun|vcdwozhuchenfu......第四步音字轉(zhuǎn)化計算結(jié)果為vcd:vcd,wozhuchenfu:我主沉浮......vcd:vcd,wo:撾蝸渦......,zhu:株蛛朱,chenfu:臣服沉浮陳腐……vcd:vcd,wo:撾蝸渦……,zhu:株蛛朱……,chen:郴臣辰……,fu:夫敷膚第五步最佳路徑計算結(jié)果為vcd我主沉浮第六步詞型糾錯計算結(jié)果為握住孩子的手誰主沉浮我主沉浮漩渦沉浮。第七步相關(guān)度排序結(jié)果為VCD我主沉浮握住孩子的手誰主沉浮我主沉浮最終結(jié)果VCD我主沉浮握住孩子的手誰主沉浮我主沉浮例6,英文、中文錯字混合糾錯WTO于我們首先輸入串WTO于我們。第二步字音轉(zhuǎn)化計算結(jié)果為WTOyuwomen。第三步字符串切分計算結(jié)果為WTOyuwomenIWTOyuwomen|WTOyuwomen......第四步音字轉(zhuǎn)化計算結(jié)果為WTO:削,yu:奧鞅尉......,women:我們;WTO:WTO,yuwo:與我,men:門悶們......WTO:WTO,yu:奧缺尉......,wo:我撾蝸......,men:門悶們第五步最佳路徑計算結(jié)果為WTO與我們WTO與women......第六步詞型糾錯計算結(jié)果為我們的主題曲我們的科學幻想我們的地球……第七步相關(guān)度排序結(jié)果為WT0與我們我們的主題曲我們的科學幻想我們的地球最終結(jié)果WTO與我們我們的主題曲我們的科學幻想我們的地球例7,拼音數(shù)字混合糾錯beijing2008首先輸入串beijing2008。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,beijing2008。第三步字符串切分計算結(jié)果為beijing2008|Beijing2008|beijing2008......第四步音字轉(zhuǎn)化計算結(jié)果為beijing:北京背景背靜……,2008:2008;bei:悲卑北……,jing:荊兢莖……,2008:2008;beiji:碑記北極背脊……,ng:ng,2008:2008……第五步最佳路徑計算結(jié)果為北京2008第六步詞型糾錯計算結(jié)果為無結(jié)果第七步相關(guān)度排序結(jié)果為北京2008最終結(jié)果北京2008例8,拼音數(shù)字混合糾錯yuedu200篇首先輸入串yuedu200篇。第二步字音轉(zhuǎn)化計算結(jié)果為yuedu200pian。第三步字符串切分計算結(jié)果為yuedu200pian|yuedu200pian|yuedu200pian......第四步音字轉(zhuǎn)化計算結(jié)果為yuedu:月度閱讀,200:200,pian:便篇偏……yue:樂說約……,du:都督毒……,200:200,pian:便篇偏yuedu:月度閱讀,200:200,pi:擺狂被……,an:鞍氨安第五步最佳路徑計算結(jié)果為閱讀200篇閱讀200片……第六步詞型糾錯計算結(jié)果為閱讀200篇。第七步相關(guān)度排序結(jié)果為閱讀200篇最終結(jié)果閱讀200篇例9,拼音、括號混合糾錯sanguaike(DVD)首先輸入串sanguaike(DVD)。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,sanguaike(DVD)。第三步字符串切分計算結(jié)果為sanguaike(DVD)|sanguaike(DVD)|sanguaike(扁)第四步音字轉(zhuǎn)化計算結(jié)果為san:糝三畚……,guaike:怪客,(:(,DVD:歸,):);s:s,an:鞍氨安……,guaike:怪客,((,DVD:DVD,));sa:撒灑薩……,n:n,guaike:怪客,((,DVD:DVD,));第五步最佳路徑計算結(jié)果為三怪客(DVD)三谷愛克(,)……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為三怪客(DVD)最終結(jié)果三怪客(DVD)例IO,拼音、括號混合糾錯dafengchui(CD)首先輸入串dafengchui(CD)。第二步字音轉(zhuǎn)化計算結(jié)果為不改變,dafengchui(CD)。第三步字符串切分計算結(jié)果為Dafengchui(cd)|dafengchui(cd)|dafengchui(cd).…第四步音字轉(zhuǎn)化計算結(jié)果為da:搭達答......,fengchui:風吹風錘,((,cd:cd,):);dafeng:大豐大封大風……,chui:吹炊捶……,((,cd:cd,));d:d,a:a啊阿吖……,fengchui:風吹風錘,((,cd:cd,):);第五步最佳路徑計算結(jié)果為大風吹(cd)……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為大風吹(cd)最終結(jié)果大風吹(cd)例ll,中文、特殊符號混合糾錯杰拉德.B.四通首先輸入串杰拉德.B.四通。第二步字音轉(zhuǎn)化計算結(jié)果為jielade.b.sitong。第三步字符串切分計算結(jié)果為jielade.b.sitong|jielade.b.sitong|jielade.b.stong第四步音字轉(zhuǎn)化計算結(jié)果為jielade:杰拉德,..,b:b,..,sitong:斯通私通四通......jie:秸街階……,lade:拉德拉得拉的……,.:.,b:b,.:,sitong:斯通私通四通......jielade:杰拉德,..,b:b,.:.,si:斯撕嘶......,tong:撞通桐......第五步最佳路徑計算結(jié)果為杰拉德.b.斯通杰拉德.b.斯同杰拉德.b.四彤第六步詞型糾錯計算結(jié)果為菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲…第七步相關(guān)度排序結(jié)果為杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲最終結(jié)果杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲例12,中文、特殊符號混合糾錯阿波羅juren首先輸入串阿波羅juren。第二步字音轉(zhuǎn)化計算結(jié)果為aboluo:juren。第三步字符串切分計算結(jié)果為Aboluo:juren|aboluo:uren|aboluo:juren......第四步音字轉(zhuǎn)化計算結(jié)果為aboluo:阿波羅,,juren:拘人居人舉人……a:a啊阿吖......,boluo:剝落菠蘿波蘿……,,juren:居人舉人巨人abo:阿波阿伯,luo:犖烙蘿……,,juren:居人舉人巨人……第五步最佳路徑計算結(jié)果為阿波羅巨人阿波羅車仁阿勃洛巨人……第六步詞型糾錯計算結(jié)果為阿波羅阿波羅系列軟件阿波羅之杯阿波羅藝術(shù)史。第七步相關(guān)度排序結(jié)果為阿波羅巨人阿波羅阿波羅系列軟件阿波羅之杯最終結(jié)果阿波羅巨人阿波羅阿波羅系列軟件阿波羅之杯例13,個別詞混合糾錯滿城盡是黃金甲首先輸入串滿城盡是黃金甲。第二步字音轉(zhuǎn)化計算結(jié)果為manchengjinshihuangjinjia。第三步字符串切分計算結(jié)果為ManchengjinshihuangjinjialmanchengjinshihuangjinjialManchengjinshhuangjinjia......第四步音字轉(zhuǎn)化計算結(jié)果為man:man瞞饅蠻......,chengjin:程靳承筋,shihuang:拾荒始皇,jinjia:金價進價靳佳……mancheng:滿城,jin:巾筋斤……,shihuang:拾荒始皇,jinjia:金價進價靳佳mancheng:滿城,jinshi:金石金飾今世,huang:huang荒慌黃,jinjia:金價進價靳佳……第五步最佳路徑計算結(jié)果為滿城盡是黃金甲……第六步詞型糾錯計算結(jié)果為滿城盡帶黃金甲金甲鐘唐滿城滿城漢墓…"第七步相關(guān)度排序結(jié)果為滿城盡帶黃金甲金甲鐘唐滿城最終結(jié)果滿城盡帶黃金甲金甲鐘唐滿城。權(quán)利要求1.一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng),是在互聯(lián)網(wǎng)絡(luò)平臺上,首先,通過相關(guān)數(shù)據(jù)信息的訓練,建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫;然后,輸入文本,拼音糾錯部分計算音字錯誤,模糊匹配計算詞型糾錯;最后,將所有結(jié)果進行相關(guān)度過濾,對多個結(jié)果進行排序,得到最接近的幾個結(jié)果。該系統(tǒng)包括以下部分文本語料數(shù)據(jù)庫模塊對數(shù)據(jù)庫中的數(shù)據(jù)進行分析、規(guī)范和初始化,作為訓練語料;切分字符模塊包括初始化相應(yīng)的訓練詞典,并對訓練文本信息進行分詞處理;統(tǒng)計語言模型模塊對切分后的訓練文本計算,得到詞的概率模型和詞間的轉(zhuǎn)移概率模型;建立索引模塊建立訓練語料中詞和文檔位置的索引;規(guī)范提示信息模塊對訓練數(shù)據(jù)進行規(guī)范化處理,得到可能作為提示結(jié)果的規(guī)范化信息;輸入搜索信息模塊在輸入界面輸入相應(yīng)的文字;拼音糾錯模塊切分字音轉(zhuǎn)換后的字符串,按照切分單位做拼音到漢字的轉(zhuǎn)換,使用動態(tài)規(guī)劃的算法,取得概率較大的幾個結(jié)果;詞型匹配模塊根據(jù)模糊匹配的原理,匹配相關(guān)的字詞,得到多個相近的結(jié)果;相關(guān)度過濾模塊對拼音糾錯結(jié)果和詞型糾錯結(jié)果作相關(guān)度計算,并使用訓練語料計算的索引過濾結(jié)果;最后顯示結(jié)果模塊輸出關(guān)鍵詞的提示結(jié)果。2.如權(quán)利要求1所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng),其特征在于切分字串模塊針對不同的應(yīng)用需求,采用不同的切分方法在計算統(tǒng)計語言模型階段,對語料數(shù)據(jù)采用了基于正向最大匹配的切詞算法;在拼音糾錯階段的拼音字符串采用全切分的算法。3.如權(quán)利要求l所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng),其特征在于統(tǒng)計語言模型模塊對詞的概率使用投籃法,對詞的轉(zhuǎn)移概率使用二元語法記錄。4.如權(quán)利要求1所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng),其特征在于拼音糾錯模塊中,將轉(zhuǎn)化后的字符串進行切分,切分出以詞的拼音串為單位的拼音串、英文串和標點,之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串,并對漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算,儲存在文本語料數(shù)據(jù)庫中,以便在糾錯的過程中支持拼音、中英文、標點的混合串糾錯。5.—種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法,包含如下步驟首先,在系統(tǒng)進行糾錯之前,針對數(shù)據(jù)信息訓練,得到統(tǒng)計語言模型、建立索引和規(guī)范的提示信息;其次,輸入要搜索的關(guān)鍵詞到系統(tǒng)后,先執(zhí)行拼音糾錯,對輸入字符串進行字音轉(zhuǎn)換,規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串;第三,進行字符串的切分,構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖;第四,把其中的拼音轉(zhuǎn)化成中文;第五,使用動態(tài)規(guī)劃算法求得幾條最佳路徑,返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值;第六,在詞型糾錯階段,計算兩個字符串間的編輯距離,在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示;第七,對拼音糾錯和詞型糾錯的計算結(jié)果,通過一定的排序算法重新排序并顯示在終端。6.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法,其特征在于在計算語言模型階段、建立索引和規(guī)范提示信息階段采用基于正向最大匹配的切詞算法。7.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法,其特征在于對中英文、數(shù)字、標點混合糾錯時,需要對字音轉(zhuǎn)化后的字符串進行切分,切分出以詞為單位的拼音串、英文串和標點。8.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法,其特征在于對拼音糾錯和詞型糾錯的計算結(jié)果按照重疊程度從高到低——〉詞頻從低到高的規(guī)則進行排序。全文摘要本發(fā)明涉及一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法,在互聯(lián)網(wǎng)絡(luò)平臺上,首先,通過相關(guān)數(shù)據(jù)信息的訓練,建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫;然后,輸入文本,拼音糾錯部分計算音字錯誤,模糊匹配計算詞型糾錯;最后,將所有結(jié)果進行相關(guān)度過濾,對多個結(jié)果進行排序,得到最接近的幾個結(jié)果。通過音字轉(zhuǎn)換和模糊糾錯技術(shù)手段來糾正用戶輸入的多音字錯誤、字型、詞型錯誤,解決用戶在輸入過程中的字符替換錯誤、多字/漏字錯誤和字符位置錯誤等類型。并在此基礎(chǔ)上擴展了基礎(chǔ)功能,引入中英文、標點混合糾錯,模糊匹配技術(shù),相關(guān)提示技術(shù),增強了智能糾錯的功能。文檔編號G06F17/30GK101206673SQ200710301710公開日2008年6月25日申請日期2007年12月25日優(yōu)先權(quán)日2007年12月25日發(fā)明者剛劉,劉建國,莊洪波,研張,王洪濤申請人:北京科文書業(yè)信息技術(shù)有限公司