網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法

文檔序號：6615555閱讀：276來源：國知局

專利名稱：：網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及網(wǎng)絡(luò)文本信息的智能處理領(lǐng)域，特別涉及在網(wǎng)絡(luò)搜索過程中關(guān)鍵詞信息的自動糾錯、相關(guān)提示技術(shù)。
背景技術(shù)：
：在信息技術(shù)時代，通過互聯(lián)網(wǎng)的手段來獲取各種信息的方式在爆炸式增長，并日益成為人獲取時信息和知識的主要途徑。在人們獲取信息的同時，特別是有目的的去網(wǎng)絡(luò)尋找自己想得到的信息的時候，都會使用到網(wǎng)絡(luò)信息搜索系統(tǒng)，有時會不可避免地遇到一些問題。例如，在搜索系統(tǒng)運行過程中，用輸入的一些關(guān)鍵詞得不到査詢結(jié)果，或者得到的查詢結(jié)果密切度不大，其導致用戶不能搜到滿意的結(jié)果。其錯誤類型可歸結(jié)為下表的五種情況。在表中，第l、2情況，可以歸結(jié)為同音字錯誤，如大分歧密碼(達芬奇密碼)、莫明其妙(莫名其妙)；第3種情況屬于多字/漏字、字型、詞型錯誤；第4、5種情況，用戶會輸入拼音，如chengxusheji(程序設(shè)計)、kaoyan2007(考研2007)，在正常情況中，需要提示正確的中文。<table>tableseeoriginaldocumentpage4</column></row><table>對上述五種情況，目前常規(guī)的處理方法不能滿足實際應(yīng)用的需求。如通過預置錯誤詞表的方法，盡可能把出現(xiàn)錯誤的詞列舉出來，并且給出正確的提示結(jié)果，但這種方法有其局限性，因為實際使用中出現(xiàn)的錯詞不一定都在錯詞表中，這就使部分詞沒有正確的提示結(jié)果。通過音字轉(zhuǎn)換的方法，對錯詞只能做同音字的糾錯，不能解決漏字、多字、錯字情況；同時，常規(guī)的音字轉(zhuǎn)換只做漢字的轉(zhuǎn)換，不能處理拼音、數(shù)字和標點等混合情況。這些缺陷就給用戶在網(wǎng)絡(luò)搜索中因不能輸入準確的關(guān)鍵詞而導致不能提供想要的信息。
發(fā)明內(nèi)容針對上述問題，本發(fā)明提供了一種在網(wǎng)絡(luò)搜索過程中提示正確的或最貼近關(guān)鍵詞的系統(tǒng)及方法，提高了用戶獲取信息的感受。本發(fā)明主要通過音字轉(zhuǎn)換和模糊糾錯技術(shù)手段來糾正用戶輸入的多音字錯誤、字型、詞型錯誤，解決用戶在輸入過程中的字符替換錯誤、多字/漏字錯誤和字符位置錯誤等類型。并在此基礎(chǔ)上擴展了基礎(chǔ)功能，引入中英文、標點混合糾錯，模糊匹配技術(shù)，相關(guān)提示技術(shù)，增強了智能糾錯的功能。本發(fā)明通過如下措施來實現(xiàn)在互聯(lián)網(wǎng)絡(luò)平臺上，首先，通過相關(guān)數(shù)據(jù)信息的訓練，建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫；然后，輸入文本，拼音糾錯部分計算音字錯誤，模糊匹配計算詞型糾錯；最后，將所有結(jié)果進行相關(guān)度過濾，對多個結(jié)果進行排序，得到最接近的幾個結(jié)果。如圖1所示，該系統(tǒng)主要包括以下部分文本語料數(shù)據(jù)庫模塊對數(shù)據(jù)庫中的數(shù)據(jù)進行分析、規(guī)范和初始化，作為訓練語料；切分字符模塊包括初始化相應(yīng)的訓練詞典，并對訓練文本信息進行分詞處理；統(tǒng)計語言模型模塊對切分后的訓練文本計算，得到詞的概率模型和詞間的轉(zhuǎn)移概率模型；建立索引模塊建立訓練語料中詞和文檔位置的索引；規(guī)范提示信息模塊對訓練數(shù)據(jù)進行規(guī)范化處理，得到可能作為提示結(jié)果的規(guī)范化信息；輸入搜索信息模塊在輸入界面輸入相應(yīng)的文字；拼音糾錯模塊切分字音轉(zhuǎn)換后的字符串，按照切分單位做拼音到漢字的轉(zhuǎn)換，使用動態(tài)規(guī)劃的算法，取得概率較大的幾個結(jié)果；詞型匹配模塊根據(jù)模糊匹配的原理，匹配相關(guān)的字詞，得到多個相近的結(jié)果；相關(guān)度過濾模塊對拼音糾錯結(jié)果和詞型糾錯結(jié)果作相關(guān)度計算，并使用訓練語料計算的索引過濾結(jié)果；最后顯示結(jié)果模塊輸出關(guān)鍵詞的提示結(jié)果。本發(fā)明系統(tǒng)所使用的主要功能模塊包括切分字串(包括中文、拼音、英文字串，及其混合字串)，統(tǒng)計語言模型，建立索引，規(guī)范提示信息，拼音糾錯，詞型匹配和相關(guān)度過濾等。其中的每個部分都是本發(fā)明得以實現(xiàn)并成功應(yīng)用的基礎(chǔ)并構(gòu)成了一個技術(shù)系統(tǒng)。各功能模塊和所使用的方法具體說明如下-切分字串模塊。在處理涉及中文的字符串時，需要進行分詞，詞能夠代表一個有意義的語言單位。針對不同的應(yīng)用需求，這里采用了不同的切分方法。如在計算統(tǒng)計語言模型階段，對語料數(shù)據(jù)采用了基于正向最大匹配的切詞算法。對拼音糾錯階段的拼音字符串采用全切分的算法，把一個拼音句子的所有切分可能找出來。統(tǒng)計語言模型模塊主要記錄詞概率結(jié)果和詞的轉(zhuǎn)移概率結(jié)果。詞的概率用每個詞出現(xiàn)在語料中的次數(shù)表示。詞的轉(zhuǎn)移概率為一個詞出現(xiàn)在另一個詞后面的次數(shù)。在得到次數(shù)后做規(guī)范化處理，如取次數(shù)的對數(shù)作為概率數(shù)據(jù)。具體計算概率時，可用不同的方法，如詞的概率算法可用投籃法，轉(zhuǎn)移概率可用二元語法記錄。如圖2所示，這個過程主要分三部分初始化數(shù)據(jù)、計算語言模型和將計算結(jié)果寫入文件。建立索引模塊對提示信息進行索引，記錄相應(yīng)的詞和相應(yīng)位置，作為之后的結(jié)果排序和過濾的數(shù)據(jù)。建立索引的過程如圖3所示，主要包括讀取切分字串的信息，進行分詞，建索引和把數(shù)據(jù)寫入文件等部分。規(guī)范提示信息模塊，主要對數(shù)據(jù)信息的進行規(guī)范化，以后的詞型匹配階段的分析提供數(shù)據(jù)。拼音糾錯模塊。具體過程如圖4所示。首先，對輸入字符串進行字音轉(zhuǎn)換，規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串；其次，進行字符串的切分，構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖；再次，并對字符串中的拼音轉(zhuǎn)化成中文；最后，使用動態(tài)規(guī)劃算法求得幾條最佳路徑，返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值。其中糾錯過程主要包括三部分對同音錯別字的糾正、拼音到漢字的轉(zhuǎn)換和多個同音詞的提示。系統(tǒng)的核心功能是拼音到漢字的轉(zhuǎn)換。目前，解決拼音到漢字主要有基于規(guī)則的方法和基于語料庫統(tǒng)計的方法?；谝?guī)則的方法可以運用短語規(guī)則、模式匹配、模糊匹配等方法。其應(yīng)用的范圍有限，很難通過制定大量的規(guī)則來覆蓋所有可能出現(xiàn)的情況。基于統(tǒng)計的方法運用基于字、詞的n-gram模型。這里使用基于統(tǒng)計的轉(zhuǎn)移概率模型，通過對現(xiàn)有的數(shù)據(jù)進行分詞，計算詞的概率和轉(zhuǎn)移概率，獲取語言模型，作為轉(zhuǎn)換階段的后驗概率?；跀?shù)據(jù)信息的統(tǒng)計，構(gòu)建關(guān)于詞的概率模型。在訓練階段，通過對大規(guī)模數(shù)據(jù)信息的機器學習來訓練模型參數(shù)。在轉(zhuǎn)換階段通過計算選取后驗概率最大者作為轉(zhuǎn)換結(jié)果?；谟柧毮Ｐ偷闹杏⑽?、數(shù)字、標點混合糾錯技術(shù)是本發(fā)明的關(guān)鍵，如€++71173!1可以提示為C十+語言。其混合糾錯流程如圖5所示?？梢钥闯?，轉(zhuǎn)化后的字符串區(qū)分情況切分是重點，切分出以詞的拼音串為單位的拼音串、英文串和標點。之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串，漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算，這樣在糾錯的過程中就可以支持拼音、中英文、標點的混合串的糾錯。通過這樣的處理，比一般的拼音糾錯更細化，更貼近用戶實際的輸入情況。詞型匹配模塊。詞型糾錯需要計算字串間的相似度，這里主要基于詞的模糊匹配思想，在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示，計算兩個字符串間的編輯距離。所謂的編輯距離讓兩個字符串變成相同字符串需要操作的最小次數(shù)。其操作包括把一個字符變成另一個字符；刪除某個字符；插入某個字符等。采用模糊匹配的方式，就可以對用戶輸入中的漏字/多字/錯字進行詞型補全糾正。這里可以詞為單位計算兩個字符串間的相似度。同時，為每個詞建立了索引，計算相似度時，如只計算有詞相關(guān)的串，其就能大大加快系統(tǒng)運行的速度。相關(guān)度過濾模塊。如圖6所示，拼音糾錯和詞型糾錯計算后，得到了多個相關(guān)的結(jié)果。這些結(jié)果與真實結(jié)果的相近程度需要通過一定的排序算法重新排序。排序規(guī)則設(shè)定為重疊程度(降序)一>詞頻(升序)。處理完成的結(jié)果集合按照以上規(guī)則綜合排序，重疊程度數(shù)值相同時按照詞頻規(guī)則排序。操作方法如下首先，在系統(tǒng)進行糾錯之前，針對數(shù)據(jù)信息訓練，得到統(tǒng)計語言模型、建立索引和規(guī)范的提示信息；其次，輸入要搜索的關(guān)鍵詞到系統(tǒng)后，先執(zhí)行拼音糾錯，對輸入字符串進行字音轉(zhuǎn)換，規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串；第三，進行字符串的切分，構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖；第四，把其中的拼音轉(zhuǎn)化成中文；第五，使用動態(tài)規(guī)劃算法求得幾條最佳路徑，返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值；第六，在詞型糾錯階段，計算兩個字符串間的編輯距離，在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示；第七，對拼音糾錯和詞型糾錯的計算結(jié)果，通過一定的排序算法重新排序并顯示在終端。通過以上方法，解決了通常的拼音糾錯問題，還解決漏字、多字、錯字情況；同時，還能處理拼音、數(shù)字和標點等混合情況。這些設(shè)計更符合用戶網(wǎng)絡(luò)搜索中的使用偏好。圖l是本發(fā)明的系統(tǒng)框架圖。圖2是本發(fā)明的統(tǒng)計語言模型模塊圖。圖3是本發(fā)明的建立索引模塊圖。圖4是本發(fā)明的拼音糾錯模塊圖。圖5是本發(fā)明的混合糾錯流程圖。圖6是本發(fā)明的相關(guān)度過濾模塊圖。圖7是本發(fā)明的運行步驟框圖。具體實施例方式下面結(jié)合附圖，說明本發(fā)明的實施方式。本發(fā)明技術(shù)所用的系統(tǒng)整體結(jié)構(gòu)和運行流程可參考圖1，具體方法步驟如圖7所示首先，在系統(tǒng)進行糾錯和詞型匹配之前，需要針對數(shù)據(jù)信息訓練，得到統(tǒng)計語言模型、索引和規(guī)范的提示信息。在計算語言模型階段、建立索引和規(guī)范提示信息階段可采用基于正向最大匹配的切詞算法。這部分是預先計算好的結(jié)果，存儲到計算機文件中。每次系統(tǒng)運行時，把這幾部分計算結(jié)果載入計算機內(nèi)存中。統(tǒng)計模型模塊記錄詞概率和詞的轉(zhuǎn)移概率。在得到概率后做規(guī)范化處理，如取次數(shù)的對數(shù)作為概率數(shù)據(jù)。詞索引對切分好的字串進行索引，記錄相應(yīng)的詞和相應(yīng)位置，作為之后的結(jié)果排序和過濾的數(shù)據(jù)。具體流程可參見如圖2、圖3。其次，在需要糾錯的相關(guān)信息發(fā)送到系統(tǒng)時，先執(zhí)行拼音糾錯，如圖4、圖5所示。對輸入字符串進行字音轉(zhuǎn)換，規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串。第三步，進行字符串的切分，構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖。第四步，把其中的拼音轉(zhuǎn)化成中文。第五步，使用動態(tài)規(guī)劃算法求得幾條最佳路徑，返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值。對中英文、數(shù)字、標點混合糾錯時，需要對字音轉(zhuǎn)化后的字符串切分，切分出拼音串(以詞的拼音串為單位)、英文串和標點。之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串，漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算，這樣在糾錯的過程中就可以支持拼音、中英文、標點的混合串的糾錯。第六步，在詞型糾錯階段，計算兩個字符串間的編輯距離，在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示。采用模糊匹配的方式，就可以對用戶輸入中的漏字/多字/錯字進行詞型補全的糾正。第七步，對拼音糾錯和詞型糾錯的計算結(jié)果，通過一定的排序算法重新排序。按照重疊程度(降序)一〉詞頻(升序)進行排序并顯示在終端，如圖6所示。例l，拼音輸入糾錯liyuchun首先輸入串liyuchun。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，liyuchun。第三步字符串切分計算結(jié)果為liyuchun|liyuchun|liyuchun|liyuchun......第四步音字轉(zhuǎn)化計算結(jié)果為liyuchun:李宇春李玉春李遇春......li:犁厘梨……，yuchun:于春愚蠢余春……liyu:離獄理喻李渝……，chun:春椿醇……第五步最佳路徑計算結(jié)果為李宇春李遇春李裕春……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為李宇春李裕春李遇春最終結(jié)果李宇春李裕春李遇春例2，拼音輸入糾錯halibote首先輸入串halibote。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，halibote。第三步字符串切分計算結(jié)果為haliboteIhalibote|halibote......第四步音字轉(zhuǎn)化計算結(jié)果為halibote:哈里波特哈利波特；hali:蛤蠣哈里哈利，bote:波特……h(huán)a:蛤哈鉿……，li:犁厘梨……，bote:波特;第五步最佳路徑計算結(jié)果為哈利波特哈里波特哈力柏特……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為哈利波特哈里波特最終結(jié)果哈利波特哈里波特例3，英文拼音混合糾錯mbaliankaoyingyu首先輸入串mbaliankaoyingyuo第二步字音轉(zhuǎn)化計算結(jié)果為不改變，mbaliankaoyingyu。第三步字符串切分計算結(jié)果為mbaliankaoyingyu|mbaliankaoyingyu|mbaliankaoyingyumba:mba，liankaoyingyu:耳關(guān)考英語；mba:mba，lian:聯(lián)蓮連......，kao:考拷烤，yingyu:英語應(yīng)于應(yīng)予mba:mba，liankao:耳關(guān)考，yingyu:英語應(yīng)于應(yīng)予......第五步最佳路徑計算結(jié)果為mba聯(lián)考英語mba連考英語......第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為mba.聯(lián)考英語最終結(jié)果mba聯(lián)考英語例4,英文拼音混合糾錯c++yuyan首先輸入串0++乂1^311。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，c++yuyan0第三步字符串切分計算結(jié)果為第四步音字轉(zhuǎn)化計算結(jié)果為C++:c++，yuyan:語言于研于琰......c++:c++，yu:迂淤于盂榆虞……，yan:淹鹽嚴第五步最佳路徑計算結(jié)果為0++語言0++與鹽0++與眼第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為c+十語言最終結(jié)果0++語言例5，英文、中文錯字混合糾錯VCd握住沉浮第四步音字轉(zhuǎn)化計算結(jié)果為首先輸入串vcd握住沉浮。第二步字音轉(zhuǎn)化計算結(jié)果為vcdwozhuchenfu。第三步字符串切分計算結(jié)果為VcdwozhuchenfuIvcdwozhuchenfuliyuchun|vcdwozhuchenfu......第四步音字轉(zhuǎn)化計算結(jié)果為vcd:vcd,wozhuchenfu:我主沉浮......vcd:vcd，wo:撾蝸渦......，zhu:株蛛朱，chenfu:臣服沉浮陳腐……vcd:vcd，wo:撾蝸渦……，zhu:株蛛朱……，chen:郴臣辰……，fu:夫敷膚第五步最佳路徑計算結(jié)果為vcd我主沉浮第六步詞型糾錯計算結(jié)果為握住孩子的手誰主沉浮我主沉浮漩渦沉浮。第七步相關(guān)度排序結(jié)果為VCD我主沉浮握住孩子的手誰主沉浮我主沉浮最終結(jié)果VCD我主沉浮握住孩子的手誰主沉浮我主沉浮例6，英文、中文錯字混合糾錯WTO于我們首先輸入串WTO于我們。第二步字音轉(zhuǎn)化計算結(jié)果為WTOyuwomen。第三步字符串切分計算結(jié)果為WTOyuwomenIWTOyuwomen|WTOyuwomen......第四步音字轉(zhuǎn)化計算結(jié)果為WTO:削，yu:奧鞅尉......，women:我們;WTO:WTO,yuwo:與我，men:門悶們......WTO:WTO,yu:奧缺尉......，wo:我撾蝸......，men:門悶們第五步最佳路徑計算結(jié)果為WTO與我們WTO與women......第六步詞型糾錯計算結(jié)果為我們的主題曲我們的科學幻想我們的地球……第七步相關(guān)度排序結(jié)果為WT0與我們我們的主題曲我們的科學幻想我們的地球最終結(jié)果WTO與我們我們的主題曲我們的科學幻想我們的地球例7，拼音數(shù)字混合糾錯beijing2008首先輸入串beijing2008。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，beijing2008。第三步字符串切分計算結(jié)果為beijing2008|Beijing2008|beijing2008......第四步音字轉(zhuǎn)化計算結(jié)果為beijing:北京背景背靜……，2008:2008;bei:悲卑北……，jing:荊兢莖……，2008:2008;beiji:碑記北極背脊……，ng:ng，2008:2008……第五步最佳路徑計算結(jié)果為北京2008第六步詞型糾錯計算結(jié)果為無結(jié)果第七步相關(guān)度排序結(jié)果為北京2008最終結(jié)果北京2008例8，拼音數(shù)字混合糾錯yuedu200篇首先輸入串yuedu200篇。第二步字音轉(zhuǎn)化計算結(jié)果為yuedu200pian。第三步字符串切分計算結(jié)果為yuedu200pian|yuedu200pian|yuedu200pian......第四步音字轉(zhuǎn)化計算結(jié)果為yuedu:月度閱讀，200:200，pian:便篇偏……yue:樂說約……，du:都督毒……，200:200，pian:便篇偏yuedu:月度閱讀，200:200，pi:擺狂被……，an:鞍氨安第五步最佳路徑計算結(jié)果為閱讀200篇閱讀200片……第六步詞型糾錯計算結(jié)果為閱讀200篇。第七步相關(guān)度排序結(jié)果為閱讀200篇最終結(jié)果閱讀200篇例9，拼音、括號混合糾錯sanguaike(DVD)首先輸入串sanguaike(DVD)。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，sanguaike(DVD)。第三步字符串切分計算結(jié)果為sanguaike(DVD)|sanguaike(DVD)|sanguaike(扁)第四步音字轉(zhuǎn)化計算結(jié)果為san:糝三畚……，guaike:怪客，(:(，DVD:歸，):);s:s，an:鞍氨安……，guaike:怪客，((，DVD:DVD，))；sa:撒灑薩……，n:n，guaike:怪客，((，DVD:DVD，))；第五步最佳路徑計算結(jié)果為三怪客(DVD)三谷愛克(,)……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為三怪客(DVD)最終結(jié)果三怪客(DVD)例IO，拼音、括號混合糾錯dafengchui(CD)首先輸入串dafengchui(CD)。第二步字音轉(zhuǎn)化計算結(jié)果為不改變，dafengchui(CD)。第三步字符串切分計算結(jié)果為Dafengchui(cd)|dafengchui(cd)|dafengchui(cd).…第四步音字轉(zhuǎn)化計算結(jié)果為da:搭達答......，fengchui:風吹風錘，((，cd:cd，):);dafeng:大豐大封大風……，chui:吹炊捶……，((，cd:cd，))；d:d，a:a啊阿吖……，fengchui:風吹風錘，((，cd:cd，):);第五步最佳路徑計算結(jié)果為大風吹(cd)……第六步詞型糾錯計算結(jié)果為無結(jié)果。第七步相關(guān)度排序結(jié)果為大風吹(cd)最終結(jié)果大風吹(cd)例ll，中文、特殊符號混合糾錯杰拉德.B.四通首先輸入串杰拉德.B.四通。第二步字音轉(zhuǎn)化計算結(jié)果為jielade.b.sitong。第三步字符串切分計算結(jié)果為jielade.b.sitong|jielade.b.sitong|jielade.b.stong第四步音字轉(zhuǎn)化計算結(jié)果為jielade:杰拉德，..，b:b，..，sitong:斯通私通四通......jie:秸街階……，lade:拉德拉得拉的……，.:.，b:b，.:，sitong:斯通私通四通......jielade:杰拉德，..，b:b,.:.，si:斯撕嘶......，tong:撞通桐......第五步最佳路徑計算結(jié)果為杰拉德.b.斯通杰拉德.b.斯同杰拉德.b.四彤第六步詞型糾錯計算結(jié)果為菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲…第七步相關(guān)度排序結(jié)果為杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲最終結(jié)果杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奧拉德絲例12，中文、特殊符號混合糾錯阿波羅juren首先輸入串阿波羅juren。第二步字音轉(zhuǎn)化計算結(jié)果為aboluo:juren。第三步字符串切分計算結(jié)果為Aboluo:juren|aboluo:uren|aboluo:juren......第四步音字轉(zhuǎn)化計算結(jié)果為aboluo:阿波羅，，juren:拘人居人舉人……a:a啊阿吖......，boluo:剝落菠蘿波蘿……，，juren:居人舉人巨人abo:阿波阿伯，luo:犖烙蘿……，，juren:居人舉人巨人……第五步最佳路徑計算結(jié)果為阿波羅巨人阿波羅車仁阿勃洛巨人……第六步詞型糾錯計算結(jié)果為阿波羅阿波羅系列軟件阿波羅之杯阿波羅藝術(shù)史。第七步相關(guān)度排序結(jié)果為阿波羅巨人阿波羅阿波羅系列軟件阿波羅之杯最終結(jié)果阿波羅巨人阿波羅阿波羅系列軟件阿波羅之杯例13，個別詞混合糾錯滿城盡是黃金甲首先輸入串滿城盡是黃金甲。第二步字音轉(zhuǎn)化計算結(jié)果為manchengjinshihuangjinjia。第三步字符串切分計算結(jié)果為ManchengjinshihuangjinjialmanchengjinshihuangjinjialManchengjinshhuangjinjia......第四步音字轉(zhuǎn)化計算結(jié)果為man:man瞞饅蠻......，chengjin:程靳承筋，shihuang:拾荒始皇，jinjia:金價進價靳佳……mancheng:滿城,jin:巾筋斤……，shihuang:拾荒始皇，jinjia:金價進價靳佳mancheng:滿城，jinshi:金石金飾今世，huang:huang荒慌黃，jinjia:金價進價靳佳……第五步最佳路徑計算結(jié)果為滿城盡是黃金甲……第六步詞型糾錯計算結(jié)果為滿城盡帶黃金甲金甲鐘唐滿城滿城漢墓…"第七步相關(guān)度排序結(jié)果為滿城盡帶黃金甲金甲鐘唐滿城最終結(jié)果滿城盡帶黃金甲金甲鐘唐滿城。權(quán)利要求1.一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)，是在互聯(lián)網(wǎng)絡(luò)平臺上，首先，通過相關(guān)數(shù)據(jù)信息的訓練，建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫；然后，輸入文本，拼音糾錯部分計算音字錯誤，模糊匹配計算詞型糾錯；最后，將所有結(jié)果進行相關(guān)度過濾，對多個結(jié)果進行排序，得到最接近的幾個結(jié)果。該系統(tǒng)包括以下部分文本語料數(shù)據(jù)庫模塊對數(shù)據(jù)庫中的數(shù)據(jù)進行分析、規(guī)范和初始化，作為訓練語料；切分字符模塊包括初始化相應(yīng)的訓練詞典，并對訓練文本信息進行分詞處理；統(tǒng)計語言模型模塊對切分后的訓練文本計算，得到詞的概率模型和詞間的轉(zhuǎn)移概率模型；建立索引模塊建立訓練語料中詞和文檔位置的索引；規(guī)范提示信息模塊對訓練數(shù)據(jù)進行規(guī)范化處理，得到可能作為提示結(jié)果的規(guī)范化信息；輸入搜索信息模塊在輸入界面輸入相應(yīng)的文字；拼音糾錯模塊切分字音轉(zhuǎn)換后的字符串，按照切分單位做拼音到漢字的轉(zhuǎn)換，使用動態(tài)規(guī)劃的算法，取得概率較大的幾個結(jié)果；詞型匹配模塊根據(jù)模糊匹配的原理，匹配相關(guān)的字詞，得到多個相近的結(jié)果；相關(guān)度過濾模塊對拼音糾錯結(jié)果和詞型糾錯結(jié)果作相關(guān)度計算，并使用訓練語料計算的索引過濾結(jié)果；最后顯示結(jié)果模塊輸出關(guān)鍵詞的提示結(jié)果。2.如權(quán)利要求1所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)，其特征在于切分字串模塊針對不同的應(yīng)用需求，采用不同的切分方法在計算統(tǒng)計語言模型階段，對語料數(shù)據(jù)采用了基于正向最大匹配的切詞算法；在拼音糾錯階段的拼音字符串采用全切分的算法。3.如權(quán)利要求l所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)，其特征在于統(tǒng)計語言模型模塊對詞的概率使用投籃法，對詞的轉(zhuǎn)移概率使用二元語法記錄。4.如權(quán)利要求1所述的網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)，其特征在于拼音糾錯模塊中，將轉(zhuǎn)化后的字符串進行切分，切分出以詞的拼音串為單位的拼音串、英文串和標點，之后把拼音串轉(zhuǎn)化成相應(yīng)的漢字串，并對漢字串、英文串和標點等切分字符串進行統(tǒng)一的概率計算，儲存在文本語料數(shù)據(jù)庫中，以便在糾錯的過程中支持拼音、中英文、標點的混合串糾錯。5.—種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法，包含如下步驟首先，在系統(tǒng)進行糾錯之前，針對數(shù)據(jù)信息訓練，得到統(tǒng)計語言模型、建立索引和規(guī)范的提示信息；其次，輸入要搜索的關(guān)鍵詞到系統(tǒng)后，先執(zhí)行拼音糾錯，對輸入字符串進行字音轉(zhuǎn)換，規(guī)范化為拼音、數(shù)字、英文字母或標點的字符串；第三，進行字符串的切分，構(gòu)造一個由分割的字符串組成的一個有向無環(huán)圖；第四，把其中的拼音轉(zhuǎn)化成中文；第五，使用動態(tài)規(guī)劃算法求得幾條最佳路徑，返回轉(zhuǎn)換之后的結(jié)果以及相應(yīng)的概率值；第六，在詞型糾錯階段，計算兩個字符串間的編輯距離，在給定的數(shù)據(jù)集內(nèi)挑選最接近的提示；第七，對拼音糾錯和詞型糾錯的計算結(jié)果，通過一定的排序算法重新排序并顯示在終端。6.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法，其特征在于在計算語言模型階段、建立索引和規(guī)范提示信息階段采用基于正向最大匹配的切詞算法。7.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法，其特征在于對中英文、數(shù)字、標點混合糾錯時，需要對字音轉(zhuǎn)化后的字符串進行切分，切分出以詞為單位的拼音串、英文串和標點。8.如權(quán)利要求5所述的一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯方法，其特征在于對拼音糾錯和詞型糾錯的計算結(jié)果按照重疊程度從高到低——〉詞頻從低到高的規(guī)則進行排序。全文摘要本發(fā)明涉及一種網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法，在互聯(lián)網(wǎng)絡(luò)平臺上，首先，通過相關(guān)數(shù)據(jù)信息的訓練，建立相關(guān)的語言模型、對應(yīng)的詞典和數(shù)據(jù)索引數(shù)據(jù)庫；然后，輸入文本，拼音糾錯部分計算音字錯誤，模糊匹配計算詞型糾錯；最后，將所有結(jié)果進行相關(guān)度過濾，對多個結(jié)果進行排序，得到最接近的幾個結(jié)果。通過音字轉(zhuǎn)換和模糊糾錯技術(shù)手段來糾正用戶輸入的多音字錯誤、字型、詞型錯誤，解決用戶在輸入過程中的字符替換錯誤、多字/漏字錯誤和字符位置錯誤等類型。并在此基礎(chǔ)上擴展了基礎(chǔ)功能，引入中英文、標點混合糾錯，模糊匹配技術(shù)，相關(guān)提示技術(shù)，增強了智能糾錯的功能。文檔編號G06F17/30GK101206673SQ200710301710公開日2008年6月25日申請日期2007年12月25日優(yōu)先權(quán)日2007年12月25日發(fā)明者剛劉,劉建國,莊洪波,研張,王洪濤申請人:北京科文書業(yè)信息技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：莊洪波;劉剛;劉建國;王洪濤;張研
技術(shù)所有人：北京科文書業(yè)信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)絡(luò)搜索過程中關(guān)鍵詞的智能糾錯系統(tǒng)及方法