專利名稱::確定搜索引擎中輸入字符串正確性的方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)搜索?1擎
技術(shù)領(lǐng)域:
,尤其涉及一種確定搜索引擎中輸入字符串正確性的方法及裝置。
背景技術(shù):
:據(jù)統(tǒng)計,用戶在搜索引擎中輸入的輸入字符串有8%包含錯誤,比如將"圖書館"輸入為"圖書管",此時,搜索引擎的查詢糾錯(QueryCorrector,QC)模塊會提示用戶"您是不是要找圖書館"。QC在運行時,首先是要判斷輸入字符串是否包含錯誤,如果輸入是正確的,則不糾錯,否則,才會進行糾錯的步驟。搜索引擎用戶主要使用拼音輸入法敲入輸入字符串,因此錯誤的輸入主要是同音錯誤,所以目前QC—般基于同音判斷輸入字符串的正確性。例如,用戶輸入的是"圖書管",現(xiàn)有QC會在查詢?nèi)罩編炖餀z索所有發(fā)音是"tushuguan"的查詢詞及其查詢次數(shù),假設(shè)找到"圖書管"的查詢次數(shù)為m,"圖書館"的查詢次數(shù)為n,如果附/"數(shù)值很小,則認(rèn)為輸入字符串"圖書管"是錯誤的,建議糾錯為"圖書館"。上述這種方案的局限在于需要計算整串輸入字符串的查詢次數(shù)。如果用戶輸入的是"北京市國家圖書館借書證辦理方法",很可能查詢?nèi)罩編炖餂]有與之發(fā)音相同的查詢詞,就無法獲知原始輸入字符串是否正確。再者,如果僅憑其中的"圖書管"就判斷"北京市國家圖書館借書證辦理方法"是錯誤的,那么用戶輸入的"圖書管理系統(tǒng)"就會被誤判為錯誤。
發(fā)明內(nèi)容本發(fā)明提供一種確定搜索引擎中輸入字符串正確性的方法及裝置,以解5決現(xiàn)有方案無法對某些輸入字符串進行判斷或者誤判的問題。為此,本發(fā)明實施例采用如下技術(shù)方案一種確定搜索引擎中輸入字符串正確性的方法,包括獲取用戶在搜索引擎中輸入的輸入字符串;利用所述輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進行查詢,所述集合包含具有——對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含該集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。其中所述集合的預(yù)置過程為對查詢?nèi)罩局械牟樵冊~進行4并音標(biāo)注;計算所述查詢詞及其對應(yīng)拼音串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù);計算所述查詢詞與其拼音串出現(xiàn)次數(shù)的比值;保留所述比值大于預(yù)置的比值閾值的查詢詞及其拼音串的——對應(yīng)關(guān)系,構(gòu)成所述集合。如果確定所述輸入字符串存在錯誤,該方法還包括以所述集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以驗證所述輸入字符串存在錯誤的判斷結(jié)果是否正確。其中,所述利用對原始輸入字符串和替換后的字符串進行分詞比較,以驗證所述輸入字符串存在錯誤的結(jié)果是否正確的具體過程為對所述輸入字符串進行分詞,計算詞的個數(shù);對利用所述集合中的查詢詞替換后的字符串進行分詞,計算替換后的字符串中詞的個數(shù);6定所述輸入字符串的正確性判斷結(jié)果是錯誤的,并將判斷結(jié)果修改為所述輸入串正確,否則,維持原來的判斷結(jié)果。一種確定搜索引擎中輸入字符串正確性的裝置,包括獲取單元,用于獲取用戶在搜索引擎中輸入的輸入字符串;查詢單元,用于利用所述輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進行查詢,所述集合包含具有——對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷單元,用于判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。上述裝置還包括用于建立所述集合的集合建立單元,所述集合建立單元包括拼音標(biāo)注子單元,用于對查詢?nèi)罩局械牟樵冊~進行拼音標(biāo)注;次數(shù)計算子單元,用于計算所述查詢詞及其對應(yīng)拼音串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù);比值計算子單元,用于計算所述查詢詞與其拼音串出現(xiàn)次數(shù)的比值;集合生成子單元,用于保留所述比值大于預(yù)置的比值閾值的查詢詞及其拼音串的——對應(yīng)關(guān)系,構(gòu)成所述集合。上述裝置還包括驗證單元,用于在確定所述輸入字符串存在錯誤時,以所述集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以對判斷結(jié)果進行驗證。其中,所述驗i正單元包括個數(shù)計算子單元,用于對所述輸入字符串進行分詞,并計算輸入字符串中詞的個數(shù);替換詞個數(shù)計算子單元,用于利用所述集合中查詢詞替換所述輸入字符串對應(yīng)位置的漢字,計算替換字符串中詞的個數(shù);驗證子單元,如果替換字符串中詞的個數(shù)大于輸入字符串中詞的個數(shù),則確定所述輸入字符串正確性判斷結(jié)果是錯誤的,將判斷結(jié)果修改為所述輸入字符串正確,否則,維持原來的判斷結(jié)果。對于上述技術(shù)方案的技術(shù)效果分析如下通過本發(fā)明方案,可以在保證拼音與漢字——對應(yīng)的基礎(chǔ)上,可以找到最短的串。例如,如果采用現(xiàn)有方案,可以把"串感器"糾錯為"傳感器",但是如果用戶輸入的是"北京串感器價格",很可能查詢?nèi)罩局袥]有"北京串感器價格"的查詢次數(shù),則采用現(xiàn)有方案無法實現(xiàn)糾錯,它會認(rèn)為"chuanganqi"會像"sanxiang"—樣,在不同的語境,對應(yīng)不同的漢字,沒有發(fā)現(xiàn)"chuanganqi"本身已經(jīng)足夠確定對應(yīng)的漢字"傳感器"了。如果采用本發(fā)明,可以發(fā)現(xiàn)查詢詞和拼音--對應(yīng)關(guān)系的集合,找到--對應(yīng)的且最短的串"chuanganqi"-"傳感器",這樣無論"chuanganqi"這個發(fā)音出現(xiàn)在怎樣的語境中,如果對應(yīng)的文本中沒有"傳感器",都可以完成糾錯。再以"圖書管"、"圖書管理系統(tǒng)"以及"北京市國家圖書館借書證辦理方法"為例說明,如果在本發(fā)明集合中包括以下對應(yīng)關(guān)系"圖書館"-"tushuguan""圖書"_"tushu""管理"-"guanli""系統(tǒng)"_"xitong"";j匕京市"一"beijingshi""國家"_"guojia""借書證"-"jieshuzheng""辦理"-"banli""方法"-"fangfa"則可以判斷輸入字符串"圖書管"錯誤,因為其對應(yīng)的拼音"tushuguan"在集合中對應(yīng)的查詢詞"圖書館"不包含在輸入字符串中。同時可判斷輸入字符串"圖書管理系統(tǒng)"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中,具體的,包括"圖書"、"管理"以及"系統(tǒng)"。并可判斷輸入字符串"北京市國家圖書館借書證辦理方法"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中??梢姡捎帽景l(fā)明有效解決了現(xiàn)有方案存在的對某些輸入字符串無法判斯以及誤判的問題。另外,本發(fā)明通過對輸入字符串正確性結(jié)果的驗證,可進一步提高判斷準(zhǔn)確率,減少誤判。圖1為本發(fā)明確定搜索引擎中輸入字符串正確性的方法流程圖2為本發(fā)明確定搜索引擎中輸入字符串正確性的方法實施例一流程圖3為本發(fā)明確定搜索引擎中輸入字符串正確性的方法實施例二流程圖4為本發(fā)明確定搜索引擎中輸入字符串正確性的裝置結(jié)構(gòu)示意圖5為圖4中集合建立單元內(nèi)部結(jié)構(gòu)示意圖6為圖4中驗證單元內(nèi)部結(jié)構(gòu)示意圖。具體實施例方式本發(fā)明通過生成一個拼音與漢字——對應(yīng)的集合,用以匹配用戶輸入的輸入字符串,從而判斷輸入字符串是否存在錯誤。參見圖1,為本發(fā)明確定搜索引擎中輸入字符串正確性的方法流程圖,包括S101:獲取用戶在搜索引擎中輸入的輸入字符串;S102:利用所述輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進4亍查詢,所述集合包含——對應(yīng)關(guān)系的查詢詞和該查詢詞的4并音串;S103:判斷輸入字符串的正確性如果集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,輸入字符串中不包含該集合中匹配的拼音串在集合中對應(yīng)的查詢詞,則確定輸入字符串存在錯誤,否則,確定輸入字符串正確。通過本發(fā)明方案,可以在保證拼音與漢字——對應(yīng)的基礎(chǔ)上,可以找到最短的串,由此解決現(xiàn)有方案存在的對某些輸入字符串無法判斷或者誤判的問題。下面結(jié)合具體實例,對本發(fā)明作詳細闡述。參見圖2,為本發(fā)明方法實施例一流程圖,其中,S201-S204為建立包含查詢詞與拼音的一一對應(yīng)關(guān)系的集合的步驟,S205為利用集合判斷用戶的輸入字符串是否正確的步驟,具體地S201:將查詢?nèi)罩局械牟樵冊~進行拼音標(biāo)注。其中,查詢?nèi)罩臼撬阉饕嬷蓄A(yù)先保存的,記錄有查詢詞以及查詢次數(shù)的對應(yīng)關(guān)系。查詢?nèi)罩镜臄?shù)據(jù)格式的示例參見表1:表1查詢詞q1q1的查詢次數(shù)n1查詢詞q2q2的查詢次數(shù)n2將查詢詞用漢語拼音注音,注音的結(jié)果參見表2:10表2<table>tableseeoriginaldocumentpage11</column></row><table>S202:計算查詢詞及其對應(yīng)拼音作為子串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù)。以表2為例,"sanxiang"作為拼音子串,在"三廂"、"三相"、"三湘"、"三相交流電"以及"三廂轎車價格"中出現(xiàn)過,所以"sanxiang"作為拼音子串在查詢曰志出現(xiàn)的次數(shù)為50+20+10+40+30+60=210。"三廂"作為中文子串,在"三廂"、"三廂轎車"以及"三廂轎車價格"中出現(xiàn)過,則"三廂"作為中文子串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù)為10+30+60=100。同理,可以計算出其他查詢詞及其對應(yīng)的拼音作為子串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù)。由表2得到的次數(shù)參見表3。表3<table>tableseeoriginaldocumentpage11</column></row><table>S203:計算每一個查詢詞與其對應(yīng)的拼音作為子串出現(xiàn)的次數(shù)的比值。對每一個查詢詞,計算其作為子串出現(xiàn)的次數(shù)與其拼音作為子串出現(xiàn)的次數(shù)的比值,由表3得到的比值參見表4。表4拼音中文子串出現(xiàn)次數(shù)拼音子串出現(xiàn)次數(shù)比值三湘S3nxi3ng502100.238095三相S3nxisng602100.285714三廂S3nxi3ng■2100.47619三相交流電sanxiangjiaoliudian40401三廂轎車sanxiangjiaoche90901三廂轎車價格S3nxi3ngji30cheji3g660601S204:生成查詢詞與拼音一^^對應(yīng)的集合。所謂查詢詞與拼音——對應(yīng),指的是給定拼音,其對應(yīng)的漢字是唯一的。"sanxiang"與"三廂"就不是一一對應(yīng)的關(guān)系,因為"sanxiang"還對應(yīng)著"三湘"、"三相"。而"sanxiangjiaoliudian"與"三相交流電"貝寸是--對應(yīng)的。在S203得到的結(jié)果中,過濾掉比值低于預(yù)置的比值閾值,的查詢詞,比如,預(yù)置的比值閾值^-0.6,則余下的就是查詢詞與拼音的——對應(yīng)關(guān)系的集合。由表4得到的集合參見表5。12表5查詢詞拼音三相交;危電S3nxi3ngji30liudi3n三廂轎車sanxiangjiaoche三廂轎車價格sanxiangjiaochejiageS205:利用集合對搜索引擎獲取的輸入字符串的正確性進行判斷。用漢語拼音為用戶輸入的輸入字符串q注音,注音得到的拼音串為p。用上一步得到的集合中的拼音串進行匹配,如果集合中的某個拼音p1是p的子串,且q中不包含p1對應(yīng)的漢字,則確定輸入字符串是錯誤的,否則,確定輸入字符串是正確的。仍舉例說明,如果用戶輸入"北京二手三湘轎車",對應(yīng)拼音為"beijingershousanxiangjiaoche"。匹酉己后發(fā)3見,"sanxiangjiaoche"是"beijingershousanxiangjiaoche"的子串,且"北京二手三湘轎車"中不包含"sanxiangjiaoche"所對應(yīng)的漢字"三廂轎車",就說明輸入字符串是錯誤的。由此,通過本發(fā)明方案,可以在保證拼音與漢字——對應(yīng)的基礎(chǔ)上,可以找到最短的串。例如,如果采用現(xiàn)有方案,可以把"串感器"糾錯為"傳感器",但是如果用戶輸入的是"北京串感器價格",很可能查詢?nèi)罩局袥]有"北京串感器價格"的查詢次數(shù),則采用現(xiàn)有方案無法實現(xiàn)糾錯,它會認(rèn)為"chuanganqi"會像"sanxiang"—樣,在不同的語境,對應(yīng)不同的漢字,沒有發(fā)現(xiàn)"chuanganqi"本身已經(jīng)足夠確定對應(yīng)的漢字"傳感器"了。如果采用本發(fā)明,可以發(fā)現(xiàn)查詢詞和拼音——~對應(yīng)關(guān)系的集合,找到——對應(yīng)的且最短的串"chuanganqi"-"傳感器",這樣無論"chuanganqi"這個發(fā)音出現(xiàn)在怎樣的語境中,如果對應(yīng)的文本中沒有"傳感器",都可以完成糾錯。再以"圖書管"、"圖書管理系統(tǒng)"以及"北京市國家圖書館借書證辦理方法"為例說明,如果在本發(fā)明集合中包括以下對應(yīng)關(guān)系"圖書館"-"tushuguan""圖書"-"tushu""管理"-"guanli""系統(tǒng)"-"xitong""北京市"-"beijingshi""國家"—"guojia""借書證"-"jieshuzheng""辦理"-"banli""方法"-"fangfa"則可以判斷輸入字符串"圖書管"錯誤,因為其對應(yīng)的拼音"tushuguan"在集合中對應(yīng)的查詢詞"圖書館"不包含在輸入字符串中。同時可判斷輸入字符串"圖書管理系統(tǒng)"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中,具體的,包括"圖書"、"管理"以及"系統(tǒng)"。并可判斷輸入字符串"北京市國家圖書館借書證辦理方法"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中??梢姡捎帽景l(fā)明有效解決了現(xiàn)有方案存在的對某些輸入字符串無法判斷以及誤判的問題。下面介紹本發(fā)明實施例二。實施例二在實施例一基礎(chǔ)上,對S205的判斷結(jié)果進行驗證,以進一步提高對輸入字符串正確性判斷的準(zhǔn)確率。當(dāng)輸入字符串中出現(xiàn)日志庫中的拼音但是沒有出現(xiàn)對應(yīng)查詢詞時,大部分情況下的輸入是錯誤的,但是也有少部分是正確的。所以要驗證實施例一初步判斷輸入字符串是錯誤的數(shù)據(jù),避免誤判。參見圖3,為實施例二流程圖,在S201S205基礎(chǔ)上執(zhí)行S301:在確定所述輸入字符串存在錯誤時,對判斷結(jié)果進行驗證,具體地以集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以驗證所述輸入字符串存在錯誤的判斷結(jié)果是否正確。驗證的具體過程為計算所述輸入字符串中詞的個數(shù);利用所述集合中查詢詞替換所述輸入字符串對應(yīng)位置的漢字,計算替換結(jié)果中詞的個數(shù);如果替換結(jié)果中詞的個數(shù)大于輸入字符串中詞的個數(shù),則確定所述輸入字符串正確性判斷結(jié)果是錯誤的,修改為所述輸入字符串正確的判斷結(jié)果,否則,維持原來的判斷結(jié)果。下面仍以實例iJL明。假設(shè)S204生成的查詢詞與4并音——對應(yīng)的集合如表6所示的對應(yīng)關(guān)系。表6查詢詞拼音四平siping飲料yinliao資源ziyu3n技術(shù)Jishu以下幾條輸入字符串包含集合中的拼音但是不包含對應(yīng)的查詢詞,因此會在S205中被誤判斷為錯誤輸入1、IT^〉司評論包含"sipingM旦不包含"四平";2、語音聊天包含"yinliao"但不包含"飲料";3、電子元件包含"ziyuan"但不包含"資源";4、手機數(shù)據(jù)線包含"jishu"但不包含"技術(shù)"。在實施例二中,通過分詞的方法進行驗證計算原始輸入字符串中詞的個數(shù),并計算輸入字符串拼音對應(yīng)于集合中的查詢詞替換輸入字符串相應(yīng)位15置后的分詞個數(shù),如果后者大于前者,則說明S205的判斷結(jié)果錯誤,原始輸入字符串是正確的;否則維持原來的判斷結(jié)果,原始輸入字符串是4告誤的。表7是參照表6對幾個輸出串的驗證例子。表7原始輸入字符串分詞結(jié)果原始輸入詞數(shù)替換之后分詞結(jié)果替換之后詞數(shù)最終判斷原始輸入字符串正確性IT/公司辨論3|丁//>/四平/{侖4正確語音/聊天2語/飲料/天3正確電子/元件2電/資源/件3正確手機/數(shù)據(jù)線2手/才支術(shù)/據(jù)/線4正確北京/二手/三湘/轎車4北京/二手/三廂/轎車4錯誤因此,前四條輸入字符串會被保留,不進行糾錯,第五條數(shù)據(jù)會被糾錯。通過實施例二的方式進行驗證,可以提高準(zhǔn)確率,減少誤判。與上述方法相對應(yīng),本發(fā)明還提供一種確定搜索引擎中輸入字符串正確性的裝置,該裝置可以由軟件、硬件或軟硬件結(jié)合方式實現(xiàn)。優(yōu)選地,該裝置是指改進功能的QC模塊,或者是改經(jīng)功能的QC模塊中的功能單元。參見圖4,該裝置包括獲取單元401、查詢單元402以及判斷單元403,其中獲取單元401,用于獲取用戶在搜索引擎中輸入的輸入字符串;查詢單元402,用于利用獲取單元401得到的輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進行查詢,所述集合包含具有一一對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷單元403,用于判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。優(yōu)選地,該裝置還包括用于建立所述集合的集合建立單元404。該集合建立單元404的內(nèi)部結(jié)構(gòu)示意圖參見圖5,它包括拼音標(biāo)注子單元501,用于對查詢?nèi)罩局械牟樵冊~進行拼音標(biāo)注;其中,查詢?nèi)罩臼撬阉饕嬷蓄A(yù)先保存的,記錄有查詢詞以及查詢次數(shù)的對應(yīng)關(guān)系。次數(shù)計算子單元502,用于計算查詢詞及其對應(yīng)拼音作為子串在查詢曰志中出現(xiàn)的次數(shù);比值計算子單元503,用于計算查詢詞與其拼音出現(xiàn)次數(shù)的比值;集合生成子單元504,用于保留比值大于預(yù)置的比值閾值的查詢詞及其拼音的——對應(yīng)關(guān)系,構(gòu)成所述集合。優(yōu)選地,該裝置還包括對確定所述輸入字符串存在錯誤時對輸入字符串正確性判斷結(jié)果進行-險證的-驗證單元405。該-險證單元405用于在確定輸入字符串存在錯誤時,以所述集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以對判斷結(jié)果進行驗證,其內(nèi)部結(jié)構(gòu)示意圖參見圖6,包括個數(shù)計算子單元601,用于計算輸入字符串中詞的個數(shù);替換詞個數(shù)計算子單元602,用于利用集合中查詢詞替換所述輸入字符串對應(yīng)位置的漢字,計算替換結(jié)果中詞的個數(shù);驗證子單元603,如果替換結(jié)果中詞的個數(shù)大于輸入字符串中詞的個數(shù),則確定輸入字符串正確性判斷結(jié)果是錯誤的,將判斷結(jié)果修改為輸入字符串正確,否則,維持原來的判斷結(jié)果。由此,通過本發(fā)明方案,可以在保證拼音與漢字——對應(yīng)的基礎(chǔ)上,可以找到最短的串。例如,如果采用現(xiàn)有方案,可以把"串感器"糾錯為"傳感器",但是如果用戶輸入的是"北京串感器價格",很可能查詢?nèi)罩局袥]有"北京串感17器價格"的查詢次數(shù),則采用現(xiàn)有方案無法實現(xiàn)糾錯,它會認(rèn)為"chuanganqi"會像"sanxiang"—樣,在不同的語境,對應(yīng)不同的漢字,沒有發(fā)現(xiàn)"chuanganqi"本身已經(jīng)足夠確定對應(yīng)的漢字"傳感器"了。如果采用本發(fā)明,可以發(fā)現(xiàn)查詢詞和拼音——對應(yīng)關(guān)系的集合,找到——對應(yīng)的且最短的串"chuanganqi"-"傳感器",這樣無論"chuanganqi"這個發(fā)音出現(xiàn)在怎樣的語境中,如果對應(yīng)的文本中沒有"傳感器",都可以完成糾錯。再以"圖書管"、"圖書管理系統(tǒng)"以及"北京市國家圖書館借書證辦理方法"為例說明,如果在本發(fā)明集合中包括以下對應(yīng)關(guān)系"圖書館"_"tushuguan""圖書"-"tushu""管理"-"guanli""系統(tǒng)"-"xitong""j匕京市"_"beijingshi""國家"_"guojia""借書證"_"jjeshuzheng""辦理"-"banli""方法"-"fangfa"則可以判斷輸入字符串"圖書管"錯誤,因為其對應(yīng)的拼音"tushuguan"在集合中對應(yīng)的查詢詞"圖書館"不包含在輸入字符串中。同時可判斷輸入字符串"圖書管理系統(tǒng)"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中,具體的,包括"圖書"、"管理"以及"系統(tǒng)"。并可判斷輸入字符串"北京市國家圖書館借書證辦理方法"是正確的,因為輸入字符串中各個詞的拼音對應(yīng)于集合中的查詢詞都包含在輸入字符串中??梢?,采用本發(fā)明有效解決了現(xiàn)有方案存在的對某些輸入字符串無法判斷以及誤判的問題。另外,本發(fā)明通過對輸入字符串正確性結(jié)果的驗證,可進一步提高判斷準(zhǔn)確率,減少誤判。本領(lǐng)域普通4支術(shù)人員可以理解,實現(xiàn)上述實施例的方法的過程可以通過程序指令相關(guān)的硬件來完成,所述的程序可以存儲于可讀取存儲介質(zhì)中,該程序在執(zhí)行時執(zhí)行上述方法中的對應(yīng)步驟。所述的存儲介質(zhì)可以如ROM/RAM、磁碟、光盤等。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。權(quán)利要求1、一種確定搜索引擎中輸入字符串正確性的方法,其特征在于,包括獲取用戶在搜索引擎中輸入的輸入字符串;利用所述輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進行查詢,所述集合包含具有一一對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含該集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。2、根據(jù)權(quán)利要求1所述方法,其特征在于,所述集合的預(yù)置過程為對查詢?nèi)罩局械牟樵冊~進行拼音標(biāo)注;計算所述查詢詞及其對應(yīng)拼音串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù);計算所述查詢詞與其拼音串出現(xiàn)次數(shù)的比值;保留所述比值大于預(yù)置的比值閾值的查詢詞及其拼音串的——對應(yīng)關(guān)系,構(gòu)成所述集合。3、根據(jù)權(quán)利要求1或2所述方法,其特征在于,如果確定所述輸入字符串存在錯誤,還包括以所述集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以驗證所述輸入字符串存在錯誤的判斷結(jié)果是否正確。4、根據(jù)權(quán)利要求3所述方法,其特征在于,所述利用對原始輸入字符串和替換后的字符串進行分詞比較,以驗證所述輸入字符串存在錯誤的結(jié)果是否正確的具體過程為對所述輸入字符串進行分詞,計算詞的個數(shù);對利用所述集合中的查詢詞替換后的字符串進行分詞,計算替換后的字符串中詞的個數(shù);如果替換后的字符串中詞的個數(shù)大于所述輸入字符串中詞的個數(shù),則確定所述輸入字符串的正確性判斷結(jié)果是錯誤的,并將判斷結(jié)果修改為所述輸入串正確,否則,維持原來的判斷結(jié)果。5、一種確定搜索引擎中輸入字符串正確性的裝置,其特征在于,包括獲取單元,用于獲取用戶在搜索引擎中輸入的輸入字符串;的集合中進行查詢,所述集合包含具有——對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷單元,用于判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。6、根據(jù)權(quán)利要求5所述裝置,其特征在于,還包括用于建立所述集合的集合建立單元,所述集合建立單元包括拼音標(biāo)注子單元,用于對查詢?nèi)罩局械牟樵冊~進行拼音標(biāo)注;次數(shù)計算子單元,用于計算所述查詢詞及其對應(yīng)拼音串在查詢?nèi)罩局谐霈F(xiàn)的次數(shù);比值計算子單元,用于計算所述查詢詞與其拼音串出現(xiàn)次數(shù)的比值;集合生成子單元,用于保留所述比值大于預(yù)置的比值閾值的查詢詞及其拼音串的一一對應(yīng)關(guān)系,構(gòu)成所述集合。7、根據(jù)權(quán)利要求5或6所述裝置,其特征在于,還包括驗證單元,用于在確定所述輸入字符串存在錯誤時,以所述集合中的查詢詞替換輸入字符串相應(yīng)位置的漢字,并利用對原始輸入字符串和替換后的字符串進行分詞比較,以對判斷結(jié)果進行驗證。8、根據(jù)權(quán)利要求7所述裝置,其特征在于,所述驗證單元包括個數(shù)計算子單元,用于對所述輸入字符串進行分詞,并計算輸入字符串中詞的個數(shù);替換詞個數(shù)計算子單元,用于利用所述集合中查詢詞替換所述輸入字符串對應(yīng)位置的漢字,計算替換字符串中詞的個數(shù);驗證子單元,如果替換字符串中詞的個數(shù)大于輸入字符串中詞的個數(shù),則確定所述輸入字符串正確性判斷結(jié)果是錯誤的,將判斷結(jié)果修改為所述輸入字符串正確,否則,維持原來的判斷結(jié)果。全文摘要本發(fā)明公開了一種確定搜索引擎中輸入字符串正確性的方法及裝置,其中方法包括步驟獲取用戶在搜索引擎中輸入的輸入字符串;利用所述輸入字符串以及該輸入字符串的拼音串在預(yù)置的集合中進行查詢,所述集合包含一一對應(yīng)關(guān)系的查詢詞和該查詢詞的拼音串;判斷輸入字符串的正確性如果所述集合中的拼音串與輸入字符串的拼音串或該拼音串的子串匹配,并且,所述輸入字符串中不包含該集合中匹配的拼音串在所述集合中對應(yīng)的查詢詞,則確定所述輸入字符串存在錯誤,否則,確定所述輸入字符串正確。采用本發(fā)明,可解決現(xiàn)有方案判斷不準(zhǔn)確以及誤判的問題。文檔編號G06F17/30GK101477565SQ20091007684公開日2009年7月8日申請日期2009年1月22日優(yōu)先權(quán)日2009年1月22日發(fā)明者勇王申請人:北京搜狗科技發(fā)展有限公司