專利名稱:一種搜索方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索技術(shù)領(lǐng)域,更具體地,涉及一種搜索方法和裝置。
背景技術(shù):
在現(xiàn)有的搜索引擎中模糊搜索是用戶輸入關(guān)鍵詞,搜索服務(wù)器采用Levenshtein 距離算法來計(jì)算用戶輸入的關(guān)鍵詞與索引文件中詞的相似度。與用戶輸入的關(guān)鍵詞距離最近的索引文件中詞稱為最佳關(guān)鍵詞。由用戶輸入關(guān)鍵詞得到最佳關(guān)鍵詞,搜索服務(wù)器根據(jù)最佳關(guān)鍵詞在數(shù)據(jù)庫中搜索獲得最佳關(guān)鍵詞對(duì)應(yīng)的索引文件。Levenshtein距離算法計(jì)算從一個(gè)字符轉(zhuǎn)換到另一個(gè)字符串所需的最少插入、刪除和替換的字符個(gè)數(shù)。目前通過Levenshtein距離算法來獲取索引文件中詞與用戶輸入的關(guān)鍵詞之間的編輯距離,編輯距離越小表示索引文件中詞與用戶輸入的關(guān)鍵詞相似度越佳。Levenshtein距離算法主要應(yīng)用英文字符和字符串的計(jì)算,對(duì)中文和其它語言文字支持較低。因此,應(yīng)用于非英文字符的Levenshtein距離算法精確性較低。專利申請(qǐng)《推薦搜索引擎關(guān)鍵詞》(申請(qǐng)?zhí)?00580042218. 2)提出通過分析用戶輸入的關(guān)鍵字和存儲(chǔ)的歷史關(guān)鍵字記錄來生成最佳關(guān)鍵字集合,從而提高返回結(jié)果集的精確性。但用戶未存儲(chǔ)歷史關(guān)鍵字則無法保證返回結(jié)果集的精確性。綜上,現(xiàn)有技術(shù)中存在關(guān)鍵詞搜索精確性低的問題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提出一種搜索方法,提高了關(guān)鍵詞搜索的精確性。本發(fā)明實(shí)施例還提出一種搜索裝置,提高了關(guān)鍵詞搜索的精確性。本發(fā)明實(shí)施例的技術(shù)方案如下一種搜索方法,該方法包括預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;將待搜索關(guān)鍵詞對(duì)應(yīng)的數(shù)字向量進(jìn)行標(biāo)準(zhǔn)化處理得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征
向量;依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量,由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。所述預(yù)處理包括,對(duì)所述用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。當(dāng)所述用戶輸入的關(guān)鍵詞長(zhǎng)度超過預(yù)先設(shè)置的閾值長(zhǎng)度,所述預(yù)處理進(jìn)一步包括,修改所述用戶輸入的關(guān)鍵詞;然后,對(duì)修改后的關(guān)鍵詞進(jìn)行切詞處理。所述標(biāo)準(zhǔn)化處理包括,查詢國(guó)標(biāo)碼庫將所述待搜索關(guān)鍵詞轉(zhuǎn)換為數(shù)字向量;對(duì)所述數(shù)字向量進(jìn)行對(duì)齊處理后,再進(jìn)行零均值處理和歸一化處理得到所述特征向量。所述依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量包括依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別與原型向量數(shù)據(jù)庫中的原型向量匹配,得到所述序參量。
所述依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式得到序參量包括,根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類,依據(jù)所述特征向量采用協(xié)同神經(jīng)模式識(shí)別與每個(gè)子類中的原型向量匹配,得到所述序參量。所述根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類包括,所述原型向量的維數(shù)與所述特征向量的維數(shù)的比值向上取整為所述子類的數(shù)目。當(dāng)所述序參量等于1,所述由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞包括,由所述序參量直接在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。當(dāng)所述序參量小于1,所述由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞包括,由大于預(yù)先設(shè)置閾值的所述序參量在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。一種搜索裝置,包括預(yù)處理模塊、標(biāo)準(zhǔn)化模塊和模式識(shí)別模塊,預(yù)處理模塊,用于預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;標(biāo)準(zhǔn)化模塊,用于標(biāo)準(zhǔn)化處理待搜索關(guān)鍵詞得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量;模式識(shí)別模塊,用于依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量, 由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。所述預(yù)處理模塊包括切詞單元,切詞單元,用于對(duì)用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。所述預(yù)處理模塊進(jìn)一步包括修改單元,修改單元,用于當(dāng)所述用戶輸入的關(guān)鍵詞長(zhǎng)度超過預(yù)先設(shè)置的閾值長(zhǎng)度,修改所述用戶輸入的關(guān)鍵詞;所述切詞單元,進(jìn)一步用于對(duì)所述修改單元輸出的用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。所述標(biāo)準(zhǔn)化模塊包括查詢單元、對(duì)齊單元和處理單元,查詢單元,用于查詢國(guó)標(biāo)碼庫將所述待搜索關(guān)鍵詞轉(zhuǎn)換為所述數(shù)字向量;對(duì)齊單元,用于對(duì)齊處理所述數(shù)字向量;處理單元,用于對(duì)所述對(duì)齊處理后的數(shù)字向量向后進(jìn)行零均值處理和歸一化處理得到所述特征向量。所述模式識(shí)別模塊包括模式識(shí)別單元和搜索單元,模式識(shí)別單元,用于依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別與原型向量數(shù)據(jù)庫中的原型向量匹配得到所述序參量;搜索單元,用于由所述序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。所述模式識(shí)別模塊進(jìn)一步包括分組單元和控制單元,分組單元,用于根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類;模式識(shí)別單元,進(jìn)一步用于依據(jù)所述特征向量采用協(xié)同神經(jīng)模式識(shí)別與每個(gè)子類中的原型向量匹配,得到所述序參量;控制單元,用于當(dāng)所述序參量等于1,由所述序參量直接在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞;當(dāng)所述序參量小于1,由大于預(yù)先設(shè)置閾值的所述序參量在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。從上述技術(shù)方案中可以看出,在本發(fā)明實(shí)施例中,首先預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;然后將待搜索關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化處理得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量;依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量,由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。由于利用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別用戶輸入的關(guān)鍵詞得到序參量,再由序參量在數(shù)據(jù)庫中獲取用戶輸入的關(guān)鍵詞對(duì)應(yīng)的最佳關(guān)鍵詞。因而可以提高關(guān)鍵詞搜索的精確性。
圖1為本發(fā)明實(shí)施例搜索方法的流程示意圖;圖2為本發(fā)明實(shí)施例預(yù)處理用戶輸入的關(guān)鍵詞的流程示意圖;圖3為本發(fā)明實(shí)施例標(biāo)準(zhǔn)化數(shù)字向量的流程示意圖;圖4為本發(fā)明實(shí)施例協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別的流程示意圖;圖5為本發(fā)明實(shí)施例改進(jìn)后的協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別的流程示意圖;圖6為本發(fā)明實(shí)施例搜索裝置的結(jié)構(gòu)示意圖;圖7為本發(fā)明實(shí)施例的實(shí)驗(yàn)效果對(duì)比圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)表達(dá)得更加清楚明白,下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明再作進(jìn)一步詳細(xì)的說明。在本發(fā)明實(shí)施例中,先預(yù)處理用戶輸入的關(guān)鍵詞,以便進(jìn)行標(biāo)準(zhǔn)化處理。將關(guān)鍵詞轉(zhuǎn)換為數(shù)字的特征向量,為采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別奠定基礎(chǔ)。依據(jù)特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到獲取最佳關(guān)鍵詞,進(jìn)而提高了關(guān)鍵詞搜索的精確性。參見附圖1是本發(fā)明搜索方法的流程示意圖,具體包括以下步驟步驟101、預(yù)處理用戶輸入的關(guān)鍵詞。用戶輸入的關(guān)鍵詞后,需要對(duì)該關(guān)鍵詞進(jìn)行預(yù)處理,得到待搜索關(guān)鍵詞。步驟101 的具體實(shí)現(xiàn)過程參見附圖2,包括步驟201至203。參見附圖2是預(yù)處理用戶輸入的關(guān)鍵詞流程示意圖,包括步驟201、判斷用戶輸入的關(guān)鍵詞是否超出閾值長(zhǎng)度。用戶輸入的關(guān)鍵詞若超出閾值長(zhǎng)度則執(zhí)行步驟202,否則執(zhí)行步驟203。步驟202、長(zhǎng)度限度處理。當(dāng)用戶輸入的關(guān)鍵詞超過閾值長(zhǎng)度,需要從用戶輸入的關(guān)鍵詞中獲取閾值長(zhǎng)度的關(guān)鍵詞得到修改后關(guān)鍵詞。即首先去掉用戶輸入的關(guān)鍵詞中的特殊字符,然后取從第一個(gè)字符開始的閾值長(zhǎng)度的子串,該子串記為修改后關(guān)鍵詞。取子串是現(xiàn)有技術(shù),閾值長(zhǎng)度是根據(jù)具體情況預(yù)先設(shè)置的,本文不再贅述。步驟203、切詞處理。對(duì)用戶輸入的關(guān)鍵詞或修改后關(guān)鍵詞進(jìn)行切詞處理,將上述關(guān)鍵詞分割成適合于搜索引擎特征的關(guān)鍵詞即待搜索關(guān)鍵詞。切詞處理過程是現(xiàn)有技術(shù),本文不再贅述。步驟102、標(biāo)準(zhǔn)化數(shù)字向量。待搜索關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化處理得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量。將關(guān)鍵詞轉(zhuǎn)換為其對(duì)應(yīng)的特征向量,為精確搜索做準(zhǔn)備。參見附圖3是標(biāo)準(zhǔn)化數(shù)字向量的流程示意圖,包括步驟301至步驟304。步驟301、查詢國(guó)標(biāo)碼庫。通過查詢國(guó)標(biāo)碼庫將步驟101獲得的待搜索關(guān)鍵詞轉(zhuǎn)換為其對(duì)應(yīng)的數(shù)字向量。另外,由于在實(shí)際應(yīng)用過程中,對(duì)于英文、中文、韓文、日文以及其它語言都可以通過查詢國(guó)標(biāo)碼庫得到其所對(duì)應(yīng)的數(shù)字向量,因此本發(fā)明的技術(shù)方案可以適用于多種語言,從而提高利用多種語言關(guān)鍵詞搜索的精確性。步驟302、對(duì)齊處理。為了統(tǒng)一待搜索鍵詞對(duì)應(yīng)的數(shù)字向量維數(shù),需要對(duì)齊處理。在處理數(shù)字向量的時(shí)候,由計(jì)數(shù)器記錄數(shù)字向量的最大維數(shù)N,其他數(shù)字向量通過隨機(jī)數(shù)達(dá)到維數(shù)N,使得所有的數(shù)字向量的維數(shù)相同。數(shù)字向量有如下表示,表示關(guān)鍵詞文字的國(guó)標(biāo)碼.V4表示數(shù)字向量。
權(quán)利要求
1.一種搜索方法,其特征在于,該方法包括 預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;將待搜索關(guān)鍵詞對(duì)應(yīng)的數(shù)字向量進(jìn)行標(biāo)準(zhǔn)化處理得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量;依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量,由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述搜索方法,其特征在于,所述預(yù)處理包括,對(duì)所述用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。
3.根據(jù)權(quán)利要求2所述搜索方法,其特征在于,當(dāng)所述用戶輸入的關(guān)鍵詞長(zhǎng)度超過預(yù)先設(shè)置的閾值長(zhǎng)度,所述預(yù)處理進(jìn)一步包括,修改所述用戶輸入的關(guān)鍵詞;然后,對(duì)修改后的關(guān)鍵詞進(jìn)行切詞處理。
4.根據(jù)權(quán)利要求1所述搜索方法,其特征在于,所述標(biāo)準(zhǔn)化處理包括,查詢國(guó)標(biāo)碼庫將所述待搜索關(guān)鍵詞轉(zhuǎn)換為數(shù)字向量;對(duì)所述數(shù)字向量進(jìn)行對(duì)齊處理后,再進(jìn)行零均值處理和歸一化處理得到所述特征向量。
5.根據(jù)權(quán)利要求1所述搜索方法,其特征在于,所述依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量包括依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別與原型向量數(shù)據(jù)庫中的原型向量匹配,得到所述序參量。
6.根據(jù)權(quán)利要求1所述搜索方法,其特征在于,所述依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式得到序參量包括,根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類,依據(jù)所述特征向量采用協(xié)同神經(jīng)模式識(shí)別與每個(gè)子類中的原型向量匹配, 得到所述序參量。
7.根據(jù)權(quán)利要求6所述搜索方法,其特征在于,所述根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類包括,所述原型向量的維數(shù)與所述特征向量的維數(shù)的比值向上取整為所述子類的數(shù)目。
8.根據(jù)權(quán)利要求6所述搜索方法,其特征在于,當(dāng)所述序參量等于1,所述由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞包括,由所述序參量直接在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。
9.根據(jù)權(quán)利要求6所述搜索方法,其特征在于,當(dāng)所述序參量小于1,所述由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞包括,由大于預(yù)先設(shè)置閾值的所述序參量在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。
10.一種搜索裝置,其特征在于,包括預(yù)處理模塊、標(biāo)準(zhǔn)化模塊和模式識(shí)別模塊, 預(yù)處理模塊,用于預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;標(biāo)準(zhǔn)化模塊,用于標(biāo)準(zhǔn)化處理待搜索關(guān)鍵詞得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量; 模式識(shí)別模塊,用于依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量,由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。
11.根據(jù)權(quán)利要求10所述搜索裝置,其特征在于,所述預(yù)處理模塊包括切詞單元, 切詞單元,用于對(duì)用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。
12.根據(jù)權(quán)利要求11所述搜索裝置,其特征在于,所述預(yù)處理模塊進(jìn)一步包括修改單元,修改單元,用于當(dāng)所述用戶輸入的關(guān)鍵詞長(zhǎng)度超過預(yù)先設(shè)置的閾值長(zhǎng)度,修改所述用戶輸入的關(guān)鍵詞;所述切詞單元,進(jìn)一步用于對(duì)所述修改單元輸出的用戶輸入的關(guān)鍵詞進(jìn)行切詞處理。
13.根據(jù)權(quán)利要求10所述搜索裝置,其特征在于,所述標(biāo)準(zhǔn)化模塊包括查詢單元、對(duì)齊單元和處理單元,查詢單元,用于查詢國(guó)標(biāo)碼庫將所述待搜索關(guān)鍵詞轉(zhuǎn)換為所述數(shù)字向量;對(duì)齊單元,用于對(duì)齊處理所述數(shù)字向量;處理單元,用于對(duì)所述對(duì)齊處理后的數(shù)字向量向后進(jìn)行零均值處理和歸一化處理得到所述特征向量。
14.根據(jù)權(quán)利要求10所述搜索裝置,其特征在于,所述模式識(shí)別模塊包括模式識(shí)別單元和搜索單元,模式識(shí)別單元,用于依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別與原型向量數(shù)據(jù)庫中的原型向量匹配得到所述序參量;搜索單元,用于由所述序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。
15.根據(jù)權(quán)利要求14所述搜索裝置,其特征在于,所述模式識(shí)別模塊進(jìn)一步包括分組單元和控制單元,分組單元,用于根據(jù)所述特征向量的維數(shù)將原型向量數(shù)據(jù)庫的原型向量的維數(shù)分為多個(gè)子類;模式識(shí)別單元,進(jìn)一步用于依據(jù)所述特征向量采用協(xié)同神經(jīng)模式識(shí)別與每個(gè)子類中的原型向量匹配,得到所述序參量;控制單元,用于當(dāng)所述序參量等于1,由所述序參量直接在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞;當(dāng)所述序參量小于1,由大于預(yù)先設(shè)置閾值的所述序參量在數(shù)據(jù)庫中獲取所述最佳關(guān)鍵詞。
全文摘要
一種搜索方法,該方法包括預(yù)處理用戶輸入的關(guān)鍵詞,得到待搜索關(guān)鍵詞;將待搜索關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化處理得到待搜索關(guān)鍵詞對(duì)應(yīng)的特征向量;依據(jù)所述特征向量采用協(xié)同神經(jīng)網(wǎng)絡(luò)模式識(shí)別得到序參量,由序參量在數(shù)據(jù)庫中獲取最佳關(guān)鍵詞。本文還公開了一種搜索裝置。應(yīng)用本發(fā)明實(shí)施例以后,提高了關(guān)鍵詞搜索的精確性。
文檔編號(hào)G06F17/30GK102402561SQ201010287639
公開日2012年4月4日 申請(qǐng)日期2010年9月19日 優(yōu)先權(quán)日2010年9月19日
發(fā)明者王全禮, 肖巍, 鐘延輝 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)四川有限公司