1.一種搜索詞糾錯方法,其特征在于,包括:
識別出錯誤的搜索詞;
利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從搜索詞轉(zhuǎn)換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數(shù)值的權(quán)重;
根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,包括:
定義狀態(tài)轉(zhuǎn)移方程,用于表示所述搜索詞與熱詞之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示搜索詞和熱詞之間對應位置的字符;
根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解;
根據(jù)所述狀態(tài)轉(zhuǎn)移方程的解,得到所述加權(quán)編輯距離。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述狀態(tài)轉(zhuǎn)移方程為:
其中,i、j為所述兩個狀態(tài)量,f(i,j)為操作代價值,f(i,j)根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,得到各權(quán)重對應的代價值。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,還包括:
通過查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。
5.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,還包括:
設置各操作權(quán)重滿足如下關(guān)系:
形近字或音近字的替換操作權(quán)重<交換字符操作權(quán)重<插入字符操作權(quán)重=刪除字符操作權(quán)重=非形近字或音近字的替換操作權(quán)重。
6.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述識別出錯誤的搜索詞,包括:
基于搜索日志,解析或計算出待識別搜索詞的搜索點擊率、詞特征、出現(xiàn)概率、全匹配結(jié)果數(shù)和全匹配占比;
根據(jù)待識別搜索詞的所述搜索點擊率、所述詞特征、所述出現(xiàn)概率、所述全匹配結(jié)果數(shù)和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。
7.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示,包括:
將熱詞搜索次數(shù)進行歸一化處理;
根據(jù)所述加權(quán)編輯距離與熱詞搜索次數(shù)歸一化處理結(jié)果,計算推薦綜合得分;
選擇推薦綜合得分最高且所述加權(quán)編輯距離小于預定值的預定數(shù)目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
8.一種加權(quán)編輯距離計算方法,其特征在于,包括:
獲取源字符串和目標字符串;
計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從所述源字符串轉(zhuǎn)換到所述目標字符串的不同操作分別設置不同數(shù)值的權(quán)重。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,包括:
定義狀態(tài)轉(zhuǎn)移方程,用于表示所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示源字符串和所述目標字符串之間對應位置的字符;
根據(jù)為不同操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解;
根據(jù)所述狀態(tài)轉(zhuǎn)移方程的解,得到所述加權(quán)編輯距離。
10.一種搜索詞糾錯裝置,其特征在于,包括:
錯誤搜索詞識別單元,用于識別出錯誤的搜索詞;
加權(quán)編輯距離計算單元,用于利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從搜索詞轉(zhuǎn)換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數(shù)值的權(quán)重;
糾錯提示單元,用于根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述加權(quán)編輯距離計算單元包括:
狀態(tài)轉(zhuǎn)移方程定義子單元,用于定義狀態(tài)轉(zhuǎn)移方程,用于表示所述搜索詞與熱詞之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示搜索詞和熱詞之間對應位置的字符;
方程求解子單元,用于根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解,作為所述加權(quán)編輯距離。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述狀態(tài)轉(zhuǎn)移方程為:
其中,i、j為所述兩個狀態(tài)量,f(i,j)為操作代價值,f(i,j)根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,得到各權(quán)重對應的代價值。
13.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,還包括:
形近字或音近字確定單元,用于查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。
14.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,還包括:
操作權(quán)重設置單元,用于設置各操作權(quán)重滿足如下關(guān)系:
形近字或音近字的替換操作權(quán)重<交換字符操作權(quán)重<插入字符操作權(quán)重=刪除字符操作權(quán)重=非形近字或音近字的替換操作權(quán)重。
15.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,所述錯誤搜索詞識別單元包括:
日志查找及計算子單元,用于基于搜索日志,解析或計算出待識別搜索詞的搜索點擊率、詞特征、出現(xiàn)概率、全匹配結(jié)果數(shù)和全匹配占比;
識別結(jié)果確定子單元,用于根據(jù)待識別搜索詞的所述搜索點擊率、所述詞特征、所述出現(xiàn)概率、所述全匹配結(jié)果數(shù)和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。
16.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,所述糾錯提示單元包括:
歸一化處理子單元,用于將熱詞搜索次數(shù)進行歸一化處理;
推薦綜合得分計算子單元,用于根據(jù)所述加權(quán)編輯距離與熱詞搜索次數(shù)歸一化處理結(jié)果,計算推薦綜合得分;
推薦詞確定子單元,用于選擇推薦綜合得分最高且所述加權(quán)編輯距離小于預定值的預定數(shù)目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
17.一種加權(quán)編輯距離計算裝置,其特征在于,包括:
獲取單元,用于獲取源字符串和目標字符串;
計算單元,用于計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從所述源字符串轉(zhuǎn)換到所述目標字符串的不同操作分別設置不同數(shù)值的權(quán)重。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述計算單元包括:
狀態(tài)轉(zhuǎn)移方程定義子單元,用于定義狀態(tài)轉(zhuǎn)移方程,用于表示所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示源字符串和所述目標字符串之間對應位置的字符;
狀態(tài)轉(zhuǎn)移方程求解子單元,用于根據(jù)為不同操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解,作為所述加權(quán)編輯距離。