亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索詞糾錯方法及裝置與流程

文檔序號:12598818閱讀:來源:國知局

技術(shù)特征:

1.一種搜索詞糾錯方法,其特征在于,包括:

識別出錯誤的搜索詞;

利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從搜索詞轉(zhuǎn)換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數(shù)值的權(quán)重;

根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,包括:

定義狀態(tài)轉(zhuǎn)移方程,用于表示所述搜索詞與熱詞之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示搜索詞和熱詞之間對應位置的字符;

根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解;

根據(jù)所述狀態(tài)轉(zhuǎn)移方程的解,得到所述加權(quán)編輯距離。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述狀態(tài)轉(zhuǎn)移方程為:

其中,i、j為所述兩個狀態(tài)量,f(i,j)為操作代價值,f(i,j)根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,得到各權(quán)重對應的代價值。

4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,還包括:

通過查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。

5.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,還包括:

設置各操作權(quán)重滿足如下關(guān)系:

形近字或音近字的替換操作權(quán)重<交換字符操作權(quán)重<插入字符操作權(quán)重=刪除字符操作權(quán)重=非形近字或音近字的替換操作權(quán)重。

6.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述識別出錯誤的搜索詞,包括:

基于搜索日志,解析或計算出待識別搜索詞的搜索點擊率、詞特征、出現(xiàn)概率、全匹配結(jié)果數(shù)和全匹配占比;

根據(jù)待識別搜索詞的所述搜索點擊率、所述詞特征、所述出現(xiàn)概率、所述全匹配結(jié)果數(shù)和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。

7.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示,包括:

將熱詞搜索次數(shù)進行歸一化處理;

根據(jù)所述加權(quán)編輯距離與熱詞搜索次數(shù)歸一化處理結(jié)果,計算推薦綜合得分;

選擇推薦綜合得分最高且所述加權(quán)編輯距離小于預定值的預定數(shù)目的熱詞,作為糾錯的推薦詞,進行糾錯提示。

8.一種加權(quán)編輯距離計算方法,其特征在于,包括:

獲取源字符串和目標字符串;

計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從所述源字符串轉(zhuǎn)換到所述目標字符串的不同操作分別設置不同數(shù)值的權(quán)重。

9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,包括:

定義狀態(tài)轉(zhuǎn)移方程,用于表示所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示源字符串和所述目標字符串之間對應位置的字符;

根據(jù)為不同操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解;

根據(jù)所述狀態(tài)轉(zhuǎn)移方程的解,得到所述加權(quán)編輯距離。

10.一種搜索詞糾錯裝置,其特征在于,包括:

錯誤搜索詞識別單元,用于識別出錯誤的搜索詞;

加權(quán)編輯距離計算單元,用于利用加權(quán)編輯距離算法,計算所述搜索詞與預先獲取的熱詞之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從搜索詞轉(zhuǎn)換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數(shù)值的權(quán)重;

糾錯提示單元,用于根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預定數(shù)目的熱詞進行糾錯提示。

11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述加權(quán)編輯距離計算單元包括:

狀態(tài)轉(zhuǎn)移方程定義子單元,用于定義狀態(tài)轉(zhuǎn)移方程,用于表示所述搜索詞與熱詞之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示搜索詞和熱詞之間對應位置的字符;

方程求解子單元,用于根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解,作為所述加權(quán)編輯距離。

12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述狀態(tài)轉(zhuǎn)移方程為:

其中,i、j為所述兩個狀態(tài)量,f(i,j)為操作代價值,f(i,j)根據(jù)為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數(shù)值的權(quán)重,得到各權(quán)重對應的代價值。

13.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,還包括:

形近字或音近字確定單元,用于查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。

14.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,還包括:

操作權(quán)重設置單元,用于設置各操作權(quán)重滿足如下關(guān)系:

形近字或音近字的替換操作權(quán)重<交換字符操作權(quán)重<插入字符操作權(quán)重=刪除字符操作權(quán)重=非形近字或音近字的替換操作權(quán)重。

15.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,所述錯誤搜索詞識別單元包括:

日志查找及計算子單元,用于基于搜索日志,解析或計算出待識別搜索詞的搜索點擊率、詞特征、出現(xiàn)概率、全匹配結(jié)果數(shù)和全匹配占比;

識別結(jié)果確定子單元,用于根據(jù)待識別搜索詞的所述搜索點擊率、所述詞特征、所述出現(xiàn)概率、所述全匹配結(jié)果數(shù)和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。

16.根據(jù)權(quán)利要求10-12任一項所述的裝置,其特征在于,所述糾錯提示單元包括:

歸一化處理子單元,用于將熱詞搜索次數(shù)進行歸一化處理;

推薦綜合得分計算子單元,用于根據(jù)所述加權(quán)編輯距離與熱詞搜索次數(shù)歸一化處理結(jié)果,計算推薦綜合得分;

推薦詞確定子單元,用于選擇推薦綜合得分最高且所述加權(quán)編輯距離小于預定值的預定數(shù)目的熱詞,作為糾錯的推薦詞,進行糾錯提示。

17.一種加權(quán)編輯距離計算裝置,其特征在于,包括:

獲取單元,用于獲取源字符串和目標字符串;

計算單元,用于計算所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在所述加權(quán)編輯距離計算過程中,針對從所述源字符串轉(zhuǎn)換到所述目標字符串的不同操作分別設置不同數(shù)值的權(quán)重。

18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述計算單元包括:

狀態(tài)轉(zhuǎn)移方程定義子單元,用于定義狀態(tài)轉(zhuǎn)移方程,用于表示所述源字符串和所述目標字符串之間的加權(quán)編輯距離,其中,在狀態(tài)轉(zhuǎn)移方程中定義兩個狀態(tài)量,用于分別表示源字符串和所述目標字符串之間對應位置的字符;

狀態(tài)轉(zhuǎn)移方程求解子單元,用于根據(jù)為不同操作所設置的不同數(shù)值的權(quán)重,求解所述狀態(tài)轉(zhuǎn)移方程在相應操作的解,作為所述加權(quán)編輯距離。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1