本發(fā)明涉及計算機網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域,具體涉及一種對查詢詞提供校正建議的方法和裝置、以及一種構(gòu)建概率詞典的方法。
背景技術(shù):
目前搜索引擎已經(jīng)成為人們查詢信息獲取知識的重要來源,使用搜索引擎的主要方式為在搜索框輸入查詢詞進行搜索,而查詢詞的質(zhì)量好壞直接影響搜索結(jié)果。在搜索框輸入查詢詞時,主要是通過鍵盤進行輸入,在通過鍵盤輸入查詢詞時,往往會因為用戶的指法錯誤或用戶的粗心大意而造成輸入錯誤。例如,在使用拼音輸入法輸入漢字時,當拼寫字符串對應(yīng)多個可選字詞時,用戶可能會因選字選詞錯誤而輸入了錯誤的查詢詞;再例如,在用戶輸入英文查詢詞時,可能會因拼寫輸入錯誤而輸入了錯誤的查詢詞。為了提升用戶體驗,提高用戶查詢質(zhì)量,搜索引擎為用戶提供了查詢詞的校正功能。搜索引擎的查詢詞校正是指:用戶在搜索引擎的搜索框輸入查詢詞,搜索引擎的后臺校正系統(tǒng)通過相應(yīng)算法流程,發(fā)現(xiàn)用戶輸入的查詢詞可能存在錯誤,搜索引擎的前端在獲取查詢詞的同時,給出若干個校正建議詞。
目前常用的一種查詢校正的方法是基于校正詞典實現(xiàn)的,基于校正詞典實現(xiàn)查詢校正的方法的過程如下:搜集用戶的查詢?nèi)罩荆崛〔樵內(nèi)罩局杏涊d的查詢-校正點擊對(查詢-校正點擊對是指:用戶在搜索框輸入查詢詞時點擊輸入了查詢詞對應(yīng)的校正建議詞,則查詢詞與對應(yīng)的校正建議詞稱為查詢-校正點擊對);統(tǒng)計同一查詢-校正點擊對的數(shù)量,如果同一查詢-校正點擊對的數(shù)量超過預設(shè)數(shù)量閾值,則確定將超過預設(shè)數(shù)量閾值的查詢-校正點擊對存儲在校正詞典中,其中,校正詞典以查詢詞為鍵,以校正建議詞為值;獲取用戶當前在搜索框輸入的查詢詞;查看獲取的查詢詞是否在校正詞典中; 如果在校正詞典中,則將校正詞典中與獲取的查詢詞對應(yīng)的校正建議詞展示給用戶。
現(xiàn)有基于校正詞典實現(xiàn)查詢校正的方法,存在以下缺陷:
1)該方法將用戶的查詢?nèi)罩咀鳛橛柧氄Z料得到校正詞典,但用戶的查詢?nèi)罩具@種訓練語料數(shù)量有限,訓練出來的校正詞典中包含的校正建議詞比較稀疏,存在大量需要校正的錯誤輸入無法找到匹配的查詢-校正點擊對的情況,因此,這種方法的召回率比較低。
2)該方法所采用的查詢-校正點擊對是系統(tǒng)依據(jù)用戶選擇而建立的,缺乏足夠的數(shù)據(jù)支撐與驗證,因此,這種方法的準確率也比較低。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明提供了一種對查詢詞提供校正建議的方法和裝置,并提供了一種構(gòu)建概率詞典的方法,旨在提高對查詢詞進行校正的準確率、召回率。
為了解決上述問題,本發(fā)明公開了一種對查詢詞提供校正建議的方法,所述方法包括:
獲取用戶輸入的所述查詢詞;
將所述查詢詞與預設(shè)概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各所述校正建議詞的出現(xiàn)概率;其中,所述預設(shè)概率詞典中存儲有從網(wǎng)頁語料庫和用戶查詢詞語料庫中得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率;
根據(jù)每個所述校正建議詞的出現(xiàn)概率,按照預定規(guī)則對校正建議詞進行篩選;
將經(jīng)篩選的所述校正建議詞顯示給用戶供選擇。
為了解決本發(fā)明的技術(shù)問題,本發(fā)明還公開了一種構(gòu)建概率詞典的方法,所述方法包括:
收集網(wǎng)頁作為網(wǎng)頁語料庫,收集用戶輸入的查詢詞作為用戶查詢詞語料庫;
統(tǒng)計并計算在所述網(wǎng)頁語料庫和所述用戶查詢詞語料庫中各文字的出現(xiàn)概率;統(tǒng)計并計算在所述網(wǎng)頁語料庫和所述用戶查詢詞語料庫中各文字組合的出現(xiàn)概率;
將得到的所述各文字的出現(xiàn)概率以及所述各文字組合的出現(xiàn)概率相對應(yīng)地存儲在所述概率詞典中。
為了解決本發(fā)明的技術(shù)問題,本發(fā)明還公開了一種對查詢詞提供校正建議的裝置,所述裝置包括:
第一獲取模塊,用于獲取用戶輸入的所述查詢詞;
第二獲取模塊,用于將所述查詢詞與預設(shè)概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各所述校正建議詞的出現(xiàn)概率;其中,所述預設(shè)概率詞典中存儲有從網(wǎng)頁語料庫和用戶查詢詞語料庫中得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率;
選取模塊,用于根據(jù)每個所述校正建議詞的出現(xiàn)概率,按照預定規(guī)則對校正建議詞進行篩選;
顯示模塊,用于將經(jīng)篩選的所述校正建議詞顯示給用戶供選擇。
與現(xiàn)有技術(shù)相比,本發(fā)明可以獲得以下技術(shù)效果:
1)預設(shè)概率詞典是基于網(wǎng)頁語料庫和用戶查詢詞語料庫構(gòu)建的,預設(shè)概率詞典中存儲的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率也是基于對網(wǎng)頁語料庫和用戶查詢詞語料庫的統(tǒng)計、計算得到的。由于網(wǎng)頁語料庫的龐大的數(shù)據(jù)量幾乎可以涵蓋可能出現(xiàn)的文字和文字組合,因此,可以很好的保證本發(fā)明相比于現(xiàn)有技術(shù)的更好的召回率。
2)本發(fā)明采用的預設(shè)概率詞典還基于用戶查詢詞語料庫進行統(tǒng)計和計算,得到文字和文字組合的出現(xiàn)概率。由于用戶查詢詞語料庫能很好的反映用戶的實際搜索需求,從而能更準確的校正用戶的輸入錯誤,相比于現(xiàn)有技術(shù)提高了校正的準確率。并且,由于用戶查詢詞語料庫一般包括了最近的新詞、流行詞,也能夠?qū)﹀e誤的新詞、熱門詞進行正確校正,在提供準確率的同時,也具有較高的時效性。
3)通過相鄰兩字的文字組合的概率統(tǒng)計方法,逐字計算文字的出現(xiàn)概率, 從而提高了校正建議詞的獲取的準確性,降低了誤糾率,提升了用戶體驗。
4)在實施對查詢詞提供校正建議的方法時,可構(gòu)建包含有音節(jié)節(jié)點和音節(jié)邊的音節(jié)圖。根據(jù)音節(jié)圖,從預設(shè)概率詞典中獲取與查詢詞對應(yīng)的校正建議詞。由于音節(jié)圖由多個音節(jié)節(jié)點和多個音節(jié)邊組成,每個音節(jié)邊表示查詢詞對應(yīng)的拼寫的一種音節(jié)組合,從而可以實現(xiàn)將查詢詞對應(yīng)的拼寫的各種音節(jié)組合進行遍歷得到與查詢詞對應(yīng)的校正建議詞,增加了校正建議的全面性和準確性,可以進一步提高召回率和準確率。
當然,實施本發(fā)明的任一產(chǎn)品必不一定需要同時達到以上所述的技術(shù)效果。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1是本發(fā)明實施例的第一種對查詢詞提供校正建議的方法流程圖;
圖2是本發(fā)明實施例的一種音節(jié)圖的示意圖;
圖3是本發(fā)明實施例的第二種對查詢詞提供校正建議的方法流程圖;
圖4是本發(fā)明實施例的一種音節(jié)分割圖的示意圖;
圖5是本發(fā)明實施例的第三種對查詢詞提供校正建議的方法流程圖;
圖6是本發(fā)明實施例的第四種對查詢詞提供校正建議的方法流程圖;
圖7是本發(fā)明實施例的一種表示音節(jié)組合出現(xiàn)順序的示意圖;
圖8是本發(fā)明實施例的一種校正建議詞的搜索路徑示意圖;
圖9是本發(fā)明實施例的第五種對查詢詞提供校正建議的方法流程圖;
圖10是本發(fā)明實施例的第六種對查詢詞提供校正建議的方法流程圖;
圖11是本發(fā)明實施例的第七種對查詢詞提供校正建議的方法流程圖;
圖12是本發(fā)明實施例的第八種對查詢詞提供校正建議的方法流程圖;
圖13是本發(fā)明實施例的一種構(gòu)建概率詞典的方法流程圖;
圖14是本發(fā)明實施例的第一種對查詢詞提供校正建議的裝置結(jié)構(gòu)示意圖;
圖15是本發(fā)明實施例的第二種對查詢詞提供校正建議的裝置結(jié)構(gòu)示意圖;
圖16是本發(fā)明實施例的第三種對查詢詞提供校正建議的裝置結(jié)構(gòu)示意圖;
圖17是本發(fā)明實施例的第九種對查詢詞提供校正建議的方法流程圖;
圖18是本發(fā)明實施例的第四種對查詢詞提供校正建議的裝置結(jié)構(gòu)示意圖。
具體實施方式
以下將配合附圖及實施例來詳細說明本發(fā)明的實施方式,藉此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題并達成技術(shù)功效的實現(xiàn)過程能充分理解并據(jù)以實施。
圖1為本發(fā)明實施例的一種對查詢詞提供校正建議的方法流程圖,該方法包括:
s101:獲取用戶輸入的查詢詞。
具體地,用戶在搜索框輸入查詢詞進行搜索時,獲取用戶當前輸入的查詢詞,例如:用戶用拼音輸入法輸入,獲取用戶當前輸入的查詢詞“清華2009年”。
s103:將查詢詞與預設(shè)概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各校正建議詞的出現(xiàn)概率。
其中,預設(shè)概率詞典中存儲有從網(wǎng)頁語料庫和用戶查詢詞語料庫中得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率。
具體地,本實施例可預先通過網(wǎng)頁語料庫和用戶查詢詞語料庫得到預設(shè)概率詞典。具體方法參見圖13。
具體地,校正建議詞可以是單詞、單詞組合、漢字、漢字組合、組合詞、 和/或短語等。
s104:根據(jù)每個校正建議詞的出現(xiàn)概率,按照預定規(guī)則對校正建議詞進行篩選。
具體地,預定規(guī)則可以根據(jù)情況設(shè)定,對此不作限制。例如:可以設(shè)定為出現(xiàn)概率的閾值,即出現(xiàn)概率大于該閾值的校正建議詞才作為校正建議詞給出;也可以設(shè)定為預設(shè)差距閾值,對出現(xiàn)概率遠小于其他校正建議詞的校正建議詞直接刪除,不作為校正建議詞給出;還可以設(shè)定為只將出現(xiàn)概率比用戶實際輸入的查詢詞更大的校正建議詞作為校正建議詞給出。
除此之外,對校正建議詞的選取可以設(shè)定選取的個數(shù),將預設(shè)個校正建議詞作為與查詢詞對應(yīng)的校正建議詞。預設(shè)個的取值可以根據(jù)實際情況進行設(shè)置,如可以設(shè)置為2個、5個、10個等,對此不做限定,本實施例其他有關(guān)預設(shè)個的地方與此處類似,不再一一贅述。
s105:將經(jīng)篩選的校正建議詞顯示給用戶供選擇。
具體地,如果用戶輸入確實有誤,可以直接選擇校正建議詞進行新的搜索。將經(jīng)篩選的校正建議詞顯示給用戶供選擇時,優(yōu)選僅將預設(shè)個校正建議詞顯示給用戶供選擇。
作為本實施例的一優(yōu)選實施例,如圖17所示,在步驟s101之后,在步驟s103之前,該方法還包括:
s102:依照查詢詞對應(yīng)的拼寫字符串,構(gòu)建查詢詞的音節(jié)圖。
其中,音節(jié)圖由音節(jié)節(jié)點和音節(jié)邊組成,音節(jié)邊表示查詢詞對應(yīng)的拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合,音節(jié)節(jié)點表示拼寫字符串的分割位置。
例如:圖2所示為通過查詢詞“清華2009年”對應(yīng)的拼寫字符串“qinghua2009nian”構(gòu)建得到的音節(jié)圖。在輸入的查詢詞為漢字時,拼寫字符串具體表現(xiàn)為拼音字符串,分割音節(jié)組合時也就相應(yīng)地按照拼音規(guī)則進行分割。
在本實施例的又一優(yōu)選實施例中,在步驟s101之后,步驟s102之前,還包括:
對用戶當前輸入的查詢詞進行預處理;其中,預處理包括以下處理方式中的一種或多種:大小寫統(tǒng)一轉(zhuǎn)換為小寫、無效字符轉(zhuǎn)換為空格、刪除中文字符之間的空格、繁體中文轉(zhuǎn)換為簡體中文。
對查詢詞按照上述方式進行預處理后,方便后續(xù)的處理。
進一步地,在本實施例的一種優(yōu)選實施例中,參見圖3所示,上述查詢詞的音節(jié)圖可按照如下方法構(gòu)建,具體包括:
s102a:將拼寫字符串按照拼寫規(guī)則分割成音節(jié)組合;音節(jié)組合的開始位置和/或結(jié)束位置構(gòu)成拼寫字符串的分割位置。
具體地,針對查詢詞“清華2009年”,對應(yīng)的拼音字符串為“qinghua2009nian”。以“qinghua”這一字符串為例,按照拼音規(guī)則,可將該拼音字符串按照圖4所示方式分割。分割為音節(jié)組合“qing”、“hu”、“a”、“hua”。音節(jié)組合“qing”的開始位置為分割位置1、結(jié)束位置為分割位置2,音節(jié)組合“hu”的開始位置為分割位置2、結(jié)束位置為分割位置3,依此類推。如果查詢詞中包括了數(shù)字等,優(yōu)選不對這些數(shù)字進行分割。例如:參見圖2中的“2009”。
s102b:在拼寫字符串的各分割位置分別設(shè)置一個音節(jié)節(jié)點。
具體地,在圖2所示的音節(jié)圖中,在各分割位置均設(shè)置了一個音節(jié)節(jié)點。
s102c:將每一對相鄰的音節(jié)節(jié)點進行連線,形成音節(jié)邊;其中,一對相鄰的音節(jié)節(jié)點由音節(jié)組合的開始位置與結(jié)束位置分別對應(yīng)的音節(jié)節(jié)點構(gòu)成。
例如:參見圖2和圖4,音節(jié)組合“qing”對應(yīng)的音節(jié)邊由該音節(jié)組合的開始位置對應(yīng)的音節(jié)節(jié)點①與該音節(jié)組合的結(jié)束位置對應(yīng)的音節(jié)節(jié)點⑤連線構(gòu)成。
s102d:按照預設(shè)標注方法,在每個音節(jié)節(jié)點上標注一個標記;在每個音節(jié)邊上標注所對應(yīng)的音節(jié)組合,并將每個音節(jié)邊的方向標注為從音節(jié)組合的開始位置對應(yīng)的音節(jié)節(jié)點指向該音節(jié)組合的結(jié)束位置對應(yīng)的音節(jié)節(jié)點。
具體地,預設(shè)標注方法在音節(jié)節(jié)點上標注標記,可以是按照每個音節(jié)節(jié)點的先后順序,依次標注數(shù)字;也可以是根據(jù)音節(jié)節(jié)點對應(yīng)的音節(jié)組合的長度,每個音節(jié)節(jié)點上標注的數(shù)字為前一個音節(jié)節(jié)點上標注的數(shù)字與該音節(jié)節(jié) 點和前一個音節(jié)節(jié)點之間的音節(jié)邊對應(yīng)的音節(jié)組合的長度之和。
以圖2所示的音節(jié)圖為例,第一個音節(jié)節(jié)點上標注的數(shù)字為1,“qing”這個音節(jié)組合的長度是4,則第二個音節(jié)節(jié)點上標注的數(shù)字為5,依此類推,完成對音節(jié)節(jié)點的標注;在一對相鄰的音節(jié)節(jié)點①和⑤的連線對應(yīng)的音節(jié)邊上標注音節(jié)組合“qing”,依此類推,完成對音節(jié)節(jié)點的標注;將音節(jié)組合“qing”所在的音節(jié)邊的方向標注為從音節(jié)節(jié)點①指向音節(jié)節(jié)點⑤,依此類推,完成對音節(jié)邊的方向的標注。
下面以圖2所示音節(jié)圖為例,詳細描述實施以上實施例構(gòu)建出的音節(jié)圖。音節(jié)節(jié)點①與音節(jié)節(jié)點⑤連線得到音節(jié)邊,音節(jié)邊標注相應(yīng)的音節(jié)組合“qing”,音節(jié)節(jié)點⑤與音節(jié)節(jié)點⑦連線得到音節(jié)邊,音節(jié)邊標注相應(yīng)的音節(jié)組合“hu”,音節(jié)節(jié)點⑤與音節(jié)節(jié)點⑧連線得到音節(jié)邊,音節(jié)邊標注相應(yīng)的音節(jié)組合“hua”,音節(jié)節(jié)點⑦與音節(jié)節(jié)點⑧連線得到音節(jié)邊,音節(jié)邊標注相應(yīng)的音節(jié)組合“a”,音節(jié)節(jié)點⑧與音節(jié)節(jié)點
在本實施例中的預設(shè)概率詞典中存儲有從網(wǎng)頁語料庫和用戶查詢詞語料庫中分別得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率。從上述預設(shè)概率詞典中獲取與查詢詞對應(yīng)的校正建議詞以及各校正建議詞的出現(xiàn)概率的理論原理是這樣的:
假設(shè)校正建議詞s是由一連串共n個特定的文字w1、w2、...wn構(gòu)成的。也就是說,s可以表示成一連串共n個特定順序排列的文字組成的一個有意義的短語。這樣的話,對用戶輸入的查詢詞的校正建議,也就是給出與用戶輸入的查詢詞拼寫完全相同的其他可能出現(xiàn)的s。要計算s出現(xiàn)的可能性,也就是計算數(shù)學上所說的s的概率,用p(s)來表示。s這個序列的出現(xiàn)概率等于每一個文字的出現(xiàn)概率的乘積,即p(s)的計算公式為:
p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
其中,p(w1)表示第一個文字w1的出現(xiàn)概率;p(w2|w1)表示在已知第一個 文字w1的前提下,第二個文字w2的出現(xiàn)概率;依此類推,對于文字wn而言,需在已知它前面的文字的前提下,考慮文字wn的出現(xiàn)概率。
從上述描述即可知,各種可能性太多,無法實現(xiàn)計算。因此假定任意一個文字wi的出現(xiàn)概率只同它前面的一個文字wi-1有關(guān),于是,s的出現(xiàn)概率就變?yōu)椋?/p>
p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)
接下來的問題就是如何估計p(wi|wi-1)。估計p(wi|wi-1)的原理如下:統(tǒng)計語料庫中(wi-1,wi)組成的文字組合的出現(xiàn)概率p(wi-1,wi),以及文字wi-1本身在同樣范圍的語料庫中出現(xiàn)的概率p(wi-1),從而依照公式p(wi|wi-1)=p(wi-1,wi)/p(wi-1)計算得到已知前一個文字wi-1的前提下后一個文字wi的出現(xiàn)概率p(wi|wi-1)。
進一步地,如何統(tǒng)計網(wǎng)頁語料庫和用戶查詢詞語料庫中(wi-1,wi)組成的文字組合的出現(xiàn)概率p(wi-1,wi),以及文字wi-1本身在同樣范圍的語料庫中出現(xiàn)的概率p(wi-1)呢?
本實施例的一優(yōu)選實施例中,預設(shè)概率詞典中存儲的文字組合的出現(xiàn)概率,其中,文字組合由相鄰的兩個文字構(gòu)成。
例如:上述原理描述中的相鄰兩個文字(wi-1,wi)組成的文字組合。這一文字組合可能是自然語言中有實際意義的詞語、短語,也可能是沒有實際意義的。
在本實施例的一優(yōu)選實施例中,預設(shè)概率詞典中存儲的文字的出現(xiàn)概率由以下統(tǒng)計量計算得到:
第一統(tǒng)計量為文字在網(wǎng)頁語料庫中出現(xiàn)的次數(shù);
第二統(tǒng)計量為文字在用戶查詢詞語料庫中出現(xiàn)的次數(shù);
第三統(tǒng)計量為與文字對應(yīng)完全相同的字符串的文字在網(wǎng)頁語料庫中出現(xiàn)的次數(shù)的總和;
第四統(tǒng)計量為與文字對應(yīng)完全相同的字符串的文字在用戶查詢詞語料庫中出現(xiàn)的次數(shù)的總和。
將上述實施例中的第一統(tǒng)計量記為p1,第二統(tǒng)計量記為p2,第三統(tǒng)計 量記為p3,第四統(tǒng)計量記為p4。
在上述優(yōu)選實施例的基礎(chǔ)上,文字的出現(xiàn)概率可以用第一統(tǒng)計量與第二統(tǒng)計量的和除以第三統(tǒng)計量與第四統(tǒng)計量的和的計算結(jié)果得到,即按公式(p1+p2)/(p3+p4)計算得到。
在上述優(yōu)選實施例的基礎(chǔ)上,文字的出現(xiàn)概率也可優(yōu)選由第一統(tǒng)計量除以第三統(tǒng)計量的結(jié)果與第二統(tǒng)計量除以第四統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到,即將公式pw=a*p1/p3+b*p2/p4計算得到的結(jié)果作為文字的出現(xiàn)概率。其中,p1/p3表示文字在網(wǎng)頁語料庫中的出現(xiàn)概率,a表示文字在網(wǎng)頁語料庫中的出現(xiàn)概率的權(quán)重,p2/p4表示文字在用戶查詢詞語料庫中的出現(xiàn)概率,b表示文字在用戶查詢詞語料庫中的出現(xiàn)概率的權(quán)重。
上述公式pw=a*p1/p3+b*p2/p4實際計算出的pw表示某文字在拼寫相同的情況下在對應(yīng)語料庫中已經(jīng)出現(xiàn)的比例,該比例值pw可以用來預測該文字在用戶輸入的查詢詞中的出現(xiàn)概率。即認為,該文字在已有語料庫中出現(xiàn)得越多,在用戶進行新的查詢時出現(xiàn)的可能性就越大,反之亦然。
進一步地,一種優(yōu)選實施例在于,第一統(tǒng)計量除以第三統(tǒng)計量的結(jié)果所占的權(quán)重小于第二統(tǒng)計量除以第四統(tǒng)計量的結(jié)果所占的權(quán)重。
具體地,結(jié)合上述公式pw=a*p1/p3+b*p2/p4,可表示為a<b。通常,a+b的值也會不大于1。
在本實施例的又一優(yōu)選實施例中,預設(shè)概率詞典中存儲的文字組合的出現(xiàn)概率由以下統(tǒng)計量計算得到:
第五統(tǒng)計量為文字組合在網(wǎng)頁語料庫中出現(xiàn)的次數(shù);
第六統(tǒng)計量為文字組合在用戶查詢詞語料庫中出現(xiàn)的次數(shù);
第七統(tǒng)計量為網(wǎng)頁語料庫中經(jīng)過分詞去重處理后有意義的短語的總和;
第八統(tǒng)計量為用戶查詢詞語料庫中經(jīng)過分詞去重處理后有意義的短語的總和。
將上述實施例中的第五統(tǒng)計量記為p5,第六統(tǒng)計量記為p6,第七統(tǒng)計量記為p7,第八統(tǒng)計量記為p8。
在上述優(yōu)選實施例的基礎(chǔ)上,文字組合的出現(xiàn)概率可以用第五統(tǒng)計量與 第六統(tǒng)計量的和除以第七統(tǒng)計量與第八統(tǒng)計量的和的計算結(jié)果得到,即按公式(p5+p6)/(p7+p8)計算得到。
在上述優(yōu)選實施例的基礎(chǔ)上,文字組合的出現(xiàn)概率優(yōu)選由第五統(tǒng)計量除以第七統(tǒng)計量的結(jié)果與第六統(tǒng)計量除以第八統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到,即將公式pz=c*p5/p7+d*p6/p8計算得到的結(jié)果作為文字組合的出現(xiàn)概率。其中,p5/p7表示文字組合在網(wǎng)頁語料庫中的出現(xiàn)概率,c表示文字組合在網(wǎng)頁語料庫中的出現(xiàn)概率的權(quán)重,p6/p8表示文字組合在用戶查詢詞語料庫中的出現(xiàn)概率,d表示文字組合在用戶查詢詞語料庫中的出現(xiàn)概率的權(quán)重。
上述公式pz=c*p5/p7+d*p6/p8實際計算出的pz表示某文字組合在對應(yīng)語料庫中已經(jīng)出現(xiàn)的比例,該比例值pz可以用來預測該文字組合在用戶輸入的查詢詞中的出現(xiàn)概率。即認為,該文字組合在已有語料庫中出現(xiàn)得越多,在用戶進行新的查詢時出現(xiàn)的可能性就越大,反之亦然。
進一步地,又一種優(yōu)選實施例在于,第五統(tǒng)計量除以第七統(tǒng)計量的結(jié)果所占的權(quán)重小于第六統(tǒng)計量除以第八統(tǒng)計量的結(jié)果所占的權(quán)重。
具體地,結(jié)合上述公式pz=c*p5/p7+d*p6/p8,可表示為c<d。通常,c+d的值也會不大于1。
在本實施例的一優(yōu)選實施例中,參見圖5所示,s103從預設(shè)概率詞典中獲取與查詢詞對應(yīng)的校正建議詞,以及各校正建議詞的出現(xiàn)概率,可具體包括:
s103a:根據(jù)拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合出現(xiàn)的順序,確定音節(jié)圖中音節(jié)邊和音節(jié)節(jié)點的順序。
例如:在圖2所示的音節(jié)圖中,音節(jié)組合出現(xiàn)的順序參見圖7所示,在搜索時即可依據(jù)圖7中箭頭所示方向進行,構(gòu)建樹型搜索結(jié)構(gòu)。對于處于樹型搜索結(jié)構(gòu)同一層級的搜索,既可以采用深度優(yōu)先的搜索策略,也可以采用廣度優(yōu)先的搜索策略。
s103b:依據(jù)預設(shè)概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率。
s103c:將與每個音節(jié)邊對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字按照音節(jié)邊的 順序依次排列,構(gòu)成與查詢詞對應(yīng)的校正建議詞;校正建議詞的出現(xiàn)概率由構(gòu)成該校正建議詞的每個文字的出現(xiàn)概率的乘積計算得到。
具體地,按照前述理論原理中的公式p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)計算校正建議詞的出現(xiàn)概率,而對應(yīng)的文字w1、w2、...wn依次排列即可構(gòu)成校正建議詞。
例如:參見圖8所示,校正建議詞“清湖啊”的出現(xiàn)概率為p(清)*p(湖|清)*p(啊|湖)=0.02*(2e-4)*(4e-8);校正建議詞“情話”的出現(xiàn)概率為p(情)*p(話|情)=0.03*(3e-3)。依此類推,即可計算出圖8所示的校正建議詞的出現(xiàn)概率。
進一步地,本發(fā)明的一優(yōu)選實施例,參見圖6所示,s103b依據(jù)預設(shè)概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率,可具體包括:
s103b1:第一個音節(jié)邊作為當前音節(jié)邊,當前音節(jié)邊表示的音節(jié)組合為當前音節(jié)組合;在預設(shè)概率詞典中搜索出符合當前音節(jié)組合的文字中出現(xiàn)概率最高的預設(shè)個文字及各個文字的出現(xiàn)概率。
例如:參見圖8,音節(jié)組合“qing”對應(yīng)音節(jié)邊搜索出的出現(xiàn)概率最高的兩個漢字分別是出現(xiàn)概率為0.03的“情”和出現(xiàn)概率為0.02的“清”,此實施例中的預設(shè)個為2個。
s103b2:判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊。
具體地,如果已經(jīng)搜索到了音節(jié)圖中的最后一個音節(jié)邊,則可以結(jié)束搜索,轉(zhuǎn)而執(zhí)行s103c:將與每個音節(jié)邊對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字按照音節(jié)邊的順序依次排列,構(gòu)成與查詢詞對應(yīng)的校正建議詞;校正建議詞的出現(xiàn)概率由構(gòu)成該校正建議詞的每個文字的出現(xiàn)概率的乘積計算得到。
s103b3:如果當前音節(jié)邊不是音節(jié)圖中的最后一個音節(jié)邊,則將當前音節(jié)邊的下一個音節(jié)邊作為新的當前音節(jié)邊;從預設(shè)概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率;然后返回判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊的步驟。
例如:參見圖8所示,對“qinghua”進行搜索的結(jié)論,音節(jié)組合“qing” 對應(yīng)的出現(xiàn)概率最高的兩個漢字分別是“情”和“清”;以這兩個漢字分別作為下一層級搜索的起點,例如,以“情”為第一個字、第二個字的拼音拼寫符合“hu”的漢字組合中出現(xiàn)概率最高的兩個漢字組合分別是“情護”和“情弧”,則音節(jié)邊“hu”所對應(yīng)的出現(xiàn)概率最高的兩個字分別是“護”和“弧”。依此類推,依此類推,直至搜索到音節(jié)圖中的最后一個音節(jié)邊。
s103b4:如果當前音節(jié)邊是音節(jié)圖中的最后一個音節(jié)邊,則執(zhí)行將與每個音節(jié)邊對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字按照音節(jié)邊的順序依次排列,構(gòu)成與查詢詞對應(yīng)的校正建議詞;校正建議詞的出現(xiàn)概率由構(gòu)成該校正建議詞的每個文字的出現(xiàn)概率的乘積計算得到的步驟。
在本發(fā)明的一個優(yōu)選實施例中,如圖9所示,s103b3從預設(shè)概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率,包括:
s103b3a:獲取新的當前音節(jié)邊的上一個音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字,記為第一文字,以及預設(shè)個文字各自的出現(xiàn)概率,記為第一概率。
例如:參見圖8所示,對音節(jié)組合“hu”對應(yīng)的音節(jié)邊進行搜索時,其上一個音節(jié)邊表示的音節(jié)組合對應(yīng)的出現(xiàn)概率最高的漢字分別是“情”和“清”,將“情”和“清”分別記為第一漢字;第一漢字“情”對應(yīng)的第一概率p(情)=0.03,第一漢字“清”對應(yīng)的第一概率p(清)=0.02。
s103b3b:從預設(shè)概率詞典中搜索出以第一文字為第一個文字、以新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的文字為第二個文字的文字組合中出現(xiàn)概率最高的預設(shè)個文字組合,以及各文字組合的出現(xiàn)概率,記為第二概率。
例如:參見圖8所示,以包含漢字“情”的搜索分支為例,從預設(shè)概率詞典中搜索出以第一漢字“情”為第一個漢字、以音節(jié)組合“hu”對應(yīng)的漢字為第二個漢字的漢字組合中出現(xiàn)概率最高的漢字組合分別是出現(xiàn)概率為p(情,護)的“情護”和出現(xiàn)概率為p(情,弧)的“情弧”,p(情,護)和p(情,弧)分別記為第二概率。
s103b3c:將出現(xiàn)概率最高的預設(shè)個文字組合中的第二個文字作為新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字;將相對應(yīng)的 第二概率除以第一概率計算得到的結(jié)果作為新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字的出現(xiàn)概率。
例如:參見圖8所示,將出現(xiàn)概率最高的2個漢字組合“情護”和“情弧”中的第二個漢字“護”和“弧”作為音節(jié)邊“hu”對應(yīng)的出現(xiàn)概率最高的2個漢字;漢字“護”的出現(xiàn)概率p(護|情)=p(情,護)/p(情),漢字“弧”的出現(xiàn)概率p(弧|情)=p(情,弧)/p(情)。
在本發(fā)明的一優(yōu)選實施例中,執(zhí)行步驟s103b3之后,返回步驟s103b2之前,還包括以下步驟,參見圖10:
s103b5:沿音節(jié)邊的順序,計算各搜索路徑上獲取的出現(xiàn)概率最高的文字的出現(xiàn)概率的乘積,作為該搜索路徑的出現(xiàn)概率。
例如;參見圖8,以校正建議詞“清湖啊”所在的搜索路徑為例,該搜索路徑的出現(xiàn)概率為p(清)*p(湖|清)*p(啊|湖)=0.02*(2e-4)*(4e-8)。
s103b6:判斷搜索路徑的出現(xiàn)概率是否小于或等于預設(shè)剪枝閾值。
例如:假設(shè)預設(shè)剪枝閾值設(shè)定為2e-10,則校正建議詞“清湖啊”所在的搜索路徑的出現(xiàn)概率已經(jīng)小于該預設(shè)剪枝閾值。
s103b7:如果某搜索路徑的出現(xiàn)概率大于預設(shè)剪枝閾值,保留該搜索路徑。
s103b8:如果某搜索路徑的出現(xiàn)概率小于預設(shè)剪枝閾值,刪除該搜索路徑。
具體地,例如:校正建議詞“清湖啊”所在的搜索路徑的出現(xiàn)概率已經(jīng)小于該預設(shè)剪枝閾值,則刪除該搜索路徑。
本發(fā)明的一優(yōu)選實施例中,參見圖11所示,步驟s104具體可包括:
s1041:按照出現(xiàn)概率由高到低的順序?qū)πUㄗh詞進行排序,形成校正建議詞序列。
s1042:判斷校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶輸入的查詢詞是否一致。
s1043:如果校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶當前 輸入的查詢詞一致,則停止將任一校正建議詞作為經(jīng)篩選的校正建議詞。
具體地,如果校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶當前輸入的查詢詞一致,表示用戶輸入的查詢詞已經(jīng)是目前基于語料庫統(tǒng)計得到的出現(xiàn)概率最高的詞,故無需對用戶的查詢詞給出校正建議。
s1044:如果校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶當前輸入的查詢詞不一致,則將校正建議詞序列中出現(xiàn)概率最高的預設(shè)個校正建議詞作為經(jīng)篩選的校正建議詞。
具體地,如果校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶當前輸入的查詢詞不一致,表示用戶輸入的查詢詞并不是基于語料庫統(tǒng)計得到的出現(xiàn)概率最高的詞,故需要對用戶的查詢詞給出校正建議。
在本發(fā)明的一優(yōu)選實施例中,參見圖12所示,在步驟s1041之后,步驟s1042之前,還包括:
s1045:計算校正建議詞序列中每相鄰兩個校正建議詞的出現(xiàn)概率的差距。
s1046:判斷是否存在相鄰兩個校正建議詞的出現(xiàn)概率的差距大于或等于預設(shè)差距閾值。
例如,將預設(shè)差距閾值設(shè)定為10倍。
s1047:如果不存在相鄰兩個校正建議詞的出現(xiàn)概率的差距大于或等于預設(shè)差距閾值,則執(zhí)行s1042判斷校正建議詞序列中出現(xiàn)概率最高的校正建議詞與用戶當前輸入的查詢詞是否一致的步驟;
s1048:如果存在相鄰兩個校正建議詞的出現(xiàn)概率的差距大于或等于預設(shè)差距閾值,則在校正建議詞序列中,將達到預設(shè)差距閾值的差距的相鄰兩個校正建議詞中出現(xiàn)概率較小的校正建議詞及其之后的校正建議詞刪除。
例如:校正建議詞序列中共10個校正建議詞,其中,第4個校正建議詞的出現(xiàn)概率與第5個校正建議詞的出現(xiàn)概率相差了10倍,則刪除第5~10個校正建議詞。
圖13所示為本發(fā)明的一種構(gòu)建概率詞典的方法的實施例,該方法包括:
s201:收集網(wǎng)頁作為網(wǎng)頁語料庫,收集用戶輸入的查詢詞作為用戶查詢 詞語料庫。
s2021:統(tǒng)計并計算在網(wǎng)頁語料庫和用戶查詢詞語料庫中各文字的出現(xiàn)概率。以及s2022:統(tǒng)計并計算在網(wǎng)頁語料庫和用戶查詢詞語料庫中各文字組合的出現(xiàn)概率。
s203:將得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率相對應(yīng)地存儲在概率詞典中。
由于網(wǎng)頁語料庫非常龐大,所以可以保證足夠高的召回率。而用戶查詢詞一般包括了最近的新詞、流行詞,所以能夠提高準確率,避免對原詞的誤校。
具體地,準確率表示:校正成功的數(shù)目與進行校正的數(shù)目的比值。假設(shè)用戶使用了十次搜索引擎,輸入了10個查詢詞,8個是錯誤的查詢詞,通過校正建議詞對其中6個進行校正,校正成功4個,那么準確率就為4/6=67%。召回率表示:校正成功的數(shù)目與錯誤的數(shù)目的比值。假設(shè)用戶使用了十次搜索引擎,輸入了10個查詢詞,8個是錯誤的查詢詞,通過校正建議詞對其中6個進行校正,校正成功4個,那么召回率就為4/8=50%。
本實施例的一個優(yōu)選實施例,s2021統(tǒng)計并計算在網(wǎng)頁語料庫和用戶查詢詞語料庫中各文字的出現(xiàn)概率,包括:
對每一個文字,統(tǒng)計該文字在網(wǎng)頁語料庫中出現(xiàn)的次數(shù),記為第一統(tǒng)計量;對每一個文字,統(tǒng)計該文字在用戶查詢詞語料庫中出現(xiàn)的次數(shù),記為第二統(tǒng)計量;對每一個文字,統(tǒng)計與該文字的拼寫完全相同的文字在網(wǎng)頁語料庫中出現(xiàn)的次數(shù)的總和,記為第三統(tǒng)計量;對每一個文字統(tǒng)計與該文字的拼寫完全相同的文字在用戶查詢詞語料庫中出現(xiàn)的次數(shù)的總和,記為第四統(tǒng)計量;以及
對每一個文字,將與該文字對應(yīng)的第一統(tǒng)計量除以第三統(tǒng)計量的結(jié)果與第二統(tǒng)計量除以第四統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到該文字的出現(xiàn)概率。
本實施例的一個優(yōu)選實施例,在對每一個文字,將與該文字對應(yīng)的第一統(tǒng)計量除以第三統(tǒng)計量的結(jié)果與第二統(tǒng)計量除以第四統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到該文字的出現(xiàn)概率時,第一統(tǒng)計量除以第三統(tǒng)計量的結(jié)果所占 的權(quán)重小于第二統(tǒng)計量除以第四統(tǒng)計量的結(jié)果所占的權(quán)重。
本實施例的一優(yōu)選實施例中,在步驟s201之后,在步驟s2022之前,還包括:
對網(wǎng)頁語料庫和用戶查詢詞語料庫進行分詞去重處理,得到多個有意義的短語。
具體地,收集網(wǎng)絡(luò)中的各種網(wǎng)頁數(shù)據(jù)作為網(wǎng)頁語料庫,收集用戶輸入的多種查詢詞作為用戶查詢詞語料庫。通過任一分詞軟件將網(wǎng)頁語料庫中的文字序列切分成一個一個單獨的詞語,然后進行去重處理將重復的詞語進行合并,得到多個互不重復的有意義的短語。
具體地,本實施例的一優(yōu)選實施例中,s2022統(tǒng)計并計算在網(wǎng)頁語料庫和用戶查詢詞語料庫中各文字組合的出現(xiàn)概率,包括:
對每一個文字組合,統(tǒng)計該文字組合在網(wǎng)頁語料庫中出現(xiàn)的次數(shù),記為第五統(tǒng)計量;對每一個文字組合,統(tǒng)計該文字組合在用戶查詢詞語料庫中出現(xiàn)的次數(shù),記為第六統(tǒng)計量;統(tǒng)計有意義的短語在網(wǎng)頁語料庫中出現(xiàn)的次數(shù)的總和,記為第七統(tǒng)計量;統(tǒng)計有意義的短語在用戶查詢詞語料庫中出現(xiàn)的次數(shù)的總和,記為第八統(tǒng)計量;以及
對每一個文字組合,將第五統(tǒng)計量除以第七統(tǒng)計量的結(jié)果與第六統(tǒng)計量除以第八統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到該文字組合的出現(xiàn)概率。
具體地,本實施例的一優(yōu)選實施例中,在對每一個文字組合,將第五統(tǒng)計量除以第七統(tǒng)計量的結(jié)果與第六統(tǒng)計量除以第八統(tǒng)計量的結(jié)果進行加權(quán)處理計算得到該文字組合的出現(xiàn)概率時,第五統(tǒng)計量除以第七統(tǒng)計量的結(jié)果所占的權(quán)重小于第六統(tǒng)計量除以第八統(tǒng)計量的結(jié)果所占的權(quán)重。
具體地,本實施例的一優(yōu)選實施例中,文字組合由網(wǎng)頁語料庫和用戶查詢詞語料庫中相鄰的兩個文字構(gòu)成。
本發(fā)明的構(gòu)建概率詞典的方法的實施例與前述的關(guān)于預設(shè)概率詞典的實施例相對應(yīng),不足之處參考上述方法流程的敘述,不再一一贅述。
如圖14所示,本發(fā)明的一種對查詢詞提供校正建議的裝置的實施例中,該裝置包括:
第一獲取模塊501,用于獲取用戶輸入的查詢詞;
第二獲取模塊503,用于將查詢詞與預設(shè)概率詞典中的文字、文字組合進行匹配,獲取校正建議詞、及各校正建議詞的出現(xiàn)概率;其中,預設(shè)概率詞典中存儲有從網(wǎng)頁語料庫和用戶查詢詞語料庫中得到的各文字的出現(xiàn)概率以及各文字組合的出現(xiàn)概率;
選取模塊504,用于根據(jù)每個校正建議詞的出現(xiàn)概率,按照預定規(guī)則對校正建議詞進行篩選;
顯示模塊505,用于將經(jīng)篩選的校正建議詞顯示給用戶供選擇。
本實施例的一個優(yōu)選實施例中,該裝置還包括:
預處理模塊,用于對用戶當前輸入的查詢詞進行預處理;其中,其中,預處理包括以下處理方式中的一種或多種:大小寫統(tǒng)一轉(zhuǎn)換為小寫、無效字符轉(zhuǎn)換為空格、刪除中文字符之間的空格、繁體中文轉(zhuǎn)換為簡體中文。
本實施例的一個優(yōu)選實施例中,如圖18所示,該裝置還包括:
構(gòu)建模塊502,用于依照查詢詞對應(yīng)的拼寫字符串,構(gòu)建查詢詞的音節(jié)圖;其中,音節(jié)圖由音節(jié)節(jié)點和音節(jié)邊組成,音節(jié)邊表示查詢詞對應(yīng)的拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合,音節(jié)節(jié)點表示拼寫字符串的分割位置。
本實施例的一個優(yōu)選實施例中,如圖15所示,構(gòu)建模塊502包括:
分割單元5021,用于將拼寫字符串按照拼寫規(guī)則分割成至少一個音節(jié)組合;音節(jié)組合的開始位置和/或結(jié)束位置構(gòu)成拼寫字符串的分割位置;
音節(jié)節(jié)點設(shè)置單元5022,用于在各分割位置分別設(shè)置一個音節(jié)節(jié)點;
音節(jié)邊設(shè)置單元5023,用于將每一對相鄰的音節(jié)節(jié)點進行連線,形成音節(jié)邊;其中,一對相鄰的音節(jié)節(jié)點由音節(jié)組合的開始位置和結(jié)束位置分別對應(yīng)的音節(jié)節(jié)點構(gòu)成;
標注標引單元5024,用于按照預設(shè)標注方法,在每個音節(jié)節(jié)點上標注一個標記;用于在每個音節(jié)邊上標注所對應(yīng)的音節(jié)組合,并將每個音節(jié)邊的方向標注為從音節(jié)組合的開始位置對應(yīng)的音節(jié)節(jié)點指向該音節(jié)組合的結(jié)束位置對應(yīng)的音節(jié)節(jié)點。
本實施例的一個優(yōu)選實施例中,如圖16所示,第二獲取模塊503包括:
排序單元5031,用于根據(jù)拼寫字符串按照拼寫規(guī)則分割成的音節(jié)組合出現(xiàn)的順序,確定音節(jié)圖中音節(jié)邊和音節(jié)節(jié)點的順序;
第一獲取單元5032,用于依據(jù)預設(shè)概率詞典,依次對每個音節(jié)邊獲取與該音節(jié)邊表示的音節(jié)組合對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率;
匯總單元5033,用于將與每個音節(jié)邊對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字按照音節(jié)邊的順序依次排列,構(gòu)成與查詢詞對應(yīng)的校正建議詞;校正建議詞的出現(xiàn)概率由構(gòu)成該校正建議詞的每個文字的出現(xiàn)概率的乘積計算得到。
具體地,本實施例的一個優(yōu)選實施例中,第一獲取單元5032包括:
第一搜索單元,用于以第一個音節(jié)邊作為當前音節(jié)邊,當前音節(jié)邊表示的音節(jié)組合為當前音節(jié)組合;在預設(shè)概率詞典中搜索出符合當前音節(jié)組合的文字中出現(xiàn)概率最高的預設(shè)個文字及各個文字的出現(xiàn)概率;
第一判斷單元,用于判斷當前音節(jié)邊是否是音節(jié)圖中的最后一個音節(jié)邊;
第二搜索單元,用于如果當前音節(jié)邊不是音節(jié)圖中的最后一個音節(jié)邊時,將當前音節(jié)邊的下一個音節(jié)邊作為新的當前音節(jié)邊;從預設(shè)概率詞典中獲取與新的當前音節(jié)邊表示的音節(jié)組合相符的出現(xiàn)概率最高的預設(shè)個文字,以及各文字的出現(xiàn)概率;
第二搜索單元返回第一判斷單元。
具體地,本實施例的一個優(yōu)選實施例中,第二搜索單元包括:
第二獲取單元,用于獲取新的當前音節(jié)邊的上一個音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字,記為第一文字,以及預設(shè)個文字各自的出現(xiàn)概率,記為第一概率;
第三搜索單元,用于從預設(shè)概率詞典中搜索出以第一文字為第一個文字、以新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的文字為第二個文字的文字組合中出現(xiàn)概率最高的預設(shè)個文字組合,以及各文字組合的出現(xiàn)概率,記為第二概率;
第一計算單元,用于將出現(xiàn)概率最高的預設(shè)個文字組合中的第二個文字 作為新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字;用于將相對應(yīng)的第二概率除以第一概率計算得到的結(jié)果作為新的當前音節(jié)邊表示的音節(jié)組合所對應(yīng)的出現(xiàn)概率最高的預設(shè)個文字的出現(xiàn)概率。
所述裝置與前述的方法流程描述對應(yīng),不足之處參考上述方法流程的敘述,不再一一贅述。
上述說明示出并描述了本發(fā)明的若干優(yōu)選實施例,但如前所述,應(yīng)當理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。