亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于搜索引擎的分詞處理方法和裝置的制作方法

文檔序號:6439175閱讀:269來源:國知局
專利名稱:用于搜索引擎的分詞處理方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及中文分詞技術(shù),尤其涉及一種用于搜索引擎的分詞處理方法和裝置。
背景技術(shù)
搜索引擎中使用的中文分詞,是指一個漢字序列切分成一個一個單獨(dú)的詞,分詞是一個將連續(xù)的子序列按照已規(guī)定的規(guī)范重新組合成詞序列的過程。現(xiàn)有技術(shù)中在進(jìn)行中文分詞時,通常是根據(jù)人工或者半人工的方式獲取分詞詞典,該分詞詞典為一數(shù)據(jù)庫,數(shù)據(jù)庫中定義了大量的詞組,在搜索引擎進(jìn)行分詞時,首先根據(jù)分詞詞典,對預(yù)搜索的語句按照最大正向匹配方式或最大逆向匹配方式進(jìn)行分詞,其中最大正向匹配方法是指按照從前到后的順序從預(yù)搜索的語句中查詢與詞典中匹配的詞組, 最大逆向匹配方法是指按照從后到前的順序從預(yù)搜索的語句中查詢與詞典中匹配的詞組。 另外,還可以一種技術(shù)方案可以根據(jù)圖搜索的方法進(jìn)行分詞處理。上述利用最大正向匹配方法和最大逆向匹配方法進(jìn)行分詞的過程中,可能出現(xiàn)對某一字段存在兩種不同的分詞結(jié)果的情況,無法確認(rèn)正確的分詞結(jié)果,即發(fā)生分詞歧義,對于圖搜索模式也會發(fā)生上述的分詞歧義。綜上所述,對于現(xiàn)有技術(shù)中基于詞典的分詞方法,其無法消除分詞歧義。

發(fā)明內(nèi)容
本發(fā)明的第一個方面是提供一種用于搜索引擎的分詞處理方法,包括獲取用戶輸入的目標(biāo)分詞語句;根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。本發(fā)明的另一個方面是提供一種用于搜索引擎的分詞處理裝置,包括第一獲取模塊,用于獲取用戶輸入的目標(biāo)分詞語句;第一分詞模塊,用于根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;第二分詞模塊,用于在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。本發(fā)明提供的技術(shù)方案,其首先通過利用分詞詞典對目標(biāo)分詞語句進(jìn)行分詞,并在出現(xiàn)分詞歧義字段時,分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。該技術(shù)方案能夠?qū)崿F(xiàn)對分詞歧義字段進(jìn)行分詞處理,并根據(jù)上述消除歧義的分詞方法,能夠進(jìn)一步提高利用搜索引擎進(jìn)行檢索的準(zhǔn)確率和覆蓋率。


圖1為本發(fā)明實(shí)施例中用于搜索引擎的分詞處理方法的流程示意圖;圖2為本發(fā)明一具體實(shí)施例的流程示意圖;圖3為本發(fā)明實(shí)施例中用于搜索引擎的分詞處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式針對現(xiàn)有技術(shù)中,基于詞典的分詞方法無法消除分詞歧義的缺陷,本發(fā)明實(shí)施例提供了一種用于搜索弓I擎的分詞處理方法。圖1為本發(fā)明實(shí)施例中用于搜索引擎的分詞處理方法的流程示意圖,如圖1所示, 該方法包括如下的步驟步驟101、獲取用戶輸入的目標(biāo)分詞語句;步驟102、根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;步驟103、在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。本發(fā)明上述實(shí)施例中提供的用于搜索引擎的分詞處理方法,首先按照基于詞典的方法進(jìn)行分詞處理,并在出現(xiàn)分詞歧義字段時,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,選擇分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞,進(jìn)而實(shí)現(xiàn)對分詞歧義字段進(jìn)行分詞處理,根據(jù)上述消除歧義的分詞方法,能夠進(jìn)一步提高利用搜索引擎進(jìn)行檢索的準(zhǔn)確率和覆蓋率。本發(fā)明上述實(shí)施例中,其中的詞典可以根據(jù)人工或者半人工的方式構(gòu)造,例如可以根據(jù)分詞統(tǒng)計模塊,獲取出現(xiàn)概率較高的分詞方式,加入到分詞詞典中,或者是從查詢?nèi)罩?Query Log)中,獲取查詢次數(shù)較多的新詞,例外還可以利用互聯(lián)網(wǎng)上現(xiàn)有的在線詞典, 例如從維基百科中獲取。為了提高召回率(Recall Rate,也稱為查全率),需要對詞典中的詞進(jìn)行細(xì)粒度切分,主要是按照如下的原則切分一是人名不切分;二是2字詞不切分 ’三是對于3個字的詞,若其中同時還存在2個字的詞,或1個字的詞,則劃分為所有可能的詞并索引,例如“游戲機(jī)”,可以切分為“游戲機(jī)”,則同時索引“游戲機(jī)”和“游戲”,對于“雙氧水”,可以切分為“雙氧水”,則同時索引“雙氧水”、“雙”、“氧”和“水”,對于有歧義的詞,可以同時索引有歧義的詞,例如“風(fēng)景區(qū)”,可以切分為“風(fēng)景區(qū)”或者“風(fēng)景區(qū)”,這是同時索引 “風(fēng)景區(qū)”、“風(fēng)景”和“景區(qū)”;四是對于4個字的詞,先將其切分為2個字的詞或3個字的詞, 隨后再將3個字的詞切分為2個字的詞;且對于大于3個字的詞,基本都屬于人名、地名等固定詞。如上述圖1所示的實(shí)施例中,其中的步驟102根據(jù)預(yù)先存儲的分詞詞典對目標(biāo)分詞語句進(jìn)行分詞,可以包括兩種情況,即可以是根據(jù)預(yù)先存儲的分詞詞典,按照最大正向匹配方法和最大逆向匹配方法對目標(biāo)分詞語句進(jìn)行分詞;或者是根據(jù)預(yù)先存儲的分詞詞典, 按照圖搜索方法對所述目標(biāo)分詞語句進(jìn)行分詞,該圖搜索方法實(shí)際上是一種把分詞看作是圖的最短路徑來進(jìn)行搜索。另外,本發(fā)明上述實(shí)施例中,其中的步驟103中預(yù)先建立的分詞統(tǒng)計模型中,分詞歧義字段的每種分詞方式用特征向量標(biāo)識,該分詞統(tǒng)計模型除包括每種分詞方式的特征向量外,還包括統(tǒng)計獲得到每種分詞方式的特征向量對應(yīng)的概率值。具體的,是在該分詞統(tǒng)計模型中,將分詞歧義字段中的每個字被定義為單字詞類型、詞首類型、詞尾類型、第二位置詞類型、第三位置詞類型或其他位置詞類型中的一種,而每種分詞方式的特征向量包括分詞歧義字段中的所有字的類型,以及所有字的排列順序。例如,用S,B, E,Bi, B2,M來表示單字詞類型、詞首類型、詞尾類型、第二位置詞類型、第三位置詞類型或其他位置詞類型,對于“龍鳳山”,其最大正向匹配方法的結(jié)果為“龍鳳山”,而最大逆向匹配方法的結(jié)果為“龍風(fēng)山”,則在分詞統(tǒng)計模型中可分別用特征向量“BES”和“SBE”標(biāo)識,且可以標(biāo)注特征向量 “BES”出現(xiàn)的概率為60%,特征向量“SBE”出現(xiàn)的概率為40%。本發(fā)明的技術(shù)方案在具體的實(shí)施過程中,可以使用條件隨機(jī)域(Conditional random field,簡稱CRF)模型,或者是隱馬爾代夫模型(Hidden Markov Model,簡稱HMM),或者是支持向量機(jī)(Support Vector Machine,簡稱SVM模型)等。本發(fā)明上述實(shí)施例中的分詞統(tǒng)計模型,需要較大數(shù)量的語料來進(jìn)行統(tǒng)計,以獲得分詞歧義字段的不同分詞方式對應(yīng)的特征向量的概率,這個概率也就對應(yīng)著不同的分詞方式在較大數(shù)量的語料中出現(xiàn)的頻率。圖2為本發(fā)明一具體實(shí)施例的流程示意圖,如圖2所示,本發(fā)明的技術(shù)方案包括如下的步驟步驟201、獲取用戶輸入的目標(biāo)分詞語句;步驟202、基于分詞詞典,利用最大正向匹配方法和最大逆向匹配方法對目標(biāo)分詞語句進(jìn)行分詞;步驟203、判斷上述最大正向匹配方法和最大逆向匹配方法得到的結(jié)果是否一致, 若一致,則執(zhí)行步驟206,如果不一致時執(zhí)行步驟204 ;步驟204、在確定上述兩種分詞方法得到的結(jié)果不一致時,獲取分詞歧義字段;步驟205、調(diào)用預(yù)先建立的分詞統(tǒng)計模型,對分詞歧義字段進(jìn)行分詞處理,具體的按照上述實(shí)施例所提供的特征向量的建立方式,建立該分詞歧義字段的兩種以上的分詞方式各自對應(yīng)的特征向量,獲取分詞統(tǒng)計模型兩種以上的分詞方式各自對應(yīng)的特征向量的概率,選擇概率最大的分詞方式進(jìn)行分詞;步驟206、輸出分詞結(jié)果;步驟207、結(jié)束。本發(fā)明的具體實(shí)施例中,可以將原分詞詞典中不具有的,而在分詞統(tǒng)計模型中出現(xiàn)概率較高的特征向量對應(yīng)的分詞加入到分詞詞典中,本領(lǐng)域內(nèi)技術(shù)人員可以理解,在上述概率值取得較高時,獲得新的分詞的準(zhǔn)確率會提高,但是發(fā)現(xiàn)新的分詞的數(shù)目會減少,在上述概率值取得較低時,獲得新的分詞的準(zhǔn)確率會降低,但是發(fā)現(xiàn)新的分詞的數(shù)目會增加, 可以根據(jù)具體的應(yīng)用環(huán)境或領(lǐng)域而確定。本發(fā)明實(shí)施例還提供了一種用于搜索引擎的分詞處理裝置,圖3為本發(fā)明實(shí)施例中用于搜索引擎的分詞處理裝置的結(jié)構(gòu)示意圖,如圖3所示,該用于搜索引擎的分詞處理裝置包括第一獲取模塊11、第一分詞模塊12和第二分詞模塊13,其中第一獲取模塊11用于獲取用戶輸入的目標(biāo)分詞語句;第一分詞模塊12用于根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;第二分詞模塊13用于在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。本發(fā)明上述實(shí)施例中提供的用于搜索引擎的分詞處理方法,首先按照基于詞典的方法進(jìn)行分詞處理,并在出現(xiàn)分詞歧義字段時,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,選擇分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞,進(jìn)而實(shí)現(xiàn)對分詞歧義字段進(jìn)行分詞處理,根據(jù)上述消除歧義的分詞方法,能夠提高利用搜索引擎進(jìn)行檢索的準(zhǔn)確率和覆蓋率。本發(fā)明上述實(shí)施例中,其中的第一分詞模塊12可以包括第一分詞單元或第二分詞單元,其中的第一分詞單元用于根據(jù)預(yù)先存儲的分詞詞典,按照最大正向匹配方法和最大逆向匹配方法對所述目標(biāo)分詞語句進(jìn)行分詞;第二分詞單元用于根據(jù)預(yù)先存儲的分詞詞典,按照圖搜索方法對所述目標(biāo)分詞語句進(jìn)行分詞。另外,本發(fā)明上述實(shí)施例中,其中預(yù)先建立的分詞統(tǒng)計模型包括用于標(biāo)識分詞歧義字段的每種分詞方式的特征向量,以及統(tǒng)計獲得的所述每種分詞方式的特征向量對應(yīng)的概率值。具體的,在該分詞統(tǒng)計模型中,所述分詞歧義字段中的每個字被定義為單字詞類型、詞首類型、詞尾類型、第二位置詞類型、第三位置詞類型或其他位置詞類型中的一種,所述每種分詞方式的特征向量包括分詞歧義字段中的所有字的類型,以及所有字的排列順序。而其中的第二分詞模塊13具體用于建立該分詞歧義字段的兩種以上的分詞方式各自對應(yīng)的特征向量,獲取分詞統(tǒng)計模型兩種以上的分詞方式各自對應(yīng)的特征向量的概率,選擇概率最大的分詞方式進(jìn)行分詞。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。最后應(yīng)說明的是以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制; 盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
權(quán)利要求
1.一種用于搜索引擎的分詞處理方法,其特征在于,包括獲取用戶輸入的目標(biāo)分詞語句;根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式, 調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。
2.根據(jù)權(quán)利要求1所述的用于搜索引擎的分詞處理方法,其特征在于,所述根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞包括根據(jù)預(yù)先存儲的分詞詞典,按照最大正向匹配方法和最大逆向匹配方法對所述目標(biāo)分詞語句進(jìn)行分詞;或根據(jù)預(yù)先存儲的分詞詞典,按照圖搜索方法對所述目標(biāo)分詞語句進(jìn)行分詞。
3.根據(jù)權(quán)利要求1或2所述的用于搜索引擎的分詞處理方法,其特征在于,所述預(yù)先建立的分詞統(tǒng)計模型包括用于標(biāo)識分詞歧義字段的每種分詞方式的特征向量,以及統(tǒng)計獲得的所述每種分詞方式的特征向量對應(yīng)的概率值。
4.根據(jù)權(quán)利要求3所述的用于搜索引擎的分詞處理方法,其特征在于,在所述分詞統(tǒng)計模型中,所述分詞歧義字段中的每個字被定義為單字詞類型、詞首類型、詞尾類型、第二位置詞類型、第三位置詞類型或其他位置詞類型中的一種,所述每種分詞方式的特征向量包括分詞歧義字段中的所有字的類型,以及所有字的排列順序。
5.根據(jù)權(quán)利要求4所述的用于搜索引擎的分詞處理方法,其特征在于,所述調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞包括建立該分詞歧義字段的兩種以上的分詞方式各自對應(yīng)的特征向量,獲取分詞統(tǒng)計模型兩種以上的分詞方式各自對應(yīng)的特征向量的概率,選擇概率最大的分詞方式進(jìn)行分詞。
6.一種用于搜索引擎的分詞處理裝置,其特征在于,包括第一獲取模塊,用于獲取用戶輸入的目標(biāo)分詞語句;第一分詞模塊,用于根據(jù)預(yù)先存儲的分詞詞典對所述目標(biāo)分詞語句進(jìn)行分詞;第二分詞模塊,用于在確認(rèn)出現(xiàn)分詞歧義字段時,所述分詞歧義字段被識別為具有兩種以上的分詞方式,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。
7.根據(jù)權(quán)利要求6所述的用于搜索引擎的分詞處理裝置,其特征在于,所述第一分詞模塊包括第一分詞單元,用于根據(jù)預(yù)先存儲的分詞詞典,按照最大正向匹配方法和最大逆向匹配方法對所述目標(biāo)分詞語句進(jìn)行分詞;或第二分詞單元,用于根據(jù)預(yù)先存儲的分詞詞典,按照圖搜索方法對所述目標(biāo)分詞語句進(jìn)行分詞。
8.根據(jù)權(quán)利要求6或7所述的用于搜索引擎的分詞處理裝置,其特征在于,所述預(yù)先建立的分詞統(tǒng)計模型包括用于標(biāo)識分詞歧義字段的每種分詞方式的特征向量,以及統(tǒng)計獲得的所述每種分詞方式的特征向量對應(yīng)的概率值。
9.根據(jù)權(quán)利要求8所述的用于搜索引擎的分詞處理裝置,其特征在于,在所述分詞統(tǒng)計模型中,所述分詞歧義字段中的每個字被定義為單字詞類型、詞首類型、詞尾類型、第二位置詞類型、第三位置詞類型或其他位置詞類型中的一種,所述每種分詞方式的特征向量包括分詞歧義字段中的所有字的類型,以及所有字的排列順序。
10.根據(jù)權(quán)利要求9所述的用于搜索引擎的分詞處理裝置,其特征在于,所述第二分詞模塊具體用于建立該分詞歧義字段的兩種以上的分詞方式各自對應(yīng)的特征向量,獲取分詞統(tǒng)計模型兩種以上的分詞方式各自對應(yīng)的特征向量的概率,選擇概率最大的分詞方式進(jìn)行分詞。
全文摘要
本發(fā)明提供一種用于搜索引擎的分詞處理方法和裝置,該用于搜索引擎的分詞處理方法,包括獲取用戶輸入的目標(biāo)分詞語句;根據(jù)預(yù)先存儲的分詞詞典對目標(biāo)分詞語句進(jìn)行分詞;在確認(rèn)出現(xiàn)分詞歧義字段時,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。裝置包括第一獲取模塊,用于獲取用戶輸入的目標(biāo)分詞語句;第一分詞模塊,用于根據(jù)預(yù)先存儲的分詞詞典對目標(biāo)分詞語句進(jìn)行分詞;第二分詞模塊,用于在確認(rèn)出現(xiàn)分詞歧義字段時,調(diào)用預(yù)先建立的分詞統(tǒng)計模型,并選擇所述分詞歧義字段在所述分詞統(tǒng)計模型中具有最高概率的分詞方式進(jìn)行分詞。
文檔編號G06F17/27GK102402502SQ20111037843
公開日2012年4月4日 申請日期2011年11月24日 優(yōu)先權(quán)日2011年11月24日
發(fā)明者李理 申請人:北京趣拿信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1