本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別是涉及一種搜索方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們可以通過網(wǎng)絡(luò)獲取自身所需要的信息。這里所說的信息包括文本信息、聲音信息、圖像信息及視頻信息等各種類型的信息。然而,網(wǎng)絡(luò)中的信息呈幾何增長,如何在互聯(lián)網(wǎng)上的海量信息中快速尋找到符合用戶需求的信息成為一個棘手的問題。
為了解決上述問題,基于搜索詞的搜索方式應(yīng)運而生,該搜索方式為:獲取搜索詞,對獲取到的搜索詞進(jìn)行分詞處理,得到分詞結(jié)果,分詞結(jié)果中包括至少一個關(guān)鍵詞;在分詞結(jié)果中關(guān)鍵詞分別確定目標(biāo)關(guān)鍵詞,在海量的信息中確定包含該目標(biāo)關(guān)鍵詞的信息,根據(jù)信息的點擊率,將搜索到的信息混排,從而獲得搜索結(jié)果。然而,發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在如下問題:現(xiàn)有技術(shù)中的搜索方式通常會因為分詞結(jié)果中的關(guān)鍵詞可能對應(yīng)著多個義項,造成搜索結(jié)果不準(zhǔn)確。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種搜索方法及裝置,以實現(xiàn)提高用戶體驗。具體技術(shù)方案如下:
第一方面,為了達(dá)到上述目的,本發(fā)明實施例公開了一種搜索方法,所述方法包括:
獲取目標(biāo)搜索詞,并對所述目標(biāo)搜索詞進(jìn)行分詞處理,獲得目標(biāo)分詞結(jié)果,其中,所述目標(biāo)分詞結(jié)果包括至少一個關(guān)鍵詞;
判斷所述目標(biāo)分詞結(jié)果中是否有記錄在預(yù)先設(shè)置的歧義實體詞庫中的關(guān)鍵詞,其中,所述歧義實體詞庫,用于存儲存在至少兩種義項的詞;
如果是,從所述目標(biāo)分詞結(jié)果中確定各個目標(biāo)歧義實體詞的目標(biāo)特征詞,其中,所述目標(biāo)歧義實體詞為:所述目標(biāo)分詞結(jié)果中記錄在所述歧義實體詞庫中的關(guān)鍵詞,所述目標(biāo)特征詞為:用于確定所述目標(biāo)歧義實體詞對應(yīng)義項的關(guān)鍵詞;
分別根據(jù)每一目標(biāo)歧義實體詞的目標(biāo)特征詞,確定每一目標(biāo)歧義實體詞的義項;
在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息,其中,所述目標(biāo)詞為:確定一義項時所采用的目標(biāo)歧義實體詞,所述目標(biāo)關(guān)鍵詞為:所述目標(biāo)分詞結(jié)果中除目標(biāo)詞之外的關(guān)鍵詞;
基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
可選的,在所述目標(biāo)分詞結(jié)果中不存在該目標(biāo)歧義實體詞的目標(biāo)特征詞的情況下,所述方法還包括:
根據(jù)預(yù)先建立的歧義實體詞與義項之間的對應(yīng)關(guān)系,確定與該目標(biāo)歧義實體詞具有對應(yīng)關(guān)系的所有義項;
基于該目標(biāo)歧義實體詞和所確定的義項,生成并展示搜索提示,其中,所述搜索提示,用于提示目標(biāo)歧義實體詞對應(yīng)的義項;
獲取針對所述搜索提示確定的義項,并執(zhí)行所述在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息的步驟。
可選的,所述在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息,包括:
針對每一所確定的義項,根據(jù)預(yù)先建立的義項與第一倒排表之間的對應(yīng)關(guān)系,確定與該義項具有對應(yīng)關(guān)系的第一倒排表,并在所確定的第一倒排表中,搜索包含該義項對應(yīng)的目標(biāo)詞的第一倒排表,作為目標(biāo)倒排表;其中,所述第一倒排表是預(yù)先建立的表,一張第一倒排表中存儲有一個關(guān)鍵詞基于一個義項確定的待搜索信息的標(biāo)識;
針對每一目標(biāo)關(guān)鍵詞,確定針對該目標(biāo)關(guān)鍵詞建立的第二倒排表;其中,一張第二倒排表中存儲基于一個關(guān)鍵詞確定的待搜索信息的標(biāo)識;
所述基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果,包括:
基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
可選的,所述第一倒排表是通過以下方式建立的:
獲取各個目標(biāo)樣本信息的標(biāo)識;
將所獲取的標(biāo)識輸入到預(yù)先訓(xùn)練好的義項分類模型,獲得每一目標(biāo)樣本信息對應(yīng)的義項,其中,所述義項分類模型是根據(jù)樣本信息的標(biāo)識與該樣本信息對應(yīng)的義項二者之間的關(guān)聯(lián)關(guān)系建立的;
對各個樣本信息進(jìn)行分詞處理,獲得每一樣本信息的分詞結(jié)果;
根據(jù)所獲得的義項,確定屬于同一個義項的目標(biāo)樣本信息;
在所確定的屬于同一義項的目標(biāo)樣本信息中,確定包含有同一個關(guān)鍵詞的目標(biāo)樣本信息,作為分類樣本信息;
對于每一類分類樣本信息,基于該分類樣本信息中各個目標(biāo)樣本信息的標(biāo)識、共同對應(yīng)的關(guān)鍵詞以及所屬義項,建立第一倒排表。
可選的,所述義項分類模型是通過以下方式訓(xùn)練的:
確定義項的所有類型;
收集針對每一類型義項的樣本信息;
將收集到的樣本信息的標(biāo)識和樣本信息對應(yīng)的義項輸入到預(yù)先建立好的義項分類模型中,對所述義項分類模型進(jìn)行訓(xùn)練。
可選的,所述基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果,包括:
針對每一目標(biāo)詞,確定該目標(biāo)詞除所確定的義項之外的所有義項,并在所確定的每一義項對應(yīng)的第一倒排表中,搜索包含該目標(biāo)詞的第一倒排表,作為第三倒排表;
針對每一所確定的目標(biāo)倒排表、第二倒排表和第三倒排表,分別設(shè)置權(quán)重,其中,對每一目標(biāo)倒排表設(shè)置的權(quán)重大于對任意一個第二倒排表和第三倒排表設(shè)置的權(quán)重;
基于設(shè)置權(quán)重的大小,對所確定的目標(biāo)倒排表、第二倒排表和第三倒排表進(jìn)行排序,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
第二方面,為了達(dá)到上述目的,本發(fā)明還公開了一種搜索裝置,所述裝置包括:
第一獲取模塊,用于獲取目標(biāo)搜索詞,并對所述目標(biāo)搜索詞進(jìn)行分詞處理,獲得目標(biāo)分詞結(jié)果,其中,所述目標(biāo)分詞結(jié)果包括至少一個關(guān)鍵詞;
第一判斷模塊,用于判斷所述目標(biāo)分詞結(jié)果中是否有記錄在預(yù)先設(shè)置的歧義實體詞庫中的關(guān)鍵詞,其中,所述歧義實體詞庫,用于存儲存在至少兩種義項的詞;
第一確定模塊,用于在所述第一判斷模塊的判斷結(jié)果為是的情況下從所述目標(biāo)分詞結(jié)果中確定各個目標(biāo)歧義實體詞的目標(biāo)特征詞,其中,所述目標(biāo)歧義實體詞為:所述目標(biāo)分詞結(jié)果中記錄在所述歧義實體詞庫中的關(guān)鍵詞,所述目標(biāo)特征詞為:用于確定所述目標(biāo)歧義實體詞對應(yīng)義項的關(guān)鍵詞;
第二確定模塊,用于分別根據(jù)每一目標(biāo)歧義實體詞的目標(biāo)特征詞,確定每一目標(biāo)歧義實體詞的義項;
搜索模塊,用于在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息,其中,所述目標(biāo)詞為:確定一義項時所采用的目標(biāo)歧義實體詞,所述目標(biāo)關(guān)鍵詞為:所述目標(biāo)分詞結(jié)果中除目標(biāo)詞之外的關(guān)鍵詞;
獲得模塊,用于基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
可選的,所述裝置還包括:
第三確定模塊,用于在所述目標(biāo)分詞結(jié)果中不存在該目標(biāo)歧義實體詞的目標(biāo)特征詞的情況下,根據(jù)預(yù)先建立的歧義實體詞與義項之間的對應(yīng)關(guān)系,確定與該目標(biāo)歧義實體詞具有對應(yīng)關(guān)系的所有義項;
展示模塊,用于基于該目標(biāo)歧義實體詞和所確定的義項,生成并展示搜索提示,其中,所述搜索提示,用于提示目標(biāo)歧義實體詞對應(yīng)的義項;
第二獲取模塊,用于獲取針對所述搜索提示確定的義項,并執(zhí)行所述搜索模塊。
可選的,第一搜索子模塊,用于針對每一所確定的義項,根據(jù)預(yù)先建立的義項與第一倒排表之間的對應(yīng)關(guān)系,確定與該義項具有對應(yīng)關(guān)系的第一倒排表,并在所確定的第一倒排表中,搜索包含該義項對應(yīng)的目標(biāo)詞的第一倒排表,作為目標(biāo)倒排表;其中,所述第一倒排表是預(yù)先建立的表,一張第一倒排表中存儲有一個關(guān)鍵詞基于一個義項確定的待搜索信息的標(biāo)識;
確定子模塊,用于針對每一目標(biāo)關(guān)鍵詞,確定針對該目標(biāo)關(guān)鍵詞建立的第二倒排表;其中,一張第二倒排表中存儲基于一個關(guān)鍵詞確定的待搜索信息的標(biāo)識;
所述獲得模塊,具體用于基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
可選的,所述裝置還包括:
建立模塊,用于獲取各個目標(biāo)樣本信息的標(biāo)識;將所獲取的標(biāo)識輸入到預(yù)先訓(xùn)練好的義項分類模型,獲得每一目標(biāo)樣本信息對應(yīng)的義項,其中,所述義項分類模型是根據(jù)樣本信息的標(biāo)識與該樣本信息對應(yīng)的義項二者之間的關(guān)聯(lián)關(guān)系建立的;對各個樣本信息進(jìn)行分詞處理,獲得每一樣本信息的分詞結(jié)果;根據(jù)所獲得的義項,確定屬于同一個義項的目標(biāo)樣本信息;在所確定的屬于同一義項的目標(biāo)樣本信息中,確定包含有同一個關(guān)鍵詞的目標(biāo)樣本信息,作為分類樣本信息;對于每一類分類樣本信息,基于該分類樣本信息中各個目標(biāo)樣本信息的標(biāo)識、共同對應(yīng)的關(guān)鍵詞以及所屬義項,建立第一倒排表。
可選的,所述裝置還包括:
訓(xùn)練模塊,用于確定義項的所有類型;收集針對每一類型義項的樣本信息;將收集到的樣本信息的標(biāo)識和樣本信息對應(yīng)的義項輸入到預(yù)先建立好的義項分類模型中,對所述義項分類模型進(jìn)行訓(xùn)練。
可選的,所述獲得模塊,包括:
第二搜索子模塊,用于針對每一目標(biāo)詞,確定該目標(biāo)詞除所確定的義項之外的所有義項,并在所確定的每一義項對應(yīng)的第一倒排表中,搜索包含該目標(biāo)詞的第一倒排表,作為第三倒排表;
設(shè)置子模塊,針對每一所確定的目標(biāo)倒排表、第二倒排表和第三倒排表,分別設(shè)置權(quán)重,其中,對每一目標(biāo)倒排表設(shè)置的權(quán)重大于對任意一個第二倒排表和第三倒排表設(shè)置的權(quán)重;
獲得子模塊,用于基于設(shè)置權(quán)重的大小,對所確定的目標(biāo)倒排表、第二倒排表和第三倒排表進(jìn)行排序,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
第三方面,本發(fā)明實施例還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有指令,當(dāng)其在計算機(jī)上運行時,使得計算機(jī)執(zhí)行上述任一所述的搜索方法。
第四方面,本發(fā)明實施例還提供了一種包含指令的計算機(jī)程序產(chǎn)品,當(dāng)其在計算機(jī)上運行時,使得計算機(jī)執(zhí)行上述任一所述的搜索方法。
本發(fā)明實施例提供的一種搜索方法及裝置,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性。當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達(dá)到以上所述的所有優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹。
圖1為本發(fā)明實施例提供的搜索方法的第一種流程示意圖;
圖2為本發(fā)明實施例提供的搜索方法的第二種流程示意圖;
圖3為本發(fā)明實施例提供的搜索方法的第三種流程示意圖;
圖4為建立的倒排表的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實施例提供的搜索方法的第四種流程示意圖;
圖6為本發(fā)明實施例提供的搜索裝置的第一種結(jié)構(gòu)示意圖;
圖7為本發(fā)明實施例提供的搜索裝置的第二種結(jié)構(gòu)示意圖;
圖8為本發(fā)明實施例提供的搜索裝置的第三種結(jié)構(gòu)示意圖;
圖9為本發(fā)明實施例提供的搜索裝置的第四種結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行描述。
圖1為本發(fā)明實施例提供的搜索方法的第一種流程示意圖,該方法包括:
s101:獲取目標(biāo)搜索詞,并對所述目標(biāo)搜索詞進(jìn)行分詞處理,獲得目標(biāo)分詞結(jié)果,其中,所述目標(biāo)分詞結(jié)果包括至少一個關(guān)鍵詞。
本領(lǐng)域人員可以理解的是,目標(biāo)搜索詞可以是用戶發(fā)送的,也可以是客戶端發(fā)送的,在本發(fā)明實施例中對此不進(jìn)行限定。分詞處理是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。具體的,對目標(biāo)搜索詞進(jìn)行分詞處理可以采用基于理解的分詞方法或基于統(tǒng)計的分詞方法等等。示例性的,目標(biāo)搜索詞是“非誠勿擾20161224”,對該目標(biāo)搜索詞進(jìn)行分詞處理,獲得的目標(biāo)分詞結(jié)果為“非誠勿擾”和“20161224”。在對目標(biāo)搜索詞進(jìn)行分詞的時候,還會對分詞結(jié)果中每一關(guān)鍵詞進(jìn)行詞性標(biāo)注,詞性標(biāo)注目的就是給關(guān)鍵詞確定一種詞性,這樣有利于快速地確定目標(biāo)關(guān)鍵詞和目標(biāo)特征詞。具體的,詞性標(biāo)注是現(xiàn)有技術(shù),在這里不進(jìn)行贅述。
關(guān)鍵詞是從信息標(biāo)題、內(nèi)容提要或正文中提取的、能表達(dá)信息主題的、具有實質(zhì)意義的詞語,可以是任何中文、英文、數(shù)字,或中文英文數(shù)字的混合。人名、地名、產(chǎn)品名稱、文章名稱、游戲名稱、星座、品牌等等均可以為關(guān)鍵詞。示例性的,關(guān)鍵詞可以為“大話西游”、“windows(視窗)”或“f-1賽車”。
在目標(biāo)分析結(jié)果中,并不每一個詞都是關(guān)鍵詞。當(dāng)目標(biāo)分詞結(jié)果中實詞,則可以確定虛詞不是關(guān)鍵詞,實詞為名詞、動詞、形容詞、數(shù)量詞、代詞,目標(biāo)分詞結(jié)果中的助詞、嘆詞等不是關(guān)鍵詞。示例性的,目標(biāo)分詞結(jié)果中包括“的”和“啊”都不是關(guān)鍵詞。在實際應(yīng)用中,副詞、介詞、連詞或擬聲詞中的部分詞可以是關(guān)鍵詞,部分詞不是關(guān)鍵詞,具體的,需要根據(jù)實際情況確定。示例性的,副詞中的“都”、介詞中的“因”、連詞中的“那么”或擬聲詞中的“嗚”不是關(guān)鍵詞,擬聲詞中的“潺潺”、副詞中的“非?!钡仁顷P(guān)鍵詞。需要說明的是,目標(biāo)分詞結(jié)果可以為目標(biāo)搜索詞本身,示例性的,目標(biāo)搜索詞是“一蹴而就”,則目標(biāo)分詞結(jié)果是“一蹴而就”。
s102:判斷所述目標(biāo)分詞結(jié)果中是否有記錄在預(yù)先設(shè)置的歧義實體詞庫中的關(guān)鍵詞,如果是,執(zhí)行s103,如果否,則結(jié)束;其中,所述歧義實體詞庫,用于存儲存在至少兩種義項的詞。
在本發(fā)明實施例中,歧義實體詞是帶有歧義的實體詞。這里所說的實體詞可以理解為命名實體,命名實體是指具有特定含義的實體的名稱,進(jìn)一步地,可以理解為實體。最常見的實體為人名、地名、組織機(jī)構(gòu)名;在視頻行業(yè),主要是視頻名稱、主演、角色名、導(dǎo)演、制片;在音樂行業(yè),主要是歌曲名、演唱者等等,在游戲行業(yè),主要是游戲名、角色名等等。義項為每一個不同概念意義事物的敘述內(nèi)容,示例性的,義項可以為小說、電影、音樂、主演、電視劇、角色名、文章、歷史事件等等。
本領(lǐng)域技術(shù)人員可以理解的是,造成實體詞有歧義的原因是該實體詞包含了至少兩個義項,示例性的,“翻譯官”是一個歧義實體詞,有三個義項,分別為電視劇義項、小說義項和普通詞義項,因為存在小說翻譯官,還存在電視劇翻譯官,當(dāng)然翻譯官為普通詞義項的時候,是專司翻譯的官員。
對于搜索服務(wù)提供方來說,會有專門的信息庫用于搜索。例如,視頻搜索服務(wù)提供方有由視頻組成的信息庫。歧義實體詞庫中的實體詞確定方法為:如果信息庫中,針對不同類型的信息中包含了相同的實體詞,則可以確定該實體詞確定為歧義實體詞,將該實體詞記錄在歧義實體詞庫中。例如,如果電影和電視劇的核心劇名相同,則確定該核心劇名是歧義實體詞;如果一個視頻中的角色名與另一個視頻中的主演名字相同,確定該角色名是歧義實體詞。當(dāng)然,還可以通過其他的方法,確定歧義實體詞,從而得到歧義實體詞庫,在這里不進(jìn)行一一贅述。
如果一個關(guān)鍵詞記錄在實體詞庫中,說明該關(guān)鍵詞是歧義實體詞,否則,則不是歧義實體詞。如果目標(biāo)分詞結(jié)果中沒有記錄在歧義實體詞庫中的關(guān)鍵詞,則按照現(xiàn)有技術(shù)中的方法進(jìn)行信息的搜索,獲得搜索結(jié)果。
s103:從所述目標(biāo)分詞結(jié)果中確定各個目標(biāo)歧義實體詞的目標(biāo)特征詞,其中,所述目標(biāo)歧義實體詞為:所述目標(biāo)分詞結(jié)果中記錄在所述歧義實體詞庫中的關(guān)鍵詞,所述目標(biāo)特征詞為:用于確定所述目標(biāo)歧義實體詞對應(yīng)義項的關(guān)鍵詞。
在本發(fā)明實施例中,目標(biāo)分詞結(jié)果中記錄在歧義實體詞庫中的關(guān)鍵詞確定為目標(biāo)歧義實體詞,為了消除目標(biāo)歧義實體詞的歧義,需要確定目標(biāo)歧義實體詞的義項,在本發(fā)明實施例中,是利用目標(biāo)特征詞確定目標(biāo)歧義實體詞的義項。可以理解為將目標(biāo)歧義實體詞和該目標(biāo)歧義實體詞的目標(biāo)特征詞相結(jié)合,就可以確定目標(biāo)歧義實體詞的義項。示例性的,目標(biāo)分詞結(jié)果包含的關(guān)鍵詞為“非誠勿擾”和“20161224”,“非誠勿擾”是目標(biāo)歧義實體詞,“20161224”是目標(biāo)特征詞。當(dāng)然,如果目標(biāo)分詞結(jié)果中包括孟非、綜藝、滅燈等關(guān)鍵詞,孟非、綜藝、滅燈中的任意一個關(guān)鍵詞均可以作為“非誠勿擾”這個目標(biāo)歧義實體詞的目標(biāo)特征詞。
需要說明的是,目標(biāo)歧義實體詞也可以作為目標(biāo)特征詞,一個目標(biāo)歧義實體詞可以作為另一個目標(biāo)歧義實體詞的目標(biāo)特征詞。在可以確定目標(biāo)歧義實體詞的義項的關(guān)鍵詞為多個的情況下,可以在這些關(guān)鍵詞中選擇一個確定為目標(biāo)歧義實體詞的目標(biāo)特征詞。
s104:分別根據(jù)每一目標(biāo)歧義實體詞的目標(biāo)特征詞,確定每一目標(biāo)歧義實體詞的義項。
當(dāng)確定了目標(biāo)歧義實體詞的目標(biāo)特征詞的時候,可以將目標(biāo)歧義實體詞與目標(biāo)特征詞相結(jié)合,確定目標(biāo)歧義實體詞的義項。延續(xù)上述示例,確定目標(biāo)歧義實體詞“非誠勿擾”的義項為綜藝,。因為只有綜藝非誠勿擾有很多期節(jié)目,目標(biāo)特征詞是和節(jié)目播出日期有關(guān)的信息,則可以確定非誠勿擾對應(yīng)的義項是綜藝。確定了目標(biāo)義項,就可以實現(xiàn)對目標(biāo)關(guān)鍵詞的消岐,從而可以確定真實的搜索意圖。如果目標(biāo)特征詞為“葛優(yōu)”,則確定目標(biāo)歧義實體詞“非誠勿擾”的義項為電影,因為葛優(yōu)是電影“非誠勿擾”的主演。
s105:在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息,其中,所述目標(biāo)詞為:確定一義項時所采用的目標(biāo)歧義實體詞,所述目標(biāo)關(guān)鍵詞為:所述目標(biāo)分詞結(jié)果中除目標(biāo)詞之外的關(guān)鍵詞。
在本發(fā)明實施例中,每一義項對應(yīng)了很多待搜索信息,在確定目標(biāo)歧義實體詞的義項之后,在所確定的義項對應(yīng)的待搜索信息中,搜索該目標(biāo)歧義實體詞的待搜索信息。目標(biāo)詞為確定義項時所采用的目標(biāo)歧義實體詞,可以理解為確定了義項的目標(biāo)歧義實體詞,因為可能存在有些目標(biāo)歧義實體詞沒有確定義項,進(jìn)一步地,是無法對該目標(biāo)歧義實體詞進(jìn)行消岐。
在義項對應(yīng)的待搜索信息中,搜索包含目標(biāo)詞的信息,這樣搜索更具有針對性,搜索的信息是想要搜索的信息,在獲得的搜索結(jié)果中包含了大量的想要搜索的信息,從而提高了搜索結(jié)果的準(zhǔn)確性。
在本發(fā)明實施例中,目標(biāo)關(guān)鍵詞是目標(biāo)分詞結(jié)果中除目標(biāo)詞之外的關(guān)鍵詞,不需要確定目標(biāo)關(guān)鍵詞的義項。因為目標(biāo)關(guān)鍵詞要么不存在歧義,不需要通過確定義項進(jìn)行消岐;要么存在歧義,但是根據(jù)目前得到的信息無法確定目標(biāo)關(guān)鍵詞的義項。針對目標(biāo)關(guān)鍵詞,是在用于存儲待搜索信息的信息庫中搜索包含有該目標(biāo)關(guān)鍵詞的待搜索信息。
s106:基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
在實際應(yīng)用中,可以將搜索得到的信息作為搜索結(jié)果,也可以在將去重后的搜索得到的信息作為搜索結(jié)果,還可以對搜索得到的信息進(jìn)行處理,獲得搜索結(jié)果。
在現(xiàn)有技術(shù)中,以搜索視頻為例,假設(shè)搜索詞為“非誠勿擾電影”,對該搜索詞進(jìn)行分詞處理后,可確定其中一個關(guān)鍵詞是“非誠勿擾”。根據(jù)搜索詞可知,用戶的搜索意圖是電影版的非誠勿擾。但因為非誠勿擾是一個有歧義的實體詞,包含了綜藝、電影等義項,利用現(xiàn)有的搜索方法進(jìn)行搜索時,不會確定非誠勿擾對應(yīng)的義項,并且由于搜索結(jié)果是根據(jù)搜索到的視頻的點擊率進(jìn)行混排得到的,導(dǎo)致在搜索結(jié)果中排在前面的視頻中可能包含了大量的綜藝版非誠勿擾,給用戶體驗帶來了負(fù)面影響,降低了用戶體驗。在本發(fā)明實施例中,在確定關(guān)鍵詞是歧義實體詞的情況下,確定該關(guān)鍵詞對應(yīng)的義項,在所確定的義項中搜索包含有該關(guān)鍵詞的信息,獲得搜索結(jié)果,在提高了搜索結(jié)果的準(zhǔn)確性的同時,因為確定了用戶的真實搜索意圖,更加準(zhǔn)確地搜索出用戶感興趣的信息,進(jìn)而,相較于現(xiàn)有技術(shù),提高了用戶體驗。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
圖2為本發(fā)明實施例所提供的搜索方法的第二種流程示意圖?;趫D1所提供的實施例,本發(fā)明實施例所提供的一種搜索方法,在所述目標(biāo)分詞結(jié)果中不存在該目標(biāo)歧義實體詞的目標(biāo)特征詞的情況下,在s102之后,還包括s107、s108和s109,其中,
s107:根據(jù)預(yù)先建立的歧義實體詞與義項之間的對應(yīng)關(guān)系,確定與該目標(biāo)歧義實體詞具有對應(yīng)關(guān)系的所有義項。
如果關(guān)鍵詞是歧義實體詞,則該關(guān)鍵詞有至少兩個義項。在設(shè)置歧義實體詞庫的時候,同時也建立了歧義實體詞庫中每一實體詞與其對應(yīng)的義項之間的對應(yīng)關(guān)系。具體地,建立方法為:在確定一個實體詞是歧義實體詞后,確定該實體詞的所有義項。示例性的,確定非誠勿擾是歧義實體詞后,發(fā)現(xiàn)存在非誠勿的綜藝的信息、電影的信息和普通詞的信息,則可以確定非誠勿擾對應(yīng)的義項分別為:綜藝、電影和普通詞,建立非誠勿擾與確定的義項之間的對應(yīng)關(guān)系。如果一個詞有普通詞義項,說明在作為普通詞義項使用時,使用的是該詞的本意。建立的對應(yīng)關(guān)系可以存儲在歧義實體詞庫中,也可以存儲在其他的地方。
針對一個目標(biāo)歧義實體詞,如果目標(biāo)分詞結(jié)果中不包含目標(biāo)特征詞,就無法確定真實的搜索意圖。為了提高用戶體驗,需要確定用戶的真實搜索意圖,以確定具體搜索哪些信息,因此本發(fā)明實施例提供了另一種確定目標(biāo)歧義實體詞的義項的方法。
本領(lǐng)域技術(shù)人員可以理解的是,根據(jù)建立的歧義實體詞與義項對應(yīng)的關(guān)系,就可以確定該目標(biāo)歧義實體詞的所有義項。示例性的,目標(biāo)分詞結(jié)果中只包含了非誠勿擾這個關(guān)鍵詞,非誠勿擾是目標(biāo)歧義實體詞,根據(jù)預(yù)先建立的歧義實體詞與義項之間的關(guān)聯(lián)關(guān)系,則可以確定非誠勿擾的義項有:綜藝、電影和電視劇。
s108:基于該目標(biāo)歧義實體詞和所確定的義項,生成并展示搜索提示,其中,所述搜索提示,用于提示目標(biāo)歧義實體詞對應(yīng)的義項。
需要說明的是,搜索提示中包含了目標(biāo)歧義實體詞和該目標(biāo)歧義實體詞對應(yīng)的義項,延續(xù)上述示例,搜索提示可以為:您是不是想搜:“非誠勿擾電影”、“非誠勿擾綜藝”或“非誠勿擾電視劇”。當(dāng)然,生成的搜索提示不止上述示例的提示形式,還包括其他的形式,在這里不進(jìn)行限定。
s109:獲取針對所述搜索提示確定的目標(biāo)義項,并執(zhí)行s105。
在獲取針對搜索提示確定的目標(biāo)義項后,就確定了待搜索信息,則執(zhí)行s105。獲取目標(biāo)義項的方法可以為:獲取用戶基于展示的搜索提示所選擇的義項,該用戶所選擇的義項就是目標(biāo)義項。
如果目標(biāo)關(guān)鍵詞在歧義實體庫中,但無法確定目標(biāo)義項的情況下,可以利用現(xiàn)有技術(shù)會中的搜索方法,獲得搜索信息。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,可以確定目標(biāo)特征詞或者生成搜索提示,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
在本發(fā)明的另一個具體實施例中,參見圖3,提供了搜索方法的第三種流程示意圖,與圖1所示實施例相比,本實施例中,在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息(s105),包括:
s1051:針對每一所確定的義項,根據(jù)預(yù)先建立的義項與第一倒排表之間的對應(yīng)關(guān)系,確定與該義項具有對應(yīng)關(guān)系的第一倒排表,并在所確定的第一倒排表中,搜索包含該義項對應(yīng)的目標(biāo)詞的第一倒排表,作為目標(biāo)倒排表;其中,所述第一倒排表是預(yù)先建立的表,一張第一倒排表中存儲有一個關(guān)鍵詞基于一個義項確定的待搜索信息的標(biāo)識。
在實際應(yīng)用中,一個義項對應(yīng)很多第一倒排表,示例性的,電影這個義項對應(yīng)了針對“非誠勿擾”這個關(guān)鍵詞建立的第一倒排表、針對“小時代”這個關(guān)鍵詞建立的第一倒排表、針對“三生三世十里桃花”這個關(guān)鍵詞建立的第一倒排表。在確定義項是哪個義項后,根據(jù)義項與第一倒排表之間的對應(yīng)關(guān)系,就可以確定與該義項具有對應(yīng)關(guān)系的第一倒排表。在所確定的第一倒排表中,搜索包含該義項對應(yīng)的目標(biāo)詞的第一倒排表,作為目標(biāo)倒排表。
在本發(fā)明的一個具體實施例中,所述第一倒排表是通過以下方式建立的:
獲取各個目標(biāo)樣本信息的標(biāo)識;
將所獲取的標(biāo)識輸入到預(yù)先訓(xùn)練好的義項分類模型,獲得每一目標(biāo)樣本信息對應(yīng)的義項,其中,所述義項分類模型是根據(jù)樣本信息的標(biāo)識與該樣本信息對應(yīng)的義項二者之間的關(guān)聯(lián)關(guān)系建立的;
對各個樣本信息進(jìn)行分詞處理,獲得每一樣本信息的分詞結(jié)果;
根據(jù)所獲得的義項,確定屬于同一個義項的目標(biāo)樣本信息;
在所確定的屬于同一義項的目標(biāo)樣本信息中,確定包含有同一個關(guān)鍵詞的目標(biāo)樣本信息,作為分類樣本信息;
對于每一類分類樣本信息,基于該分類樣本信息中各個目標(biāo)樣本信息的標(biāo)識、共同對應(yīng)的關(guān)鍵詞以及所屬義項,建立倒排表。
需要說明的是,倒排表是按照關(guān)鍵詞建立的索引表。標(biāo)識用于確定待搜索信息對應(yīng)的義項,可以為待搜索信息的標(biāo)題或者摘要等等。
在本發(fā)明實施例中,各個目標(biāo)樣本信息可以理解為是上述所提到的信息庫中的信息。義項分類模型是為了對義項進(jìn)行分類而建立的模型,進(jìn)一步地,是根據(jù)樣本信息的標(biāo)識與該樣本信息對應(yīng)的義項二者之間的關(guān)聯(lián)關(guān)系建立的。在本發(fā)明實施例中,該義項分類模型的輸入是標(biāo)識,輸出是該標(biāo)識所屬的目標(biāo)樣本對應(yīng)的義項,這樣就可以確定樣本信息對應(yīng)的義項,從而實現(xiàn)對義項的分類。具體的,義項分類模型對樣本信息進(jìn)行分詞處理得到分詞結(jié)果,確定分詞結(jié)果中的歧義實體詞的義項。
在本發(fā)明實施例中,對目標(biāo)樣本信息進(jìn)行分詞處理,是對目標(biāo)樣本信息的標(biāo)題或摘要進(jìn)行分詞處理,獲得分詞結(jié)果。每一個目標(biāo)樣本信息通過義項分類模型進(jìn)行分類后,獲得了該目標(biāo)樣本信息的義項,具體的,是獲得了針對目標(biāo)樣本信息的分詞結(jié)果中的歧義實體詞的義項。根據(jù)所獲得的義項,就可以確定同屬于一個義項的目標(biāo)樣本信息,即每一個義項對應(yīng)的信息。
在所確定的屬于同一個義項的目標(biāo)樣本信息中,對包含有同一個關(guān)鍵詞的目標(biāo)樣本信息進(jìn)行聚類,從而確定分類樣本信息,即同一個義項中,根據(jù)關(guān)鍵詞,對該義項對應(yīng)的目標(biāo)樣本信息進(jìn)行分類,獲得分類樣本信息。然后,對于所確定的分類樣本信息,基于該分類樣本信息中各個目標(biāo)樣本信息的標(biāo)識、共同對應(yīng)的關(guān)鍵詞以及所屬義項,建立第一倒排表。示例性的,以非誠勿擾為關(guān)鍵詞,建立的倒排表的結(jié)構(gòu)示意圖可以如圖4所示。
在本發(fā)明的一個具體實施例中,所述義項分類模型是通過以下方式訓(xùn)練的:
確定義項的所有類型;
收集針對每一類型義項的樣本信息;
將收集到的樣本信息的標(biāo)識和樣本信息對應(yīng)的義項輸入到預(yù)先建立好的義項分類模型中,對所述義項分類模型進(jìn)行訓(xùn)練。
在本發(fā)明實施例中,確定義項的所有類型可以為:確定歧義實體詞庫中的每一實體詞對應(yīng)的義項類型;基于所確定的每一實體詞對應(yīng)的義項類型,確定義項的所有義項。還可以根據(jù)信息庫中的信息所屬的行業(yè)確定義項的所有類型,示例性的,信息庫中的信息都屬于音樂行業(yè),義項可以為歌曲名、演唱者、曲作者、詞作者、專輯名等等,根據(jù)音樂行業(yè)中的信息的特點,可以確定義項的所有類型。
收集針對每一類型義項的樣本信息可以為:在歧義實體詞庫中,確定每一類型的義項對應(yīng)的實體詞。然后,對包含有該實體詞的信息進(jìn)行聚類,從而獲得針對每一類型義項的樣本信息。為了提高訓(xùn)練結(jié)果的精確度,可以在收集樣本信息的時候適當(dāng)加入一些人工干預(yù),使得訓(xùn)練好的義項分類模型的分類結(jié)果可以更加準(zhǔn)確。收集的針對每一類型義項的樣本信息的標(biāo)識,就是訓(xùn)練語料。
在本發(fā)明實施例中,可以采用機(jī)器學(xué)習(xí)的方法對義項分類模型進(jìn)行訓(xùn)練。具體的,是使用機(jī)器學(xué)習(xí)的方法對收集到的樣本信息的標(biāo)識進(jìn)行特征抽取和分類,確定該標(biāo)識對應(yīng)的樣本信息對應(yīng)的義項。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能,是人工智能的核心。使用機(jī)器學(xué)習(xí)的方法對義項分類模型進(jìn)行訓(xùn)練是現(xiàn)有技術(shù),具體的訓(xùn)練過程在這里不進(jìn)行贅述。
s1052:針對每一目標(biāo)關(guān)鍵詞,確定針對該目標(biāo)關(guān)鍵詞建立的第二倒排表;其中,一張第二倒排表中存儲基于一個關(guān)鍵詞確定的待搜索信息的標(biāo)識。
需要說明的是,如果目標(biāo)關(guān)鍵詞是歧義實體詞,則針對該目標(biāo)關(guān)鍵詞建立的第二倒排表是由針對該關(guān)鍵詞建立的所有第一倒排表組成。
具體的,所述基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果(s106),包括:
s106a:基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
在實際應(yīng)用中,可以獲得所確定的目標(biāo)倒排表和第二倒排表中對應(yīng)的信息,作為搜索結(jié)果。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
在本發(fā)明的另一個具體實施例中,參見圖5,提供了搜索方法的第四種流程示意圖,與圖3所示實施例相比,本實施例中,所述基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果(s106a),包括:
s1061:針對每一目標(biāo)詞,確定該目標(biāo)詞除所確定的義項之外的所有義項,并在所確定的每一義項對應(yīng)的第一倒排表中,搜索包含該目標(biāo)詞的第一倒排表,作為第三倒排表。
目標(biāo)詞在歧義實體庫中,說明該目標(biāo)詞除了已經(jīng)確定的義項以外,還存在其他的義項??梢愿鶕?jù)歧義實體詞與義項之間的對應(yīng)關(guān)系,確定目標(biāo)詞除所確定的義項之外的所有義項。
s1062:針對每一所確定的目標(biāo)倒排表、第二倒排表和第三倒排表,分別設(shè)置權(quán)重,其中,對每一目標(biāo)倒排表設(shè)置的權(quán)重大于對任意一個第二倒排表和第三倒排表設(shè)置的權(quán)重。
為了進(jìn)一步提高搜索結(jié)果的準(zhǔn)確性,需要目標(biāo)倒排表需要排在搜索結(jié)果中的前面,這樣顯示搜索結(jié)果,目標(biāo)信息就排在前面了,因此,需要對目標(biāo)倒排表設(shè)置的權(quán)重大于任意一個對任意一個第二倒排表和第三倒排表設(shè)置的權(quán)重。權(quán)重的具體值可以根據(jù)實際情況而定。
s1063:基于設(shè)置權(quán)重的大小,對所確定的目標(biāo)倒排表、第二倒排表和第三倒排表進(jìn)行排序,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
在本發(fā)明實施例中,可以基于設(shè)置的權(quán)重,計算目標(biāo)倒排表、第二倒排表和第三倒排表分別與目標(biāo)搜索詞的相關(guān)性。根據(jù)計算得到的相關(guān)性,對所確定的目標(biāo)倒排表、第二倒排表和第三倒排表中的信息進(jìn)行排序,獲得針對目標(biāo)搜索詞的搜索結(jié)果。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
與圖1所示的方法實施例相對應(yīng),圖6為本發(fā)明實施例提供的搜索裝置的第一種結(jié)構(gòu)示意圖,該裝置包括:第一獲取模塊201、第一判斷模塊202、第一確定模塊203、第二確定模塊204、搜索模塊205和獲得模塊206,其中,
第一獲取模塊201,用于獲取目標(biāo)搜索詞,并對所述目標(biāo)搜索詞進(jìn)行分詞處理,獲得目標(biāo)分詞結(jié)果,其中,所述目標(biāo)分詞結(jié)果包括至少一個關(guān)鍵詞;
第一判斷模塊202,用于判斷所述目標(biāo)分詞結(jié)果中是否有記錄在預(yù)先設(shè)置的歧義實體詞庫中的關(guān)鍵詞,其中,所述歧義實體詞庫,用于存儲存在至少兩種義項的詞;
第一確定模塊203,用于在所述第一判斷模塊202的判斷結(jié)果為是的情況下從所述目標(biāo)分詞結(jié)果中確定各個目標(biāo)歧義實體詞的目標(biāo)特征詞,其中,所述目標(biāo)歧義實體詞為:所述目標(biāo)分詞結(jié)果中記錄在所述歧義實體詞庫中的關(guān)鍵詞,所述目標(biāo)特征詞為:用于確定所述目標(biāo)歧義實體詞對應(yīng)義項的關(guān)鍵詞;
第二確定模塊204,用于分別根據(jù)每一目標(biāo)歧義實體詞的目標(biāo)特征詞,確定每一目標(biāo)歧義實體詞的義項;
搜索模塊205,用于在每一義項對應(yīng)的待搜索信息中,搜索包含該義項對應(yīng)的目標(biāo)詞的待搜索信息,并針對每一目標(biāo)關(guān)鍵詞,在用于存儲待搜索信息的信息庫中搜索包含該目標(biāo)關(guān)鍵詞的待搜索信息,其中,所述目標(biāo)詞為:確定一義項時所采用的目標(biāo)歧義實體詞,所述目標(biāo)關(guān)鍵詞為:所述目標(biāo)分詞結(jié)果中除目標(biāo)詞之外的關(guān)鍵詞;
獲得模塊206,用于基于搜索得到的信息,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
與圖2所示的方法實施例相對應(yīng),圖7為本發(fā)明實施例提供的搜索裝置的第二種結(jié)構(gòu)示意圖,該裝置還可以包括:第三確定模塊207、展示模塊208和第二獲取模塊209,其中,
第三確定模塊207,用于在所述目標(biāo)分詞結(jié)果中不存在該目標(biāo)歧義實體詞的目標(biāo)特征詞的情況下,根據(jù)預(yù)先建立的歧義實體詞與義項之間的對應(yīng)關(guān)系,確定與該目標(biāo)歧義實體詞具有對應(yīng)關(guān)系的所有義項;
展示模塊208,用于基于該目標(biāo)歧義實體詞和所確定的義項,生成并展示搜索提示,其中,所述搜索提示,用于提示目標(biāo)歧義實體詞對應(yīng)的義項;
第二獲取模塊209,用于獲取針對所述搜索提示確定的義項,并執(zhí)行所述搜索模塊205。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,可以確定目標(biāo)特征詞或者生成搜索提示,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
與圖3所示的方法實施例相對應(yīng),圖8為本發(fā)明實施例提供的搜索裝置的第三種結(jié)構(gòu)示意圖,搜索模塊205包括:第一搜索子模塊2051和確定子模塊2052,其中,
第一搜索子模塊2051,用于針對每一所確定的義項,根據(jù)預(yù)先建立的義項與第一倒排表之間的對應(yīng)關(guān)系,確定與該義項具有對應(yīng)關(guān)系的第一倒排表,并在所確定的第一倒排表中,搜索包含該義項對應(yīng)的目標(biāo)詞的第一倒排表,作為目標(biāo)倒排表;其中,所述第一倒排表是預(yù)先建立的表,一張第一倒排表中存儲有一個關(guān)鍵詞基于一個義項確定的待搜索信息的標(biāo)識;
確定子模塊2052,用于針對每一目標(biāo)關(guān)鍵詞,確定針對該目標(biāo)關(guān)鍵詞建立的第二倒排表;其中,一張第二倒排表中存儲基于一個關(guān)鍵詞確定的待搜索信息的標(biāo)識。
所述獲得模塊206,具體用于基于所確定的目標(biāo)倒排表和第二倒排表,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
具體的,所述裝置還包括建立模塊(圖中未示出)。
建立模塊,用于獲取各個目標(biāo)樣本信息的標(biāo)識;將所獲取的標(biāo)識輸入到預(yù)先訓(xùn)練好的義項分類模型,獲得每一目標(biāo)樣本信息對應(yīng)的義項,其中,所述義項分類模型是根據(jù)樣本信息的標(biāo)識與該樣本信息對應(yīng)的義項二者之間的關(guān)聯(lián)關(guān)系建立的;對各個樣本信息進(jìn)行分詞處理,獲得每一樣本信息的分詞結(jié)果;根據(jù)所獲得的義項,確定屬于同一個義項的目標(biāo)樣本信息;在所確定的屬于同一義項的目標(biāo)樣本信息中,確定包含有同一個關(guān)鍵詞的目標(biāo)樣本信息,作為分類樣本信息;對于每一類分類樣本信息,基于該分類樣本信息中各個目標(biāo)樣本信息的標(biāo)識、共同對應(yīng)的關(guān)鍵詞以及所屬義項,建立第一倒排表。
具體的,所述裝置還包括訓(xùn)練模塊(圖中未示出)。
所述訓(xùn)練模塊,用于確定義項的所有類型;收集針對每一類型義項的樣本信息;將收集到的樣本信息的標(biāo)識和樣本信息對應(yīng)的義項輸入到預(yù)先建立好的義項分類模型中,對所述義項分類模型進(jìn)行訓(xùn)練。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
與圖5所示的方法實施例相對應(yīng),圖9為本發(fā)明實施例提供的搜索裝置的第四種結(jié)構(gòu)示意圖,獲得模塊206包括:第二搜索子模塊2061、設(shè)置子模塊2062和獲得子模塊2063,其中,
第二搜索子模塊2061,用于針對每一目標(biāo)詞,確定該目標(biāo)詞除所確定的義項之外的所有義項,并在所確定的每一義項對應(yīng)的第一倒排表中,搜索包含該目標(biāo)詞的第一倒排表,作為第三倒排表;
設(shè)置子模塊2062,針對每一所確定的目標(biāo)倒排表、第二倒排表和第三倒排表,分別設(shè)置權(quán)重,其中,對每一目標(biāo)倒排表設(shè)置的權(quán)重大于對任意一個第二倒排表和第三倒排表設(shè)置的權(quán)重;
獲得子模塊2063,用于基于設(shè)置權(quán)重的大小,對所確定的目標(biāo)倒排表、第二倒排表和第三倒排表進(jìn)行排序,獲得針對所述目標(biāo)搜索詞的搜索結(jié)果。
應(yīng)用本發(fā)明實施例,可以通過判斷目標(biāo)分詞結(jié)果中所包含的關(guān)鍵詞是否記錄在歧義實體詞庫中,在確定該關(guān)鍵詞為歧義實體詞后,確定該目標(biāo)歧義實體詞的義項,在義項對應(yīng)有待搜索信息中搜索,獲得搜索結(jié)果,相較于現(xiàn)有技術(shù),提高了搜索結(jié)果的準(zhǔn)確性,因為確定了用戶的真實搜索意圖,進(jìn)而提高了用戶體驗。
在本發(fā)明提供的又一實施例中,還提供了一種計算機(jī)可讀存儲介質(zhì),該計算機(jī)可讀存儲介質(zhì)中存儲有指令,當(dāng)其在計算機(jī)上運行時,使得計算機(jī)執(zhí)行上述實施例中任一所述的搜索方法。
在本發(fā)明提供的又一實施例中,還提供了一種包含指令的計算機(jī)程序產(chǎn)品,當(dāng)其在計算機(jī)上運行時,使得計算機(jī)執(zhí)行上述任一所述的搜索方法。
在上述實施例中,可以全部或部分地通過軟件、硬件、固件或者其任意組合來實現(xiàn)。當(dāng)使用軟件實現(xiàn)時,可以全部或部分地以計算機(jī)程序產(chǎn)品的形式實現(xiàn)。所述計算機(jī)程序產(chǎn)品包括一個或多個計算機(jī)指令。在計算機(jī)上加載和執(zhí)行所述計算機(jī)程序指令時,全部或部分地產(chǎn)生按照本發(fā)明實施例所述的流程或功能。所述計算機(jī)可以是通用計算機(jī)、專用計算機(jī)、計算機(jī)網(wǎng)絡(luò)、或者其他可編程裝置。所述計算機(jī)指令可以存儲在計算機(jī)可讀存儲介質(zhì)中,或者從一個計算機(jī)可讀存儲介質(zhì)向另一個計算機(jī)可讀存儲介質(zhì)傳輸,例如,所述計算機(jī)指令可以從一個網(wǎng)站站點、計算機(jī)、服務(wù)器或數(shù)據(jù)中心通過有線(例如同軸電纜、光纖、數(shù)字用戶線(dsl))或無線(例如紅外、無線、微波等)方式向另一個網(wǎng)站站點、計算機(jī)、服務(wù)器或數(shù)據(jù)中心進(jìn)行傳輸。所述計算機(jī)可讀存儲介質(zhì)可以是計算機(jī)能夠存取的任何可用介質(zhì)或者是包含一個或多個可用介質(zhì)集成的服務(wù)器、數(shù)據(jù)中心等數(shù)據(jù)存儲設(shè)備。所述可用介質(zhì)可以是磁性介質(zhì),(例如,軟盤、硬盤、磁帶)、光介質(zhì)(例如,dvd)、或者半導(dǎo)體介質(zhì)(例如固態(tài)硬盤solidstatedisk(ssd))等。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。