詢字符串)該用戶所點(diǎn)擊的各類目,點(diǎn)擊 所述各類目的概率是對(duì)于該詞語(yǔ)所在的查詢字符串該用戶所點(diǎn)擊的各類目的概率,,一個(gè) 詞語(yǔ)a對(duì)應(yīng)的一個(gè)點(diǎn)擊類目C1的次數(shù)是對(duì)于該詞語(yǔ)a所在的一個(gè)或多個(gè)查詢字符串該用戶 點(diǎn)擊類目C1的次數(shù)的總和sumcl,對(duì)于該詞語(yǔ)a,該用戶點(diǎn)擊類目C1的概率為點(diǎn)擊次數(shù)sumcl 除以對(duì)于該詞語(yǔ)該用戶所點(diǎn)擊的全部類目的點(diǎn)擊次數(shù)。對(duì)本次輸入的查詢字符串進(jìn)行分析 后得到一組詞語(yǔ),可以在該用戶的詞語(yǔ)-類目概率表中查找該組詞語(yǔ)對(duì)應(yīng)類目,然后可以通 過(guò)貝葉斯模型根據(jù)所查找到的類目的概率確定本次輸入的查詢字符串所屬類目的概率,并 將所述確定出的所屬類目的概率大于第二預(yù)定閾值的一個(gè)或多個(gè)類目作為本次輸入的查 詢字符串的類目。在一些具體的實(shí)施方式中,可以選擇所屬類目中概率最大的類目作為本 次輸入的查詢字符串的類目。
[0084] 查找模塊202對(duì)查詢字符串的分詞可包括:將查詢字符串分為尾部詞語(yǔ)和非尾部 詞語(yǔ),也就是說(shuō),對(duì)查詢字符串分詞得到的一組詞語(yǔ)中包括尾部詞語(yǔ)和非尾部詞語(yǔ),尾部詞 語(yǔ)是指位于查詢字符串的末尾的詞語(yǔ),本文中用tail表示,非尾部詞語(yǔ)是指位于查詢字符 串的尾部之外的詞語(yǔ),也可以說(shuō),是位于查詢字符串的頭部的詞語(yǔ),本文中用head表示。本 發(fā)明中將查詢字符串分為尾部詞語(yǔ)和非尾部詞語(yǔ),是考慮到對(duì)于中文,主語(yǔ)一般位于尾部, 尾部的詞語(yǔ)更能表達(dá)查詢字符串的搜索意圖。
[0085]查找模塊202根據(jù)貝葉斯概率公式確定查詢字符串所屬類目的概率可以根據(jù)上面 方法部分的公式(1)至(6)進(jìn)行,在此不再贅述。
[0086]查找模塊202在根據(jù)對(duì)本次輸入的查詢字符串進(jìn)行分詞確定出所屬類目之后,可 以將確定出的類目結(jié)果發(fā)送至加權(quán)模塊203。加權(quán)模塊203可以根據(jù)所述確定出的查詢字符 串的類目對(duì)本次查詢字符串的檢索結(jié)果排序進(jìn)行加權(quán),使得加權(quán)的檢索結(jié)果優(yōu)先展示本次 查詢字符串的所屬類目的檢索結(jié)果。而且,可以與現(xiàn)有技術(shù)中基于文本相關(guān)性的檢索技術(shù) 結(jié)合使用,增加檢索結(jié)果和查詢字符串之間在所屬類目方面的相關(guān)性,從而改善檢索結(jié)果 的準(zhǔn)確度和針對(duì)性。
[0087] 通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助 軟件結(jié)合硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案對(duì)【背景技術(shù)】做出貢 獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介 質(zhì)中,如R0M/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算 機(jī),服務(wù)器,智能手機(jī)或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述 的方法。
[0088] 本發(fā)明說(shuō)明書(shū)中使用的術(shù)語(yǔ)和措辭僅僅為了舉例說(shuō)明,并不意味構(gòu)成限定。本領(lǐng) 域技術(shù)人員應(yīng)當(dāng)理解,在不脫離所公開(kāi)的實(shí)施方式的基本原理的前提下,對(duì)上述實(shí)施方式 中的各細(xì)節(jié)可進(jìn)行各種變化。因此,本發(fā)明的范圍只由權(quán)利要求確定,在權(quán)利要求中,除非 另有說(shuō)明,所有的術(shù)語(yǔ)應(yīng)按最寬泛合理的意思進(jìn)行理解。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)檢索方法,其特征在于,所述方法包括: 接收用戶本次輸入的查詢字符串, 在所述用戶的查詢-類目概率表中查找與本次輸入的查詢字符串對(duì)應(yīng)的查詢字符串, 并將查找到的查詢字符串對(duì)應(yīng)的類目的概率大于第一預(yù)定閾值的類目作為本次輸入的查 詢字符串的類目, 其中,所述查詢-類目概率表包括查詢字符串、對(duì)于所述查詢字符串所述用戶所點(diǎn)擊的 各類目和點(diǎn)擊所述各類目的概率。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在所述用戶的查詢-類目概率表中未查找到與本次輸入的查詢字符串對(duì)應(yīng)的查詢字符 串時(shí),將本次輸入的查詢字符串進(jìn)行分詞得到第一組詞語(yǔ),在所述用戶的詞語(yǔ)-類目概率表 中查找與所述第一組詞語(yǔ)對(duì)應(yīng)的詞語(yǔ),并根據(jù)與所述第一組詞語(yǔ)對(duì)應(yīng)的類目的概率確定本 次輸入的查詢字符串所屬類目的概率,并將所述所屬類目的概率大于第二預(yù)定閾值的類目 作為本次輸入的查詢字符串的類目, 其中,所述詞語(yǔ)-類目概率表包括詞語(yǔ)、對(duì)于所述詞語(yǔ)所述用戶所點(diǎn)擊的各類目和點(diǎn)擊 所述各類目的概率。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)與所述第一組詞語(yǔ)對(duì)應(yīng)的類目的 概率確定本次輸入的查詢字符串所屬類目的概率包括:通過(guò)貝葉斯概率模型根據(jù)與所述第 一組詞語(yǔ)對(duì)應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率。4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述查詢-類目概率表中點(diǎn)擊 所述各類目的概率是通過(guò)對(duì)于所述查詢字符串所述用戶所點(diǎn)擊的各類目的點(diǎn)擊次數(shù)和對(duì) 于所述查詢字符串所述用戶點(diǎn)擊的全部類目的點(diǎn)擊次數(shù)確定。5. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述查詢-類目概率表和所述詞語(yǔ)-類 目概率表是根據(jù)所述用戶的查詢?nèi)罩竞忘c(diǎn)擊日志進(jìn)行定期更新。6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一組詞語(yǔ)包括尾部詞語(yǔ)和非尾部詞 語(yǔ)。7. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 在確定出本次輸入的查詢字符串的類目之后,根據(jù)所述確定出的查詢字符串的類目對(duì) 本次輸入的查詢字符串的檢索結(jié)果排序進(jìn)行加權(quán)。8. -種數(shù)據(jù)檢索裝置,其特征在于,所述裝置包括: 接收模塊,用于接收用戶本次輸入的查詢字符串; 查找模塊,用于在所述用戶的查詢-類目概率表中查找與本次輸入的查詢字符串對(duì)應(yīng) 的查詢字符串,并將查找到的查詢字符串對(duì)應(yīng)的類目的概率大于第一預(yù)定閾值的類目作為 本次輸入的查詢字符串的類目,其中,所述查詢-類目概率表包括查詢字符串、對(duì)于所述查 詢字符串所述用戶所點(diǎn)擊的各類目和點(diǎn)擊所述各類目的概率。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述查找模塊,還用于在所述用戶的查詢-類目概率表中未查找到與本次輸入的查詢字符串對(duì)應(yīng)的查詢字符串時(shí),將本次輸入的查詢 字符串進(jìn)行分詞得到第一組詞語(yǔ),在所述用戶的詞語(yǔ)-類目概率表中查找與所述第一組詞 語(yǔ)對(duì)應(yīng)的詞語(yǔ),并根據(jù)與所述第一組詞語(yǔ)對(duì)應(yīng)的類目的概率確定本次輸入的查詢字符串所 屬類目的概率,并將所述所屬類目的概率大于第二預(yù)定閾值的類目作為本次輸入的查詢字 符串的類目,其中,所述詞語(yǔ)-類目概率表包括詞語(yǔ)、對(duì)于所述詞語(yǔ)所述用戶所點(diǎn)擊的各類 目和點(diǎn)擊所述各類目的概率。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述查找模塊根據(jù)與所述第一組詞語(yǔ)對(duì) 應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率包括:通過(guò)貝葉斯概率模型根 據(jù)與所述第一組詞語(yǔ)對(duì)應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率。11. 根據(jù)權(quán)利要求8至10中任一項(xiàng)所述的裝置,其特征在于,所述查詢-類目概率表中點(diǎn) 擊所述各類目的概率是通過(guò)對(duì)于所述查詢字符串所述用戶所點(diǎn)擊的各類目的點(diǎn)擊次數(shù)和 對(duì)于所述查詢字符串所述用戶點(diǎn)擊的全部類目的點(diǎn)擊次數(shù)確定。12. 根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,所述查詢-類目概率表和所述詞語(yǔ)-類目概率表是根據(jù)所述用戶的查詢?nèi)罩竞忘c(diǎn)擊日志進(jìn)行定期更新。13. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一組詞語(yǔ)包括尾部詞語(yǔ)和非尾部 詞語(yǔ)。14. 根據(jù)權(quán)利要求8至10中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 加權(quán)模塊,用于在確定出本次輸入的查詢字符串的類目之后,根據(jù)所述確定出的查詢 字符串的類目對(duì)本次輸入的查詢字符串的檢索結(jié)果排序進(jìn)行加權(quán)。
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)檢索方法和裝置,該方法包括:接收用戶本次輸入的查詢字符串,在所述用戶的查詢-類目概率表中查找與本次輸入的查詢字符串對(duì)應(yīng)的查詢字符串,并將查找到的查詢字符串對(duì)應(yīng)的類目的概率大于第一預(yù)定閾值的類目作為本次輸入的查詢字符串的類目,其中,所述查詢-類目概率表包括查詢字符串、對(duì)于所述查詢字符串所述用戶所點(diǎn)擊的各類目和點(diǎn)擊所述各類目的概率。根據(jù)本發(fā)明的方法和裝置,增加了查詢字符串和檢索結(jié)果在類目方面的相關(guān)性,改善了檢索結(jié)果的精確度。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105468680
【申請(qǐng)?zhí)枴緾N201510783040
【發(fā)明人】馬林, 趙欣, 何明杰, 張興強(qiáng), 方穎
【申請(qǐng)人】中國(guó)建設(shè)銀行股份有限公司
【公開(kāi)日】2016年4月6日
【申請(qǐng)日】2015年11月16日