以確定搜索詞“肯德基”所屬行業(yè)為“美食”,因此可以得到精確索引詞“肯德基”和對(duì)應(yīng)的行業(yè)“美食”的詞條對(duì),為一對(duì)一的詞條對(duì),保存在精確詞典中。
[0043]又如,假設(shè)搜索詞為“展覽館”,被點(diǎn)擊的搜索結(jié)果有:包含有博物館的展覽信息的搜索結(jié)果,包含有美術(shù)館的展覽信息的搜索結(jié)果,以及包含有科技館的展覽信息的搜索結(jié)果,根據(jù)被點(diǎn)擊的包含有博物館的展覽信息的搜索結(jié)果,可以確定搜索詞“展覽館”所屬行業(yè)為“博物館”,根據(jù)被點(diǎn)擊的包含有美術(shù)館的展覽信息的搜索結(jié)果,可以確定搜索詞“展覽館”所屬行業(yè)為“美術(shù)館”,根據(jù)被點(diǎn)擊的包含有科技館的展覽信息的搜索結(jié)果,可以確定搜索詞“展覽館”所屬行業(yè)為“科技館”,因此可以得到精確索引詞“展覽館”和對(duì)應(yīng)的行業(yè)“博物館”、“美術(shù)館”和“科技館”的詞條對(duì),為一對(duì)多的詞條對(duì),保存在精確詞典中。
[0044]本實(shí)施例的技術(shù)方案,基于用戶搜索行為日志的分析,可以自動(dòng)地建立精確詞典,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對(duì),提高了精確詞典對(duì)搜索詞的覆蓋率;由于被點(diǎn)擊的搜索結(jié)果通常反映的是用戶的搜索需求,因此根據(jù)被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),得到的詞條對(duì)的準(zhǔn)確率高;同時(shí),對(duì)于精確詞典中的每個(gè)精確索引詞,由于對(duì)精確索引詞的對(duì)應(yīng)的所有被點(diǎn)擊的搜索結(jié)果均進(jìn)行了分析,避免了某些精確索引詞與行業(yè)的一對(duì)多對(duì)應(yīng)關(guān)系的遺漏,提高了精確詞典的詞條對(duì)的準(zhǔn)確率。
[0045]作為根據(jù)被點(diǎn)擊的搜索結(jié)果,形成精確詞典的一種優(yōu)選的實(shí)施方式,請(qǐng)參閱圖lb,可具體包括:操作131?操作132。
[0046]131、統(tǒng)計(jì)各搜索詞的搜索頻率,以及所述對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果的點(diǎn)擊概率。
[0047]前已述及,通常是獲取設(shè)定時(shí)間內(nèi)的用戶搜索行為日志。在設(shè)定時(shí)間內(nèi),用戶每進(jìn)行一次搜索操作,則總搜索次數(shù)加I,可統(tǒng)計(jì)得到設(shè)定時(shí)間內(nèi)的用戶搜索行為日志對(duì)應(yīng)的總搜索次數(shù),并統(tǒng)計(jì)各搜索詞的搜索次數(shù),對(duì)于各搜索詞,根據(jù)該搜索詞的搜索次數(shù)和總搜索次數(shù),即可統(tǒng)計(jì)得到該搜索詞的搜索頻率。
[0048]在對(duì)于同一搜索詞的多次搜索過程中,由于不同用戶的搜索需求不同,導(dǎo)致有的搜索結(jié)果的點(diǎn)擊次數(shù)較高,有的搜索結(jié)果的點(diǎn)擊次數(shù)較低,還有的搜索結(jié)果不被點(diǎn)擊,通過統(tǒng)計(jì)各搜索詞對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果的點(diǎn)擊概率,有利于獲知用戶的搜索需求。
[0049]132、對(duì)于所述搜索頻率大于第一門限值的各搜索詞,在該搜索詞對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果的點(diǎn)擊概率大于第二門限值時(shí),將該搜索詞作為精確索引詞,并確定對(duì)應(yīng)的所述點(diǎn)擊概率大于第二門限值的搜索結(jié)果所屬的行業(yè),作為所述精確索引詞對(duì)應(yīng)的行業(yè);建立并保存所述精確索引詞和對(duì)應(yīng)的行業(yè)的詞條對(duì),形成精確詞典。
[0050]例如,假設(shè)搜索詞“肯德基”的搜索頻率大于第一門限值,包含有肯德基門店信息的搜索結(jié)果的點(diǎn)擊概率大于第二門限值,包含有肯德基網(wǎng)上訂餐的搜索結(jié)果的點(diǎn)擊概率也大于第二門限值,包含有肯德基團(tuán)購(gòu)信息的搜索結(jié)果的點(diǎn)擊概率也大于第二門限值,經(jīng)過確定,這三個(gè)搜索結(jié)果所屬的行業(yè)均為“美食”,因此將搜索詞“肯德基”作為精確索引詞,將“美食”作為精確索引詞“肯德基”對(duì)應(yīng)的行業(yè),得到精確索引詞“肯德基”與對(duì)應(yīng)的行業(yè)“美食”的詞條對(duì),保存在精確詞典中。
[0051]類似地,可以得到精確詞典中的一一對(duì)應(yīng)的詞條對(duì),如,精確索引詞“招商銀行”與對(duì)應(yīng)的行業(yè)“銀行”的詞條對(duì)。
[0052]又如,假設(shè)搜索詞“ABC酒店”的搜索頻率大于第一門限值,包含有該酒店的入住信息的搜索結(jié)果的點(diǎn)擊概率大于第二門限值,包含有該酒店提供的菜品信息的搜索結(jié)果的點(diǎn)擊概率也大于第二門限值,經(jīng)過確定,包含有該酒店的入住信息的搜索結(jié)果所屬的行業(yè)為“酒店”,包含有該酒店提供的菜品信息的搜索結(jié)果所屬的行業(yè)為“美食”,因此將搜索詞“ABC酒店”作為精確索引詞,將“酒店”和“美食”均作為精確索引詞“ABC酒店”對(duì)應(yīng)的行業(yè),得到精確索引詞“ABC酒店”與對(duì)應(yīng)的行業(yè)“酒店”和“美食”的詞條對(duì),保存在精確詞典中。
[0053]類似地,可以得到精確詞典中的一對(duì)多的詞條對(duì),如,精確索引詞“展覽館”與對(duì)應(yīng)的行業(yè)“博物館”、“美術(shù)館”和“科技館”的詞條對(duì)。
[0054]本實(shí)施例的技術(shù)方案,基于用戶搜索行為日志的分析,可以自動(dòng)地建立精確詞典,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對(duì),提高了精確詞典對(duì)搜索詞的覆蓋率;對(duì)于精確詞典中的每個(gè)詞條對(duì),由于精確索引詞的搜索頻率大于第一門限值,使得搜索頻率較高的搜索詞均涵蓋在精確詞典中,有利于搜索頻率較高的搜索詞的行業(yè)識(shí)別,且對(duì)精確索引詞的對(duì)應(yīng)的每個(gè)搜索結(jié)果的點(diǎn)擊概率均進(jìn)行了統(tǒng)計(jì)分析,并將點(diǎn)擊概率大于第二門限值的各搜索結(jié)果所屬的行業(yè),確定為精確索引詞對(duì)應(yīng)的行業(yè),避免了某些精確索引詞與行業(yè)的一對(duì)多對(duì)應(yīng)關(guān)系的遺漏,提高了精確詞典的詞條對(duì)的準(zhǔn)確率。
[0055]實(shí)施例二
[0056]本實(shí)施例提供一種行業(yè)詞典的建立方法,本實(shí)施例在上述實(shí)施例的基礎(chǔ)上,在統(tǒng)計(jì)各搜索詞的搜索頻率之后,還包括:
[0057]對(duì)于所述搜索頻率小于等于第一門限值的各搜索詞,利用所述精確詞典,對(duì)該搜索詞進(jìn)行拆分,得到該搜索詞對(duì)應(yīng)的子搜索詞,以及所述子搜索詞對(duì)應(yīng)的行業(yè);將該搜索詞對(duì)應(yīng)的子搜索詞作為模糊索引詞,建立并保存所述模糊索引詞、以及所述子搜索詞對(duì)應(yīng)的行業(yè)的詞條對(duì),形成模糊詞典。
[0058]例如,假設(shè)搜索詞“附近的招商銀行”的搜索頻率小于等于第一門限值,利用精確詞典,對(duì)該搜索詞進(jìn)行拆分,得到該搜索詞對(duì)應(yīng)的子搜索詞“招商銀行”,以及子搜索詞“招商銀行”對(duì)應(yīng)的行業(yè)“銀行”,因此,將搜索詞“附近的招商銀行”對(duì)應(yīng)的子搜索詞“招商銀行”作為模糊搜索詞,建立模糊搜索詞“招商銀行”與行業(yè)“銀行”的詞條對(duì),保存在模糊詞典中。
[0059]類似地,可以得到模糊詞典中的一一對(duì)應(yīng)的詞條對(duì),如,模糊索引詞“肯德基”與對(duì)應(yīng)的行業(yè)“美食”的詞條對(duì)。
[0060]需要說明的是,精確詞典中的某些詞條對(duì)與模糊詞典中的模糊詞條對(duì)可以部分重疊,比如“肯德基”一“美食”這個(gè)詞條對(duì),既可以出現(xiàn)在精確詞典里面,同時(shí)也可以出現(xiàn)在模糊詞典里面,但是對(duì)于精確詞典而言,用戶搜索行為日志中的搜索詞與精確索引詞“肯德基”精確匹配,詞條對(duì)的具體獲取方式上述實(shí)施例已述及,不再贅述;對(duì)于模糊詞典而言,用戶搜索行為日志中的搜索詞與模糊搜索詞“肯德基”模糊匹配,例如,用戶搜索詞為“附近的肯德基”,獲取方式與精確詞典中該詞條對(duì)的獲取方式不同,是利用精確詞典對(duì)搜索詞進(jìn)行拆分得到的。
[0061]又如,假設(shè)搜索詞“肯德基附近的招商銀行”的搜索頻率小于等于第一門限值,利用精確詞典,對(duì)該搜索詞進(jìn)行拆分,得到該搜索詞對(duì)應(yīng)的子搜索詞“肯德基”和“招商銀行”,以及子搜索詞“肯德基”對(duì)應(yīng)的行業(yè)“美食”,和子搜索詞“招商銀行”對(duì)應(yīng)的行業(yè)“銀行”,因此,將搜索詞“肯德基附近的招商銀行”對(duì)應(yīng)的子搜索詞“肯德基”和“招商銀行”作為模糊搜索詞,建立詞條對(duì):“肯德基”、“招商銀行”一“美食”、“銀行”,保存在模糊詞典中。
[0062]本實(shí)施例的技術(shù)方案,一方面,基于用戶搜索行為日志的分析,可以自動(dòng)地建立精確詞典,隨著用戶搜索行為日志的更新,可以不斷更新模糊詞典中的詞條對(duì),提高了精確詞典對(duì)搜索詞的覆蓋率;另一方面,對(duì)于精確詞典中的每個(gè)詞條對(duì),由于精確索引詞的搜索頻率大于第一門限值,使得搜索頻率較高的搜索詞均涵蓋在精確詞典中,有利于搜索頻率較高的搜索詞的行業(yè)識(shí)別;再一方面,對(duì)精確索引詞的對(duì)應(yīng)的每個(gè)搜索結(jié)果的點(diǎn)擊概率均進(jìn)行了統(tǒng)計(jì)分析,并將點(diǎn)擊概率大于第二門限值的各搜索結(jié)果所屬的行業(yè),確定為精確索引詞對(duì)應(yīng)的行業(yè),避免了某些精確索引詞與行業(yè)的一對(duì)多對(duì)應(yīng)關(guān)系的遺漏,提高了精確詞典的詞條對(duì)的準(zhǔn)確率;又一方面,基于用戶搜索行為日志的進(jìn)一步分析,利用精確詞典,可以自動(dòng)地建立模糊詞典,對(duì)于搜索頻率較低的搜索詞(例如長(zhǎng)尾搜索詞),在利用精確詞典無(wú)法精確匹配時(shí),利用模糊詞典進(jìn)行模糊匹配,可以實(shí)現(xiàn)這部分搜索頻率較低的搜索詞的行業(yè)識(shí)別,通過精確詞典和模糊詞典進(jìn)一步提高了對(duì)搜索詞的覆蓋率。
[0063]實(shí)施例三
[0064]本實(shí)施例提供一種行業(yè)詞典的建立方法,本實(shí)施例在實(shí)施例二的基礎(chǔ)上,在形成模糊詞典之后,還包括:
[0065]在該搜索詞對(duì)應(yīng)的子搜索詞的數(shù)量為至少兩個(gè)時(shí),利用優(yōu)先級(jí)確定策略,確定至少兩個(gè)子搜索詞的優(yōu)先級(jí),建立并保存所