的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0051] 為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種相關(guān)性可改善的搜索詞的識(shí)別方 法。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的相關(guān)性可改善的搜索詞的識(shí)別方法的處理流程 圖。參見圖1,相關(guān)性可改善的搜索詞的識(shí)別方法至少包括步驟S102至步驟S108 :
[0052] 步驟S102、統(tǒng)計(jì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征;
[0053] 步驟S104、從統(tǒng)計(jì)的用戶行為特征中查找各搜索詞對(duì)應(yīng)的用戶行為特征,并形成 搜索詞-用戶行為特征的對(duì)應(yīng)關(guān)系;
[0054] 步驟S106、利用相關(guān)性策略分別對(duì)各組搜索詞-用戶行為特征的內(nèi)容進(jìn)行處理, 得到各組搜索詞-用戶行為特征的相關(guān)性值;
[0055] 步驟S108、識(shí)別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索 O
[0056] 在本發(fā)明實(shí)施例中,對(duì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征進(jìn)行統(tǒng)計(jì),一定 時(shí)間段內(nèi)的用戶行為特征具備普遍意義,并非是局限于局部個(gè)體或局部具體用戶行為特 征,即統(tǒng)計(jì)樣本是較為全面的。進(jìn)而從統(tǒng)計(jì)樣本中查找到各搜索詞對(duì)應(yīng)的用戶行為特征,并 形成搜索詞-用戶行為特征的對(duì)應(yīng)關(guān)系,對(duì)應(yīng)關(guān)系的形成有助于建立主體與用戶行為特征 之間的邏輯關(guān)系,更容易查找或計(jì)算或得到兩者間的關(guān)系。進(jìn)一步,利用相關(guān)性策略分別對(duì) 各組搜索詞-用戶行為特征的內(nèi)容進(jìn)行處理,得到各組搜索詞-用戶行為特征的相關(guān)性值, 進(jìn)而識(shí)別出其中相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索詞。用戶行 為特征與搜索詞之間的相關(guān)性越強(qiáng),反映出用戶對(duì)搜索詞對(duì)應(yīng)的搜索結(jié)果使用程度越高, 也就是說,搜索詞所對(duì)應(yīng)的搜索結(jié)果越優(yōu)秀,反而言之,若用戶行為特征與搜索詞之間的相 關(guān)性較弱,那么該搜索詞的相關(guān)性是可改善的。采用本發(fā)明提供的方法識(shí)別出相關(guān)性需要 改善的搜索詞,進(jìn)而便于搜索引擎對(duì)識(shí)別出的搜索詞進(jìn)行搜索結(jié)果的改善。在抓取資源一 定的情況下,找出需要改善的搜索詞,并對(duì)其搜索結(jié)果進(jìn)行改善,才能夠優(yōu)化搜索引擎的搜 索結(jié)果,提高搜索引擎的數(shù)據(jù)使用率,提高搜索引擎對(duì)用戶的吸引力。
[0057] 需要說明地是,用戶行為特征能夠通過搜索日志得到。具體地,從搜索日志中,統(tǒng) 計(jì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征,進(jìn)而在統(tǒng)計(jì)的用戶行為特征中查找各搜索詞 對(duì)應(yīng)的用戶行為特征。因搜索的時(shí)效性,某一類或某幾類用戶行為特征通常會(huì)集中出現(xiàn)在 一定時(shí)間段內(nèi),例如查詢?cè)~A在2014年3月是熱門詞匯,該月每日點(diǎn)擊量超過5萬次,而在 2014年6月,該查詢?cè)~A已經(jīng)不再是熱門詞匯,6月每日點(diǎn)擊量?jī)H有10余次。因此,一定時(shí) 間段內(nèi)的用戶行為特征針對(duì)該時(shí)間段是具備時(shí)效性的。
[0058] 其中,考慮到樣本的完整,用戶行為特征可以是用戶的任意行為引發(fā)的,例如,優(yōu) 選的,用戶的點(diǎn)擊次數(shù),以及檢索次數(shù)。
[0059] 以用戶的點(diǎn)擊次數(shù)和檢索次數(shù)為例,此時(shí),利用相關(guān)性策略分別對(duì)各組搜索 詞-用戶行為特征的內(nèi)容進(jìn)行處理,得到各組搜索詞-用戶行為特征的相關(guān)性值的處理流 程如圖2所示,包括步驟S202至步驟S206 :
[0060] 步驟S202、提取各搜索詞對(duì)應(yīng)的點(diǎn)擊次數(shù)以及檢索次數(shù);
[0061] 步驟S204、將各搜索詞的點(diǎn)擊次數(shù)除以檢索次數(shù),得到點(diǎn)擊/檢索比例值;
[0062] 步驟S206、根據(jù)第一預(yù)設(shè)規(guī)則對(duì)各搜索詞的點(diǎn)擊檢索比例值進(jìn)行處理,得到各組 搜索詞-用戶行為特征的相關(guān)性值。
[0063] 為簡(jiǎn)單明確地解釋各組搜索詞-用戶行為特征的相關(guān)性值,本實(shí)施例以公式的形 式對(duì)其進(jìn)行說明。
【主權(quán)項(xiàng)】
1. 一種相關(guān)性可改善的搜索詞的識(shí)別方法,包括: 統(tǒng)計(jì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征; 從統(tǒng)計(jì)的用戶行為特征中查找各搜索詞對(duì)應(yīng)的用戶行為特征,并形成搜索詞-用戶行 為特征的對(duì)應(yīng)關(guān)系; 利用相關(guān)性策略分別對(duì)各組搜索詞-用戶行為特征的內(nèi)容進(jìn)行處理,得到各組搜索 詞-用戶行為特征的相關(guān)性值; 識(shí)別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索詞。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述用戶行為特征包括點(diǎn)擊次數(shù)以及檢索次數(shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其中,利用相關(guān)性策略分別對(duì)各組搜索詞-用戶行為特 征的內(nèi)容進(jìn)行處理,得到各組搜索詞-用戶行為特征的相關(guān)性值,包括: 提取各搜索詞對(duì)應(yīng)的點(diǎn)擊次數(shù)以及檢索次數(shù); 將各搜索詞的點(diǎn)擊次數(shù)除以檢索次數(shù),得到點(diǎn)擊/檢索比例值; 根據(jù)第一預(yù)設(shè)規(guī)則對(duì)各搜索詞的點(diǎn)擊檢索比例值進(jìn)行處理,得到各組搜索詞-用戶行 為特征的相關(guān)性值。
4. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其中,識(shí)別出相關(guān)性可改善的搜索詞之后, 所述方法還包括: 計(jì)算各相關(guān)性可改善的搜索詞的表意價(jià)值; 對(duì)于表意價(jià)值低于第二閾值的搜索詞,將其過濾掉。
5. 根據(jù)權(quán)利要求4所述的方法,其中,所述表意價(jià)值低于第二閾值的搜索詞,包括:文 本自身含義表示不明確的搜索詞。
6. 根據(jù)權(quán)利要求4或5所述的方法,其中,所述計(jì)算各相關(guān)性可改善的搜索詞的表意價(jià) 值,包括: 解析各相關(guān)性可改善的搜索詞,得到其包含的至少一個(gè)實(shí)體詞; 利用各實(shí)體詞的詞性得分值與其在其對(duì)應(yīng)的相關(guān)性可改善的搜索詞中的出現(xiàn)頻度進(jìn) 行加權(quán),得到各相關(guān)性可改善的搜索詞的加權(quán)值; 根據(jù)第二預(yù)設(shè)規(guī)則對(duì)各相關(guān)性可改善的搜索詞的加權(quán)值進(jìn)行處理,計(jì)算得到各相關(guān)性 可改善的搜索詞的表意價(jià)值。
7.-種相關(guān)性可改善的搜索詞的識(shí)別裝置,包括: 統(tǒng)計(jì)模塊,適于統(tǒng)計(jì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征; 關(guān)系形成模塊,適于從統(tǒng)計(jì)的用戶行為特征中查找各搜索詞對(duì)應(yīng)的用戶行為特征,并 形成搜索詞-用戶行為特征的對(duì)應(yīng)關(guān)系; 計(jì)算模塊,適于利用相關(guān)性策略分別對(duì)各組搜索詞-用戶行為特征的內(nèi)容進(jìn)行處理, 得到各組搜索詞-用戶行為特征的相關(guān)性值; 識(shí)別模塊,適于識(shí)別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索 O
8. 根據(jù)權(quán)利要求7所述的裝置,其中,所述用戶行為特征包括點(diǎn)擊次數(shù)以及檢索次數(shù)。
9. 根據(jù)權(quán)利要求8所述的裝置,其中,所述計(jì)算模塊還適于: 提取各搜索詞對(duì)應(yīng)的點(diǎn)擊次數(shù)以及檢索次數(shù); 將各搜索詞的點(diǎn)擊次數(shù)除以檢索次數(shù),得到點(diǎn)擊/檢索比例值; 根據(jù)第一預(yù)設(shè)規(guī)則對(duì)各搜索詞的點(diǎn)擊檢索比例值進(jìn)行處理,得到各組搜索詞-用戶行 為特征的相關(guān)性值。
10. 根據(jù)權(quán)利要求7至9任一項(xiàng)所述的裝置,其中, 所述計(jì)算模塊還適于計(jì)算各相關(guān)性可改善的搜索詞的表意價(jià)值; 所述裝置還包括: 過濾模塊,適于對(duì)于表意價(jià)值低于第二閾值的搜索詞,將其過濾掉。
11. 根據(jù)權(quán)利要求10所述的裝置,其中,所述表意價(jià)值低于第二閾值的搜索詞,包括: 文本自身含義表示不明確的搜索詞。
12. 根據(jù)權(quán)利要求10或11所述的裝置,其中,所述計(jì)算模塊還適于: 解析各相關(guān)性可改善的搜索詞,得到其包含的至少一個(gè)實(shí)體詞; 利用各實(shí)體詞的詞性得分值與其在其對(duì)應(yīng)的相關(guān)性可改善的搜索詞中的出現(xiàn)頻度進(jìn) 行加權(quán),得到各相關(guān)性可改善的搜索詞的加權(quán)值; 根據(jù)第二預(yù)設(shè)規(guī)則對(duì)各相關(guān)性可改善的搜索詞的加權(quán)值進(jìn)行處理,計(jì)算得到各相關(guān)性 可改善的搜索詞的表意價(jià)值。
【專利摘要】本發(fā)明提供了一種相關(guān)性可改善的搜索詞的識(shí)別方法,包括:統(tǒng)計(jì)匿名用戶在一定時(shí)間段內(nèi)的用戶行為特征;從統(tǒng)計(jì)的用戶行為特征中查找各搜索詞對(duì)應(yīng)的用戶行為特征,并形成搜索詞-用戶行為特征的對(duì)應(yīng)關(guān)系;利用相關(guān)性策略分別對(duì)各組搜索詞-用戶行為特征的內(nèi)容進(jìn)行處理,得到各組搜索詞-用戶行為特征的相關(guān)性值;識(shí)別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索詞。采用本發(fā)明能夠識(shí)別出相關(guān)性需要改善的搜索詞,進(jìn)而便于搜索引擎對(duì)識(shí)別出的搜索詞進(jìn)行搜索結(jié)果的改善。
【IPC分類】G06F17-30
【公開號(hào)】CN104699846
【申請(qǐng)?zhí)枴緾N201510150546
【發(fā)明人】陶哲
【申請(qǐng)人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2015年6月10日
【申請(qǐng)日】2015年3月31日