相關(guān)性可改善的搜索詞的識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)搜索領(lǐng)域,特別是涉及一種相關(guān)性可改善的搜索詞的識別方法 及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的日益發(fā)展,互聯(lián)網(wǎng)與用戶生活越來越緊密。生活中,大量用戶通過 搜索引擎進行信息搜索。搜索引擎指自動從因特網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用 戶進行查詢的系統(tǒng)。因特網(wǎng)上的信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個 個小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了 然的信息地圖,供用戶隨時查閱。
[0003] 系統(tǒng)一方面提供時效性數(shù)據(jù),另外一方面,它提供更多的數(shù)據(jù)給線上的引擎排序 (Rank)。但無論是哪種,最主要的目的是提升搜索結(jié)果的質(zhì)量和相關(guān)性。特別的,在抓取 資源一定的情況下,如何抓取那些更優(yōu)質(zhì),更能和引擎現(xiàn)有數(shù)據(jù)互補的數(shù)據(jù)才是最重要的。 即,如何更有效的進行數(shù)據(jù)的收錄。特別的,對于垂直搜索,其數(shù)據(jù)來源往往來源與網(wǎng)頁搜 索已經(jīng)抓取的網(wǎng)頁,這些數(shù)據(jù)已經(jīng)存在了,這就能夠通過數(shù)據(jù)挖掘進行搜索資源的收錄。
[0004] 實施時,由于線上的相關(guān)性評估是以搜索詞為維度的,用戶看到的結(jié)果也是以搜 索詞為維度的,因此的資源收錄從本質(zhì)上也是為了提高某個搜索詞搜索結(jié)果的相關(guān)性,但 是如何確定該搜索詞屬于相關(guān)性可改善的類型,對此,相關(guān)技術(shù)并未提供具體的方法。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的相關(guān)性可改善的搜索詞的識別裝置和相應(yīng)的相關(guān)性可改善的搜索詞的識別方法。
[0006] 基于本發(fā)明的一個方面,本發(fā)明實施例提供了一種相關(guān)性可改善的搜索詞的識別 方法,包括:
[0007] 統(tǒng)計匿名用戶在一定時間段內(nèi)的用戶行為特征;
[0008] 從統(tǒng)計的用戶行為特征中查找各搜索詞對應(yīng)的用戶行為特征,并形成搜索詞-用 戶行為特征的對應(yīng)關(guān)系;
[0009] 利用相關(guān)性策略分別對各組搜索詞-用戶行為特征的內(nèi)容進行處理,得到各組搜 索詞-用戶行為特征的相關(guān)性值;
[0010] 識別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索詞。
[0011] 可選地,所述用戶行為特征包括點擊次數(shù)以及檢索次數(shù)。
[0012] 可選地,利用相關(guān)性策略分別對各組搜索詞-用戶行為特征的內(nèi)容進行處理,得 到各組搜索詞-用戶行為特征的相關(guān)性值,包括:
[0013] 提取各搜索詞對應(yīng)的點擊次數(shù)以及檢索次數(shù);
[0014] 將各搜索詞的點擊次數(shù)除以檢索次數(shù),得到點擊/檢索比例值;
[0015] 根據(jù)第一預(yù)設(shè)規(guī)則對各搜索詞的點擊檢索比例值進行處理,得到各組搜索詞-用 戶行為特征的相關(guān)性值。
[0016] 可選地,識別出相關(guān)性可改善的搜索詞之后,所述方法還包括:
[0017] 計算各相關(guān)性可改善的搜索詞的表意價值;
[0018] 對于表意價值低于第二閾值的搜索詞,將其過濾掉。
[0019] 可選地,所述表意價值低于第二閾值的搜索詞,包括:文本自身含義表示不明確的 搜索詞。
[0020] 可選地,所述計算各相關(guān)性可改善的搜索詞的表意價值,包括:
[0021] 解析各相關(guān)性可改善的搜索詞,得到其包含的至少一個實體詞;
[0022] 利用各實體詞的詞性得分值與其在其對應(yīng)的相關(guān)性可改善的搜索詞中的出現(xiàn)頻 度進行加權(quán),得到各相關(guān)性可改善的搜索詞的加權(quán)值;
[0023] 根據(jù)第二預(yù)設(shè)規(guī)則對各相關(guān)性可改善的搜索詞的加權(quán)值進行處理,計算得到各相 關(guān)性可改善的搜索詞的表意價值。
[0024] 基于本發(fā)明的另一個方面,本發(fā)明還提供了一種相關(guān)性可改善的搜索詞的識別裝 置,包括:
[0025] 統(tǒng)計模塊,適于統(tǒng)計匿名用戶在一定時間段內(nèi)的用戶行為特征;
[0026] 關(guān)系形成模塊,適于從統(tǒng)計的用戶行為特征中查找各搜索詞對應(yīng)的用戶行為特 征,并形成搜索詞-用戶行為特征的對應(yīng)關(guān)系;
[0027] 計算模塊,適于利用相關(guān)性策略分別對各組搜索詞-用戶行為特征的內(nèi)容進行處 理,得到各組搜索詞-用戶行為特征的相關(guān)性值;
[0028] 識別模塊,適于識別出相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的 搜索詞。
[0029] 可選地,所述用戶行為特征包括點擊次數(shù)以及檢索次數(shù)。
[0030] 可選地,所述計算模塊還適于:
[0031] 提取各搜索詞對應(yīng)的點擊次數(shù)以及檢索次數(shù);
[0032] 將各搜索詞的點擊次數(shù)除以檢索次數(shù),得到點擊/檢索比例值;
[0033] 根據(jù)第一預(yù)設(shè)規(guī)則對各搜索詞的點擊檢索比例值進行處理,得到各組搜索詞-用 戶行為特征的相關(guān)性值。
[0034] 可選地,所述計算模塊還適于計算各相關(guān)性可改善的搜索詞的表意價值;
[0035] 所述裝置還包括:
[0036] 過濾模塊,適于對于表意價值低于第二閾值的搜索詞,將其過濾掉。
[0037] 可選地,所述表意價值低于第二閾值的搜索詞,包括:文本自身含義表示不明確的 搜索詞。
[0038] 可選地,所述計算模塊還適于:
[0039] 解析各相關(guān)性可改善的搜索詞,得到其包含的至少一個實體詞;
[0040] 利用各實體詞的詞性得分值與其在其對應(yīng)的相關(guān)性可改善的搜索詞中的出現(xiàn)頻 度進行加權(quán),得到各相關(guān)性可改善的搜索詞的加權(quán)值;
[0041] 根據(jù)第二預(yù)設(shè)規(guī)則對各相關(guān)性可改善的搜索詞的加權(quán)值進行處理,計算得到各相 關(guān)性可改善的搜索詞的表意價值。
[0042] 在本發(fā)明實施例中,對匿名用戶在一定時間段內(nèi)的用戶行為特征進行統(tǒng)計,一定 時間段內(nèi)的用戶行為特征具備普遍意義,并非是局限于局部個體或局部具體用戶行為特 征,即統(tǒng)計樣本是較為全面的。進而從統(tǒng)計樣本中查找到各搜索詞對應(yīng)的用戶行為特征,并 形成搜索詞-用戶行為特征的對應(yīng)關(guān)系,對應(yīng)關(guān)系的形成有助于建立主體與用戶行為特征 之間的邏輯關(guān)系,更容易查找或計算或得到兩者間的關(guān)系。進一步,利用相關(guān)性策略分別對 各組搜索詞-用戶行為特征的內(nèi)容進行處理,得到各組搜索詞-用戶行為特征的相關(guān)性值, 進而識別出其中相關(guān)性值低于第一閾值的搜索詞,記錄為相關(guān)性可改善的搜索詞。用戶行 為特征與搜索詞之間的相關(guān)性越強,反映出用戶對搜索詞對應(yīng)的搜索結(jié)果使用程度越高, 也就是說,搜索詞所對應(yīng)的搜索結(jié)果越優(yōu)秀,反而言之,若用戶行為特征與搜索詞之間的相 關(guān)性較弱,那么該搜索詞的相關(guān)性是可改善的。采用本發(fā)明提供的方法識別出相關(guān)性需要 改善的搜索詞,進而便于搜索引擎對識別出的搜索詞進行搜索結(jié)果的改善。在抓取資源一 定的情況下,找出需要改善的搜索詞,并對其搜索結(jié)果進行改善,才能夠優(yōu)化搜索引擎的搜 索結(jié)果,提高搜索引擎的數(shù)據(jù)使用率,提高搜索引擎對用戶的吸引力。
[0043] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
[0044] 根據(jù)下文結(jié)合附圖對本發(fā)明具體實施例的詳細描述,本領(lǐng)域技術(shù)人員將會更加明 了本發(fā)明的上述以及其他目的、優(yōu)點和特征。
【附圖說明】
[0045] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0046] 圖1示出了根據(jù)本發(fā)明一個實施例的相關(guān)性可改善的搜索詞的識別方法的處理 流程圖;
[0047] 圖2是示出了根據(jù)本發(fā)明一個實施例的計算各組搜索詞-用戶行為特征的相關(guān)性 值的處理流程圖;
[0048] 圖3示出了根據(jù)本發(fā)明一個實施例的相關(guān)性可改善的搜索詞的識別裝置的一種 結(jié)構(gòu)示意圖;以及
[0049] 圖4示出了根據(jù)本發(fā)明一個實施例的相關(guān)性可改善的搜索詞的識別裝置的另一 種結(jié)構(gòu)示意圖。
【具體實施方式】
[0050] 下面將參照附圖更詳細地描述本公開