專利名稱:用戶網(wǎng)絡(luò)行為的分類方法和裝置及對(duì)應(yīng)的搜索方法和裝置的制作方法
用戶網(wǎng)絡(luò)行為的分類方法和裝置及對(duì)應(yīng)的搜索方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及用戶網(wǎng)絡(luò)行為的分類方法和裝置及對(duì)應(yīng)的搜索方法和裝置。
背景技木互聯(lián)網(wǎng)的飛速發(fā)展為人們提供了一個(gè)全新的信息存儲(chǔ)、加工、傳遞和使用的載體,網(wǎng)絡(luò)信息也迅速成為了人們獲取知識(shí)和信息的主要渠道之一。而如此規(guī)模的信息資源在將人類占有的幾乎所有知識(shí)納入其中的同時(shí),也給資源的使用者帶來了如何充分開發(fā)和利用的問題。搜索引擎正是在這ー需求下應(yīng)運(yùn)而生,它協(xié)助網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上查找信息。具體地,搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶。
目前搜索引擎對(duì)用戶行為數(shù)據(jù)的評(píng)估都是同等一致的,就是根據(jù)用戶在搜索結(jié)果頁上有點(diǎn)擊或沒有點(diǎn)擊的行為來評(píng)估用戶對(duì)搜索結(jié)果的滿意程度,現(xiàn)有技術(shù)忽略了用戶行為數(shù)據(jù)與搜索請(qǐng)求(query)實(shí)際需求之間存在的差異,也就是說在使用用戶行為數(shù)據(jù)時(shí),統(tǒng)ー認(rèn)為它們與相應(yīng)query的需求,搜索引擎所返回的結(jié)果都是一致的,但是這種假設(shè)是不成立的,因?yàn)椴煌愋偷男枨?,理?yīng)有不同類型的返回結(jié)果,用戶在搜索結(jié)果頁上的點(diǎn)擊行為隨著query實(shí)際需求的不同,是存在很大差異的。導(dǎo)致現(xiàn)有技術(shù)在用戶行為數(shù)據(jù)的分析領(lǐng)域上,對(duì)于用戶行為反饋的提權(quán)模型、評(píng)估搜索滿意度方法等服務(wù)或應(yīng)用的準(zhǔn)確率較低等技術(shù)問題。
發(fā)明內(nèi)容有鑒于此,本發(fā)明所要解決的技術(shù)問題是提供ー種用戶網(wǎng)絡(luò)行為的分類方法和裝置以及基于用戶網(wǎng)絡(luò)行為分類的捜索方法和裝置,以通過對(duì)用戶點(diǎn)擊行為數(shù)據(jù)進(jìn)行聚類來提高基于用戶行為反饋的服務(wù)或應(yīng)用的準(zhǔn)確率。具體技術(shù)方案如下ー種用戶網(wǎng)絡(luò)行為的分類方法,所述方法包括A、獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)為用戶在搜索引擎的所輸入的搜索請(qǐng)求query以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息;B、分別對(duì)相同query對(duì)應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合;C、對(duì)所述用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型;D、確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,,所述點(diǎn)擊行為信息包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)間、點(diǎn)擊位置、鼠標(biāo)停留位置、鼠標(biāo)停留時(shí)間中的ー個(gè)或以上所列的任意組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A中所述獲取用戶行為數(shù)據(jù)為獲取指定時(shí)間區(qū)間內(nèi)所包含的所述用戶行為數(shù)據(jù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B中,所述用戶行為特征包括首次平均點(diǎn)擊時(shí)間,用戶平均持續(xù)時(shí)間、第一位的點(diǎn)擊率、前三點(diǎn)擊率、總點(diǎn)擊率、第一位滿意點(diǎn)擊率、前三滿意點(diǎn)擊率中的ー個(gè)或以上所列的任意組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B具體包括
BI、把所述用戶行為數(shù)據(jù)按照query進(jìn)行歸類;B2、將歸類于相同query的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),以得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C具體為采用概率潛在語義分析PLSA模型算法、K均值聚類算法k-means、或?qū)哟尉垲惙椒▽?duì)所述用戶行為特征向量集合進(jìn)行聚類以得到所述用戶行為類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟D具體包括D1、將所述用戶行為特征向量集合中的每ー用戶行為特征向量逐一與所述用戶行為類型特征向量進(jìn)行相似度計(jì)算;D2、根據(jù)最大相似度,確定所述用戶行為特征向量所對(duì)應(yīng)query以及所述用戶行為類型特征向量所對(duì)應(yīng)用戶行為類型的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在聚類運(yùn)算周期時(shí),執(zhí)行所述步驟A、所述步驟B、所述步驟C及所述步驟D以獲得所述用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在詞典更新周期時(shí),重新執(zhí)行所述步驟A、所述步驟B,并利用在所述聚類運(yùn)算周期中所述步驟C所得到的用戶行為類型與相應(yīng)的用戶行為類型特征向量執(zhí)行所述步驟D以更新所述用戶行為類型詞典。一種基于用戶網(wǎng)絡(luò)行為分類的捜索方法,所述方法包括A、接收用戶在搜索引擎輸入的搜索請(qǐng)求query ;B、從用戶行為類型詞典中查詢所述query,確定與所述query匹配的用戶行為類型;C、根據(jù)所述用戶行為類型,對(duì)所述搜索引擎所返回的匹配所述query的捜索結(jié)果進(jìn)行適配處理;D、將所述適配處理后的捜索結(jié)果返回給所述用戶;其中,所述用戶行為類型詞典是由所述用戶網(wǎng)絡(luò)行為的分類方法所獲得。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述用戶行為類型確定為導(dǎo)航類所述步驟C具體為確定捜索結(jié)果排序首位的統(tǒng)ー資源定位符URL ;所述步驟D具體為利用所述URL返回給所述用戶進(jìn)行站點(diǎn)導(dǎo)航。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟D具體為將所述適配處理后的捜索結(jié)果組成捜索結(jié)果頁返回給所述用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述用戶行為類型確定為導(dǎo)航類,則所述步驟C具體為對(duì)排序前M位的所述搜索結(jié)果進(jìn)行視覺特征強(qiáng)調(diào)處理,或者列出ー個(gè)以上的子鏈接,其中M為大于等于I的自然數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述用戶行為類型確定為知識(shí)類,則所述步驟C具體為對(duì)所述搜索結(jié)果進(jìn)行去重處理。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)ー步包括E、接收并存儲(chǔ)所述用戶在所述搜索結(jié)果頁的點(diǎn)擊行為信息,并建立所述query與所述點(diǎn)擊行為信息的對(duì)應(yīng)關(guān)系。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)ー步包括F、根據(jù)所述用戶行為類型與所述用戶點(diǎn)擊行為信息確定搜索滿意度評(píng)價(jià)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述用戶行為類型確定為導(dǎo)航類,則所述步驟F具體包括若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的第一位結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度高;若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則確定所述用戶 對(duì)所述搜索滿意度低。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述用戶行為類型確定為知識(shí)類,則所述步驟F具體包括若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的一個(gè)結(jié)果被點(diǎn)擊或沒有結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度低;若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度高。ー種用戶網(wǎng)絡(luò)行為的分類裝置,所述裝置包括獲取數(shù)據(jù)模塊、特征計(jì)算模塊、聚類處理模塊和詞典維護(hù)模塊;所述獲取數(shù)據(jù)模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)為用戶在搜索引擎所輸入的搜索請(qǐng)求query以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息;所述特征計(jì)算模塊,用于分別對(duì)相同query對(duì)應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合;所述聚類處理模塊,用于對(duì)所述用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型;所述詞典維護(hù)模塊,用于確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述點(diǎn)擊行為信息包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)間、點(diǎn)擊位置、鼠標(biāo)停留位置、鼠標(biāo)停留時(shí)間中的ー個(gè)或以上所列的任意組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述獲取數(shù)據(jù)模塊可獲取指定時(shí)間區(qū)間內(nèi)所包含的所述用戶行為數(shù)據(jù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述用戶行為特征包括首次平均點(diǎn)擊時(shí)間,用戶平均持續(xù)時(shí)間、第一位的點(diǎn)擊率、前三點(diǎn)擊率、總點(diǎn)擊率、第一位滿意點(diǎn)擊率、前三滿意點(diǎn)擊率中的ー個(gè)或以上所列的任意組合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述特征計(jì)算模塊包括歸類單元和統(tǒng)計(jì)單元;所述歸類単元,用于把所述用戶行為數(shù)據(jù)按照query進(jìn)行歸類;所述統(tǒng)計(jì)単元,用于將歸類于相同query的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),以得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類處理模塊具體采用概率潛在語義分析PLSA模型算法、K均值聚類算法k-means、或?qū)哟尉垲惙椒▽?duì)所述用戶行為特征向量集合進(jìn)行聚類以得到所述用戶行為類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述詞典維護(hù)模塊包括相似度計(jì)算單元和類型確定單元;所述相似度計(jì)算單元,用于將所述用戶行為特征向量集合中的每ー用戶行為特征向量逐一與所述用戶行為類型特征向量進(jìn)行相似度計(jì)算;所述類型確定單元,用于根據(jù)所述相似度計(jì)算單元獲得的最大相似度,確定所述用戶行為特征向量所對(duì)應(yīng)query以及所述用戶行為類型特征向量所對(duì)應(yīng)用戶行為類型的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置還包括周期控制模塊;
所述周期控制模塊,用于在聚類運(yùn)算周期時(shí),觸發(fā)所述獲取數(shù)據(jù)模塊、所述特征計(jì)算模塊、所述聚類處理模塊和所述詞典維護(hù)模塊執(zhí)行操作以獲得所述用戶行為類型詞典。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述周期控制模塊,用于在詞典更新周期時(shí),重新觸發(fā)所述獲取數(shù)據(jù)模塊、所述特征計(jì)算模塊執(zhí)行操作,并觸發(fā)所述詞典維護(hù)模塊利用所述聚類處理模塊在所述聚類運(yùn)算周期中所得到的用戶行為類型與相應(yīng)的用戶行為類型特征向量執(zhí)行操作以更新所述用戶行為類型詞典。一種基于用戶網(wǎng)絡(luò)行為分類的捜索裝置,所述裝置包括行為記錄模塊、詞典查詢模塊、適配處理模塊和結(jié)果返回模塊;所述行為記錄模塊,用于接收用戶在搜索引擎輸入的搜索請(qǐng)求query ;所述詞典查詢模塊,用于從用戶行為類型詞典中查詢所述query,確定與所述query匹配的用戶行為類型;所述適配處理模塊,用于根據(jù)所述用戶行為類型,對(duì)所述搜索引擎所返回的匹配所述query的搜索結(jié)果進(jìn)行適配處理;所述結(jié)果返回模塊,用于將所述適配處理后的捜索結(jié)果返回給所述用戶;其中,所述用戶行為類型詞典是由所述用戶網(wǎng)絡(luò)行為的分類裝置所獲得。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類;所述適配處理模塊確定捜索結(jié)果排序首位的統(tǒng)ー資源定位符URL ;所述結(jié)果返回模塊利用所述URL返回給所述用戶進(jìn)行站點(diǎn)導(dǎo)航。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述結(jié)果返回模塊具體將所述適配處理后的搜索結(jié)果組成捜索結(jié)果頁返回給所述用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類,則所述適配處理模塊對(duì)排序前M位的所述搜索結(jié)果進(jìn)行視覺特征強(qiáng)調(diào)處理,或者列出ー個(gè)以上的子鏈接,其中M為大于等于I的自然數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述詞典查詢模塊確定所述用戶行為類型為知識(shí)類,則所述適配處理模塊對(duì)所述捜索結(jié)果進(jìn)行去重處理。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,其特征在于,所述行為記錄模塊,還用于接收并存儲(chǔ)所述用戶在所述搜索結(jié)果頁的點(diǎn)擊行為信息,并建立所述query與所述點(diǎn)擊行為信息的對(duì)應(yīng)關(guān)系。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)ー步包括滿意度評(píng)價(jià)模塊所述滿意度評(píng)價(jià)模塊,用于根據(jù)所述用戶行為類型與所述用戶點(diǎn)擊行為信息確定搜索滿意度評(píng)價(jià)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類,并且;若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的第一位結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度高;若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度低。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,若所述詞典查詢模塊確定所述用戶行為類型為知識(shí) 類,并且;若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的一個(gè)結(jié)果被點(diǎn)擊或沒有結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度低;若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度高。通過上述實(shí)施例,本發(fā)明能夠根據(jù)用戶搜索后的點(diǎn)擊行為數(shù)據(jù),以聚類方法對(duì)用戶行為數(shù)據(jù)進(jìn)行分類,藉此可以為用戶提供更多針對(duì)性的服務(wù)或應(yīng)用,比如用戶行為反饋提權(quán)模型和搜索引擎自動(dòng)評(píng)估方法,還可以在所有基于用戶行為數(shù)據(jù)的服務(wù)或應(yīng)用上使用等,具體來說,可以有效提高基于用戶行為反饋提權(quán)模型的準(zhǔn)確率,以及提高根據(jù)用戶行為進(jìn)行搜索引擎自動(dòng)評(píng)估搜索滿意度的準(zhǔn)確率。
圖I是本發(fā)明實(shí)施例中的用戶網(wǎng)絡(luò)行為的分類方法的流程圖;圖2是本發(fā)明實(shí)施例中的用戶行為特征向量集合計(jì)算方法的流程圖;圖3是本發(fā)明實(shí)施例中的確定對(duì)應(yīng)關(guān)系方法的流程圖;圖4是本發(fā)明實(shí)施例中的基于用戶網(wǎng)絡(luò)行為分類的捜索方法的流程圖;圖5是本發(fā)明實(shí)施例中的用戶網(wǎng)絡(luò)行為的分類裝置的結(jié)構(gòu)圖;圖6是本發(fā)明實(shí)施例中的基于用戶網(wǎng)絡(luò)行為分類的捜索裝置的結(jié)構(gòu)圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請(qǐng)參閱圖1,圖I是本發(fā)明實(shí)施例中的用戶網(wǎng)絡(luò)行為的分類方法的流程圖,如圖I所示,在本實(shí)施例中,通過聚類方法對(duì)用戶行為數(shù)據(jù)進(jìn)行分類,并建立用戶行為分類詞典,該用戶網(wǎng)絡(luò)行為的分類方法主要包括以下幾個(gè)步驟步驟101 :獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)為用戶在搜索引擎的所輸入的query以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息。本發(fā)明實(shí)施例中,用戶行為數(shù)據(jù)包括用戶在搜索引擎所輸入的query以及用戶在該query所對(duì)應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息,均存儲(chǔ)于搜索引擎日志中,而步驟101從搜索引擎日志獲取用戶行為數(shù)據(jù)。其中,點(diǎn)擊行為信息包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)間、點(diǎn)擊位置、鼠標(biāo)停留位置、鼠標(biāo)停留時(shí)間中的ー個(gè)或以上所列的任意組合。較優(yōu)地,步驟101可獲取指定時(shí)間區(qū)間內(nèi)所包含的所述用戶行為數(shù)據(jù)。該指定時(shí)間區(qū)間可以是I小吋、I天、I周或I個(gè)月等倍數(shù),時(shí)間區(qū)間越大,所獲取的用戶行為數(shù)據(jù)量越大、計(jì)算復(fù)雜度越高、運(yùn)算時(shí)間越長(zhǎng);優(yōu)選地,本發(fā)明之一具體實(shí)施例中,從搜索引擎日志獲取I天所包含的用戶行為數(shù)據(jù)作為步驟102的輸入。步驟102 :分別對(duì)相同query對(duì)應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。以所述query作為索引,對(duì)相應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì)計(jì)算,得到用戶行為特征向量,本步驟對(duì)步驟101所獲取的各個(gè)不重復(fù)query及其點(diǎn)擊行為信息計(jì)算完畢后,即可得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集
ム
ロ o用戶行為特征是將用戶有價(jià)值的行為進(jìn)行抽象,使其能夠真實(shí)的反應(yīng)每個(gè)query及其捜索結(jié)果對(duì)用戶帶來的影響,用戶行為特征向量體現(xiàn)了 query與各種用戶行為特征對(duì)
應(yīng)的關(guān)系,數(shù)據(jù)格式是〈query,fl,f2......,fn>,其中f為用戶行為特征,n為自然數(shù),而用
戶行為特征向量集合的總數(shù)就是步驟101所獲取的用戶行為數(shù)據(jù)中不重復(fù)query的總數(shù)。本發(fā)明實(shí)施例中所使用的用戶行為特征可以包括但不限干首次平均點(diǎn)擊時(shí)間,用戶平均持續(xù)時(shí)間、第一位的點(diǎn)擊率、前三點(diǎn)擊率、總點(diǎn)擊率、第一位滿意點(diǎn)擊率、前三滿意點(diǎn)擊率中的ー個(gè)或以上所列的任意組合。以下對(duì)前述用戶行為特征給出定義與說明首次平均點(diǎn)擊時(shí)間同一 query對(duì)應(yīng)的所有用戶的首次點(diǎn)擊時(shí)間計(jì)算平均值,其中,首次點(diǎn)擊時(shí)間為用戶搜完query后到在捜索結(jié)果頁上發(fā)生首次點(diǎn)擊的時(shí)間。用戶平均持續(xù)時(shí)間同一 query對(duì)應(yīng)的所有用戶的持續(xù)時(shí)間計(jì)算平均值,其中,持續(xù)時(shí)間為用戶從搜索開始一直到最后一次動(dòng)作之間持續(xù)的時(shí)間。第一位的點(diǎn)擊率同一 query對(duì)應(yīng)的搜索結(jié)果頁第一位展現(xiàn)的URL發(fā)生點(diǎn)擊的概率。前三點(diǎn)擊率同一 query對(duì)應(yīng)的搜索結(jié)果頁展現(xiàn)在前三位的URL發(fā)生點(diǎn)擊的概率??傸c(diǎn)擊率同一 query對(duì)應(yīng)的所有搜索結(jié)果上總共發(fā)生點(diǎn)擊的概率。第一位滿意點(diǎn)擊率同一 query對(duì)應(yīng)的搜索結(jié)果頁第一位展現(xiàn)的URL獲得滿意點(diǎn)擊的概率。前三滿意點(diǎn)擊率同一 query對(duì)應(yīng)的搜索結(jié)果頁展現(xiàn)在前三位的URL發(fā)生滿意點(diǎn)擊的概率。以下將參見圖2對(duì)步驟102作進(jìn)ー步說明,圖2是本發(fā)明實(shí)施例中的用戶行為特征向量集合計(jì)算方法的流程圖,在本實(shí)施例中,圖2所示流程為步驟102得到用戶行為特征向量集合的優(yōu)選方法,具體包括以下步驟步驟201 :把所述用戶行為數(shù)據(jù)按照query進(jìn)行歸類。query和點(diǎn)擊行為信息為l:n的關(guān)系,n彡I,代表著同一個(gè)query可能有多個(gè)用戶輸入搜索引擎進(jìn)行捜索,并且在捜索結(jié)果頁中有各自不同的點(diǎn)擊行為信息存儲(chǔ)于搜索引擎日志中。步驟201將步驟101所獲取的用戶行為數(shù)據(jù)按照query進(jìn)行歸類后,可以使所有用戶在同一 query相應(yīng)搜索結(jié)果頁中的點(diǎn)擊行為信息集中排列。
步驟202 :將歸類于相同query的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),以得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。根據(jù)步驟102所述用戶行為特征的定義,以query為單位,逐一或并行對(duì)所有用戶在同一 query相應(yīng)搜索結(jié)果頁中的點(diǎn)擊行為信息進(jìn)行統(tǒng)計(jì)計(jì)算后,得到用戶行為特征向量
隹A
ロ O
請(qǐng)繼續(xù)參見圖I。步驟103 :對(duì)所述用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型。本步驟可以采用包括但不限于以下算法進(jìn)行聚類概率潛在語義分析(PLSA)模型算法、K均值聚類算法(k-means)、或?qū)哟尉垲惙椒▽?duì)所述用戶行為特征向量集合進(jìn)行聚類以得到所述用戶行為類型與相應(yīng)的用戶行為類型特征向量,也就是把用戶行為特征向量集合中,用戶行為特征值共性程度高的用戶行為特征向量聚成同類,在此步驟執(zhí)行完成后,即可得到ー個(gè)以上的用戶行為類型與相應(yīng)的用戶行為類型特征向量,用戶行為類型特征向
量體現(xiàn)了用戶行為類型與各種用戶行為特征對(duì)應(yīng)的關(guān)系,數(shù)據(jù)格式是〈C,fl, f2......,
fn>,其中C為用戶行為類型,f為用戶行為特征,n為自然數(shù)。在本發(fā)明實(shí)施例中,用戶行為類型可以包括但不限于導(dǎo)航類與知識(shí)類,舉例來說,導(dǎo)航類的用戶行為類型普遍具有在捜索結(jié)果頁中僅點(diǎn)擊首位或排名前幾位捜索結(jié)果的用戶行為特征,代表著用戶藉由在搜索引擎輸入query,期望在捜索結(jié)果中可以快速得到目標(biāo)站點(diǎn)或頁面的URL,因此導(dǎo)航類又可稱為尋址類,以下統(tǒng)稱為導(dǎo)航類;知識(shí)類的用戶行為類型則是在捜索結(jié)果頁中會(huì)點(diǎn)擊復(fù)數(shù)個(gè)搜索結(jié)果,象徴著用戶藉由在搜索引擎輸入query,期望在捜索結(jié)果中可以得到多種相關(guān)知識(shí)站點(diǎn)或頁面的URL,因此知識(shí)類也可稱為問答類或經(jīng)驗(yàn)類,以下統(tǒng)稱為知識(shí)類。優(yōu)選地,本發(fā)明一具體實(shí)施例采用PLSA來對(duì)所述用戶行為特征向量集合進(jìn)行聚類,效果顯著。其中PLSA在1999年由Hofmann提出。PLSA的最大特點(diǎn)其是ー種概率模型,并將主題(topic)這ー概念直接引入到了模型中,這里所謂的主題可以認(rèn)為是一種語義類別。這種分析的假設(shè)為每篇文檔d都由若干主題z構(gòu)成,每個(gè)主題占有一定的比重p (z |d),或者每篇文檔都以一定的概率p (z Id)屬于某一主題。并且假定,在給定主題的條件下,每個(gè)詞W都以一定的概率P (w Iz)產(chǎn)生。這樣,文檔和詞的共現(xiàn)可以用一種產(chǎn)生式的方式來描述
k=TP(d, w) = P(Ci)Yj P(zk I d)p(w I zk )
k=\其中,p(d,w)為文檔d和詞w共現(xiàn)的概率,p (d)為文檔d在總文檔集合中出現(xiàn)的概率,Zk G Iz1, Z2, ...,zT}為主題,也就是ー種語義類別,T為主題總數(shù)。而PLSA分析的結(jié)果,就是得出P (z I d)、p (w I z)這些概率,評(píng)價(jià)標(biāo)準(zhǔn)是使得數(shù)據(jù)集合似然度最大。在本實(shí)施例中,query就是上述公式中的d,用戶行為類型是z,而用戶行為特征是w, p(d, w)為query和用戶行為特征共現(xiàn)的概率,p (z | d)為同一個(gè)query中姆個(gè)用戶行為類型占有的概率,P(w|z)為給定用戶行為類型z的條件下,每個(gè)用戶行為特征w的產(chǎn)生概率。優(yōu)選地,本發(fā)明之具體實(shí)施例利用最大期望算法(EM, Expectation-Maximization)進(jìn)行迭代計(jì)算求得前述的P (z I d)、P (W I z)這些概率,使得數(shù)據(jù)集合似然度最大,藉此,即可完成對(duì)用戶行為特征向量集合的聚類處理,也就是說確定哪些用戶行為特征向量屬于同一用戶行為類型,并且同時(shí)可以確定該用戶行為類型對(duì)應(yīng)的用戶行為類型特征向量。由于PLSA與EM算法均為本領(lǐng)域成熟算法,在此便不再贅述。步驟104 :確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。請(qǐng)參閱圖3,圖3是本發(fā)明實(shí)施例中的確定對(duì)應(yīng)關(guān)系方法的流程圖。在本實(shí)施例中,確定對(duì)應(yīng)關(guān)系方法包括以下步驟步驟301 :將所述用戶行為特征向量集合中的每ー用戶行為特征向量逐一與所述用戶行為類型特征向量進(jìn)行相似度計(jì)算。在該步驟中,可利用cosine公式、Dice-coefficient公式等各種相似度計(jì)算公式來計(jì)算相似度,上述相似度計(jì)算方法均為本領(lǐng)域公知技術(shù),在此不再贅述。 步驟302 :根據(jù)最大相似度,確定所述用戶行為特征向量所對(duì)應(yīng)query以及所述用戶行為類型特征向量所對(duì)應(yīng)用戶行為類型的對(duì)應(yīng)關(guān)系,以獲得所述用戶行為類型詞典。用戶行為類型詞典的形式可以如表I所示的例子,其中,qx代表query,x是步驟101所獲取的用戶行為數(shù)據(jù)中不重復(fù)query的總數(shù),Cy代表用戶行為類型,y是步驟103所得到的用戶行為類型總數(shù)。表I
權(quán)利要求
1.ー種用戶網(wǎng)絡(luò)行為的分類方法,其特征在于,所述方法包括以下步驟 A、獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)為用戶在搜索引擎所輸入的搜索請(qǐng)求query以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息; B、分別對(duì)相同query對(duì)應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合; C、對(duì)所述用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型; D、確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。
2.如權(quán)利要求I所述的方法,其特征在于,所述點(diǎn)擊行為信息包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)間、點(diǎn)擊位置、鼠標(biāo)停留位置、鼠標(biāo)停留時(shí)間中的ー個(gè)或以上所列的任意組合。
3.如權(quán)利要求I所述的方法,其特征在于,所述步驟A中所述獲取用戶行為數(shù)據(jù)為 獲取指定時(shí)間區(qū)間內(nèi)所包含的所述用戶行為數(shù)據(jù)。
4.如權(quán)利要求I所述的方法,其特征在于,所述步驟B中,所述用戶行為特征包括 首次平均點(diǎn)擊時(shí)間,用戶平均持續(xù)時(shí)間、第一位的點(diǎn)擊率、前三點(diǎn)擊率、總點(diǎn)擊率、第一位滿意點(diǎn)擊率、前三滿意點(diǎn)擊率中的ー個(gè)或以上所列的任意組合。
5.如權(quán)利要求4所述的方法,其特征在于,所述步驟B具體包括 BI、把所述用戶行為數(shù)據(jù)按照query進(jìn)行歸類; B2、將歸類于相同query的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),以得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。
6.如權(quán)利要求I所述的方法,其特征在于,所述步驟C具體為 采用概率潛在語義分析PLSA模型算法、K均值聚類算法k-means、或?qū)哟尉垲惙椒▽?duì)所述用戶行為特征向量集合進(jìn)行聚類以得到所述用戶行為類型。
7.如權(quán)利要求I所述的方法,其特征在于,所述步驟D具體包括 D1、將所述用戶行為特征向量集合中的每ー用戶行為特征向量逐一與所述用戶行為類型特征向量進(jìn)行相似度計(jì)算; D2、根據(jù)最大相似度,確定所述用戶行為特征向量所對(duì)應(yīng)query以及所述用戶行為類型特征向量所對(duì)應(yīng)用戶行為類型的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。
8.如權(quán)利要求I所述的方法,其特征在于,在聚類運(yùn)算周期時(shí),執(zhí)行所述步驟A、所述步驟B、所述步驟C及所述步驟D以獲得所述用戶行為類型詞典。
9.如權(quán)利要求8所述的方法,其特征在于,該方法進(jìn)ー步包括 在詞典更新周期吋,重新執(zhí)行所述步驟A、所述步驟B,并利用在所述聚類運(yùn)算周期中所述步驟C所得到的用戶行為類型與相應(yīng)的用戶行為類型特征向量執(zhí)行所述步驟D以更新所述用戶行為類型詞典。
10.一種基于用戶網(wǎng)絡(luò)行為分類的捜索方法,其特征在于,所述方法包括以下步驟 A、接收用戶在搜索引擎輸入的搜索請(qǐng)求query; B、從用戶行為類型詞典中查詢所述query,確定與所述query匹配的用戶行為類型; C、根據(jù)所述用戶行為類型,對(duì)所述搜索引擎所返回的匹配所述query的捜索結(jié)果進(jìn)行適配處理; D、將所述適配處理后的捜索結(jié)果返回給所述用戶;其中,所述用戶行為類型詞典是由權(quán)利要求I所述的方法所獲得。
11.如權(quán)利要求10所述的方法,其特征在于,若所述用戶行為類型確定為導(dǎo)航類 所述步驟C具體為確定捜索結(jié)果排序首位的統(tǒng)ー資源定位符URL ; 所述步驟D具體為利用所述URL返回給所述用戶進(jìn)行站點(diǎn)導(dǎo)航。
12.如權(quán)利要求10所述的方法,其特征在于,所述步驟D具體為 將所述適配處理后的捜索結(jié)果組成捜索結(jié)果頁返回給所述用戶。
13.如權(quán)利要求12所述的方法,其特征在于,若所述用戶行為類型確定為導(dǎo)航類,則所述步驟C具體為對(duì)排序前M位的所述搜索結(jié)果進(jìn)行視覺特征強(qiáng)調(diào)處理,或者列出ー個(gè)以上的子鏈接,其中M為大于等于I的自然數(shù)。
14.如權(quán)利要求12所述的方法,其特征在于,若所述用戶行為類型確定為知識(shí)類,則所述步驟C具體為對(duì)所述搜索結(jié)果進(jìn)行去重處理。
15.如權(quán)利要求12、13或14所述的方法,其特征在于,所述方法進(jìn)ー步包括 E、接收并存儲(chǔ)所述用戶在所述搜索結(jié)果頁的點(diǎn)擊行為信息,并建立所述query與所述點(diǎn)擊行為信息的對(duì)應(yīng)關(guān)系。
16.如權(quán)利要求15所述的方法,其特征在于,所述方法進(jìn)ー步包括 F、根據(jù)所述用戶行為類型與所述用戶點(diǎn)擊行為信息確定搜索滿意度評(píng)價(jià)。
17.如權(quán)利要求16所述的方法,其特征在于,若所述用戶行為類型確定為導(dǎo)航類,則所述步驟F具體包括 若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的第一位結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度高; 若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度低。
18.如權(quán)利要求16所述的方法,其特征在于,若所述用戶行為類型確定為知識(shí)類,則所述步驟F具體包括 若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的一個(gè)結(jié)果被點(diǎn)擊或沒有結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度低; 若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則確定所述用戶對(duì)所述搜索滿意度高。
19.ー種用戶網(wǎng)絡(luò)行為的分類裝置,其特征在于,所述裝置包括獲取數(shù)據(jù)模塊、特征計(jì)算模塊、聚類處理模塊和詞典維護(hù)模塊; 所述獲取數(shù)據(jù)模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)為用戶在搜索引擎所輸入的搜索請(qǐng)求query以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息; 所述特征計(jì)算模塊,用于分別對(duì)相同query對(duì)應(yīng)的所述點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合; 所述聚類處理模塊,用于對(duì)所述用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型; 所述詞典維護(hù)模塊,用于確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。
20.如權(quán)利要求19所述的裝置,其特征在于,所述點(diǎn)擊行為信息包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)間、點(diǎn)擊位置、鼠標(biāo)停留位置、鼠標(biāo)停留時(shí)間中的ー個(gè)或以上所列的任意組合。
21.如權(quán)利要求19所述的裝置,其特征在于,所述獲取數(shù)據(jù)模塊獲取指定時(shí)間區(qū)間內(nèi)所包含的所述用戶行為數(shù)據(jù)。
22.如權(quán)利要求19所述的裝置,其特征在于,所述用戶行為特征包括 首次平均點(diǎn)擊時(shí)間,用戶平均持續(xù)時(shí)間、第一位的點(diǎn)擊率、前三點(diǎn)擊率、總點(diǎn)擊率、第一位滿意點(diǎn)擊率、前三滿意點(diǎn)擊率中的ー個(gè)或以上所列的任意組合。
23.如權(quán)利要求22所述的裝置,其特征在干,所述特征計(jì)算模塊包括歸類單元和統(tǒng)計(jì)單元; 所述歸類単元,用于把所述用戶行為數(shù)據(jù)按照query進(jìn)行歸類; 所述統(tǒng)計(jì)単元,用于將歸類于相同query的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),以得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合。
24.如權(quán)利要求19所述的裝置,其特征在于,所述聚類處理模塊具體采用概率潛在語義分析PLSA模型算法、K均值聚類算法k-means、或?qū)哟尉垲惙椒▽?duì)所述用戶行為特征向量集合進(jìn)行聚類以得到所述用戶行為類型。
25.如權(quán)利要求19所述的裝置,其特征在于,所述詞典維護(hù)模塊包括相似度計(jì)算單元和類型確定單元; 所述相似度計(jì)算單元,用于將所述用戶行為特征向量集合中的每ー用戶行為特征向量逐一與所述用戶行為類型特征向量進(jìn)行相似度計(jì)算; 所述類型確定單元,用于根據(jù)所述相似度計(jì)算單元獲得的最大相似度,確定所述用戶行為特征向量所對(duì)應(yīng)query以及所述用戶行為類型特征向量所對(duì)應(yīng)用戶行為類型的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。
26.如權(quán)利要求19所述的裝置,其特征在于,所述裝置還包括周期控制模塊; 所述周期控制模塊,用于在聚類運(yùn)算周期時(shí),觸發(fā)所述獲取數(shù)據(jù)模塊、所述特征計(jì)算模塊、所述聚類處理模塊和所述詞典維護(hù)模塊執(zhí)行操作以獲得所述用戶行為類型詞典。
27.如權(quán)利要求26所述的裝置,其特征在于,所述周期控制模塊,用于在詞典更新周期吋,重新觸發(fā)所述獲取數(shù)據(jù)模塊、所述特征計(jì)算模塊執(zhí)行操作,并觸發(fā)所述詞典維護(hù)模塊利用所述聚類處理模塊在所述聚類運(yùn)算周期中所得到的用戶行為類型與相應(yīng)的用戶行為類型特征向量執(zhí)行操作以更新所述用戶行為類型詞典。
28.一種基于用戶網(wǎng)絡(luò)行為分類的捜索裝置,其特征在于,所述裝置包括行為記錄模塊、詞典查詢模塊、適配處理模塊和結(jié)果返回模塊; 所述行為記錄模塊,用于接收用戶在搜索引擎輸入的搜索請(qǐng)求query ; 所述詞典查詢模塊,用于從用戶行為類型詞典中查詢所述query,確定與所述query匹配的用戶行為類型; 所述適配處理模塊,用于根據(jù)所述用戶行為類型,對(duì)所述搜索引擎所返回的匹配所述query的搜索結(jié)果進(jìn)行適配處理; 所述結(jié)果返回模塊,用于將所述適配處理后的捜索結(jié)果返回給所述用戶; 其中,所述用戶行為類型詞典是由權(quán)利要求19所述的裝置所獲得。
29.如權(quán)利要求28所述的裝置,其特征在于,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類;所述適配處理模塊確定捜索結(jié)果排序首位的統(tǒng)ー資源定位符URL ; 所述結(jié)果返回模塊利用所述URL返回給所述用戶進(jìn)行站點(diǎn)導(dǎo)航。
30.如權(quán)利要求28所述的裝置,其特征在于,所述結(jié)果返回模塊具體將所述適配處理后的捜索結(jié)果組成捜索結(jié)果頁返回給所述用戶。
31.如權(quán)利要求30所述的裝置,其特征在干,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類,則所述適配處理模塊對(duì)排序前M位的所述搜索結(jié)果進(jìn)行視覺特征強(qiáng)調(diào)處理,或者列出ー個(gè)以上的子鏈接,其中M為大于等于I的自然數(shù)。
32.如權(quán)利要求30所述的裝置,其特征在于,若所述詞典查詢模塊確定所述用戶行為類型為知識(shí)類,則所述適配處理模塊對(duì)所述搜索結(jié)果進(jìn)行去重處理。
33.如權(quán)利要求30、31或32所述的裝置,其特征在于,所述行為記錄模塊,還用于接收并存儲(chǔ)所述用戶在所述搜索結(jié)果頁的點(diǎn)擊行為信息,并建立所述query與所述點(diǎn)擊行為信息的對(duì)應(yīng)關(guān)系。
34.如權(quán)利要求33所述的裝置,其特征在于,所述裝置進(jìn)ー步包括滿意度評(píng)價(jià)模塊 所述滿意度評(píng)價(jià)模塊,用于根據(jù)所述用戶行為類型與所述用戶點(diǎn)擊行為信息確定搜索滿意度評(píng)價(jià)。
35.如權(quán)利要求34所述的裝置,其特征在于,若所述詞典查詢模塊確定所述用戶行為類型為導(dǎo)航類,并且; 若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的第一位結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度高; 若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度低。
36.如權(quán)利要求34所述的裝置,其特征在干,若所述詞典查詢模塊確定所述用戶行為類型為知識(shí)類,并且; 若所述點(diǎn)擊行為信息為僅所述搜索結(jié)果頁中的一個(gè)結(jié)果被點(diǎn)擊或沒有結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度低; 若所述點(diǎn)擊行為信息為所述捜索結(jié)果頁中的復(fù)數(shù)個(gè)結(jié)果被點(diǎn)擊,則所述滿意度評(píng)價(jià)模塊確定所述用戶對(duì)所述搜索滿意度高。
全文摘要
本發(fā)明公開了用戶網(wǎng)絡(luò)行為的分類方法和裝置及對(duì)應(yīng)的搜索方法和裝置。分類方法包括獲取用戶行為數(shù)據(jù),用戶行為數(shù)據(jù)為用戶在搜索引擎的所輸入的搜索請(qǐng)求(query)以及用戶在相應(yīng)搜索結(jié)果頁的點(diǎn)擊行為信息;分別對(duì)相同query對(duì)應(yīng)的點(diǎn)擊行為信息進(jìn)行用戶行為特征的統(tǒng)計(jì),得到由各query對(duì)應(yīng)的用戶行為特征向量構(gòu)成的用戶行為特征向量集合;對(duì)用戶行為特征向量集合進(jìn)行聚類處理,確定由同一類別的用戶行為特征向量構(gòu)成的用戶行為類型特征向量及其對(duì)應(yīng)的用戶行為類型;確定用戶行為類型與query之間的對(duì)應(yīng)關(guān)系,并存儲(chǔ)為用戶行為類型詞典。本發(fā)明把用戶搜索后的點(diǎn)擊行為進(jìn)行分類,有效提高基于用戶行為數(shù)據(jù)的服務(wù)或應(yīng)用的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK102760138SQ20111010944
公開日2012年10月31日 申請(qǐng)日期2011年4月26日 優(yōu)先權(quán)日2011年4月26日
發(fā)明者侯俊琦 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司