搜索引擎的數(shù)據(jù)處理方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種搜索引擎的數(shù)據(jù)處理方法及裝置。其中,該方法包括:獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù);根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值;將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度;提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果。通過(guò)本發(fā)明,能夠?qū)崿F(xiàn)提高搜索引擎的搜索效率,提高搜索結(jié)果準(zhǔn)確度的效果。
【專(zhuān)利說(shuō)明】搜索引擎的數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)搜索引擎領(lǐng)域,具體而言,涉及一種搜索引擎的數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)提供的搜索引擎需要用戶(hù)輸入搜索詞,搜索引擎在獲取搜索詞之后,會(huì)根據(jù)搜索詞和文檔相關(guān)度得到文檔排序。該搜索引擎的排序必須基于用戶(hù)的輸入搜索詞來(lái)進(jìn)行搜索,當(dāng)用戶(hù)沒(méi)有明確目標(biāo)時(shí)是不能精確的給出搜索詞的,此時(shí)系統(tǒng)無(wú)法生成排序列表。
[0003]在上述搜索詞不明確,或者沒(méi)有匹配文檔的情況下,可以通過(guò)人工編目的排行榜來(lái)獲取搜索結(jié)果,具體的,可以通過(guò)人工在后臺(tái)設(shè)置文檔的線(xiàn)上排序。這種人工編目的排行榜需要人工維護(hù)線(xiàn)上排序,耗時(shí)耗力,且人工維護(hù)搜索結(jié)果具有個(gè)人因素在里邊,搜索結(jié)果不準(zhǔn)確,且當(dāng)搜索對(duì)象的數(shù)目達(dá)到一定程度,人工無(wú)法維護(hù)。
[0004]目前針對(duì)相關(guān)技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]針對(duì)相關(guān)技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種搜索引擎的數(shù)據(jù)處理方法及裝置,以解決上述問(wèn)題。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種搜索引擎的數(shù)據(jù)處理方法,該方法包括:獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù);根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值;將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度;提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果。
[0007]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種搜索引擎的數(shù)據(jù)處理裝置,該裝置包括:獲取模塊,用于獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù);處理模塊,用于根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值;匹配模塊,用于將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度;提取模塊,用于提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果。
[0008]通過(guò)本發(fā)明,采用獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù);根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值;將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度;提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果,解決了相關(guān)現(xiàn)有技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,進(jìn)而實(shí)現(xiàn)提高搜索引擎的搜索效率,提高搜索結(jié)果準(zhǔn)確度的效果。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0009]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0010]圖1是根據(jù)本發(fā)明實(shí)施例的搜索引擎的數(shù)據(jù)處理方法的流程示意圖;
[0011]圖2是根據(jù)本發(fā)明實(shí)施例的搜索引擎的數(shù)據(jù)處理方法的詳細(xì)流程示意圖;
[0012]圖3是根據(jù)本發(fā)明實(shí)施例的搜索引擎的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0013]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0014]本申請(qǐng)利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn),在無(wú)法獲取當(dāng)前登錄用戶(hù)的搜索目標(biāo)時(shí),也可以直接在搜索引擎中顯示搜索結(jié)果。
[0015]本申請(qǐng)涉及到的機(jī)器學(xué)習(xí)(Machine Learning)是本申請(qǐng)的核心技術(shù),是指研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,機(jī)器學(xué)習(xí)主要使用歸納、綜合而不是演繹。
[0016]數(shù)據(jù)挖掘Data Mining是一種透過(guò)數(shù)理模式來(lái)分析企業(yè)內(nèi)儲(chǔ)存的大量資料,以找出不同的客戶(hù)或市場(chǎng)劃分,分析出消費(fèi)者喜好和行為的方法。
[0017]而本申請(qǐng)的方案最后要將計(jì)算得到的搜索結(jié)果進(jìn)行排序Ranking,排序大多應(yīng)用在電子商務(wù)中,為了銷(xiāo)售更多的商品和讓消費(fèi)者更容易找到他想找到的商品,需要在商品展現(xiàn)時(shí)給商品安排展現(xiàn)的順序。
[0018]下面就本申請(qǐng)利用上述技術(shù)的方案進(jìn)行詳細(xì)描述。
[0019]實(shí)施例一:
[0020]在其最基本的配置中,圖1是根據(jù)本發(fā)明實(shí)施例的搜索引擎的數(shù)據(jù)處理方法的流程示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的搜索引擎的數(shù)據(jù)處理方法的詳細(xì)流程示意圖。
[0021]如圖1和2所示,該方法可以包括如下步驟:
[0022]步驟S10,獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)。
[0023]步驟S30,根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值。
[0024]步驟S50,將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
[0025]步驟S70,提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果。[0026]本申請(qǐng)上述實(shí)施例中,主要利用了機(jī)器學(xué)習(xí)來(lái)獲取后臺(tái)系統(tǒng)中已經(jīng)保存的日志記錄,該日志記錄保存了歷史用戶(hù)使用搜索引擎進(jìn)行搜索操作的用戶(hù)行為數(shù)據(jù),以及相應(yīng)的搜索對(duì)象的屬性數(shù)據(jù)和搜索結(jié)果的特征數(shù)據(jù),通過(guò)對(duì)日志記錄中上述數(shù)據(jù)進(jìn)行分析,可以獲知?dú)v史用戶(hù)的搜索結(jié)果來(lái)學(xué)習(xí)該種類(lèi)型的用戶(hù)的搜索排序結(jié)果,從而在相同類(lèi)型的用戶(hù)使用搜索引擎時(shí),可以無(wú)需獲知搜索詞,系統(tǒng)便可以提供相應(yīng)的搜索結(jié)果,從而解決了相關(guān)現(xiàn)有技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,進(jìn)而實(shí)現(xiàn)提高搜索引擎的搜索效率,提高搜索結(jié)果準(zhǔn)確度的效果。
[0027]具體的,本申請(qǐng)上述實(shí)施例的日志記錄可以是歷史用戶(hù)使用搜索引擎之后,生成的歷史日志記錄;搜索對(duì)象可以是歷史用戶(hù)通過(guò)搜索引擎所要搜索的產(chǎn)品;搜索結(jié)果可以是指歷史用戶(hù)使用搜索引擎對(duì)搜索對(duì)象進(jìn)行搜索而生成的搜索對(duì)象。上述實(shí)施例根據(jù)歷史行為數(shù)據(jù)分析歷史用戶(hù)對(duì)搜索對(duì)象的搜索結(jié)果,歷史行為數(shù)據(jù)log可以包含用戶(hù)的各類(lèi)行為數(shù)據(jù),比如瀏覽,點(diǎn)擊等,每條記錄log通過(guò)標(biāo)記&來(lái)分割各類(lèi)行為發(fā)生時(shí)的快照,比如&source=首頁(yè) &departure=北京等。
[0028]以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,系統(tǒng)后臺(tái)收集到的用戶(hù)日志記錄可以是用于在預(yù)定時(shí)間段內(nèi)記錄的行為數(shù)據(jù),例如可以是:瀏覽,點(diǎn)擊,購(gòu)買(mǎi)等;搜索對(duì)象的屬性數(shù)據(jù)(例如產(chǎn)品的屬性數(shù)據(jù))可以包括搜索對(duì)象的特征,比如標(biāo)題,價(jià)格等。
[0029]本申請(qǐng)上述實(shí)施例中,在步驟SlO獲取歷史用戶(hù)使用搜索引擎的日志記錄之前,還可以包括如下實(shí)施步驟:
[0030]步驟S101,讀取當(dāng)前登錄用戶(hù)的特征信息。
[0031]步驟S102,使用當(dāng)前登錄用戶(hù)的特征信息在數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),得到與當(dāng)前登錄用戶(hù)具有相同特征信息的歷史登陸用戶(hù);其中,歷史登陸用戶(hù)的歷史日志記錄作為日志記錄。
[0032]本申請(qǐng)上述步驟SlO-步驟S70實(shí)現(xiàn)了根據(jù)歷史信息進(jìn)行機(jī)器學(xué)習(xí),得到了一類(lèi)用戶(hù)的搜索結(jié)果,并將結(jié)果保存在數(shù)據(jù)庫(kù)中。上述步驟SlOl和步驟S102實(shí)現(xiàn)了當(dāng)前用戶(hù)登錄之后,按照自身的特征信息進(jìn)行匹配,得到與自身有著相同或相似特征信息的歷史用戶(hù),并使用歷史用戶(hù)的日志記錄作為當(dāng)前登錄用戶(hù)得到搜索結(jié)果的樣本,從而進(jìn)一步使用歷史登陸用戶(hù)的歷史日志記錄進(jìn)行處理,得到最終的搜索結(jié)果。該結(jié)果可以如本申請(qǐng)?zhí)峁┑姆桨感枰M(jìn)行排序,當(dāng)然也可以直接將搜索結(jié)果反饋給當(dāng)前登錄用戶(hù)。
[0033]本申請(qǐng)上述實(shí)施例中,步驟S30根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值可以通過(guò)如下方式實(shí)現(xiàn):
[0034]通過(guò)如下公式計(jì)算得到用戶(hù)的搜索偏好值Q:Q=Ax+By,其中,X為用戶(hù)行為數(shù)據(jù),y為搜索對(duì)象屬性數(shù)據(jù),A、B為常數(shù);其中,在用戶(hù)行為數(shù)據(jù)包括多個(gè)行為參數(shù)xi,搜索對(duì)象
屬性數(shù)據(jù)包括多個(gè)屬性參數(shù)yi的情況下,Q=Axl+Ax2+Axi+......+Byl+By2+Byi+......,i為自然數(shù)。
[0035]具體的,仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,上述實(shí)施例實(shí)現(xiàn)了根據(jù)用戶(hù)行為數(shù)據(jù)和產(chǎn)品屬性數(shù)據(jù)計(jì)算用戶(hù)偏好,計(jì)算公式可以為線(xiàn)性回歸,例如:Q=Axl+Ax2+Byl,Q為用戶(hù)的搜索偏好值,xl,x2,yl為用戶(hù)行為數(shù)據(jù)和產(chǎn)品屬性數(shù)據(jù),比如Xl為用戶(hù)行為數(shù)據(jù)中的瀏覽團(tuán)品次數(shù),x2為用戶(hù)行為數(shù)據(jù)中的點(diǎn)擊團(tuán)品次數(shù),yl為產(chǎn)品屬性數(shù)據(jù)中的產(chǎn)品價(jià)格因素。
[0036]優(yōu)選地,本申請(qǐng)上述實(shí)施例中,在步驟S30根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值之后,還可以包括如下步驟:
[0037]步驟S401,通過(guò)單個(gè)用戶(hù)的偏好值與所有用戶(hù)的總體偏好值的總體平均值進(jìn)行求除的結(jié)果對(duì)用戶(hù)的搜索偏好值進(jìn)行修正處理,生成搜索偏好值的可信度。具體的,由于用戶(hù)的搜索偏好值為數(shù)據(jù)稀疏,即用戶(hù)偏好可能比較分散,因此,該步驟可以計(jì)算搜索偏好的可信度,可信度根據(jù)"單個(gè)用戶(hù)的偏好值與所有用戶(hù)的總體偏好值的總體平均值進(jìn)行求除"的方案計(jì)算。
[0038]步驟S402,判斷搜索偏好值的可信度是否小于等于可信度閾值,其中,在搜索偏好值的可信度小于等于可信度閾值的情況下,進(jìn)入步驟S403,在搜索偏好值的可信度大于可信度閾值的情況下,進(jìn)入步驟S404。
[0039]步驟S403,根據(jù)用戶(hù)行為數(shù)據(jù)進(jìn)行聚類(lèi)處理,并根據(jù)聚類(lèi)結(jié)果返回執(zhí)行線(xiàn)形回歸計(jì)算,生成修正后的搜索偏好值。
[0040]具體的,上述步驟S402可以確定搜索偏好值的可信度的可行程度,比如可以規(guī)定可信度閾值為0.8,當(dāng)可信度小于閾值時(shí),確定搜索偏好值的可信度不高,因此需要通過(guò)步驟S403來(lái)對(duì)用戶(hù)聚類(lèi),用戶(hù)聚類(lèi)根據(jù)用戶(hù)行為數(shù)據(jù),例如用戶(hù)所屬城市和用戶(hù)對(duì)相同產(chǎn)品的相似行為,具體的可以將瀏覽產(chǎn)品和點(diǎn)擊產(chǎn)品等相似行為聚成一類(lèi),聚類(lèi)可以采用k-means聚類(lèi)方法。
[0041]步驟S404,保存當(dāng)前的搜索偏好值。
[0042]本申請(qǐng)上述實(shí)施例中,步驟S50將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度可以包括如下實(shí)施步驟:
[0043]步驟S501,獲取每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量。
[0044]步驟S502,獲取用戶(hù)的搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量。
[0045]步驟S503,將每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量分別與搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量進(jìn)行余弦計(jì)算,得到每個(gè)文本向量與數(shù)據(jù)向量之間的距離值。
[0046]步驟S504,保存距離值,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
[0047]具體的,仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,搜索到的產(chǎn)品本身的可以包括如下屬性:目的地,類(lèi)別,產(chǎn)品描述等,上述實(shí)施例實(shí)現(xiàn)了,可以通過(guò)文本匹配計(jì)算產(chǎn)品和偏好的匹配度,比如把產(chǎn)品本身的屬性作為一個(gè)文本向量,偏好等作為一個(gè)向量,計(jì)算兩個(gè)向量的匹配程度,例如用cosin計(jì)算兩個(gè)向量的距離來(lái)計(jì)算匹配程度。
[0048]本申請(qǐng)上述實(shí)施例中,在得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度之前,可以根據(jù)搜索結(jié)果的類(lèi)型對(duì)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行聚類(lèi)處理,得到修正后的搜索結(jié)果的偏好。
[0049]具體的,在得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度之前,進(jìn)行聚類(lèi)處理是為了得到更加精確的搜索結(jié)果的偏好程度。仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,上述方案可以在將產(chǎn)品按照類(lèi)別進(jìn)行分類(lèi)之后,使用k-means聚類(lèi)方法,也可以進(jìn)一步進(jìn)行人工審核,來(lái)實(shí)現(xiàn)通過(guò)用戶(hù)對(duì)產(chǎn)品的偏好聚類(lèi)計(jì)算,得到用戶(hù)對(duì)每個(gè)類(lèi)別(比如周邊,國(guó)內(nèi)等)的搜索結(jié)果的偏好。[0050]優(yōu)選地,本申請(qǐng)上述實(shí)施例中,在步驟SlO獲取歷史用戶(hù)使用搜索引擎的日志記錄之后,還可以包括如下實(shí)施步驟:對(duì)日志記錄中的用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)進(jìn)行以下任意一種或多種處理方式:歸一處理、去噪處理、篩選處理。
[0051]具體的,系統(tǒng)可以對(duì)收集到的日志記錄log進(jìn)行去除噪聲和篩選處理(例如錯(cuò)誤日志的處理),同時(shí)可以合并各個(gè)行為,并整合成排序需要的格式,比如cbparture~A(Ctrl+A)arrive'A pv 個(gè)數(shù) ~A click 個(gè)數(shù)等。
[0052]由于上述各個(gè)方案中,針對(duì)排序計(jì)算過(guò)程中要注意數(shù)據(jù)的處理,因此需要進(jìn)行歸一處理,比如對(duì)瀏覽數(shù)據(jù),要做一些變換(歸一化等),這樣才能和不同量級(jí)(pv千萬(wàn)級(jí),click百萬(wàn)級(jí))的數(shù)據(jù),如order可比。
[0053]優(yōu)選地,本申請(qǐng)上述實(shí)施例中,在步驟S70提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果之后,還可以實(shí)施如下步驟:按照匹配度對(duì)所有的搜索結(jié)果進(jìn)行排序,得到每個(gè)搜索結(jié)果的排序結(jié)果;在搜索引擎中按照排序結(jié)果顯示每個(gè)搜索結(jié)果。
[0054]具體的,上述方案中利用了排序算法得出歷史用戶(hù)的搜索結(jié)果的排序。這種方案實(shí)現(xiàn)了利用歷史用戶(hù)明確性的搜索對(duì)象和用戶(hù)行為的特征,通過(guò)以前的行為等因素綜合給出一個(gè)適合用戶(hù)的排序,從而能夠更好地為用戶(hù)提供產(chǎn)品的搜索結(jié)果。
[0055]由上可知,本申請(qǐng)上述實(shí)施例一提供方案通過(guò)分析用戶(hù)的歷史數(shù)據(jù),具體的,可以分析跟用戶(hù)有相同特征的用戶(hù)的歷史數(shù)據(jù),以及搜索對(duì)象(例如產(chǎn)品)的特征進(jìn)行稀疏數(shù)據(jù)等處理,從而結(jié)合用戶(hù)的搜索和特征,產(chǎn)品特征給出產(chǎn)品排序結(jié)果。該實(shí)施例使用機(jī)器運(yùn)算,節(jié)省人工,由于使用機(jī)器自動(dòng)運(yùn)算,因此搜索結(jié)果公平,不摻雜個(gè)人的因素,而且計(jì)算速度快,可通過(guò)調(diào)整可信度所滿(mǎn)足的范圍值來(lái)實(shí)時(shí)調(diào)整排序結(jié)果及其排序,達(dá)到更好搜索結(jié)果和擁護(hù)搜索體驗(yàn)。
[0056]需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0057]實(shí)施例二:
[0058]在描述本發(fā)明的各實(shí)施例的進(jìn)一步細(xì)節(jié)之前,將參考圖1來(lái)描述可用于實(shí)現(xiàn)本發(fā)明的原理的一個(gè)合適的計(jì)算體系結(jié)構(gòu)。在以下描述中,除非另外指明,否則將參考由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的動(dòng)作和操作的符號(hào)表示來(lái)描述本發(fā)明的各實(shí)施例。由此,可以理解,有時(shí)被稱(chēng)為計(jì)算機(jī)執(zhí)行的這類(lèi)動(dòng)作和操作包括計(jì)算機(jī)的處理單元對(duì)以結(jié)構(gòu)化形式表示數(shù)據(jù)的電信號(hào)的操縱。這一操縱轉(zhuǎn)換了數(shù)據(jù)或在計(jì)算機(jī)的存儲(chǔ)器系統(tǒng)中的位置上維護(hù)它,這以本領(lǐng)域的技術(shù)人員都理解的方式重配置或改變了計(jì)算機(jī)的操作。維護(hù)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)是具有數(shù)據(jù)的格式所定義的特定屬性的存儲(chǔ)器的物理位置。然而,盡管在上述上下文中描述本發(fā)明,但它并不意味著限制性的,如本領(lǐng)域的技術(shù)人員所理解的,后文所描述的動(dòng)作和操作的各方面也可用硬件來(lái)實(shí)現(xiàn)。
[0059]轉(zhuǎn)向附圖,其中相同的參考標(biāo)號(hào)指代相同的元素,本發(fā)明的原理被示為在一個(gè)合適的計(jì)算環(huán)境中實(shí)現(xiàn)。以下描述基于的本發(fā)明的實(shí)施例,并且不應(yīng)認(rèn)為是關(guān)于此處未明確描述的替換實(shí)施例而限制本發(fā)明。
[0060]圖3示出了本申請(qǐng)實(shí)施例的搜索引擎的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。出于描述的目的,所繪的體系結(jié)構(gòu)僅為合適環(huán)境的一個(gè)示例,并非對(duì)本發(fā)明的使用范圍或功能提出任何局限。也不應(yīng)將該計(jì)算系統(tǒng)解釋為對(duì)圖3所示的任一組件或其組合具有任何依賴(lài)或需求。
[0061]本發(fā)明的原理可以使用其它通用或?qū)S糜?jì)算或通信環(huán)境或配置來(lái)操作。適用于本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境和配置的示例包括但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器,多處理器系統(tǒng)、基于微處理的系統(tǒng)、小型機(jī)、大型計(jì)算機(jī)、以及包括任一上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境。
[0062]如圖3所示,該搜索引擎的數(shù)據(jù)處理裝置可以包括:一獲取模塊101、一處理模塊103、一匹配模塊105和一提取模塊107。
[0063]其中,獲取模塊101,用于獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)。
[0064]處理模塊103,用于根據(jù)用戶(hù)行為數(shù)據(jù)和搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值。
[0065]匹配模塊105,用于將用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
[0066]提取模塊107,用于提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取歷史用戶(hù)的搜索結(jié)果。
[0067]本申請(qǐng)上述實(shí)施例中,主要利用了機(jī)器學(xué)習(xí)來(lái)獲取后臺(tái)系統(tǒng)中已經(jīng)保存的日志記錄,該日志記錄保存了歷史用戶(hù)使用搜索引擎進(jìn)行搜索操作的用戶(hù)行為數(shù)據(jù),以及相應(yīng)的搜索對(duì)象的屬性數(shù)據(jù)和搜索結(jié)果的特征數(shù)據(jù),通過(guò)對(duì)日志記錄中上述數(shù)據(jù)進(jìn)行分析,可以獲知?dú)v史用戶(hù)的搜索結(jié)果來(lái)學(xué)習(xí)該種類(lèi)型的用戶(hù)的搜索排序結(jié)果,從而在相同類(lèi)型的用戶(hù)使用搜索引擎時(shí),可以無(wú)需獲知搜索詞,系統(tǒng)便可以提供相應(yīng)的搜索結(jié)果,從而解決了相關(guān)現(xiàn)有技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,進(jìn)而實(shí)現(xiàn)提高搜索引擎的搜索效率,提高搜索結(jié)果準(zhǔn)確度的效果。
[0068]具體的,本申請(qǐng)上述實(shí)施例的日志記錄可以是歷史用戶(hù)使用搜索引擎之后,生成的歷史日志記錄;搜索對(duì)象可以是歷史用戶(hù)通過(guò)搜索引擎所要搜索的產(chǎn)品;搜索結(jié)果可以是指歷史用戶(hù)使用搜索引擎對(duì)搜索對(duì)象進(jìn)行搜索而生成的搜索對(duì)象。上述實(shí)施例根據(jù)歷史行為數(shù)據(jù)分析歷史用戶(hù)對(duì)搜索對(duì)象的搜索結(jié)果,歷史行為數(shù)據(jù)log可以包含用戶(hù)的各類(lèi)行為數(shù)據(jù),比如瀏覽,點(diǎn)擊等,每條記錄log通過(guò)標(biāo)記&來(lái)分割各類(lèi)行為發(fā)生時(shí)的快照,比如&source=首頁(yè) &departure=北京等。
[0069]以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,系統(tǒng)后臺(tái)收集到的用戶(hù)日志記錄可以是用于在預(yù)定時(shí)間段內(nèi)記錄的行為數(shù)據(jù),例如可以是:瀏覽,點(diǎn)擊,購(gòu)買(mǎi)等;搜索對(duì)象的屬性數(shù)據(jù)(例如產(chǎn)品的屬性數(shù)據(jù))可以包括搜索對(duì)象的特征,比如標(biāo)題,價(jià)格等。
[0070]優(yōu)選地,上述實(shí)施例中的裝置還可以包括:讀取模塊,用于讀取當(dāng)前登錄用戶(hù)的特征信息;查詢(xún)模塊,用于使用當(dāng)前登錄用戶(hù)的特征信息在數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),得到與當(dāng)前登錄用戶(hù)具有相同特征信息的歷史登陸用戶(hù),其中,歷史登陸用戶(hù)的歷史日志記錄作為日志記錄。
[0071]本申請(qǐng)上述獲取模塊101、處理模塊103、匹配模塊105和提取模塊107實(shí)現(xiàn)了根據(jù)歷史信息進(jìn)行機(jī)器學(xué)習(xí),得到了一類(lèi)用戶(hù)的搜索結(jié)果,并將結(jié)果保存在數(shù)據(jù)庫(kù)中。上述讀取模塊和查詢(xún)模塊實(shí)現(xiàn)了當(dāng)前用戶(hù)登錄之后,按照自身的特征信息進(jìn)行匹配,得到與自身有著相同或相似特征信息的歷史用戶(hù),并使用歷史用戶(hù)的日志記錄作為當(dāng)前登錄用戶(hù)得到搜索結(jié)果的樣本,從而進(jìn)一步使用歷史登陸用戶(hù)的歷史日志記錄進(jìn)行處理,得到最終的搜索結(jié)果。該結(jié)果可以如本申請(qǐng)?zhí)峁┑姆桨感枰M(jìn)行排序,當(dāng)然也可以直接將搜索結(jié)果反饋給當(dāng)前登錄用戶(hù)。
[0072]優(yōu)選地,上述實(shí)施例中,處理模塊103可以包括:
[0073]計(jì)算模塊,用于通過(guò)如下公式計(jì)算得到用戶(hù)的搜索偏好值Q:Q=Ax+By,其中,x為用戶(hù)行為數(shù)據(jù),Y為搜索對(duì)象屬性數(shù)據(jù),A、B為常數(shù);其中,在用戶(hù)行為數(shù)據(jù)包括多個(gè)
行為參數(shù)xi,搜索對(duì)象屬性數(shù)據(jù)包括多個(gè)屬性參數(shù)yi的情況下,Q=Axl+Ax2+Axi+......+Byl+By2+Byi+……,i為自然數(shù)。
[0074]具體的,仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,上述實(shí)施例實(shí)現(xiàn)了根據(jù)用戶(hù)行為數(shù)據(jù)和產(chǎn)品屬性數(shù)據(jù)計(jì)算用戶(hù)偏好,計(jì)算公式可以為線(xiàn)性回歸,例如:Q=Axl+Ax2+Byl,Q為用戶(hù)的搜索偏好值,xl,x2,yl為用戶(hù)行為數(shù)據(jù)和產(chǎn)品屬性數(shù)據(jù),比如Xl為用戶(hù)行為數(shù)據(jù)中的瀏覽團(tuán)品次數(shù),x2為用戶(hù)行為數(shù)據(jù)中的點(diǎn)擊團(tuán)品次數(shù),Yl為產(chǎn)品屬性數(shù)據(jù)中的產(chǎn)品價(jià)格因素。
[0075]優(yōu)選地,上述實(shí)施例的裝置還可以包括:修正模塊,用于通過(guò)單個(gè)用戶(hù)的偏好值與所有用戶(hù)的總體偏好值的總體平均值進(jìn)行求除的結(jié)果對(duì)用戶(hù)的搜索偏好值進(jìn)行修正處理,生成搜索偏好值的可信度;判斷模塊,用于判斷搜索偏好值的可信度是否小于等于可信度閾值;第一聚類(lèi)模塊,用于在搜索偏好值的可信度小于等于可信度閾值的情況下,根據(jù)用戶(hù)行為數(shù)據(jù)進(jìn)行聚類(lèi)處理,并根據(jù)聚類(lèi)結(jié)果返回執(zhí)行線(xiàn)形回歸計(jì)算,生成修正后的搜索偏好值;第一保存模塊,用于在搜索偏好值的可信度大于可信度閾值的情況下,保存當(dāng)前的搜索偏好值。
[0076]具體的,上述判斷模塊可以確定搜索偏好值的可信度的可行程度,比如可以規(guī)定可信度閾值為0.8,當(dāng)可信度小于閾`值時(shí),確定搜索偏好值的可信度不高,因此需要通過(guò)第一聚類(lèi)模塊來(lái)對(duì)用戶(hù)聚類(lèi),用戶(hù)聚類(lèi)根據(jù)用戶(hù)行為數(shù)據(jù),例如用戶(hù)所屬城市和用戶(hù)對(duì)相同產(chǎn)品的相似行為,具體的可以將瀏覽產(chǎn)品和點(diǎn)擊產(chǎn)品等相似行為聚成一類(lèi),聚類(lèi)可以采用k-means聚類(lèi)方法。
[0077]優(yōu)選地,上述實(shí)施例中,匹配模塊105可以包括:第一子獲取模塊,用于獲取每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量;第二子獲取模塊,用于獲取用戶(hù)的搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量;余弦計(jì)算模塊,用于將每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量分別與搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量進(jìn)行余弦計(jì)算,得到每個(gè)文本向量與數(shù)據(jù)向量之間的距離值;第二保存模塊,用于保存距離值,得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
[0078]具體的,仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,搜索到的產(chǎn)品本身的可以包括如下屬性:目的地,類(lèi)別,產(chǎn)品描述等,上述實(shí)施例實(shí)現(xiàn)了,可以通過(guò)文本匹配計(jì)算產(chǎn)品和偏好的匹配度,比如把產(chǎn)品本身的屬性作為一個(gè)文本向量,偏好等作為一個(gè)向量,計(jì)算兩個(gè)向量的匹配程度,例如用cosin計(jì)算兩個(gè)向量的距離來(lái)計(jì)算匹配程度。
[0079]本申請(qǐng)上述實(shí)施例中,在得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度之前,可以根據(jù)搜索結(jié)果的類(lèi)型對(duì)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行聚類(lèi)處理,得到修正后的搜索結(jié)果的偏好。
[0080]具體的,在得到用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度之前,進(jìn)行聚類(lèi)處理是為了得到更加精確的搜索結(jié)果的偏好程度。仍舊以用戶(hù)通過(guò)搜索引擎對(duì)產(chǎn)品進(jìn)行的各種操作行為,得到相關(guān)搜索結(jié)果為例,上述方案可以在將產(chǎn)品按照類(lèi)別進(jìn)行分類(lèi)之后,使用k-means聚類(lèi)方法,也可以進(jìn)一步進(jìn)行人工審核,來(lái)實(shí)現(xiàn)通過(guò)用戶(hù)對(duì)產(chǎn)品的偏好聚類(lèi)計(jì)算,得到用戶(hù)對(duì)每個(gè)類(lèi)別(比如周邊,國(guó)內(nèi)等)的搜索結(jié)果的偏好。
[0081]優(yōu)選地,上述實(shí)施例中的裝置還可以包括:第二聚類(lèi)模塊,用于根據(jù)搜索結(jié)果的類(lèi)型對(duì)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行聚類(lèi)處理,得到修正后的搜索結(jié)果的偏好。
[0082]優(yōu)選地,上述實(shí)施例中的裝置還可以包括:優(yōu)化處理模塊,用于對(duì)日志記錄中的用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)進(jìn)行以下任意一種或多種處理方式:歸一處理、去噪處理、篩選處理;排序模塊,用于按照匹配度對(duì)所有的搜索結(jié)果進(jìn)行排序,得到每個(gè)搜索結(jié)果的排序結(jié)果;顯示模塊,用于在搜索引擎中按照排序結(jié)果顯示每個(gè)搜索結(jié)果。
[0083]由上可知,本申請(qǐng)上述實(shí)施例一提供方案通過(guò)分析用戶(hù)的歷史數(shù)據(jù),具體的,可以分析跟用戶(hù)有相同特征的用戶(hù)的歷史數(shù)據(jù),以及搜索對(duì)象(例如產(chǎn)品)的特征進(jìn)行稀疏數(shù)據(jù)等處理,從而結(jié)合用戶(hù)的搜索和特征,產(chǎn)品特征給出產(chǎn)品排序結(jié)果。該實(shí)施例使用機(jī)器運(yùn)算,節(jié)省人工,由于使用機(jī)器自動(dòng)運(yùn)算,因此搜索結(jié)果公平,不摻雜個(gè)人的因素,而且計(jì)算速度快,可通過(guò)調(diào)整可信度所滿(mǎn)足的范圍值來(lái)實(shí)時(shí)調(diào)整排序結(jié)果及其排序,達(dá)到更好搜索結(jié)果和擁護(hù)搜索體驗(yàn)。
[0084]從以上的描述中,可以看出,本發(fā)明實(shí)現(xiàn)了如下技術(shù)效果:本申請(qǐng)通過(guò)獲知?dú)v史用戶(hù)的搜索結(jié)果來(lái)學(xué)習(xí)該種類(lèi)型的用戶(hù)的搜索排序結(jié)果,從而在相同類(lèi)型的用戶(hù)使用搜索引擎時(shí),可以無(wú)需獲知搜索詞,系統(tǒng)便可以提供相應(yīng)的搜索結(jié)果,從而解決了相關(guān)現(xiàn)有技術(shù)的在搜索引擎無(wú)法獲知搜索詞時(shí),通過(guò)人工維護(hù)后臺(tái)導(dǎo)致搜索效率低、搜索結(jié)果不準(zhǔn)確的問(wèn)題,進(jìn)而實(shí)現(xiàn)提高搜索引擎的搜索效率,提高搜索結(jié)果準(zhǔn)確度的效果。
[0085]通過(guò)以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0086]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0087]本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。[0088]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0089]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種搜索引擎的數(shù)據(jù)處理方法,其特征在于,包括: 獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,所述日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù); 根據(jù)所述用戶(hù)行為數(shù)據(jù)和所述搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值; 將所述用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度; 提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取所述歷史用戶(hù)的搜索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述用戶(hù)行為數(shù)據(jù)和所述搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值的步驟包括: 通過(guò)如下公式計(jì)算得到所述用戶(hù)的搜索偏好值Q:Q=Ax+By,其中,X為所述用戶(hù)行為數(shù)據(jù),y為所述搜索對(duì)象屬性數(shù)據(jù),A、B為常數(shù); 其中,在所述用戶(hù)行為數(shù)據(jù)包括多個(gè)行為參數(shù)xi,所述搜索對(duì)象屬性數(shù)據(jù)包括多個(gè)屬性參數(shù) yi 的情況下,Q=Axl+Ax2+Axi+......+Byl+By2+Byi+......,i 為自然數(shù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在根據(jù)所述用戶(hù)行為數(shù)據(jù)和所述搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值之后,所述方法還包括: 通過(guò)單個(gè)用戶(hù)的偏好值與 所有用戶(hù)的總體偏好值的總體平均值進(jìn)行求除的結(jié)果對(duì)所述用戶(hù)的搜索偏好值進(jìn)行修正處理,生成所述搜索偏好值的可信度; 判斷所述搜索偏好值的可信度是否小于等于可信度閾值;其中, 在所述搜索偏好值的可信度小于等于可信度閾值的情況下,根據(jù)所述用戶(hù)行為數(shù)據(jù)進(jìn)行聚類(lèi)處理,并根據(jù)聚類(lèi)結(jié)果返回執(zhí)行線(xiàn)形回歸計(jì)算,生成修正后的搜索偏好值; 在所述搜索偏好值的可信度大于可信度閾值的情況下,保存當(dāng)前的搜索偏好值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度的步驟包括: 獲取所述每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量; 獲取所述用戶(hù)的搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量; 將所述每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量分別與所述搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量進(jìn)行余弦計(jì)算,得到每個(gè)文本向量與所述數(shù)據(jù)向量之間的距離值; 保存所述距離值,得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度之前,所述方法還包括: 根據(jù)所述搜索結(jié)果的類(lèi)型對(duì)所述搜索結(jié)果的特征數(shù)據(jù)進(jìn)行聚類(lèi)處理,得到修正后的所述搜索結(jié)果的偏好。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取歷史用戶(hù)使用搜索引擎的日志記錄之前,所述方法還包括: 讀取當(dāng)前登錄用戶(hù)的特征信息; 使用所述當(dāng)前登錄用戶(hù)的特征信息在數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),得到與當(dāng)前登錄用戶(hù)具有相同特征信息的歷史登陸用戶(hù);其中,將所述歷史登陸用戶(hù)的歷史日志記錄作為所述日志記錄。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在提取所有搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取所述歷史用戶(hù)的搜索結(jié)果之后,所述方法還包括: 按照所述匹配度對(duì)所有的搜索結(jié)果進(jìn)行排序,得到所述每個(gè)搜索結(jié)果的排序結(jié)果; 在搜索引擎中按照所述排序結(jié)果顯示每個(gè)搜索結(jié)果。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取所述日志記錄之后,所述方法還包括:對(duì)所述日志記錄中的用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)進(jìn)行以下任意一種或多種處理方式:歸一處理、去噪處理、篩選處理。
9.一種搜索引擎的數(shù)據(jù)處理裝置,其特征在于,包括: 獲取模塊,用于獲取歷史用戶(hù)使用搜索引擎的日志記錄,其中,所述日志記錄包括:用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù); 處理模塊,用于根據(jù)所述用戶(hù)行為數(shù)據(jù)和所述搜索對(duì)象屬性數(shù)據(jù)進(jìn)行線(xiàn)性回歸計(jì)算,生成用戶(hù)的搜索偏好值; 匹配模塊,用于將所述用戶(hù)的搜索偏好值與每個(gè)搜索結(jié)果的特征數(shù)據(jù)進(jìn)行匹配處理,得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度; 提取模塊,用于提取所有 搜索結(jié)果的匹配度中滿(mǎn)足預(yù)定條件匹配度,獲取所述歷史用戶(hù)的搜索結(jié)果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述處理模塊包括: 計(jì)算模塊,用于通過(guò)如下公式計(jì)算得到所述用戶(hù)的搜索偏好值Q:Q=Ax+By,其中,X為所述用戶(hù)行為數(shù)據(jù),y為所述搜索對(duì)象屬性數(shù)據(jù),A、B為常數(shù); 其中,在所述用戶(hù)行為數(shù)據(jù)包括多個(gè)行為參數(shù)xi,所述搜索對(duì)象屬性數(shù)據(jù)包括多個(gè)屬性參數(shù) yi 的情況下,Q=Axl+Ax2+Axi+......+Byl+By2+Byi+......,i 為自然數(shù)。
11.根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,所述裝置還包括: 修正模塊,用于通過(guò)單個(gè)用戶(hù)的偏好值與所有用戶(hù)的總體偏好值的總體平均值進(jìn)行求除的結(jié)果對(duì)所述用戶(hù)的搜索偏好值進(jìn)行修正處理,生成所述搜索偏好值的可信度; 判斷模塊,用于判斷所述搜索偏好值的可信度是否小于等于可信度閾值; 第一聚類(lèi)模塊,用于在所述搜索偏好值的可信度小于等于可信度閾值的情況下,根據(jù)所述用戶(hù)行為數(shù)據(jù)進(jìn)行聚類(lèi)處理,并根據(jù)聚類(lèi)結(jié)果返回執(zhí)行線(xiàn)形回歸計(jì)算,生成修正后的搜索偏好值; 第一保存模塊,用于在所述搜索偏好值的可信度大于可信度閾值的情況下,保存當(dāng)前的搜索偏好值。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,匹配模塊包括: 第一子獲取模塊,用于獲取所述每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量; 第二子獲取模塊,用于獲取所述用戶(hù)的搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量; 余弦計(jì)算模塊,用于將所述每個(gè)搜索結(jié)果的特征數(shù)據(jù)對(duì)應(yīng)的文本向量分別與所述搜索偏好值對(duì)應(yīng)的數(shù)據(jù)向量進(jìn)行余弦計(jì)算,得到每個(gè)文本向量與所述數(shù)據(jù)向量之間的距離值;第二保存模塊,用于保存所述距離值,得到所述用戶(hù)的搜索偏好與所有搜索結(jié)果的匹配度。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括:第二聚類(lèi)模塊,用于根據(jù)所述搜索結(jié)果的類(lèi)型對(duì)所述搜索結(jié)果的特征數(shù)據(jù)進(jìn)行聚類(lèi)處理,得到修正后的所述搜索結(jié)果的偏好。
14.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括: 讀取模塊,用于讀取當(dāng)前登錄用戶(hù)的特征信息; 查詢(xún)模塊,用于使用所述當(dāng)前登錄用戶(hù)的特征信息在數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),得到與當(dāng)前登錄用戶(hù)具有相同特征信息的歷史登陸用戶(hù),其中,所述歷史登陸用戶(hù)的歷史日志記錄作為所述日志記錄。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述裝置還包括: 優(yōu)化處理模塊,用于對(duì)所述日志記錄中的用戶(hù)行為數(shù)據(jù)、搜索對(duì)象屬性數(shù)據(jù)以及搜索結(jié)果的特征數(shù)據(jù)進(jìn)行以下任意一種或多種處理方式:歸一處理、去噪處理、篩選處理; 排序模塊,用于按照所述匹配度對(duì)所有的搜索結(jié)果進(jìn)行排序,得到所述每個(gè)搜索結(jié)果的排序結(jié)果; 顯示模塊,用于在搜 索引擎中按照所述排序結(jié)果顯示每個(gè)搜索結(jié)果。
【文檔編號(hào)】G06F17/30GK103646070SQ201310659121
【公開(kāi)日】2014年3月19日 申請(qǐng)日期:2013年12月6日 優(yōu)先權(quán)日:2013年12月6日
【發(fā)明者】王學(xué)蕾 申請(qǐng)人:北京趣拿軟件科技有限公司