本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種用于對搜索結(jié)果進(jìn)行處理的方法和裝置。
背景技術(shù):隨著搜索技術(shù)的發(fā)展,為了適應(yīng)用戶不同的搜索需求以及應(yīng)對用戶終端的多樣化趨勢,會通過不同的途徑來獲取多種資源,例如,從專門適用于移動終端的網(wǎng)頁數(shù)據(jù)庫獲得的搜索結(jié)果以及專門用于為用戶提供網(wǎng)頁應(yīng)用程序的資源數(shù)據(jù)庫中的搜索結(jié)果將會同時提供給用戶,從而使得在用戶終端所獲得的搜索結(jié)果中,存在不同數(shù)據(jù)來源之間的資源重復(fù)問題。從而使得用戶終端所獲得的搜索結(jié)果看似獲得了較多結(jié)果,實際上可能包含了大量的重復(fù)內(nèi)容,影響了用戶獲取多樣化信息的效率,降低了用戶的體驗。
技術(shù)實現(xiàn)要素:本發(fā)明的目的在于提供一種用于對搜索結(jié)果進(jìn)行處理的方法和裝置。根據(jù)本發(fā)明的一個方面,提供一種用于對搜索結(jié)果進(jìn)行處理的方法,其中,所述方法包括以下步驟:a獲取所述搜索結(jié)果中的多個結(jié)果地址;b對所述多個結(jié)果地址分別執(zhí)行多種單項聚合操作,以獲得分別與所述多個結(jié)果地址相對應(yīng)的多種單項聚合結(jié)果,其中,每種單項聚合操作包括基于所述結(jié)果地址對應(yīng)的一種相關(guān)信息項、對所述多個結(jié)果地址執(zhí)行的聚合操作;c對所獲得的多個單項聚合結(jié)果執(zhí)行綜合聚合操作。根據(jù)本發(fā)明的一個方面,提供一種用于對搜索結(jié)果進(jìn)行處理的搜索處理裝置,其中,所述搜索處理裝置包括:第一獲取裝置,用于獲取所述搜索結(jié)果中的多個結(jié)果地址;單項聚合裝置,用于對所述多個結(jié)果地址分別執(zhí)行多種單項聚合操作,以獲得分別與所述多個結(jié)果地址相對應(yīng)的多種單項聚合結(jié)果,其中,每種單項聚合操作包括基于所述結(jié)果地址對應(yīng)的一種相關(guān)信息項、對所述多個結(jié)果地址執(zhí)行的聚合操作;綜合聚合裝置,用于對所獲得的多個單項聚合結(jié)果執(zhí)行綜合聚合操作。根據(jù)本發(fā)明的方案,能夠有效地去除搜索結(jié)果中來自多個不同數(shù)據(jù)來源的重復(fù)資源,從而在保證搜索結(jié)果全面性的前提下,減少搜索結(jié)果的冗余,提升用戶體驗。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:圖1為根據(jù)本發(fā)明的一個方面的用于對搜索結(jié)果進(jìn)行處理的方法流程圖;圖2為根據(jù)本發(fā)明的一個方面的用于對搜索結(jié)果進(jìn)行處理的搜索處理裝置的結(jié)構(gòu)示意圖。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。具體實施方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。圖1示意出了根據(jù)本發(fā)明的一個方面的用于對搜索結(jié)果進(jìn)行處理的方法流程圖。根據(jù)本發(fā)明的方法包括步驟S1、步驟S2和步驟S3。其中,所述搜索結(jié)果包括至少一個結(jié)果地址信息。優(yōu)選地,所述搜索結(jié)果包含來自多個數(shù)據(jù)來源的結(jié)果地址。更優(yōu)選地,所述搜索結(jié)果中包含一般搜索結(jié)果,以及特殊搜索結(jié)果,其中,所述一般搜索結(jié)果包括在一般數(shù)據(jù)庫中執(zhí)行搜索獲得的一般結(jié)果地址;所述特殊搜索結(jié)果包括在一個或多個特殊數(shù)據(jù)庫中執(zhí)行搜索獲得的特殊結(jié)果地址。其中,所述特殊數(shù)據(jù)庫基于特定用戶需求或基于特定用戶設(shè)備而建立。例如,為適應(yīng)移動終端而建立的、包含適合在移動終端上展現(xiàn)的WAP網(wǎng)頁的WAP網(wǎng)頁數(shù)據(jù)庫;又例如,將所獲得的一般搜索結(jié)果作為數(shù)據(jù)庫,并根據(jù)用戶需求相關(guān)信息在該一般搜索結(jié)果中執(zhí)行搜索優(yōu)化,以獲得精確搜索結(jié)果。其中,所述用戶需求相關(guān)信息包括但不限于以下任一項:1)用戶歷史搜索信息;2)用戶地域相關(guān)信息;3)用戶屬性信息,例如性別、年齡、職業(yè)等。其中,根據(jù)本發(fā)明的方法通過可聯(lián)網(wǎng)的計算機設(shè)備實現(xiàn)。所述計算機設(shè)備包括一種能夠按照事先設(shè)定或存儲的指令,自動進(jìn)行數(shù)值計算和/或信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。其中,所述計算機設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)等。需要說明的是,所述計算機設(shè)備以及網(wǎng)絡(luò)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計算機設(shè)備以及網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并以引用方式包含于此。參照圖1,在步驟S1中,計算機設(shè)備獲取所述搜索結(jié)果中的一個或多個結(jié)果地址。具體地,所述計算機設(shè)備根據(jù)預(yù)定獲取規(guī)則,獲取搜索結(jié)果中的一個或多個結(jié)果地址。其中,所述結(jié)果地址包括用于定位網(wǎng)頁的鏈接地址信息,優(yōu)選地,所述結(jié)果地址包括同一資源定位符(URL,UniversalResourceLocation)。其中,所述預(yù)定獲取規(guī)則包括但不限于以下任一項:1)按照搜索結(jié)果中的結(jié)果地址的排序來預(yù)定個數(shù)的結(jié)果地址;例如,預(yù)定每次獲取排名前N的結(jié)果地址,其中,本領(lǐng)域技術(shù)人員可根據(jù)實際情況和需求來確定N的數(shù)值。2)根據(jù)搜索結(jié)果的呈現(xiàn)方式,獲取一個搜索結(jié)果網(wǎng)頁上呈現(xiàn)的多個結(jié)果地址。例如,搜索結(jié)果頁中每頁展示20個結(jié)果地址,則計算機設(shè)備獲取20個結(jié)果地址。3)隨機獲取預(yù)定個數(shù)的結(jié)果地址等。接著,在步驟S2中,計算機設(shè)備對所述多個結(jié)果地址分別執(zhí)行多種單項聚合操作,以獲得分別與所述多個結(jié)果地址相對應(yīng)的多種單項聚合結(jié)果。其中,每種單項聚合操作包括基于所述結(jié)果地址對應(yīng)的一種相關(guān)信息項、對所述多個結(jié)果地址執(zhí)行的聚合操作。其中,每種單項聚合結(jié)果包括對多個結(jié)果地址執(zhí)行每種單項聚合操作后所獲得的一個或多個結(jié)果地址。其中,所述相關(guān)信息項包括但不限于以下任一種:1)與所述結(jié)果地址對應(yīng)的網(wǎng)頁的網(wǎng)頁地址信息。優(yōu)選地,所述網(wǎng)頁地址信息包括同一資源定位符(URL,UniversalResourcesLocation)。優(yōu)選地,所述網(wǎng)頁地址信息包括但不限于以下任一種:i)當(dāng)結(jié)果地址所對應(yīng)的網(wǎng)站接收到來自移動設(shè)備的、基于所述結(jié)果地址發(fā)起的訪問請求時,根據(jù)該移動設(shè)備的設(shè)備相關(guān)信息進(jìn)行適配后所反饋的地址信息;ii)在互聯(lián)網(wǎng)中對所述結(jié)果地址進(jìn)行重定向后所獲得的地址信息;iii)與所述結(jié)果地址對應(yīng)的網(wǎng)址別名信息等。其中,所述移動設(shè)備包括但不限于何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備等方式進(jìn)行人機交互的手持式電子產(chǎn)品。優(yōu)選地,所述移動設(shè)備包括但不限于平板電腦、智能手機、PDA、游戲機等。其中,所述設(shè)備相關(guān)信息包括但不限于以下任一項信息:i)移動設(shè)備型號;例如,NokiaN90、iPhone4s,又例如,iPad2、iPadmini等。ii)移動設(shè)備所采用的操作系統(tǒng);例如,iOS、Android等。iii)移動設(shè)備發(fā)起訪問請求所采用的瀏覽器;例如,safari,Opera,百度瀏覽器等。2)與所述結(jié)果地址所對應(yīng)的網(wǎng)頁的網(wǎng)頁內(nèi)容信息;例如,所述結(jié)果地址對應(yīng)的網(wǎng)頁中所包含的文本內(nèi)容信息等。3)與所述結(jié)果地址對應(yīng)的域名信息。例如,結(jié)果地址中所包含的域名等。具體地,所述計算機設(shè)備對所述多個結(jié)果地址分別執(zhí)行多種單項聚合操作,以獲得分別與所述多個結(jié)果地址相對應(yīng)的多種單項聚合結(jié)果的方式包括但不限于以下任一種:1)同時執(zhí)行多種單項聚合操作,以分別獲得各種單項聚合操作的單項聚合結(jié)果。例如,基于結(jié)果地址所對應(yīng)的網(wǎng)頁地址信息,分別對該多個結(jié)果地址執(zhí)行一種單項聚合操作,以獲得第一種單項聚合結(jié)果,同時,還基于結(jié)果地址的域名信息執(zhí)行另一種單項聚合操作,以獲得第二種單項聚合結(jié)果。2)依次執(zhí)行多種單項聚合操作,以分別獲得各種單項聚合操作的單項聚合結(jié)果。例如,先基于網(wǎng)頁地址信息執(zhí)行第一種單項聚合操作,獲得第一種單項聚合結(jié)果后,接著基于網(wǎng)頁內(nèi)容信息執(zhí)行單項聚合操作,并在獲得第二種單項聚合結(jié)果后,繼續(xù)基于結(jié)果地址的域名信息執(zhí)行第三種單項聚合操作,以獲得第三種單項聚合結(jié)果。其中,所述每種單項聚合操作包括步驟S201(圖未示)以及步驟S203(圖未示)。在步驟S201中,計算機設(shè)備根據(jù)所述多個結(jié)果地址,獲取與各個結(jié)果地址所對應(yīng)的該種相關(guān)信息項。其中,本領(lǐng)域技術(shù)人員應(yīng)可根據(jù)實際情況與需求確定獲取與各個結(jié)果地址所對應(yīng)的相關(guān)信息項的方式,此處不再贅述。優(yōu)選地,根據(jù)本發(fā)明的計算機設(shè)備可模擬移動設(shè)備發(fā)起訪問請求,以獲得與結(jié)果地址對應(yīng)的網(wǎng)頁的網(wǎng)頁地址信息。更優(yōu)選地,所述計算機設(shè)備通過發(fā)送移動設(shè)備的設(shè)備相關(guān)信息來模擬移動設(shè)備發(fā)起請求,以獲得與結(jié)果地址對應(yīng)的網(wǎng)頁的網(wǎng)頁地址信息。例如,當(dāng)計算機設(shè)備基于結(jié)果地址發(fā)送訪問請求時,在基于Http協(xié)議的訪問請求的useragent字段中發(fā)送與iPhone4s終端對應(yīng)的參數(shù)信息,以模擬iPhone4s終端發(fā)起請求等。其中,本領(lǐng)域技術(shù)人員應(yīng)可根據(jù)實際情況與需求確定模擬各類移動終端發(fā)起訪問的請求的方式,此處不再贅述。接著,在步驟S202中,計算機設(shè)備根據(jù)各個結(jié)果地址所對應(yīng)的所述該種相關(guān)信息項,來比較各個結(jié)果地址對應(yīng)的該種相關(guān)信息項是否相似,以根據(jù)所獲得的比較結(jié)果來確定對應(yīng)的單項聚合結(jié)果。具體地,計算機設(shè)備對各個結(jié)果地址,判斷該結(jié)果地址對應(yīng)的相關(guān)信息項與其他各個結(jié)果地址對應(yīng)的相關(guān)信息項是否相似,并相關(guān)信息項相似的結(jié)果地址劃入同一組,以獲得一組或多組結(jié)果地址;接著,計算機設(shè)備根據(jù)所述一組或多組結(jié)果地址,確定單項聚合結(jié)果。其中,屬于同一組的結(jié)果地址的對應(yīng)相同或相似的相關(guān)信息項。其中,所述計算機設(shè)備對各個結(jié)果地址,判斷該結(jié)果地址對應(yīng)的相關(guān)信息項與其他各個結(jié)果地址對應(yīng)的相關(guān)信息項是否相似,并將相關(guān)信息項相似的結(jié)果地址劃入同一組,以獲得一組或多組結(jié)果地址的方式包括但不限于以下任一種:1)計算機設(shè)備直接根據(jù)各個結(jié)果地址對應(yīng)的相關(guān)信息項進(jìn)行比較,以判斷各個相關(guān)信息項是否相似,并將相關(guān)信息項相似的結(jié)果地址劃入同一組,以獲得一組或多組結(jié)果地址。例如,計算機設(shè)備直接比較各個結(jié)果地址對應(yīng)的域名信息是否相同,并將域名信息相同的結(jié)果地址劃入同一組。又例如,計算機設(shè)備比較各個結(jié)果地址對應(yīng)的網(wǎng)頁的文本內(nèi)容是否相同,并將文本內(nèi)容相同的結(jié)果地址劃入同一組。2)計算機設(shè)備獲取對各個結(jié)果地址對應(yīng)的相關(guān)信息項的特征信息,以基于特征信息來判斷各個相關(guān)信息項是否相似,并將將相關(guān)信息項相似的結(jié)果地址劃入同一組,以獲得一組或多組結(jié)果地址。優(yōu)選地,所述相關(guān)信息項包括網(wǎng)頁內(nèi)容信息,所述計算機設(shè)備獲取對各個結(jié)果地址對應(yīng)的網(wǎng)頁內(nèi)容信息的特征信息,以基于特征信息來判斷各個網(wǎng)頁內(nèi)容信息是否相似,并將網(wǎng)頁內(nèi)容信息相似的結(jié)果地址劃入同一組,以獲得一組或多組結(jié)果地址。其中,所述特征信息包括但不限于各個網(wǎng)頁內(nèi)容信息中所包含的一個或多個關(guān)鍵詞。優(yōu)選地,所述特征信息中還包括與各個關(guān)鍵詞對應(yīng)的權(quán)重信息。其中,計算機設(shè)備獲取各個網(wǎng)頁內(nèi)容信息所對應(yīng)的特征信息的方式包括但不限于以下任一種:i)對所獲得的各個網(wǎng)頁內(nèi)容信息分別進(jìn)行切詞以獲得多個關(guān)鍵詞,并計算各個關(guān)鍵詞在其所屬網(wǎng)頁內(nèi)容信息中的權(quán)重信息,并將所獲得的關(guān)鍵詞及其權(quán)重信息作為相應(yīng)的網(wǎng)頁內(nèi)容信息的特征信息。優(yōu)選地,所述權(quán)重信息根據(jù)關(guān)鍵詞在其所述的網(wǎng)頁內(nèi)容信息中的出現(xiàn)頻次來確定。例如,將關(guān)鍵詞在其所述的網(wǎng)頁內(nèi)容信息中的詞頻逆文檔頻率(TF-IDF,termfrequency-inversedocumentfrequency)值作為權(quán)重值的方式等。ii)通過預(yù)建立的主題模型獲取與各個網(wǎng)頁內(nèi)容信息對應(yīng)的特征信息。其中,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實際情況與需求來確定所采用的主題模型,此處不再贅述。其中,計算機設(shè)備將與所述一個或多個結(jié)果地址分別對應(yīng)的網(wǎng)頁內(nèi)容信息的特征信息進(jìn)行兩兩比較,以獲得所對應(yīng)的網(wǎng)頁內(nèi)容信息相似的多個結(jié)果地址的方式包括但不限于...