一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法、裝置與設(shè)備的制作方法
【專利摘要】本發(fā)明的目的是提供一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法、裝置與設(shè)備。其中網(wǎng)絡(luò)設(shè)備根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息;確定所述多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面;根據(jù)所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息;根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
【專利說明】一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法、裝置與設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索結(jié)果排序【技術(shù)領(lǐng)域】,尤其涉及一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法、裝置與設(shè)備。
【背景技術(shù)】
[0002]當(dāng)今,移動(dòng)互聯(lián)網(wǎng)在人們的生活中扮演越來越重要的角色,人們可隨時(shí)隨地通過移動(dòng)終端在互聯(lián)網(wǎng)中進(jìn)行信息搜索?,F(xiàn)有技術(shù)中,移動(dòng)終端一般根據(jù)用戶輸入的查詢序列,向用戶呈現(xiàn)搜索引擎基于查詢序列獲得并排序后提供給移動(dòng)終端的多個(gè)搜索結(jié)果項(xiàng)。
[0003]然而,用戶無法知曉大量的搜索結(jié)果項(xiàng)中哪些搜索結(jié)果項(xiàng)對(duì)應(yīng)的搜索結(jié)果頁面能夠以較優(yōu)的展現(xiàn)效果在移動(dòng)終端上呈現(xiàn)、用戶通過瀏覽該搜索結(jié)果頁面是否能夠得到較好瀏覽體驗(yàn),故其需要通過點(diǎn)擊每一搜索結(jié)果中的頁面鏈接進(jìn)入搜索結(jié)果頁面,分別瀏覽每一搜索結(jié)果網(wǎng)頁以進(jìn)行判斷,因此,用戶在此過程中操作繁瑣,影響用戶瀏覽體驗(yàn);同時(shí),由于訪問了相當(dāng)數(shù)量的不適于在移動(dòng)終端屏幕中展示的搜索結(jié)果頁面,不僅降低了用戶信息獲取效率,也帶來了很多不必要的通信流量。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法、裝置與設(shè)備。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法,該方法包括以下步驟:
[0006]a根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息;
[0007]其中,該方法還包括:
[0008]w確定所述多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面;
[0009]X根據(jù)所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息;
[0010]y根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
[0011]根據(jù)本發(fā)明的另一方面,還提供了一種用于對(duì)搜索結(jié)果進(jìn)行排序的排序裝置,該排序裝置包括:
[0012]搜索結(jié)果獲取裝置,用于根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息;
[0013]其中,該排序裝置還包括:[0014]搜索結(jié)果確定裝置,用于確定所述多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面;
[0015]調(diào)整信息確定裝置,用于根據(jù)所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息;
[0016]第一排序裝置,用于根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
[0017]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):通過根據(jù)每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息及具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)該多個(gè)搜索結(jié)果進(jìn)行排序處理,以使得多個(gè)搜索結(jié)果的排序方式不僅與用戶輸入的查詢序列的匹配程度相關(guān),而且該排序方式也與搜索結(jié)果頁面是否適于在移動(dòng)終端上呈現(xiàn)相關(guān)聯(lián),實(shí)現(xiàn)了將適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面質(zhì)量的第二類頁面對(duì)應(yīng)的搜索結(jié)果以及適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面相似度信息的第二類頁面與第一類頁面的對(duì)應(yīng)的搜索結(jié)果能夠排于搜索結(jié)果頁的較高位置,用戶可在其最易獲取信息的視覺區(qū)域內(nèi)點(diǎn)擊排序較高的幾個(gè)搜索結(jié)果,就可獲取適于其在移動(dòng)終端瀏覽的搜索結(jié)果網(wǎng)頁,從而提高用戶瀏覽體驗(yàn)。
【專利附圖】
【附圖說明】
[0018]通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0019]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對(duì)搜索結(jié)果進(jìn)行排序的排序裝置的結(jié)構(gòu)示意圖;
[0020]圖2示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的排序裝置的結(jié)構(gòu)示意圖;
[0021]圖3示出根據(jù)本發(fā)明另一個(gè)方面的用于對(duì)搜索結(jié)果進(jìn)行排序的方法流程圖;
[0022]圖4示出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的方法流程圖。
[0023]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0024]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0025]圖1示出根據(jù)本發(fā)明一個(gè)方面的用于對(duì)搜索結(jié)果進(jìn)行排序的排序裝置的結(jié)構(gòu)示意圖。本實(shí)施例的排序裝置包含于網(wǎng)絡(luò)設(shè)備中;該排序裝置包括搜索結(jié)果獲取裝置1、搜索結(jié)果確定裝置2、調(diào)整信息確定裝置3和第一排序裝置4。
[0026]所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(Cloud Computing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。
[0027]首先,搜索結(jié)果獲取裝置I根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信
肩、O
[0028]其中,所述移動(dòng)終端包括但不限于任何可適用于本發(fā)明的能夠通過鍵盤、觸摸屏等與用戶進(jìn)行交互的移動(dòng)式電子產(chǎn)品,諸如手機(jī)、PDA、掌上電腦(PPC)、游戲機(jī)(PSP)等。在此,所述網(wǎng)絡(luò)設(shè)備和移動(dòng)終端均包括一種能夠按照事先設(shè)定或存儲(chǔ)的指令,自動(dòng)進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件可包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。
[0029]本領(lǐng)域技術(shù)人員應(yīng)能理解上述移動(dòng)終端以及網(wǎng)絡(luò)設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的移動(dòng)終端以及網(wǎng)絡(luò)設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0030]在此,所述移動(dòng)終端與所述網(wǎng)絡(luò)設(shè)備之間可通過任何通信方式實(shí)現(xiàn)通信,包括但不限于,基于3GPP、LTE、WIMAX的移動(dòng)通信、基于TCP/IP、UDP協(xié)議的計(jì)算機(jī)網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。所述移動(dòng)終端與所述網(wǎng)絡(luò)設(shè)備之間連接的網(wǎng)絡(luò)包括但不限于:互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))等。
[0031]具體地,搜索結(jié)果獲取裝置I根據(jù)來自移動(dòng)終端的用戶輸入的查詢序列進(jìn)行匹配查詢,并基于接收到的查詢序列進(jìn)行搜索。一般地,搜索過程如下:查詢序列中包含一個(gè)或多個(gè)關(guān)鍵詞,優(yōu)選地,還包括關(guān)鍵詞之間的關(guān)聯(lián)詞,搜索結(jié)果獲取裝置I將提取這些關(guān)鍵詞,優(yōu)選地,還提取關(guān)聯(lián)詞,并在網(wǎng)絡(luò)索引庫中根據(jù)所述關(guān)鍵詞、或關(guān)鍵詞與關(guān)聯(lián)詞進(jìn)行匹配查詢從而獲得多個(gè)搜索結(jié)果,其中每個(gè)搜索結(jié)果與該查詢序列的相關(guān)度信息可根據(jù)各種搜索算法確定,例如根據(jù)傳統(tǒng)的點(diǎn)擊率算法確定該相關(guān)度信息、根據(jù)Google的“PageRank”搜索算法(參見美國專利US6285699,“Method for node ranking in a linked database”)確定該相關(guān)度信息、根據(jù)百度的“超鏈”搜索算法確定該相關(guān)度信息,搜索結(jié)果獲取裝置I基于上述搜索算法來獲得每個(gè)搜索結(jié)果與該查詢序列的相關(guān)度信息。其中,所述相關(guān)度信息指通過“PageRank”、“超鏈”等基本搜索算法確定的搜索結(jié)果與查詢序列的匹配程度分值。
[0032]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,來獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果及每個(gè)搜索結(jié)果與所述查詢序列的相關(guān)度信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0033]搜索結(jié)果確定裝置2確定已獲取的多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面。
[0034]其中,所述第一類頁面意指適于在計(jì)算機(jī)設(shè)備上顯示的頁面,例如,WEB頁面,也即在萬維網(wǎng)上的基于HTML、XML、XHTML等標(biāo)識(shí)語言的文件,當(dāng)用戶通過萬維網(wǎng)進(jìn)行信息查詢時(shí),以信息頁面的形式出現(xiàn),可包括圖形、文字、聲音和視像等信息。
[0035]其中,所述第二類頁面意指適于在移動(dòng)終端上顯示的頁面,例如,WAP頁面,也即基于無線標(biāo)識(shí)語言(WML)的文件,可由移動(dòng)終端基于可基于無線應(yīng)用協(xié)議(WAP)訪問WAP網(wǎng)站,該文件適于在屏幕較小的移動(dòng)終端上顯示。[0036]其中,搜索結(jié)果確定裝置2所述確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果方式包括但不限于:
[0037]-根據(jù)每個(gè)搜索結(jié)果的鏈接信息,在頁面對(duì)應(yīng)列表中進(jìn)行匹配查詢,來確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面。
[0038]在一示例中,搜索結(jié)果確定裝置2將每個(gè)搜索結(jié)果的鏈接信息在預(yù)定的頁面對(duì)應(yīng)列表中進(jìn)行匹配查詢,來確定每個(gè)搜索結(jié)果是否指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面;其中,所述頁面對(duì)應(yīng)列表中包括指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面的多個(gè)搜索結(jié)果鏈接信息;優(yōu)選地,所述多個(gè)搜索結(jié)果是否指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面可通過網(wǎng)絡(luò)設(shè)備預(yù)先對(duì)海量互聯(lián)網(wǎng)中的頁面進(jìn)行挖掘來確定。
[0039]優(yōu)選地,搜索結(jié)果確定裝置2包括標(biāo)簽提取裝置(圖未示),標(biāo)簽提取裝置通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果。
[0040]具體地,標(biāo)簽提取裝置提取多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽;接著,通過讀取預(yù)定標(biāo)簽中的預(yù)定屬性信息來確定多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果。
[0041]其中,所述標(biāo)記語言文件包括但不限于:1)HTML(超文本標(biāo)記語言)文件;2)XML (可擴(kuò)展標(biāo)記語言)文件;3) XHTML (可擴(kuò)展超文本標(biāo)記語言)文件;4) XAML (可擴(kuò)展應(yīng)用程序標(biāo)記語言)文件等。
[0042]在一示例中,一個(gè)搜索結(jié)果對(duì)應(yīng)的第一類頁面,如WEB頁面的HTML文件為:
[0043]〈head〉
[0044]<meta name = " mob i I e-agent " content = " format = html5 ;url =http://3g.a be.com.cn/〃 >
[0045]......[0046]〈/head〉;
[0047]標(biāo)簽提取裝置提取該HTML文件的預(yù)定的<meta>標(biāo)簽,接著讀取該<meta>標(biāo)簽中的 content 的屬性值為“format = html5 ;url = http://3g.abc.com.cn/”,來確定該搜索結(jié)果對(duì)應(yīng)的WAP頁面的對(duì)應(yīng)的鏈接信息為“http://3g.abc.com.cn/”且該WAP頁面的標(biāo)記語言文件為HTML5,即確定該搜索結(jié)果為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果。
[0048]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0049]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi),其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面。
[0050]接著,調(diào)整信息確定裝置3根據(jù)已確定的至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息。[0051]其中,所述第二類頁面的特征度包括以下至少任一項(xiàng):
[0052]I)每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量;
[0053]2)每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息。
[0054]本領(lǐng)域技術(shù)人員應(yīng)能理解上述第二類頁面的特征度僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的第二類頁面的特征度如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0055]具體地,調(diào)整信息確定裝置3確定每個(gè)搜索結(jié)果的排序調(diào)整信息的方式包括但不限于:
[0056]I)首先,從預(yù)置的特征度數(shù)據(jù)庫中獲取預(yù)存的每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量及該搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息;接著,根據(jù)該頁面質(zhì)量和頁面相似度信息,通過簡單加和或加權(quán)計(jì)算等方式,確定該搜索結(jié)果的排序調(diào)整信息;其中,所述調(diào)整信息庫包括但不限于關(guān)系數(shù)據(jù)庫、Key-Value存儲(chǔ)系統(tǒng)或文件系統(tǒng)
坐寸ο
[0057]在一示例中,至少一個(gè)搜索結(jié)果為Al、A2,調(diào)整信息確定裝置3根據(jù)Al及A2的鏈接信息,在預(yù)置的特征度數(shù)據(jù)庫中進(jìn)行匹配查詢,以獲取預(yù)存的Al及A2分別指向的WAP頁面的頁面質(zhì)量的分值為Qai及Qa2,且Al及A2分別指向的WAP頁面與WEB頁面的頁面相似度信息的分值為Sai及Sa2。
[0058]2)首先,提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊;接著,對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息;該方式將在圖2所示的實(shí)施例中給予詳述。
[0059]其中,根據(jù)以下至少任一項(xiàng)來確定所述至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量:
[0060]a第二類頁面的頁面豐富度;
[0061]b第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息。
[0062]本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0063]具體地,確定第二類頁面的頁面豐富度的方式包括但不限于:
[0064]I)提取搜索結(jié)果指向的第二類頁面的標(biāo)記語言文件中的頁面內(nèi)容塊,例如正文內(nèi)容塊,并對(duì)正文內(nèi)容塊中的文本信息長度進(jìn)行計(jì)算,根據(jù)正文內(nèi)容塊中的文本信息的字符數(shù),基于第一預(yù)定豐富度規(guī)則,確定該第二類頁面的頁面豐富度;例如,第二類頁面中正文內(nèi)容塊中的文本信息的字符數(shù)越多,該第二類頁面的頁面豐富度越高;
[0065]其中,所述的標(biāo)記語言文件中的頁面內(nèi)容塊包括該的標(biāo)記語言文件中的由一個(gè)或多個(gè)標(biāo)簽標(biāo)識(shí)的內(nèi)容區(qū)域,其與頁面中顯示的特定內(nèi)容相對(duì)應(yīng),例如,與標(biāo)題、圖片、正文內(nèi)容等相對(duì)應(yīng)。
[0066]2)提取第二類頁面的標(biāo)記語言文件中的頁面內(nèi)容塊,根據(jù)頁面內(nèi)容塊的類型數(shù)量,基于第二預(yù)定豐富度規(guī)則,確定該第二類頁面的頁面豐富度;例如,第二類頁面中包括的頁面內(nèi)容塊的類型數(shù)越多,如正文內(nèi)容塊、標(biāo)題內(nèi)容塊、圖片內(nèi)容塊、留言內(nèi)容塊等,其頁
面豐富度越高。
[0067]在一示例中,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于搜索結(jié)果Al指向的WAP頁面的標(biāo)記語言文件XHTML文件的標(biāo)簽屬性中,如段落標(biāo)簽〈P〉的標(biāo)簽屬性中,排序裝置通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注正文內(nèi)容塊的段落標(biāo)簽屬性〈p tc_type =“TEXT” >,則對(duì)該段落標(biāo)簽〈P tc_type = “TEXT” >與</p>之間的XHTML文件部分進(jìn)行提取,以獲取該頁面的正文內(nèi)容塊,接著對(duì)正文內(nèi)容塊中的文本信息的字符數(shù)進(jìn)行計(jì)算,以獲取文本信息的字符數(shù)為100個(gè)字符,基于第一預(yù)定豐富度規(guī)則示出的當(dāng)正文內(nèi)容塊中的文本信息的字符數(shù)大于100個(gè)字符時(shí),對(duì)該WAP頁面的頁面豐富度的分值加I ;同時(shí),排序裝置通過對(duì)該XHTML文件進(jìn)行解析,確定Al指向的WAP頁面中包括4種類型的頁面內(nèi)容塊,分別為正文內(nèi)容塊、標(biāo)題內(nèi)容塊、目錄內(nèi)容塊和圖片內(nèi)容塊,基于第二預(yù)定豐富度規(guī)則示出的當(dāng)?shù)诙愴撁嬷邪?種類型以上的頁面內(nèi)容塊時(shí),對(duì)該第二類頁面的頁面豐富度的分值加1,即Al指向的WAP頁面的頁面豐富度的分值rA1為2。
[0068]具體地,確定第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息的方式包括但不限于:
[0069]-根據(jù)第二類頁面的標(biāo)題信息以及第二類頁面的內(nèi)容信息,通過TF-1DF算法,來確定該兩者的相關(guān)性信息;其中,TF-1DF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。
[0070]在一示例中,排序裝置對(duì)搜索結(jié)果Al指向的WAP頁面的標(biāo)題信息“鮮花快遞”進(jìn)行分詞處理,以獲取兩個(gè)分詞片段為P1 “鮮花”及P2 “快遞”;接著,在預(yù)置的語料庫中進(jìn)行查詢,以確定該兩個(gè)分詞片段在該預(yù)置的語料庫中的出現(xiàn)頻次TP為100次和200次,并將該出現(xiàn)頻次的倒數(shù)作為每個(gè)分詞片段的逆向文本頻率IDF為0.01和0.005 ;并確定該兩個(gè)分詞片段在該WAP頁面的正文內(nèi)容塊的文本信息中分別的出現(xiàn)頻率TF為10次和20次;隨后,通過公式I)進(jìn)行計(jì)算:
[0071]pn = TFnXIDFn1)
[0072]其中,pn為每個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值,
[0073]TFn為每個(gè)分詞片段在WAP頁面的正文內(nèi)容塊的文本信息中分別的出現(xiàn)頻率,
[0074]IDFn為每個(gè)分詞片段在預(yù)置的語料庫中的出現(xiàn)頻次的倒數(shù);
[0075]以確定每個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值為:
[0076]P1:0.01X10 = 0.1 ;
[0077]p2:0.005X20 = 0.1 ;
[0078]將兩個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值進(jìn)行加和計(jì)算,以獲取搜索結(jié)果Al指向的WAP頁面的標(biāo)題信息與該WAP頁面的內(nèi)容信息的相關(guān)性信息的分值cA1 ( = P1+P2)為 0.2。
[0079]優(yōu)選地,將每個(gè)搜索結(jié)果指向的第二類頁面的頁面豐富度的分值rAn與第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息的分值cAn進(jìn)行簡單加和或加權(quán)計(jì)算等,例如通過下式2):
[0080]QAn = rAn+cAn
[0081]其中,QAn為第二類頁面的頁面質(zhì)量的分值,[0082]rto為第二類頁面的頁面豐富度的分值,
[0083]Cto為第二類頁面的頁面豐富度的分值;
[0084]以獲取至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的分值Ολη。
[0085]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)已確定的至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0086]隨后,第一排序裝置4根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
[0087]其中,第一排序裝置4對(duì)多個(gè)搜索結(jié)果進(jìn)行排序處理以獲取排序后的多個(gè)搜索結(jié)果的方式包括但不限于:
[0088]-根據(jù)每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值、具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的分值及具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值,簡單進(jìn)行加和計(jì)算,并根據(jù)加和結(jié)果進(jìn)行 排序操作。
[0089]在一示例中,多個(gè)搜索結(jié)果為Al、A2、A3和A4,搜索結(jié)果獲取裝置I獲取的四個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值分別為Ra1:10、RA2:5,Ra3:4,Ra4:3,該四個(gè)搜索結(jié)果中Al與A4為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果,且調(diào)整信息確定裝置3獲取的Al與A4分別指向的第二類頁面的頁面質(zhì)量的分值分別為Qai:1及Qa4:4,調(diào)整信息獲取裝置3獲取的Al與A4分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值分別為Sa1:0.5、及SA4:0.9 ;第一排序裝置4將Al和A4的相關(guān)度信息、第二類頁面的頁面質(zhì)量的分值和第二類頁面與第一類頁面的頁面相似度信息的分值進(jìn)行加和計(jì)算,即通過公式3):
[0090]Sn = R^+QAn+SAn3)
[0091]其中,sn為加和結(jié)果,
[0092]Rto為每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值,
[0093]Qto為每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的分值,
[0094]Sto為每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息的分值;
[0095]獲取的加和結(jié)果為:
[0096]si:= 10+1+0.5 = 11.5 ;
[0097]s4: = 3+4+0.9 = 7.9 ;
[0098]則第一排序裝置4根據(jù)A2、A3的相關(guān)度信息以及該等加和結(jié)果,對(duì)該四個(gè)所述搜索結(jié)果進(jìn)行排序獲得排序后的該四個(gè)搜索結(jié)果為A1、A4、A2和A3。
[0099]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0100]通過根據(jù)每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息及具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)該多個(gè)搜索結(jié)果進(jìn)行排序處理,以使得多個(gè)搜索結(jié)果的排序方式不僅與用戶輸入的查詢序列的匹配程度相關(guān),而且該排序方式也與搜索結(jié)果頁面是否適于在移動(dòng)終端上呈現(xiàn)相關(guān)聯(lián),實(shí)現(xiàn)了將適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面質(zhì)量的第二類頁面對(duì)應(yīng)的搜索結(jié)果以及適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面相似度信息的第二類頁面與第一類頁面的對(duì)應(yīng)的搜索結(jié)果能夠排于搜索結(jié)果頁的較高位置,用戶可在其最易獲取信息的視覺區(qū)域內(nèi)點(diǎn)擊排序較高的幾個(gè)搜索結(jié)果,就可獲取適于其在移動(dòng)終端瀏覽的搜索結(jié)果網(wǎng)頁,從而提高用戶瀏覽體驗(yàn)。
[0101]優(yōu)選地,第一排序裝置4還包括加權(quán)裝置(圖未示)和第二排序裝置(圖未示)。加權(quán)裝置根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果;第二排序裝置根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。 [0102]在一示例中,多個(gè)搜索結(jié)果為Al、A2、A3和A4,搜索結(jié)果獲取裝置I獲取的四個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值分別為Ra1:10、RA2:5,Ra3:4,Ra4:3,該四個(gè)搜索結(jié)果中Al與A4為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果,且調(diào)整信息確定裝置3獲取的Al與A4分別指向的第二類頁面的頁面質(zhì)量的分值分別為Qai:1及Qa4:4,調(diào)整信息獲取裝置3獲取的Al與A4分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值分別為Sa1:0.5、及SA4:0.9 ;同時(shí),相關(guān)度信息的預(yù)定權(quán)重為Wl:1 ;搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的預(yù)定權(quán)重為W2:0.4,搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息的預(yù)定權(quán)重為W3:0.3 ;則加權(quán)確定裝置將Al與A4的相關(guān)度信息、第二類頁面的頁面質(zhì)量的分值和第二類頁面與第一類頁面的頁面相似度信息的分值進(jìn)行加權(quán)計(jì)算,即通過公式4):
[0103]Sn = RAnXffl+QAnXW2+SAnXW34)
[0104]以獲取的加權(quán)結(jié)果為:
[0105]SI:= 10X1+1X0.4+0.5X0.3 = 10.55 ;
[0106]S4:= 3X 1+4X0.4+0.9X0.3 = 4.87 ;
[0107]則第二排序裝置根據(jù)A2和A3的相關(guān)度信息及該等加權(quán)結(jié)果,對(duì)該四個(gè)所述搜索結(jié)果進(jìn)行排序獲得排序后的該四個(gè)搜索結(jié)果為Al、A2、A4和A3。
[0108]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,接著根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0109]由于對(duì)具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果進(jìn)行排序的不同排序維度對(duì)搜索結(jié)果在適于在移動(dòng)終端上呈現(xiàn)的影響程度不同,因此根據(jù)各個(gè)排序維度的重要程度對(duì)其分別賦予不同權(quán)重,從而使得最終獲取的排序后的多個(gè)搜索結(jié)果對(duì)應(yīng)的搜索結(jié)果頁面既與查詢序列具有較高匹配度又適于在移動(dòng)終端上呈現(xiàn),使得用戶能夠獲得同時(shí)符合其查詢需求及其瀏覽體驗(yàn)的排序后的多個(gè)搜索結(jié)果。
[0110]作為本實(shí)施例的優(yōu)選方案之一,圖2不出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的排序裝置的結(jié)構(gòu)示意圖。其中,該排序裝置包括搜索結(jié)果獲取裝置1、搜索結(jié)果確定裝置2、調(diào)整信息確定裝置3、第一排序裝置4、提取裝置5和相似度確定裝置6。
[0111]其中,搜索結(jié)果獲取裝置1、搜索結(jié)果確定裝置2、調(diào)整信息確定裝置3和第一排序裝置4已在參照?qǐng)D1所示實(shí)施例中予以詳述,在此不再贅述。
[0112]提取裝置5提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊。
[0113]其中,所述頁面內(nèi)容塊標(biāo)注信息在搜索結(jié)果指向的第一類頁面與第二類頁面的標(biāo)記語言文件中的存儲(chǔ)方式包括但不限于以下至少任一項(xiàng)方式:
[0114]I)存儲(chǔ)于標(biāo)記語言文件的注釋中;
[0115]例如,利用JSON格式,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件注釋中,如〈! 一tcblock_begin: {type: " TITLE" }—>〈! —tc block_end—> ;提取裝置 5 通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注標(biāo)題內(nèi)容塊的注釋,從而將該注釋〈! 一tcblock_begin: {type: " TITLE " }—>及〈! —tc block_end—> 之間的 HTML 文件部分進(jìn)行提取,以提取該頁面的標(biāo)題內(nèi)容塊;其中,JSON格式是一種輕量級(jí)的數(shù)據(jù)交換格式,其一般采用“名稱/值”對(duì)的方式表示數(shù)據(jù),名稱和值之間使用“:”隔開。
[0116]2)存儲(chǔ)于標(biāo)記語言文件的定制標(biāo)簽中;
[0117]例如,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件的定制標(biāo)簽〈tcX/tc〉中,提取裝置5通過對(duì)該XHTML文件進(jìn)行解析`,在該XHTML文件中確定用于標(biāo)注圖片內(nèi)容塊的定制標(biāo)簽〈tc type =“photo” >,從而將〈tc type =“photo,,> 與 </tc> 之間的 HTML 文件部分進(jìn)行提取,以獲取該頁面的圖片內(nèi)容塊。
[0118]3)存儲(chǔ)于標(biāo)記語言文件的標(biāo)簽屬性中;
[0119]例如,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件的標(biāo)簽屬性中,如段落標(biāo)簽〈P〉的標(biāo)簽屬性中,提取裝置5通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注正文內(nèi)容塊的段落標(biāo)簽屬性〈P tc_type = “TEXT” >,則對(duì)該段落標(biāo)簽〈P tc_type = “TEXT” >與〈/P〉之間的XHTML文件部分進(jìn)行提取,以獲取該頁面的正文內(nèi)容塊。
[0120]在一示例中,具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果為A5,提取裝置5在每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的標(biāo)記語言文件中進(jìn)行提取,以提取獲得A5的第一類頁面及第二類頁面中分別包括標(biāo)題內(nèi)容塊及正文內(nèi)容塊作為該兩個(gè)頁面的主要頁面內(nèi)容塊。
[0121]隨后,相似度確定裝置6對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定該每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息。
[0122]其中,確定每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度的方式包括但不限于:
[0123]I)通過TF-1DF算法進(jìn)行計(jì)算以確定;例如提取第一類頁面的主要頁面內(nèi)容塊中的多個(gè)關(guān)鍵詞,接著確定該多個(gè)關(guān)鍵詞分別在第二類頁面的主要內(nèi)容塊中的出現(xiàn)頻率,通過TF-1DF算法,以確定第一類頁面與第二類頁面的頁面相似度;
[0124]2)基于空間向量的余弦算法;其中,該算法的處理過程包括對(duì)文本信息進(jìn)行分詞等預(yù)處理,接著過濾去除文本信息中的常用副詞、助詞等頻度高的詞之后,根據(jù)剩余分詞片段的頻度確定若干關(guān)鍵詞,隨后通過TF-1DF公式進(jìn)行加權(quán)計(jì)算,從而生成向量空間模型后計(jì)算余弦,以確定第一類頁面與第二類頁面中主要頁面內(nèi)容塊中文本信息的相似度。
[0125]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊,接著對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0126]圖3示出根據(jù)本發(fā)明另一個(gè)方面的用于對(duì)搜索結(jié)果進(jìn)行排序的方法流程圖。本發(fā)明的方法主要通過網(wǎng)絡(luò)設(shè)備來實(shí)現(xiàn);其中,根據(jù)本優(yōu)選實(shí)施例的方法包括步驟S1、步驟S2、步驟S3和步驟S4。
[0127]所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(Cloud Computing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。
[0128]首先,在步驟SI中,網(wǎng)絡(luò)設(shè)備根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息。
[0129]其中,所述移動(dòng)終端包括但不限于任何可適用于本發(fā)明的能夠通過鍵盤、觸摸屏等與用戶進(jìn)行交互的移動(dòng)式電子產(chǎn)品,諸如手機(jī)、PDA、掌上電腦(PPC)、游戲機(jī)(PSP)等。在此,所述網(wǎng)絡(luò)設(shè)備和移動(dòng)終端均包括一種能夠按照事先設(shè)定或存儲(chǔ)的指令,自動(dòng)進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件可包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。
[0130]本領(lǐng)域技術(shù)人員應(yīng)能理解上述移動(dòng)終端以及網(wǎng)絡(luò)設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的移動(dòng)終端以及網(wǎng)絡(luò)設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0131]在此,所述移動(dòng)終端與所述網(wǎng)絡(luò)設(shè)備之間可通過任何通信方式實(shí)現(xiàn)通信,包括但不限于,基于3GPP、LTE、WIMAX的移動(dòng)通信、基于TCP/IP、UDP協(xié)議的計(jì)算機(jī)網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。所述移動(dòng)終端與所述網(wǎng)絡(luò)設(shè)備之間連接的網(wǎng)絡(luò)包括但不限于:互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))等。
[0132]具體地,在步驟SI中,網(wǎng)絡(luò)設(shè)備根據(jù)來自移動(dòng)終端的用戶輸入的查詢序列進(jìn)行匹配查詢,并基于接收到的查詢序列進(jìn)行搜索。一般地,搜索過程如下:查詢序列中包含一個(gè)或多個(gè)關(guān)鍵詞,優(yōu)選地,還包括關(guān)鍵詞之間的關(guān)聯(lián)詞,網(wǎng)絡(luò)設(shè)備將提取這些關(guān)鍵詞,優(yōu)選地,還提取關(guān)聯(lián)詞,并在網(wǎng)絡(luò)索引庫中根據(jù)所述關(guān)鍵詞、或關(guān)鍵詞與關(guān)聯(lián)詞進(jìn)行匹配查詢從而獲得多個(gè)搜索結(jié)果,其中每個(gè)搜索結(jié)果與該查詢序列的相關(guān)度信息可根據(jù)各種搜索算法確定,例如根據(jù)傳統(tǒng)的點(diǎn)擊率算法確定該相關(guān)度信息、根據(jù)Google的“PageRank”搜索算法(參見美國專利US6285699,“Method for node ranking in a linked database”)確定該相關(guān)度信息、根據(jù)百度的“超鏈”搜索算法確定該相關(guān)度信息,網(wǎng)絡(luò)設(shè)備基于上述搜索算法來獲得每個(gè)搜索結(jié)果與該查詢序列的相關(guān)度信息。其中,所述相關(guān)度信息指通過“PageRank”、“超鏈”等基本搜索算法確定的搜索結(jié)果與查詢序列的匹配程度分值。[0133]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,來獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果及每個(gè)搜索結(jié)果與所述查詢序列的相關(guān)度信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0134]在步驟S2中,網(wǎng)絡(luò)設(shè)備確定已獲取的多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面。
[0135]其中,所述第一類頁面意指適于在計(jì)算機(jī)設(shè)備上顯示的頁面,例如,WEB頁面,也即在萬維網(wǎng)上的基于HTML、XML、XHTML等標(biāo)識(shí)語言的文件,當(dāng)用戶通過萬維網(wǎng)進(jìn)行信息查詢時(shí),以信息頁面的形式出現(xiàn),可包括圖形、文字、聲音和視像等信息。
[0136]其中,所述第二類頁面意指適于在移動(dòng)終端上顯示的頁面,例如,WAP頁面,也即基于無線標(biāo)識(shí)語言(WML)的文件,可由移動(dòng)終端基于可基于無線應(yīng)用協(xié)議(WAP)訪問WAP網(wǎng)站,該文件適于在屏幕較小的移動(dòng)終端上顯示。
[0137]其中,在步驟S2中,網(wǎng)絡(luò)設(shè)備所述確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果方式包括但不限于:
[0138]-根據(jù)每個(gè)搜索結(jié)果的鏈接信息,在頁面對(duì)應(yīng)列表中進(jìn)行匹配查詢,來確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面。
[0139]在一示例中,在步驟S2中,網(wǎng)絡(luò)設(shè)備將每個(gè)搜索結(jié)果的鏈接信息在預(yù)定的頁面對(duì)應(yīng)列表中進(jìn)行匹配查詢,來確定每個(gè)搜索結(jié)果是否指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面;其中,所述頁面對(duì)應(yīng)列表中包括指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面的多個(gè)搜索結(jié)果鏈接信息;優(yōu)選地,所述多個(gè)搜索結(jié)果是否指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面可通過網(wǎng)絡(luò)設(shè)備預(yù)先對(duì)海量互聯(lián)網(wǎng)中的頁面進(jìn)行挖掘來確定。
[0140]優(yōu)選地,該方法還包括步驟S7,(圖未示),在步驟S7中,網(wǎng)絡(luò)設(shè)備通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果。
[0141]具體地,在步驟S7中,網(wǎng)絡(luò)設(shè)備提取多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽;接著,通過讀取預(yù)定標(biāo)簽中的預(yù)定屬性信息來確定多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果。
[0142]其中,所述標(biāo)記語言文件包括但不限于:1)HTML(超文本標(biāo)記語言)文件;2)XML (可擴(kuò)展標(biāo)記語言)文件;3) XHTML (可擴(kuò)展超文本標(biāo)記語言)文件;4) XAML (可擴(kuò)展應(yīng)用程序標(biāo)記語言)文件等。
[0143]在一示例中,一個(gè)搜索結(jié)果對(duì)應(yīng)的第一類頁面,如WEB頁面的HTML文件為:
[0144]〈head〉
[0145]<meta name = " mobile-agent " content = " format = html5 ;url =http://3g.a be.com.cn/〃 >
[0146]......[0147]〈/head〉;
[0148]在步驟S7中,網(wǎng)絡(luò)設(shè)備提取該HTML文件的預(yù)定的<meta>標(biāo)簽,接著讀取該<meta> 標(biāo)簽中的 content 的屬性值為“format = html5 ;url = http://3g.abc.com.cn/,,,來確定該搜索結(jié)果對(duì)應(yīng)的WAP頁面的對(duì)應(yīng)的鏈接信息為“http://3g.abc.com.cn/”且該WAP頁面的標(biāo)記語言文件為HTML5,即確定該搜索結(jié)果為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果。
[0149]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0150]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何確定多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi),其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面。
[0151]接著,在步驟S3中,網(wǎng)絡(luò)設(shè)備根據(jù)已確定的至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息。
[0152]其中,所述第二類頁面的特征度包括以下至少任一項(xiàng):
[0153]I)每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量;
[0154]2)每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息。
[0155]本領(lǐng)域技術(shù)人員應(yīng)能理解上述第二類頁面的特征度僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的第二類頁面的特征度如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0156]具體地,在步驟S3中,網(wǎng)絡(luò)設(shè)備確定每個(gè)搜索結(jié)果的排序調(diào)整信息的方式包括但不限于:
[0157]I)首先,從預(yù)置的特征度數(shù)據(jù)庫中獲取預(yù)存的每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量及該搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息;接著,根據(jù)該頁面質(zhì)量和頁面相似度信息,通過簡單加和或加權(quán)計(jì)算等方式,確定該搜索結(jié)果的排序調(diào)整信息;其中,所述調(diào)整信息庫包括但不限于關(guān)系數(shù)據(jù)庫、Key-Value存儲(chǔ)系統(tǒng)或文件系統(tǒng)
坐寸ο
[0158]在一示例中,至少一個(gè)搜索結(jié)果為Al、A2,在步驟S3中,網(wǎng)絡(luò)設(shè)備根據(jù)Al及A2的鏈接信息,在預(yù)置的特征度數(shù)據(jù)庫中進(jìn)行匹配查詢,以獲取預(yù)存的Al及A2分別指向的WAP頁面的頁面質(zhì)量的分值為Qai及Qa2,且Al及A2分別指向的WAP頁面與WEB頁面的頁面相似度信息的分值為Sai及Sa2。
[0159]2)首先,提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊;接著,對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息;該方式將在圖4所示的實(shí)施例中給予詳述。
[0160]其中,根據(jù)以下至少任一項(xiàng)來確定所述至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量:
[0161]a第二類頁面的頁面豐富度;
[0162]b第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息。
[0163]本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0164]具體地,確定第二類頁面的頁面豐富度的方式包括但不限于:
[0165]I)提取搜索結(jié)果指向的第二類頁面的標(biāo)記語言文件中的頁面內(nèi)容塊,例如正文內(nèi)容塊,并對(duì)正文內(nèi)容塊中的文本信息長度進(jìn)行計(jì)算,根據(jù)正文內(nèi)容塊中的文本信息的字符數(shù),基于第一預(yù)定豐富度規(guī)則,確定該第二類頁面的頁面豐富度;例如,第二類頁面中正文內(nèi)容塊中的文本信息的字符數(shù)越多,該第二類頁面的頁面豐富度越高; [0166]其中,所述的標(biāo)記語言文件中的頁面內(nèi)容塊包括該的標(biāo)記語言文件中的由一個(gè)或多個(gè)標(biāo)簽標(biāo)識(shí)的內(nèi)容區(qū)域,其與頁面中顯示的特定內(nèi)容相對(duì)應(yīng),例如,與標(biāo)題、圖片、正文內(nèi)容等相對(duì)應(yīng)。
[0167]2)提取第二類頁面的標(biāo)記語言文件中的頁面內(nèi)容塊,根據(jù)頁面內(nèi)容塊的類型數(shù)量,基于第二預(yù)定豐富度規(guī)則,確定該第二類頁面的頁面豐富度;例如,第二類頁面中包括的頁面內(nèi)容塊的類型數(shù)越多,如正文內(nèi)容塊、標(biāo)題內(nèi)容塊、圖片內(nèi)容塊、留言內(nèi)容塊等,其頁面豐富度越高。
[0168]在一示例中,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于搜索結(jié)果Al指向的WAP頁面的標(biāo)記語言文件XHTML文件的標(biāo)簽屬性中,如段落標(biāo)簽〈P〉的標(biāo)簽屬性中,網(wǎng)絡(luò)設(shè)備通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注正文內(nèi)容塊的段落標(biāo)簽屬性〈p tc_type =“TEXT” >,則對(duì)該段落標(biāo)簽〈P tc_type = “TEXT” >與</p>之間的XHTML文件部分進(jìn)行提取,以獲取該頁面的正文內(nèi)容塊,接著對(duì)正文內(nèi)容塊中的文本信息的字符數(shù)進(jìn)行計(jì)算,以獲取文本信息的字符數(shù)為100個(gè)字符,基于第一預(yù)定豐富度規(guī)則示出的當(dāng)正文內(nèi)容塊中的文本信息的字符數(shù)大于100個(gè)字符時(shí),對(duì)該WAP頁面的頁面豐富度的分值加I ;同時(shí),網(wǎng)絡(luò)設(shè)備通過對(duì)該XHTML文件進(jìn)行解析,確定Al指向的WAP頁面中包括4種類型的頁面內(nèi)容塊,分別為正文內(nèi)容塊、標(biāo)題內(nèi)容塊、目錄內(nèi)容塊和圖片內(nèi)容塊,基于第二預(yù)定豐富度規(guī)則示出的當(dāng)?shù)诙愴撁嬷邪?種類型以上的頁面內(nèi)容塊時(shí),對(duì)該第二類頁面的頁面豐富度的分值加1,即Al指向的WAP頁面的頁面豐富度的分值rA1為2。
[0169]具體地,確定第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息的方式包括但不限于:
[0170]-根據(jù)第二類頁面的標(biāo)題信息以及第二類頁面的內(nèi)容信息,通過TF-1DF算法,來確定該兩者的相關(guān)性信息;其中,TF-1DF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。
[0171]在一示例中,網(wǎng)絡(luò)設(shè)備對(duì)搜索結(jié)果Al指向的WAP頁面的標(biāo)題信息“鮮花快遞”進(jìn)行分詞處理,以獲取兩個(gè)分詞片段為P1 “鮮花”及P2 “快遞”;接著,在預(yù)置的語料庫中進(jìn)行查詢,以確定該兩個(gè)分詞片段在該預(yù)置的語料庫中的出現(xiàn)頻次TP為100次和200次,并將該出現(xiàn)頻次的倒數(shù)作為每個(gè)分詞片段的逆向文本頻率IDF為0.01和0.005 ;并確定該兩個(gè)分詞片段在該WAP頁面的正文內(nèi)容塊的文本信息中分別的出現(xiàn)頻率TF為10次和20次;隨后,通過公式I)進(jìn)行計(jì)算:
[0172]pn = TFnXIDFnI)
[0173]其中,pn為每個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值,[0174]TFn為每個(gè)分詞片段在WAP頁面的正文內(nèi)容塊的文本信息中分別的出現(xiàn)頻率,
[0175]IDFn為每個(gè)分詞片段在預(yù)置的語料庫中的出現(xiàn)頻次的倒數(shù);
[0176]以確定每個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值為:
[0177]P1:0.01X10 = 0.1 ;
[0178]p2:0.005X20 = 0.1 ;
[0179]將兩個(gè)分詞片段與WAP頁面的內(nèi)容信息的相關(guān)性信息的分值進(jìn)行加和計(jì)算,以獲取搜索結(jié)果Al指向的WAP頁面的標(biāo)題信息與該WAP頁面的內(nèi)容信息的相關(guān)性信息的分值cAi ( = Pi+P2)為 0.2。
[0180]優(yōu)選地,將每個(gè)搜索結(jié)果指向的第二類頁面的頁面豐富度的分值rAn與第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息的分值cAn進(jìn)行簡單加和或加權(quán)計(jì)算等,例如通過下式2):
[0181]Qto = rAn+cAn
[0182]其中,QAn為第二類頁面的頁面質(zhì)量的分值,
[0183]為第二類頁面的頁面豐富度的分值,
[0184]Cto為第二類頁面的頁面豐富度的分值;
[0185]以獲取至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的分值Ολη。
[0186]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)已確定的至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0187]隨后,在步驟S4中,網(wǎng)絡(luò)設(shè)備根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
[0188]其中,在步驟S4中,網(wǎng)絡(luò)設(shè)備對(duì)多個(gè)搜索結(jié)果進(jìn)行排序處理以獲取排序后的多個(gè)搜索結(jié)果的方式包括但不限于:
[0189]-根據(jù)每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值、具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量的分值及具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值,簡單進(jìn)行加和計(jì)算,并根據(jù)加和結(jié)果進(jìn)行排序操作。
[0190]在一示例中,多個(gè)搜索結(jié)果為A1、A2、A3和A4,已獲取的四個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值分別為Ra1:10、RA2:5, Ra3:4, Ra4:3,該四個(gè)搜索結(jié)果中Al與A4為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果,且已獲取的Al與A4分別指向的第二類頁面的頁面質(zhì)量的分值分別為Qa1:1及Qa4:4,已獲取的Al與A4分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值分別為Sa1:0.5、及SA4:0.9 ;在步驟S4中,網(wǎng)絡(luò)設(shè)備將Al和A4的相關(guān)度信息、第二類頁面 的頁面質(zhì)量的分值和第二類頁面與第一類頁面的頁面相似度信息的分值進(jìn)行加和計(jì)算,即通過公式3):
[0191]sn = Rto+QAn+SAn3)
[0192]其中,sn為加和結(jié)果,[0193]Rto為每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值,
[0194]Qita為每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的分值,
[0195]Sto為每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息的分值;
[0196]獲取的加和結(jié)果為:
[0197]si:= 10+1+0.5 = 11.5 ;
[0198]s4: = 3+4+0.9 = 7.9 ;
[0199]則網(wǎng)絡(luò)設(shè)備根據(jù)A2、A3的相關(guān)度信息以及該等加和結(jié)果,對(duì)該四個(gè)所述搜索結(jié)果進(jìn)行排序獲得排序后的該四個(gè)搜索結(jié)果為Al、A4、A2和A3。
[0200]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0201]通過根據(jù)每個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息及具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)該多個(gè)搜索結(jié)果進(jìn)行排序處理,以使得多個(gè)搜索結(jié)果的排序方式不僅與用戶輸入的查詢序列的匹配程度相關(guān),而且該排序方式也與搜索結(jié)果頁面是否適于在移動(dòng)終端上呈現(xiàn)相關(guān)聯(lián),實(shí)現(xiàn)了將適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面質(zhì)量的第二類頁面對(duì)應(yīng)的 搜索結(jié)果以及適于在移動(dòng)終端上呈現(xiàn)的具有較高頁面相似度信息的第二類頁面與第一類頁面的對(duì)應(yīng)的搜索結(jié)果能夠排于搜索結(jié)果頁的較高位置,用戶可在其最易獲取信息的視覺區(qū)域內(nèi)點(diǎn)擊排序較高的幾個(gè)搜索結(jié)果,就可獲取適于其在移動(dòng)終端瀏覽的搜索結(jié)果網(wǎng)頁,從而提高用戶瀏覽體驗(yàn)。
[0202]優(yōu)選地,該方法還包括步驟S41 (圖未示)和步驟S42 (圖未示)。在步驟S41中,網(wǎng)絡(luò)設(shè)備根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果;在步驟S42中,網(wǎng)絡(luò)設(shè)備根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果O
[0203]在一示例中,多個(gè)搜索結(jié)果為A1、A2、A3和A4,已獲取的四個(gè)搜索結(jié)果與查詢序列的相關(guān)度信息的分值分別為Ra1:10、RA2:5, Ra3:4, Ra4:3,該四個(gè)搜索結(jié)果中Al與A4為具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果,且已獲取的Al與A4分別指向的第二類頁面的頁面質(zhì)量的分值分別為Qa1:1及Qa4:4,已獲取的Al與A4分別指向的第二類頁面與第一類頁面的頁面相似度信息的分值分別為Sa1:0.5、及SA4:0.9 ;同時(shí),相關(guān)度信息的預(yù)定權(quán)重為Wl:1 ;搜索結(jié)果指向的第二類頁面的頁面質(zhì)量的預(yù)定權(quán)重為W2:0.4,搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息的預(yù)定權(quán)重為W3:0.3 ;則在步驟S41中,網(wǎng)絡(luò)設(shè)備將Al與A4的相關(guān)度信息、第二類頁面的頁面質(zhì)量的分值和第二類頁面與第一類頁面的頁面相似度信息的分值進(jìn)行加權(quán)計(jì)算,即通過公式4):
[0204]Sn = RAnXffl+QAnXW2+SAnXW34)
[0205]以獲取的加權(quán)結(jié)果為:
[0206]SI:= IOX 1+1 X0.4+0.5X0.3 = 10.55 ;
[0207]S4:= 3X 1+4X0.4+0.9X0.3 = 4.87 ;[0208]則在步驟S42中,網(wǎng)絡(luò)設(shè)備根據(jù)A2和A3的相關(guān)度信息及該等加權(quán)結(jié)果,對(duì)該四個(gè)所述搜索結(jié)果進(jìn)行排序獲得排序后的該四個(gè)搜索結(jié)果為Al、A2、A4和A3。
[0209]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,接著根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0210]由于對(duì)具有頁面對(duì)應(yīng)關(guān)系的至少一個(gè)搜索結(jié)果進(jìn)行排序的不同排序維度對(duì)搜索結(jié)果在適于在移動(dòng)終端上呈現(xiàn)的影響程度不同,因此根據(jù)各個(gè)排序維度的重要程度對(duì)其分別賦予不同權(quán)重,從而使得最終獲取的排序后的多個(gè)搜索結(jié)果對(duì)應(yīng)的搜索結(jié)果頁面既與查詢序列具有較高匹配度又適于在移動(dòng)終端上呈現(xiàn),使得用戶能夠獲得同時(shí)符合其查詢需求及其瀏覽體驗(yàn)的排序后的多個(gè)搜索結(jié)果。
[0211]作為本實(shí)施例的優(yōu)選方案之一,圖4不出根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的方法流程圖。其中,根據(jù)本優(yōu)選實(shí)施例的方法包括步驟S1、步驟S2、步驟S3、步驟S4、步驟S5和步驟S6。
[0212]其中,步驟S1、步驟S2、步驟S3和步驟S4已在參照?qǐng)D3所示實(shí)施例中予以詳述,在此不再贅述。
[0213]在步驟S5中,網(wǎng)絡(luò)設(shè)備提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊。
[0214]其中,所述頁面內(nèi)容塊標(biāo)注信息在搜索結(jié)果指向的第一類頁面與第二類頁面的標(biāo)記語言文件中的存儲(chǔ)方式包括但不限于以下至少任一項(xiàng)方式:
[0215]I)存儲(chǔ)于標(biāo)記語言文件的注釋中;
`[0216]例如,利用JSON格式,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件注釋中,如〈! 一tcblock_begin: {type: " TITLE" }—>〈 ! —tc block_end—> ;在步驟 S5 中,網(wǎng)絡(luò)設(shè)備通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注標(biāo)題內(nèi)容塊的注釋,從而將該注釋〈! 一tc block_begin: {type: " TITLE" }—>及〈! —tc block_end—> 之間的HTML文件部分進(jìn)行提取,以提取該頁面的標(biāo)題內(nèi)容塊;其中,JSON格式是一種輕量級(jí)的數(shù)據(jù)交換格式,其一般采用“名稱/值”對(duì)的方式表示數(shù)據(jù),名稱和值之間使用“:”隔開。
[0217]2)存儲(chǔ)于標(biāo)記語言文件的定制標(biāo)簽中;
[0218]例如,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件的定制標(biāo)簽<tc>〈/tc>中,在步驟S5中,網(wǎng)絡(luò)設(shè)備通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注圖片內(nèi)容塊的定制標(biāo)簽〈tc type = “photo”〉,從而將〈tc type = “photo”〉與 </tc> 之間的 HTML 文件部分進(jìn)行提取,以獲取該頁面的圖片內(nèi)容塊。
[0219]3)存儲(chǔ)于標(biāo)記語言文件的標(biāo)簽屬性中;
[0220]例如,頁面內(nèi)容塊標(biāo)識(shí)信息存儲(chǔ)于XHTML文件的標(biāo)簽屬性中,如段落標(biāo)簽〈P〉的標(biāo)簽屬性中,在步驟S5中,網(wǎng)絡(luò)設(shè)備通過對(duì)該XHTML文件進(jìn)行解析,在該XHTML文件中確定用于標(biāo)注正文內(nèi)容塊的段落標(biāo)簽屬性〈P tc_type = “TEXT” >,則對(duì)該段落標(biāo)簽〈P tc_type=“TEXT” >與</p>之間的XHTML文件部分進(jìn)行提取,以獲取該頁面的正文內(nèi)容塊。[0221]在一示例中,具有頁面對(duì)應(yīng)關(guān)系的搜索結(jié)果為A5,在步驟S5中,網(wǎng)絡(luò)設(shè)備在每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的標(biāo)記語言文件中進(jìn)行提取,以提取獲得A5的第一類頁面及第二類頁面中分別包括標(biāo)題內(nèi)容塊及正文內(nèi)容塊作為該兩個(gè)頁面的主要頁面內(nèi)容塊。
[0222]隨后,在步驟S6中,網(wǎng)絡(luò)設(shè)備對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定該每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息。
[0223]其中,確定每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度的方式包括但不限于:
[0224]I)通過TF-1DF算法進(jìn)行計(jì)算以確定;例如提取第一類頁面的主要頁面內(nèi)容塊中的多個(gè)關(guān)鍵詞,接著確定該多個(gè)關(guān)鍵詞分別在第二類頁面的主要內(nèi)容塊中的出現(xiàn)頻率,通過TF-1DF算法,以確定第一類頁面與第二類頁面的頁面相似度;
[0225]2)基于空間向量的余弦算法;其中,該算法的處理過程包括對(duì)文本信息進(jìn)行分詞等預(yù)處理,接著過濾去除文本信息中的常用副詞、助詞等頻度高的詞之后,根據(jù)剩余分詞片段的頻度確定若干關(guān)鍵詞,隨后通過TF-1DF公式進(jìn)行加權(quán)計(jì)算,從而生成向量空間模型后計(jì)算余弦,以確定第一類頁面與第二類頁面中主要頁面內(nèi)容塊中文本信息的相似度。
[0226]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊,接著對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0227]需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,可采用專用集成電路(ASIC)或任何其他類似硬件設(shè)備來實(shí)現(xiàn)本發(fā)明中的裝置。在一個(gè)實(shí)施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲(chǔ)到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲(chǔ)器,磁或光驅(qū)動(dòng)器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個(gè)步驟或功能的電路。
[0228]對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他裝置或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【權(quán)利要求】
1.一種用于對(duì)搜索結(jié)果進(jìn)行排序的方法,該方法包括以下步驟: a根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息; 其中,該方法還包括: w確定所述多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面; X根據(jù)所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息; y根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟w包括: w’通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的所述至少一個(gè)搜索結(jié)果。`
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟I包括: -根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果; -根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其中,所述第二類頁面的特征度包括以下至少任一項(xiàng): -每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量; -每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息。
5.根據(jù)權(quán)利要求4所述的方法,其中,該方法還包括根據(jù)以下至少任一項(xiàng)來確定所述至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量: -第二類頁面的頁面豐富度; -第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息。
6.根據(jù)權(quán)利要求4或5任一項(xiàng)所述的方法,其中,該方法還包括: -提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊; -對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息。
7.一種用于對(duì)搜索結(jié)果進(jìn)行排序的排序裝置,該排序裝置包括: 搜索結(jié)果獲取裝置,用于根據(jù)來自移動(dòng)終端的查詢序列進(jìn)行匹配查詢,獲取與所述查詢序列相匹配的多個(gè)搜索結(jié)果以及所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息; 其中,該排序裝置還包括: 搜索結(jié)果確定裝置,用于確定所述多個(gè)搜索結(jié)果中至少一個(gè)搜索結(jié)果,其中,所述至少一個(gè)搜索結(jié)果中的每個(gè)搜索結(jié)果指向具有頁面對(duì)應(yīng)關(guān)系的第一類頁面與第二類頁面,其中第二類頁面為適于在移動(dòng)終端上顯示的頁面; 調(diào)整信息確定裝置,用于根據(jù)所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第二類頁面的特征度,來確定所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息; 第一排序裝置,用于根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息以及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
8.根據(jù)權(quán)利要求7所述的排序裝置,其中,所述搜索結(jié)果確定裝置包括: 標(biāo)簽提取裝置,用于通過提取所述多個(gè)搜索結(jié)果分別對(duì)應(yīng)的第一類頁面的標(biāo)記語言文件中的預(yù)定標(biāo)簽,來確定所述多個(gè)搜索結(jié)果中的所述至少一個(gè)搜索結(jié)果。
9.根據(jù)權(quán)利要求7或8所述的排序裝置,其中,所述第一排序裝置包括: 加權(quán)裝置,用于根據(jù)所述查詢序列與所述多個(gè)搜索結(jié)果的相關(guān)度信息及所述至少一個(gè)搜索結(jié)果分別對(duì)應(yīng)的排序調(diào)整信息,并結(jié)合所述相關(guān)度信息及所述排序調(diào)整信息的預(yù)定權(quán)重,進(jìn)行加權(quán)計(jì)算,以確定每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果; 第二排序裝置,用于根據(jù)所述每個(gè)搜索結(jié)果的加權(quán)排序結(jié)果,對(duì)所述多個(gè)搜索結(jié)果進(jìn)行排序處理,以獲取排序后的多個(gè)搜索結(jié)果。
10.根據(jù)權(quán)利要 求7至9任一項(xiàng)所述的排序裝置,其中,所述第二類頁面的特征度包括以下至少任一項(xiàng): -每個(gè)搜索結(jié)果指向的第二類頁面的頁面質(zhì)量; -每個(gè)搜索結(jié)果指向的第二類頁面與第一類頁面的頁面相似度信息。
11.根據(jù)權(quán)利要求10所述的排序裝置,其中,該方法還包括根據(jù)以下至少任一項(xiàng)來確定所述至少一個(gè)搜索結(jié)果分別指向的第二類頁面的頁面質(zhì)量: -第二類頁面的頁面豐富度; -第二類頁面的標(biāo)題信息與第二類頁面的內(nèi)容信息的相關(guān)性信息。
12.根據(jù)權(quán)利要求10或11任一項(xiàng)所述的排序裝置,其中,該排序裝置還包括: 提取裝置,用于提取所述至少一個(gè)搜索結(jié)果中每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的主要頁面內(nèi)容塊; 相似度確定裝置,用于對(duì)每個(gè)搜索結(jié)果的第一類頁面與第二類頁面的主要頁面內(nèi)容塊進(jìn)行文本相似度計(jì)算,以確定所述每個(gè)搜索結(jié)果指向的第一類頁面與第二類頁面的頁面相似度信息。
13.—種網(wǎng)絡(luò)設(shè)備,包括如權(quán)利要求7至12中至少一項(xiàng)所述的排序裝置。
【文檔編號(hào)】G06F17/30GK103631794SQ201210301231
【公開日】2014年3月12日 申請(qǐng)日期:2012年8月22日 優(yōu)先權(quán)日:2012年8月22日
【發(fā)明者】林冠辰 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司