專利名稱:計算顯示頁面中塊的重要度的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
這里描述的技術(shù)通常涉及識別顯示頁面中、代表顯示頁面的重要主題的信息塊的技術(shù)。
背景技術(shù):
提供諸如Google和Overture的許多搜索引擎服務(wù)器,其用于經(jīng)由網(wǎng)絡(luò)搜索可獲得的信息。這些搜索引擎服務(wù)器允許用戶搜索他感興趣的顯示頁面,例如,網(wǎng)頁。用戶提交一個包括搜索條目的搜索請求后,搜索引擎服務(wù)器識別可能與那些搜索條目相關(guān)的網(wǎng)頁。為了快速識別相關(guān)網(wǎng)頁,搜索引擎服務(wù)器可以保持將關(guān)鍵詞映射到網(wǎng)頁。這個映射可以通過“爬行”該網(wǎng)絡(luò)(例如,萬維網(wǎng))生成,以識別每個網(wǎng)頁的關(guān)鍵詞。為了爬行該網(wǎng)絡(luò),搜索引擎服務(wù)器可以使用根網(wǎng)頁的一個列表來識別經(jīng)由那些根網(wǎng)頁可以訪問的所有網(wǎng)頁。使用各種已知的信息檢索技術(shù)可以識別任何特殊網(wǎng)頁的關(guān)鍵詞,例如,識別標(biāo)題行的詞,在網(wǎng)頁的數(shù)據(jù)元里提供的詞,突出顯示的詞等等。然后基于每次匹配的受歡迎的網(wǎng)頁等的接近度、網(wǎng)頁通俗性(例如Google的PageRank)等等,搜索引擎服務(wù)器將搜索結(jié)果的網(wǎng)頁進(jìn)行排序。搜索引擎服務(wù)器也可以生成一個相關(guān)的分?jǐn)?shù)以指示網(wǎng)頁信息與搜索要求相關(guān)程度。然后搜索引擎服務(wù)器基于它們的等級按順序向用戶顯示到那些網(wǎng)頁的鏈接。
搜索結(jié)果網(wǎng)頁是否對用戶有意義的很大部分取決于搜索引擎服務(wù)識別的表示網(wǎng)頁主題的關(guān)鍵字的程度。因?yàn)榫W(wǎng)頁可以包含許多不同的信息類型,可能難以辨別該網(wǎng)頁的主題。例如,許多網(wǎng)頁包含與網(wǎng)頁主題無關(guān)的廣告。一個新網(wǎng)點(diǎn)的網(wǎng)頁可以包含關(guān)于國際政治事件的文章,還可以包含“干擾信息”,比如大眾飲食廣告,有關(guān)法律告示的區(qū)域,和導(dǎo)航條。傳統(tǒng)上,搜索引擎服務(wù)很難識別網(wǎng)頁的干擾信息以及什么信息與網(wǎng)頁的主題有關(guān)。結(jié)果,搜索引擎服務(wù)可能選擇基于干擾信息的關(guān)鍵字,而不是該網(wǎng)頁的主題。例如,搜索引擎服務(wù)可能將包含飲食廣告的網(wǎng)頁匹配到關(guān)鍵字″餐飲″,即使該網(wǎng)頁的主題與國際政治事件有關(guān)。然后當(dāng)用戶提交包括搜索詞″餐飲″的搜索請求時,該搜索引擎服務(wù)可能返回該包含餐飲廣告的網(wǎng)頁,該網(wǎng)頁對用戶是沒有意義的。
希望有一種技術(shù)可以計算網(wǎng)頁的不同信息區(qū)對該該網(wǎng)頁主題的重要度。
發(fā)明內(nèi)容
重要度系統(tǒng)識別顯示頁面信息區(qū)的重要度。該重要度系統(tǒng)識別表示網(wǎng)頁區(qū)域的網(wǎng)頁信息區(qū)或塊,而該網(wǎng)頁看起來與相似的主題有關(guān)。在識別這個網(wǎng)頁的信息塊以后,該重要度系統(tǒng)將該塊的特征或特性提供給重要度函數(shù),該重要度函數(shù)對其網(wǎng)頁產(chǎn)生重要度的指示。該重要度系統(tǒng)可以通過產(chǎn)生基于該塊特征的模型和用戶指定的那些塊的重要度來獲得該重要度函數(shù)。
圖1是說明在一個實(shí)施例中的重要度系統(tǒng)的組成結(jié)構(gòu)圖。
圖2是說明在一個實(shí)施例中重要度系統(tǒng)的生成重要度函數(shù)組件的處理流程圖。
圖3是說明在一個實(shí)施例中重要度系統(tǒng)的生成特征向量組件的處理流程圖。
圖4是說明在一個實(shí)施例中重要度系統(tǒng)的一個計算塊重要度組件的處理流程圖。
圖5是說明在一個實(shí)施例中一個使用獲得的重要度函數(shù)的順序搜索結(jié)果組件的處理流程圖。
圖6是說明在一個實(shí)施例中一個使用獲得的重要度函數(shù)的擴(kuò)展搜索結(jié)果組件的處理流程圖。
圖7是說明在一個實(shí)施例中一個使用獲得的重要度函數(shù)的檢索網(wǎng)頁組件的處理流程圖。
圖8是說明在一個實(shí)施例中一個使用獲得的重要度函數(shù)的分類網(wǎng)頁組件的處理流程圖。
具體實(shí)施例方式
提供一種用于識別顯示頁面信息區(qū)的重要度的方法和系統(tǒng)。在一個實(shí)施例中,重要度系統(tǒng)識別網(wǎng)頁的信息區(qū)或塊。網(wǎng)頁的塊表示該網(wǎng)頁的區(qū)域,該區(qū)域看來似乎與相似的主題有關(guān)。例如,網(wǎng)頁的新聞可以表示一個塊,而餐飲廣告可以表示另一個塊。在識別這個網(wǎng)頁的塊以后,該重要度系統(tǒng)將該塊的特征或特性提供給重要度函數(shù),該重要度函數(shù)產(chǎn)生一個該塊對該網(wǎng)頁的重要度的指示。該重要度系統(tǒng)通過產(chǎn)生一個基于塊特性和用戶指定的那些塊的重要度的模型來“獲得”該重要度函數(shù)。想要獲得該重要度函數(shù),該重要度系統(tǒng)要求用戶提供該網(wǎng)頁的塊的重要度的指示,該網(wǎng)頁是網(wǎng)頁集合中的一個。例如,用戶可以識別某一塊對一個網(wǎng)頁第一重要,而另一個用戶可以識別該塊對該網(wǎng)頁第二重要。該重要度系統(tǒng)同時給每個塊確定一個特征向量,每個特征向量可以表示該塊不同的空間和內(nèi)容特征。例如,空間特征可能是塊的大小或位置,內(nèi)容特征可能是塊內(nèi)部連接的數(shù)目或塊內(nèi)字的數(shù)目。然后該重要度系統(tǒng)獲得一個重要度函數(shù),基于用戶指定的重要度和塊特征向量。該函數(shù)輸入塊的特征向量并輸出該塊的重要度。該重要度系統(tǒng)可以試圖獲得特征函數(shù),該特征函數(shù)最小化用戶指定的該塊的重要度和該重要度函數(shù)計算的重要度之間的平方差。這樣,該重要度系統(tǒng)可以基于用戶認(rèn)為重要的塊特征而識別與該網(wǎng)頁的主題相關(guān)的網(wǎng)頁塊。
一旦獲得該重要度函數(shù),就可用于提高許多應(yīng)用的準(zhǔn)確度,其結(jié)果依靠對網(wǎng)頁主題的識別。該搜索引擎服務(wù)可以使用該重要度函數(shù)計算對應(yīng)搜索請求的搜索結(jié)果網(wǎng)頁的相關(guān)性。獲得搜索結(jié)果后,該搜索引擎服務(wù)可以使用該重要度函數(shù)識別各網(wǎng)頁的最重要的塊,并計算最重要的塊(或一組重要塊)對該搜索請求的相關(guān)性。因?yàn)檫@個相關(guān)性是以該網(wǎng)頁最重要的塊的信息為基礎(chǔ)的,因此它可能是一個比基于網(wǎng)頁全部信息的相關(guān)性更精確的相關(guān)性度量,前面的相關(guān)性可能包括干擾信息。
搜索引擎服務(wù)同時可以使用該重要度函數(shù)來識別與某一網(wǎng)頁有關(guān)的網(wǎng)頁。該搜索引擎服務(wù)可以使用該重要度函數(shù)以識別該網(wǎng)頁的最重要塊,然后基于該識別塊標(biāo)準(zhǔn)化搜索請求。該搜索引擎服務(wù)可以使用該標(biāo)準(zhǔn)化搜索請求執(zhí)行搜索以識別與某一網(wǎng)頁有關(guān)的網(wǎng)頁。
搜索引擎服務(wù)也可以使用該重要度函數(shù)來分類網(wǎng)頁。例如,網(wǎng)頁可以基于它們的主題分類。該搜索引擎服務(wù)可以使用該重要度函數(shù)以識別網(wǎng)頁的最重要塊,并基于該識別塊的文本分類該網(wǎng)頁。
當(dāng)網(wǎng)頁的內(nèi)容不能全部顯示在顯示設(shè)備上時,瀏覽器也可以使用該重要度函數(shù)以識別要顯示的網(wǎng)頁部分。例如,蜂窩式便攜無線電話或個人數(shù)字助理等裝置可能有很小的顯示器,由于信息的數(shù)量、規(guī)模和復(fù)雜性,大部分網(wǎng)頁不能適當(dāng)?shù)卦谄渖巷@示。當(dāng)內(nèi)容很小不能被人們?nèi)菀椎乜吹綍r,網(wǎng)頁就不是適當(dāng)?shù)仫@示。當(dāng)使用這樣的裝置用于瀏覽網(wǎng)頁時,該重要度函數(shù)可以用來識別網(wǎng)頁的最重要塊,并只在小顯示器上顯示該識別塊。換句話說,基于重要度函數(shù)指出的該塊的重要度,瀏覽器可以重新整理該網(wǎng)頁塊,突出顯示該網(wǎng)頁塊,移動該網(wǎng)頁塊等等。
重要度系統(tǒng)可以識別網(wǎng)頁的信息區(qū),所述網(wǎng)頁使用不同的分割方法,比如基于文件對象模型(DOM)的分割算法,基于位置的分割算法,基于視覺的分割算法等等?;贒OM的分割算法可以使用網(wǎng)頁的超級文本標(biāo)志語言層次,以識別它的不同塊?;谖恢玫姆指钏惴ㄔ噲D識別網(wǎng)頁的區(qū)域,該網(wǎng)頁可被認(rèn)為是基于區(qū)域物理性質(zhì)的組合。2003年7月28日提交的、題為“基于視覺的文件分割”的美國專利申請第10/628,766號所描述的一種基于視覺的分割算法文本在這里引入作為參考。那些基于視覺的分割算法以每個塊的信息內(nèi)容相關(guān)性為基礎(chǔ)識別塊。例如,餐飲廣告可以表示單個塊,因?yàn)樗膬?nèi)容指向單個主題,并由此具有高相關(guān)性??梢詫⒁粋€包括許多不同主題的顯示頁面的區(qū)域分成許多不同的塊。
該重要度系統(tǒng)可以使用不同的技術(shù)從表示該塊的特征向量及用戶指定的塊的重要度獲得重要度函數(shù)。例如,象下面更詳細(xì)的描述一樣,該重要度系統(tǒng)可以使用神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)獲得該重要度函數(shù)。另外,該重要度系統(tǒng)可以在表示該塊的特征向量中使用該塊的不同的空間和內(nèi)容特征。例如,空間特征可以包括該塊的中心位置和該塊的尺寸,這些被提作“絕對空間特征”。這些絕對空間特征可以基于該網(wǎng)頁的大小被標(biāo)準(zhǔn)化,其被提作“相對空間特征”,或者基于窗口的大小被標(biāo)準(zhǔn)化,其被提作“窗口空間特征”。該內(nèi)容特征可以與該塊的圖像(如圖像的數(shù)量和大小),塊的連接(如連接和各連接中字的數(shù)目),塊的文本(如塊中的字?jǐn)?shù)),塊的用戶交互(如輸入范圍的數(shù)量和大小),和塊的形式(如數(shù)量和大小)相關(guān)。不同的內(nèi)容特征也可以被標(biāo)準(zhǔn)化。例如,塊的連接的數(shù)目可以被該網(wǎng)頁的連接總數(shù)標(biāo)準(zhǔn)化,或者塊中文本的字?jǐn)?shù)可以被該網(wǎng)頁的全部塊中文本的總字?jǐn)?shù)標(biāo)準(zhǔn)化。
在一個實(shí)施例中,重要度系統(tǒng)可以允許用戶使用不連續(xù)或連續(xù)的權(quán)指定塊的重要度。對于一個網(wǎng)頁,較大的權(quán)表示網(wǎng)頁的信息塊的較高重要度。當(dāng)使用不連續(xù)的權(quán)1-4時,權(quán)1可以表示干擾信息比如廣告、版權(quán)標(biāo)記、裝飾等等。權(quán)2可以表示不特別與網(wǎng)頁的主題有關(guān)的有用信息,如導(dǎo)航信息,目錄信息等等。權(quán)3可以表示與網(wǎng)頁的主題有關(guān)但不特別重要的信息,如相關(guān)主題,主題索引等等。權(quán)4可以指出網(wǎng)頁的最主要的部分,比如標(biāo)題行,主要內(nèi)容等等。
附圖1是說明一個實(shí)施中的重要度系統(tǒng)的組成結(jié)構(gòu)圖。該重要度系統(tǒng)可以包括組件101-105和數(shù)據(jù)存儲111-114。該組件可以包括一個識別塊組件101,一個收集用戶指定重要度組件102,一個生成重要度函數(shù)組件103,一個應(yīng)用重要度函數(shù)組件104,和一個生成特征向量組件105。該數(shù)據(jù)存儲可以包括一個網(wǎng)頁存儲111,一個塊存儲112,一個用戶指定重要度存儲113,和一個重要度函數(shù)存儲114。該網(wǎng)頁存儲可以包含許多用于生成或獲得重要度函數(shù)的網(wǎng)頁。該識別塊組件識別網(wǎng)頁存儲中的各網(wǎng)頁的塊,并將各個塊的識別存儲在塊存儲中。收集用戶指定重要度組件為用戶顯示頁面存儲中的各網(wǎng)頁,突出顯示網(wǎng)頁的每個塊,要求用戶指定每個塊的重要度,并將指定的重要度存儲到用戶指定重要度存儲中。生成重要度函數(shù)組件使用生成特征向量組件以為塊存儲中每個塊生成一個特征向量。該生成重要度函數(shù)于是獲得一個重要度函數(shù)以模擬塊的特征向量和用戶指定的塊的重要度。重要度函數(shù)存儲可以包含信息,比如定義該所獲得的重要度函數(shù)的系數(shù)和參數(shù),其中該重要度函數(shù)是由生成重要度函數(shù)組件計算的。應(yīng)用重要度函數(shù)組件傳遞網(wǎng)頁的塊,調(diào)用生成特征向量組件以生成該塊的特征向量,并將該重要度函數(shù)應(yīng)用到已生成的特征向量,用于生成該塊的重要度的一個指示。
實(shí)施該重要度系統(tǒng)的計算機(jī)裝置可以包括一個中央處理器、內(nèi)存、輸入設(shè)備(例如鍵盤和指點(diǎn)設(shè)備)、輸出設(shè)備(例如顯示設(shè)備)、和存儲設(shè)備(例如磁盤驅(qū)動)。內(nèi)存和存儲設(shè)備是計算機(jī)可讀介質(zhì),它可以包含實(shí)施該重要度系統(tǒng)的指令。另外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可以通過數(shù)據(jù)傳輸介質(zhì)存儲或傳輸,比如通信鏈路上的一個信號??梢允褂貌煌耐ㄐ沛溌罚热鐕H互聯(lián)網(wǎng)絡(luò)、局域網(wǎng)、廣域網(wǎng)、或點(diǎn)到點(diǎn)撥號連接。
附圖1說明一個適當(dāng)?shù)牟僮鳝h(huán)境的示例,在其中可以實(shí)施該重要度系統(tǒng)。該操作環(huán)境是適當(dāng)操作環(huán)境的唯一示例,且不打算對重要度系統(tǒng)的使用范圍或功能設(shè)限。其它的眾所周知的適合使用的計算系統(tǒng)、環(huán)境、和配置,其包括個人電腦、服務(wù)器電腦、手提或膝上計算機(jī)裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程用戶電子設(shè)備、網(wǎng)絡(luò)個人計算機(jī)、小型計算機(jī)、主計算機(jī)、包括任何上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
重要度系統(tǒng)可以在計算機(jī)可執(zhí)行指令的通用環(huán)境中描述,例如程序模塊,所述計算機(jī)可執(zhí)行指令由一或多個計算機(jī)或其它設(shè)備執(zhí)行。通常,程序模塊包括執(zhí)行特定的任務(wù)或?qū)嵤┨貏e的抽象數(shù)據(jù)類型的規(guī)則、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。典型來說,程序模塊的功能可以在不同的實(shí)施例中隨意地聯(lián)合或分配。
在一個實(shí)施例中,重要度系統(tǒng)基于用戶指定的許多網(wǎng)頁的塊的重要度,通過最小化一個最小二乘方目標(biāo)函數(shù)獲得一個塊重要度函數(shù)。每個塊可由一個特征向量和一對重要度(x,y)表示,其中x是塊的特征向量,y是其重要度。網(wǎng)頁集合的類特征向量和重要度的設(shè)置參照訓(xùn)練集T。該重要度系統(tǒng)試圖獲得一個重要度函數(shù)f,其最小化以下目標(biāo)函數(shù)∑(x,y)∈T|f(x)-y|2(1)該目標(biāo)函數(shù)可以用分類技術(shù)求解,比如若y權(quán)不連續(xù),可用支持向量機(jī)求解,也可以用回歸方法求解,比如若y權(quán)連續(xù),可用神經(jīng)網(wǎng)絡(luò)求解。
當(dāng)重要度由連續(xù)實(shí)數(shù)表示時,重要度系統(tǒng)可以應(yīng)用一個神經(jīng)網(wǎng)絡(luò)以獲得最優(yōu)的f*,該f*由最小化以下目標(biāo)函數(shù)給出f*=argminfΣi=1m||f(xi)-yi||2---(2)]]>其中m是訓(xùn)練集中塊的數(shù)量。這是一個復(fù)合無參數(shù)回歸方程問題,因?yàn)闆]有關(guān)于被估計的真實(shí)回歸方程格式的在先知識。
一個神經(jīng)網(wǎng)絡(luò)模型有三個主要組件體系結(jié)構(gòu)、價權(quán)函數(shù)和搜索算法。體系結(jié)構(gòu)定義將輸入聯(lián)系到輸出的功能形式(依據(jù)網(wǎng)絡(luò)拓?fù)洌瑔卧B接和活動功能)。在權(quán)空間中對一組最小化目標(biāo)函數(shù)的權(quán)的搜索是訓(xùn)練過程。在一個實(shí)施例中,重要度系統(tǒng)使用放射基礎(chǔ)函數(shù)(”RBF”)網(wǎng)絡(luò)和標(biāo)準(zhǔn)梯度下降作為搜索技術(shù)。
該重要度系統(tǒng)構(gòu)造一個具有三層的、每層有不同任務(wù)的RBF網(wǎng)絡(luò)。輸入層包括源節(jié)點(diǎn)(如傳感單元),用于將網(wǎng)絡(luò)連接到它的環(huán)境(如低級特征空間)。隱蔽層由輸入空間轉(zhuǎn)向隱蔽空間使用非線性變換。通常,隱蔽空間具有高維數(shù)。該隱蔽層有RBF神經(jīng)元,這些神經(jīng)元通過結(jié)合權(quán)重輸入和偏差計算隱蔽層的輸入。輸出層是線性的并提供塊重要度給出應(yīng)用于輸入層的低級塊表示。
通過RBF網(wǎng)絡(luò)獲得的功能可以由下式表示fi(x)=Σj=1hωijGi(x)---(3)]]>其中i是訓(xùn)練集中的一個塊,h是隱蔽層神經(jīng)元的數(shù)目,ωij∈R是權(quán)重,Gi是定義為如下的放射函數(shù)Gi(x)=exp(-||x-ci||2σi2)---(4)]]>其中ci是Gi的中心,σi是基函數(shù)寬度。k維空間映射可以表示如下x→f(x)=(f1(x),f2(x),...fk(x)) (5)其中f=[f1,f2,...,fk]是映射函數(shù)。
RBF神經(jīng)網(wǎng)絡(luò)從特征空間到塊重要度近似該最佳回歸函數(shù)。該重要度系統(tǒng)能使用訓(xùn)練集T中的訓(xùn)練實(shí)例{xi,yi}(i=1,…,m)離線訓(xùn)練該RBF神經(jīng)網(wǎng)路。對于一個以前未處理的新的塊,給定塊的特征向量,該重要度系統(tǒng)可以使用回歸函數(shù)f計算它的重要度。
當(dāng)重要度由不連續(xù)的數(shù)表示時,該重要度系統(tǒng)應(yīng)用支持向量機(jī)獲得重要度函數(shù)。該支持向量機(jī)試圖最小化結(jié)構(gòu)風(fēng)險,而不是試驗(yàn)風(fēng)險。該支持向量機(jī)可以使用二元分級,該訓(xùn)練集按如下定義D={xi,yi}i=1t---(6)]]>其中D是訓(xùn)練集,t是訓(xùn)練實(shí)例數(shù)目,且yi∈{-1,1}。該重要度系統(tǒng)試圖在無窮多的線性分類器中選擇最小的一般錯誤,其中線性分類器分割數(shù)據(jù)。具有該特性的超平面在兩種類型之間留下最大空白。該重要度函數(shù)可以由下式表示f(x)=sign(Σi=1tαiyi⟨xi,x⟩-b)---(7)]]>其中αi關(guān)聯(lián)訓(xùn)練實(shí)例xi,表示強(qiáng)度,點(diǎn)通過該強(qiáng)度嵌入最終函數(shù),b是截距,亦稱機(jī)器學(xué)習(xí)的偏差。這個表達(dá)式的性質(zhì)是常常該點(diǎn)只有一個子集關(guān)聯(lián)非零的αi。這些點(diǎn)被叫做支持矢量,而且是離分離超平面最近的點(diǎn)。非線性支持向量機(jī)將該輸入變量映射到高維(經(jīng)常是無限維)空間,并且在該空間中應(yīng)用線性支持向量機(jī)。在計算上,通過使用一個(復(fù)制)內(nèi)核程序可以實(shí)現(xiàn)此目的。該相應(yīng)非線性決策函數(shù)表示如下
f(x)=sign(Σi=1tαiyiK⟨xi,x⟩-b)---(8)]]>其中K是核心函數(shù)。一些典型的核心函數(shù)包括多項式核心、高斯RBF核心、和反曲核心。對于一個多類分類問題,該重要度系統(tǒng)可以應(yīng)用一全反方案。
附圖2是說明在一個實(shí)施例中,重要度系統(tǒng)的生成重要度函數(shù)組件的處理流程圖。在塊201中,該組件從網(wǎng)頁存儲中取回網(wǎng)頁集合。在塊202中,該組件識別取回的網(wǎng)頁中的塊,并將該塊的指示存儲到塊存儲中。在塊203中,該組件為塊收集用戶指定的重要度數(shù)據(jù)。該組件可以顯示每個網(wǎng)頁及一個該網(wǎng)頁的塊的表示,并要求用戶評價該網(wǎng)頁的每個塊的重要度。該組件將用戶指定的重要度存儲到用戶指定重要度存儲中。在塊204中,該組件為每個塊生成一個特征向量,并可以將該特征向量存儲到塊存儲中。在塊205中,該組件使用上述神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)技術(shù)獲得該重要度函數(shù)。
附圖3是說明在一個實(shí)施例中的重要度系統(tǒng)的生成特征向量組件的處理流程圖。該組件傳遞網(wǎng)頁的指示和該網(wǎng)頁的塊的指示,其重要度將被計算。在塊301中。該組件識別該塊的絕對空間特征。在塊302中,該組件計算該塊的窗口空間特征。該組件可以計算窗口空間特征,比如按照下式的y坐標(biāo)的塊中心BlockCenterY=BlockCenterY/(2*HeaderHeight);ifBlockCenterY<HeaderHeight0.5;ifHeaderHeight<BlockCenterY<PageHeignt-FooterHeight1-(PageHeight-BlockCenterY)/(2*FooterHerght);otherwise---(9)]]>其中HeaderHeight和FooterHeight是預(yù)定義的恒定值,該值與頁面的頁眉和頁腳的高度有關(guān)。在塊303中,該組件識別該塊的內(nèi)容特征。在塊304中,該組件酌情標(biāo)準(zhǔn)化該內(nèi)容特征,然后返回該特征向量。
附圖4是說明在一個實(shí)施例中生成重要度系統(tǒng)的計算塊重要度組件的處理流程圖。該組件使用獲得的重要度函數(shù),傳遞一個網(wǎng)頁的指示并計算該網(wǎng)頁的每個塊的重要度。在塊401中,該組件識別傳遞網(wǎng)頁的塊。在塊402-406中,該組件循環(huán)計算傳遞網(wǎng)頁的每個塊的重要度。在塊402中,該組件選擇傳遞網(wǎng)頁的下一塊。在判定塊403中,如果傳遞網(wǎng)頁的全部塊已被選中,然后該組件返回每個塊的重要度,否則該組件在塊404繼續(xù)。在塊404中,該組件調(diào)用生成特征向量組件以生成該所選塊的特征向量。在塊405中,該組件對生成的特征向量應(yīng)用獲得的重要度函數(shù),以計算所選塊的重要度。在塊406中,該組件存儲計算出的重要度,然后循環(huán)到402選擇傳遞網(wǎng)頁的下一個塊。
附圖5-8說明該獲得重要度函數(shù)在不同的應(yīng)用中的使用。附圖5是說明在一個實(shí)施例中使用獲得的重要度函數(shù)的順序搜索結(jié)果組件的處理流程圖。該組件傳遞一個網(wǎng)頁搜索結(jié)果,并返回搜索結(jié)果,所述搜索結(jié)果基于由獲得的重要度函數(shù)計算出的塊重要度重排順序。在塊501中,該組件選擇搜索結(jié)果的下一網(wǎng)頁。在判定塊502中,如果搜索結(jié)果的全部網(wǎng)頁已被選中,該組件接著就在塊505繼續(xù),否則該組件在塊503繼續(xù)。在塊503中,該組件調(diào)用一個計算塊重要度組件,以計算所選網(wǎng)頁的每個塊的重要度。在塊504中,該組件設(shè)置基于有最高重要度的塊的網(wǎng)頁相關(guān)性。該組件可以基于最重要塊(一或多個)的文本與搜索請求的匹配程度,計算該相關(guān)性,其中搜索請求識別搜索結(jié)果。該組件可以同時將該相關(guān)性與每個網(wǎng)頁的相關(guān)性結(jié)合,這些網(wǎng)頁由一個搜索引擎計算。然后該組件循環(huán)到塊501,以選擇搜索結(jié)果的下一個網(wǎng)頁。在塊505中,該組件將基于設(shè)置的相關(guān)性的網(wǎng)頁進(jìn)行分類,然后返回重新排序的搜索結(jié)果網(wǎng)頁。
附圖6是說明在一個實(shí)施例中使用獲得的重要度函數(shù)的擴(kuò)展搜索結(jié)果組件的處理流程圖。該組件傳遞一個網(wǎng)頁,并識別可能與該傳遞網(wǎng)頁有關(guān)的網(wǎng)頁。在塊601中。該組件調(diào)用計算塊重要度組件,以計算所傳遞的網(wǎng)頁的每個塊的重要度。在塊602中,該組件選擇傳遞網(wǎng)頁的具有最高重要度的塊。在塊603中,該組件獲得與所選塊相關(guān)聯(lián)的文本。在塊604中,該組件基于獲得的文本用公式表示一個搜索請求。在塊605中,該組件向一個搜索引擎服務(wù)提交該標(biāo)準(zhǔn)化搜索請求,并反過來接收搜索結(jié)果。然后該組件返回該搜索結(jié)果。
附圖7是說明在一個實(shí)施例中使用獲得的重要度函數(shù)的顯示網(wǎng)頁組件的處理流程圖。這個組件傳遞一個網(wǎng)頁的統(tǒng)一資源定位,并將該網(wǎng)頁的具有最高重要度的塊的內(nèi)容顯示為網(wǎng)頁本身的內(nèi)容。在塊701中,該組件使用該傳遞的統(tǒng)一資源定位得到該網(wǎng)頁。在塊702中,該組件調(diào)用計算塊重要度函數(shù),以計算獲得的網(wǎng)頁的每個塊的重要度。在塊703中,該組件選擇所獲得網(wǎng)頁的具有最高重要度的塊。在塊704中,該組件將獲得的塊顯示為網(wǎng)頁的內(nèi)容。
附圖8是說明在一個實(shí)施例中使用獲得的重要度函數(shù)的分類網(wǎng)頁組件的處理流程圖。該組件傳遞一個網(wǎng)頁并降該網(wǎng)頁分類。在塊801中,該組件調(diào)用該塊重要度函數(shù),以計算傳遞的網(wǎng)頁的每個塊的重要度。在塊802中,該組件選擇被傳遞網(wǎng)頁的具有最高重要度的塊(或一組塊)。在塊803中,該組件獲得具有最高重要度的所選塊的文本。在塊804中,該組件生成基于獲得的文本的分類。該分類也可以基于所選塊內(nèi)部的連接。然后該組件返回該分類。
本領(lǐng)域技術(shù)人員可以估計到,盡管在此為了說明的目的,描述了特定的該重要度系統(tǒng)的實(shí)施例,但是在不背離本發(fā)明的精神和范圍下,仍可以有多種變形。重要度系統(tǒng)的原則可以用來決定除了網(wǎng)頁的多種信息源中信息區(qū)的重要度。這些信息源可以包括使用HTML,XML,或其它標(biāo)注語言表示的文件。本領(lǐng)域技術(shù)人員可以估計到,一些塊重要度的應(yīng)用可以使用不是″獲得的″重要度函數(shù)。例如,開發(fā)者可以簡單地定義一個重要度函數(shù),其反映它們的塊重要度的概念,而并不依靠收集塊重要度的用戶額定值的經(jīng)驗(yàn)數(shù)據(jù)。這樣的重要度函數(shù)可以評價基于其大小和位置的綜合的塊重要度。因此,本發(fā)明不受除附加的權(quán)利要求外的限制。
權(quán)利要求
1.一種用于在計算機(jī)系統(tǒng)中對包含塊的網(wǎng)頁確定該塊對該網(wǎng)頁重要度的方法,該方法包括提供具有塊的網(wǎng)頁集合;對于每個塊,生成一個表示該塊的特征向量;并從個人收集所述塊對于它所在網(wǎng)頁的重要度的指示;從生成的特征向量和指示的每個塊的重要度獲得一個函數(shù),其表示從特征向量到重要度的映射;以及將獲得的該函數(shù)應(yīng)用到所述網(wǎng)頁的塊的特征向量表示,以生成所述塊對于該網(wǎng)頁的重要度的指示。
2.如權(quán)利要求1所述的方法,其特征在于,特征向量包括空間特征。
3.如權(quán)利要求1所述的方法,其特征在于,特征向量包括內(nèi)容特征。
4.如權(quán)利要求3所述的方法,其特征在于,內(nèi)容特征包括圖象特征。
5.如權(quán)利要求3所述的方法,其特征在于,內(nèi)容特征包括連接特征。
6.如權(quán)利要求3所述的方法,其特征在于,內(nèi)容特征包括交互特征。
7.如權(quán)利要求1所述的方法,其特征在于,特征向量包括空間特征和內(nèi)容特征。
8.如權(quán)利要求1所述的方法,其特征在于,對所述函數(shù)的獲得包括應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的回歸分析。
9.如權(quán)利要求8所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)是放射基神經(jīng)網(wǎng)絡(luò)。
10.如權(quán)利要求1所述的方法,其特征在于,通過選擇一個旨在將由函數(shù)計算出的重要度和收集的重要度的差的平方和最小化的函數(shù)來獲得該函數(shù)。
11.如權(quán)利要求1的方法,其特征在于,所述函數(shù)的獲得包括使用支持向量機(jī)算法。
12.一種在計算機(jī)系統(tǒng)中用來建立網(wǎng)頁與搜索結(jié)果相關(guān)性的方法,該方法包括識別所述搜索結(jié)果的每個頁面的塊;以及對于所述搜索結(jié)果的每個頁面,選擇具有最高重要度的頁面的塊;和基于所選的塊設(shè)置網(wǎng)頁的相關(guān)性。
13.如權(quán)利要求12所述的方法,其特征在于,相關(guān)性的設(shè)置包括調(diào)整在先計算出的相關(guān)性。
14.如權(quán)利要求12所述的方法,其特征在于,具有最高重要度的塊的選擇包括對頁面的每個塊,生成塊的一個特征向量,并將重要度函數(shù)應(yīng)用到生成的特征向量。
15.如權(quán)利要求14所述的方法,其特征在于,基于網(wǎng)頁集的塊的用戶指定重要度,來獲得該重要度函數(shù)。
16.如權(quán)利要求12所述的方法,其特征在于,包括基于設(shè)置的相關(guān)性對網(wǎng)頁進(jìn)行排序。
17.一種用于在計算機(jī)系統(tǒng)中識別與頁面相關(guān)的頁面的方法,該方法包括識別該頁面的塊;選擇具有最高重要度的頁面的塊;基于該選擇的塊生成搜索請求;和提交生成的搜索請求,以識別與該頁面相關(guān)的頁面。
18.如權(quán)利要求17所述的方法,其特征在于,選擇具有最高重要度的塊包括對該頁面的每個塊,生成塊的特征向量,并將重要度函數(shù)應(yīng)用到生成的特征向量。
19.如權(quán)利要求18所述的方法,其特征在于,基于頁面集的塊的用戶指定重要度,來獲得該重要度函數(shù)。
20.如權(quán)利要求17所述的方法,其特征在于,網(wǎng)頁是搜索結(jié)果的一部分。
21.如權(quán)利要求17所述的方法,其特征在于,基于與所選塊相關(guān)的文本生成搜索請求。
22.一種用于在計算機(jī)系統(tǒng)中選擇頁面的一部分顯示在一個顯示設(shè)備上的方法,該方法包括識別該頁面的塊;選擇具有最高重要度的頁面的塊;和在顯示設(shè)備上顯示所選塊。
23.如權(quán)利要求22所述的方法,其特征在于,顯示設(shè)備不能進(jìn)行顯示整個網(wǎng)頁的適當(dāng)調(diào)節(jié)。
24.如權(quán)利要求22所述的方法,其特征在于,顯示設(shè)備與蜂窩電話相連。
25.如權(quán)利要求22所述的方法,其特征在于,顯示設(shè)備與個人數(shù)字助理相連。
26.如權(quán)利要求22所述的方法,其特征在于,所選塊是唯一顯示在顯示設(shè)備上的塊。
27.如權(quán)利要求22所述的方法,其特征在于,基于其重要度顯示所識別塊的子集。
28.如權(quán)利要求22所述的方法,其特征在于,具有最高重要度的塊的選擇包括為該頁面的每個塊,生成塊的一個特征向量,并將重要度函數(shù)應(yīng)用到生成的特征向量。
29.如權(quán)利要求28所述的方法,其特征在于,基于用戶指定的頁面集的塊的重要度來獲得該重要度函數(shù)。
30.一種用于在計算機(jī)系統(tǒng)中分類頁面的方法,該方法包括識別該頁面的塊;選擇具有最高重要度的頁面的塊;和基于所選的塊為該網(wǎng)頁生成分類。
31.如權(quán)利要求30所述的方法,其特征在于,選擇具有最高重要度的塊包括為該頁面的每個塊,生成塊的特征向量,并將重要度函數(shù)應(yīng)用到生成的特征向量。
32.如權(quán)利要求31所述的方法,其特征在于,基于用戶指定的頁面集的塊的重要度來獲得該重要度函數(shù)。
33.如權(quán)利要求30所述的方法,其特征在于,分類的生成進(jìn)一步基于與所選塊相關(guān)的文本。
34.如權(quán)利要求30的方法,其特征在于,分類的生成進(jìn)一步基于多個具有高重要度的塊。
35.一種計算機(jī)可讀的介質(zhì),其包含使計算機(jī)系統(tǒng)通過下列方法確定頁面的塊的重要度的指令,該方法包括識別頁面的塊;和對于頁面的每個塊,生成表示該塊的特征向量;和將重要度函數(shù)應(yīng)用到該特征向量,以確定塊對于該網(wǎng)頁的重要度。
36.如權(quán)利要求35所述的計算機(jī)可讀介質(zhì),其特征在于,基于頁面集合中用戶指定的重要度來獲得該重要度函數(shù)。
37.如權(quán)利要求36所述的計算機(jī)可讀介質(zhì),其特征在于,使用神經(jīng)網(wǎng)絡(luò)獲得該重要度函數(shù)。
38.如權(quán)利要求36所述的計算機(jī)可讀介質(zhì),其特征在于,使用支持向量機(jī)獲得該重要度函數(shù)。
39.如權(quán)利要求35所述的計算機(jī)可讀介質(zhì),其特征在于,特征向量包括空間特征。
40.如權(quán)利要求35所述的計算機(jī)可讀介質(zhì),其特征在于,特征向量包括內(nèi)容特征。
全文摘要
一種用于確定顯示頁面的信息區(qū)域的重要度的方法和系統(tǒng)。一種確定網(wǎng)頁中信息區(qū)域或塊的重要度的系統(tǒng)。網(wǎng)頁塊表示看起來涉及相似主題的網(wǎng)頁區(qū)域。該重要度系統(tǒng)將塊的特性或特征提供給重要度函數(shù),該函數(shù)生成該塊對于其網(wǎng)頁的重要度的指示。該重要度系統(tǒng)通過生成基于塊的特征和用戶指定的這些塊的重要度的模型“組合”該重要度函數(shù)。為獲得該重要度函數(shù),該重要度系統(tǒng)要求用戶提供網(wǎng)頁集合中各網(wǎng)頁的塊的重要度指示。
文檔編號G06N3/00GK1702654SQ20051008175
公開日2005年11月30日 申請日期2005年4月29日 優(yōu)先權(quán)日2004年4月29日
發(fā)明者H·劉, 文繼榮, R·宋, 馬維英 申請人:微軟公司