專利名稱:一種網頁信息提取的方法和設備的制作方法
技術領域:
本發(fā)明涉及搜索引擎技木,尤其涉及一種網頁信息提取的方法和設備。
背景技術:
隨著互聯(lián)網上信息的爆炸性增加,如何能夠從海量信息中找到有用信息已經成為用戶的最大愿望,人們也付出了很多努力來尋找解決方法。搜索引擎的出現(xiàn)在一定程度上滿足了用戶的需求,如百度、谷歌、雅虎等。在現(xiàn)有技術中,用戶通常是輸入查詢序列進行檢索,搜索引擎從互聯(lián)網中找到匹配該查詢序列的網頁,然后將網頁的標題、網頁的URL地址以及一段來自網頁的摘要信息在捜索結果頁中進行顯示,供用戶判斷該網頁是否具有其所需要的信息,在大多數情況下, 網頁的摘要信息并不攜帶可以反映該網頁特征的關鍵信息,而僅僅是從網頁文本中基于用戶查詢序列抽取的一段文字。但是實際上,用戶往往最終是通過這些關鍵信息來判斷哪些網頁才是其所需要的,這是因為,對于不同頁面類型的網頁來說,除了標題、正文等內容主體之外,可以反映該網頁特征的關鍵信息是不同的,例如,對于新聞頁面來說,新聞的發(fā)布時間和新聞的來源對于用戶是非常重要的,因為用戶不會關注過期的新聞或者來源不可靠的新聞;對于論壇頁面來說,回帖人數和回帖時間說明了談論主題受歡迎的程度,用戶往往借此來判斷是否應該對該主題進行關注;而對于文件下載頁面來說,用戶通常會選擇被下載次數多的文件進行下載,等等。因此,目前捜索結果頁中所提供的信息是無法讓用戶快速、準確地判斷其需要的網頁,用戶必須要根據摘要信息先篩選部分網頁,然后逐一進入到這些網頁中通過其中的關鍵信息進行最終的確定。如此ー來,用戶不但需要執(zhí)行多次點擊操作,還需要花費大量時間瀏覽網頁內容,從而大大降低了用戶的搜索效率。因此,亟需提出一種可以快速、有效地提取出可以反映該網頁特征的關鍵信息的方法和設備。
發(fā)明內容
本發(fā)明的目的是提供一種網頁信息提取的方法和設備,可以快速、有效地將網頁中可以反映該網頁特征的關鍵信息提取出來。根據本發(fā)明的ー個方面,提供了一種網頁信息提取的方法,該方法包括以下步驟根據用戶捜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁;從所述網頁中提取出可以反映該網頁特征的關鍵信息;將所述關鍵信息在捜索結果中進行顯示。根據本發(fā)明的另ー個方面,還提供了一種網頁信息提取的設備,包括匹配捜索裝置,用于根據用戶搜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁;信息提取裝置,用于從所述網頁中提取出可以反映該網頁特征的關鍵信息;
結果展示裝置,用于將所述關鍵信息在捜索結果中進行顯示。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點可以快速、有效地將網頁中可以反映該網頁特征的關鍵信息提取出來,并將該關鍵信息提供給用戶,便于用戶根據該關鍵信息準確判斷是否需要查看該網頁,從而提高了用戶的搜索效率,提升了用戶的使用體驗。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖1為根據本發(fā)明ー個方面的網頁信息提取的方法流程圖;圖2為根據本發(fā)明ー個優(yōu)選實施例的從網頁中提取出可以反映該網頁特征的關鍵信息的方法流程圖;圖3為根據本發(fā)明另一個優(yōu)選實施例的從網頁中提取出可以反映該網頁特征的關鍵信息的方法流程圖;圖4為根據本發(fā)明ー個優(yōu)選實施例的網頁模板庫建立的方法流程圖;圖5為根據本發(fā)明ー個優(yōu)選實施例的在所搜索結果中對所述關鍵信息進行展示的示意圖;圖6為根據本發(fā)明ー個優(yōu)選實施例的網頁信息提取的設備示意圖;圖7為根據本發(fā)明另一個優(yōu)選實施例的網頁信息提取的設備示意圖;以及圖8為根據本發(fā)明ー個優(yōu)選實施例的模板庫建立裝置示意圖。
具體實施例方式下面結合附圖對本發(fā)明作進ー步詳細描述。圖1為根據本發(fā)明ー個方面的網頁信息提取的方法流程圖,如圖所示,該方法包括以下步驟在步驟SlOl中,根據用戶捜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁。具體地,獲取用戶在搜索引擎(如計算機搜索引擎或者手機搜索引擎)中輸入的查詢序列后,基于該查詢序列在互聯(lián)網的網頁內進行搜索,以獲取與所述查詢序列相匹配的網頁,其中,實現(xiàn)搜索匹配為本領域技術人員所公知的技木,在此不再贅述。接著,執(zhí)行步驟S102,從所述網頁中提取出可以反映該網頁特征的關鍵信息。具體地,用戶往往是通過網頁中的一些關鍵信息,來判斷一個網頁是否是其所需要的,例如,對于提供新聞的網頁,用戶需要根據新聞的發(fā)布時間以及新聞的來源判斷新聞的時效性,而對于提供文件下載的網頁,用戶需要根據下載次數來判斷該文件是否是優(yōu)質資源,其中,新聞的發(fā)布時間以及來源就是該新聞網頁的關鍵信息,而下載次數就是該下載網頁的關鍵信息,這些關鍵信息對于用戶來說是非常重要的。本發(fā)明提供了兩種從網頁中提取出關鍵信息的方法。下面對第一種方法進行說明,如圖2所示,該方法包括以下步驟在步驟S1021中,獲取所述網頁的配置文件,該配置文件中包括可以反映該網頁特征的關鍵信息的位置信息。具體地,互聯(lián)網站點在形成網頁的時候,網頁的開發(fā)者可以按照一定的規(guī)則在網頁內形成配置文件,將該網頁的關鍵信息的位置信息記錄在該配置文件中,其中,所述位置信息優(yōu)選為該關鍵信息在網頁內的XPath路徑。這些配置文件在用戶查看網頁的時候是看不到的,而搜索引擎通過一定的方式可以從網頁內獲取到該配置文件并對其內容進行解析。在本實施例中,所述配置文件為嵌入在所述網頁內的XML文件。在步驟S1022中,根據所述關鍵信息的位置信息,從所述網頁中提取出所述關鍵fn息ο具體地,在獲取了關鍵信息在網頁中的XPath路徑后,即可根據該XPath路徑,從網頁中提取出所述關鍵信息。對于不具有配置文件的網頁,可以采用第二種方法提取關鍵信息,請參考圖3,如圖所示,該方法的步驟包括步驟S1021’,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板;以及,步驟S1022’,根據所述網頁模板,從所述網頁中提取出所述關鍵信息。由于這種方法是基于網頁模板庫的,所以在對這種方法進行具體描述之前,首先對網頁模板庫進行說明,請參考圖4,圖4為根據本發(fā)明一個優(yōu)選實施例的網頁模板庫建立的方法流程圖,如圖所示,該方法包括如下步驟步驟S401,確定網頁的頁面類型。具體地,由于不同頁面類型的網頁,其關鍵信息也是不同的,例如,提供新聞的網頁,其關鍵信息主要是新聞的發(fā)布時間以及新聞的來源,而提供文件下載的頁面,其關鍵信息主要是文件被下載的次數,因此,需要首先確定互聯(lián)網中網頁的頁面類型。在確定網頁的頁面類型時,主要的依據是網頁的結構和主題這兩個特征,這是因為,同一種頁面類型的網頁通常會具有相似的結構和/或相近的主題,例如,大部分論壇性質的網頁,其結構會比較相似,即,必定會有一個首貼,如果有回帖的話,回帖會在首貼后以“樓層”的形式逐一排列,且各回帖在外觀上是相似的;而大部分提供商品信息的網頁,其主題都會比較相似,即,均會在網頁內顯示商品的信息,例如價格、出廠日期等。所以,可以將具有相似結構和/或主題的網頁劃分至同一頁面類型下。基于對大量網頁的結構和/或主題的分析,可以將網頁主要分為以下幾種類型視頻頁面、圖片頁面、下載頁面、論壇頁面、博客頁面、新聞頁面、小說頁面、問答頁面、黃頁頁面以及商情頁面,其中,所述大量網頁是搜索引擎從互聯(lián)網上抓取回來的,其數量可以高達百萬甚至千萬,通常存放在網頁庫中。步驟S402,對于各網站下不同頁面類型的網頁,提取出相應的網頁模板。具體地,對于同一種頁面類型的網頁來說,盡管這些網頁的結構和/或主題是相似的,但是如果這些網頁是分別屬于不同的站點,那么形成這些網頁所使用的網頁模板是不同的,也就是說,同一站點下同一種頁面類型的網頁,其關鍵信息的內容以及關鍵信息在網頁中的位置信息是相同的(在某些情況下,同一站點下同一種頁面類型的網頁也會采用不同的網頁模板,例如新模板和舊模板),而不同站點下同一種頁面類型的網頁,其關鍵信息的內容以及關鍵信息在網頁中的位置信息必然是不同的。因此,如果希望準確地提取出關鍵信息,在確定了網頁的頁面類型后,還需要根據網頁所屬的站點對網頁進一步進行分類,將同一站點下同一種頁面類型的網頁劃分在一起,從而便于在后續(xù)的步驟中對網頁模板進行提取。在對同一種頁面類型的網頁進行劃分的時候,常用的一種方法是根據網頁的URL地址進行劃分,這是因為同一個站點下網頁的URL地址往往具有一定的規(guī)律性。以問答頁面為例說明,例如,“百度知道”網頁的URL地址中包括“http //zhidao. baidu. com/question/”,而 “S0S0 問問”網頁的 URL 地址中則包括“http//wenwen. soso. com/z/”,因此,通過網頁的URL地址可以準確地將同一頁面類型的網頁按照站點進行分類。接著,對同一站點下同一種頁面類型的網頁進行網頁模板的提取,即提取這些網頁中的任何一個網頁的網頁模板,作為這些網頁共同的網頁模板,其中,網頁模板的提取是本領域的技術人員所公知的技術,在此不再進行贅述。但是,由于在某些情況下,同一站點下同一種頁面類型的網頁有可能會采用不同的網頁模板,例如新模板和舊模板,那么在網頁模板提取前,優(yōu)選地,還需要對同一站點下同一種頁面類型的網頁是否采用的是相同的網頁模板進行判斷,從而可以有效地保證最終提取出的網頁模板能夠覆蓋到盡可能多的網頁。對同一站點下同一種頁面類型的網頁是否采用的是相同的網頁模板進行判斷的方法如下獲取同一站點下具有相同頁面類型的大量網頁,對網頁中的內容進行分析,提取出在網頁中出現(xiàn)頻率比較高的詞條(下文用高頻詞表示)及該高頻詞在網頁內的位置信息,例如該高頻詞的XPath路徑或者該高頻詞在網頁中的物理坐標,對于內容相同且位置信息也相同的高頻詞,則可以認為這些高頻詞所對應的網頁使用的是相同的網頁模板,那么提取這些網頁中的任何一個網頁的網頁模板即可。以“百度知道”為例,經過對大量“百度知道”網頁內容的分析,可以發(fā)現(xiàn)“最佳答案”、“懸賞分”、“解決時間”、“提問者”、“瀏覽次數”、“回答者”以及“其他回答”這些詞條在“百度知道”網頁中出現(xiàn)的頻率遠遠高于其他詞條出現(xiàn)的頻率,因此,認為上述詞條為“百度知道”網頁的高頻詞,然后獲取這些高頻詞在每個網頁中的XPath路徑,并對所有高頻詞的XPath路徑進行比較,如果比較的結果顯示同一高頻詞在所有網頁中的XPath路徑均相同,則認為所有的網頁均采用相同的網頁模板,那么提取這些網頁中的任何一個網頁的網頁模板,即可作為這些網頁共同的網頁模板;如果比較的結果顯示有同一個高頻詞具有兩個或者兩個以上XPath路徑,則認為這些網頁采用了兩個或者兩個以上網頁模板,那么需要分別進行提取。除了通過利用高頻詞對是否采用相同的網頁模板進行判斷之外,在其他實施例中,還可以提取同一站點下具有相同頁面類型的大量網頁中的一個或者幾個特型值,然后通過比較該一個或者幾個特型值在這些網頁中的位置信息是否相同來進行判斷。仍以“百度知道”為例進行說明,“百度知道”網頁中,問題解決的具體時間即為一個特型值,是其他頁面類型的網頁所不具備的,那么,對大量“百度知道”網頁中問題解決時間的XPath路徑進行抽取比較,如果這些XPath路徑相同,則認為這些網頁采用的是相同的網頁模板,否則可以認為這些網頁采用了多個網頁模板,其中,提取的特型值的數量越多,判斷越為準確。此外,如果是基于高頻詞來提取網頁模板的,則在網頁模板中對該高頻詞進行標注,如果是基于特型值來提取網頁模板的,則在網頁模板中對該特型值進行標注。步驟S403,基于所述頁面類型對每一種網頁模板下的網頁進行分析,確定可以反映該網頁特征的關鍵信息在網頁內的位置信息。具體地,對每一種網頁模板下的網頁進行分析,從其DOM樹中提取出這些網頁共同的節(jié)點信息,即,不發(fā)生變化的節(jié)點信息。仍以上述“百度知道”為例進行說明,經分析,文本節(jié)點“最佳答案”、“懸賞分”、“解決時間”、“提問者”、“瀏覽次數”、“回答者”以及“其他回答”即為“百度知道”網頁共同的節(jié)點信息。其中,每個文本節(jié)點都會對應相應的內容,例如,“解決時間”的內容為具體的日期,“瀏覽次數”的內容為具體的數值。由于提取出的節(jié)點信息是這些網頁所共有的,所以在這些節(jié)點信息所對應的內容中,必然包括了可以反映該網頁特征的關鍵信息。那么接下來,根據該網頁的頁面類型,從所述節(jié)點信息中獲取可以反映該網頁特征的關鍵信息在所述頁面中的位置信息。仍以上述“百度知道”為例進行說明,“百度知道”的頁面類型為問答頁面,對于問答頁面,用戶往往比較關注問題的具體解決時間、以及有多少答案可以供參考,所以,在眾多提取出來的文本節(jié)點中,“解決時間”所對應的具體內容以及“回答者”的個數才是真正可以反映“百度知道”網頁特征的關鍵信息,因此,從DOM樹中提取出“解決時間”以及“回答者”所對應內容的XPath路徑。上述DOM樹的節(jié)點信息分析以及關鍵信息XPath路徑的提取,均為本領域技術人員所公知的技術,在此不再贅述。步驟S404,記錄網頁模板、關鍵信息的位置信息、以及網頁模板與關鍵信息的位置信息之間的對應關系,建立網頁模板庫。具體地,對于不同的網頁模板,在關鍵信息的位置信息確定后,記錄所述網頁模板、所述位置信息及其之間的對應關系,形成網頁模板庫。優(yōu)選地,需要定期更新網頁模板庫,從而保證網頁模板庫中的網頁模板可以覆蓋到盡可能多的網頁。下面,基于上述網頁模板庫繼續(xù)對提取網頁關鍵信息的第二種方法進行說明,如圖3所示,首先執(zhí)行步驟S1021’,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板。具體地,對于搜索結果中的網頁,首先提取出該網頁的URL地址,通過該URL地址可以確定該網頁所屬的站點,并且可以初步確定該網頁所可能對應的網頁模板。每個網頁模板中會標注有高頻詞,提取該高頻詞及其位置信息,然后在該網頁中對該高頻詞及其位置信息進行匹配,如果該網頁中高頻詞及其位置信息與某一個網頁模板中的完全相同,那么認為二者匹配成功,即可以確認該網頁所采用的是哪個網頁模板。對于網頁中對特型值標注的情況,其處理過程相似,在此不再贅述。在其他實施例中,還可以根據所述網頁的URL地址,從關聯(lián)文件中獲取所述網頁URL地址與網頁模板之間的對應關系,其中,所述關聯(lián)文件是預先制定好的,其記錄了網頁URL地址和網頁模板之間的對應關系,例如,凡是包括“http://zhida0. baidu. com/question/”字樣的URL地址的網頁均是采用“百度知道”的網頁模板,那么如果搜索結果中網頁的 URL 地址為 “http://zhidao. baidu. com/question/121922729. html”,則認為該網頁采用的是網頁模板庫中“百度知道”的網頁模板。接著,執(zhí)行步驟S1022’,根據所述網頁模板,從所述網頁中提取出所述關鍵信息。具體地,在網頁模板庫中,存在與每個網頁模板相對應的關鍵信息的位置信息,所以,在確定了所述網頁采用的網頁模板后,從網頁模板庫中可以直接獲取到關鍵信息的位置信息,根據該位置信息,即可從所述網頁中提取出可以反映該網頁特征的關鍵信息。優(yōu)選地,在形成網頁模板庫的過程中,當已經將網頁模板和關鍵信息的位置信息進行對應之后,還可以根據所述網頁模板和所述位置信息,將該網頁模板下所有網頁中的關鍵信息預先提取出來。如果搜索結果中的網頁包括在網頁庫中,則可以直接獲得該網頁的關鍵信息,從而更加有效地提高用戶的搜索效率。優(yōu)選地,對于具有配置文件的網頁,除了根據配置文件中的信息提取出所述網頁的關鍵信息外,還可以利用上述提取關鍵信息的第二種方法來獲取其關鍵信息,并將兩種方法所獲得的關鍵信息進行合并,如此一來,可以更加準確地獲取到所述網頁的關鍵信息。繼續(xù)參考圖1,執(zhí)行步驟S103,將所述關鍵信息在搜索結果中進行顯示。具體地,在搜索結果中,除了和傳統(tǒng)顯示方式一樣,將所述網頁的標題、摘要信息以及URL地址進行顯示之外,還要將提取出的關鍵信息也展示給用戶,使得用戶可以通過參考該關鍵信息,對是否需要點擊查看該網頁做出判斷。請參考圖5,圖5為根據本發(fā)明一個優(yōu)選實施例的在所搜索結果中對所述關鍵信息進行展示的示意圖,如圖所示,用戶的查詢序列為“搜索引擎如何工作”,在搜索結果頁中,第一條搜索結果所返回的網頁是論壇頁面,其中黑色框中的內容即為該網頁的關鍵信息,該關鍵信息可以反映出“搜索引擎如何工作”這個主題在該網頁內受到關注的程度,對于第二條搜索結果亦是如此,第二搜索結果所返回的網頁是問答頁面,黑色框中的關鍵信息反映了“搜索引擎如何工作”這個問題的回答情況。這些關鍵信息有助于用戶對搜索結果的選擇。本領域的技術人員應該理解,關鍵信息顯示的位置、方式等可以有多種選擇,在此對其不做任何的限定。執(zhí)行上述步驟后,可以快速、有效地將網頁中可以反映該網頁特征的關鍵信息提取出來,并將該關鍵信息提供給用戶,便于用戶根據該關鍵信息準確判斷是否需要查看該網頁,從而提高了用戶的搜索效率,提升了用戶的使用體驗。相應地,本發(fā)明還提供了一種網頁信息提取的設備,請參考圖6,圖6為根據本發(fā)明一個優(yōu)選實施例的網頁信息提取的設備示意圖。如圖所示,該設備包括匹配搜索裝置601、信息提取裝置602以及結果展示裝置603,下面對上述裝置的具體工作過程進行說明。首先,所述匹配搜索裝置601獲取用戶在搜索引擎(如計算機搜索引擎或者手機搜索引擎)中輸入的查詢序列后,基于該查詢序列在互聯(lián)網的網頁內進行搜索,以獲取與所述查詢序列相匹配的網頁。接著,所述信息提取裝置602從所述網頁中提取出可以反映該網頁特征的關鍵信肩、ο具體地,互聯(lián)網站點在形成網頁的時候,網頁的開發(fā)者可以按照一定的規(guī)則在網頁內形成配置文件,將該網頁的關鍵信息的位置信息記錄在該配置文件中,其中,所述位置信息優(yōu)選為該關鍵信息在網頁內的XPath路徑。在本實施例中,所述配置文件為嵌入在所述網頁內的XML文件。對于具有配置文件的網頁,所述信息提取裝置602從所述網頁中獲取并解析其配置文件,提取出關鍵信息的位置信息,并根據所述關鍵信息的位置信息,從所述網頁中提取出所述關鍵信息。最后,如圖5所示,所述結果展示裝置603將所述網頁的標題、摘要信息、URL地址、以及提取出的關鍵信息展示給用戶,使得用戶可以通過參考該關鍵信息,對是否需要點擊查看該網頁做出判斷。本領域的技術人員應該理解,所述結果展示裝置603對關鍵信息顯示的位置、方式等可以有多種選擇,在此對其不做任何的限定。請參考圖7,圖7為根據本發(fā)明另一個優(yōu)選實施例的網頁信息提取的設備示意圖。如圖所示,該設備包括匹配搜索裝置601、信息提取裝置602、結果展示裝置603、模板匹配裝置604以及模板庫建立裝置605,下面對上述裝置的具體工作過程進行說明。
首先,所述匹配搜索裝置601獲取用戶在搜索引擎(如計算機搜索引擎或者手機搜索引擎)中輸入的查詢序列后,基于該查詢序列在互聯(lián)網的網頁內進行搜索,以獲取與所述查詢序列相匹配的網頁。接著,所述模板匹配裝置604在網頁模板庫70中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板,所述信息提取裝置602根據所述網頁模板,從所述網頁中提取出所述關鍵信息。在對所述模板匹配裝置604和信息提取裝置602的工作過程進行具體說明之前,首先對網頁模板庫70進行說明,其中,所述網頁模板庫70是由所述模板庫建立裝置605建立起來的,所述網頁模板庫70包括網頁模板、可以反映該網頁模板下網頁特征的關鍵信息的位置信息及其二者之間的對應關系。如圖8所示,所述模板庫建立裝置605包括類型確定單元6051、模板提取單元6052、網頁分析單元6053以及信息記錄單元6054,其中所述類型確定單元6051,用于確定網頁的頁面類型。具體地,基于對大量網頁的結構和/或主題的分析,所述類型確定單元6051將具有相似結構和/或主題的網頁劃分至同一頁面類型下,其中,所述頁面類型包括視頻頁面、圖片頁面、下載頁面、論壇頁面、博客頁面、新聞頁面、小說頁面、問答頁面、黃頁頁面或者商情頁面。所述模板提取單元6052,用于對于各網站下不同頁面類型的網頁,提取出相應的網頁模板。具體地,對于同一種頁面類型的網頁來說,盡管這些網頁的結構和/或主題是相似的,但是如果這些網頁是分別屬于不同的站點,那么形成這些網頁所使用的網頁模板是不同的,也就是說,同一站點下同一種頁面類型的網頁,其關鍵信息的內容以及關鍵信息在網頁中的位置信息是相同的(在某些情況下,同一站點下同一種頁面類型的網頁也會采用不同的網頁模板,例如新模板和舊模板),而不同站點下同一種頁面類型的網頁,其關鍵信息的內容以及關鍵信息在網頁中的位置信息必然是不同的。因此,如果希望準確地提取出關鍵信息,在所述類型確定單元6051確定了網頁的頁面類型后,所述模板提取單元6052還需要根據網頁所屬的站點對網頁進一步進行分類,將同一站點下同一種頁面類型的網頁劃分在一起,從而便于在后續(xù)的步驟中對網頁模板進行提取。在所述模板提取單元6052對同一種頁面類型的網頁進行劃分的時候,常用的一種方法是根據網頁的URL地址進行劃分,這是因為同一個站點下網頁的URL地址往往具有一定的規(guī)律性。以問答頁面為例說明,例如,“百度知道”網頁的URL地址中包括“http://zhidao. baidu. com/question/,,,而“S0S0 問問”網頁的 URL 地址中則包括“http://wenwen.soso. com/z/”,因此,通過網頁的URL地址,所述模板提取單元6052可以準確地將同一頁面類型的網頁按照站點進行分類。接著,所述模板提取單元6052對同一站點下同一種頁面類型的網頁進行網頁模板的提取,即提取這些網頁中的任何一個網頁的網頁模板,作為這些網頁共同的網頁模板,其中,網頁模板的提取是本領域的技術人員所公知的技術,在此不再進行贅述。但是,由于在某些情況下,同一站點下同一種頁面類型的網頁有可能會采用不同的網頁模板,例如新模板和舊模板,那么在網頁模板提取前,優(yōu)選地,所述模板提取單元6052還需要對同一站點下同一種頁面類型的網頁是否采用的是相同的網頁模板進行判斷,從而可以有效地保證最終提取出的網頁模板能夠覆蓋到盡可能多的網頁。所述模板提取單元6052對同一站點下同一種頁面類型的網頁是否采用的是相同的網頁模板進行判斷的方法如下所述模板提取單元6052獲取同一站點下具有相同頁面類型的大量網頁,對網頁中的內容進行分析,提取出在網頁中出現(xiàn)頻率比較高的詞條(下文用高頻詞表示)及該高頻詞在網頁內的位置信息,例如該高頻詞的XPath路徑或者該高頻詞在網頁中的物理坐標,對于內容相同且位置信息也相同的高頻詞,則所述模板提取單元6052認為這些高頻詞所對應的網頁使用的是相同的網頁模板,那么提取這些網頁中的任何一個網頁的網頁模板即可。以“百度知道”為例,經過對大量“百度知道”網頁內容的分析,可以發(fā)現(xiàn)“最佳答案”、“懸賞分”、“解決時間”、“提問者”、“瀏覽次數”、“回答者”以及“其他回答”這些詞條在“百度知道”網頁中出現(xiàn)的頻率遠遠高于其他詞條出現(xiàn)的頻率,因此,所述模板提取單元6052認為上述詞條為“百度知道”網頁的高頻詞,然后所述模板提取單元6052獲取這些高頻詞在每個網頁中的XPath路徑,并對所有高頻詞的XPath路徑進行比較,如果比較的結果顯示同一高頻詞在所有網頁中的XPath路徑均相同,則認為所有的網頁均采用相同的網頁模板,那么提取這些網頁中的任何一個網頁的網頁模板,即可作為這些網頁共同的網頁模板;如果比較的結果顯示有同一個高頻詞具有兩個或者兩個以上XPath路徑,則認為這些網頁采用了兩個或者兩個以上網頁模板,那么需要分別進行提取。除了通過利用高頻詞對是否采用相同的網頁模板進行判斷之外,在其他實施例中,所述模板提取單元6052還可以提取同一站點下具有相同頁面類型的大量網頁中的一個或者幾個特型值,然后通過比較該一個或者幾個特型值在這些網頁中的位置信息是否相同來進行判斷。仍以“百度知道”為例進行說明,“百度知道”網頁中,問題解決的具體時間即為一個特型值,是其他頁面類型的網頁所不具備的,那么,所述模板提取單元6052對大量“百度知道”網頁中問題解決時間的XPath路徑進行抽取比較,如果這些XPath路徑相同,則認為這些網頁采用的是相同的網頁模板,否則可以認為這些網頁采用了多個網頁模板,其中,提取的特型值的數量越多,判斷越為準確。此外,如果所述模板提取單元6052是基于高頻詞來提取網頁模板的,則在網頁模板中對該高頻詞進行標注,如果所述模板提取單元6052是基于特型值來提取網頁模板的,則在網頁模板中對該特型值進行標注。所述網頁分析單元6053,用于基于所述頁面類型對每一種網頁模板下的網頁進行分析,確定可以反映該網頁特征的關鍵信息在網頁內的位置信息。具體地,所述網頁分析單元6053對每一種網頁模板下的網頁進行分析,從其DOM樹中提取出這些網頁共同的節(jié)點信息,即,不發(fā)生變化的節(jié)點信息。仍以上述“百度知道”為例進行說明,經所述網頁分析單元6053分析,文本節(jié)點“最佳答案”、“懸賞分”、“解決時間”、“提問者”、“瀏覽次數”、“回答者”以及“其他回答”即為“百度知道”網頁共同的節(jié)點信息。其中,每個文本節(jié)點都會對應相應的內容,例如,“解決時間”的內容為具體的日期,“瀏覽次數”的內容為具體的數值。由于所述網頁分析單元6053提取出的節(jié)點信息是這些網頁所共有的,所以在這些節(jié)點信息所對應的內容中,必然包括了可以反映該網頁特征的關鍵信息。那么接下來,所述網頁分析單元6053根據該網頁的頁面類型,從所述節(jié)點信息中獲取可以反映該網頁特征的關鍵信息在所述頁面中的位置信息。仍以上述“百度知道”為例進行說明,“百度知道”的頁面類型為問答頁面,對于問答頁面,用戶往往比較關注問題的具體解決時間、以及有多少答案可以供參考,所以,在眾多提取出來的文本節(jié)點中,“解決時間”所對應的具體內容以及“回答者”的個數才是真正可以反映“百度知道”網頁特征的關鍵信息,因此,從DOM樹中提取出“解決時間”以及“回答者”所對應內容的XPath路徑。對于不同的網頁模板,在關鍵信息的位置信息確定后,所述信息記錄單元60M記錄所述網頁模板、所述位置信息及其之間的對應關系,形成網頁模板庫70。優(yōu)選地,所述模板庫建立裝置605需要定期更新網頁模板庫70,從而保證網頁模板庫70中的網頁模板可以覆蓋到盡可能多的網頁。下面,基于上述網頁模板庫70繼續(xù)對所述模板匹配裝置604和信息提取裝置602進行說明。所述模板匹配裝置604,在網頁模板庫70中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板。具體地,對于搜索結果中的網頁,所述模板匹配裝置604首先提取出該網頁的URL地址,通過該URL地址可以確定該網頁所屬的站點,并且可以初步確定該網頁所可能對應的網頁模板。每個網頁模板中會標注有高頻詞,所述模板匹配裝置604提取該高頻詞及其位置信息,然后在該網頁中對該高頻詞及其位置信息進行匹配,如果該網頁中高頻詞及其位置信息與某一個網頁模板中的完全相同,那么所述模板匹配裝置604認為二者匹配成功,即可以確認該網頁所采用的是哪個網頁模板。對于網頁中對特型值標注的情況,所述模板匹配裝置604的處理過程相似,在此不再贅述。在其他實施例中,所述模板匹配裝置604還可以根據所述網頁的URL地址,從關聯(lián)文件中獲取所述網頁URL地址與網頁模板之間的對應關系,其中,所述關聯(lián)文件是預先制定好的,其記錄了網頁URL地址和網頁模板之間的對應關系,例如,凡是包括“http://zhidao. baidu. com/question/”字樣的URL地址的網頁均是采用“百度知道”的網頁模板,那么如果搜索結果中網頁的URL地址為“http //zhidao. baidu. com/question/1219227^, html”,則認為該網頁采用的是網頁模板庫70中“百度知道”的網頁模板。接著,所述信息提取裝置602根據所述網頁模板,從所述網頁中提取出所述關鍵
fn息ο具體地,在網頁模板庫70中,存在與每個網頁模板相對應的關鍵信息的位置信息,所以,所述模板匹配裝置604在確定了所述網頁采用的網頁模板后,所述信息提取裝置602從網頁模板庫70中可以直接獲取到關鍵信息的位置信息,根據該位置信息,即可從所述網頁中提取出可以反映該網頁特征的關鍵信息。優(yōu)選地,所述模板庫建立裝置605在形成網頁模板庫70的過程中,當已經將網頁模板和關鍵信息的位置信息進行對應之后,還可以根據所述網頁模板和所述位置信息,將該網頁模板下所有網頁中的關鍵信息預先提取出來。如果所述匹配搜索裝置601所獲取的網頁包括在網頁庫中,所述信息提取裝置602則可以直接獲得該網頁的關鍵信息,從而更加有效地提高用戶的搜索效率。最后,如圖5所示,所述結果展示裝置603將所述網頁的標題、摘要信息、URL地址、以及提取出的關鍵信息展示給用戶,使得用戶可以通過參考該關鍵信息,對是否需要點擊查看該網頁做出判斷。本領域的技術人員應該理解,所述結果展示裝置603對關鍵信息顯示的位置、方式等可以有多種選擇,在此對其不做任何的限定。實施上述具體實施方式
,有效地解決了現(xiàn)有技術中出現(xiàn)的問題,可以快速、有效地將網頁中可以反映該網頁特征的關鍵信息提取出來,并將該關鍵信息提供給用戶,便于用戶根據該關鍵信息準確判斷是否需要查看該網頁,從而提高了用戶的搜索效率,提升了用戶的使用體驗。本發(fā)明提供的網頁信息提取的方法可以使用可編程邏輯器件結合來實現(xiàn),也可以實施為計算機程序軟件,例如根據本發(fā)明的實施例可以是一種計算機程序產品,運行該程序產品使計算機執(zhí)行用于所示范的方法。所述計算機程序產品包括計算機可讀存儲介質,該介質上包含計算機程序邏輯或代碼部分,用于實現(xiàn)所述網頁信息提取的方法。所述計算機可讀存儲介質可以是被安裝在計算機中的內置介質或者可從計算機主體拆卸的可移動介質(例如熱拔插技術存儲設)。所述內置介質包括但不限于可重寫的非易失性存儲器,例如RAM、ROM、快閃存儲器和硬盤。所述可移動介質包括但不限于光存儲媒體(例如CD-ROM和DVD)、磁光存儲媒體(例如M0)、磁存儲媒體(例如盒帶或移動硬盤)、具有內置的可重寫的非易失性存儲器的媒體(例如存儲卡)和具有內置ROM的媒體(例如ROM盒)。以上所揭露的僅為本發(fā)明的一種較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
權利要求
1.一種網頁信息提取的方法,該方法包括以下步驟根據用戶捜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁; 從所述網頁中提取出可以反映該網頁特征的關鍵信息; 將所述關鍵信息在捜索結果中進行顯示。
2.根據權利要求1所述的方法,其中,從所述網頁中提取出可以反映該網頁特征的關鍵信息的步驟包括獲取所述網頁的配置文件,該配置文件中包括可以反映該網頁特征的關鍵信息的位置信息;根據所述關鍵信息的位置信息,從所述網頁中提取出所述關鍵信息。
3.根據權利要求2所述的方法,其中,所述配置文件為嵌入在所述網頁內的XML文件。
4.根據權利要求1所述的方法,其中,從所述網頁中提取出可以反映該網頁特征的關鍵信息的步驟包括在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板; 根據所述網頁模板,從所述網頁中提取出所述關鍵信息。
5.根據權利要求4所述的方法,還包括 確定網頁的頁面類型;對于各網站下不同頁面類型的網頁,提取出相應的網頁模板; 基于所述頁面類型對每ー種網頁模板下的網頁進行分析,確定可以反映該網頁特征的關鍵信息在網頁內的位置信息;記錄網頁模板、關鍵信息的位置信息、以及網頁模板與關鍵信息的位置信息之間的對應關系,建立/更新網頁模板庫。
6.根據權利要求5所述的方法,其中,所述確定網頁的頁面類型的步驟包括對大量網頁的結構和/或主題進行分析,將具有相同結構和/或主題的網頁劃分為屬于同一頁面類型的網頁。
7.根據權利要求5所述的方法,其中,對于各網站下不同頁面類型的網頁,提取出相應的網頁模板的步驟包括對同一站點下具有相同頁面類型的大量網頁進行分析,提取出高頻詞及該高頻詞在網頁內的位置信息;基于所述高頻詞及該高頻詞在網頁內的位置信息均相同的網頁,形成所述網頁的網頁模板。
8.根據權利要求5所述的方法,其中,對于各網站下不同頁面類型的網頁,提取出相應的網頁模板的步驟包括對同一站點下具有相同頁面類型的大量網頁進行分析,提取出特型值在網頁內的位置信息;基于所述特型值在網頁內的信息位置均相同的網頁,形成所述網頁的網頁模板。
9.根據權利要求5所述的方法,其中,基于所述頁面類型對每ー種網頁模板下的網頁進行分析,確定可以反映該網頁特征的關鍵信息在網頁內的位置信息的步驟包括對每ー種網頁模板下的網頁進行分析,提取該網頁共同的節(jié)點信息; 根據該網頁的頁面類型,從所述節(jié)點信息中獲取可以反映該網頁特征的關鍵信息及該關鍵信息在所述頁面中的位置信息。
10.根據權利要求5至9中任一項所述的方法,其中所述頁面類型包括視頻頁面、圖片頁面、下載頁面、論壇頁面、博客頁面、新聞頁面、小說頁面、問答頁面、黃頁頁面或商情頁面中的ー種。
11.根據權利要求4至9中任一項所述的方法,其中,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板的步驟包括根據所述網頁的URL地址,從預置的關聯(lián)文件中獲取所述網頁URL與網頁模板之間的對應關系;根據所述對應關系,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板。
12.根據權利要求7所述的方法,其中,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板的步驟包括在所述網頁內,對網頁模板中的高頻詞及該高頻詞的位置信息進行匹配; 對于匹配成功的高頻詞及該高頻詞的位置信息,獲取與其相對應的網頁模板。
13.根據權利要求8所述的方法,其中,在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板的步驟包括在所述網頁內,對網頁模板中的特型值的位置信息進行匹配; 對于匹配成功的特型值的位置信息,獲取與其相對應的網頁模板。
14.一種網頁信息提取的設備,該設備包括匹配捜索裝置,用于根據用戶搜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁;信息提取裝置,用于從所述網頁中提取出可以反映該網頁特征的關鍵信息; 結果展示裝置,用于將所述關鍵信息在捜索結果中進行顯示。
15.根據權利要求14所述的設備,其中所述信息提取裝置從所述網頁的配置文件中獲取可以反映該網頁特征的關鍵信息的位置信息,并根據所述關鍵信息的位置信息,從所述網頁中提取出所述關鍵信息。
16.根據權利要求15所述的設備,其中,所述配置文件為嵌入在所述網頁內的XML文件。
17.根據權利要求14所述的設備,還包括模板匹配裝置,用于在網頁模板庫中對所述網頁進行匹配,獲取與所述網頁相對應的網頁模板,所述信息提取裝置根據所述網頁模板,從所述網頁中提取出所述關鍵信息。
18.根據權利要求17所述的設備,還包括模板庫建立裝置,用于建立/更新網頁模板庫,其中,所述網頁模板庫包括網頁模板、 可以反映該網頁模板下網頁特征的關鍵信息的位置信息及其二者之間的對應關系。
19.根據權利要求18所述的設備,其中,所述模板庫建立裝置包括 類型確定單元,用于確定網頁的頁面類型;模板提取単元,用于對于各網站下不同頁面類型的網頁,提取出相應的網頁模板; 網頁分析単元,用于基于所述頁面類型對每ー種網頁模板下的網頁進行分析,確定可以反映該網頁特征的關鍵信息及該關鍵信息在網頁內的位置信息;信息記錄單元,用于記錄網頁模板、關鍵信息的位置信息、以及網頁模板與關鍵信息的位置信息之間的對應關系。
20.根據權利要求19所述的設備,其中所述類型確定單元,對大量網頁的結構和/或主題進行分析,將具有相同結構和/或主題的網頁劃分為屬于同一頁面類型的網頁。
21.根據權利要求19所述的設備,其中所述模板提取單元,用于對同一站點下具有相同頁面類型的大量網頁進行分析,提取出高頻詞及該高頻詞在網頁內的位置信息,并基于所述高頻詞及該高頻詞在網頁內的位置信息均相同的網頁,形成所述網頁的網頁模板。
22.根據權利要求19所述的設備,其中所述模板提取單元,用于對同一站點下具有相同頁面類型的大量網頁進行分析,提取出特型值在網頁內的位置信息,并基于所述特型值在網頁內的信息位置均相同的網頁,形成所述網頁的網頁模板。
23.根據權利要求19所述的設備,其中所述網頁分析単元,用于對每一種網頁模板下的網頁進行分析,提取該網頁共同的節(jié)點信息,并根據該網頁的頁面類型,從所述節(jié)點信息中獲取可以反映該網頁特征的關鍵信息及該關鍵信息在所述頁面中的位置信息。
24.根據權利要求19至23所述的設備,其中所述頁面類型包括視頻頁面、圖片頁面、下載頁面、論壇頁面、博客頁面、新聞頁面、小說頁面、問答頁面、黃頁頁面或商情頁面中的ー種。
25.根據權利要求17至23所述的設備,其中所述模板匹配裝置根據所述網頁的URL地址,從預置的關聯(lián)文件中獲取所述網頁URL 與網頁模板之間的對應關系,井根據所述對應關系,在網頁模板庫中對所述網頁進行匹配, 獲取與所述網頁相對應的網頁模板。
26.根據權利要求21所述的設備,其中所述模板匹配裝置,在所述網頁內對網頁模板中的高頻詞及該高頻詞的位置信息進行匹配,并對于匹配成功的高頻詞及該高頻詞的位置信息,獲取與其相對應的網頁模板。
27.根據權利要求22所述的設備,其中所述模板匹配裝置,在所述網頁內對網頁模板中的特型值的位置信息進行匹配,并對于匹配成功的特型值的位置信息,獲取與其相對應的網頁模板。
全文摘要
本發(fā)明提供一種網頁信息提取的方法,該方法包括根據用戶搜索時輸入的查詢序列進行搜索,獲取與所述查詢序列相匹配的網頁;從所述網頁中提取出可以反映該網頁特征的關鍵信息;將所述關鍵信息在搜索結果中進行顯示。相應地,還提供了一種網頁信息提取的設備。本發(fā)明的優(yōu)點是,可以快速、準確地將網頁中可以反映該網頁特征的關鍵信息提取出來,并提供給用戶,便于用戶根據該關鍵信息快速判斷是否需要查看該網頁,從而有效地提高了用戶的搜索效率,提升了用戶的使用體驗。
文檔編號G06F17/30GK102591971SQ20111046059
公開日2012年7月18日 申請日期2011年12月31日 優(yōu)先權日2011年12月31日
發(fā)明者榮蓉, 陳亮 申請人:北京百度網訊科技有限公司