專利名稱:一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息的提供,特別是涉及一種顯示與網(wǎng)頁內(nèi)容相關(guān)的信息 的方法及系統(tǒng)。
技術(shù)背景近年來網(wǎng)絡(luò)技術(shù)的發(fā)展日益迅速,網(wǎng)絡(luò)應(yīng)用的領(lǐng)域也越來越廣泛,許多公 司、企事業(yè)單位、團體組織或個人等都建有自己的網(wǎng)站,通過在網(wǎng)上發(fā)布信息, 進行互聯(lián)網(wǎng)范圍內(nèi)的信息展示與交流。根據(jù)不同應(yīng)用需求,網(wǎng)站能夠在用戶訪 問某個網(wǎng)頁時提供與該網(wǎng)頁內(nèi)容相關(guān)的信息,稱為網(wǎng)頁相關(guān)信息,用于補充網(wǎng) 頁內(nèi)容或增強網(wǎng)頁的豐富性等。例如,在打開某網(wǎng)頁時顯示的通知窗口,或者 與網(wǎng)頁內(nèi)容相關(guān)的提示信息,等等。通常,與網(wǎng)頁內(nèi)容相關(guān)的信息的獲取方式是對網(wǎng)頁進行動態(tài)抓取,然后 進行內(nèi)容提取、分析,可采用多種分析方法,從該網(wǎng)頁內(nèi)容中提取出核心信息, 再根據(jù)所述核心信息在數(shù)據(jù)庫中搜索到相匹配的相關(guān)信息,傳送至瀏覽器顯示 出來。目前的這種實現(xiàn)方式,由于對網(wǎng)頁的分析需要較復(fù)雜的緩慢計算過程, 導(dǎo)致網(wǎng)頁在未抓取處理完成前,瀏覽器不能及時顯示相關(guān)信息;由于所述分析 過程帶來一定的計算誤差,并且對網(wǎng)頁內(nèi)容的分析與網(wǎng)站頁面的格式有關(guān),不 同的網(wǎng)站造成不同的分析錯誤率;而且,處理大量的網(wǎng)頁抓取請求,對網(wǎng)頁擁 有者的網(wǎng)站造成服務(wù)器處理壓力,還需要大容量的網(wǎng)絡(luò)帶寬作為抓取處理的硬 件基礎(chǔ)。廣告作為一種信息載體也應(yīng)用到網(wǎng)絡(luò)中,在打開網(wǎng)頁后,以多種形式顯示 出來。為了提高廣告投放效果,需要顯示與網(wǎng)頁內(nèi)容相關(guān)的廣告信息。通常, 首先顯示網(wǎng)站默認設(shè)置的廣告或者不顯示任何廣告,當獲取與網(wǎng)頁內(nèi)容相關(guān)的 廣告后才顯示出來。廣告作為上述網(wǎng)頁相關(guān)信息的一種具體應(yīng)用,同樣存在上 述問題目前基于網(wǎng)頁內(nèi)容的廣告投放方式,在用戶打開網(wǎng)頁到顯示出與該網(wǎng) 頁內(nèi)容相關(guān)的廣告,需要一段復(fù)雜的分析處理過程,導(dǎo)致用戶在瀏覽網(wǎng)頁時不 能及時顯示相關(guān)廣告;由于網(wǎng)頁的分析過程產(chǎn)生誤差,影響了所獲取廣告與該 網(wǎng)頁的相關(guān)性;而且,大量的抓取請求,給服務(wù)器帶來一定壓力,還需要大容 量的網(wǎng)絡(luò)帶寬支持
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種顯示與網(wǎng)頁內(nèi)容相關(guān)的信息的方 法及系統(tǒng),以解決獲取與網(wǎng)頁內(nèi)容相關(guān)信息通過抓取、分析網(wǎng)頁方式造成的處 理過程緩慢、分析誤差帶來的相關(guān)性問題及給服務(wù)器造成的抓取壓力問題。為解決上述技術(shù)問題,本發(fā)明提供了一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的方法,包括獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否來自搜索引擎,若是則提取所述來源信息中 的搜索詞;否則分析網(wǎng)頁,提取網(wǎng)頁核心信息;獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。其中,執(zhí)行以下判斷步驟預(yù)存儲多個搜索引擎的域名信息;比較所述網(wǎng) 頁來源信息中的域名信息是否與所述搜索引擎的域名信息符合,若存在符合 的,則來自于對應(yīng)的搜索引擎;否則,來自其他網(wǎng)頁。其中,所述搜索引擎包括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜 索引擎。其中,執(zhí)行以下步驟獲取相關(guān)信息所述相關(guān)信息按照網(wǎng)頁內(nèi)容分類,查找與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的類別。優(yōu)選的,還包括預(yù)設(shè)置所述相關(guān)信息的控制信息。還包括對應(yīng)所述控制信息,將獲取的部分相關(guān)信息顯示。本發(fā)明還提供了 一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的系統(tǒng),包括分析單元,用于獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否來自搜索引擎,若是則提取所述來源信息中的搜索詞;否則分析網(wǎng)頁,提取網(wǎng)頁核心信息;獲取單元,用于獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息; 第 一存儲單元,用于存儲與搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。 還包括第二存儲單元,用于存儲多個搜索引擎的域名信息。 其中,所述分析單元還包括判斷單元,用于比較所述網(wǎng)頁來源信息中的域名信息是否與所述搜索引擎的域名信息符合,若存在符合的,則來自于對應(yīng)的搜索引擎;否則,來自其他網(wǎng)頁。
其中,所述獲取單元還包括查找單元,所迷相關(guān)信息按照網(wǎng)頁內(nèi)容分類,用于查找與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的類別。還包括編輯單元,用千預(yù)設(shè)置所述相關(guān)信息的控制信息。還包括顯示單元,用于對應(yīng)所述控制信息,將獲取的部分相關(guān)信息顯示。其中,所述搜索引擎包括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜索引擎。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明直接分析網(wǎng)頁來源(Ref erer ),若來自網(wǎng)頁搜索引擎或網(wǎng)頁擁有者 網(wǎng)站內(nèi)部的搜索引擎,則Referer中記錄了用戶在所述搜索引擎輸入的搜索詞 信息,直接提取搜索詞,再根據(jù)所述搜索詞獲取網(wǎng)頁相關(guān)信息顯示出來;若來 自其他網(wǎng)頁,則按照網(wǎng)頁分析方式獲取網(wǎng)頁的核心信息,根據(jù)所述核心信息獲 取網(wǎng)頁相關(guān)信息。首先,對于來自搜索引擎網(wǎng)站或網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎網(wǎng)頁,由 于從Referer中提取搜索詞不需要任何計算過程,極大地提高了分析速度,保 證了網(wǎng)頁相關(guān)信息的顯示及時性。其次,根據(jù)網(wǎng)頁來源獲取的搜索詞信息是由用戶直接輸入,比具有一定分 析誤差的網(wǎng)頁分析結(jié)果得到的網(wǎng)頁核心信息更準確,由搜索詞獲取的網(wǎng)頁相關(guān) 信息與網(wǎng)頁內(nèi)容的相關(guān)性更高,因此本發(fā)明提高了網(wǎng)頁相關(guān)信息的獲取準確性 和高效性。再次,在網(wǎng)站服務(wù)器獲取與網(wǎng)頁內(nèi)容相關(guān)信息的處理過程中,針對來自搜 索引擎的網(wǎng)頁來源,不需復(fù)雜緩慢的網(wǎng)頁抓取、分析過程,因此能夠緩解整個 處理過程中服務(wù)器的抓取壓力。對于網(wǎng)頁相關(guān)信息的具體應(yīng)用網(wǎng)絡(luò)廣告的顯示,本發(fā)明通過分析網(wǎng)頁來 源,提高了網(wǎng)頁相關(guān)廣告的顯示速度,以及顯示的相關(guān)性和高效性。
圖1是本發(fā)明所述顯示與網(wǎng)頁內(nèi)容相關(guān)的信息的步驟流程圖; 圖2是本發(fā)明實施例顯示與網(wǎng)頁內(nèi)容相關(guān)的廣告的步驟流程圖; 圖3是本發(fā)明所述顯示與網(wǎng)頁內(nèi)容相關(guān)的信息的系統(tǒng)結(jié)構(gòu)框圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。本發(fā)明的核心思想是通過直接分析網(wǎng)頁來源(Referer),若來自網(wǎng)頁搜 索引擎或網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎,則Referer中記錄了用戶在所述搜 索引擎輸入的搜索詞信息,直接提取搜索詞,再根據(jù)所述搜索詞獲取網(wǎng)頁相關(guān) 信息顯示出來;若來自其他網(wǎng)站,則按照網(wǎng)頁分析方式獲取網(wǎng)頁的核心信息, 根據(jù)所述核心信息獲取網(wǎng)頁相關(guān)信息。參照圖1,是本發(fā)明所述顯示與網(wǎng)頁內(nèi)容相關(guān)的信息的步驟流程圖。步驟101,預(yù)設(shè)置相關(guān)信息的控制參數(shù)。在網(wǎng)頁腳本代碼中嵌入一段 Javascript代碼,用于控制與網(wǎng)頁內(nèi)容相關(guān)信息的顯示,如顯示位置、顯示 個數(shù)、顯示方式等信息。當用戶在瀏覽器窗口打開某網(wǎng)頁時,根據(jù)所述控制參 數(shù),在網(wǎng)頁上顯示出與該網(wǎng)頁內(nèi)容相關(guān)的信息,如通知、提示、圖片等。本步 驟是本發(fā)明的優(yōu)選步驟,通過預(yù)設(shè)置參數(shù)來優(yōu)化相關(guān)信息的顯示,當然也可以 按照固定模式顯示與網(wǎng)頁內(nèi)容相關(guān)的信息。步驟102,獲取網(wǎng)頁來源(Referer )。所述Referer表示某網(wǎng)頁的點擊來 源,可以根據(jù)網(wǎng)頁的點擊來源得知用戶是從何處來到該網(wǎng)頁。例如,如果在網(wǎng) 頁a中存在一個鏈接b,用戶點擊b來到網(wǎng)頁b后,b的Referer就是a。Referer 是用于網(wǎng)絡(luò)通信鏈接的協(xié)議(如超文本傳輸協(xié)議(HTTP)、遠程登錄協(xié)議 (Telnet)等)請求頭(request-header )的參考字段,記錄了來源統(tǒng)一資源 定位符(URL)。所述URL也被稱為網(wǎng)頁地址,是用在萬維網(wǎng)和其他互聯(lián)網(wǎng)資源 中的一種編址系統(tǒng),用于指定信息位置,包含訪問方式的信息(協(xié)議類型)、 被訪問的服務(wù)器(域名信息)以及任何被訪問的文件(訪問路徑)。因此,b 的Referer中就記錄了 a的URL。當用戶訪問某網(wǎng)頁時,在Web瀏覽器輸入該網(wǎng)頁的地址或點擊該網(wǎng)頁的鏈 接,瀏覽器向要訪問的網(wǎng)頁的Web服務(wù)器發(fā)送請求。該網(wǎng)頁擁有者的Web服務(wù) 器收到鏈"l妻請求后,分析該請求的請求頭文件(request-header files),從 請求頭文件的請求頭(request-header )中提取出Referer字段。步驟103,分析Referer。判斷Referer是否來自搜索引擎,若是,繼續(xù) 步驟104;否則,執(zhí)行步驟105。任何網(wǎng)站的URL都不是隨意設(shè)置的,很多網(wǎng) 頁的URL鏈接和該網(wǎng)頁的內(nèi)容有著密切的相關(guān)。對于來自搜索引擎的URL,記 錄了用戶在搜索引擎中輸入的搜索詞,這是搜索引擎的網(wǎng)站擁有者設(shè)置的,因 此不閭的搜索引擎,Referer中記錄搜索詞的位置也不相閭。由子搜索詞是由 用戶直接輸入,因此所述搜索詞與通過搜索引擎鏈接到的網(wǎng)頁內(nèi)容更相近,比 具有一定分析誤差的網(wǎng)頁分析結(jié)果得到的網(wǎng)頁核心信息更準確。從而,由搜索 詞獲取的網(wǎng)頁相關(guān)信息與網(wǎng)頁內(nèi)容的相關(guān)性更高,本發(fā)明提高了網(wǎng)頁相關(guān)信息 的獲取準確性和高效性。所述搜索引擎包括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜索引 擎。網(wǎng)頁擁有者的網(wǎng)站系統(tǒng)預(yù)先存儲多個搜索引擎的鏈接特征,所述鏈接特征 主要指搜索引擎網(wǎng)站URL的域名信息,所述域名用于標識網(wǎng)站的名稱,通過域 名信息即可直接識別是否來自搜索引擎。將Referer中URL的域名信息與網(wǎng)頁 擁有者的網(wǎng)站系統(tǒng)預(yù)先存儲的多個搜索引擎網(wǎng)站的域名信息相比較,若存在符 合的,則所述Referer來自搜索引擎,可以直接從Referer中獲取搜索詞;否則來自除搜索引擎網(wǎng)站外的其他網(wǎng)頁。步驟104,獲取與搜索詞相關(guān)的信息。在網(wǎng)頁擁有者的網(wǎng)站顯示的所有相 關(guān)信息,按照網(wǎng)頁內(nèi)容分類,每一類對應(yīng)的關(guān)鍵詞最大程度代表了該類內(nèi)容。 若某網(wǎng)頁Referer來自搜索引擎,則將Referer中的搜索詞與相關(guān)信息各個類 的關(guān)鍵詞進行比較,選擇最為匹配的一類相關(guān)信息,作為與該網(wǎng)頁內(nèi)容最相關(guān) 的信息。步驟105,分析網(wǎng)頁,獲取網(wǎng)頁相關(guān)信息。若網(wǎng)頁Referer不是來自搜索 引擎,則需要對網(wǎng)頁進行分析,可以采用多種分析方法,提取出網(wǎng)頁的核心信 息。然后將所述核心信息與相關(guān)信息各個類的關(guān)鍵詞進行比較,選擇最為匹配 的一類相關(guān)信息,作為與該網(wǎng)頁內(nèi)容最相關(guān)的信息。步驟106,顯示相關(guān)信息。選定一類相關(guān)信息后,才艮據(jù)預(yù)先設(shè)置的所述控 制參數(shù),在打開的網(wǎng)頁上顯示出與該網(wǎng)頁內(nèi)容對應(yīng)的相關(guān)信息。優(yōu)選的,當存 在多個與網(wǎng)頁內(nèi)容相關(guān)的信息時,可以設(shè)置顯示個數(shù),每次在訪問該網(wǎng)頁時, 隨機從對應(yīng)類中顯示出部分相關(guān)信息,或者按照時間段顯示部分相關(guān)信息。所 述優(yōu)選方法優(yōu)化了相關(guān)信息的顯示,可以根據(jù)用戶或系統(tǒng)的具體需要設(shè)置,保 證相關(guān)信息數(shù)據(jù)顯示的及時更新。
本發(fā)明中,對于來自搜索引擎網(wǎng)站或網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎網(wǎng)頁,由于從Referer中提取搜索詞不需要任何計算過程,極大地提高了分析速 度,保證了網(wǎng)頁相關(guān)信息的顯示及時性。而且,在網(wǎng)站服務(wù)器獲取與網(wǎng)頁內(nèi)容 相關(guān)信息的處理過程中,針對來自搜索引擎的網(wǎng)頁來源,不需復(fù)雜緩慢的網(wǎng)頁 抓取、分析過程,因此能夠緩解整個處理過程中服務(wù)器的抓取壓力。在具體應(yīng)用中,最常見的與網(wǎng)頁內(nèi)容相關(guān)的信息即為網(wǎng)絡(luò)廣告。隨著越來 越多的廣告商在網(wǎng)絡(luò)上投放廣告,廣告顯示的及時性和與網(wǎng)頁內(nèi)容的相關(guān)性越 來越重要,本發(fā)明所述方法能夠快速顯示出與網(wǎng)頁內(nèi)容相關(guān)性高的廣告。參照 圖2,是本發(fā)明實施例顯示與網(wǎng)頁內(nèi)容相關(guān)的廣告的步驟流程圖。步驟201,投放廣告代碼。網(wǎng)頁擁有者在網(wǎng)頁腳本代碼中投放廣告代碼, 所述廣告代碼中設(shè)置了廣告顯示的控制參數(shù),用于控制廣告在頁面的顯示位 置、顯示個數(shù)(每次顯示幾個)、顯示方式(如彈出式、橫幅式、按鈕式等等)、 顯示順序(多個廣告)、有效期等。步驟202,用戶瀏覽。當用戶在瀏覽器窗口輸入網(wǎng)址或點擊鏈接后,對網(wǎng) 頁進行訪問。投放廣告代碼的網(wǎng)頁,在未獲取與網(wǎng)頁內(nèi)容相關(guān)的廣告前,通常 先自動播放預(yù)設(shè)置默認廣告,或者不播放任何廣告。步驟203,分析Referer。網(wǎng)站服務(wù)器收到用戶瀏覽器發(fā)來的鏈接請求, 首先提取Referer,通過分析Referer中的URL,判斷所述網(wǎng)頁是否由搜索引 擎鏈接而來。所述搜索引擎包括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的 搜索引擎。系統(tǒng)提供一系列常見的搜索引擎的域名信息,查找是否存在與 Referer中URL的域名信息相符合的域名,若存在,則直接提取Referer中的搜索詞作為用戶主題詞,優(yōu)先顯示與此搜索詞相關(guān)的廣告。這樣,系統(tǒng)沒有必 要等待對網(wǎng)頁進行抓取、分析的緩慢過程,認為搜索詞就可以代表該網(wǎng)頁的主 題,相關(guān)性與顯示速度均得到極大的提高。若不存在與Referer中URL的域名 信息相符合的域名,則所述Referer來自其他網(wǎng)頁,執(zhí)行步驟206,進行網(wǎng)頁 分析。步驟204,將搜索詞作為主題詞,獲取相關(guān)廣告。各個廣告商在網(wǎng)頁擁有 者的網(wǎng)站投放的廣告,按照網(wǎng)頁內(nèi)容進行分類,并為每類廣告賦予一個關(guān)鍵詞, 如新聞類、美容類、汽車類、商品類廣告等。若某網(wǎng)頁Referer來自搜索引擎, 則將Referer中的搜索詞與廣告數(shù)據(jù)庫中的關(guān)鍵詞進行比較,逸擇最為匹配的 一類廣告,為用戶更快速地提供更加貼切的廣告內(nèi)容。以搜索詞作為主題是最為簡潔的獲取主題詞的方法,而且所述搜索詞是用 戶直接輸入,才艮據(jù)搜索詞得到的廣告一定比網(wǎng)頁分析結(jié)果得到的廣告更加與用 戶相關(guān),大大提高了廣告顯示的相關(guān)性和高效性。步驟205,顯示廣告。根據(jù)所述廣告代碼中設(shè)置的控制參數(shù),在頁面的適 當位置或者動態(tài)顯示與該網(wǎng)頁內(nèi)容相關(guān)的廣告。通常,為了給用戶提供內(nèi)容豐 富的廣告信息,每次隨機或者按照時間段顯示預(yù)定個數(shù)的廣告。步驟206,按照傳統(tǒng)網(wǎng)頁上下文廣告提取方式顯示廣告。若網(wǎng)頁Referer 不是來自搜索引擎,則需要運用現(xiàn)有技術(shù)的抓取工具抓取網(wǎng)頁后,通常按照上 下文分析技術(shù)對網(wǎng)頁進行分析。所述上下文廣告是一種基于網(wǎng)頁內(nèi)容由自動程 序輸出的匹配廣告,上下文廣告以針對特定頁面的內(nèi)容為原則進行投放,因此 更具有相關(guān)性和目標性。例如, 一個介紹如何獲取銀行貨款的網(wǎng)頁上就會投放 銀行貨款或個人貨款廣告。所述上下文分析技術(shù)是一種語義分析技術(shù),由程序 自動分析網(wǎng)頁中的文本內(nèi)容,并與廣告商投放的廣告關(guān)鍵詞相對照,通過確定 文本內(nèi)容以及上下文語義環(huán)境與關(guān)鍵詞的相關(guān)性,將廣告自動投放到與之內(nèi)容 相關(guān)的文章周圍,從而達到"有的放矢"的廣告投放效果。當然,也可以按照其他主題詞分析方法,對網(wǎng)頁進行全面分析來獲取網(wǎng)頁 的主題詞。其中,不同的網(wǎng)站,采用不同的分詞方法來計算提取網(wǎng)頁主題詞。 然后將所述主題詞與廣告關(guān)鍵詞進行比較,選擇最為匹配的一類廣告,為用戶 更快速地提供更加貼切的廣告內(nèi)容。為實現(xiàn)本發(fā)明所述的相關(guān)信息顯示方法,本發(fā)明還提供了一種顯示網(wǎng)頁內(nèi) 容相關(guān)信息的系統(tǒng)。參照圖3,是本發(fā)明所述顯示與網(wǎng)頁內(nèi)容相關(guān)的信息的系 統(tǒng)結(jié)構(gòu)框圖。所述系統(tǒng)包括第一存儲單元301,第二存儲單元302,編輯單 元303,分析單元304,判斷單元305,獲取單元306,查找單元30"7,顯示單 元308。其中,第一存儲單元301,用于存儲與搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。 在網(wǎng)頁擁有者的網(wǎng)站顯示的所有相關(guān)信息,按照網(wǎng)頁內(nèi)容分類。在實施例中, 廣告商投放的廣告關(guān)鍵詞與所述搜索詞或網(wǎng)頁核心信息相對應(yīng)。
第二存儲單元302,用于存儲多個搜索引擎的域名信息。所述搜索引擎包括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜索引擎。所述域名用于標識 網(wǎng)站的名稱,通過域名信息即可直接識別是否來自搜索引擎。編輯單元303,用于預(yù)設(shè)置所述相關(guān)信息的控制信息。所述控制信息為嵌 入在網(wǎng)頁腳本代碼中的一段Javascript代碼,用于控制與網(wǎng)頁內(nèi)容相關(guān)信息 的顯示,如顯示位置、顯示個數(shù)、顯示方式等信息。分析單元304,用于獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否 來自搜索引擎,若是則提取所述來源信息中的搜索詞;否則分析網(wǎng)頁,提取網(wǎng) 頁核心信息。所述分析單元還包括判斷單元305,用于比較所述網(wǎng)頁來源信 息中的域名信息是否與所述搜索引擎的域名信息符合,若存在符合的,則來自 于對應(yīng)的搜索引擎;否則,來自其他網(wǎng)頁。所述分析單元304從鏈接請求中提取出Referer字段,判斷單元305根據(jù) 第二存儲單元302存儲的多個搜索引擎的域名信息,判斷所述Referer是否來 自搜索引擎。將Referer中URL的域名信息與多個搜索引擎網(wǎng)站的域名信息相 比較,若存在符合的,則所述Referer來自搜索引擎,可以直接從Referer 中獲取搜索詞;否則來自除搜索引擎網(wǎng)站外的其他網(wǎng)頁。獲取單元306,用于獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。所述獲取單元還包括查找單元307,所述相關(guān)信息按照網(wǎng)頁內(nèi)容分類,用于查找與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的類別。若某網(wǎng)頁Referer來自搜索引擎,則將Referer中的搜索詞與第一存儲單元301存儲的相關(guān)信息各個類的關(guān)鍵詞進行比較,選擇最為匹配的一類相關(guān)信息,作為與該網(wǎng)頁內(nèi)容最相關(guān)的信 自顯示單元308,用于對應(yīng)所述控制信息,將獲取的部分相關(guān)信息顯示。根 據(jù)編輯單元303預(yù)先設(shè)置的控制信息,每次在訪問網(wǎng)頁時,隨機從對應(yīng)類中顯 示出部分相關(guān)信息,或者按照時間段顯示部分相關(guān)信息。在上述系統(tǒng)中,網(wǎng)絡(luò)廣告作為所述相關(guān)信息的一種應(yīng)用,本發(fā)明所述實施 例中與網(wǎng)頁內(nèi)容相關(guān)廣告的顯示方法也是由上述系統(tǒng)實現(xiàn)的。以上對本發(fā)明所提供的 一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的方法及系統(tǒng),進行了
上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本 領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會 有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的方法,其特征在于,包括獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否來自搜索引擎,若是則提取所述來源信息中的搜索詞;否則分析網(wǎng)頁,提取網(wǎng)頁核心信息;獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。
2、 根據(jù)權(quán)利要求l所述的方法,其特征在于,執(zhí)行以下判斷步驟 預(yù)存儲多個搜索引擎的域名信息;比較所述網(wǎng)頁來源信息中的域名信息是否與所述搜索引擎的域名信息符 合,若存在符合的,則來自于對應(yīng)的搜索引擎;否則,來自其他網(wǎng)頁。
3、 根據(jù)權(quán)利要求1或2所述的方法,其特征在于所述搜索引擎包括網(wǎng) 頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜索引擎。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,執(zhí)行以下步驟獲取相關(guān)信 息所述相關(guān)信息按照網(wǎng)頁內(nèi)容分類,查找與所述搜索詞或網(wǎng)頁核心信息對應(yīng) 的類別。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括預(yù)設(shè)置所述相關(guān) 信息的控制信息。
6、 根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括對應(yīng)所述控制信 息,將獲取的部分相關(guān)信息顯示。
7、 一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的系統(tǒng),其特征在于,包括 分析單元,用于獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否來自搜索引擎,若是則提取所述來源信息中的搜索詞;否則分析網(wǎng)頁,提取網(wǎng)頁核 心信息;獲取單元,用于獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息; 第 一存儲單元,用于存儲與搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。
8、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括第二存儲單元,用于存儲多個搜索引擎的域名信息。
9、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述分析單元還包括判 斷單元,用于比較所述網(wǎng)頁來源信息中的域名信息是否與所述搜索引擎的域名 信息符合,若存在符合的,則來自于對應(yīng)的搜索引擎;否則,來自其他網(wǎng)頁。
10、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述獲取單元還包括查 找單元,所述相關(guān)信息按照網(wǎng)頁內(nèi)容分類,用于查找與所迷搜索詞或網(wǎng)頁核心 信息對應(yīng)的類別。
11、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括編輯單元,用于 預(yù)設(shè)置所述相關(guān)信息的控制信息。
12、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括顯示單元,用于 對應(yīng)所述控制信息,將獲取的部分相關(guān)信息顯示。
13、 根據(jù)權(quán)利要求7、 8或9所述的系統(tǒng),其特征在于所述搜索引擎包 括網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎和其他網(wǎng)站的搜索引擎。
全文摘要
本發(fā)明公開了一種顯示網(wǎng)頁內(nèi)容相關(guān)信息的方法及系統(tǒng),涉及網(wǎng)絡(luò)信息的提供,解決獲取網(wǎng)頁內(nèi)容相關(guān)信息通過抓取、分析網(wǎng)頁方式造成的處理過程緩慢、分析誤差帶來的相關(guān)性問題及給服務(wù)器造成的抓取壓力問題。所述方法包括獲取網(wǎng)頁的來源信息;分析所述來源信息,判斷是否來自搜索引擎,若是則提取所述來源信息中的搜索詞;否則分析網(wǎng)頁,提取網(wǎng)頁核心信息;獲取與所述搜索詞或網(wǎng)頁核心信息對應(yīng)的相關(guān)信息。對于來自搜索引擎網(wǎng)站或網(wǎng)頁擁有者網(wǎng)站內(nèi)部的搜索引擎網(wǎng)頁,本發(fā)明提高了網(wǎng)頁相關(guān)信息的顯示及時性及獲取準確性和高效性,緩解了整個處理過程中服務(wù)器的抓取壓力。
文檔編號G06F17/30GK101114284SQ200610099110
公開日2008年1月30日 申請日期2006年7月27日 優(yōu)先權(quán)日2006年7月27日
發(fā)明者峰 史, 堅 梅, 陶偉華 申請人:阿里巴巴公司