亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

電子文檔的搜索方法及系統(tǒng)的制作方法

文檔序號:6482099閱讀:208來源:國知局
專利名稱:電子文檔的搜索方法及系統(tǒng)的制作方法
電子文檔的搜索方法及系統(tǒng)
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),特別是涉及一種電子文檔的搜索方法及系統(tǒng)。背景技術(shù)
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展極大的提高了人們獲取信息的便利性。計(jì)算機(jī)網(wǎng)絡(luò) 中存儲(chǔ)了海量的信息,為了便于人們查找到自己所需的信息,搜索引擎被廣泛 使用。人們通過輸入關(guān)鍵詞,即可找到包含該關(guān)鍵詞的網(wǎng)頁。
搜索引擎的工作過程大致可以分為如下三個(gè)步驟
抓取網(wǎng)頁每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider,稱為網(wǎng) 絡(luò)蜘蛛)。網(wǎng)頁抓取程序順著網(wǎng)頁中的超鏈接,連續(xù)地4爪耳又網(wǎng)頁。 一皮抓耳又的網(wǎng)頁 被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,若網(wǎng)頁上有 適當(dāng)?shù)某夋溄樱瑥囊欢ǚ秶木W(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
整理信息搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢 索服務(wù)。搜索引擎整理信息的過程稱為"建立索引"。搜索引擎不僅要保存搜集 起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用 重新翻查它所有保存的信息而迅速找到所要的資料。
提供檢索服務(wù)用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到 匹配該關(guān)鍵詞的網(wǎng)頁;搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,這樣通 過這些鏈接,用戶4更能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會(huì)在這些 鏈接下提供一 小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自 己需要的內(nèi)容。
隨著人們對搜索結(jié)果要求的提高,很多搜索引擎服務(wù)的提供商都提供了電 子文檔的搜索服務(wù)。傳統(tǒng)的電子文檔搜索服務(wù)是根據(jù)用戶輸入的關(guān)鍵詞查找相 應(yīng)的電子文檔,查找到的電子文檔內(nèi)通常包含用戶輸入的關(guān)鍵詞,返回的搜索 結(jié)果頁面會(huì)顯示一部分該電子文檔的文字,以方便用戶了解該電子文檔的內(nèi)容。 然而,這種電子文檔的搜索方法與一般的網(wǎng)頁搜索方法完全一致,只是將搜索內(nèi)容限制在某一單個(gè)的電子文檔內(nèi),沒有體現(xiàn)出電子文檔的自身特點(diǎn),導(dǎo)致搜 索到的電子文檔數(shù)量少或者不符合用戶的需求。

發(fā)明內(nèi)容
基于此,有必要提供一種更好的滿足用戶需求的電子文檔的搜索方法。 一種電子文檔的搜索方法,包括以下步驟抓取電子文檔及所述電子文檔
的關(guān)聯(lián)信息;建立包含所述關(guān)聯(lián)信息的電子文檔的索引;響應(yīng)用戶的搜索請求 返回包含所述關(guān)聯(lián)信息的搜索結(jié)果。
在優(yōu)選的實(shí)施例中,所述建立包含所述關(guān)聯(lián)信息的電子文檔的索引的步驟 包括判斷是否已經(jīng)為該電子文檔建立索引;如果未為該電子文檔建立索引則 為該電子文檔建立索引;如果已經(jīng)為該電子文檔建立索引則將所述關(guān)聯(lián)信息追 加存入索引中。
在優(yōu)選的實(shí)施例中,所述建立包含所述關(guān)聯(lián)信息的電子文檔的索引的步驟 包括解析該電子文檔的內(nèi)容,并將所述電子文檔的內(nèi)容作為所述索引的一部 分。
在優(yōu)選的實(shí)施例中,所述建立包含所述關(guān)聯(lián)信息的電子文檔的索引的步驟 包括根據(jù)所述電子文檔的鏈接地址建立唯一的電子文檔編號,并根據(jù)所述電 子文檔編號組織所述索引。
在優(yōu)選的實(shí)施例中,所述關(guān)聯(lián)信息包括鏈接到該電子文檔的鏈接文字信息 或提供鏈接到該電子文檔的鏈接的網(wǎng)頁頁面內(nèi)容信息。
在優(yōu)選的實(shí)施例中,所述關(guān)聯(lián)信息包括用戶對該電子文檔的評價(jià)信息。
此外,還有必要提供一種更好的滿足用戶需求的電子文檔的搜索系統(tǒng)。 一種電子文檔的搜索系統(tǒng),包括數(shù)據(jù)抓取模塊,用于抓取電子文檔及所 述電子文檔的關(guān)聯(lián)信息;索引模塊,與所述數(shù)據(jù)抓取模塊相連建立包含所述關(guān) 聯(lián)信息的電子文檔的索引;存儲(chǔ)模塊,與所述索引模塊相連以存儲(chǔ)所述索引; 檢索模塊,與所述存儲(chǔ)模塊連接,響應(yīng)用戶的搜索請求返回包含所述關(guān)聯(lián)信息 的搜索結(jié)果。在優(yōu)選的實(shí)施例中,所述索引模塊還用于查詢所述存儲(chǔ)模塊判斷是否已經(jīng) 為該電子文檔建立索引,如果未為該電子文檔建立索引則為該電子文檔建立索 引,如果已經(jīng)為該電子文檔建立索引則將所述關(guān)聯(lián)信息追加存入索引中。
在優(yōu)選的實(shí)施例中,還包括內(nèi)容解析模塊,所述內(nèi)容解析模塊與所述數(shù)據(jù) 抓取模塊相連以解析該電子文檔的內(nèi)容,所述索引模塊與所述內(nèi)容解析模塊相 連并將所述電子文檔的內(nèi)容作為所述索引的一部分。
在優(yōu)選的實(shí)施例中,所述關(guān)聯(lián)信息包括鏈接到該電子文檔的鏈接文字信息、 提供鏈接到該電子文檔的鏈接的網(wǎng)頁頁面內(nèi)容信息、用戶對該電子文檔的評價(jià) 信息中的一種或兩種以上。
上述電子文檔的搜索方法和系統(tǒng)中,搜索引擎的索引包含有電子文檔的關(guān) 聯(lián)信息,通過電子文檔的關(guān)聯(lián)信息可以在不打開該電子文檔的情況下了解電子 文檔的內(nèi)容,同時(shí)關(guān)聯(lián)信息是對電子文檔本身內(nèi)容從不同文字或角度的描述, 從而增加用不同關(guān)鍵字搜索時(shí)搜索到該電子文檔的可能性,可以更好的滿足用 戶的需求。


圖1為一實(shí)施例的電子文檔的搜索方法的流程圖2為建立包含關(guān)聯(lián)信息的電子文檔的索引的具體流程圖; 圖3為一實(shí)施例的電子文檔的搜索系統(tǒng)的模塊圖。
具體實(shí)施方式
如圖1所示,其為一種電子文檔的搜索方法流程圖,該方法包括以下步驟 步驟S110,抓取電子文檔及所述電子文檔的關(guān)聯(lián)信息。電子文檔的抓取可 以通過網(wǎng)頁搜索中查找到的鏈接進(jìn)行。通過網(wǎng)絡(luò)蜘蛛從網(wǎng)絡(luò)中抓取電子文檔, 并獲取該電子文檔的關(guān)聯(lián)信息。關(guān)聯(lián)信息是指除電子文檔本身的內(nèi)容外,對查 找該電子文檔、快速掌握該電子文檔的內(nèi)容、了解該電子文檔的應(yīng)用等有用的 信息,例如鏈接到該電子文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈接的網(wǎng)頁頁面內(nèi)容信息、用戶對該電子文檔的評i^/H言息等。例如,有一件txt才各式 的電子文檔"新宋,,,在互4關(guān)網(wǎng)上的地址為http:〃abc.a.com/b/xinsong.txt,有一 個(gè)網(wǎng)頁頁面,上面有鏈接文字信息"新宋的電子書",這個(gè)鏈接文字信息的鏈 接指向"http:〃abc.a.com/b/xinsong.txt",同時(shí)這個(gè)頁面上有如下的頁面內(nèi)容信息 "《新宋》第二巻《權(quán)柄》,主要講敘石越的改革與對西夏的戰(zhàn)爭。"此外,網(wǎng)頁 頁面中還包含用戶對該電子文檔的評價(jià)信息,比如170人給予了這個(gè)電子文檔 好的評價(jià),2人給予差的評價(jià),這些評價(jià)可以作為返回搜索結(jié)果的排序依據(jù),便 于用戶找到有用的電子文檔。
步驟S120,建立包含所述關(guān)聯(lián)信息的電子文檔的索引。將關(guān)聯(lián)信息整理到 搜索引擎的索引中,便于在接收到用戶的搜索請求時(shí)快速有效的返回搜索結(jié)果。 在建立包含關(guān)聯(lián)信息的電子文檔的索引的步驟中,可以解析該電子文檔的內(nèi)容, 并將電子文檔的內(nèi)容作為索引的一部分。電子文檔的內(nèi)容可以是電子文檔的名 稱、作者、出版社、摘要、關(guān)鍵詞等,也可是電子文檔內(nèi)容的全本文本信息。 這樣,當(dāng)有用戶搜索的信息是某個(gè)電子文檔的內(nèi)容的時(shí)候,就可以保證也命中 這些信息,從而提高用戶的滿意度。為了更好的管理電子文檔,可以根據(jù)電子 文檔的鏈接地址建立唯一的電子文檔編號,并根據(jù)電子文檔編號組織索引。
步驟S130,響應(yīng)用戶的搜索請求返回包含關(guān)聯(lián)信息的搜索結(jié)果。將關(guān)聯(lián)信 息顯示在返回結(jié)果的頁面上,通過該頁面用戶可以查看到關(guān)聯(lián)信息,迅速了解 該電子文檔的內(nèi)容。關(guān)聯(lián)信息可以和電子文檔內(nèi)的部分內(nèi)容出現(xiàn)在下載該電子 文檔的鏈接下。
上述電子文檔的搜索方法中,搜索引擎的索引包含有電子文檔的關(guān)聯(lián)信息, 通過電子文檔的關(guān)聯(lián)信息可以在不打開該電子文檔的情況下了解電子文檔的內(nèi) 容,例如鏈接到該電子文檔的鏈接文字信息會(huì)高度概括電子文檔的內(nèi)容;同時(shí) 關(guān)聯(lián)信息是對電子文檔本身內(nèi)容從不同文字或角度的描述,例如提供鏈接到該 電子文檔的鏈接的網(wǎng)頁頁面內(nèi)容信息會(huì)從讀者的角度去描述電子文檔的內(nèi)容, 這些描述文字可能與電子文檔中的文字不同,從而增加用不同關(guān)鍵字搜索時(shí)搜 索到該電子文檔的可能性,可以更好的滿足用戶的需求。
如圖2所示,其為步驟S120更具體的流程圖。首先,步驟S210,判斷是否已經(jīng)為該電子文檔建立索引?;ヂ?lián)網(wǎng)中存在大 量相同的信息,同樣也包括大量相同的電子文檔,通過判斷步驟SllO中抓取的 電子文檔是否已經(jīng)存在并建立索引了來避免對同樣的電子文檔建立多個(gè)索引, 浪費(fèi)存儲(chǔ)空間及避免用戶在同樣的電子文檔上花費(fèi)太多時(shí)間。是否為同樣的電 子文檔可以通過電子文檔本身的內(nèi)容來判斷。如果未為該電子文檔建立索引,
則進(jìn)入步驟S220;如果已經(jīng)為該電子文檔建立索引,則進(jìn)入步驟S230。
步驟S220,為該電子文檔建立索引。沒有為該電子文檔建立索引說明該電 子文檔是全新的文檔,因此需要整理該電子文檔的信息來建立新的索引。
步驟S230,將關(guān)聯(lián)信息追加存入索引中。對于已經(jīng)有該電子文檔的情況, 可以將步驟SllO中抓取到的新的關(guān)聯(lián)信息追加存入索引中。因?yàn)椴煌木W(wǎng)頁頁 面對相同的電子文檔的關(guān)聯(lián)信息是不同的,通過追加的方式存入,可以補(bǔ)充該 電子文檔的關(guān)聯(lián)信息,使得關(guān)聯(lián)信息更加充實(shí),便于用戶更好的了解該電子文 檔及增加該電子文檔被搜索到的可能性。
如圖3所示,還提供了一種電子文檔的搜索系統(tǒng)。電子文檔的搜索系統(tǒng)300 包括數(shù)據(jù)抓取模塊310、索引模塊320、存儲(chǔ)模塊330、檢索模塊340和內(nèi)容解 析模塊350。
數(shù)據(jù)抓取模塊310用于抓取電子文檔及電子文檔的關(guān)聯(lián)信息。數(shù)據(jù)抓取沖莫 塊310通過網(wǎng)頁搜索中查找到的鏈接抓取電子文檔,并獲取該電子文檔的關(guān)聯(lián) 信息。關(guān)聯(lián)信息是指除電子文檔本身的內(nèi)容外,對查找該電子文檔、快速掌握 該電子文檔的內(nèi)容、了解該電子文檔的應(yīng)用等有用的信息,例如鏈接到該電子 文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈接的網(wǎng)頁頁面內(nèi)容信息、用 戶對該電子文檔的評4介信息等。
索引模塊320與數(shù)據(jù)抓取模塊310相連以建立包含關(guān)聯(lián)信息的電子文檔的 索引。索引模塊320將關(guān)聯(lián)信息整理到搜索引擎的索引中,便于在接收到用戶 的搜索請求時(shí)快速有效的返回搜索結(jié)果。
存儲(chǔ)模塊330與索引模塊320相連以存儲(chǔ)索引模塊320為電子文檔建立的 索引。另外,數(shù)據(jù)抓取模塊310抓取的電子文檔及其關(guān)聯(lián)信息也可以先存儲(chǔ)到
8存儲(chǔ)模塊330,再由索引模塊320對存儲(chǔ)的電子文檔及其關(guān)聯(lián)信息建立索引,在 提供該電子文檔的服務(wù)器與互聯(lián)網(wǎng)的連接斷開的情況下,搜索引擎的服務(wù)器仍 然可以提供該電子文檔。為了避免對同 一電子文檔建立多個(gè)索引和重復(fù)存儲(chǔ)相 同的電子文檔,索引模塊320還可以查詢存儲(chǔ)模塊330判斷是否已經(jīng)為該電子 文檔建立索引,如果未為該電子文檔建立索引則為該電子文檔建立索引,如果 已經(jīng)為該電子文檔建立索引則將關(guān)聯(lián)信息追加存入索引中。
檢索模塊340與存儲(chǔ)模塊330連接,在接收到用戶的搜索請求時(shí),響應(yīng)用 戶的搜索請求返回包含關(guān)聯(lián)信息的搜索結(jié)果。將關(guān)聯(lián)信息顯示在返回結(jié)果的頁 面上,通過該頁面用戶可以查看到關(guān)聯(lián)信息,迅速了解該電子文檔的內(nèi)容。
內(nèi)容解析模塊350連接在數(shù)據(jù)抓取模塊310和索引模塊320之間,對數(shù)據(jù) 抓取模塊310抓取的電子文檔的內(nèi)容進(jìn)行解析,索引模塊320將解析獲得的電 子文檔的內(nèi)容作為索引的一部分。檢索模塊340可以將關(guān)聯(lián)信息和電子文檔內(nèi) 的部分內(nèi)容顯示在下載該電子文檔的鏈接下方。
上述電子文檔的搜索系統(tǒng)中,搜索引擎的索引包含有電子文檔的關(guān)聯(lián)信息, 通過電子文檔的關(guān)聯(lián)信息可以在不打開該電子文檔的情況下了解電子文檔的內(nèi) 容,同時(shí)關(guān)聯(lián)信息是對電子文檔本身內(nèi)容從不同文字或角度的描述,從而增加 用不同關(guān)鍵字搜索時(shí)搜索到該電子文檔的可能性,可以更好的滿足用戶的需求。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì), 但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域 的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和 改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附 權(quán)利要求為準(zhǔn)。
權(quán)利要求
1、一種電子文檔的搜索方法,其特征在于,包括以下步驟抓取電子文檔及所述電子文檔的關(guān)聯(lián)信息;建立包含所述關(guān)聯(lián)信息的電子文檔的索引;響應(yīng)用戶的搜索請求返回包含所述關(guān)聯(lián)信息的搜索結(jié)果。
2、 根據(jù)權(quán)利要求1所述的電子文檔的搜索方法,其特征在于,所述建立包 含所述關(guān)聯(lián)信息的電子文檔的索引的步驟包括判斷是否已經(jīng)為該電子文檔建立索引;如果未為該電子文檔建立索引則為該電子文檔建立索引;如果已經(jīng)為該電子文檔建立索引則將所述關(guān)聯(lián)信息追加存入索引中。
3、 根據(jù)權(quán)利要求1或2所述的電子文檔的搜索方法,其特征在于,所述建 立包含所迷關(guān)聯(lián)信息的電子文檔的索引的步驟包括解析該電子文檔的內(nèi)容, 并將所述電子文檔的內(nèi)容作為所述索引的一部分。
4、 根據(jù)權(quán)利要求1或2所述的電子文檔的搜索方法,其特征在于,所述建 立包含所述關(guān)聯(lián)信息的電子文檔的索引的步驟包括根據(jù)所述電子文檔的鏈接 地址建立唯一的電子文檔編號,并根據(jù)所述電子文檔編號組織所述索引。
5、 根據(jù)權(quán)利要求1所述的電子文檔的搜索方法,其特征在于,所述關(guān)聯(lián)信 息包括鏈接到該電子文檔的鏈接文字信息或提供鏈接到該電子文檔的鏈接的網(wǎng) 頁頁面內(nèi)容信息。
6、 根據(jù)權(quán)利要求1所述的電子文檔的搜索方法,其特征在于,所述關(guān)聯(lián)信 息包括用戶對該電子文檔的評價(jià)信息。
7、 一種電子文檔的搜索系統(tǒng),其特征在于,包括 數(shù)據(jù)抓取模塊,用于抓取電子文檔及所述電子文檔的關(guān)聯(lián)信息; 索引模塊,與所述數(shù)據(jù)抓取模塊相連建立包含所述關(guān)聯(lián)信息的電子文檔的索引;存儲(chǔ)模塊,與所述索引模塊相連以存儲(chǔ)所述索引;檢索模塊,與所述存儲(chǔ)模塊連接,響應(yīng)用戶的搜索請求返回包含所述關(guān)聯(lián) 信息的搜索結(jié)果。
8、 根據(jù)權(quán)利要求7所述的電子文檔的搜索系統(tǒng),其特征在于,所述索引模 塊還用于查詢所述存儲(chǔ)模塊判斷是否已經(jīng)為該電子文檔建立索引,如果未為該 電子文檔建立索引則為該電子文檔建立索引,如果已經(jīng)為該電子文檔建立索引 則將所述關(guān)聯(lián)信息追加存入索引中。
9、 根據(jù)權(quán)利要求7或8所述的電子文檔的搜索系統(tǒng),其特征在于,還包括 內(nèi)容解析模塊,所述內(nèi)容解析模塊與所述數(shù)據(jù)抓取模塊相連以解析該電子文檔 的內(nèi)容,所述索引模塊與所述內(nèi)容解析模塊相連并將所述電子文檔的內(nèi)容作為 所述索引的一部分。
10、 根據(jù)權(quán)利要求7或8所述的電子文檔的搜索系統(tǒng),其特征在于,所述 關(guān)聯(lián)信息包括鏈接到該電子文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈 接的網(wǎng)頁頁面內(nèi)容信息、用戶對該電子文檔的評價(jià)信息中的 一種或兩種以上。
全文摘要
一種電子文檔的搜索方法,包括以下步驟抓取電子文檔及所述電子文檔的關(guān)聯(lián)信息;建立包含所述關(guān)聯(lián)信息的電子文檔的索引;響應(yīng)用戶的搜索請求返回包含所述關(guān)聯(lián)信息的搜索結(jié)果。上述電子文檔的搜索方法中,搜索引擎的索引包含有電子文檔的關(guān)聯(lián)信息,通過電子文檔的關(guān)聯(lián)信息可以在不打開該電子文檔的情況下了解電子文檔的內(nèi)容,同時(shí)關(guān)聯(lián)信息是對電子文檔本身內(nèi)容從不同文字或角度的描述,從而增加用不同關(guān)鍵字搜索時(shí)搜索到該電子文檔的可能性,可以更好的滿足用戶的需求。此外,還提供了一種電子文檔的搜索系統(tǒng)。
文檔編號G06F17/30GK101599069SQ20091004102
公開日2009年12月9日 申請日期2009年7月10日 優(yōu)先權(quán)日2009年7月10日
發(fā)明者頊 王 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1