專利名稱:一種通過關(guān)鍵詞檢索頁面的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機及互聯(lián)網(wǎng)領(lǐng)域,特別是涉及一種通過關(guān)鍵詞檢索頁面的方法及裝置。
背景技術(shù):
在檢查互聯(lián)網(wǎng)信息或文本頁面的過程中,通常要分析頁面內(nèi)容。有時遇到這樣的需求有些頁面雖然包含目標(biāo)關(guān)鍵詞,但是卻不是要尋找的目的頁面。需要考慮如何剔除這樣的頁面。 現(xiàn)有技術(shù)提出了兩種方案,其一是通過設(shè)置URL過濾來剔除不需要的頁面;其二是通過設(shè)置剔除關(guān)鍵詞名單,將包含這些關(guān)鍵詞的頁面直接剔除。但是現(xiàn)有技術(shù)提出的兩種方案都較容易誤判一些頁面。
發(fā)明內(nèi)容
本發(fā)明提供了一種通過關(guān)鍵詞檢索頁面的方法及裝置,用以降低檢索頁面的過程中對包含目標(biāo)關(guān)鍵詞但不是目的頁面的誤判率。 本發(fā)明的一種通過關(guān)鍵詞檢索頁面的方法,包括下列步驟在頁面中檢索目標(biāo)關(guān)鍵詞;根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落;在所述段落中檢索要剔除的關(guān)鍵詞;將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。 本發(fā)明的一種通過關(guān)鍵詞檢索頁面的裝置,包括第一檢索單元,用于在頁面中檢索目標(biāo)關(guān)鍵詞;定位單元,用于根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落;第二檢索單元,用于在所述段落中檢索要剔除的關(guān)鍵詞;過濾單元,用于將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。 本發(fā)明有益效果如下由于本發(fā)明在包含目標(biāo)關(guān)鍵詞的段落中針對要剔除關(guān)鍵詞進行了重檢索,并將任一段落中同時包含目標(biāo)關(guān)鍵詞和要剔除關(guān)鍵詞的頁面過濾掉,所以提高了識別目標(biāo)頁面的能力,同時降低誤判頁面的概率。
圖1為本發(fā)明實施例中的方法步驟流程 圖2為本發(fā)明實施例中的裝置結(jié)構(gòu)示意圖。
具體實施例方式
為了降低檢索頁面的過程中對包含目標(biāo)關(guān)鍵詞但不是目的頁面的誤判率,本發(fā)明
提供了一種通過關(guān)鍵詞檢索頁面的方法及裝置,主要思路是通過劃分目標(biāo)關(guān)鍵詞所在段落,并通過重檢索要剔除的關(guān)鍵詞來過濾頁面。
參見圖1所示,實施例中的方法包括以下主要步驟
Sl、在頁面中檢索目標(biāo)關(guān)鍵詞。
S2、根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落。 S3、在上述段落中檢索要剔除的關(guān)鍵詞。 S4 、將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。 更為具體的,在檢索過程中,需檢索至少一個目標(biāo)關(guān)鍵詞,以及至少一個要剔除的關(guān)鍵詞,并且各目標(biāo)關(guān)鍵詞與各要剔除的關(guān)鍵詞之間存在對應(yīng)關(guān)系。例如目標(biāo)關(guān)鍵詞與要剔除的關(guān)鍵詞之間存在一一對應(yīng)關(guān)系;又例如一個目標(biāo)關(guān)鍵詞與至少二個要剔除的關(guān)鍵詞之間存在對應(yīng)關(guān)系。 如果一個目標(biāo)關(guān)鍵詞與至少二個要剔除的關(guān)鍵詞之間存在對應(yīng)關(guān)系,則步驟S4的判斷邏輯可以是在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的任一要剔除的關(guān)鍵詞,則將該頁面從檢索結(jié)果中過濾;也可以是在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的所有要剔除的關(guān)鍵詞,則將該頁面從檢索結(jié)果中過濾。 以下通過上述本發(fā)明背景技術(shù)記載的內(nèi)容作為待檢索頁面的內(nèi)容,目標(biāo)關(guān)鍵詞與要剔除的關(guān)鍵詞之間存在一一對應(yīng)關(guān)系為例,目標(biāo)關(guān)鍵詞為"關(guān)鍵詞",要剔除的關(guān)鍵詞為"現(xiàn)有技術(shù)",描述在具體實現(xiàn)中的過程。 S101、按照文本順序以"關(guān)鍵詞"在本發(fā)明背景技術(shù)中檢索,在本發(fā)明背景技術(shù)第一段檢索到"關(guān)鍵詞"。 S102、定位檢索到的"關(guān)鍵詞"所在的段落為第一段。 S103、在第一段中檢索"現(xiàn)有技術(shù)",未檢索到,則按文本順序繼續(xù)檢索。 S104、在本發(fā)明背景技術(shù)第二段檢索到"關(guān)鍵詞"。 S105、定位檢索到的"關(guān)鍵詞"所在的段落為第二段。 S106、在第二段中檢索"現(xiàn)有技術(shù)",并且檢索到,則從檢索結(jié)果中過濾掉該頁面。
之后,如果還有其它待檢索頁面,則繼續(xù)檢索其它頁面。 參見圖2所示,實施例中的裝置包括第一檢索單元、定位單元、第二檢索單元和過濾單元。 第一檢索單元,用于在頁面中檢索目標(biāo)關(guān)鍵詞。 定位單元,用于根據(jù)第一檢索單元檢索到的目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落。 第二檢索單元,用于在所述段落中檢索要剔除的關(guān)鍵詞。 過濾單元,用于將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。 更為具體的,還可包括數(shù)據(jù)庫單元,用于存儲各目標(biāo)關(guān)鍵詞與各要剔除的關(guān)鍵詞
之間的對應(yīng)關(guān)系,并在第一檢索單元需檢索至少一個目標(biāo)關(guān)鍵詞,第二檢索單元需檢索至
少一個要剔除的關(guān)鍵詞時,調(diào)用所述對應(yīng)關(guān)系。例如數(shù)據(jù)庫單元存儲的所述對應(yīng)關(guān)系為目
標(biāo)關(guān)鍵詞與要剔除的關(guān)鍵詞之間的一一對應(yīng)關(guān)系;又例如數(shù)據(jù)庫單元存儲的所述對應(yīng)關(guān)
系為一個目標(biāo)關(guān)鍵詞與至少二個要剔除的關(guān)鍵詞之間的對應(yīng)關(guān)系。 如果數(shù)據(jù)庫單元存儲的所述對應(yīng)關(guān)系為一個目標(biāo)關(guān)鍵詞與至少二個要剔除的關(guān)鍵詞之間的對應(yīng)關(guān)系,則過濾邏輯可以是第二檢索單元在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的任一要剔除的關(guān)鍵詞,則過濾單元將該頁面從檢索結(jié)果中過濾;也可以是第二檢索單元在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的所有要剔除的關(guān)鍵詞,則過濾單元將該頁面從檢索結(jié)果中過濾。
以下通過上述本發(fā)明背景技術(shù)記載的內(nèi)容作為待檢索頁面的內(nèi)容,數(shù)據(jù)庫單元存儲的所述對應(yīng)關(guān)系為一個目標(biāo)關(guān)鍵詞與二個要剔除的關(guān)鍵詞之間的對應(yīng)關(guān)系為例,過濾邏輯是第二檢索單元在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的任一要剔除的關(guān)鍵詞,則過濾單元將該頁面從檢索結(jié)果中過濾,目標(biāo)關(guān)鍵詞為"關(guān)鍵詞",要剔除的關(guān)鍵詞為"剔除"和"現(xiàn)有技術(shù)",描述在具體實現(xiàn)中的過程。 首先、第一檢索單元按照文本順序以"關(guān)鍵詞"在本發(fā)明背景技術(shù)中檢索,在本發(fā)明背景技術(shù)第一段檢索到"關(guān)鍵詞"。 其次、定位單元定位第一檢索單元檢索到的"關(guān)鍵詞"所在的段落為第一段。
其后、第二檢索單元在第一段中檢索"剔除",并且檢索到,則過濾單元從檢索結(jié)果中過濾掉該頁面。不再對該頁面繼續(xù)檢索。 之后,如果還有其它待檢索頁面,則繼續(xù)檢索其它頁面。 顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,例如目標(biāo)關(guān)鍵詞與要剔除的關(guān)鍵詞也可以是多對多的關(guān)系。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
一種通過關(guān)鍵詞檢索頁面的方法,其特征在于,包括下列步驟在頁面中檢索目標(biāo)關(guān)鍵詞;根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落;在所述段落中檢索要剔除的關(guān)鍵詞;將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。
2. 如權(quán)利要求1所述通過關(guān)鍵詞檢索頁面的方法,其特征在于,在檢索過程中,需檢索 至少一個目標(biāo)關(guān)鍵詞,以及至少一個要剔除的關(guān)鍵詞,并且各目標(biāo)關(guān)鍵詞與各要剔除的關(guān) 鍵詞之間存在對應(yīng)關(guān)系。
3. 如權(quán)利要求2所述通過關(guān)鍵詞檢索頁面的方法,其特征在于,目標(biāo)關(guān)鍵詞與要剔除 的關(guān)鍵詞之間存在一一對應(yīng)關(guān)系。
4. 如權(quán)利要求2所述通過關(guān)鍵詞檢索頁面的方法,其特征在于, 一個目標(biāo)關(guān)鍵詞與至 少二個要剔除的關(guān)鍵詞之間存在對應(yīng)關(guān)系。
5. 如權(quán)利要求4所述通過關(guān)鍵詞檢索頁面的方法,其特征在于,在所述段落中檢索到 目標(biāo)關(guān)鍵詞對應(yīng)的任一要剔除的關(guān)鍵詞,則將該頁面從檢索結(jié)果中過濾;或者在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的所有要剔除的關(guān)鍵詞,則將該頁面從檢索結(jié)果 中過濾。
6. —種通過關(guān)鍵詞檢索頁面的裝置,其特征在于,包括 第一檢索單元,用于在頁面中檢索目標(biāo)關(guān)鍵詞;定位單元,用于根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落; 第二檢索單元,用于在所述段落中檢索要剔除的關(guān)鍵詞; 過濾單元,用于將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。
7. 如權(quán)利要求6所述通過關(guān)鍵詞檢索頁面的裝置,其特征在于,還包括 數(shù)據(jù)庫單元,用于存儲各目標(biāo)關(guān)鍵詞與各要剔除的關(guān)鍵詞之間的對應(yīng)關(guān)系,并在第一檢索單元需檢索至少一個目標(biāo)關(guān)鍵詞,第二檢索單元需檢索至少一個要剔除的關(guān)鍵詞時, 調(diào)用所述對應(yīng)關(guān)系。
8. 如權(quán)利要求7所述通過關(guān)鍵詞檢索頁面的裝置,其特征在于,數(shù)據(jù)庫單元存儲的所 述對應(yīng)關(guān)系包括目標(biāo)關(guān)鍵詞與要剔除的關(guān)鍵詞之間的一一對應(yīng)關(guān)系。
9. 如權(quán)利要求7所述通過關(guān)鍵詞檢索頁面的裝置,其特征在于,數(shù)據(jù)庫單元存儲的所 述對應(yīng)關(guān)系包括一個目標(biāo)關(guān)鍵詞與至少二個要剔除的關(guān)鍵詞之間的對應(yīng)關(guān)系。
10. 如權(quán)利要求9所述通過關(guān)鍵詞檢索頁面的裝置,其特征在于,第二檢索單元在所述 段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的任一要剔除的關(guān)鍵詞,則過濾單元將該頁面從檢索結(jié)果中 過濾;或者第二檢索單元在所述段落中檢索到目標(biāo)關(guān)鍵詞對應(yīng)的所有要剔除的關(guān)鍵詞,則過濾單 元將該頁面從檢索結(jié)果中過濾。
全文摘要
本發(fā)明公開了一種通過關(guān)鍵詞檢索頁面的方法及裝置,涉及計算機及互聯(lián)網(wǎng)領(lǐng)域,用以降低檢索頁面的過程中對包含目標(biāo)關(guān)鍵詞但不是目的頁面的誤判率。方法包括在頁面中檢索目標(biāo)關(guān)鍵詞;根據(jù)目標(biāo)關(guān)鍵詞在頁面中的位置確定該目標(biāo)關(guān)鍵詞所在的段落;在所述段落中檢索要剔除的關(guān)鍵詞;將檢索到要剔除關(guān)鍵詞的頁面從檢索結(jié)果中過濾。裝置包括第一檢索單元,定位單元,第二檢索單元和過濾單元。由于本發(fā)明在包含目標(biāo)關(guān)鍵詞的段落中針對要剔除關(guān)鍵詞進行了重檢索,并將任一段落中同時包含目標(biāo)關(guān)鍵詞和要剔除關(guān)鍵詞的頁面過濾掉,所以提高了識別目標(biāo)頁面的能力,同時降低誤判頁面的概率。
文檔編號G06F17/30GK101777074SQ20101010494
公開日2010年7月14日 申請日期2010年1月29日 優(yōu)先權(quán)日2010年1月29日
發(fā)明者柯宗慶, 柯宗貴 申請人:藍盾信息安全技術(shù)股份有限公司