一種網(wǎng)頁信息獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機軟件應(yīng)用領(lǐng)域,特別涉及一種網(wǎng)頁信息獲取方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,每時每刻都在產(chǎn)生著海量的數(shù)據(jù),這些數(shù)據(jù)可以為政府或公 司了解一個行業(yè)的市場活躍度以及評價一個公司的綜合實力提供很好的參考。
[0003] 目前,網(wǎng)頁中的數(shù)據(jù)主要通過網(wǎng)頁源代碼解析的方法自動化解析獲取。在現(xiàn)有技 術(shù)中,主要根據(jù)模式化的前后標(biāo)志,進行目標(biāo)信息獲取,該方法將網(wǎng)頁結(jié)構(gòu)統(tǒng)一規(guī)范的網(wǎng)站 中的目標(biāo)信息獲取比較完整,但是,對于網(wǎng)頁結(jié)構(gòu)多變、不一的網(wǎng)頁來說,其前標(biāo)志和/或 后標(biāo)志常常無法確定,導(dǎo)致了獲取目標(biāo)信息的完整性和準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種網(wǎng)頁源代碼解析方法和裝置,以提高獲取目標(biāo)信息的完整性和準(zhǔn) 確性。
[0005] 一種網(wǎng)頁信息獲取方法,包括:
[0006] 建立不規(guī)則匹配庫,所述不規(guī)則匹配庫包括:目標(biāo)信息的屬性、目標(biāo)信息的格式以 及目標(biāo)信息包含的字符串中的任意一個或多個;
[0007] 遍歷目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中的目標(biāo)信息的屬性、目標(biāo)信息的格式 以及目標(biāo)信息包含的字符串中的任意一個或多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信 息。
[0008] 優(yōu)選地,該方法進一步包括:建立關(guān)鍵字識別數(shù)據(jù)庫,所述關(guān)鍵字識別數(shù)據(jù)庫包 括:目標(biāo)信息關(guān)鍵字、各個目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個;
[0009] 根據(jù)所述匹配庫中的信息的屬性、信息的格式以及信息包含的字符串中的任意一 個或多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息之前,進一步包括:
[0010] 根據(jù)所述關(guān)鍵字識別數(shù)據(jù)庫中的目標(biāo)信息關(guān)鍵字、各個目標(biāo)信息源代碼的前標(biāo)志 或后標(biāo)志中任意一個或多個,截取所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵 字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多個;
[0011] 判斷所述截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前 的內(nèi)容中任意一個是否為空,如果是,則執(zhí)行所述遍歷目標(biāo)網(wǎng)頁的源代碼;否則,通過清洗 機制清洗所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的 內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多個,獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
[0012] 優(yōu)選地,所述通過清洗機制清洗所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信 息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多個,獲取目標(biāo) 信息,包括:
[0013] 根據(jù)目標(biāo)信息的屬性、格式或正則達表達式中的任意一個或多個,從所述目標(biāo)網(wǎng) 頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的 內(nèi)容中的任意一個或多個,獲得目標(biāo)信息。
[0014] 優(yōu)選地,在遍歷目標(biāo)網(wǎng)頁的源代碼之前,進一步包括:
[0015] 整理目標(biāo)網(wǎng)頁,使同類目標(biāo)信息具有統(tǒng)一格式;
[0016] 所述遍歷目標(biāo)網(wǎng)頁的源代碼,包括:遍歷所述整理后的目標(biāo)網(wǎng)頁的源代碼。
[0017] 優(yōu)選地,所述網(wǎng)頁為投標(biāo)網(wǎng)頁;
[0018] 所述目標(biāo)信息,包括:項目名稱、項目編號、公告發(fā)布時間、招標(biāo)人、代理機構(gòu)、開標(biāo) 時間中的任意一個或多個;
[0019] 所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁或投標(biāo)網(wǎng)頁的源代碼中項目名稱的字體或 字號中的任意一個或兩個;
[0020] 所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁或投標(biāo)網(wǎng)頁的源代碼中項目編號、公告發(fā)布 時間或開標(biāo)時間的輸出格式中的任意一個或多個;
[0021] 所述目標(biāo)信息包含的字符串,包括:項目編號含有的大寫或小寫字符以及 "["或"]"符號。
[0022] -種網(wǎng)頁信息獲取裝置,包括:
[0023] 第一建立單元,用于建立不規(guī)則匹配庫,所述不規(guī)則匹配庫包括:目標(biāo)信息的屬 性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個;
[0024] 獲取單元,用于遍歷目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中的目標(biāo)信息的屬性、目 標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個,從所述目標(biāo)網(wǎng)頁的源代碼 中獲取目標(biāo)信息。
[0025] 優(yōu)選地,該裝置進一步包括:第二建立單元、截取單元、判斷單元和清洗單元,其 中,
[0026] 所述第二建立單元,用于建立關(guān)鍵字識別數(shù)據(jù)庫,所述關(guān)鍵字識別數(shù)據(jù)庫包括:目 標(biāo)信息關(guān)鍵字、各個目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個;
[0027] 所述截取單元,用于根據(jù)所述關(guān)鍵字識別數(shù)據(jù)庫中的目標(biāo)信息關(guān)鍵字、各個目標(biāo) 信息源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個,截取所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中 含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多 個;
[0028] 所述判斷單元,用于判斷所述截取單元截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前 標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中任意一個是否為空,如果是,則觸發(fā)所述獲取單元; 否則,觸發(fā)所述清洗單元;
[0029] 所述清洗單元,用于通過清洗機制清洗所述截取單元截取的所述目標(biāo)網(wǎng)頁中目標(biāo) 信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的 任意一個或多個,獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
[0030] 優(yōu)選地,所述清洗單元進一步包括:
[0031] 用于根據(jù)目標(biāo)信息的屬性、格式或正則達表達式中的任意一個或多個,從所述目 標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之 前的內(nèi)容中的任意一個或多個,獲得目標(biāo)信息。
[0032] 優(yōu)選地,該裝置進一步包括:整理單元,其中,
[0033] 所述整理單元,用于整理目標(biāo)網(wǎng)頁,使同類目標(biāo)信息具有統(tǒng)一格式;
[0034] 所述獲取單元,進一步用于遍歷所述整理后的目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配 庫中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多 個,從所述整理后的目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息。
[0035] 優(yōu)選地,所述裝置應(yīng)用于招投標(biāo)網(wǎng)頁的目標(biāo)信息獲取,其中,
[0036] 所述獲取單元獲取的目標(biāo)信息,包括:項目名稱、項目編號、公告發(fā)布時間、招標(biāo) 人、代理機構(gòu)、開標(biāo)時間中的任意一個或多個;
[0037] 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁 或投標(biāo)網(wǎng)頁的源代碼中項目名稱的字體或字號中的任意一個或兩個;
[0038] 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁 或投標(biāo)網(wǎng)頁的源代碼中項目編號、公告發(fā)布時間或開標(biāo)時間的輸出格式中的任意一個或多 個;
[0039] 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息包含的字符串,包括:項 目編號含有的大寫或小寫字符以及["或"]"符號。
[0040] 本發(fā)明實施例提供了一種網(wǎng)頁信息獲取方法和裝置,其通過建立的不規(guī)則匹配庫 中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個來 獲取目標(biāo)信息,這是因為,對于同一領(lǐng)域的網(wǎng)頁來說,不管目標(biāo)信息在源代碼中的前后標(biāo)志 是否一致,該目標(biāo)信息在源代碼中的屬性、格式以及包含的字符串是相同或相近的。因此, 與現(xiàn)有技術(shù)相比,本發(fā)明實施例的方法也可對前標(biāo)志和/或后標(biāo)志無法確定的目標(biāo)信息進 行獲取,有效地提高了獲取目標(biāo)信息的完整性和準(zhǔn)確性。
【附圖說明】
[0041] 圖1本發(fā)明實施例提供的一種網(wǎng)頁信息獲取方法的流程圖;
[0042] 圖2本發(fā)明另一實施例提供的一種網(wǎng)頁信息獲取方法的流程圖;
[0043] 圖3本發(fā)明實施例提供的一種網(wǎng)頁信息獲取裝置所在架構(gòu)示意圖;
[0044] 圖4本發(fā)明實施例提供的一種網(wǎng)頁信息獲取裝置結(jié)構(gòu)示意圖;
[0045] 圖5本發(fā)明另一實施例提供的一種網(wǎng)頁信息獲取裝置結(jié)構(gòu)示意圖;
[0046] 圖6本發(fā)明又一實施例提供的一種網(wǎng)頁信息獲取裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0047] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述。顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒?發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實 施例,都屬于本發(fā)明保護的范圍。
[0048] 如圖1所示,本發(fā)明實施例提供了一種網(wǎng)頁信息獲取方法,該