般即為項目名稱;對于項目編號來說,一般含有含有的大寫或小寫字符以及 或"]"符號,具有一定的格式如字母加數(shù)字的格式,具有一定的鄭則達(dá)表達(dá)方式如 字母-8個數(shù)字-3個數(shù)字T-20140723-008這種表達(dá)方式,那么,該步驟通過匹配項目編號 含有的字符串、格式和鄭則達(dá)表達(dá)方式,即可獲取到該招投標(biāo)網(wǎng)頁的項目編號,由于其通過 多種方式交叉獲取,因此,保證了該項目編號的清潔性。
[0071] 步驟207 :根據(jù)目標(biāo)信息的屬性、格式或正則達(dá)表達(dá)式中的任意一個或多個,從目 標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之 前的內(nèi)容中的任意一個或多個,獲得目標(biāo)信息。
[0072] 例如:對于招投標(biāo)網(wǎng)頁來說,其通過前后標(biāo)志截取到關(guān)于項目編號的內(nèi)容為 T-20140723-008 ??? 2、項目名稱····,其中,只有T-20140723-008為項目編號,在現(xiàn) 有技術(shù)中,需要人工的方式將? 2、項目名稱·· ??"刪除,而在本發(fā)明實施例中,可根 據(jù)項目編號的屬性如字體和字號、項目編號的格式如字母加數(shù)字以及項目編號的鄭則達(dá)表 達(dá)方式如字母-8個數(shù)字_3個數(shù)字,即可自動獲取該項目編號T-20140723-008。例如:在 聯(lián)系電話提取過程中,其以前標(biāo)志為起點向后截取300個字符,基本上可以確保聯(lián)系方式 包含在截取到的內(nèi)容中,然后通過電話號碼的鄭則達(dá)表達(dá)式,即在所有截取的內(nèi)容中,對于 符合電話號碼書寫格式的如010-87654321等進(jìn)行提取,然后將區(qū)號與全國區(qū)號庫進(jìn)行匹 配,對于匹配上的即為聯(lián)系電話,對于雖然與電話號碼書寫格式一致,但是分解出的區(qū)號并 未在全國區(qū)號庫內(nèi)仍然不是聯(lián)系電話,即將該信息舍去。另外,對于區(qū)號可被找到的數(shù)字字 符串,如果含有"2015"、"2014"等特殊字符的項,進(jìn)行標(biāo)注,提示數(shù)據(jù)采集人員進(jìn)行人工驗 證,以進(jìn)一步確保獲取目標(biāo)信息的準(zhǔn)確性。
[0073] 在本發(fā)明實施例中,獲取清洗后的采購代理機構(gòu)名稱的代碼可以為:
[0074]
【主權(quán)項】
1. 一種網(wǎng)頁信息獲取方法,其特征在于,包括: 建立不規(guī)則匹配庫,所述不規(guī)則匹配庫包括:目標(biāo)信息的屬性、目標(biāo)信息的格式以及目 標(biāo)信息包含的字符串中的任意一個或多個; 遍歷目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及 目標(biāo)信息包含的字符串中的任意一個或多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 進(jìn)一步包括:建立關(guān)鍵字識別數(shù)據(jù)庫,所述關(guān)鍵字識別數(shù)據(jù)庫包括:目標(biāo)信息關(guān)鍵字、 各個目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個; 根據(jù)所述匹配庫中的信息的屬性、信息的格式以及信息包含的字符串中的任意一個或 多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息之前,進(jìn)一步包括: 根據(jù)所述關(guān)鍵字識別數(shù)據(jù)庫中的目標(biāo)信息關(guān)鍵字、各個目標(biāo)信息源代碼的前標(biāo)志或后 標(biāo)志中任意一個或多個,截取所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的 內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多個; 判斷所述截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi) 容中任意一個是否為空,如果是,則執(zhí)行所述遍歷目標(biāo)網(wǎng)頁的源代碼;否則,通過清洗機制 清洗所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容 或后標(biāo)志之前的內(nèi)容中的任意一個或多個,獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過清洗機制清洗所述目標(biāo)網(wǎng)頁中 目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容 中的任意一個或多個,獲取目標(biāo)信息,包括: 根據(jù)目標(biāo)信息的屬性、格式或正則達(dá)表達(dá)式中的任意一個或多個,從所述目標(biāo)網(wǎng)頁中 目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容 中的任意一個或多個,獲得目標(biāo)信息。
4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在所述遍歷目標(biāo)網(wǎng)頁的源代碼之前, 進(jìn)一步包括: 整理目標(biāo)網(wǎng)頁,使同類目標(biāo)信息具有統(tǒng)一格式; 所述遍歷目標(biāo)網(wǎng)頁的源代碼,包括:遍歷所述整理后的目標(biāo)網(wǎng)頁的源代碼。
5. 根據(jù)權(quán)利要求1至4中任一所述的方法,其特征在于,所述網(wǎng)頁為投標(biāo)網(wǎng)頁; 所述目標(biāo)信息,包括:項目名稱、項目編號、公告發(fā)布時間、招標(biāo)人、代理機構(gòu)、開標(biāo)時間 中的任意一個或多個; 所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁或投標(biāo)網(wǎng)頁的源代碼中項目名稱的字體或字號 中的任意一個或兩個; 所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁或投標(biāo)網(wǎng)頁的源代碼中項目編號、公告發(fā)布時間 或開標(biāo)時間的輸出格式中的任意一個或多個; 所述目標(biāo)信息包含的字符串,包括:項目編號含有的大寫或小寫字符以及["或 "]"符號。
6. -種網(wǎng)頁信息獲取裝置,其特征在于,包括: 第一建立單元,用于建立不規(guī)則匹配庫,所述不規(guī)則匹配庫包括:目標(biāo)信息的屬性、目 標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個; 獲取單元,用于遍歷目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中的目標(biāo)信息的屬性、目標(biāo)信 息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲 取目標(biāo)信息。
7. 根據(jù)權(quán)利要求6所述裝置,其特征在于,進(jìn)一步包括:第二建立單元、截取單元、判斷 單元和清洗單元,其中, 所述第二建立單元,用于建立關(guān)鍵字識別數(shù)據(jù)庫,所述關(guān)鍵字識別數(shù)據(jù)庫包括:目標(biāo)信 息關(guān)鍵字、各個目標(biāo)信息源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個; 所述截取單元,用于根據(jù)所述關(guān)鍵字識別數(shù)據(jù)庫中的目標(biāo)信息關(guān)鍵字、各個目標(biāo)信息 源代碼的前標(biāo)志或后標(biāo)志中任意一個或多個,截取所述目標(biāo)網(wǎng)頁中目標(biāo)信息源代碼中含有 的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意一個或多個; 所述判斷單元,用于判斷所述截取單元截取的含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志 之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中任意一個是否為空,如果是,則觸發(fā)所述獲取單元;否 貝1J,觸發(fā)所述清洗單元; 所述清洗單元,用于通過清洗機制清洗所述截取單元截取的所述目標(biāo)網(wǎng)頁中目標(biāo)信息 源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的內(nèi)容中的任意 一個或多個,獲取目標(biāo)信息,結(jié)束當(dāng)前流程。
8. 根據(jù)權(quán)利要求7所述裝置,其特征在于,所述清洗單元進(jìn)一步包括: 用于根據(jù)目標(biāo)信息的屬性、格式或正則達(dá)表達(dá)式中的任意一個或多個,從所述目標(biāo)網(wǎng) 頁中目標(biāo)信息源代碼中含有的目標(biāo)信息關(guān)鍵字的內(nèi)容、前標(biāo)志之后的內(nèi)容或后標(biāo)志之前的 內(nèi)容中的任意一個或多個,獲得目標(biāo)信息。
9. 根據(jù)權(quán)利要求6所述裝置,其特征在于,進(jìn)一步包括:整理單元,其中, 所述整理單元,用于整理目標(biāo)網(wǎng)頁,使同類目標(biāo)信息具有統(tǒng)一格式; 所述獲取單元,進(jìn)一步用于遍歷所述整理后的目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中 的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個,從 所述整理后的目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息。
10. 根據(jù)權(quán)利要求6至9中任一所述的裝置,其特征在于,所述裝置用于招投標(biāo)網(wǎng)頁的 目標(biāo)彳目息獲取,其中, 所述獲取單元獲取的目標(biāo)信息,包括:項目名稱、項目編號、公告發(fā)布時間、招標(biāo)人、代 理機構(gòu)、開標(biāo)時間中的任意一個或多個; 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息的屬性,包括:招標(biāo)網(wǎng)頁或投 標(biāo)網(wǎng)頁的源代碼中項目名稱的字體或字號中的任意一個或兩個; 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息的格式,包括:招標(biāo)網(wǎng)頁或投 標(biāo)網(wǎng)頁的源代碼中項目編號、公告發(fā)布時間或開標(biāo)時間的輸出格式中的任意一個或多個; 所述第一建立單元建立的不規(guī)則匹配庫中所述目標(biāo)信息包含的字符串,包括:項目編 號含有的大寫或小寫字符以及["或"]"符號。
【專利摘要】本發(fā)明提供一種網(wǎng)頁信息獲取方法和裝置,該方法包括:建立不規(guī)則匹配庫,所述不規(guī)則匹配庫包括:目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個,通過遍歷目標(biāo)網(wǎng)頁的源代碼,根據(jù)所述匹配庫中的目標(biāo)信息的屬性、目標(biāo)信息的格式以及目標(biāo)信息包含的字符串中的任意一個或多個,從所述目標(biāo)網(wǎng)頁的源代碼中獲取目標(biāo)信息,與現(xiàn)有技術(shù)相比,本發(fā)明實施例的方法也可對前標(biāo)志和/或后標(biāo)志無法確定的目標(biāo)信息進(jìn)行獲取,有效地提高了獲取目標(biāo)信息的完整性和準(zhǔn)確性。
【IPC分類】G06F17-30
【公開號】CN104778246
【申請?zhí)枴緾N201510169796
【發(fā)明人】王貴友, 崔樂樂, 王傳超
【申請人】浪潮集團(tuán)有限公司
【公開日】2015年7月15日
【申請日】2015年4月10日