網(wǎng)頁(yè)信息的解析方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提出了一種網(wǎng)頁(yè)信息的解析方法,包括以下步驟:將待解析網(wǎng)頁(yè)的網(wǎng)址與可解析的域名集合中的域名進(jìn)行匹配;根據(jù)匹配成功的域名定位到對(duì)應(yīng)的網(wǎng)址特征集合;將待解析網(wǎng)頁(yè)的網(wǎng)址與該網(wǎng)址特征集合中的網(wǎng)址特征進(jìn)行匹配;根據(jù)匹配成功的網(wǎng)址特征定位到對(duì)應(yīng)的商品模板集合;將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配;將待解析的網(wǎng)頁(yè)按照匹配成功的商品模板進(jìn)行解析,返回解析結(jié)果。本發(fā)明還提供了一種對(duì)應(yīng)的網(wǎng)頁(yè)信息的解析裝置。采用本發(fā)明,網(wǎng)站中多種形式的商品網(wǎng)址都能夠準(zhǔn)確識(shí)別出來(lái),對(duì)于不同類(lèi)型的商品網(wǎng)址能夠采用不同種類(lèi)的商品模板去匹配識(shí)別,從而盡可能多地將網(wǎng)頁(yè)上的商品信息解析出來(lái)。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)信息的解析方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)頁(yè)信息的解析技術(shù),特別是當(dāng)網(wǎng)頁(yè)的網(wǎng)址多樣化,網(wǎng)頁(yè)信息呈現(xiàn)多樣化時(shí)的信息解析抽取方法及其相應(yīng)裝置。
【背景技術(shù)】
[0002]隨著電子商務(wù)網(wǎng)站的不斷發(fā)展,為了更好的展現(xiàn)出商品的信息,打動(dòng)前來(lái)購(gòu)物的消費(fèi)者,現(xiàn)在網(wǎng)站的頁(yè)面做的越來(lái)越復(fù)雜,對(duì)于要提取這些網(wǎng)站的商品信息的購(gòu)物搜索來(lái)講,提出了不小的挑戰(zhàn)。首先商品頁(yè)面的網(wǎng)址可能會(huì)有多種形式,其次商品頁(yè)面信息也可能會(huì)有多種呈現(xiàn)形式。而傳統(tǒng)的購(gòu)物搜索在提取電商網(wǎng)站的商品頁(yè)面信息時(shí),一般都只維護(hù)一套模板,碰到這種復(fù)雜的頁(yè)面情況時(shí),會(huì)顯得力不從心,只能成功解析一部分商品,導(dǎo)致解析的成功率比較低下。
【發(fā)明內(nèi)容】
[0003]為了克服現(xiàn)有技術(shù)存在的缺陷,需要將網(wǎng)站中多種形式的商品網(wǎng)址都能夠準(zhǔn)確識(shí)別出來(lái),對(duì)于不同類(lèi)型的商品網(wǎng)址能夠采用不同種類(lèi)的商品模板去匹配識(shí)別,從而盡可能多地將網(wǎng)頁(yè)上的商品信息解析出來(lái)。
[0004]因此,依據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提出了一種網(wǎng)頁(yè)信息的解析方法,該方法包括以下步驟:
[0005]將待解析網(wǎng)頁(yè)的網(wǎng)址與可解析的域名集合中的域名進(jìn)行匹配;
[0006]根據(jù)匹配成功的域名定位到對(duì)應(yīng)的網(wǎng)址特征集合;
[0007]將待解析網(wǎng)頁(yè)的網(wǎng)址與該網(wǎng)址特征集合中的網(wǎng)址特征進(jìn)行匹配;
[0008]根據(jù)匹配成功的網(wǎng)址特征定位到對(duì)應(yīng)的商品模板集合;
[0009]將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配;
[0010]將待解析的網(wǎng)頁(yè)按照匹配成功的商品模板進(jìn)行解析,返回解析結(jié)果。
[0011]可選地,所述域名集合由一級(jí)域名構(gòu)建。
[0012]可選地,所述網(wǎng)址特征包括兩個(gè)項(xiàng)目:域名和特征表達(dá)式。
[0013]可選地,所述特征表達(dá)式,是字符串,或者是正則表達(dá)式。
[0014]可選地,所述可解析的域名集合中包括一個(gè)或多個(gè)域名,所述網(wǎng)址特征集合中包括一個(gè)或多個(gè)網(wǎng)址特征,所述商品模板集合中包括一個(gè)或多個(gè)商品模板,商品模板中包含需要從頁(yè)面內(nèi)容中提取出來(lái)的用于描述商品的項(xiàng)目。
[0015]可選地,所述商品模板還包括頁(yè)面類(lèi)型項(xiàng),該頁(yè)面類(lèi)型項(xiàng)包括用于描述頁(yè)面類(lèi)型的正則表達(dá)式或字符串,在所述將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配的步驟中,通過(guò)判斷待解析網(wǎng)頁(yè)的網(wǎng)址與商品模板中包括的頁(yè)面類(lèi)型項(xiàng)的正則表達(dá)式或字符串是否匹配,來(lái)確定待解析網(wǎng)頁(yè)與商品模板是否匹配成功。
[0016]可選地,同一個(gè)商品模板能夠隸屬于不同的商品模板集合,從而對(duì)應(yīng)于不同的網(wǎng)址特征。[0017]可選地,所述涉及匹配的步驟中,是將待解析網(wǎng)頁(yè)的網(wǎng)址與集合中的元素逐一進(jìn)行匹配,如果集合中的全部元素都不能與待解析網(wǎng)頁(yè)的網(wǎng)址匹配成功,則認(rèn)為匹配失敗,不進(jìn)行下一步驟,解析過(guò)程結(jié)束。
[0018]根據(jù)本發(fā)明的另一方面,本發(fā)明還提出了一種網(wǎng)頁(yè)信息的解析裝置,該解析裝置包括以下模塊:
[0019]域名匹配模塊,將待解析網(wǎng)頁(yè)的網(wǎng)址與可解析的域名集合中的域名進(jìn)行匹配;
[0020]域名定位模塊,根據(jù)匹配成功的域名定位到對(duì)應(yīng)的網(wǎng)址特征集合;
[0021]網(wǎng)址匹配模塊,將待解析網(wǎng)頁(yè)的網(wǎng)址與該網(wǎng)址特征集合中的網(wǎng)址特征進(jìn)行匹配;
[0022]網(wǎng)址定位模塊,根據(jù)匹配成功的網(wǎng)址特征定位到對(duì)應(yīng)的商品模板集合;
[0023]商品匹配模塊,將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配;
[0024]解析模塊,將待解析的網(wǎng)頁(yè)按照匹配成功的商品模板進(jìn)行解析,返回解析結(jié)果。
[0025]可選地,所述域名集合由一級(jí)域名構(gòu)建。
[0026]可選地,所述網(wǎng)址特征包括兩個(gè)項(xiàng)目:域名和特征表達(dá)式。
[0027]可選地,所述特征表達(dá)式,是字符串,或者是正則表達(dá)式。
[0028]可選地,所述可解析的域名集合中包括一個(gè)或多個(gè)域名,所述網(wǎng)址特征集合中包括一個(gè)或多個(gè)網(wǎng)址特征,所述商品模板集合中包括一個(gè)或多個(gè)商品模板,商品模板中包含需要從頁(yè)面內(nèi)容中提取出來(lái)的用于描述商品的項(xiàng)目。
[0029]可選地,所述商品模板還包括頁(yè)面類(lèi)型項(xiàng),該頁(yè)面類(lèi)型項(xiàng)包括用于描述頁(yè)面類(lèi)型的正則表達(dá)式或字符串,在所述商品匹配模塊將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配過(guò)程中,通過(guò)判斷待解析網(wǎng)頁(yè)的網(wǎng)址與商品模板中包括的頁(yè)面類(lèi)型項(xiàng)的正則表達(dá)式或字符串是否匹配,來(lái)確定待解析網(wǎng)頁(yè)與商品模板是否匹配成功。
[0030]可選地,同一個(gè)商品模板能夠隸屬于不同的商品模板集合,從而對(duì)應(yīng)于不同的網(wǎng)址特征。
[0031]可選地,所述涉及匹配的過(guò)程中,是將待解析網(wǎng)頁(yè)的網(wǎng)址與集合中的元素逐一進(jìn)行匹配,如果集合中的全部元素都不能與待解析網(wǎng)頁(yè)的網(wǎng)址匹配成功,則認(rèn)為匹配失敗,不進(jìn)行后續(xù)處理,解析過(guò)程結(jié)束。
[0032]根據(jù)本發(fā)明實(shí)施例的一種網(wǎng)頁(yè)信息的解析方法可以看出,本公開(kāi)解決了多域名、多模板網(wǎng)站的有效信息提取的問(wèn)題,能夠盡可能多地將網(wǎng)頁(yè)上的商品信息有效并準(zhǔn)確的解析出來(lái)。
[0033]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0034]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0035]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)信息解析方法的流程圖;
[0036]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的商品模板的組織結(jié)構(gòu)示意圖;[0037]圖3是根據(jù)本發(fā)明另一個(gè)實(shí)施例的網(wǎng)頁(yè)信息解析裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0038]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0039]如圖1所示的本發(fā)明的一種網(wǎng)頁(yè)信息的解析方法,包括以下步驟:
[0040]步驟S110,解析開(kāi)始前,首先需要獲取待解析網(wǎng)頁(yè)的網(wǎng)址。由于并非所有網(wǎng)頁(yè)的網(wǎng)址都能夠被解析,因此,需要根據(jù)待解析網(wǎng)頁(yè)的網(wǎng)址判斷其是否能夠被解析,比如對(duì)于每個(gè)商家,都需要區(qū)分這個(gè)網(wǎng)站表述的商品特征和非商品的特征,商家感興趣的自然是商品特征,因此具備商品特征的網(wǎng)址是需要被解析并提取的,而不相干或不感興趣的網(wǎng)址則不需要被解析或提取。在實(shí)際運(yùn)行中,設(shè)置一個(gè)能夠解析的域名集合是一種可選的解決方案,該域名集合中包括一個(gè)或多個(gè)域名,只需要將網(wǎng)址與域名集合中的域名匹配一下就能夠知道該網(wǎng)址的網(wǎng)頁(yè)是否能被解析。由于域名仍然可能存在多種形式,因此我們優(yōu)選按照商家的一級(jí)域名來(lái)構(gòu)成這個(gè)域名集合,使得它更具備獨(dú)特性。下面舉例說(shuō)明一級(jí)域名的含義:
[0041]
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息的解析方法,其特征在于包括以下步驟: 將待解析網(wǎng)頁(yè)的網(wǎng)址與可解析的域名集合中的域名進(jìn)行匹配; 根據(jù)匹配成功的域名定位到對(duì)應(yīng)的網(wǎng)址特征集合; 將待解析網(wǎng)頁(yè)的網(wǎng)址與該網(wǎng)址特征集合中的網(wǎng)址特征進(jìn)行匹配; 根據(jù)匹配成功的網(wǎng)址特征定位到對(duì)應(yīng)的商品模板集合; 將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配; 將待解析的網(wǎng)頁(yè)按照匹配成功的商品模板進(jìn)行解析,返回解析結(jié)果。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述域名集合由一級(jí)域名構(gòu)建。
3.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述網(wǎng)址特征包括兩個(gè)項(xiàng)目:域名和特征表達(dá)式。
4.根據(jù)權(quán)利要求3所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述特征表達(dá)式,是字符串,或者是正則表達(dá)式。
5.根據(jù)權(quán)利要求1-4之一所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述可解析的域名集合中包括一個(gè)或多個(gè)域名,所述網(wǎng)址特征集合中包括一個(gè)或多個(gè)網(wǎng)址特征,所述商品模板集合中包括一個(gè)或多個(gè)商品模板,商品模板中包含需要從頁(yè)面內(nèi)容中提取出來(lái)的用于描述商品的項(xiàng)目信息。
6.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述商品模板還包括頁(yè)面類(lèi)型項(xiàng),該頁(yè)面類(lèi)型項(xiàng)包括用于描述頁(yè)面類(lèi)型的正則表達(dá)式或字符串,在所述將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配的步驟中,通過(guò)判斷待解析網(wǎng)頁(yè)的網(wǎng)址與商品模板中包括的頁(yè)面類(lèi)型項(xiàng)的正則表達(dá)式或字符串是否匹配,來(lái)確定待解析網(wǎng)頁(yè)與商品模板是否匹配成功。
7.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:同一個(gè)商品模板能夠隸屬于不同的商品模板集合,從而對(duì)應(yīng)于不同的網(wǎng)址特征。
8.根據(jù)權(quán)利要求1-7之一所述的網(wǎng)頁(yè)信息的解析方法,其特征在于:所述涉及匹配的步驟中,是將待解析網(wǎng)頁(yè)的網(wǎng)址與集合中的元素逐一進(jìn)行匹配,如果集合中的全部元素都不能與待解析網(wǎng)頁(yè)的網(wǎng)址匹配成功,則認(rèn)為匹配失敗,不進(jìn)行下一步驟,解析過(guò)程結(jié)束。
9.一種網(wǎng)頁(yè)信息的解析裝置,其特征在于包括以下模塊: 域名匹配模塊,將待解析網(wǎng)頁(yè)的網(wǎng)址與可解析的域名集合中的域名進(jìn)行匹配; 域名定位模塊,根據(jù)匹配成功的域名定位到對(duì)應(yīng)的網(wǎng)址特征集合; 網(wǎng)址匹配模塊,將待解析網(wǎng)頁(yè)的網(wǎng)址與該網(wǎng)址特征集合中的網(wǎng)址特征進(jìn)行匹配; 網(wǎng)址定位模塊,根據(jù)匹配成功的網(wǎng)址特征定位到對(duì)應(yīng)的商品模板集合; 商品匹配模塊,將待解析網(wǎng)頁(yè)與該商品模板集合中的商品模板進(jìn)行匹配;解析模塊,將待解析的網(wǎng)頁(yè)按照匹配成功的商品模板進(jìn)行解析,返回解析結(jié)果。
10.根據(jù)權(quán)利要求9所述的網(wǎng)頁(yè)信息的解析裝置,其特征在于:所述域名集合由一級(jí)域名構(gòu)建。
【文檔編號(hào)】G06F17/30GK103793461SQ201310631635
【公開(kāi)日】2014年5月14日 申請(qǐng)日期:2013年12月2日 優(yōu)先權(quán)日:2013年12月2日
【發(fā)明者】周雷, 高揚(yáng), 姜鑫, 曹晴, 牛杏媛 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司