一種從網(wǎng)頁(yè)中抽取信息的方法及裝置制造方法
【專利摘要】一種從網(wǎng)頁(yè)中抽取信息的方法和裝置,包括:對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽;分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分;對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn);分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分;選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。本申請(qǐng)能夠提高從網(wǎng)頁(yè)等樹(shù)狀文本結(jié)構(gòu)中抽取特定信息的準(zhǔn)確度。
【專利說(shuō)明】—種從網(wǎng)頁(yè)中抽取信息的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種從網(wǎng)頁(yè)中抽取信息的方法及裝置。
【背景技術(shù)】
[0002]從原始數(shù)據(jù)來(lái)源抽取結(jié)構(gòu)化數(shù)據(jù)是一種基礎(chǔ)性技術(shù)。而網(wǎng)頁(yè)則是最普遍的原始數(shù)據(jù)來(lái)源。在網(wǎng)頁(yè)中進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的抽取與在純文本信息中進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的抽取有比較大的區(qū)別。一方面,在網(wǎng)頁(yè)中進(jìn)行抽取時(shí),由于網(wǎng)頁(yè)所使用的不是規(guī)范的文本語(yǔ)法,因此規(guī)范的文本語(yǔ)法不適用,網(wǎng)頁(yè)結(jié)構(gòu)千差萬(wàn)別,噪聲非常多。另一方面,從網(wǎng)頁(yè)中進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的抽取時(shí)的抽取目標(biāo)也多樣化,有單獨(dú)的節(jié)點(diǎn),有鏈狀的節(jié)點(diǎn)串(如導(dǎo)航條),也有成塊的區(qū)域(如表格)。目前,從網(wǎng)頁(yè)中進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的抽取一般使用基于規(guī)則的方法。抽取對(duì)象是比較規(guī)范的表格、名值對(duì)(如屬性名和屬性值)以及記錄列表。抽取方法比較分散獨(dú)立,或只利用目標(biāo)節(jié)點(diǎn)近范圍的信息。
[0003]現(xiàn)有的一種從網(wǎng)頁(yè)中抽取對(duì)象屬性值信息的方案提供了一種從網(wǎng)頁(yè)中抽取對(duì)象屬性值信息的方法,其步驟為:a)對(duì)于一個(gè)給定網(wǎng)頁(yè),得到與該給定網(wǎng)頁(yè)對(duì)應(yīng)的DOM (文檔對(duì)象模型)樹(shù),并計(jì)算DOM樹(shù)中的每個(gè)DOM節(jié)點(diǎn)的相關(guān)信息;b)根據(jù)DOM樹(shù)和每個(gè)DOM節(jié)點(diǎn)的相關(guān)信息,構(gòu)造一個(gè)帶標(biāo)簽節(jié)點(diǎn)圖,并且計(jì)算每個(gè)帶標(biāo)簽節(jié)點(diǎn)的分?jǐn)?shù);c)基于帶標(biāo)簽節(jié)點(diǎn)的分?jǐn)?shù),從得到的帶標(biāo)簽節(jié)點(diǎn)圖選擇帶標(biāo)簽節(jié)點(diǎn)樹(shù);d)基于選中的帶標(biāo)簽節(jié)點(diǎn)樹(shù)構(gòu)造屬性值樹(shù)。該現(xiàn)有方案的缺點(diǎn)是:
[0004]僅適合于集中的屬性值對(duì)的抽取;
[0005]沒(méi)有利用不同種類標(biāo)簽來(lái)決定區(qū)域,從而在區(qū)域中提高抽取精度;
[0006]對(duì)節(jié)點(diǎn)本身的特征使用過(guò)于單調(diào),強(qiáng)調(diào)字面特征;
[0007]沒(méi)有系統(tǒng)地通過(guò)影響傳遞效應(yīng)來(lái)得到受上下文影響的結(jié)果。
【發(fā)明內(nèi)容】
[0008]本申請(qǐng)要解決的技術(shù)問(wèn)題是如何提高從網(wǎng)頁(yè)等樹(shù)狀文本結(jié)構(gòu)中抽取特定信息的準(zhǔn)確度。
[0009]為了解決上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N從網(wǎng)頁(yè)中抽取信息的方法,包括:
[0010]對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽;
[0011]分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分;
[0012]對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn);
[0013]分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分;
[0014]選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
[0015]可選地,選擇得分高的一個(gè)或多個(gè)區(qū)域的步驟前還包括:
[0016]對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)中目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分;
[0017]將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分;
[0018]分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后進(jìn)行選擇得分高的一個(gè)或多個(gè)區(qū)域的步驟。
[0019]可選地,分別根據(jù)各節(jié)點(diǎn)每個(gè)特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分的步驟包括:
[0020]對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作:
[0021]獲取該節(jié)點(diǎn)每個(gè)特征的值;
[0022]對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值,將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
[0023]可選地,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟包括:
[0024]對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
[0025]Sl=SX ((Ι-ki) +ΜΑ)
[0026]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0027]分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟包括:
[0028]在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
[0029]可選地,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟包括:
[0030]對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
[0031 ] Sq=S X ((l-k2) +k2Dd/Ds)
[0032]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0033]分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟包括:
[0034]將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分分別相加,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
[0035]可選地,選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的原始分的步驟包括:
[0036]將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn);X為預(yù)設(shè)的正整數(shù);
[0037]如果候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn),則只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn);
[0038]在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽;
[0039]選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn);
[0040]根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
[0041]本申請(qǐng)還提供了一種從網(wǎng)頁(yè)中抽取信息的裝置,包括:
[0042]標(biāo)記單元,用于對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽;
[0043]原始分計(jì)算單元,用于分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分;
[0044]傳遞單元,用于對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn);
[0045]區(qū)域分計(jì)算單元,用于分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分;
[0046]輸出單元,用于選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
[0047]可選地,所述的裝置還包括:
[0048]區(qū)域分修正單元,用于從區(qū)域分計(jì)算單元得到各區(qū)域的得分;對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分;將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分;分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后將各區(qū)域最終的得分發(fā)送給所述輸出單元。
[0049]可選地,原始分計(jì)算單元分別根據(jù)各節(jié)點(diǎn)每個(gè)特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分是指:
[0050]原始分計(jì)算單元對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作:獲取該節(jié)點(diǎn)每個(gè)特征的值;對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值,將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
[0051]可選地,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減是指:
[0052]所述傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
[0053]Sl=SX ((Ι-ki) +ΜΑ)
[0054]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0055]區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指:
[0056]區(qū)域分計(jì)算單元在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
[0057]可選地,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減是指:
[0058]傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
[0059]Sq=S X ((l-k2) +k2Dd/Ds)
[0060]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,DS為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0061]區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指:
[0062]區(qū)域分計(jì)算單元將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分按分別相力口,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
[0063]可選地,所述輸出單元包括:
[0064]區(qū)域排序模塊,用于將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn)為預(yù)設(shè)的正整數(shù);
[0065]篩選模塊,用于當(dāng)候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn)時(shí),只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn);
[0066]標(biāo)簽排序模塊,用于在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽;
[0067]選擇模塊,用于選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn);
[0068]輸出模塊,用于根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
[0069]本申請(qǐng)的至少一個(gè)實(shí)施例利用標(biāo)簽的多種特征共同決定原始分,能夠通過(guò)影響傳遞來(lái)反映上下文結(jié)果,可得到較為準(zhǔn)確的結(jié)果,既適合集中的屬性值對(duì)抽取,又適合相對(duì)分散的標(biāo)簽的抽取,還可用于列表項(xiàng)的抽取。本申請(qǐng)的一個(gè)優(yōu)化方案利用多種標(biāo)簽共同選定區(qū)域后,再?gòu)膮^(qū)域中選擇更為精準(zhǔn)的結(jié)果。本申請(qǐng)的又一個(gè)優(yōu)化方案引入了區(qū)域的共現(xiàn)分和結(jié)構(gòu)分,從而能夠?qū)^(qū)域分進(jìn)行修正,得到更為精準(zhǔn)的結(jié)果。當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【專利附圖】
【附圖說(shuō)明】
[0070]圖1為實(shí)施例一的從網(wǎng)頁(yè)中抽取信息的方法的流程示意圖;
[0071]圖2為實(shí)施例一中一個(gè)擴(kuò)展的抽取樹(shù)的示意圖;
[0072]圖3為實(shí)施例一中帶有標(biāo)簽的節(jié)點(diǎn)的示意圖。
【具體實(shí)施方式】
[0073]下面將結(jié)合附圖及實(shí)施例對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行更詳細(xì)的說(shuō)明。
[0074]需要說(shuō)明的是,如果不沖突,本申請(qǐng)實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié)合,均在本申請(qǐng)的保護(hù)范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0075]實(shí)施例一,一種從網(wǎng)頁(yè)中抽取信息的方法,如圖1所示,包括步驟S101-S105。
[0076]S101、對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的DOM樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽。
[0077]S102、分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分。S103、對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn)。
[0078]S104、分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分。
[0079]S105、選擇得分高的一或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
[0080]本實(shí)施例中會(huì)將節(jié)點(diǎn)中標(biāo)簽的得分傳遞到子樹(shù)的根節(jié)點(diǎn),相加后作為子樹(shù)所對(duì)應(yīng)的區(qū)域的得分以選擇區(qū)域,因此對(duì)于網(wǎng)頁(yè)中標(biāo)簽的值較為分散的區(qū)域,其得分也有可能因?yàn)樵搮^(qū)域中節(jié)點(diǎn)較多而較高,因此本實(shí)施例不會(huì)只選中標(biāo)簽的值集中的區(qū)域,也有可能選中標(biāo)簽的值分散在多個(gè)節(jié)點(diǎn)上的區(qū)域。
[0081]本實(shí)施例中,在輸入單個(gè)網(wǎng)頁(yè)后,步驟SlOl中會(huì)在DOM樹(shù)的基礎(chǔ)上,將每個(gè)子樹(shù)作為一個(gè)區(qū)域,并為每個(gè)節(jié)點(diǎn)(Node)添加標(biāo)簽,從而建立擴(kuò)展的抽取樹(shù)。所述標(biāo)簽(Label)表示一種有抽取目標(biāo)意義的標(biāo)志信息,如產(chǎn)品信息頁(yè)面中的產(chǎn)品價(jià)格、產(chǎn)品標(biāo)題等。一個(gè)節(jié)點(diǎn)可以有一個(gè)或多個(gè)標(biāo)簽。
[0082]一個(gè)擴(kuò)展的抽取樹(shù)的例子如圖2所示,根節(jié)點(diǎn)為節(jié)點(diǎn)200。以節(jié)點(diǎn)210作為根節(jié)點(diǎn)的子樹(shù)為區(qū)域11,包含根節(jié)點(diǎn)210和孩子節(jié)點(diǎn)211。以節(jié)點(diǎn)220作為根節(jié)點(diǎn)的子樹(shù)為區(qū)域12,包含根節(jié)點(diǎn)220、孩子節(jié)點(diǎn)221、孩子節(jié)點(diǎn)222和孩子節(jié)點(diǎn)2221。以節(jié)點(diǎn)222作為根節(jié)點(diǎn)的子樹(shù)也可以作為一個(gè)區(qū)域,包括根節(jié)點(diǎn)222和孩子節(jié)點(diǎn)2221。各區(qū)域可看成是網(wǎng)頁(yè)中的一塊。其中,每個(gè)節(jié)點(diǎn)如圖3所示,包括一個(gè)或多個(gè)標(biāo)簽31-36。
[0083]本實(shí)施例的一種實(shí)施方式中,所述網(wǎng)頁(yè)為產(chǎn)品信息頁(yè)面,所述預(yù)定標(biāo)簽集合可以但不限于包括用于嵌套或顯示以下任一種或任幾種信息的標(biāo)簽:標(biāo)題(Title)、產(chǎn)品價(jià)格(Price )、產(chǎn)品圖片(Image )、品牌(brand)產(chǎn)品的各項(xiàng)屬性對(duì)應(yīng)的屬性值對(duì)(AttrPairs )等。由于區(qū)域的得分為各標(biāo)簽的傳遞分之和,因此網(wǎng)頁(yè)中包含多個(gè)標(biāo)簽的區(qū)域,與只有孤立的一個(gè)標(biāo)簽的區(qū)域相比,有可能更容易被選中;這樣本實(shí)施例的選擇結(jié)果將不僅僅包含“只有一個(gè)得分很高的標(biāo)簽的區(qū)域”,還有可能包含“具有多個(gè)標(biāo)簽的區(qū)域”,這樣在抽取時(shí)不會(huì)忽略掉具有多種標(biāo)簽的區(qū)域,因此提高了抽取的精度。本實(shí)施例的一種實(shí)施方式中,節(jié)點(diǎn)預(yù)定的特征可以但不限于包括以下任一個(gè)或任幾個(gè):
[0084]節(jié)點(diǎn)類型(Type):即網(wǎng)頁(yè)HTML標(biāo)簽類型;
[0085]字面特征(Text):即網(wǎng)頁(yè)中可見(jiàn)字符;
[0086]屬性特征(Attribute):即網(wǎng)頁(yè)中HTML標(biāo)簽的屬性值列表;
[0087]結(jié)構(gòu)特征(Structure):節(jié)點(diǎn)與前后左右相關(guān)節(jié)點(diǎn)構(gòu)成的局部結(jié)構(gòu),或者文本特定結(jié)構(gòu);
[0088]視覺(jué)特征(Vis1n):如字符的字體、顏色以及在整個(gè)頁(yè)面布局中的位置;
[0089]其它特征(Other):如事件特征等其它用戶自定義的特征。
[0090]通過(guò)增加預(yù)定特征的種類,可避免只依賴于字面特征而導(dǎo)致的抽取精度不高的問(wèn)題。
[0091 ] 其中,節(jié)點(diǎn)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值可以表示特征的值和該標(biāo)簽的相關(guān)程度。所述分值可以由系統(tǒng)預(yù)先設(shè)定,也可以通過(guò)統(tǒng)計(jì)方式確定特征的值和該標(biāo)簽的相關(guān)程度,將所述相關(guān)程度作為所述分值。
[0092]同一個(gè)特征相同的值在不同標(biāo)簽中對(duì)應(yīng)的分值可以是不一樣的,也不排除分值相同的情況。比如一個(gè)節(jié)點(diǎn)字面特征的值是“低價(jià)”,與價(jià)格標(biāo)簽的相關(guān)度較高,在“價(jià)格”標(biāo)簽中的分值可為0.8 ;而與“圖片”標(biāo)簽的相關(guān)度較低,在“圖片”標(biāo)簽中的分值則可為-0.5。
[0093]同一個(gè)特征不同的值在一個(gè)標(biāo)簽中對(duì)應(yīng)的分值可以是不一樣的,也不排除分值相同的情況。如果一個(gè)節(jié)點(diǎn)中所有預(yù)定的特征的值在一個(gè)標(biāo)簽中都沒(méi)有對(duì)應(yīng)的分值,則從該節(jié)點(diǎn)中刪除該標(biāo)簽。
[0094]本實(shí)施例的一種實(shí)施方式中,步驟S102具體可以包括:
[0095]對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作:
[0096]獲取該節(jié)點(diǎn)每個(gè)預(yù)定的特征的值;
[0097]對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值,將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
[0098]不同標(biāo)簽中特征的權(quán)重可以不同,也不排除相同的情況。假設(shè)有價(jià)格、品牌兩個(gè)標(biāo)簽,預(yù)定的特征包括節(jié)點(diǎn)類型和字面特征這兩個(gè),且價(jià)格標(biāo)簽中節(jié)點(diǎn)類型為A時(shí)對(duì)應(yīng)于分值5,字面特征為b時(shí)對(duì)應(yīng)于分值9 ;品牌標(biāo)簽中節(jié)點(diǎn)類型為A時(shí)對(duì)應(yīng)于分值-7,字面特征為b時(shí)對(duì)應(yīng)于分值-1 ;如果某個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)類型為A,字面特征為b,且價(jià)格標(biāo)簽中節(jié)點(diǎn)類型權(quán)重為Rl,字面特征權(quán)重為R2,則在該節(jié)點(diǎn)中價(jià)格標(biāo)簽的原始分為5XR1+9XR2 ;品牌標(biāo)簽中節(jié)點(diǎn)類型權(quán)重為R3,字面特征權(quán)重為R4,則品牌標(biāo)簽的原始分為-7XR3+(- 1)XR4。
[0099]本實(shí)施方式的一種備選方案中,將各標(biāo)簽中字面特征和屬性特征的權(quán)重設(shè)置的高于其它特征。
[0100]本實(shí)施方式的一個(gè)備選方案中,為了實(shí)現(xiàn)方法的普適性,得到最大的召回結(jié)果集,標(biāo)簽中分值與特征的值相對(duì)應(yīng)時(shí)盡量采用比較寬松的對(duì)應(yīng)規(guī)則,如字面特征的值選擇短字/詞且語(yǔ)義單元較大的文本,如選擇特征的值“價(jià)”與分值對(duì)應(yīng),而不是選擇“價(jià)格”或“市場(chǎng)價(jià)格”與分值對(duì)應(yīng)。為提高對(duì)應(yīng)的效率,與分值相對(duì)應(yīng)的特征的值可盡量少用正則表達(dá)式而代以幾段文本,如采用“ori”、“price”與分值對(duì)應(yīng),而不是用“originalprice”與分值對(duì)應(yīng)。
[0101]該實(shí)施方式的一個(gè)備選方案中,各標(biāo)簽中的分值可以使用粗離散值,以避免分值設(shè)置的隨意化和碎片化,比如可以將分值統(tǒng)一設(shè)置為如下6種:
[0102]strong-reward:強(qiáng)獎(jiǎng)勵(lì)分,如 0.8 ;
[0103]strong-punish:強(qiáng)懲罰分,如-0.8 ;
[0104]moderate-reward:中等獎(jiǎng)勵(lì)分,如 0.5 ;
[0105]moderate-punish:中等懲罰分,如-0.5;
[0106]weak-reward:弱獎(jiǎng)勵(lì)分,如 0.2 ;
[0107]weak-punish:弱懲罰分,如-0.2。
[0108]步驟S103中,對(duì)各節(jié)點(diǎn)上每個(gè)標(biāo)簽的原始分進(jìn)行衰減的基本規(guī)則可以是:離傳遞者越近,影響越大,因此按樹(shù)的深度從底往上影響衰減,衰減函數(shù)可以按實(shí)際情況選擇。
[0109]本實(shí)施例的一種實(shí)施方式中,步驟S103中,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟具體可以包括:
[0110]對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
[0111]SL=SX((1-1i1Hk1DdA)s);
[0112]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(0,I),S為原始分。根節(jié)點(diǎn)的深度為0,其它節(jié)點(diǎn)的深度為該節(jié)點(diǎn)的父節(jié)點(diǎn)的深度加1,以此類推。比如當(dāng)從圖2中的節(jié)點(diǎn)2221傳遞衰減后的原始分到節(jié)點(diǎn)220時(shí),Dd為節(jié)點(diǎn)220的深度:1,Ds為節(jié)點(diǎn)2221的深度:3。
[0113]該備選方案中,分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟具體可以包括:
[0114]在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
[0115]該實(shí)施方式稱為最大值傳遞,是指祖先節(jié)點(diǎn)中一個(gè)標(biāo)簽的傳遞分為所有傳遞到該祖先節(jié)點(diǎn)的該標(biāo)簽衰減后的原始分中的最大值,每種標(biāo)簽的原始分往上傳遞時(shí)采用線性衰減的方式;祖先節(jié)點(diǎn)中一個(gè)標(biāo)簽的傳遞分S’Sli ,......, Su1-其中Su
(0^i^n-l,n為傳遞到祖先節(jié)點(diǎn)的、該標(biāo)簽衰減后的原始分的個(gè)數(shù))是指孩子節(jié)點(diǎn)按線性衰減傳遞過(guò)來(lái)的該標(biāo)簽的原始分。
[0116]本實(shí)施例的一種實(shí)施方式中,步驟S103中,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟具體可以包括:
[0117]對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
[0118]Sq=S X ((l-k2) +k2Dd/Ds)
[0119]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(0,I),S為原始分。根節(jié)點(diǎn)的深度為0,其它節(jié)點(diǎn)的深度為該節(jié)點(diǎn)的父節(jié)點(diǎn)的深度加I ;以此類推。
[0120]該備選方案中,分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟具體可以包括:
[0121]將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分分別相加,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
[0122]該實(shí)施方式稱為可累加傳遞,是指祖先節(jié)點(diǎn)中一個(gè)標(biāo)簽的分值為所有傳遞到該祖先節(jié)點(diǎn)的該標(biāo)簽衰減后的原始分之和;一般每種標(biāo)簽往上傳遞時(shí)采用指數(shù)衰減的方式,祖先節(jié)點(diǎn)中一個(gè)標(biāo)簽的傳遞分S’=sum(SQQ,SQ1,……,Sn);其中SQi (O彡i彡η— l,n為傳遞到祖先節(jié)點(diǎn)的、該標(biāo)簽衰減后的原始分的個(gè)數(shù))是指孩子節(jié)點(diǎn)按指數(shù)衰減傳遞過(guò)來(lái)的該標(biāo)簽的原始分。
[0123]本實(shí)施例的一種實(shí)施方式中,步驟S105前還可以包括:
[0124]對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)中目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分;
[0125]將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分;
[0126]分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后進(jìn)行選擇得分高的一個(gè)或多個(gè)區(qū)域的步驟。
[0127]本實(shí)施方式中,計(jì)算結(jié)構(gòu)分和最終的得分時(shí)各項(xiàng)的權(quán)重可根據(jù)需要設(shè)置。
[0128]共現(xiàn)分是用于評(píng)測(cè)目標(biāo)標(biāo)簽是否都出現(xiàn)在該區(qū)域中的指標(biāo),出現(xiàn)的越多,共現(xiàn)分越高。一個(gè)區(qū)域的共現(xiàn)分CoocScore=ZXNf_d/Ntmget ;Z為步驟S104中該區(qū)域的得分;Nf_d為該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù),Ntarget為目標(biāo)標(biāo)簽的總數(shù)。目標(biāo)標(biāo)簽可根據(jù)需要事先設(shè)置,比如當(dāng)要提取有關(guān)價(jià)格的信息時(shí),將價(jià)格標(biāo)簽設(shè)置為目標(biāo)標(biāo)簽;另外還可以根據(jù)不同標(biāo)簽的重要程度自定義缺少某種標(biāo)簽的減分情況。
[0129]一般來(lái)說(shuō),有兩大類的區(qū)域,一種區(qū)域中包含多種標(biāo)簽,每種只有一個(gè)最終節(jié)點(diǎn),如關(guān)鍵區(qū)域包含價(jià)格、標(biāo)題、主圖等;另一種區(qū)域中包含單種標(biāo)簽,但有多個(gè)節(jié)點(diǎn),如屬性區(qū)域只包含多個(gè)具有屬性值對(duì)標(biāo)簽的節(jié)點(diǎn)。對(duì)包含多種標(biāo)簽的區(qū)域而言,最大的區(qū)域可以得到一個(gè)極值分:孩子節(jié)點(diǎn)往上傳遞標(biāo)簽的原始分時(shí)衰減,但是標(biāo)簽種類增加會(huì)增加該區(qū)域的得分,因此當(dāng)區(qū)域剛好包含所有的目標(biāo)標(biāo)簽時(shí),該區(qū)域的得分會(huì)達(dá)到一個(gè)極值點(diǎn),該區(qū)域即所要提取信息的區(qū)域。
[0130]在計(jì)算結(jié)構(gòu)分時(shí),每個(gè)節(jié)點(diǎn)有一個(gè)預(yù)先分配的位置值,比如一個(gè)網(wǎng)頁(yè)一共有1000個(gè)節(jié)點(diǎn),則依次將位置值賦予每個(gè)節(jié)點(diǎn),密度和距離都以這個(gè)來(lái)計(jì)算;比如對(duì)于圖2中的DOM樹(shù),根節(jié)點(diǎn)200的位置值為1,節(jié)點(diǎn)210、220、230的位置值為2,節(jié)點(diǎn)211、221、222的位置值為3,節(jié)點(diǎn)2221的位置值為4。所述目標(biāo)節(jié)點(diǎn)可根據(jù)需要事先設(shè)置。
[0131]該實(shí)施方式中,還可以當(dāng)存在孤立點(diǎn)時(shí),對(duì)所述最終的得分進(jìn)行減分;孤立點(diǎn)是指區(qū)域內(nèi)部位置值與上述均值之差大于預(yù)定閾值的點(diǎn);一個(gè)區(qū)域中可能有也可能沒(méi)有孤立點(diǎn)。
[0132]本實(shí)施例的一種實(shí)施方式中,步驟S106具體可以包括:
[0133]將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn);X為預(yù)設(shè)的正整數(shù);
[0134]如果候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn),則只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn);
[0135]在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽;不同候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,所選出的候選標(biāo)簽可能不同;
[0136]選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn);其它實(shí)施方式中,也可以根據(jù)不同標(biāo)簽的要求,在候選節(jié)點(diǎn)本身或孩子節(jié)點(diǎn)中選擇最終節(jié)點(diǎn);
[0137]根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
[0138]比如對(duì)于一個(gè)候選節(jié)點(diǎn)上的標(biāo)簽“價(jià)格”,在該候選節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中獲取該標(biāo)簽的值“20”并輸出。輸出的值可能需要?dú)w一化,或者需要前后節(jié)點(diǎn)的值來(lái)豐富。輸出值的文本歸一化是指依賴預(yù)先指定的規(guī)則(如移除空格、黑名單關(guān)鍵詞、某些指定的符號(hào))等進(jìn)行歸一;也可以根據(jù)標(biāo)簽類型和所依附的節(jié)點(diǎn)的值來(lái)豐富,如某個(gè)價(jià)格標(biāo)簽,選中的值為10,前一個(gè)節(jié)點(diǎn)為貨幣符號(hào),后一個(gè)為單位,則可以合并值。
[0139]實(shí)施例二,一種從網(wǎng)頁(yè)中抽取信息的裝置,包括:
[0140]標(biāo)記單元,用于對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽;
[0141]原始分計(jì)算單元,用于分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分;
[0142]傳遞單元,用于對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn);
[0143]區(qū)域分計(jì)算單元,用于分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分;
[0144]輸出單元,用于選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
[0145]本實(shí)施例的一種實(shí)施方式中,所述裝置還可以包括:
[0146]區(qū)域分修正單元,用于從區(qū)域分計(jì)算單元得到各區(qū)域的得分;對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分;將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分;分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后將各區(qū)域最終的得分發(fā)送給所述輸出單元。
[0147]本實(shí)施例的一種實(shí)施方式中,原始分計(jì)算單元分別根據(jù)各節(jié)點(diǎn)每個(gè)特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分可以是指:
[0148]原始分計(jì)算單元對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作:獲取該節(jié)點(diǎn)每個(gè)特征的值;對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值;將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
[0149]本實(shí)施例的一種實(shí)施方式中,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減可以是指:
[0150]所述傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
[0151 ] Sl=SX ((1-1i1) +Ii1DdAts)
[0152]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0153]相應(yīng)地,區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指:
[0154]區(qū)域分計(jì)算單元在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
[0155]本實(shí)施例的一種實(shí)施方式中,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減可以是指:
[0156]傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
[0157]Sq=S X ((l-k2) +k2Dd/Ds)
[0158]其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(0,I),S為原始分;
[0159]相應(yīng)地,區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指:
[0160]區(qū)域分計(jì)算單元將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分按分別相力口,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
[0161]本實(shí)施例的一種實(shí)施方式中,所述輸出單元具體可以包括:
[0162]區(qū)域排序模塊,用于將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn)為預(yù)設(shè)的正整數(shù);
[0163]篩選模塊,用于當(dāng)候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn)時(shí),只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn);
[0164]標(biāo)簽排序模塊,用于在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽;
[0165]選擇模塊,用于選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn);
[0166]輸出模塊,用于根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
[0167]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過(guò)程序來(lái)指令相關(guān)硬件完成,所述程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如只讀存儲(chǔ)器、磁盤或光盤等??蛇x地,上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來(lái)實(shí)現(xiàn)。相應(yīng)地,上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。本申請(qǐng)不限制于任何特定形式的硬件和軟件的結(jié)合。
[0168]當(dāng)然,本申請(qǐng)還可有其他多種實(shí)施例,在不背離本申請(qǐng)精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本申請(qǐng)作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本申請(qǐng)的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種從網(wǎng)頁(yè)中抽取信息的方法,包括: 對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽; 分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分; 對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)點(diǎn); 分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分; 選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
2.如權(quán)利要求1所述的方法,其特征在于,選擇得分高的一個(gè)或多個(gè)區(qū)域的步驟前還包括: 對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)中目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分; 將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分; 分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后進(jìn)行選擇得分高的一個(gè)或多個(gè)區(qū)域的步驟。
3.如權(quán)利要求1所述的方法,其特征在于,分別根據(jù)各節(jié)點(diǎn)每個(gè)特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分的步驟包括: 對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作: 獲取該節(jié)點(diǎn)每個(gè)特征的值; 對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值,將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
4.如權(quán)利要求1所述的方法,其特征在于,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟包括: 對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
Sl=SX ((Hi1Hk1DdZDs) 其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(O,I),S為原始分; 分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟包括: 在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
5.如權(quán)利要求1所述的方法,其特征在于,對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減的步驟包括: 對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
Sq=SX ((l-k2)+k2Dd/Ds) 其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(O,I),S為原始分; 分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分的步驟包括: 將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分分別相加,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
6.如權(quán)利要求1所述的方法,其特征在于,選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的原始分的步驟包括: 將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn)^為預(yù)設(shè)的正整數(shù); 如果候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn),則只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn);在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽; 選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn); 根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
7.—種從網(wǎng)頁(yè)中抽取信息的裝置,其特征在于,包括: 標(biāo)記單元,用于對(duì)于輸入的網(wǎng)頁(yè),在該網(wǎng)頁(yè)對(duì)應(yīng)的文檔對(duì)象模型樹(shù)中,分別為每個(gè)節(jié)點(diǎn)添加預(yù)定標(biāo)簽集合中的各標(biāo)簽; 原始分計(jì)算單元,用于分別根據(jù)各節(jié)點(diǎn)每個(gè)預(yù)定的特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分; 傳遞單元,用于對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減后傳遞給該節(jié)點(diǎn)所在子樹(shù)的根節(jié)占.區(qū)域分計(jì)算單元,用于分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分,將每個(gè)標(biāo)簽的傳遞分之和作為該子樹(shù)所表示的區(qū)域的得分;輸出單元,用于選擇得分高的一個(gè)或多個(gè)區(qū)域,并輸出所選擇區(qū)域中標(biāo)簽的值。
8.如權(quán)利要求7所述的裝置,其特征在于,還包括: 區(qū)域分修正單元,用于從區(qū)域分計(jì)算單元得到各區(qū)域的得分;對(duì)于各區(qū)域,分別用該區(qū)域的得分乘以該區(qū)域中存在的目標(biāo)標(biāo)簽數(shù)與文檔對(duì)象模型樹(shù)目標(biāo)標(biāo)簽總數(shù)的比值,得到該區(qū)域的共現(xiàn)分;將各目標(biāo)節(jié)點(diǎn)的位置值相加再除以網(wǎng)頁(yè)中總的節(jié)點(diǎn)數(shù)得到均值;對(duì)于各區(qū)域,分別將該區(qū)域中各個(gè)節(jié)點(diǎn)的位置值與均值之差絕對(duì)值的總和除以該區(qū)域中總的節(jié)點(diǎn)數(shù),得到該區(qū)域的密度;計(jì)算該區(qū)域所對(duì)應(yīng)的子樹(shù)的根節(jié)點(diǎn)的位置值與文檔對(duì)象模型樹(shù)的根節(jié)點(diǎn)位置值之差的絕對(duì)值,得到該區(qū)域的距離,對(duì)該區(qū)域的密度和距離進(jìn)行加權(quán)求和,得到該區(qū)域的結(jié)構(gòu)分;分別根據(jù)各區(qū)域的共現(xiàn)分和結(jié)構(gòu)分加權(quán)求和得到各區(qū)域最終的得分;然后將各區(qū)域最終的得分發(fā)送給所述輸出單元。
9.如權(quán)利要求7所述的裝置,其特征在于,原始分計(jì)算單元分別根據(jù)各節(jié)點(diǎn)每個(gè)特征的值在各標(biāo)簽中對(duì)應(yīng)的分值,得到各節(jié)點(diǎn)上各標(biāo)簽的原始分是指: 原始分計(jì)算單元對(duì)于各節(jié)點(diǎn)分別進(jìn)行下述操作:獲取該節(jié)點(diǎn)每個(gè)特征的值;對(duì)于該節(jié)點(diǎn)上的各標(biāo)簽,分別查詢各特征的值在該標(biāo)簽中對(duì)應(yīng)的分值,將查詢到的分值分別乘以該標(biāo)簽中相應(yīng)特征的權(quán)重后相加,將相加結(jié)果作為該節(jié)點(diǎn)上該標(biāo)簽的原始分。
10.如權(quán)利要求7所述的裝置,其特征在于,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減是指: 所述傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行線性衰減,得到衰減結(jié)果&為:
Sl=SX ((Hi1Hk1DdZDs) 其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度丸為線性傳遞衰減指數(shù),取值范圍(0,I),S為原始分; 區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指: 區(qū)域分計(jì)算單元在各子樹(shù)的根節(jié)點(diǎn)所收到的各標(biāo)簽衰減后的原始分中,分別為各標(biāo)簽選出一個(gè)最大的衰減后的原始分,作為該根節(jié)點(diǎn)中該標(biāo)簽的傳遞分。
11.如權(quán)利要求7所述的裝置,其特征在于,傳遞單元對(duì)各節(jié)點(diǎn)上各標(biāo)簽的原始分進(jìn)行衰減是指: 傳遞單元對(duì)標(biāo)簽的原始分進(jìn)行指數(shù)衰減,得到衰減結(jié)果Sq為:
Sq=SX ((l-k2)+k2Dd/Ds) 其中,Dd為傳遞中目的節(jié)點(diǎn)的深度,Ds為傳遞中源節(jié)點(diǎn)的深度;k2為指數(shù)傳遞衰減指數(shù),取值范圍(0,I),S為原始分; 區(qū)域分計(jì)算單元分別根據(jù)各子樹(shù)的根節(jié)點(diǎn)所收到的衰減后的原始分,確定該根節(jié)點(diǎn)上每個(gè)標(biāo)簽的傳遞分是指: 區(qū)域分計(jì)算單元將各子樹(shù)的根節(jié)點(diǎn)所收到的不同標(biāo)簽衰減后的原始分按分別相加,將結(jié)果作為該根節(jié)點(diǎn)中相應(yīng)標(biāo)簽的傳遞分。
12.如權(quán)利要求7所述的裝置,其特征在于,所述輸出單元包括: 區(qū)域排序模塊,用于將所述文檔對(duì)象模型樹(shù)中所有的區(qū)域根據(jù)得分進(jìn)行排序,按照從高到低的順序選取前X個(gè)區(qū)域,將所選取區(qū)域?qū)?yīng)的子樹(shù)的根節(jié)點(diǎn)作為候選節(jié)點(diǎn)為預(yù)設(shè)的正整數(shù); 篩選模塊,用于當(dāng)候選節(jié)點(diǎn)是其它候選節(jié)點(diǎn)的祖先節(jié)點(diǎn)時(shí),只保留作為孩子節(jié)點(diǎn)的候選節(jié)點(diǎn); 標(biāo)簽排序模塊,用于在各候選節(jié)點(diǎn)作為根節(jié)點(diǎn)的子樹(shù)中,分別按照標(biāo)簽的原始分對(duì)各標(biāo)簽進(jìn)行排序,并選擇原始分最高的標(biāo)簽作為候選標(biāo)簽; 選擇模塊,用于選取該候選標(biāo)簽所在的節(jié)點(diǎn)作為最終節(jié)點(diǎn); 輸出模塊,用于根據(jù)最終節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,輸出候選標(biāo)簽的值。
【文檔編號(hào)】G06F17/30GK104346405SQ201310344292
【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2013年8月8日 優(yōu)先權(quán)日:2013年8月8日
【發(fā)明者】謝宣松, 耿小亮, 孫健 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司