一種獲取業(yè)務(wù)信息的方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種獲取業(yè)務(wù)信息的方法及裝置,所述方法包括:獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。本發(fā)明提供的獲取業(yè)務(wù)信息的方法用以解決現(xiàn)有業(yè)務(wù)信息獲取方式中提取并保存原始網(wǎng)頁內(nèi)容從而造成的浪費(fèi)存儲(chǔ)資源,且獲取結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息的問題。
【專利說明】一種獲取業(yè)務(wù)信息的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)搜索技術(shù),尤其涉及一種獲取業(yè)務(wù)信息的方法及裝置。
【背景技術(shù)】
[0002]垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行搜索。垂直搜索引擎專注于特定的搜索領(lǐng)域和搜索需求,通過針對(duì)某一特定領(lǐng)域、特定人群或特定需求提供有一定價(jià)值的信息和相關(guān)服務(wù),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。例如,房產(chǎn)信息搜索、比較購物搜索等。
[0003]但現(xiàn)有的垂直搜索引擎只是在特定的業(yè)務(wù)相關(guān)信息上對(duì)其搜索內(nèi)容和范圍進(jìn)行限制和過濾,獲取的結(jié)果中不但包含有較多與所述業(yè)務(wù)無關(guān)的信息,且獲取的業(yè)務(wù)信息缺乏組織性和關(guān)聯(lián)性,因此此種業(yè)務(wù)信息的獲取方式不僅浪費(fèi)存儲(chǔ)資源,而且獲取的結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請(qǐng)?zhí)峁┝艘环N獲取業(yè)務(wù)信息的方法及裝置,用以解決現(xiàn)有業(yè)務(wù)信息獲取方式浪費(fèi)存儲(chǔ)資源且獲取結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息的問題。
[0005]一種獲取業(yè)務(wù)信息的方法,包括:
[0006]獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0007]在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0008]依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性;
[0009]將從各個(gè)目標(biāo)區(qū)域中提取出的屬性進(jìn)行合并,并將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0010]優(yōu)選的,所述獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁包括:
[0011]利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁;
[0012]依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集;
[0013]計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度;
[0014]提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
[0015]優(yōu)選的,所述在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,包括:
[0016]將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹;[0017]遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊;
[0018]根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0019]優(yōu)選的,所述依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,包括:
[0020]依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn);
[0021]通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn);
[0022]判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的聞低確定可能性最聞的關(guān)聯(lián)節(jié)點(diǎn);
[0023]提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0024]優(yōu)選的,還包括:
[0025]將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù);
[0026]在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng);
[0027]若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存;
[0028]若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0029]一種獲取業(yè)務(wù)信息的裝置,包括:
[0030]目標(biāo)網(wǎng)頁獲取單元,用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0031]目標(biāo)區(qū)域提取單元,用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0032]信息提取單元,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0033]優(yōu)選的,所述目標(biāo)網(wǎng)頁獲取單元包括:
[0034]原始網(wǎng)頁獲取單元,用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁;
[0035]分詞單元,用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集;
[0036]計(jì)算單元,用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度;提取單元,用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。[0037]優(yōu)選的,所述目標(biāo)區(qū)域提取單元包括:
[0038]解析單元,用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為D0M(Document Object Model,文件對(duì)象模型)樹;
[0039]語義塊劃分單元,用于遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊;
[0040]目標(biāo)語義塊提取單元,用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0041]優(yōu)選的,所述信息提取單元包括:
[0042]目標(biāo)節(jié)點(diǎn)定位單元,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn);
[0043]關(guān)聯(lián)節(jié)點(diǎn)提取單元,用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn);
[0044]關(guān)聯(lián)節(jié)點(diǎn)確定單元,用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn);
[0045]屬性值信息提取單元,用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0046]優(yōu)選的,還包括:
[0047]數(shù)據(jù)區(qū)分單元,用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù);
[0048]輔助數(shù)據(jù)確定單元,用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng);
[0049]第一合并單元,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存;
[0050]第二合并單元,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0051]由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明公開提供了一種獲取業(yè)務(wù)信息的方法及裝置,獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息?,F(xiàn)有獲取業(yè)務(wù)信息的方式將搜索獲取到的原始網(wǎng)頁進(jìn)行保存,本發(fā)明提供的獲取業(yè)務(wù)信息的方法中在獲取的目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域,刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息,當(dāng)然,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁,本發(fā)明提供的方法不僅會(huì)幫助節(jié)省存儲(chǔ)資源,而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
【專利附圖】
【附圖說明】[0052]為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0053]圖1示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的一個(gè)實(shí)施例的流程示意圖;
[0054]圖2示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的另一個(gè)實(shí)施例的流程示意圖;
[0055]圖3示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的流程示意圖;
[0056]圖4示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的部分流程示意圖;
[0057]圖5示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0058]圖6示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0059]圖7示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0060]圖8示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0061]圖9為一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM樹后的結(jié)構(gòu)形式。
【具體實(shí)施方式】
[0062]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0063]本發(fā)明公開了一種獲取業(yè)務(wù)信息的方法,利用所述方法可以在內(nèi)容量巨大的互聯(lián)網(wǎng)中的網(wǎng)頁信息中提取與所述業(yè)務(wù)信息相關(guān)的結(jié)構(gòu)化數(shù)據(jù)信息。所述業(yè)務(wù)信息是指某一特定領(lǐng)域、行業(yè)的需求信息,比如房產(chǎn)行業(yè)。提取的所述結(jié)構(gòu)化數(shù)據(jù)信息直觀清楚地反映了所述業(yè)務(wù)信息。
[0064]參閱圖1,示出了本發(fā)明一種獲取業(yè)務(wù)信息方法一個(gè)實(shí)施例的流程示意圖,本實(shí)施例方法包括:
[0065]步驟SlOl:獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0066]在現(xiàn)有通用搜索引擎或其他搜索引擎中輸入所述業(yè)務(wù)信息的關(guān)鍵詞進(jìn)行搜索,并按預(yù)設(shè)的選取方式從所述搜索結(jié)果中選取至少兩個(gè)原始頁面的鏈接形成鏈接集合。優(yōu)選的,所述選取方式可以是在搜索結(jié)果中按照各個(gè)網(wǎng)頁鏈接的前后排列順序進(jìn)行選取。
[0067]需要說明的是,此處的選取只是機(jī)械地進(jìn)行鏈接的篩選,并沒有依據(jù)網(wǎng)頁內(nèi)容進(jìn)行篩選過濾。則所述鏈接集合中的鏈接指示的頁面中有所述業(yè)務(wù)信息的相關(guān)的原始網(wǎng)頁,也可能包含有與所述業(yè)務(wù)信息無關(guān)的原始網(wǎng)頁。例如,利用百度搜索進(jìn)行的“北京房產(chǎn)”搜索,鏈接指示的原始頁面中有介紹北京出售的各個(gè)房產(chǎn)信息的原始網(wǎng)頁,也可能有的鏈接指示的原始頁面是介紹北京購買房產(chǎn)的注意事項(xiàng)或北京房產(chǎn)的政策信息的原始網(wǎng)頁。
[0068]分別獲取所述鏈接集合中的各個(gè)鏈接指示的原始網(wǎng)頁內(nèi)容,利用預(yù)設(shè)的選取規(guī)貝U,根據(jù)各個(gè)原始網(wǎng)頁的內(nèi)容獲取至少兩個(gè)與所述業(yè)務(wù)信息相關(guān)的原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。此處的選取是通過對(duì)所述原始網(wǎng)頁的內(nèi)容進(jìn)行檢測(cè),依據(jù)所述內(nèi)容檢測(cè)結(jié)果對(duì)各個(gè)原始網(wǎng)頁進(jìn)行篩選。
[0069]優(yōu)選的,所述選取規(guī)則可以利用對(duì)所述原始網(wǎng)頁內(nèi)容進(jìn)行分詞處理形成詞語集,將所述詞語集的信息與預(yù)先建立的指標(biāo)庫中的指標(biāo)信息進(jìn)行對(duì)比,選取對(duì)比結(jié)果滿足預(yù)設(shè)范圍的詞語集所對(duì)應(yīng)的原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。其中,所述預(yù)先建立的指標(biāo)庫中包含的指標(biāo)信息用以描述所述業(yè)務(wù)信息的屬性,比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。需要說明的是,所述對(duì)比結(jié)果表明了所述詞語集對(duì)應(yīng)的原始網(wǎng)頁中包含所述業(yè)務(wù)信息的可能性,包含越多所述知識(shí)庫中的指標(biāo)的原始網(wǎng)頁越可能是與所述業(yè)務(wù)信息相關(guān)的網(wǎng)頁。
[0070]另外,可以對(duì)所述獲取的各個(gè)目標(biāo)網(wǎng)頁進(jìn)行分布式存儲(chǔ),并建立哈希索引。
[0071]步驟S102:在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0072]互聯(lián)網(wǎng)上的網(wǎng)頁內(nèi)容幾乎都包含有與所介紹的信息無關(guān)的內(nèi)容,比如廣告、推薦、導(dǎo)航、網(wǎng)站基本信息等,則導(dǎo)致獲得的各個(gè)目標(biāo)網(wǎng)頁中也會(huì)包含有上述與所述業(yè)務(wù)無關(guān)的內(nèi)容。本步驟所完成的工作是確定和提取目標(biāo)區(qū)域,所述目標(biāo)區(qū)域就是在網(wǎng)頁中主要介紹業(yè)務(wù)內(nèi)容的區(qū)域,從而將所述目標(biāo)網(wǎng)頁中的業(yè)務(wù)無關(guān)信息進(jìn)行過濾。
[0073]所述目標(biāo)區(qū)域的確定是基于對(duì)所述原始網(wǎng)頁進(jìn)行區(qū)域劃分,所述進(jìn)行區(qū)域劃分的方式可以有多種,例如,可以利用VIPS (Vision-based Page Segmentation,基于視覺信息的網(wǎng)頁分塊)算法。當(dāng)用戶觀察互聯(lián)網(wǎng)頁面的時(shí)候會(huì)自然而然的把具有相同的視覺特征的區(qū)域內(nèi)容作為單一對(duì)象來看待,而不管所述頁面的內(nèi)部結(jié)構(gòu)是如何描述的。所述具有相同的視覺特征的區(qū)域被定義為語義塊。因此基于一些視覺提示如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等可用來劃分語義塊。
[0074]進(jìn)一步的,在劃分的各個(gè)語義塊中獲取目標(biāo)語義塊,其中,所述目標(biāo)語義塊即主要介紹所述業(yè)務(wù)信息的語義塊。
[0075]步驟S103:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性;
[0076]所述指標(biāo)庫是根據(jù)所述業(yè)務(wù)信息預(yù)先建立的,用于描述所述業(yè)務(wù)信息。具體的,所述指標(biāo)庫中的各項(xiàng)指標(biāo)來描述所述業(yè)務(wù)信息的各項(xiàng)屬性,所述指標(biāo)庫中的指標(biāo)關(guān)系來描述各個(gè)指標(biāo)間的關(guān)聯(lián)關(guān)系。例如,描述房產(chǎn)業(yè)務(wù)信息的指標(biāo)中包含有項(xiàng)目簡介指標(biāo)、交通狀況指標(biāo)、軌道交通指標(biāo)、周邊公交指標(biāo)、基本信息指標(biāo)、物業(yè)類別指標(biāo)、建筑面積指標(biāo)、所屬商圈指標(biāo)、綠化率指標(biāo)等;各個(gè)指標(biāo)間的關(guān)聯(lián)關(guān)系為:所述指標(biāo)可以首先分為三個(gè)方面,即項(xiàng)目介紹指標(biāo)、交通狀況指標(biāo)、基本信息指標(biāo)。其中,交通狀況指標(biāo)包括軌道交通指標(biāo)和周邊公交指標(biāo),基本信息指標(biāo)包括物業(yè)類別指標(biāo)、建筑面積指標(biāo)、所述商圈指標(biāo)和綠化率指標(biāo)
坐寸o
[0077]在各個(gè)目標(biāo)區(qū)域中通過查找定位與所述指標(biāo)相同或相似的內(nèi)容,所述內(nèi)容即所述業(yè)務(wù)信息的屬性,提取所述屬性及所述屬性對(duì)應(yīng)的屬性值信息。其中,所述查找定位的方式可以利用正則表達(dá)式技術(shù)。正則表達(dá)式通常由若干普通字符(字符a到z)以及特殊字符(元字符meta character)組成?,F(xiàn)在,多種程序設(shè)計(jì)語言都支持正則表達(dá)式,例如Java在jdkl.4版本后增加了對(duì)正則表達(dá)式的支持。JDK中處理正則表達(dá)式的類主要包括兩個(gè)類:Pattern和Matcher。正則表達(dá)式首先編譯成為Pattern類的實(shí)例,所述Pattern實(shí)例使用matcher ()方法生成Matcher類實(shí)例,使用所述Matcher實(shí)例以編譯的正則表達(dá)式為基礎(chǔ)對(duì)目標(biāo)字符串進(jìn)行匹配工作。Matcher對(duì)象定義了字符串的處理方法,可以根據(jù)既有模式完成對(duì)字符串的查找操作。
[0078]優(yōu)選的,所述定位并提取方法還可以利用EFLA (Element Function and LayoutAnalyzer,元素功能及部件分析)算法。所述算法的具體工作過程在下文進(jìn)行介紹。
[0079]需要說明的是,各個(gè)提取出的目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性,所述屬性不一定與所述指標(biāo)庫中的各項(xiàng)指標(biāo)完全相同,但只要所表達(dá)的意思一致即可。例如,所述指標(biāo)庫中包含的指標(biāo)為“交通狀況”指標(biāo),所述目標(biāo)區(qū)域中的業(yè)務(wù)信息的屬性為“周圍交通”。
[0080]在各個(gè)目標(biāo)區(qū)域中定位到所述業(yè)務(wù)信息的屬性后進(jìn)一步查找所述屬性對(duì)應(yīng)的屬性值信息,并對(duì)查找到所述各個(gè)屬性值信息進(jìn)行提取。例如,房產(chǎn)業(yè)務(wù)中定位到的物業(yè)類別屬性,其屬性值為“普通住宅”;停車位屬性,其屬性值為“共455個(gè)停車位,車位配比為1:1”,將所述“物業(yè)類別”及“停車位”進(jìn)行提取,并對(duì)應(yīng)地提取“普通住宅”及“共455個(gè)停車位,車位配比為1:1”信息。
[0081]智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第一任務(wù)腳本序列,執(zhí)行所述第一任務(wù)腳本序列自動(dòng)完成上述步驟S103的工作。其中,所述第一任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0082]本實(shí)施例中,獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁,在所述目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域,刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息,當(dāng)然,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁,本發(fā)明提供的方法不僅會(huì)幫助節(jié)省存儲(chǔ)資源,而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
[0083]參閱圖2,示出了本發(fā)明一種獲取業(yè)務(wù)信息方法另一個(gè)實(shí)施例的流程示意圖,本實(shí)施例的方法包括:
[0084]步驟S201:利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁;
[0085]利用一個(gè)或多個(gè)現(xiàn)有通用搜索引擎如360搜索、百度搜索、google搜索等作為搜索數(shù)據(jù)源入口,通過在所述一個(gè)或多個(gè)搜索引擎中輸入所述業(yè)務(wù)信息的關(guān)鍵詞獲取搜索結(jié)果,并按預(yù)設(shè)的方式從所述搜索結(jié)果中獲取預(yù)設(shè)數(shù)目的鏈接形成種子鏈接庫。例如,在百度搜索中輸入“北京天和嘉園”的關(guān)鍵詞,共獲得約848,000個(gè)搜索結(jié)果,可以所述搜索結(jié)果中按照排列順序獲取前二十項(xiàng)的鏈接。在每一個(gè)鏈接指示的網(wǎng)頁中進(jìn)行檢測(cè),若在所述網(wǎng)頁中有鏈接指示到其他頁面,則獲取所述其他頁面的鏈接,如此進(jìn)行3-4層的深度鏈接的獲取。
[0086]進(jìn)一步,獲取所述提取的各個(gè)鏈接指示的網(wǎng)頁內(nèi)容,可以對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分布式的存儲(chǔ)并建立哈希索引。
[0087]步驟S202:依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集;
[0088]所述預(yù)先建立的業(yè)務(wù)詞庫包含有與所述業(yè)務(wù)信息有關(guān)的特定業(yè)務(wù)詞匯,所述特定業(yè)務(wù)詞匯用以對(duì)所述分詞處理進(jìn)行指導(dǎo),可以提高分詞的準(zhǔn)確度。例如,所述房產(chǎn)業(yè)務(wù)信息中包含的特定業(yè)務(wù)詞匯有“房地產(chǎn)開發(fā)公司” “戶型面積”等,此些詞匯可以作為分詞標(biāo)準(zhǔn),在分詞過程中將檢測(cè)到的所述詞語處理為一個(gè)完整的詞匯,并不會(huì)將其拆分為“房地產(chǎn)” “開發(fā)” “公司” “戶型” “面積”單獨(dú)的詞語。
[0089]本步驟完成的工作是對(duì)所述各個(gè)原始網(wǎng)頁進(jìn)行分詞處理,即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列,使用的算法可以為基于字符串的分詞方法。具體的,按照掃描方向的不同,可以是正向匹配,也可以是逆向匹配;按照不同長度優(yōu)先匹配的不同,可以是最大匹配,也可以是最小匹配;按照是否與詞性標(biāo)注過程相結(jié)合,可以是單純分析,也可以是分詞和標(biāo)注想結(jié)合的一體化方法。需要說明的是,不管使用上述何種或何幾種方法結(jié)合進(jìn)行的分詞,都屬于本發(fā)明保護(hù)范圍。
[0090]經(jīng)過分詞處理后,各個(gè)目標(biāo)網(wǎng)頁內(nèi)容被劃分為各個(gè)詞語集。
[0091]步驟S203:計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度;
[0092]所述預(yù)先建立的指標(biāo)庫中的指標(biāo)如實(shí)施例一中的指標(biāo)庫。所述指標(biāo)庫中的指標(biāo)用以描述所述業(yè)務(wù)信息的屬性。比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。
[0093]在所述各個(gè)詞語集中分別查找所述指標(biāo)庫中包含的指標(biāo),計(jì)算所述指標(biāo)在各個(gè)詞語集中所占的比例。例如,某個(gè)詞語集中共500個(gè)詞匯,其中包含指標(biāo)庫中的指標(biāo)數(shù)為200,則所述比例為2/5。
[0094]所述信息熵是對(duì)信息的量化,因?yàn)樾畔⑹莻€(gè)抽象的概念,用所述信息熵來對(duì)信息的信息量進(jìn)行度量。信息熵的計(jì)算公式為H(X)=E[I(Xi)]=E[log(2,l/p(Xi))]=- E P(Xi)log(2, P(Xi)) (i=l, 2,..n)。其中,I (Xi)表示隨機(jī)變量Xi的信息量;E代表了期望函數(shù);P(Xi)代表了 Xi的機(jī)率質(zhì)量函數(shù)。
[0095]將所述詞語庫中的詞語作為變量Xi,利用上述公式計(jì)算所述詞語集的信息熵及所述指標(biāo)庫的信息熵,將計(jì)算獲得的兩個(gè)信息熵進(jìn)行差值比較以查看所述兩個(gè)信息熵的相似度,所述詞語集的信息熵與所述指標(biāo)庫的信息熵差值越小,則代表所述詞語集的信息熵與所述指標(biāo)庫的信息熵越相似,則所述詞語集對(duì)應(yīng)的目標(biāo)網(wǎng)頁的內(nèi)容與所述業(yè)務(wù)信息越接近。
[0096]例如,第一詞語集的信息熵為9,第二詞語集的信息熵為6,所述指標(biāo)庫的信息熵為10,則所述第一詞語集的信息熵與所述指標(biāo)庫的信息熵差值為1,所述第二詞語集的信息熵與所述指標(biāo)庫的信息熵的差值為4。
[0097]需要說明的是,本步驟可以單獨(dú)計(jì)算所述指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例,也可以計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度,或者是同時(shí)進(jìn)行上述兩種計(jì)算。
[0098]步驟S204:提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
[0099]所述相似度的預(yù)設(shè)范圍指的是所述詞語集的信息熵與所述指標(biāo)庫的信息熵的差值在某個(gè)范圍內(nèi)。本步驟中將比例和相似度作為確定并提取目標(biāo)網(wǎng)頁的指標(biāo),則具體的提取標(biāo)準(zhǔn)可以有如下三種:即所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例滿足所述比例的預(yù)設(shè)范圍,或者,所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值滿足所述相似度的預(yù)設(shè)范圍,或者,以上兩者同時(shí)滿足條件。
[0100]按上述第一種方式來說,例如,所述比例的預(yù)設(shè)范圍為1/5至3/5,若原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例為2/5,則認(rèn)為滿足條件。按上述第二種方式來說,例如,所述相似度的預(yù)設(shè)范圍為差值在I至4,若原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值為3,則認(rèn)為滿足條件。按上述第三種方式來說,綜合考慮以上兩種方式,若原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例為2/5,但該網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值為5,則認(rèn)為所述原始網(wǎng)頁不滿足提取條件。
[0101]步驟S205:在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0102]步驟S206:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0103]需要說明的是,步驟205和步驟206的操作過程可以參見圖1所示實(shí)施例的步驟102和步驟103的相關(guān)描述,在此不再贅述。
[0104]由上述方案可知,本發(fā)明提供了一種獲取業(yè)務(wù)信息方法的另一個(gè)實(shí)施例,通過現(xiàn)有的搜索引擎獲得預(yù)設(shè)數(shù)目的原始網(wǎng)頁,提高了原始數(shù)據(jù)來源的質(zhì)量和效率。同時(shí)預(yù)先建立的有關(guān)業(yè)務(wù)信息的專業(yè)詞匯庫對(duì)獲取的所述原始網(wǎng)頁進(jìn)行分詞,提高了分詞的準(zhǔn)確度,為后續(xù)目標(biāo)網(wǎng)頁的提取奠定了較好的基礎(chǔ)。
[0105]參閱圖3,示出了本發(fā)明一種獲取業(yè)務(wù)信息的方法的又一個(gè)實(shí)施例的流程示意圖,所述方法包括:
[0106]步驟S301:獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0107]步驟S302:將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹;
[0108]通過利用現(xiàn)有的解析工具如NekoHTML可以將所述各個(gè)網(wǎng)頁解析為DOM樹。所述文檔對(duì)象模型DOM是一種用于HTML (Hypertext Markup Language,超文本標(biāo)記語言)和XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文檔的編程接口,它給文檔提供了一種結(jié)構(gòu)化的表示方法,可以改變文檔的內(nèi)容和呈現(xiàn)方式。DOM的內(nèi)部邏輯結(jié)構(gòu)通常表現(xiàn)為節(jié)點(diǎn)樹的形式。通過對(duì)HTML網(wǎng)頁的解析處理,HTML網(wǎng)頁中的各種元素轉(zhuǎn)化為DOM中的節(jié)點(diǎn)對(duì)象,請(qǐng)參閱圖9,示出了一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM后的結(jié)構(gòu)形式。
[0109]步驟S303:遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊;
[0110]在DOM中,所有HTML元素被定義為對(duì)象,對(duì)象方法和對(duì)象屬性是接口。通過調(diào)用接口中的方法實(shí)現(xiàn)對(duì)DOM樹的遍歷。DOM的遍歷可以分為深度優(yōu)先的遍歷和廣度優(yōu)先的遍歷,不管使用何種方法對(duì)DOM樹的遍歷,都屬于本實(shí)施保護(hù)的范圍。例如,若使用深度優(yōu)先的遍歷,具體步驟為:在DOM獲取所述根節(jié)點(diǎn)即〈HTML〉,然后用$nod->first_child()方法找出〈HTML〉節(jié)點(diǎn)的第一個(gè)未被訪問的直接子節(jié)點(diǎn),然后再以此節(jié)點(diǎn)為頂點(diǎn),繼續(xù)查找所述節(jié)點(diǎn)的下個(gè)新頂點(diǎn)進(jìn)行訪問,重復(fù)此步驟直至所有節(jié)點(diǎn)都被訪問完為止。
[0111]在對(duì)DOM樹的遍歷過程中會(huì)檢測(cè)到所述各個(gè)節(jié)點(diǎn)標(biāo)簽的屬性,其中一些是有關(guān)視覺信息的,如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等。通常,同一個(gè)頁面中內(nèi)容相關(guān)的信息被放在同一個(gè)區(qū)域中,例如:廣告區(qū)域,導(dǎo)航區(qū)域,正文區(qū)域等。同一個(gè)區(qū)域中會(huì)使用相同的背景顏色、字體顏色、字體大小等,因此利用這些視覺信息提示,將所述DOM樹劃分為至少兩個(gè)區(qū)域,所述區(qū)域在語義內(nèi)容上是相關(guān)的,因此被稱為語義塊。
[0112]優(yōu)選的,所述具體的語義塊的劃分算法使用VIPS (Vision-based PageSegmentation,基于視覺信息的網(wǎng)頁分塊)算法。它首先從DOM樹中提取出所有的合適的頁面塊,然后根據(jù)這些頁面塊檢測(cè)出它們之間的所有的分割條,包括水平和垂直方向。最后基于這些分割條,頁面的語義結(jié)構(gòu)將被重新構(gòu)建。對(duì)于每一個(gè)語義塊又可以使用VIPS算法繼續(xù)分割為更小的語義塊。因此整個(gè)VIPS算法是自頂向下,非常高效的。
[0113]步驟S304:根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0114]所述確定目標(biāo)語義塊可以利用模糊邏輯算法或經(jīng)過訓(xùn)練的BP (BackPropagation)網(wǎng)絡(luò)神經(jīng)算法。所述語義塊的相關(guān)內(nèi)容即位置信息、布局信息、大小信息等。將所述各個(gè)語義塊的有關(guān)信息作為所述算法的輸入?yún)?shù),利用相關(guān)算法的規(guī)則可以得知,所述各個(gè)語義塊具體包含的相關(guān)信息。例如,輸入某個(gè)語義塊的相對(duì)于網(wǎng)頁整體的位置,得知其為導(dǎo)航語義塊。
[0115]利用上述算法可以確定目標(biāo)語義塊,所述目標(biāo)語義塊即網(wǎng)頁中的正文內(nèi)容。所述正文內(nèi)容中包含有所述業(yè)務(wù)信息的屬性及屬性值信息。提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域以對(duì)其進(jìn)行后續(xù)提取屬性及屬性值的工作。
[0116]當(dāng)然,還有其他算法來確定目標(biāo)語義塊,在此不一一進(jìn)行列舉。
[0117]步驟S305:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn);
[0118]提取的各個(gè)目標(biāo)語義塊是從DOM樹中依據(jù)視覺信息進(jìn)行提取獲得的,被視為所述DOM樹的子樹,利用步驟S303中有關(guān)介紹遍歷DOM樹的方法可以實(shí)現(xiàn)對(duì)DOM子樹的遍歷,在遍歷過程中獲取所述DOM子樹的節(jié)點(diǎn),所述節(jié)點(diǎn)即所述目標(biāo)語義塊中網(wǎng)頁標(biāo)簽元素的內(nèi)容。將所述標(biāo)簽元素的內(nèi)容與預(yù)先建立是指標(biāo)庫中的指標(biāo)進(jìn)行對(duì)比以確定所述業(yè)務(wù)屬性的目標(biāo)節(jié)點(diǎn)。例如,指標(biāo)庫中有物業(yè)公司這一指標(biāo),所述DOM子樹中有節(jié)點(diǎn)為標(biāo)簽元素<TD>,其內(nèi)容為“物業(yè)公司”,則將所述節(jié)點(diǎn)確定為目標(biāo)節(jié)點(diǎn)。
[0119]需要說明的是,所述預(yù)先建立的指標(biāo)庫即第一個(gè)實(shí)施例中介紹的指標(biāo)庫,在此不進(jìn)行贅述。
[0120]步驟S306:通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn);
[0121]利用分類算法對(duì)所述定位的目標(biāo)節(jié)點(diǎn)進(jìn)行決策,優(yōu)選的,所述分類算法可以使用ID3決策樹算法。當(dāng)然,本實(shí)施例中的ID3決策樹的訓(xùn)練樣本已進(jìn)行了初始化。ID3決策樹算法為在各層分枝節(jié)點(diǎn)上選擇屬性,用信息增益作為屬性選擇標(biāo)準(zhǔn),使得在每一非葉子節(jié)點(diǎn)進(jìn)行測(cè)試時(shí),能獲得關(guān)于被測(cè)試?yán)幼畲蟮念悇e信息,使用該屬性將樣本集劃分成子集后,系統(tǒng)的信息熵值最小。
[0122]通過ID3決策樹的算法對(duì)所述目標(biāo)節(jié)點(diǎn)作出的模式類別包括但不限于以下模式,即A模式:取兄弟節(jié)點(diǎn)(跳過修飾節(jié)點(diǎn)),B模式:(取父親節(jié)點(diǎn),再取兄弟節(jié)點(diǎn))。通過所述各個(gè)模式可以獲取所述DOM目標(biāo)節(jié)點(diǎn)的周圍關(guān)聯(lián)節(jié)點(diǎn)。其中,所述目標(biāo)節(jié)點(diǎn)中有所述業(yè)務(wù)信息的屬性,所述周圍關(guān)聯(lián)節(jié)點(diǎn)中可能包含有所述業(yè)務(wù)信息屬性的屬性值。所述修飾節(jié)點(diǎn)為對(duì)所述目標(biāo)節(jié)點(diǎn)內(nèi)容的格式等方面的修飾,比如加粗、斜體、顏色等。
[0123]例如,某一個(gè)目標(biāo)語義塊對(duì)應(yīng)的網(wǎng)頁部分代碼為:
[0124]
<tr>
<td><st.r0.ng>物、!k.公! !i</strorsg></td>
<td>t京水木天成物業(yè)管理有限責(zé)任公司</td>
</tr>
<tr>
<td><stroiig>I^IS 商圈 </strong></td>
<td> 通州 </td>
</tr>
[0125]按所述A模式獲得目標(biāo)節(jié)點(diǎn)<td>物業(yè)公司的關(guān)聯(lián)節(jié)點(diǎn)為排除修飾節(jié)點(diǎn)后的<td>北京水木天成物業(yè)管理有限責(zé)任公司節(jié)點(diǎn);按所述B模式獲得目標(biāo)節(jié)點(diǎn)<td>物業(yè)公司的關(guān)聯(lián)節(jié)點(diǎn)為〈tdXstrong〉所屬商圈〈/strong〉。
[0126]步驟S307:判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn);
[0127]利用神經(jīng)網(wǎng)絡(luò)算法輸出所述各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有所述業(yè)務(wù)信息屬性屬性值信息的可能性,優(yōu)選的,利用BP神經(jīng)網(wǎng)絡(luò)算法,所述BP神經(jīng)網(wǎng)絡(luò)已訓(xùn)練收斂。利用所述BP神經(jīng)網(wǎng)絡(luò)算法輸出的各個(gè)可能性相加為I。例如,所述A模式取得的關(guān)聯(lián)節(jié)點(diǎn)中包含有屬性值的可能性為0.7,所述B模式取得的關(guān)聯(lián)節(jié)點(diǎn)中包含有屬性值的可能性為0.3。取可能性為
0.7,即在A模式下獲取的兄弟節(jié)點(diǎn):〈td>北京水木天成物業(yè)管理有限責(zé)任公司為最終的關(guān)聯(lián)節(jié)點(diǎn)。
[0128]步驟S308:提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0129]通過利用DOM樹中獲取節(jié)點(diǎn)內(nèi)容的方法獲得所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息,例如,“北京水木天成物業(yè)管理有限責(zé)任公司”。
[0130]由以上技術(shù)方案可知,本發(fā)明提供了一種獲取業(yè)務(wù)信息方法的實(shí)施例,通過將所述目標(biāo)網(wǎng)頁劃分為多個(gè)區(qū)域,在所述區(qū)域中確定目標(biāo)語義塊,所述目標(biāo)語義塊中為所述目標(biāo)網(wǎng)頁中的正文內(nèi)容,從而排除了目標(biāo)網(wǎng)頁中可能包含的如廣告、導(dǎo)航等非業(yè)務(wù)信息的影響,提高了提取業(yè)務(wù)屬性信息及屬性值信息的效率。進(jìn)而,在所述目標(biāo)語義塊中進(jìn)一步查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息,所述查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息的方法即EFLA (Element Function and Layout Analyzer,元素功能及部件分析)算法。利用所述算法確定并提取所述目標(biāo)語義塊中的屬性及屬性值信息,相對(duì)于現(xiàn)有技術(shù)中將目標(biāo)網(wǎng)頁中所有信息進(jìn)行提取的方法,本實(shí)施例提供的獲取業(yè)務(wù)信息的方法能更準(zhǔn)確直接地提供所述業(yè)務(wù)信息內(nèi)容。
[0131]上述三個(gè)實(shí)施例之后還可以包括數(shù)據(jù)合并的步驟,將提取出的數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行輸出。參閱圖4,其示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的部分流程示意圖,即數(shù)據(jù)合并步驟的流程示意圖。所述實(shí)施例的完整步驟是在圖1、圖2或圖3所示的流程示意圖后包括:
[0132]步驟S401:將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù);
[0133]預(yù)先初始化定義網(wǎng)頁的權(quán)重,權(quán)重是網(wǎng)頁本身與查詢?cè)~之間的相關(guān)度。按照權(quán)重排名,目標(biāo)區(qū)域所在的網(wǎng)站排名最高,則將從其中提取出的屬性及屬性值作為主數(shù)據(jù),則從其他目標(biāo)區(qū)域提取出的屬性及屬性值作為輔助數(shù)據(jù)。例如,若預(yù)先初始化定義的“搜房網(wǎng)”網(wǎng)頁的權(quán)重高,則將從“搜房網(wǎng)”提取的房產(chǎn)業(yè)務(wù)信息作為主數(shù)據(jù)信息。
[0134]步驟S402:在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng);
[0135]如果有多份輔助數(shù)據(jù)則在多份輔助數(shù)據(jù)中確定某一種輔助數(shù)據(jù)為第二輔助數(shù)據(jù)。多份輔助數(shù)據(jù)中會(huì)有不同的類型,如數(shù)值型,日期型,貨幣型,字符串型等。不同類型的數(shù)據(jù)則采用不同的方式確定第二輔助數(shù)據(jù),例如:數(shù)值,日期,貨幣采用加權(quán)平均,取最近數(shù)據(jù)項(xiàng),而字符串型,則通過計(jì)算信息熵確定。
[0136]步驟S403:判斷所述主數(shù)據(jù)信息中的屬性項(xiàng)是否少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng);
[0137]將所述確定的主數(shù)據(jù)與第一輔助數(shù)據(jù)中的各份第一輔助數(shù)據(jù)進(jìn)行比較判斷,比較的內(nèi)容是主數(shù)據(jù)中的屬性項(xiàng)是否少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)。
[0138]步驟S404:若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存;
[0139]所述對(duì)主數(shù)據(jù)進(jìn)行屬性項(xiàng)的補(bǔ)充是將所述主數(shù)據(jù)中的屬性項(xiàng)進(jìn)行補(bǔ)充完整。例如,將從“搜房網(wǎng)”網(wǎng)頁中提取的智匯雅苑房產(chǎn)的數(shù)據(jù)信息作為主數(shù)據(jù)信息,所述數(shù)據(jù)信息中的屬性項(xiàng)有該處房產(chǎn)信息的物業(yè)類型、停車位、所屬商圈、綠化率等,從“搜狐焦點(diǎn)”網(wǎng)頁中提取的該處房產(chǎn)的屬性項(xiàng)除了以上內(nèi)容外,還包含有戶型面積、戶型信息等所述“搜房網(wǎng)”中并沒有提取到的屬性項(xiàng),則將戶型面積和戶型信息屬性補(bǔ)充入主數(shù)據(jù)的屬性中。相應(yīng)的,將所述屬性對(duì)應(yīng)的屬性值信息補(bǔ)充入所述主數(shù)據(jù)中。并進(jìn)一步的,將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0140]步驟S405:若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0141]需要說明的是,智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第二任務(wù)腳本序列,執(zhí)行所述第二任務(wù)腳本序列自動(dòng)完成上述步驟S401至S405的工作。其中,所述第二任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0142]由以上的技術(shù)方案可知,本發(fā)明提供的一種獲取業(yè)務(wù)信息方法中數(shù)據(jù)合并步驟實(shí)施例,將從某一個(gè)目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為主數(shù)據(jù)信息,從其他目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為輔助數(shù)據(jù)信息,若從某個(gè)目標(biāo)區(qū)域中提取的屬性項(xiàng)存在缺失,則對(duì)其進(jìn)行補(bǔ)充,再將其他輔助數(shù)據(jù)中的屬性與所述補(bǔ)充后的主數(shù)據(jù)中的屬性進(jìn)行合并。相應(yīng)的,將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行保存。所述數(shù)據(jù)合并步驟將所述提取后的數(shù)據(jù)更近一步地進(jìn)行關(guān)聯(lián)合并,將整理后的數(shù)據(jù)進(jìn)行保存,則更直接準(zhǔn)確地反映了所述業(yè)務(wù)信息內(nèi)容。[0143]參閱圖5,其示出了一種獲取業(yè)務(wù)信息裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖,所述裝置包括:目標(biāo)網(wǎng)頁獲取單元501、目標(biāo)區(qū)域提取單元502及信息提取單元503。
[0144]目標(biāo)網(wǎng)頁獲取單元501,用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0145]目標(biāo)區(qū)域提取單元502,用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;
[0146]信息提取單元503,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0147]智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第一任務(wù)腳本序列,執(zhí)行所述第一任務(wù)腳本序列自動(dòng)指導(dǎo)上述單元503的工作。其中,所述第一任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0148]本實(shí)施例中,目標(biāo)網(wǎng)頁獲取單元501獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁,目標(biāo)區(qū)域提取單元502在所述目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域,刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息,當(dāng)然,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,信息提取單元503在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁,本發(fā)明提供的裝置不僅會(huì)幫助節(jié)省存儲(chǔ)資源,而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
[0149]參閱圖6,其示出了本發(fā)明一種獲取業(yè)務(wù)信息的裝置的另一個(gè)結(jié)構(gòu)示意圖,所述裝置包括:原始網(wǎng)頁獲取單元601、分詞單元602、計(jì)算單元603、提取單元604、目標(biāo)區(qū)域提取單元605及信息提取單元606。
[0150]原始網(wǎng)頁獲取單元601,用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁;
[0151]分詞單元602,用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集;
[0152]本單元完成的工作是對(duì)所述各個(gè)原始網(wǎng)頁進(jìn)行分詞處理,即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列,使用的算法可以為基于字符串的分詞方法。具體的,按照掃描方向的不同,可以是正向匹配,也可以是逆向匹配;按照不同長度優(yōu)先匹配的不同,可以是最大匹配,也可以是最小匹配;按照是否與詞性標(biāo)注過程相結(jié)合,可以是單純分析,也可以是分詞和標(biāo)注想結(jié)合的一體化方法。需要說明的是,不管使用上述何種或何幾種方法結(jié)合進(jìn)行的分詞,都屬于本發(fā)明保護(hù)范圍。
[0153]經(jīng)過分詞處理后,各個(gè)目標(biāo)網(wǎng)頁內(nèi)容被劃分為各個(gè)詞語集。
[0154]計(jì)算單元603,用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度;
[0155]所述預(yù)先建立的指標(biāo)庫中的指標(biāo)如實(shí)施例一中的指標(biāo)庫。所述指標(biāo)庫中的指標(biāo)用以描述所述業(yè)務(wù)信息的屬性。比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。
[0156]在所述各個(gè)詞語集中分別查找所述指標(biāo)庫中包含的指標(biāo),計(jì)算所述指標(biāo)在各個(gè)詞語集中所占的比例。
[0157]所述信息熵是對(duì)信息的量化,因?yàn)樾畔⑹莻€(gè)抽象的概念,用所述信息熵來對(duì)信息的信息量進(jìn)行度量。信息熵的計(jì)算公式為H(X)=E[I(Xi)]=E[log(2,l/p(Xi))]=- E P(Xi)log(2, P(Xi)) (i=l, 2,..n)。其中,I (Xi)表示隨機(jī)變量Xi的信息量;E代表了期望函數(shù);P(Xi)代表了 Xi的機(jī)率質(zhì)量函數(shù)。
[0158]將所述詞語庫中的詞語作為變量Xi,利用上述公式計(jì)算所述詞語集的信息熵及所述指標(biāo)庫的信息熵,將計(jì)算獲得的兩個(gè)信息熵進(jìn)行差值比較以查看所述兩個(gè)信息熵的相似度,所述詞語集的信息熵與所述指標(biāo)庫的信息熵差值越小,則代表所述詞語集的信息熵與所述指標(biāo)庫的信息熵越相似,則所述詞語集對(duì)應(yīng)的目標(biāo)網(wǎng)頁的內(nèi)容與所述業(yè)務(wù)信息越接近。
[0159]需要說明的是,本單元可以單獨(dú)計(jì)算所述指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例,也可以計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度,或者是同時(shí)進(jìn)行上述兩種計(jì)算。
[0160]提取單元604,用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁;
[0161]所述相似度的預(yù)設(shè)范圍指的是所述詞語集的信息熵與所述指標(biāo)庫的信息熵的差值在某個(gè)范圍內(nèi)。本單元中將比例和相似度作為確定并提取目標(biāo)網(wǎng)頁的指標(biāo),則具體的提取標(biāo)準(zhǔn)可以有如下三種:即所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例滿足所述比例的預(yù)設(shè)范圍,或者,所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值滿足所述相似度的預(yù)設(shè)范圍,或者,以上兩者同時(shí)滿足條件。
[0162]目標(biāo)區(qū)域提取單元605,用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息
[0163]信息提取單元606,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0164]需要說明的是,裝置605和裝置606的操作過程可以參見圖1所示實(shí)施例的裝置502和裝置503的相關(guān)描述,在此不再贅述。
[0165]由上述方案可知,本發(fā)明提供了一種獲取業(yè)務(wù)信息裝置的實(shí)施例,通過現(xiàn)有的搜索引擎獲得預(yù)設(shè)數(shù)目的原始網(wǎng)頁,提高了原始數(shù)據(jù)來源的質(zhì)量和效率。同時(shí)預(yù)先建立的有關(guān)業(yè)務(wù)信息的專業(yè)詞匯庫對(duì)獲取的所述原始網(wǎng)頁進(jìn)行分詞,提高了分詞的準(zhǔn)確度,為后續(xù)目標(biāo)網(wǎng)頁的提取奠定了較好的基礎(chǔ)。
[0166]參閱圖7,其示出了一種獲取業(yè)務(wù)信息的又一種實(shí)施例的結(jié)構(gòu)示意圖,所述裝置包括:目標(biāo)網(wǎng)頁獲取單元701、解析單元702、語義塊劃分單元703、目標(biāo)語義塊提取單元704、目標(biāo)節(jié)點(diǎn)定位單元705、關(guān)聯(lián)節(jié)點(diǎn)提取單元706、關(guān)聯(lián)節(jié)點(diǎn)確定單元707、屬性值信息提取單元 708。
[0167]目標(biāo)網(wǎng)頁獲取單元701,用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁;
[0168]解析單元702,用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹;
[0169]通過利用現(xiàn)有的解析工具如NekoHTML可以將所述各個(gè)網(wǎng)頁解析為DOM樹。所述文檔對(duì)象模型DOM是一種用于HTML (Hypertext Markup Language,超文本標(biāo)記語言)和XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文檔的編程接口,它給文檔提供了一種結(jié)構(gòu)化的表示方法,可以改變文檔的內(nèi)容和呈現(xiàn)方式。DOM的內(nèi)部邏輯結(jié)構(gòu)通常表現(xiàn)為節(jié)點(diǎn)樹的形式。通過對(duì)HTML網(wǎng)頁的解析處理,HTML網(wǎng)頁中的各種元素轉(zhuǎn)化為DOM中的節(jié)點(diǎn)對(duì)象,請(qǐng)參閱圖9,示出了一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM后的結(jié)構(gòu)形式。
[0170]語義塊劃分單元703,用于遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊;
[0171]優(yōu)選的,所述具體的語義塊的劃分算法使用VIPS (Vision-based PageSegmentation,基于視覺信息的網(wǎng)頁分塊)算法。它首先從DOM樹中提取出所有的合適的頁面塊,然后根據(jù)這些頁面塊檢測(cè)出它們之間的所有的分割條,包括水平和垂直方向。最后基于這些分割條,頁面的語義結(jié)構(gòu)將被重新構(gòu)建。對(duì)于每一個(gè)語義塊又可以使用VIPS算法繼續(xù)分割為更小的語義塊。因此整個(gè)VIPS算法是自頂向下,非常高效的。
[0172]目標(biāo)語義塊提取單元704,用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0173]所述確定目標(biāo)語義塊可以利用模糊邏輯算法或經(jīng)過訓(xùn)練的BP (BackPropagation)網(wǎng)絡(luò)神經(jīng)算法。所述語義塊的相關(guān)內(nèi)容即位置信息、布局信息、大小信息等。將所述各個(gè)語義塊的有關(guān)信息作為所述算法的輸入?yún)?shù),利用相關(guān)算法的規(guī)則可以得知,所述各個(gè)語義塊具體包含的相關(guān)信息。例如,輸入某個(gè)語義塊的相對(duì)于網(wǎng)頁整體的位置,得知其為導(dǎo)航語義塊。
[0174]利用上述算法可以確定目標(biāo)語義塊,所述目標(biāo)語義塊即網(wǎng)頁中的正文內(nèi)容。所述正文內(nèi)容中包含有所述業(yè)務(wù)信息的屬性及屬性值信息。提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域以對(duì)其進(jìn)行后續(xù)提取屬性及屬性值的工作。
[0175]當(dāng)然,還有其他算法來確定目標(biāo)語義塊,在此不一一進(jìn)行列舉。
[0176]目標(biāo)節(jié)點(diǎn)定位單元705,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn);
[0177]關(guān)聯(lián)節(jié)點(diǎn)提取單元706,用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn);
[0178]關(guān)聯(lián)節(jié)點(diǎn)確定單元707,用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn);
[0179]屬性值信息提取單元708,用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0180]由以上技術(shù)方案可知,本發(fā)明提供了一種獲取業(yè)務(wù)信息裝置的實(shí)施例,語義塊劃分單元703通過將所述目標(biāo)網(wǎng)頁劃分為多個(gè)區(qū)域,目標(biāo)語義塊提取單元704在所述區(qū)域中確定目標(biāo)語義塊,所述目標(biāo)語義塊中為所述目標(biāo)網(wǎng)頁中的正文內(nèi)容,從而排除了目標(biāo)網(wǎng)頁中可能包含的如廣告、導(dǎo)航等非業(yè)務(wù)信息的影響,提高了提取業(yè)務(wù)屬性信息及屬性值信息的效率。進(jìn)而,目標(biāo)節(jié)點(diǎn)定位單元705在所述目標(biāo)語義塊中進(jìn)一步查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息,所述查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息的單元即EFLA(Element Function and Layout Analyzer,元素功能及部件分析)單元。利用所述算法確定并提取所述目標(biāo)語義塊中的屬性及屬性值信息,相對(duì)于現(xiàn)有技術(shù)中將目標(biāo)網(wǎng)頁中所有信息進(jìn)行提取的裝置,本實(shí)施例提供的一種獲取業(yè)務(wù)信息的裝置能更準(zhǔn)確直接地提供所述業(yè)務(wù)信息內(nèi)容。
[0181]上述三個(gè)實(shí)施例之后還可以包括數(shù)據(jù)合并的單元,將提取出的數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行輸出。參閱圖8,其示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的部分結(jié)構(gòu)示意圖,即數(shù)據(jù)合并單元的結(jié)構(gòu)示意圖。所述實(shí)施例的完整裝置是在圖5、圖6或圖7所示的結(jié)構(gòu)示意圖后包括:數(shù)據(jù)區(qū)分單元801、輔助數(shù)據(jù)確定單元802、第一合并單元803及第二合并單元804。
[0182]數(shù)據(jù)區(qū)分單元801,用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù);
[0183]輔助數(shù)據(jù)確定單元802,用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng);
[0184]第一合并單元803,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存;
[0185]第二合并單元804,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0186]需要說明的是,智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第二任務(wù)腳本序列,執(zhí)行所述第二任務(wù)腳本序列自動(dòng)指導(dǎo)上述單元801至單元805的工作。其中,所述第二任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0187]由以上的技術(shù)方案可知,本發(fā)明提供的一種獲取業(yè)務(wù)信息裝置中數(shù)據(jù)合并單元實(shí)施例,數(shù)據(jù)區(qū)分單元801將從某一個(gè)目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為主數(shù)據(jù)信息,從其他目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為輔助數(shù)據(jù)信息,若從某個(gè)目標(biāo)區(qū)域中提取的屬性項(xiàng)存在缺失,則第一合并單元803對(duì)其進(jìn)行補(bǔ)充,再將其他輔助數(shù)據(jù)中的屬性與所述補(bǔ)充后的主數(shù)據(jù)中的屬性進(jìn)行合并。相應(yīng)的,將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行保存。所述數(shù)據(jù)合并單元將所述提取后的數(shù)據(jù)更近一步地進(jìn)行關(guān)聯(lián)合并,將整理后的數(shù)據(jù)進(jìn)行保存,則更直接準(zhǔn)確地反映了所述業(yè)務(wù)信息內(nèi)容。
[0188]需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0189]以上對(duì)本發(fā)明所提供的一種獲取業(yè)務(wù)信息的方法及裝置進(jìn)行了詳細(xì)介紹,對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。
【權(quán)利要求】
1.一種獲取業(yè)務(wù)信息的方法,其特征在于,包括: 獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁; 在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息; 依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁包括: 利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁; 依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集; 計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度; 提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,包括: 將各個(gè)目標(biāo)網(wǎng)頁分別解析 為DOM (Document Object Model,文件對(duì)象模型)樹; 遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊; 根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息,包括: 依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn); 通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn); 判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn); 提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
5.根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法,其特征在于,所述方法之后還包括: 將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù); 在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng); 若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存; 若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
6.一種獲取業(yè)務(wù)信息的裝置, 其特征在于,包括: 目標(biāo)網(wǎng)頁獲取單元,用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁; 目標(biāo)區(qū)域提取單元,用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域,并分別提取所述目標(biāo)區(qū)域;其中,所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息; 信息提取單元,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性,并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息;其中,所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述目標(biāo)網(wǎng)頁獲取單元包括: 原始網(wǎng)頁獲取單元,用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁; 分詞單元,用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集; 計(jì)算單元,用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例,和/或,計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度;提取單元,用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述目標(biāo)區(qū)域提取單元包括: 解析單元,用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM(Document Object Model,文件對(duì)象模型)樹; 語義塊劃分單元,用于遍歷各個(gè)DOM樹的節(jié)點(diǎn),根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊; 目標(biāo)語義塊提取單元,用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊,并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域;其中,所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
9.根據(jù)權(quán)利要求6所示的裝置,其特征在于,所述信息提取單元包括: 目標(biāo)節(jié)點(diǎn)定位單元,用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo),分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹,在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn); 關(guān)聯(lián)節(jié)點(diǎn)提取單元,用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別,并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn); 關(guān)聯(lián)節(jié)點(diǎn)確定單元,用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性,并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn); 屬性值信息提取單元,用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
10.根據(jù)權(quán)利要求6至9任意一項(xiàng)所述的裝置,其特征在于,還包括: 數(shù)據(jù)區(qū)分單元,用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù),將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù); 輔助數(shù)據(jù)確定單元,用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù);其中,選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng); 第一合并單元,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息,并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存; 第二合并單元,用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng),則將所述主數(shù)據(jù)與所述第二`輔助數(shù)據(jù)進(jìn)行合并,形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
【文檔編號(hào)】G06F17/30GK103488746SQ201310432901
【公開日】2014年1月1日 申請(qǐng)日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】余飛, 鄧偉, 庾小波, 楊勇濤 申請(qǐng)人:成都銳理開創(chuàng)信息技術(shù)有限公司