一種獲取業(yè)務(wù)信息的方法及裝置制造方法

文檔序號(hào)：6512517閱讀：195來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種獲取業(yè)務(wù)信息的方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種獲取業(yè)務(wù)信息的方法及裝置，所述方法包括：獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。本發(fā)明提供的獲取業(yè)務(wù)信息的方法用以解決現(xiàn)有業(yè)務(wù)信息獲取方式中提取并保存原始網(wǎng)頁內(nèi)容從而造成的浪費(fèi)存儲(chǔ)資源，且獲取結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息的問題。
【專利說明】一種獲取業(yè)務(wù)信息的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)搜索技術(shù)，尤其涉及一種獲取業(yè)務(wù)信息的方法及裝置。
【背景技術(shù)】
[0002]垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎，是搜索引擎的細(xì)分和延伸，是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行搜索。垂直搜索引擎專注于特定的搜索領(lǐng)域和搜索需求，通過針對(duì)某一特定領(lǐng)域、特定人群或特定需求提供有一定價(jià)值的信息和相關(guān)服務(wù)，在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。例如，房產(chǎn)信息搜索、比較購物搜索等。
[0003]但現(xiàn)有的垂直搜索引擎只是在特定的業(yè)務(wù)相關(guān)信息上對(duì)其搜索內(nèi)容和范圍進(jìn)行限制和過濾，獲取的結(jié)果中不但包含有較多與所述業(yè)務(wù)無關(guān)的信息，且獲取的業(yè)務(wù)信息缺乏組織性和關(guān)聯(lián)性，因此此種業(yè)務(wù)信息的獲取方式不僅浪費(fèi)存儲(chǔ)資源，而且獲取的結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息。

【發(fā)明內(nèi)容】

[0004]有鑒于此，本申請(qǐng)?zhí)峁┝艘环N獲取業(yè)務(wù)信息的方法及裝置，用以解決現(xiàn)有業(yè)務(wù)信息獲取方式浪費(fèi)存儲(chǔ)資源且獲取結(jié)果不能直接清楚地反映所述業(yè)務(wù)信息的問題。
[0005]一種獲取業(yè)務(wù)信息的方法，包括:
[0006]獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0007]在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0008]依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性；
[0009]將從各個(gè)目標(biāo)區(qū)域中提取出的屬性進(jìn)行合并，并將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0010]優(yōu)選的，所述獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁包括:
[0011]利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；
[0012]依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；
[0013]計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；
[0014]提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
[0015]優(yōu)選的，所述在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，包括:
[0016]將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹；[0017]遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；
[0018]根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0019]優(yōu)選的，所述依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，包括:
[0020]依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；
[0021]通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；
[0022]判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的聞低確定可能性最聞的關(guān)聯(lián)節(jié)點(diǎn)；
[0023]提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0024]優(yōu)選的，還包括:
[0025]將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；
[0026]在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；
[0027]若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；
[0028]若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0029]一種獲取業(yè)務(wù)信息的裝置，包括:
[0030]目標(biāo)網(wǎng)頁獲取單元，用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0031]目標(biāo)區(qū)域提取單元，用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0032]信息提取單元，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0033]優(yōu)選的，所述目標(biāo)網(wǎng)頁獲取單元包括:
[0034]原始網(wǎng)頁獲取單元，用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；
[0035]分詞單元，用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；
[0036]計(jì)算單元，用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；提取單元，用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。[0037]優(yōu)選的，所述目標(biāo)區(qū)域提取單元包括:
[0038]解析單元,用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為D0M(Document Object Model,文件對(duì)象模型)樹；
[0039]語義塊劃分單元，用于遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；
[0040]目標(biāo)語義塊提取單元，用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0041]優(yōu)選的，所述信息提取單元包括:
[0042]目標(biāo)節(jié)點(diǎn)定位單元，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；
[0043]關(guān)聯(lián)節(jié)點(diǎn)提取單元，用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；
[0044]關(guān)聯(lián)節(jié)點(diǎn)確定單元，用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn)；
[0045]屬性值信息提取單元，用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0046]優(yōu)選的，還包括:
[0047]數(shù)據(jù)區(qū)分單元，用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；
[0048]輔助數(shù)據(jù)確定單元，用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；
[0049]第一合并單元，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；
[0050]第二合并單元，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0051]由上述的技術(shù)方案可知，與現(xiàn)有技術(shù)相比，本發(fā)明公開提供了一種獲取業(yè)務(wù)信息的方法及裝置，獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息?，F(xiàn)有獲取業(yè)務(wù)信息的方式將搜索獲取到的原始網(wǎng)頁進(jìn)行保存，本發(fā)明提供的獲取業(yè)務(wù)信息的方法中在獲取的目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域，刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息，當(dāng)然，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁，本發(fā)明提供的方法不僅會(huì)幫助節(jié)省存儲(chǔ)資源，而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
【專利附圖】

【附圖說明】[0052]為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0053]圖1示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的一個(gè)實(shí)施例的流程示意圖；
[0054]圖2示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的另一個(gè)實(shí)施例的流程示意圖；
[0055]圖3示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的流程示意圖；
[0056]圖4示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的部分流程示意圖；
[0057]圖5示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；
[0058]圖6示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；
[0059]圖7示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；
[0060]圖8示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；
[0061]圖9為一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM樹后的結(jié)構(gòu)形式。
【具體實(shí)施方式】
[0062]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例，而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本申請(qǐng)保護(hù)的范圍。
[0063]本發(fā)明公開了一種獲取業(yè)務(wù)信息的方法，利用所述方法可以在內(nèi)容量巨大的互聯(lián)網(wǎng)中的網(wǎng)頁信息中提取與所述業(yè)務(wù)信息相關(guān)的結(jié)構(gòu)化數(shù)據(jù)信息。所述業(yè)務(wù)信息是指某一特定領(lǐng)域、行業(yè)的需求信息，比如房產(chǎn)行業(yè)。提取的所述結(jié)構(gòu)化數(shù)據(jù)信息直觀清楚地反映了所述業(yè)務(wù)信息。
[0064]參閱圖1，示出了本發(fā)明一種獲取業(yè)務(wù)信息方法一個(gè)實(shí)施例的流程示意圖，本實(shí)施例方法包括:
[0065]步驟SlOl:獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0066]在現(xiàn)有通用搜索引擎或其他搜索引擎中輸入所述業(yè)務(wù)信息的關(guān)鍵詞進(jìn)行搜索，并按預(yù)設(shè)的選取方式從所述搜索結(jié)果中選取至少兩個(gè)原始頁面的鏈接形成鏈接集合。優(yōu)選的，所述選取方式可以是在搜索結(jié)果中按照各個(gè)網(wǎng)頁鏈接的前后排列順序進(jìn)行選取。
[0067]需要說明的是，此處的選取只是機(jī)械地進(jìn)行鏈接的篩選，并沒有依據(jù)網(wǎng)頁內(nèi)容進(jìn)行篩選過濾。則所述鏈接集合中的鏈接指示的頁面中有所述業(yè)務(wù)信息的相關(guān)的原始網(wǎng)頁，也可能包含有與所述業(yè)務(wù)信息無關(guān)的原始網(wǎng)頁。例如，利用百度搜索進(jìn)行的“北京房產(chǎn)”搜索，鏈接指示的原始頁面中有介紹北京出售的各個(gè)房產(chǎn)信息的原始網(wǎng)頁，也可能有的鏈接指示的原始頁面是介紹北京購買房產(chǎn)的注意事項(xiàng)或北京房產(chǎn)的政策信息的原始網(wǎng)頁。
[0068]分別獲取所述鏈接集合中的各個(gè)鏈接指示的原始網(wǎng)頁內(nèi)容，利用預(yù)設(shè)的選取規(guī)貝U，根據(jù)各個(gè)原始網(wǎng)頁的內(nèi)容獲取至少兩個(gè)與所述業(yè)務(wù)信息相關(guān)的原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。此處的選取是通過對(duì)所述原始網(wǎng)頁的內(nèi)容進(jìn)行檢測(cè)，依據(jù)所述內(nèi)容檢測(cè)結(jié)果對(duì)各個(gè)原始網(wǎng)頁進(jìn)行篩選。
[0069]優(yōu)選的，所述選取規(guī)則可以利用對(duì)所述原始網(wǎng)頁內(nèi)容進(jìn)行分詞處理形成詞語集，將所述詞語集的信息與預(yù)先建立的指標(biāo)庫中的指標(biāo)信息進(jìn)行對(duì)比，選取對(duì)比結(jié)果滿足預(yù)設(shè)范圍的詞語集所對(duì)應(yīng)的原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。其中，所述預(yù)先建立的指標(biāo)庫中包含的指標(biāo)信息用以描述所述業(yè)務(wù)信息的屬性，比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。需要說明的是，所述對(duì)比結(jié)果表明了所述詞語集對(duì)應(yīng)的原始網(wǎng)頁中包含所述業(yè)務(wù)信息的可能性，包含越多所述知識(shí)庫中的指標(biāo)的原始網(wǎng)頁越可能是與所述業(yè)務(wù)信息相關(guān)的網(wǎng)頁。
[0070]另外，可以對(duì)所述獲取的各個(gè)目標(biāo)網(wǎng)頁進(jìn)行分布式存儲(chǔ)，并建立哈希索引。
[0071]步驟S102:在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0072]互聯(lián)網(wǎng)上的網(wǎng)頁內(nèi)容幾乎都包含有與所介紹的信息無關(guān)的內(nèi)容，比如廣告、推薦、導(dǎo)航、網(wǎng)站基本信息等，則導(dǎo)致獲得的各個(gè)目標(biāo)網(wǎng)頁中也會(huì)包含有上述與所述業(yè)務(wù)無關(guān)的內(nèi)容。本步驟所完成的工作是確定和提取目標(biāo)區(qū)域，所述目標(biāo)區(qū)域就是在網(wǎng)頁中主要介紹業(yè)務(wù)內(nèi)容的區(qū)域，從而將所述目標(biāo)網(wǎng)頁中的業(yè)務(wù)無關(guān)信息進(jìn)行過濾。
[0073]所述目標(biāo)區(qū)域的確定是基于對(duì)所述原始網(wǎng)頁進(jìn)行區(qū)域劃分，所述進(jìn)行區(qū)域劃分的方式可以有多種，例如，可以利用VIPS (Vision-based Page Segmentation,基于視覺信息的網(wǎng)頁分塊)算法。當(dāng)用戶觀察互聯(lián)網(wǎng)頁面的時(shí)候會(huì)自然而然的把具有相同的視覺特征的區(qū)域內(nèi)容作為單一對(duì)象來看待，而不管所述頁面的內(nèi)部結(jié)構(gòu)是如何描述的。所述具有相同的視覺特征的區(qū)域被定義為語義塊。因此基于一些視覺提示如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等可用來劃分語義塊。
[0074]進(jìn)一步的，在劃分的各個(gè)語義塊中獲取目標(biāo)語義塊，其中，所述目標(biāo)語義塊即主要介紹所述業(yè)務(wù)信息的語義塊。
[0075]步驟S103:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性；
[0076]所述指標(biāo)庫是根據(jù)所述業(yè)務(wù)信息預(yù)先建立的，用于描述所述業(yè)務(wù)信息。具體的，所述指標(biāo)庫中的各項(xiàng)指標(biāo)來描述所述業(yè)務(wù)信息的各項(xiàng)屬性，所述指標(biāo)庫中的指標(biāo)關(guān)系來描述各個(gè)指標(biāo)間的關(guān)聯(lián)關(guān)系。例如，描述房產(chǎn)業(yè)務(wù)信息的指標(biāo)中包含有項(xiàng)目簡介指標(biāo)、交通狀況指標(biāo)、軌道交通指標(biāo)、周邊公交指標(biāo)、基本信息指標(biāo)、物業(yè)類別指標(biāo)、建筑面積指標(biāo)、所屬商圈指標(biāo)、綠化率指標(biāo)等；各個(gè)指標(biāo)間的關(guān)聯(lián)關(guān)系為:所述指標(biāo)可以首先分為三個(gè)方面，即項(xiàng)目介紹指標(biāo)、交通狀況指標(biāo)、基本信息指標(biāo)。其中，交通狀況指標(biāo)包括軌道交通指標(biāo)和周邊公交指標(biāo)，基本信息指標(biāo)包括物業(yè)類別指標(biāo)、建筑面積指標(biāo)、所述商圈指標(biāo)和綠化率指標(biāo)
坐寸o
[0077]在各個(gè)目標(biāo)區(qū)域中通過查找定位與所述指標(biāo)相同或相似的內(nèi)容，所述內(nèi)容即所述業(yè)務(wù)信息的屬性，提取所述屬性及所述屬性對(duì)應(yīng)的屬性值信息。其中，所述查找定位的方式可以利用正則表達(dá)式技術(shù)。正則表達(dá)式通常由若干普通字符(字符a到z)以及特殊字符(元字符meta character)組成?，F(xiàn)在,多種程序設(shè)計(jì)語言都支持正則表達(dá)式,例如Java在jdkl.4版本后增加了對(duì)正則表達(dá)式的支持。JDK中處理正則表達(dá)式的類主要包括兩個(gè)類:Pattern和Matcher。正則表達(dá)式首先編譯成為Pattern類的實(shí)例,所述Pattern實(shí)例使用matcher ()方法生成Matcher類實(shí)例，使用所述Matcher實(shí)例以編譯的正則表達(dá)式為基礎(chǔ)對(duì)目標(biāo)字符串進(jìn)行匹配工作。Matcher對(duì)象定義了字符串的處理方法，可以根據(jù)既有模式完成對(duì)字符串的查找操作。
[0078]優(yōu)選的,所述定位并提取方法還可以利用EFLA (Element Function and LayoutAnalyzer，元素功能及部件分析)算法。所述算法的具體工作過程在下文進(jìn)行介紹。
[0079]需要說明的是，各個(gè)提取出的目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性，所述屬性不一定與所述指標(biāo)庫中的各項(xiàng)指標(biāo)完全相同，但只要所表達(dá)的意思一致即可。例如，所述指標(biāo)庫中包含的指標(biāo)為“交通狀況”指標(biāo)，所述目標(biāo)區(qū)域中的業(yè)務(wù)信息的屬性為“周圍交通”。
[0080]在各個(gè)目標(biāo)區(qū)域中定位到所述業(yè)務(wù)信息的屬性后進(jìn)一步查找所述屬性對(duì)應(yīng)的屬性值信息，并對(duì)查找到所述各個(gè)屬性值信息進(jìn)行提取。例如，房產(chǎn)業(yè)務(wù)中定位到的物業(yè)類別屬性，其屬性值為“普通住宅”；停車位屬性，其屬性值為“共455個(gè)停車位，車位配比為1:1”，將所述“物業(yè)類別”及“停車位”進(jìn)行提取，并對(duì)應(yīng)地提取“普通住宅”及“共455個(gè)停車位，車位配比為1:1”信息。
[0081]智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第一任務(wù)腳本序列，執(zhí)行所述第一任務(wù)腳本序列自動(dòng)完成上述步驟S103的工作。其中，所述第一任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0082]本實(shí)施例中，獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁，在所述目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域，刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息，當(dāng)然，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁，本發(fā)明提供的方法不僅會(huì)幫助節(jié)省存儲(chǔ)資源，而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
[0083]參閱圖2，示出了本發(fā)明一種獲取業(yè)務(wù)信息方法另一個(gè)實(shí)施例的流程示意圖，本實(shí)施例的方法包括:
[0084]步驟S201:利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；
[0085]利用一個(gè)或多個(gè)現(xiàn)有通用搜索引擎如360搜索、百度搜索、google搜索等作為搜索數(shù)據(jù)源入口，通過在所述一個(gè)或多個(gè)搜索引擎中輸入所述業(yè)務(wù)信息的關(guān)鍵詞獲取搜索結(jié)果，并按預(yù)設(shè)的方式從所述搜索結(jié)果中獲取預(yù)設(shè)數(shù)目的鏈接形成種子鏈接庫。例如，在百度搜索中輸入“北京天和嘉園”的關(guān)鍵詞，共獲得約848，000個(gè)搜索結(jié)果，可以所述搜索結(jié)果中按照排列順序獲取前二十項(xiàng)的鏈接。在每一個(gè)鏈接指示的網(wǎng)頁中進(jìn)行檢測(cè)，若在所述網(wǎng)頁中有鏈接指示到其他頁面，則獲取所述其他頁面的鏈接，如此進(jìn)行3-4層的深度鏈接的獲取。
[0086]進(jìn)一步，獲取所述提取的各個(gè)鏈接指示的網(wǎng)頁內(nèi)容，可以對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分布式的存儲(chǔ)并建立哈希索引。
[0087]步驟S202:依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；
[0088]所述預(yù)先建立的業(yè)務(wù)詞庫包含有與所述業(yè)務(wù)信息有關(guān)的特定業(yè)務(wù)詞匯，所述特定業(yè)務(wù)詞匯用以對(duì)所述分詞處理進(jìn)行指導(dǎo)，可以提高分詞的準(zhǔn)確度。例如，所述房產(chǎn)業(yè)務(wù)信息中包含的特定業(yè)務(wù)詞匯有“房地產(chǎn)開發(fā)公司” “戶型面積”等，此些詞匯可以作為分詞標(biāo)準(zhǔn)，在分詞過程中將檢測(cè)到的所述詞語處理為一個(gè)完整的詞匯，并不會(huì)將其拆分為“房地產(chǎn)” “開發(fā)” “公司” “戶型” “面積”單獨(dú)的詞語。
[0089]本步驟完成的工作是對(duì)所述各個(gè)原始網(wǎng)頁進(jìn)行分詞處理，即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列，使用的算法可以為基于字符串的分詞方法。具體的，按照掃描方向的不同，可以是正向匹配，也可以是逆向匹配；按照不同長度優(yōu)先匹配的不同，可以是最大匹配，也可以是最小匹配；按照是否與詞性標(biāo)注過程相結(jié)合，可以是單純分析，也可以是分詞和標(biāo)注想結(jié)合的一體化方法。需要說明的是，不管使用上述何種或何幾種方法結(jié)合進(jìn)行的分詞，都屬于本發(fā)明保護(hù)范圍。
[0090]經(jīng)過分詞處理后，各個(gè)目標(biāo)網(wǎng)頁內(nèi)容被劃分為各個(gè)詞語集。
[0091]步驟S203:計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；
[0092]所述預(yù)先建立的指標(biāo)庫中的指標(biāo)如實(shí)施例一中的指標(biāo)庫。所述指標(biāo)庫中的指標(biāo)用以描述所述業(yè)務(wù)信息的屬性。比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。
[0093]在所述各個(gè)詞語集中分別查找所述指標(biāo)庫中包含的指標(biāo)，計(jì)算所述指標(biāo)在各個(gè)詞語集中所占的比例。例如，某個(gè)詞語集中共500個(gè)詞匯，其中包含指標(biāo)庫中的指標(biāo)數(shù)為200，則所述比例為2/5。
[0094]所述信息熵是對(duì)信息的量化，因?yàn)樾畔⑹莻€(gè)抽象的概念，用所述信息熵來對(duì)信息的信息量進(jìn)行度量。信息熵的計(jì)算公式為H(X)=E[I(Xi)]=E[log(2，l/p(Xi))]=- E P(Xi)log(2, P(Xi)) (i=l, 2，..n)。其中，I (Xi)表示隨機(jī)變量Xi的信息量；E代表了期望函數(shù)；P(Xi)代表了 Xi的機(jī)率質(zhì)量函數(shù)。
[0095]將所述詞語庫中的詞語作為變量Xi，利用上述公式計(jì)算所述詞語集的信息熵及所述指標(biāo)庫的信息熵，將計(jì)算獲得的兩個(gè)信息熵進(jìn)行差值比較以查看所述兩個(gè)信息熵的相似度，所述詞語集的信息熵與所述指標(biāo)庫的信息熵差值越小，則代表所述詞語集的信息熵與所述指標(biāo)庫的信息熵越相似，則所述詞語集對(duì)應(yīng)的目標(biāo)網(wǎng)頁的內(nèi)容與所述業(yè)務(wù)信息越接近。
[0096]例如，第一詞語集的信息熵為9，第二詞語集的信息熵為6，所述指標(biāo)庫的信息熵為10，則所述第一詞語集的信息熵與所述指標(biāo)庫的信息熵差值為1，所述第二詞語集的信息熵與所述指標(biāo)庫的信息熵的差值為4。
[0097]需要說明的是，本步驟可以單獨(dú)計(jì)算所述指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例，也可以計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度，或者是同時(shí)進(jìn)行上述兩種計(jì)算。
[0098]步驟S204:提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
[0099]所述相似度的預(yù)設(shè)范圍指的是所述詞語集的信息熵與所述指標(biāo)庫的信息熵的差值在某個(gè)范圍內(nèi)。本步驟中將比例和相似度作為確定并提取目標(biāo)網(wǎng)頁的指標(biāo)，則具體的提取標(biāo)準(zhǔn)可以有如下三種:即所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例滿足所述比例的預(yù)設(shè)范圍，或者，所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值滿足所述相似度的預(yù)設(shè)范圍，或者，以上兩者同時(shí)滿足條件。
[0100]按上述第一種方式來說，例如，所述比例的預(yù)設(shè)范圍為1/5至3/5，若原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例為2/5，則認(rèn)為滿足條件。按上述第二種方式來說，例如，所述相似度的預(yù)設(shè)范圍為差值在I至4，若原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值為3,則認(rèn)為滿足條件。按上述第三種方式來說,綜合考慮以上兩種方式，若原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例為2/5，但該網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值為5，則認(rèn)為所述原始網(wǎng)頁不滿足提取條件。
[0101]步驟S205:在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0102]步驟S206:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0103]需要說明的是，步驟205和步驟206的操作過程可以參見圖1所示實(shí)施例的步驟102和步驟103的相關(guān)描述，在此不再贅述。
[0104]由上述方案可知，本發(fā)明提供了一種獲取業(yè)務(wù)信息方法的另一個(gè)實(shí)施例，通過現(xiàn)有的搜索引擎獲得預(yù)設(shè)數(shù)目的原始網(wǎng)頁，提高了原始數(shù)據(jù)來源的質(zhì)量和效率。同時(shí)預(yù)先建立的有關(guān)業(yè)務(wù)信息的專業(yè)詞匯庫對(duì)獲取的所述原始網(wǎng)頁進(jìn)行分詞，提高了分詞的準(zhǔn)確度，為后續(xù)目標(biāo)網(wǎng)頁的提取奠定了較好的基礎(chǔ)。
[0105]參閱圖3，示出了本發(fā)明一種獲取業(yè)務(wù)信息的方法的又一個(gè)實(shí)施例的流程示意圖，所述方法包括:
[0106]步驟S301:獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0107]步驟S302:將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹；
[0108]通過利用現(xiàn)有的解析工具如NekoHTML可以將所述各個(gè)網(wǎng)頁解析為DOM樹。所述文檔對(duì)象模型DOM是一種用于HTML (Hypertext Markup Language,超文本標(biāo)記語言)和XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文檔的編程接口，它給文檔提供了一種結(jié)構(gòu)化的表示方法，可以改變文檔的內(nèi)容和呈現(xiàn)方式。DOM的內(nèi)部邏輯結(jié)構(gòu)通常表現(xiàn)為節(jié)點(diǎn)樹的形式。通過對(duì)HTML網(wǎng)頁的解析處理，HTML網(wǎng)頁中的各種元素轉(zhuǎn)化為DOM中的節(jié)點(diǎn)對(duì)象，請(qǐng)參閱圖9，示出了一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM后的結(jié)構(gòu)形式。
[0109]步驟S303:遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；
[0110]在DOM中，所有HTML元素被定義為對(duì)象，對(duì)象方法和對(duì)象屬性是接口。通過調(diào)用接口中的方法實(shí)現(xiàn)對(duì)DOM樹的遍歷。DOM的遍歷可以分為深度優(yōu)先的遍歷和廣度優(yōu)先的遍歷，不管使用何種方法對(duì)DOM樹的遍歷，都屬于本實(shí)施保護(hù)的范圍。例如，若使用深度優(yōu)先的遍歷，具體步驟為:在DOM獲取所述根節(jié)點(diǎn)即〈HTML〉，然后用$nod->first_child()方法找出〈HTML〉節(jié)點(diǎn)的第一個(gè)未被訪問的直接子節(jié)點(diǎn)，然后再以此節(jié)點(diǎn)為頂點(diǎn)，繼續(xù)查找所述節(jié)點(diǎn)的下個(gè)新頂點(diǎn)進(jìn)行訪問，重復(fù)此步驟直至所有節(jié)點(diǎn)都被訪問完為止。
[0111]在對(duì)DOM樹的遍歷過程中會(huì)檢測(cè)到所述各個(gè)節(jié)點(diǎn)標(biāo)簽的屬性，其中一些是有關(guān)視覺信息的，如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等。通常，同一個(gè)頁面中內(nèi)容相關(guān)的信息被放在同一個(gè)區(qū)域中，例如:廣告區(qū)域，導(dǎo)航區(qū)域，正文區(qū)域等。同一個(gè)區(qū)域中會(huì)使用相同的背景顏色、字體顏色、字體大小等，因此利用這些視覺信息提示，將所述DOM樹劃分為至少兩個(gè)區(qū)域，所述區(qū)域在語義內(nèi)容上是相關(guān)的，因此被稱為語義塊。
[0112]優(yōu)選的，所述具體的語義塊的劃分算法使用VIPS (Vision-based PageSegmentation，基于視覺信息的網(wǎng)頁分塊)算法。它首先從DOM樹中提取出所有的合適的頁面塊，然后根據(jù)這些頁面塊檢測(cè)出它們之間的所有的分割條，包括水平和垂直方向。最后基于這些分割條，頁面的語義結(jié)構(gòu)將被重新構(gòu)建。對(duì)于每一個(gè)語義塊又可以使用VIPS算法繼續(xù)分割為更小的語義塊。因此整個(gè)VIPS算法是自頂向下，非常高效的。
[0113]步驟S304:根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0114]所述確定目標(biāo)語義塊可以利用模糊邏輯算法或經(jīng)過訓(xùn)練的BP (BackPropagation)網(wǎng)絡(luò)神經(jīng)算法。所述語義塊的相關(guān)內(nèi)容即位置信息、布局信息、大小信息等。將所述各個(gè)語義塊的有關(guān)信息作為所述算法的輸入?yún)?shù)，利用相關(guān)算法的規(guī)則可以得知，所述各個(gè)語義塊具體包含的相關(guān)信息。例如，輸入某個(gè)語義塊的相對(duì)于網(wǎng)頁整體的位置，得知其為導(dǎo)航語義塊。
[0115]利用上述算法可以確定目標(biāo)語義塊，所述目標(biāo)語義塊即網(wǎng)頁中的正文內(nèi)容。所述正文內(nèi)容中包含有所述業(yè)務(wù)信息的屬性及屬性值信息。提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域以對(duì)其進(jìn)行后續(xù)提取屬性及屬性值的工作。
[0116]當(dāng)然，還有其他算法來確定目標(biāo)語義塊，在此不一一進(jìn)行列舉。
[0117]步驟S305:依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；
[0118]提取的各個(gè)目標(biāo)語義塊是從DOM樹中依據(jù)視覺信息進(jìn)行提取獲得的，被視為所述DOM樹的子樹，利用步驟S303中有關(guān)介紹遍歷DOM樹的方法可以實(shí)現(xiàn)對(duì)DOM子樹的遍歷，在遍歷過程中獲取所述DOM子樹的節(jié)點(diǎn)，所述節(jié)點(diǎn)即所述目標(biāo)語義塊中網(wǎng)頁標(biāo)簽元素的內(nèi)容。將所述標(biāo)簽元素的內(nèi)容與預(yù)先建立是指標(biāo)庫中的指標(biāo)進(jìn)行對(duì)比以確定所述業(yè)務(wù)屬性的目標(biāo)節(jié)點(diǎn)。例如，指標(biāo)庫中有物業(yè)公司這一指標(biāo)，所述DOM子樹中有節(jié)點(diǎn)為標(biāo)簽元素<TD>，其內(nèi)容為“物業(yè)公司”，則將所述節(jié)點(diǎn)確定為目標(biāo)節(jié)點(diǎn)。
[0119]需要說明的是，所述預(yù)先建立的指標(biāo)庫即第一個(gè)實(shí)施例中介紹的指標(biāo)庫，在此不進(jìn)行贅述。
[0120]步驟S306:通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；
[0121]利用分類算法對(duì)所述定位的目標(biāo)節(jié)點(diǎn)進(jìn)行決策，優(yōu)選的，所述分類算法可以使用ID3決策樹算法。當(dāng)然，本實(shí)施例中的ID3決策樹的訓(xùn)練樣本已進(jìn)行了初始化。ID3決策樹算法為在各層分枝節(jié)點(diǎn)上選擇屬性，用信息增益作為屬性選擇標(biāo)準(zhǔn)，使得在每一非葉子節(jié)點(diǎn)進(jìn)行測(cè)試時(shí)，能獲得關(guān)于被測(cè)試?yán)幼畲蟮念悇e信息，使用該屬性將樣本集劃分成子集后，系統(tǒng)的信息熵值最小。
[0122]通過ID3決策樹的算法對(duì)所述目標(biāo)節(jié)點(diǎn)作出的模式類別包括但不限于以下模式，即A模式:取兄弟節(jié)點(diǎn)(跳過修飾節(jié)點(diǎn))，B模式:(取父親節(jié)點(diǎn)，再取兄弟節(jié)點(diǎn))。通過所述各個(gè)模式可以獲取所述DOM目標(biāo)節(jié)點(diǎn)的周圍關(guān)聯(lián)節(jié)點(diǎn)。其中，所述目標(biāo)節(jié)點(diǎn)中有所述業(yè)務(wù)信息的屬性，所述周圍關(guān)聯(lián)節(jié)點(diǎn)中可能包含有所述業(yè)務(wù)信息屬性的屬性值。所述修飾節(jié)點(diǎn)為對(duì)所述目標(biāo)節(jié)點(diǎn)內(nèi)容的格式等方面的修飾，比如加粗、斜體、顏色等。
[0123]例如，某一個(gè)目標(biāo)語義塊對(duì)應(yīng)的網(wǎng)頁部分代碼為:
[0124]
<tr>
<td><st.r0.ng>物、!k.公！ !i</strorsg></td>
<td>t京水木天成物業(yè)管理有限責(zé)任公司</td>
</tr>
<tr>
<td><stroiig>I^IS 商圈 </strong></td>
<td> 通州 </td>
</tr>
[0125]按所述A模式獲得目標(biāo)節(jié)點(diǎn)<td>物業(yè)公司的關(guān)聯(lián)節(jié)點(diǎn)為排除修飾節(jié)點(diǎn)后的<td>北京水木天成物業(yè)管理有限責(zé)任公司節(jié)點(diǎn)；按所述B模式獲得目標(biāo)節(jié)點(diǎn)<td>物業(yè)公司的關(guān)聯(lián)節(jié)點(diǎn)為〈tdXstrong〉所屬商圈〈/strong〉。
[0126]步驟S307:判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn)；
[0127]利用神經(jīng)網(wǎng)絡(luò)算法輸出所述各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有所述業(yè)務(wù)信息屬性屬性值信息的可能性，優(yōu)選的，利用BP神經(jīng)網(wǎng)絡(luò)算法，所述BP神經(jīng)網(wǎng)絡(luò)已訓(xùn)練收斂。利用所述BP神經(jīng)網(wǎng)絡(luò)算法輸出的各個(gè)可能性相加為I。例如，所述A模式取得的關(guān)聯(lián)節(jié)點(diǎn)中包含有屬性值的可能性為0.7，所述B模式取得的關(guān)聯(lián)節(jié)點(diǎn)中包含有屬性值的可能性為0.3。取可能性為
0.7，即在A模式下獲取的兄弟節(jié)點(diǎn):〈td>北京水木天成物業(yè)管理有限責(zé)任公司為最終的關(guān)聯(lián)節(jié)點(diǎn)。
[0128]步驟S308:提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0129]通過利用DOM樹中獲取節(jié)點(diǎn)內(nèi)容的方法獲得所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息，例如，“北京水木天成物業(yè)管理有限責(zé)任公司”。
[0130]由以上技術(shù)方案可知，本發(fā)明提供了一種獲取業(yè)務(wù)信息方法的實(shí)施例，通過將所述目標(biāo)網(wǎng)頁劃分為多個(gè)區(qū)域，在所述區(qū)域中確定目標(biāo)語義塊，所述目標(biāo)語義塊中為所述目標(biāo)網(wǎng)頁中的正文內(nèi)容，從而排除了目標(biāo)網(wǎng)頁中可能包含的如廣告、導(dǎo)航等非業(yè)務(wù)信息的影響，提高了提取業(yè)務(wù)屬性信息及屬性值信息的效率。進(jìn)而，在所述目標(biāo)語義塊中進(jìn)一步查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息，所述查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息的方法即EFLA (Element Function and Layout Analyzer,元素功能及部件分析)算法。利用所述算法確定并提取所述目標(biāo)語義塊中的屬性及屬性值信息，相對(duì)于現(xiàn)有技術(shù)中將目標(biāo)網(wǎng)頁中所有信息進(jìn)行提取的方法，本實(shí)施例提供的獲取業(yè)務(wù)信息的方法能更準(zhǔn)確直接地提供所述業(yè)務(wù)信息內(nèi)容。
[0131]上述三個(gè)實(shí)施例之后還可以包括數(shù)據(jù)合并的步驟，將提取出的數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行輸出。參閱圖4，其示出了本發(fā)明一種獲取業(yè)務(wù)信息方法的又一個(gè)實(shí)施例的部分流程示意圖，即數(shù)據(jù)合并步驟的流程示意圖。所述實(shí)施例的完整步驟是在圖1、圖2或圖3所示的流程示意圖后包括:
[0132]步驟S401:將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；
[0133]預(yù)先初始化定義網(wǎng)頁的權(quán)重，權(quán)重是網(wǎng)頁本身與查詢?cè)~之間的相關(guān)度。按照權(quán)重排名，目標(biāo)區(qū)域所在的網(wǎng)站排名最高，則將從其中提取出的屬性及屬性值作為主數(shù)據(jù)，則從其他目標(biāo)區(qū)域提取出的屬性及屬性值作為輔助數(shù)據(jù)。例如，若預(yù)先初始化定義的“搜房網(wǎng)”網(wǎng)頁的權(quán)重高，則將從“搜房網(wǎng)”提取的房產(chǎn)業(yè)務(wù)信息作為主數(shù)據(jù)信息。
[0134]步驟S402:在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；
[0135]如果有多份輔助數(shù)據(jù)則在多份輔助數(shù)據(jù)中確定某一種輔助數(shù)據(jù)為第二輔助數(shù)據(jù)。多份輔助數(shù)據(jù)中會(huì)有不同的類型，如數(shù)值型，日期型，貨幣型，字符串型等。不同類型的數(shù)據(jù)則采用不同的方式確定第二輔助數(shù)據(jù)，例如:數(shù)值，日期，貨幣采用加權(quán)平均，取最近數(shù)據(jù)項(xiàng)，而字符串型，則通過計(jì)算信息熵確定。
[0136]步驟S403:判斷所述主數(shù)據(jù)信息中的屬性項(xiàng)是否少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)；
[0137]將所述確定的主數(shù)據(jù)與第一輔助數(shù)據(jù)中的各份第一輔助數(shù)據(jù)進(jìn)行比較判斷，比較的內(nèi)容是主數(shù)據(jù)中的屬性項(xiàng)是否少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)。
[0138]步驟S404:若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；
[0139]所述對(duì)主數(shù)據(jù)進(jìn)行屬性項(xiàng)的補(bǔ)充是將所述主數(shù)據(jù)中的屬性項(xiàng)進(jìn)行補(bǔ)充完整。例如，將從“搜房網(wǎng)”網(wǎng)頁中提取的智匯雅苑房產(chǎn)的數(shù)據(jù)信息作為主數(shù)據(jù)信息，所述數(shù)據(jù)信息中的屬性項(xiàng)有該處房產(chǎn)信息的物業(yè)類型、停車位、所屬商圈、綠化率等，從“搜狐焦點(diǎn)”網(wǎng)頁中提取的該處房產(chǎn)的屬性項(xiàng)除了以上內(nèi)容外，還包含有戶型面積、戶型信息等所述“搜房網(wǎng)”中并沒有提取到的屬性項(xiàng)，則將戶型面積和戶型信息屬性補(bǔ)充入主數(shù)據(jù)的屬性中。相應(yīng)的，將所述屬性對(duì)應(yīng)的屬性值信息補(bǔ)充入所述主數(shù)據(jù)中。并進(jìn)一步的，將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0140]步驟S405:若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0141]需要說明的是，智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第二任務(wù)腳本序列，執(zhí)行所述第二任務(wù)腳本序列自動(dòng)完成上述步驟S401至S405的工作。其中，所述第二任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0142]由以上的技術(shù)方案可知，本發(fā)明提供的一種獲取業(yè)務(wù)信息方法中數(shù)據(jù)合并步驟實(shí)施例，將從某一個(gè)目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為主數(shù)據(jù)信息，從其他目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為輔助數(shù)據(jù)信息，若從某個(gè)目標(biāo)區(qū)域中提取的屬性項(xiàng)存在缺失，則對(duì)其進(jìn)行補(bǔ)充，再將其他輔助數(shù)據(jù)中的屬性與所述補(bǔ)充后的主數(shù)據(jù)中的屬性進(jìn)行合并。相應(yīng)的，將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行保存。所述數(shù)據(jù)合并步驟將所述提取后的數(shù)據(jù)更近一步地進(jìn)行關(guān)聯(lián)合并，將整理后的數(shù)據(jù)進(jìn)行保存，則更直接準(zhǔn)確地反映了所述業(yè)務(wù)信息內(nèi)容。[0143]參閱圖5，其示出了一種獲取業(yè)務(wù)信息裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖，所述裝置包括:目標(biāo)網(wǎng)頁獲取單元501、目標(biāo)區(qū)域提取單元502及信息提取單元503。
[0144]目標(biāo)網(wǎng)頁獲取單元501，用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0145]目標(biāo)區(qū)域提取單元502，用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；
[0146]信息提取單元503，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0147]智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第一任務(wù)腳本序列，執(zhí)行所述第一任務(wù)腳本序列自動(dòng)指導(dǎo)上述單元503的工作。其中，所述第一任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0148]本實(shí)施例中，目標(biāo)網(wǎng)頁獲取單元501獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁，目標(biāo)區(qū)域提取單元502在所述目標(biāo)網(wǎng)頁中確定并提取目標(biāo)區(qū)域，刪除了原始網(wǎng)頁中的非業(yè)務(wù)信息，當(dāng)然，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，信息提取單元503在所述目標(biāo)區(qū)域中定位所述屬性及并提取所述屬性值信息。相對(duì)于現(xiàn)有搜索業(yè)務(wù)信息的方式只簡單保存全部原始網(wǎng)頁，本發(fā)明提供的裝置不僅會(huì)幫助節(jié)省存儲(chǔ)資源，而且獲取的數(shù)據(jù)信息結(jié)果直觀準(zhǔn)確地反映了所述業(yè)務(wù)信息。
[0149]參閱圖6，其示出了本發(fā)明一種獲取業(yè)務(wù)信息的裝置的另一個(gè)結(jié)構(gòu)示意圖，所述裝置包括:原始網(wǎng)頁獲取單元601、分詞單元602、計(jì)算單元603、提取單元604、目標(biāo)區(qū)域提取單元605及信息提取單元606。
[0150]原始網(wǎng)頁獲取單元601，用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；
[0151]分詞單元602，用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；
[0152]本單元完成的工作是對(duì)所述各個(gè)原始網(wǎng)頁進(jìn)行分詞處理，即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列，使用的算法可以為基于字符串的分詞方法。具體的，按照掃描方向的不同，可以是正向匹配，也可以是逆向匹配；按照不同長度優(yōu)先匹配的不同，可以是最大匹配，也可以是最小匹配；按照是否與詞性標(biāo)注過程相結(jié)合，可以是單純分析，也可以是分詞和標(biāo)注想結(jié)合的一體化方法。需要說明的是，不管使用上述何種或何幾種方法結(jié)合進(jìn)行的分詞，都屬于本發(fā)明保護(hù)范圍。
[0153]經(jīng)過分詞處理后，各個(gè)目標(biāo)網(wǎng)頁內(nèi)容被劃分為各個(gè)詞語集。
[0154]計(jì)算單元603，用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；
[0155]所述預(yù)先建立的指標(biāo)庫中的指標(biāo)如實(shí)施例一中的指標(biāo)庫。所述指標(biāo)庫中的指標(biāo)用以描述所述業(yè)務(wù)信息的屬性。比如房產(chǎn)業(yè)務(wù)中的房產(chǎn)基本信息中的物業(yè)類別、建筑面積、所述商圈、地理地址、戶型、交通狀況、物業(yè)公司、開發(fā)商等等。
[0156]在所述各個(gè)詞語集中分別查找所述指標(biāo)庫中包含的指標(biāo)，計(jì)算所述指標(biāo)在各個(gè)詞語集中所占的比例。
[0157]所述信息熵是對(duì)信息的量化，因?yàn)樾畔⑹莻€(gè)抽象的概念，用所述信息熵來對(duì)信息的信息量進(jìn)行度量。信息熵的計(jì)算公式為H(X)=E[I(Xi)]=E[log(2，l/p(Xi))]=- E P(Xi)log(2, P(Xi)) (i=l, 2，..n)。其中，I (Xi)表示隨機(jī)變量Xi的信息量；E代表了期望函數(shù)；P(Xi)代表了 Xi的機(jī)率質(zhì)量函數(shù)。
[0158]將所述詞語庫中的詞語作為變量Xi，利用上述公式計(jì)算所述詞語集的信息熵及所述指標(biāo)庫的信息熵，將計(jì)算獲得的兩個(gè)信息熵進(jìn)行差值比較以查看所述兩個(gè)信息熵的相似度，所述詞語集的信息熵與所述指標(biāo)庫的信息熵差值越小，則代表所述詞語集的信息熵與所述指標(biāo)庫的信息熵越相似，則所述詞語集對(duì)應(yīng)的目標(biāo)網(wǎng)頁的內(nèi)容與所述業(yè)務(wù)信息越接近。
[0159]需要說明的是，本單元可以單獨(dú)計(jì)算所述指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例，也可以計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度，或者是同時(shí)進(jìn)行上述兩種計(jì)算。
[0160]提取單元604，用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁；
[0161]所述相似度的預(yù)設(shè)范圍指的是所述詞語集的信息熵與所述指標(biāo)庫的信息熵的差值在某個(gè)范圍內(nèi)。本單元中將比例和相似度作為確定并提取目標(biāo)網(wǎng)頁的指標(biāo)，則具體的提取標(biāo)準(zhǔn)可以有如下三種:即所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中包含所述指標(biāo)庫中指標(biāo)的比例滿足所述比例的預(yù)設(shè)范圍，或者，所述原始網(wǎng)頁對(duì)應(yīng)的詞語集中信息熵與所述指標(biāo)庫的信息熵的差值滿足所述相似度的預(yù)設(shè)范圍，或者，以上兩者同時(shí)滿足條件。
[0162]目標(biāo)區(qū)域提取單元605，用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息
[0163]信息提取單元606，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
[0164]需要說明的是，裝置605和裝置606的操作過程可以參見圖1所示實(shí)施例的裝置502和裝置503的相關(guān)描述，在此不再贅述。
[0165]由上述方案可知，本發(fā)明提供了一種獲取業(yè)務(wù)信息裝置的實(shí)施例，通過現(xiàn)有的搜索引擎獲得預(yù)設(shè)數(shù)目的原始網(wǎng)頁，提高了原始數(shù)據(jù)來源的質(zhì)量和效率。同時(shí)預(yù)先建立的有關(guān)業(yè)務(wù)信息的專業(yè)詞匯庫對(duì)獲取的所述原始網(wǎng)頁進(jìn)行分詞，提高了分詞的準(zhǔn)確度，為后續(xù)目標(biāo)網(wǎng)頁的提取奠定了較好的基礎(chǔ)。
[0166]參閱圖7，其示出了一種獲取業(yè)務(wù)信息的又一種實(shí)施例的結(jié)構(gòu)示意圖，所述裝置包括:目標(biāo)網(wǎng)頁獲取單元701、解析單元702、語義塊劃分單元703、目標(biāo)語義塊提取單元704、目標(biāo)節(jié)點(diǎn)定位單元705、關(guān)聯(lián)節(jié)點(diǎn)提取單元706、關(guān)聯(lián)節(jié)點(diǎn)確定單元707、屬性值信息提取單元 708。
[0167]目標(biāo)網(wǎng)頁獲取單元701，用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；
[0168]解析單元702,用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹；
[0169]通過利用現(xiàn)有的解析工具如NekoHTML可以將所述各個(gè)網(wǎng)頁解析為DOM樹。所述文檔對(duì)象模型DOM是一種用于HTML (Hypertext Markup Language,超文本標(biāo)記語言)和XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文檔的編程接口，它給文檔提供了一種結(jié)構(gòu)化的表示方法，可以改變文檔的內(nèi)容和呈現(xiàn)方式。DOM的內(nèi)部邏輯結(jié)構(gòu)通常表現(xiàn)為節(jié)點(diǎn)樹的形式。通過對(duì)HTML網(wǎng)頁的解析處理，HTML網(wǎng)頁中的各種元素轉(zhuǎn)化為DOM中的節(jié)點(diǎn)對(duì)象，請(qǐng)參閱圖9，示出了一個(gè)HTML網(wǎng)頁轉(zhuǎn)換為DOM后的結(jié)構(gòu)形式。
[0170]語義塊劃分單元703，用于遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；
[0171]優(yōu)選的，所述具體的語義塊的劃分算法使用VIPS (Vision-based PageSegmentation，基于視覺信息的網(wǎng)頁分塊)算法。它首先從DOM樹中提取出所有的合適的頁面塊，然后根據(jù)這些頁面塊檢測(cè)出它們之間的所有的分割條，包括水平和垂直方向。最后基于這些分割條，頁面的語義結(jié)構(gòu)將被重新構(gòu)建。對(duì)于每一個(gè)語義塊又可以使用VIPS算法繼續(xù)分割為更小的語義塊。因此整個(gè)VIPS算法是自頂向下，非常高效的。
[0172]目標(biāo)語義塊提取單元704，用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
[0173]所述確定目標(biāo)語義塊可以利用模糊邏輯算法或經(jīng)過訓(xùn)練的BP (BackPropagation)網(wǎng)絡(luò)神經(jīng)算法。所述語義塊的相關(guān)內(nèi)容即位置信息、布局信息、大小信息等。將所述各個(gè)語義塊的有關(guān)信息作為所述算法的輸入?yún)?shù)，利用相關(guān)算法的規(guī)則可以得知，所述各個(gè)語義塊具體包含的相關(guān)信息。例如，輸入某個(gè)語義塊的相對(duì)于網(wǎng)頁整體的位置，得知其為導(dǎo)航語義塊。
[0174]利用上述算法可以確定目標(biāo)語義塊，所述目標(biāo)語義塊即網(wǎng)頁中的正文內(nèi)容。所述正文內(nèi)容中包含有所述業(yè)務(wù)信息的屬性及屬性值信息。提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域以對(duì)其進(jìn)行后續(xù)提取屬性及屬性值的工作。
[0175]當(dāng)然，還有其他算法來確定目標(biāo)語義塊，在此不一一進(jìn)行列舉。
[0176]目標(biāo)節(jié)點(diǎn)定位單元705，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；
[0177]關(guān)聯(lián)節(jié)點(diǎn)提取單元706，用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；
[0178]關(guān)聯(lián)節(jié)點(diǎn)確定單元707，用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn)；
[0179]屬性值信息提取單元708，用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
[0180]由以上技術(shù)方案可知，本發(fā)明提供了一種獲取業(yè)務(wù)信息裝置的實(shí)施例，語義塊劃分單元703通過將所述目標(biāo)網(wǎng)頁劃分為多個(gè)區(qū)域，目標(biāo)語義塊提取單元704在所述區(qū)域中確定目標(biāo)語義塊，所述目標(biāo)語義塊中為所述目標(biāo)網(wǎng)頁中的正文內(nèi)容，從而排除了目標(biāo)網(wǎng)頁中可能包含的如廣告、導(dǎo)航等非業(yè)務(wù)信息的影響，提高了提取業(yè)務(wù)屬性信息及屬性值信息的效率。進(jìn)而，目標(biāo)節(jié)點(diǎn)定位單元705在所述目標(biāo)語義塊中進(jìn)一步查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息，所述查找并提取所述業(yè)務(wù)信息的屬性及屬性值信息的單元即EFLA(Element Function and Layout Analyzer,元素功能及部件分析)單元。利用所述算法確定并提取所述目標(biāo)語義塊中的屬性及屬性值信息，相對(duì)于現(xiàn)有技術(shù)中將目標(biāo)網(wǎng)頁中所有信息進(jìn)行提取的裝置，本實(shí)施例提供的一種獲取業(yè)務(wù)信息的裝置能更準(zhǔn)確直接地提供所述業(yè)務(wù)信息內(nèi)容。
[0181]上述三個(gè)實(shí)施例之后還可以包括數(shù)據(jù)合并的單元，將提取出的數(shù)據(jù)進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行輸出。參閱圖8，其示出了本發(fā)明一種獲取業(yè)務(wù)信息裝置的又一個(gè)實(shí)施例的部分結(jié)構(gòu)示意圖，即數(shù)據(jù)合并單元的結(jié)構(gòu)示意圖。所述實(shí)施例的完整裝置是在圖5、圖6或圖7所示的結(jié)構(gòu)示意圖后包括:數(shù)據(jù)區(qū)分單元801、輔助數(shù)據(jù)確定單元802、第一合并單元803及第二合并單元804。
[0182]數(shù)據(jù)區(qū)分單元801，用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；
[0183]輔助數(shù)據(jù)確定單元802，用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；
[0184]第一合并單元803，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；
[0185]第二合并單元804，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
[0186]需要說明的是，智能腳本引擎依據(jù)所述指標(biāo)庫的引導(dǎo)構(gòu)建第二任務(wù)腳本序列，執(zhí)行所述第二任務(wù)腳本序列自動(dòng)指導(dǎo)上述單元801至單元805的工作。其中，所述第二任務(wù)腳本序列的表現(xiàn)形式為XML文件。
[0187]由以上的技術(shù)方案可知，本發(fā)明提供的一種獲取業(yè)務(wù)信息裝置中數(shù)據(jù)合并單元實(shí)施例，數(shù)據(jù)區(qū)分單元801將從某一個(gè)目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為主數(shù)據(jù)信息，從其他目標(biāo)區(qū)域中提取的各項(xiàng)屬性及屬性值信息作為輔助數(shù)據(jù)信息，若從某個(gè)目標(biāo)區(qū)域中提取的屬性項(xiàng)存在缺失，則第一合并單元803對(duì)其進(jìn)行補(bǔ)充，再將其他輔助數(shù)據(jù)中的屬性與所述補(bǔ)充后的主數(shù)據(jù)中的屬性進(jìn)行合并。相應(yīng)的，將所述屬性對(duì)應(yīng)的屬性值信息進(jìn)行合并形成結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行保存。所述數(shù)據(jù)合并單元將所述提取后的數(shù)據(jù)更近一步地進(jìn)行關(guān)聯(lián)合并，將整理后的數(shù)據(jù)進(jìn)行保存，則更直接準(zhǔn)確地反映了所述業(yè)務(wù)信息內(nèi)容。
[0188]需要說明的是，本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0189]以上對(duì)本發(fā)明所提供的一種獲取業(yè)務(wù)信息的方法及裝置進(jìn)行了詳細(xì)介紹，對(duì)所公開的實(shí)施例的上述說明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。
【權(quán)利要求】
1.一種獲取業(yè)務(wù)信息的方法，其特征在于，包括: 獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁包括: 利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；計(jì)算預(yù)先建立的指標(biāo)庫中的指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，包括: 將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM (Document Object Model,文件對(duì)象模型)樹；遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息，包括: 依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn)；提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
5.根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法，其特征在于，所述方法之后還包括: 將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
6.一種獲取業(yè)務(wù)信息的裝置，其特征在于，包括: 目標(biāo)網(wǎng)頁獲取單元，用于獲取與所述業(yè)務(wù)信息相關(guān)的至少兩個(gè)目標(biāo)網(wǎng)頁；目標(biāo)區(qū)域提取單元，用于在各個(gè)目標(biāo)網(wǎng)頁中分別確定目標(biāo)區(qū)域，并分別提取所述目標(biāo)區(qū)域；其中，所述目標(biāo)區(qū)域中包含有所述業(yè)務(wù)信息的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；信息提取單元，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，在各個(gè)目標(biāo)區(qū)域中分別定位所述業(yè)務(wù)信息的屬性，并提取所述屬性及與所述屬性相對(duì)應(yīng)的屬性值信息；其中，所述指標(biāo)用以描述所述業(yè)務(wù)信息的各項(xiàng)屬性。
7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述目標(biāo)網(wǎng)頁獲取單元包括: 原始網(wǎng)頁獲取單元，用于利用通用搜索引擎獲取至少兩個(gè)原始網(wǎng)頁；分詞單元，用于依據(jù)預(yù)先建立的業(yè)務(wù)詞庫將各個(gè)原始網(wǎng)頁分割為多個(gè)獨(dú)立的詞語形成詞語集；計(jì)算單元，用于計(jì)算預(yù)先建立的指標(biāo)庫中指標(biāo)在各個(gè)詞語集中所占的比例，和/或，計(jì)算各個(gè)詞語集的信息熵與所述指標(biāo)庫的信息熵的相似度；提取單元，用于提取所述比例和/或所述相似度滿足預(yù)設(shè)范圍的至少兩個(gè)原始網(wǎng)頁作為目標(biāo)網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述目標(biāo)區(qū)域提取單元包括: 解析單元，用于將各個(gè)目標(biāo)網(wǎng)頁分別解析為DOM(Document Object Model,文件對(duì)象模型)樹；語義塊劃分單元，用于遍歷各個(gè)DOM樹的節(jié)點(diǎn)，根據(jù)所述節(jié)點(diǎn)的視覺信息將各個(gè)DOM樹劃分為至少兩個(gè)語義塊；目標(biāo)語義塊提取單元，用于根據(jù)各個(gè)DOM樹中的各個(gè)語義塊的相關(guān)信息分別確定各個(gè)DOM樹的目標(biāo)語義塊，并提取所述目標(biāo)語義塊作為目標(biāo)區(qū)域；其中，所述目標(biāo)語義塊包含有所述業(yè)務(wù)的屬性及與所述屬性相對(duì)應(yīng)的屬性值信息。
9.根據(jù)權(quán)利要求6所示的裝置，其特征在于，所述信息提取單元包括: 目標(biāo)節(jié)點(diǎn)定位單元，用于依據(jù)預(yù)先建立的指標(biāo)庫中的指標(biāo)，分別遍歷各個(gè)目標(biāo)語義塊對(duì)應(yīng)的DOM子樹，在各個(gè)子樹中分別定位包含所述業(yè)務(wù)的屬性的目標(biāo)節(jié)點(diǎn)；關(guān)聯(lián)節(jié)點(diǎn)提取單元，用于通過決策獲得各個(gè)目標(biāo)節(jié)點(diǎn)的模式類別，并依據(jù)所述模式類別在各個(gè)DOM子樹中提取各個(gè)目標(biāo)節(jié)點(diǎn)的多個(gè)關(guān)聯(lián)節(jié)點(diǎn)；關(guān)聯(lián)節(jié)點(diǎn)確定單元，用于判斷各個(gè)關(guān)聯(lián)節(jié)點(diǎn)中包含有與所述屬性對(duì)應(yīng)的屬性值信息的可能性，并依據(jù)各個(gè)可能性的高低確定可能性最高的關(guān)聯(lián)節(jié)點(diǎn)；屬性值信息提取單元，用于提取所述可能性最高的關(guān)聯(lián)節(jié)點(diǎn)中的屬性值信息。
10.根據(jù)權(quán)利要求6至9任意一項(xiàng)所述的裝置，其特征在于，還包括: 數(shù)據(jù)區(qū)分單元，用于將從某一個(gè)目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為主數(shù)據(jù)，將從其他目標(biāo)區(qū)域中提取出的屬性及屬性值信息作為第一輔助數(shù)據(jù)；輔助數(shù)據(jù)確定單元，用于在所述第一輔助數(shù)據(jù)中根據(jù)不同的數(shù)據(jù)類型選擇第二輔助數(shù)據(jù)；其中，選擇規(guī)則與所述數(shù)據(jù)類型相對(duì)應(yīng)；第一合并單元，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則補(bǔ)充所述主數(shù)據(jù)缺失的屬性及其對(duì)應(yīng)的屬性值信息，并將所述補(bǔ)充后的主數(shù)據(jù)與所述第二輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存；第二合并單元，用于若所述主數(shù)據(jù)信息中的屬性項(xiàng)不少于所述第一輔助數(shù)據(jù)中的屬性項(xiàng)，則將所述主數(shù)據(jù)與所述第二`輔助數(shù)據(jù)進(jìn)行合并，形成結(jié)構(gòu)化的數(shù)據(jù)信息并進(jìn)行保存。
【文檔編號(hào)】G06F17/30GK103488746SQ201310432901
【公開日】2014年1月1日申請(qǐng)日期:2013年9月22日優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】余飛, 鄧偉, 庾小波, 楊勇濤申請(qǐng)人:成都銳理開創(chuàng)信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余飛;鄧偉;庾小波;楊勇濤
技術(shù)所有人：成都銳理開創(chuàng)信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

機(jī)械裝置的業(yè)務(wù)員相關(guān)技術(shù)

獲取信息的過程與方法相關(guān)技術(shù)

獲取信息的方法相關(guān)技術(shù)

古代獲取信息的方法相關(guān)技術(shù)

近代獲取信息的方法相關(guān)技術(shù)

信息獲取方法相關(guān)技術(shù)

互聯(lián)網(wǎng)獲取信息的方法相關(guān)技術(shù)

獲取信息的方法教案相關(guān)技術(shù)

信息獲取的方法主要有相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取業(yè)務(wù)信息的方法及裝置制造方法