1.一種基于網(wǎng)站首頁(yè)內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,其特征在于,包括:
基于領(lǐng)域概念空間,進(jìn)行網(wǎng)站首頁(yè)內(nèi)容的網(wǎng)站信息領(lǐng)域判別,進(jìn)而完成領(lǐng)域信息收集;
基于領(lǐng)域概念空間,對(duì)收集的頁(yè)面內(nèi)容進(jìn)行領(lǐng)域信息分類,進(jìn)而完成領(lǐng)域信息關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)站首頁(yè)內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,其特征在于,基于領(lǐng)域概念空間進(jìn)行網(wǎng)站首頁(yè)內(nèi)容的網(wǎng)站信息領(lǐng)域判別進(jìn)而完成領(lǐng)域信息收集具體包括:
1)根據(jù)領(lǐng)域特點(diǎn),構(gòu)建領(lǐng)域概念空間,并將網(wǎng)站中的頁(yè)面信息作為概念的實(shí)例;
2)定義領(lǐng)域網(wǎng)站的URI種子集合;
3)根據(jù)URI種子集合下載網(wǎng)站首頁(yè),當(dāng)網(wǎng)頁(yè)內(nèi)容小于10k時(shí),提取首頁(yè)中的二級(jí)頁(yè)面,作為首頁(yè)內(nèi)容;
4)對(duì)網(wǎng)站首頁(yè)的內(nèi)容進(jìn)行領(lǐng)域性判斷。
5)以屬于所述領(lǐng)域的所述首頁(yè)為主線,下載層次深度小于5的所有網(wǎng)頁(yè)信息,并根據(jù)頁(yè)面特點(diǎn)將所述網(wǎng)頁(yè)信息區(qū)分為欄目鏈接頁(yè)面和內(nèi)容頁(yè)面,保存在數(shù)據(jù)庫(kù)中。
3.根據(jù)權(quán)利要求2所述的基于網(wǎng)站首頁(yè)內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,其特征在于,所述步驟4)具體包括:
提取首頁(yè)內(nèi)容中的所有url鏈接,形成url鏈接集合S={<title,uri>}形式;
對(duì)所有的title進(jìn)行切詞,提取來(lái)自概念空間的全部概念集合{wi},其中;S表示為{{wi},url}>;
計(jì)算概念w所屬領(lǐng)域度,計(jì)算公式如下:
式中,P為所述首頁(yè)屬于所述領(lǐng)域的概率,N為url鏈接集合S元素個(gè)數(shù),wm為概念所屬領(lǐng)域度,Kj為S中第j個(gè)元素的title的切詞后的詞語(yǔ)個(gè)數(shù);
將P與給定的閾值t進(jìn)行比較,如果P大于閾值t,判定所述首頁(yè)屬于所述領(lǐng)域,其中,t的取值在0.3-05之間。
4.根據(jù)權(quán)利要求2所述的基于網(wǎng)站首頁(yè)內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,其特征在于,基于領(lǐng)域概念空間對(duì)收集的頁(yè)面內(nèi)容進(jìn)行領(lǐng)域信息分類進(jìn)而完成領(lǐng)域信息關(guān)聯(lián)具體包括:
(1)提取數(shù)據(jù)庫(kù)的內(nèi)容頁(yè)面,并把所述頁(yè)面作為概念空間中的實(shí)例,采用分詞算法提取所有的詞語(yǔ),將領(lǐng)域詞語(yǔ)組成所述實(shí)例的內(nèi)涵描述集,計(jì)算領(lǐng)域詞的語(yǔ)詞頻大小,并提取前8-15個(gè)詞頻較大的領(lǐng)域詞語(yǔ);其中,提取的所述詞語(yǔ)包括題目詞語(yǔ)和內(nèi)容描述詞語(yǔ),所述題目詞語(yǔ)的權(quán)重為5-8,所述內(nèi)容描述詞語(yǔ)的權(quán)重為2;
(2)采用SVM算法構(gòu)建多標(biāo)簽實(shí)例歸類模型,根據(jù)實(shí)例提取的詞語(yǔ)和權(quán)重構(gòu)成所述實(shí)例的向量空間,基于多標(biāo)簽實(shí)例歸類模型計(jì)算其所屬每個(gè)類別的概率P,當(dāng)P>1/(n-1)時(shí),將所述實(shí)例歸結(jié)到相應(yīng)類別中,并將所述實(shí)例保存到知識(shí)庫(kù);同時(shí),將類標(biāo)識(shí)保存至所述實(shí)例中,所述類標(biāo)識(shí)具有唯一標(biāo)識(shí)ID號(hào);其中,歸屬多個(gè)類的實(shí)例單獨(dú)用一張映射表來(lái)關(guān)聯(lián);
(3)獲取實(shí)例的關(guān)系集合,包括:對(duì)實(shí)例i進(jìn)行掃描,找到實(shí)例i所屬概念C,根據(jù)概念C獲取關(guān)系集合R;
(4)獲取關(guān)系實(shí)例,包括:基于關(guān)系集合R,對(duì)其中一個(gè)關(guān)系r,在對(duì)應(yīng)約束概念中所有實(shí)例進(jìn)行掃描,對(duì)于已具有關(guān)系的實(shí)例,當(dāng)其實(shí)例對(duì)應(yīng)實(shí)例i所屬概念的實(shí)例時(shí),對(duì)所述實(shí)例進(jìn)行排除,根據(jù)每個(gè)實(shí)例標(biāo)題所構(gòu)成的專業(yè)詞語(yǔ)與實(shí)例i標(biāo)題進(jìn)行相似性比較;其中,相似性比較采用漢明距離,當(dāng)距離大于預(yù)設(shè)閾值時(shí),將所述實(shí)例歸于實(shí)例i的關(guān)系r中;
(5)獲取關(guān)聯(lián)實(shí)例,包括:基于實(shí)例i的關(guān)系對(duì)象集合o,對(duì)關(guān)系對(duì)象集合o的所有實(shí)例,采用K-mean聚類算法進(jìn)行聚類,其中,聚類的類別個(gè)數(shù)為對(duì)象集合o的數(shù)目除以3得到的整數(shù)N,如果整數(shù)N等于1,將關(guān)系對(duì)象集合o中的所有實(shí)例關(guān)聯(lián)到關(guān)系r中,如果N大于1,則將實(shí)例數(shù)量最大的類別中所有實(shí)例關(guān)聯(lián)到關(guān)系r中;
(6)對(duì)關(guān)系集合R的所有關(guān)系重復(fù)步驟4)、5),直到實(shí)例i關(guān)系計(jì)算完成。