本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體說,涉及一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法。
背景技術(shù):
當今的互聯(lián)網(wǎng)包含了數(shù)量越來越大的信息,特別是專業(yè)領(lǐng)域網(wǎng)站越來越多,存在著大量內(nèi)容相關(guān)信息。但是,由于這些專業(yè)網(wǎng)站的信息是通過大量超文本鏈接組成的,而且有可能彼此沒有關(guān)聯(lián),導致用戶快速定位到所需要的領(lǐng)域信息簇非常困難。目前,解決這一問題的一個重要途徑是讓搜索引擎進行基于關(guān)鍵字搜索。但是,這種方法通常會導致搜索的結(jié)果出現(xiàn)無效網(wǎng)頁,特別用戶在查找專業(yè)信息時,信息簇定位非常困難,而且信息時效性差。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,以解決上述問題。
本發(fā)明的實施例提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,包括:
基于領(lǐng)域概念空間,進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別,進而完成領(lǐng)域信息收集;
基于領(lǐng)域概念空間,對收集的頁面內(nèi)容進行領(lǐng)域信息分類,進而完成領(lǐng)域信息關(guān)聯(lián)。
進一步,基于領(lǐng)域概念空間進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別進而完成領(lǐng)域信息收集具體包括:
1)根據(jù)領(lǐng)域特點,構(gòu)建領(lǐng)域概念空間,并將網(wǎng)站中的頁面信息作為概念的實例;
2)定義領(lǐng)域網(wǎng)站的URI種子集合;
3)根據(jù)URI種子集合下載網(wǎng)站首頁,當網(wǎng)頁內(nèi)容小于10k時,提取首頁中的二級頁面,作為首頁內(nèi)容;
4)對網(wǎng)站首頁的內(nèi)容進行領(lǐng)域性判斷。
5)以屬于該領(lǐng)域的所述首頁為主線,下載層次深度小于5的所有網(wǎng)頁信息,并根據(jù)頁面特點將該網(wǎng)頁信息區(qū)分為欄目鏈接頁面和內(nèi)容頁面,保存在數(shù)據(jù)庫中。
進一步,步驟4)具體包括:
提取首頁內(nèi)容中的所有url鏈接,形成url鏈接集合S={<title,uri>}形式;
對所有的title進行切詞,提取來自概念空間的全部概念集合{wi},其中;S表示為{{wi},url}>;
計算概念w所屬領(lǐng)域度,計算公式如下:
式中,P為該首頁屬于所述領(lǐng)域的概率,N為url鏈接集合S元素個數(shù),wm為概念所屬領(lǐng)域度,Kj為S中第j個元素的title的切詞后的詞語個數(shù);
將P與給定的閾值t進行比較,如果P大于閾值t,判定所述首頁屬于該領(lǐng)域,其中,t的取值在0.3-05之間;
進一步,基于領(lǐng)域概念空間對收集的頁面內(nèi)容進行領(lǐng)域信息分類進而完成領(lǐng)域信息關(guān)聯(lián)具體包括:
(1)提取數(shù)據(jù)庫的內(nèi)容頁面,并把該頁面作為概念空間中的實例,采用分詞算法提取所有的詞語,將領(lǐng)域詞語組成該實例的內(nèi)涵描述集,計算領(lǐng)域詞的語詞頻大小,并提取前8-15個詞頻較大的領(lǐng)域詞語;其中,提取的該詞語包括題目詞語和內(nèi)容描述詞語,該題目詞語的權(quán)重為5-8,該內(nèi)容描述詞語的權(quán)重為2;
(2)采用SVM算法構(gòu)建多標簽實例歸類模型,根據(jù)實例提取的詞語和權(quán)重構(gòu)成該實例的向量空間,基于多標簽實例歸類模型計算其所屬每個類別的概率P,當P>1/(n-1)時,將該實例歸結(jié)到相應(yīng)類別中,并將該實例保存到知識庫;同時,將類標識保存至該實例中,所述類標識具有唯一標識ID號;其中,歸屬多個類的實例單獨用一張映射表來關(guān)聯(lián);
(3)獲取實例的關(guān)系集合,包括:對實例i進行掃描,找到實例i所屬概念C,根據(jù)概念C獲取關(guān)系集合R;
(4)獲取關(guān)系實例,包括:基于關(guān)系集合R,對其中一個關(guān)系r,在對應(yīng)約束概念中所有實例進行掃描,對于已具有關(guān)系的實例,當其實例對應(yīng)實例i所屬概念的實例時,對該實例進行排除,根據(jù)每個實例標題所構(gòu)成的專業(yè)詞語與實例i標題進行相似性比較;其中,相似性比較采用漢明距離,當距離大于預(yù)設(shè)閾值時,將該實例歸于實例i的關(guān)系r中;
(5)獲取關(guān)聯(lián)實例,包括:基于實例i的關(guān)系對象集合o,對關(guān)系對象集合o的所有實例,采用K-mean聚類算法進行聚類,其中,聚類的類別個數(shù)為對象集合o的數(shù)目除以3得到的整數(shù)N,如果整數(shù)N等于1,將關(guān)系對象集合o中的所有實例關(guān)聯(lián)到關(guān)系r中,如果N大于1,則將實例數(shù)量最大的類別中所有實例關(guān)聯(lián)到關(guān)系r中;
(6)對關(guān)系集合R的所有關(guān)系重復(fù)步驟4)、5),直到實例i關(guān)系計算完成。
與現(xiàn)有技術(shù)相比本發(fā)明的有益效果是:采用概念空間形成領(lǐng)域概念描述,基于網(wǎng)頁首頁信息判別進行領(lǐng)域信息收集,不同網(wǎng)站節(jié)點以概念空間為基礎(chǔ)組成關(guān)聯(lián)網(wǎng)絡(luò),能夠使用戶快速、準確定位到所需要的領(lǐng)域信息簇。
附圖說明
圖1是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法的流程圖;
圖2是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合附圖所示的各實施方式對本發(fā)明進行詳細說明,但應(yīng)當說明的是,這些實施方式并非對本發(fā)明的限制,本領(lǐng)域普通技術(shù)人員根據(jù)這些實施方式所作的功能、方法、或者結(jié)構(gòu)上的等效變換或替代,均屬于本發(fā)明的保護范圍之內(nèi)。
參圖1所示,圖1是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法的流程圖。
本實施例提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法,包括:
步驟S1,基于領(lǐng)域概念空間,進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別,進而完成領(lǐng)域信息收集;
概念空間構(gòu)建的目標是捕捉相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。
在概念空間中,最基本的關(guān)系是is-a(上下位關(guān)系),也包含大量的關(guān)系。這些關(guān)系用來描述不同的類或?qū)嵗g的相互關(guān)系,如整體部分關(guān)系、同義關(guān)系、因果關(guān)系等等,根據(jù)關(guān)系的擴展,其概念結(jié)構(gòu)空間的定義為:
概念空間是一個3元組CS=(C,H,R),其中:
(1)C是一個非空的概念集合;
(2)是C上的一個二元關(guān)系,滿足傳遞性、非自反性、反對稱性。我們稱H為C上的繼承(或?qū)哟?關(guān)系。
(3)R={R1,R2,…,Rn},其中稱Ri為C中概念間的非層次關(guān)系,滿足Ri∩H=φ。
概念空間主干通常表現(xiàn)為本體的概念層次分類圖,通常概念的層次越高,其語義就越抽象,共享程度也就越高。而底層概念較為具體,更貼近具體的領(lǐng)域應(yīng)用。如果將H也看作R的一種特殊的關(guān)系,則概念結(jié)構(gòu)空間簡單表示為CS=(C,R)。
步驟S2,基于領(lǐng)域概念空間,對收集的頁面內(nèi)容進行領(lǐng)域信息分類,進而完成領(lǐng)域信息關(guān)聯(lián)。
在本實施例中,步驟S1具體包括:
1)根據(jù)領(lǐng)域特點,構(gòu)建領(lǐng)域概念空間,并將網(wǎng)站中的頁面信息作為概念的實例;
2)定義領(lǐng)域網(wǎng)站的URI種子集合;
3)根據(jù)URI種子集合下載網(wǎng)站首頁,當網(wǎng)頁內(nèi)容小于10k時,提取首頁中的二級頁面,作為首頁內(nèi)容;
4)對網(wǎng)站首頁的內(nèi)容進行領(lǐng)域性判斷,具體包括:
提取首頁內(nèi)容中的所有url鏈接,形成url鏈接集合S={<title,uri>}形式,對所有的title進行切詞,提取來自概念空間的全部概念集合{wi};因此,S又可以表示為{{wi},url}>。為了判別一個領(lǐng)域網(wǎng)站的首頁,需要計算概念w屬于一個領(lǐng)域的程度,即概念所屬領(lǐng)域度,本實施例采用本體中概念層次關(guān)系簡單的計算,如果概念處于概念空間的k層,則詞匯所屬領(lǐng)域度為(k+1)/k。網(wǎng)站領(lǐng)域判別算法如下:
即根據(jù)下式計算該首頁屬于該領(lǐng)域的概率P:
式中,N為url鏈接集合S元素個數(shù),wm為概念所屬領(lǐng)域度,Kj為S中第j個元素的title的切詞后的詞語個數(shù),t為給定的閾值,t的取值在0.3-05之間;如果P大于閾值t,判定該首頁屬于所述領(lǐng)域。
5)以屬于所述領(lǐng)域的該首頁為主線,下載層次深度小于5的所有網(wǎng)頁信息,并根據(jù)頁面特點將該網(wǎng)頁信息區(qū)分為欄目鏈接頁面和內(nèi)容頁面,保存在數(shù)據(jù)庫中。
在本實施例中,步驟S2具體包括:
1)提取數(shù)據(jù)庫的內(nèi)容頁面,并把該頁面作為概念空間中的實例,采用分詞算法提取所有的詞語,將領(lǐng)域詞語組成該實例的內(nèi)涵描述集,計算領(lǐng)域詞的語詞頻大小,并提取前8-15個詞頻較大的領(lǐng)域詞語;其中,提取的該詞語包括題目詞語和內(nèi)容描述詞語,該題目詞語的權(quán)重為5-8,該內(nèi)容描述詞語的權(quán)重為2;
2)采用SVM算法構(gòu)建多標簽實例歸類模型,利用自己的訓練數(shù)據(jù)集,通過訓練得到一個初始化的一對多SVM分類器,也就是,訓練時依次把某個類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個類別的樣本就構(gòu)造出了k個SVM,分類時將未知樣本分類為具有最大分類函數(shù)值的那類,根據(jù)實例提取的詞語和權(quán)重構(gòu)成該實例的向量空間,基于多標簽實例歸類模型計算期所屬每個類別的概率P,當P>1/(n-1)時,將該實例歸結(jié)到相應(yīng)類別中,并將該實例保存到知識庫;同時,將類標識保存至所述實例中,該類標識具有唯一標識ID號;其中,歸屬多個類的實例單獨用一張映射表來關(guān)聯(lián);
3)獲取實例的關(guān)系集合,包括:對實例i進行掃描,找到實例i所屬概念C,根據(jù)概念C獲取關(guān)系集合R;
4)獲取關(guān)系實例,包括:基于關(guān)系集合R,對其中一個關(guān)系r,在對應(yīng)約束概念中所有實例進行掃描,對于已具有關(guān)系的實例,當其實例對應(yīng)實例i所屬概念的實例時,對該實例進行排除,根據(jù)每個實例標題所構(gòu)成的專業(yè)詞語與實例i標題進行相似性比較;其中,相似性比較采用漢明距離,當距離大于預(yù)設(shè)閾值時,將所述實例歸于實例i的關(guān)系r中;
5)獲取關(guān)聯(lián)實例,包括:基于實例i的關(guān)系對象集合o,對關(guān)系對象集合o的所有實例,采用K-mean聚類算法進行聚類,其中,聚類的類別個數(shù)為對象集合o的數(shù)目除以3得到的整數(shù)N,如果整數(shù)N等于1,將關(guān)系對象集合o中的所有實例關(guān)聯(lián)到關(guān)系r中,如果N大于1,則將實例數(shù)量最大的類別中所有實例關(guān)聯(lián)到關(guān)系r中;
6)對關(guān)系集合R的所有關(guān)系重復(fù)步驟4)、5),直到實例i關(guān)系計算完成。
參圖2所示,圖2是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置的結(jié)構(gòu)框圖。
本實施例還提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置,包括:領(lǐng)域信息收集模塊10、領(lǐng)域信息分類模塊20、領(lǐng)域信息關(guān)聯(lián)模塊30、領(lǐng)域概念空間40、數(shù)據(jù)庫50及知識庫60。
領(lǐng)域信息收集模塊10用于基于領(lǐng)域概念空間40,進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別,進而完成領(lǐng)域信息收集.
基于領(lǐng)域概念空間40,領(lǐng)域信息分類模塊20用于對收集的頁面內(nèi)容進行領(lǐng)域信息分類,進而通過領(lǐng)域信息關(guān)聯(lián)模塊30完成領(lǐng)域信息關(guān)聯(lián)。
本實施例提供的基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置作為上述領(lǐng)域信息收集和關(guān)聯(lián)方法實現(xiàn)的載體,其功能還包括上述方法的其他具體內(nèi)容,在此不再重復(fù)。
本實施例提供的領(lǐng)域信息收集和關(guān)聯(lián)裝置,采用概念空間形成領(lǐng)域概念描述,基于網(wǎng)頁首頁信息判別進行領(lǐng)域信息收集,不同網(wǎng)站節(jié)點以概念空間為基礎(chǔ)組成關(guān)聯(lián)網(wǎng)絡(luò),具有如下有益效果:
1)能夠較快收集領(lǐng)域信息,同時保證用戶搜索到信息具有領(lǐng)域性、全面性和正確性;
2)利用領(lǐng)域概念空間進行領(lǐng)域信息組織,便于用戶搜索領(lǐng)域關(guān)聯(lián)信息簇,信息片段之前能夠語義關(guān)聯(lián),網(wǎng)頁內(nèi)容由一組詞的內(nèi)涵決定,詞語位置和頻率決定權(quán)重,并可保證網(wǎng)站首頁內(nèi)容描述的準確性,滿足領(lǐng)域信息的需要;
3)基于領(lǐng)域概念空間為基礎(chǔ)組的信息關(guān)聯(lián)網(wǎng)絡(luò),并對收集領(lǐng)域信息進行相應(yīng)的處理,保證了領(lǐng)域信息的一致性;
4)適用的范圍廣,可在知識管理、領(lǐng)域信息搜索、知識服務(wù)領(lǐng)域廣泛適用。
上文所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明,它們并非用以限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式或變更均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。