基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法與流程

文檔序號：12121185閱讀：324來源：國知局

本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域，具體說，涉及一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法。

背景技術(shù)：

當今的互聯(lián)網(wǎng)包含了數(shù)量越來越大的信息，特別是專業(yè)領(lǐng)域網(wǎng)站越來越多，存在著大量內(nèi)容相關(guān)信息。但是，由于這些專業(yè)網(wǎng)站的信息是通過大量超文本鏈接組成的，而且有可能彼此沒有關(guān)聯(lián)，導致用戶快速定位到所需要的領(lǐng)域信息簇非常困難。目前，解決這一問題的一個重要途徑是讓搜索引擎進行基于關(guān)鍵字搜索。但是，這種方法通常會導致搜索的結(jié)果出現(xiàn)無效網(wǎng)頁，特別用戶在查找專業(yè)信息時，信息簇定位非常困難，而且信息時效性差。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于提供一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法，以解決上述問題。

本發(fā)明的實施例提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法，包括：

基于領(lǐng)域概念空間，進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別，進而完成領(lǐng)域信息收集；

基于領(lǐng)域概念空間，對收集的頁面內(nèi)容進行領(lǐng)域信息分類，進而完成領(lǐng)域信息關(guān)聯(lián)。

進一步，基于領(lǐng)域概念空間進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別進而完成領(lǐng)域信息收集具體包括：

1)根據(jù)領(lǐng)域特點，構(gòu)建領(lǐng)域概念空間，并將網(wǎng)站中的頁面信息作為概念的實例；

2)定義領(lǐng)域網(wǎng)站的URI種子集合；

3)根據(jù)URI種子集合下載網(wǎng)站首頁，當網(wǎng)頁內(nèi)容小于10k時，提取首頁中的二級頁面，作為首頁內(nèi)容；

4)對網(wǎng)站首頁的內(nèi)容進行領(lǐng)域性判斷。

5)以屬于該領(lǐng)域的所述首頁為主線，下載層次深度小于5的所有網(wǎng)頁信息，并根據(jù)頁面特點將該網(wǎng)頁信息區(qū)分為欄目鏈接頁面和內(nèi)容頁面，保存在數(shù)據(jù)庫中。

進一步，步驟4)具體包括：

提取首頁內(nèi)容中的所有url鏈接，形成url鏈接集合S＝{<title，uri>}形式；

對所有的title進行切詞，提取來自概念空間的全部概念集合{w_i}，其中；S表示為{{w_i}，url}>；

計算概念w所屬領(lǐng)域度，計算公式如下：

式中，P為該首頁屬于所述領(lǐng)域的概率，N為url鏈接集合S元素個數(shù)，w_m為概念所屬領(lǐng)域度，K_j為S中第j個元素的title的切詞后的詞語個數(shù)；

將P與給定的閾值t進行比較，如果P大于閾值t，判定所述首頁屬于該領(lǐng)域，其中，t的取值在0.3-05之間；

進一步，基于領(lǐng)域概念空間對收集的頁面內(nèi)容進行領(lǐng)域信息分類進而完成領(lǐng)域信息關(guān)聯(lián)具體包括：

(1)提取數(shù)據(jù)庫的內(nèi)容頁面，并把該頁面作為概念空間中的實例，采用分詞算法提取所有的詞語，將領(lǐng)域詞語組成該實例的內(nèi)涵描述集，計算領(lǐng)域詞的語詞頻大小，并提取前8-15個詞頻較大的領(lǐng)域詞語；其中，提取的該詞語包括題目詞語和內(nèi)容描述詞語，該題目詞語的權(quán)重為5-8，該內(nèi)容描述詞語的權(quán)重為2；

(2)采用SVM算法構(gòu)建多標簽實例歸類模型，根據(jù)實例提取的詞語和權(quán)重構(gòu)成該實例的向量空間，基于多標簽實例歸類模型計算其所屬每個類別的概率P，當P＞1/(n-1)時，將該實例歸結(jié)到相應(yīng)類別中，并將該實例保存到知識庫；同時，將類標識保存至該實例中，所述類標識具有唯一標識ID號；其中，歸屬多個類的實例單獨用一張映射表來關(guān)聯(lián)；

(3)獲取實例的關(guān)系集合，包括：對實例i進行掃描，找到實例i所屬概念C，根據(jù)概念C獲取關(guān)系集合R；

(4)獲取關(guān)系實例，包括：基于關(guān)系集合R，對其中一個關(guān)系r，在對應(yīng)約束概念中所有實例進行掃描，對于已具有關(guān)系的實例，當其實例對應(yīng)實例i所屬概念的實例時，對該實例進行排除，根據(jù)每個實例標題所構(gòu)成的專業(yè)詞語與實例i標題進行相似性比較；其中，相似性比較采用漢明距離，當距離大于預(yù)設(shè)閾值時，將該實例歸于實例i的關(guān)系r中；

(5)獲取關(guān)聯(lián)實例，包括：基于實例i的關(guān)系對象集合o，對關(guān)系對象集合o的所有實例，采用K-mean聚類算法進行聚類，其中，聚類的類別個數(shù)為對象集合o的數(shù)目除以3得到的整數(shù)N，如果整數(shù)N等于1，將關(guān)系對象集合o中的所有實例關(guān)聯(lián)到關(guān)系r中，如果N大于1，則將實例數(shù)量最大的類別中所有實例關(guān)聯(lián)到關(guān)系r中；

(6)對關(guān)系集合R的所有關(guān)系重復(fù)步驟4)、5)，直到實例i關(guān)系計算完成。

與現(xiàn)有技術(shù)相比本發(fā)明的有益效果是：采用概念空間形成領(lǐng)域概念描述，基于網(wǎng)頁首頁信息判別進行領(lǐng)域信息收集，不同網(wǎng)站節(jié)點以概念空間為基礎(chǔ)組成關(guān)聯(lián)網(wǎng)絡(luò)，能夠使用戶快速、準確定位到所需要的領(lǐng)域信息簇。

附圖說明

圖1是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法的流程圖；

圖2是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置的結(jié)構(gòu)框圖。

具體實施方式

下面結(jié)合附圖所示的各實施方式對本發(fā)明進行詳細說明，但應(yīng)當說明的是，這些實施方式并非對本發(fā)明的限制，本領(lǐng)域普通技術(shù)人員根據(jù)這些實施方式所作的功能、方法、或者結(jié)構(gòu)上的等效變換或替代，均屬于本發(fā)明的保護范圍之內(nèi)。

參圖1所示，圖1是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法的流程圖。

本實施例提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法，包括：

步驟S1，基于領(lǐng)域概念空間，進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別，進而完成領(lǐng)域信息收集；

概念空間構(gòu)建的目標是捕捉相關(guān)領(lǐng)域的知識，提供對該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認可的詞匯，并從不同層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。

在概念空間中，最基本的關(guān)系是is-a(上下位關(guān)系)，也包含大量的關(guān)系。這些關(guān)系用來描述不同的類或?qū)嵗g的相互關(guān)系，如整體部分關(guān)系、同義關(guān)系、因果關(guān)系等等，根據(jù)關(guān)系的擴展，其概念結(jié)構(gòu)空間的定義為：

概念空間是一個3元組CS＝(C，H，R)，其中：

(1)C是一個非空的概念集合；

(2)是C上的一個二元關(guān)系，滿足傳遞性、非自反性、反對稱性。我們稱H為C上的繼承(或?qū)哟?關(guān)系。

(3)R＝{R₁，R₂，…，R_n}，其中稱R_i為C中概念間的非層次關(guān)系，滿足R_i∩H＝φ。

概念空間主干通常表現(xiàn)為本體的概念層次分類圖，通常概念的層次越高，其語義就越抽象，共享程度也就越高。而底層概念較為具體，更貼近具體的領(lǐng)域應(yīng)用。如果將H也看作R的一種特殊的關(guān)系，則概念結(jié)構(gòu)空間簡單表示為CS＝(C，R)。

步驟S2，基于領(lǐng)域概念空間，對收集的頁面內(nèi)容進行領(lǐng)域信息分類，進而完成領(lǐng)域信息關(guān)聯(lián)。

在本實施例中，步驟S1具體包括：

1)根據(jù)領(lǐng)域特點，構(gòu)建領(lǐng)域概念空間，并將網(wǎng)站中的頁面信息作為概念的實例；

2)定義領(lǐng)域網(wǎng)站的URI種子集合；

3)根據(jù)URI種子集合下載網(wǎng)站首頁，當網(wǎng)頁內(nèi)容小于10k時，提取首頁中的二級頁面，作為首頁內(nèi)容；

4)對網(wǎng)站首頁的內(nèi)容進行領(lǐng)域性判斷，具體包括：

提取首頁內(nèi)容中的所有url鏈接，形成url鏈接集合S＝{<title，uri>}形式，對所有的title進行切詞，提取來自概念空間的全部概念集合{w_i}；因此，S又可以表示為{{w_i}，url}>。為了判別一個領(lǐng)域網(wǎng)站的首頁，需要計算概念w屬于一個領(lǐng)域的程度，即概念所屬領(lǐng)域度，本實施例采用本體中概念層次關(guān)系簡單的計算，如果概念處于概念空間的k層，則詞匯所屬領(lǐng)域度為(k+1)/k。網(wǎng)站領(lǐng)域判別算法如下：

即根據(jù)下式計算該首頁屬于該領(lǐng)域的概率P：

式中，N為url鏈接集合S元素個數(shù)，w_m為概念所屬領(lǐng)域度，K_j為S中第j個元素的title的切詞后的詞語個數(shù)，t為給定的閾值，t的取值在0.3-05之間；如果P大于閾值t，判定該首頁屬于所述領(lǐng)域。

5)以屬于所述領(lǐng)域的該首頁為主線，下載層次深度小于5的所有網(wǎng)頁信息，并根據(jù)頁面特點將該網(wǎng)頁信息區(qū)分為欄目鏈接頁面和內(nèi)容頁面，保存在數(shù)據(jù)庫中。

在本實施例中，步驟S2具體包括：

1)提取數(shù)據(jù)庫的內(nèi)容頁面，并把該頁面作為概念空間中的實例，采用分詞算法提取所有的詞語，將領(lǐng)域詞語組成該實例的內(nèi)涵描述集，計算領(lǐng)域詞的語詞頻大小，并提取前8-15個詞頻較大的領(lǐng)域詞語；其中，提取的該詞語包括題目詞語和內(nèi)容描述詞語，該題目詞語的權(quán)重為5-8，該內(nèi)容描述詞語的權(quán)重為2；

2)采用SVM算法構(gòu)建多標簽實例歸類模型，利用自己的訓練數(shù)據(jù)集，通過訓練得到一個初始化的一對多SVM分類器，也就是，訓練時依次把某個類別的樣本歸為一類，其他剩余的樣本歸為另一類，這樣k個類別的樣本就構(gòu)造出了k個SVM，分類時將未知樣本分類為具有最大分類函數(shù)值的那類，根據(jù)實例提取的詞語和權(quán)重構(gòu)成該實例的向量空間，基于多標簽實例歸類模型計算期所屬每個類別的概率P，當P＞1/(n-1)時，將該實例歸結(jié)到相應(yīng)類別中，并將該實例保存到知識庫；同時，將類標識保存至所述實例中，該類標識具有唯一標識ID號；其中，歸屬多個類的實例單獨用一張映射表來關(guān)聯(lián)；

3)獲取實例的關(guān)系集合，包括：對實例i進行掃描，找到實例i所屬概念C，根據(jù)概念C獲取關(guān)系集合R；

4)獲取關(guān)系實例，包括：基于關(guān)系集合R，對其中一個關(guān)系r，在對應(yīng)約束概念中所有實例進行掃描，對于已具有關(guān)系的實例，當其實例對應(yīng)實例i所屬概念的實例時，對該實例進行排除，根據(jù)每個實例標題所構(gòu)成的專業(yè)詞語與實例i標題進行相似性比較；其中，相似性比較采用漢明距離，當距離大于預(yù)設(shè)閾值時，將所述實例歸于實例i的關(guān)系r中；

5)獲取關(guān)聯(lián)實例，包括：基于實例i的關(guān)系對象集合o，對關(guān)系對象集合o的所有實例，采用K-mean聚類算法進行聚類，其中，聚類的類別個數(shù)為對象集合o的數(shù)目除以3得到的整數(shù)N，如果整數(shù)N等于1，將關(guān)系對象集合o中的所有實例關(guān)聯(lián)到關(guān)系r中，如果N大于1，則將實例數(shù)量最大的類別中所有實例關(guān)聯(lián)到關(guān)系r中；

6)對關(guān)系集合R的所有關(guān)系重復(fù)步驟4)、5)，直到實例i關(guān)系計算完成。

參圖2所示，圖2是本發(fā)明基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置的結(jié)構(gòu)框圖。

本實施例還提供了一種基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置，包括：領(lǐng)域信息收集模塊10、領(lǐng)域信息分類模塊20、領(lǐng)域信息關(guān)聯(lián)模塊30、領(lǐng)域概念空間40、數(shù)據(jù)庫50及知識庫60。

領(lǐng)域信息收集模塊10用于基于領(lǐng)域概念空間40，進行網(wǎng)站首頁內(nèi)容的網(wǎng)站信息領(lǐng)域判別，進而完成領(lǐng)域信息收集.

基于領(lǐng)域概念空間40，領(lǐng)域信息分類模塊20用于對收集的頁面內(nèi)容進行領(lǐng)域信息分類，進而通過領(lǐng)域信息關(guān)聯(lián)模塊30完成領(lǐng)域信息關(guān)聯(lián)。

本實施例提供的基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)裝置作為上述領(lǐng)域信息收集和關(guān)聯(lián)方法實現(xiàn)的載體，其功能還包括上述方法的其他具體內(nèi)容，在此不再重復(fù)。

本實施例提供的領(lǐng)域信息收集和關(guān)聯(lián)裝置，采用概念空間形成領(lǐng)域概念描述，基于網(wǎng)頁首頁信息判別進行領(lǐng)域信息收集，不同網(wǎng)站節(jié)點以概念空間為基礎(chǔ)組成關(guān)聯(lián)網(wǎng)絡(luò)，具有如下有益效果：

1)能夠較快收集領(lǐng)域信息，同時保證用戶搜索到信息具有領(lǐng)域性、全面性和正確性；

2)利用領(lǐng)域概念空間進行領(lǐng)域信息組織，便于用戶搜索領(lǐng)域關(guān)聯(lián)信息簇，信息片段之前能夠語義關(guān)聯(lián)，網(wǎng)頁內(nèi)容由一組詞的內(nèi)涵決定，詞語位置和頻率決定權(quán)重，并可保證網(wǎng)站首頁內(nèi)容描述的準確性，滿足領(lǐng)域信息的需要；

3)基于領(lǐng)域概念空間為基礎(chǔ)組的信息關(guān)聯(lián)網(wǎng)絡(luò)，并對收集領(lǐng)域信息進行相應(yīng)的處理，保證了領(lǐng)域信息的一致性；

4)適用的范圍廣，可在知識管理、領(lǐng)域信息搜索、知識服務(wù)領(lǐng)域廣泛適用。

上文所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明，它們并非用以限制本發(fā)明的保護范圍，凡未脫離本發(fā)明技藝精神所作的等效實施方式或變更均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

對于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實施例的細節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實現(xiàn)本發(fā)明。因此，無論從哪一點來看，均應(yīng)將實施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝能付;郝心寧;孫巍;張學福;姜麗華;
技術(shù)所有人：中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所;
我是此專利的發(fā)明人

上一篇：一種感溫玻璃球溫控開關(guān)的制作方法與工藝
上一篇：一種可調(diào)溫度控制器的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)站首頁內(nèi)容的領(lǐng)域信息收集和關(guān)聯(lián)方法與流程