本發(fā)明主要涉及網(wǎng)絡數(shù)據(jù)檢索與抓取系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)資源呈幾何數(shù)字上升,對于特定信息的目標資源的檢索,效率越來越低,而且檢索得到的資源與目標資源的相近度無法確定,另外不同數(shù)據(jù)平臺下的檢索結(jié)果出現(xiàn)不一致情況,檢索機制的不同造成實際結(jié)果與真實結(jié)果的差值無法縮小,進而造成搜索引擎的效率降低,成本高,而且無法匹配實時在變動的互聯(lián)網(wǎng)海量資源。
技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有存在的問題和不足,本發(fā)明提供了一種網(wǎng)絡資源搜索訓練系統(tǒng),網(wǎng)絡資源中的目標資源檢索效率更高,且具有自我更新特征關(guān)鍵信息權(quán)重值,從而提高了搜索精準度和效率。
發(fā)明內(nèi)容:為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)手段為:一種網(wǎng)絡資源搜索訓練系統(tǒng),包括信息采集模塊,信息內(nèi)容解析與分類模塊,檢索抓取模塊和訓練模塊,其中:
所述信息采集模塊,收集并提取用戶待檢索資源關(guān)鍵信息,并根據(jù)關(guān)鍵信息生成關(guān)聯(lián)信息,并將該關(guān)聯(lián)信息與用戶進行交互并記錄修改信息,同時對關(guān)鍵信息和關(guān)聯(lián)信息進行權(quán)重排序和確定,確定后的特定檢索信息發(fā)送至檢索抓取模塊;
所述檢索抓取模塊,從網(wǎng)絡上抓取包含關(guān)鍵信息或關(guān)聯(lián)系信息的網(wǎng)頁信息,并將數(shù)據(jù)發(fā)送至信息內(nèi)容解析模塊;
所述信息內(nèi)容解析模塊,首先對信息內(nèi)容進行分類,然后計算抓取后的網(wǎng)頁信息中關(guān)鍵信息的相近度和出現(xiàn)頻率,并根據(jù)相近度和出現(xiàn)頻率計算各關(guān)鍵信息的在關(guān)鍵信息類別集合中的貢獻比值;
所述訓練模塊,提取信息內(nèi)容解析模塊計算的各關(guān)鍵信息的權(quán)重,并按照權(quán)重大小的順序選取部分關(guān)鍵信息作為特征關(guān)鍵信息,并對其進行歸一化處理;繼續(xù)使用特征關(guān)鍵信息作為檢索依據(jù)進行再次檢索得到目標資源;
所述信息內(nèi)容解析模塊中關(guān)鍵信息的權(quán)重通過公式(1)計算得到:
w(t,i)為特征關(guān)鍵信息t在關(guān)鍵信息類別i中的權(quán)值,tf(t,i)表示特征關(guān)鍵信息在關(guān)鍵信息類別i中的頻次,cs為所有關(guān)鍵信息類別集合,t為信息類別的序號,i為當前信息類別下的關(guān)鍵信息的序號,f(i)表示特征關(guān)鍵信息t在該關(guān)鍵信息類別i中出現(xiàn)的頻次,f(cs)表示特征關(guān)鍵信息t在所有標記塊中出現(xiàn)的總次數(shù),n表示信息類別的總個數(shù)。
本發(fā)明對關(guān)鍵信息進行集合化和分類處理,并對各關(guān)鍵信息的近似度和在各自集合下的貢獻比值進行優(yōu)化模擬,得到關(guān)鍵信息的權(quán)重值從而以此為依據(jù)進行歸一化處理進行訓練生成得到特征關(guān)鍵信息,并作為訓練后的搜索依據(jù)進行檢索得到精確度更高的目標資源。本發(fā)明考慮了關(guān)鍵信息相近度和權(quán)重比值,經(jīng)過數(shù)學公式進行模擬得到更精準的目標資源。
附圖說明
圖1為本發(fā)明所述系統(tǒng)的邏輯流程圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明內(nèi)容作進一步說明。
如圖1所示,本發(fā)明的網(wǎng)絡資源搜索訓練系統(tǒng),主要包括信息采集模塊,信息內(nèi)容解析與分類模塊,檢索抓取模塊和訓練模塊。對于互聯(lián)網(wǎng)上海量的數(shù)據(jù)資源內(nèi)容,本系統(tǒng)對資源內(nèi)容的類型進行了劃分,可以以文字、視頻、音頻、圖像、字段字符,或以內(nèi)容生成格式為依據(jù)進行劃分。使用者在確定需要搜索的目標關(guān)鍵信息后,本系統(tǒng)提取該關(guān)鍵信息內(nèi)容并與系統(tǒng)的資源內(nèi)容的比對形成一定規(guī)則下的關(guān)鍵信息集合,同時對相關(guān)聯(lián)的信息進行修正并與使用者進行交互確認,確定后的關(guān)鍵信息,由本系統(tǒng)抓取模塊在網(wǎng)絡上進行網(wǎng)頁信息的檢索和抓取,抓取得到的數(shù)據(jù)送至信息內(nèi)容解析模塊進行處理。
信息內(nèi)容解析模塊,首先對信息內(nèi)容進行分類,然后計算抓取后的網(wǎng)頁信息中關(guān)鍵信息的相近度和出現(xiàn)頻率,并根據(jù)相近度和出現(xiàn)頻率計算各關(guān)鍵信息的在關(guān)鍵信息類別集合中的貢獻比值;
所述訓練模塊,提取信息內(nèi)容解析模塊計算的各關(guān)鍵信息的權(quán)重,并按照權(quán)重大小的順序選取部分關(guān)鍵信息作為特征關(guān)鍵信息,并對其進行歸一化處理;繼續(xù)使用特征關(guān)鍵信息作為檢索依據(jù)進行再次檢索得到目標資源;
所述信息內(nèi)容解析模塊中關(guān)鍵信息的權(quán)重通過公式(1)計算得到:
w(t,i)為特征關(guān)鍵信息t在關(guān)鍵信息類別i中的權(quán)值,tf(t,i)表示特征關(guān)鍵信息在關(guān)鍵信息類別i中的頻次,cs為所有關(guān)鍵信息類別集合,t為信息類別的序號,i為當前信息類別下的關(guān)鍵信息的序號,f(i)表示特征關(guān)鍵信息t在該關(guān)鍵信息類別i中出現(xiàn)的頻次,f(cs)表示特征關(guān)鍵信息t在所有標記塊中出現(xiàn)的總次數(shù),n表示信息類別的總個數(shù)。