本發(fā)明涉及局域網(wǎng)搜索引擎的設(shè)計與開發(fā)技術(shù)領(lǐng)域,具體為一種基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法。
背景技術(shù):
目前用戶在互聯(lián)網(wǎng)上查詢信息主要的工具是搜索引擎。直觀的說,搜索引擎是一套在互聯(lián)網(wǎng)上運(yùn)行的軟件系統(tǒng),它根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織與處理后,將與用戶檢索的相關(guān)信息通過特定的用戶界面展示給用戶。
現(xiàn)如今,信息技術(shù)的飛速發(fā)展,為人們提供了更廣闊的共享平臺,網(wǎng)絡(luò)檢索已經(jīng)成為人們獲取信息的常用渠道,人們通過信息檢索工具來檢索相關(guān)的信息,這在一定程度上解決了資源的分類和檢索的問題。然而傳統(tǒng)的基于關(guān)鍵詞的檢索方式,由于忽略了關(guān)鍵詞本身所蘊(yùn)含的語義信息,而得到較低的查全率和查準(zhǔn)率,變得越來越不適應(yīng)檢索的需求。為此,我們提出了一種基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法投入使用,以解決上述問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法,以解決上述背景技術(shù)中提出的傳統(tǒng)的基于關(guān)鍵詞的檢索方式,由于忽略了關(guān)鍵詞本身所蘊(yùn)含的語義信息,而得到較低的查全率和查準(zhǔn)率,變得越來越不適應(yīng)檢索的需求的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法,該基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法的具體步驟如下:
s1:收集用戶搜索喜好、習(xí)慣、目標(biāo)、心理、個性、知識、行為、專業(yè)和創(chuàng)作方面的基礎(chǔ)信息,構(gòu)建用戶情境模型;
s2:將用戶情境模塊與現(xiàn)有的搜索引擎集成在一起,確定搜索指向、搜索輸出項、輸出界面、搜索所進(jìn)入的分類數(shù)據(jù)庫、搜索的性質(zhì)界定和搜索結(jié)果的定量定性;
s3:通過網(wǎng)絡(luò)代理節(jié)點(diǎn)將用戶輸入的搜索請求傳輸?shù)酱砉?jié)點(diǎn)的鄰居節(jié)點(diǎn)中,并通過本體映射計算用戶輸入的關(guān)鍵詞向量和概念關(guān)鍵詞向量間的相似度;
s4:由搜索引擎將用戶輸入的關(guān)鍵詞向量發(fā)送給語義本體中,采用各領(lǐng)域本體模塊并行推理的方式,對目標(biāo)概念進(jìn)行匹配,得到目標(biāo)概念集;
s5:對目標(biāo)概念集中各概念,若用戶輸入的一些關(guān)鍵詞沒有出現(xiàn)在該概念的關(guān)鍵詞向量中,則這些關(guān)鍵詞將作為該概念的候選關(guān)鍵詞或?qū)?yīng)候選關(guān)鍵詞的頻度加1,當(dāng)某候選關(guān)鍵詞的頻度達(dá)到界限值時,將被加入到該概念的關(guān)鍵詞向量中;
s6:將目標(biāo)概念進(jìn)行聚類,將聚類結(jié)果上傳至語義庫中,并反饋給用戶,便于用戶快速查找到感興趣的文件。
優(yōu)選的,所述步驟s1中,用戶情境模型能夠分析用戶的短期興趣、長期興趣及其動態(tài)的興趣變化,并對其進(jìn)行存儲、表示和描述。
優(yōu)選的,所述步驟s4中,目標(biāo)概念為關(guān)鍵詞向量和概念關(guān)鍵詞向量間的相似度值最大的概念,并通過目標(biāo)概念的其他關(guān)鍵詞進(jìn)行擴(kuò)展搜索或利用和目標(biāo)概念語義距離較近的概念的關(guān)鍵詞進(jìn)行擴(kuò)展搜索。
優(yōu)選的,所述步驟s5中,關(guān)鍵詞的頻度界限值記為3。
優(yōu)選的,所述步驟s6中,在目標(biāo)概念的聚類過程中,由目標(biāo)概念找到各祖先概念,將同一概念下的文檔聚成一個大類,并根據(jù)概念的共同祖先概念或共同屬于同一概念聚成一個更大的類別,形成多層聚類的結(jié)果。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明將用戶情境模型與搜索引擎集成在一起,大大加強(qiáng)了信息檢索服務(wù)中對用戶情境信息的分析與利用,從而使得搜索引擎的搜索結(jié)果從目前輸出項的千篇一律向多樣化轉(zhuǎn)變,使搜索起點(diǎn)從共用大型抓取數(shù)據(jù)庫向復(fù)雜分類數(shù)據(jù)庫和搜索過程數(shù)據(jù)庫轉(zhuǎn)變,采用語義網(wǎng)技術(shù),能夠很好的使計算機(jī)和人類合作完成工作,應(yīng)用語義網(wǎng)和本體技術(shù)對所收集到的用戶情境信息進(jìn)行處理,對用戶情境信息的結(jié)構(gòu)和特征進(jìn)行形式化的描述,將其轉(zhuǎn)化為計算機(jī)可理解的形式,并為搜索引擎所使用,同時也便于各實(shí)體間對情境信息達(dá)成共同的語義理解,從而利用已存在的本體對情境信息進(jìn)行推理。
附圖說明
圖1為本發(fā)明工作流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請參閱圖1,本發(fā)明提供一種技術(shù)方案:一種基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法,該基于語義網(wǎng)技術(shù)的網(wǎng)絡(luò)搜索方法的具體步驟如下:
s1:收集用戶搜索喜好、習(xí)慣、目標(biāo)、心理、個性、知識、行為、專業(yè)和創(chuàng)作方面的基礎(chǔ)信息,構(gòu)建用戶情境模型,用戶情境模型能夠分析用戶的短期興趣、長期興趣及其動態(tài)的興趣變化,并對其進(jìn)行存儲、表示和描述;
s2:將用戶情境模塊與現(xiàn)有的搜索引擎集成在一起,確定搜索指向、搜索輸出項、輸出界面、搜索所進(jìn)入的分類數(shù)據(jù)庫、搜索的性質(zhì)界定和搜索結(jié)果的定量定性;
s3:通過網(wǎng)絡(luò)代理節(jié)點(diǎn)將用戶輸入的搜索請求傳輸?shù)酱砉?jié)點(diǎn)的鄰居節(jié)點(diǎn)中,并通過本體映射計算用戶輸入的關(guān)鍵詞向量和概念關(guān)鍵詞向量間的相似度;
s4:由搜索引擎將用戶輸入的關(guān)鍵詞向量發(fā)送給語義本體中,采用各領(lǐng)域本體模塊并行推理的方式,對目標(biāo)概念進(jìn)行匹配,得到目標(biāo)概念集,目標(biāo)概念為關(guān)鍵詞向量和概念關(guān)鍵詞向量間的相似度值最大的概念,并通過目標(biāo)概念的其他關(guān)鍵詞進(jìn)行擴(kuò)展搜索或利用和目標(biāo)概念語義距離較近的概念的關(guān)鍵詞進(jìn)行擴(kuò)展搜索;
s5:對目標(biāo)概念集中各概念,若用戶輸入的一些關(guān)鍵詞沒有出現(xiàn)在該概念的關(guān)鍵詞向量中,則這些關(guān)鍵詞將作為該概念的候選關(guān)鍵詞或?qū)?yīng)候選關(guān)鍵詞的頻度加1,當(dāng)某候選關(guān)鍵詞的頻度達(dá)到界限值時,將被加入到該概念的關(guān)鍵詞向量中,關(guān)鍵詞的頻度界限值記為3;
s6:將目標(biāo)概念進(jìn)行聚類,將聚類結(jié)果上傳至語義庫中,并反饋給用戶,便于用戶快速查找到感興趣的文件,在目標(biāo)概念的聚類過程中,由目標(biāo)概念找到各祖先概念,將同一概念下的文檔聚成一個大類,并根據(jù)概念的共同祖先概念或共同屬于同一概念聚成一個更大的類別,形成多層聚類的結(jié)果。
一般的認(rèn)為,一個本體映射的過程應(yīng)當(dāng)包括如下幾個部分:⑴本體標(biāo)準(zhǔn)化;⑵相似度的提?。虎钦Z義映射;⑷執(zhí)行映射;⑸映射后處理,其中相似度的提取是本體映射過程中一個至關(guān)重要的步驟,主要就是進(jìn)行相似度的計算,在本發(fā)明中將基于實(shí)例的方法和利用啟發(fā)式規(guī)則的方法結(jié)合在一起取長補(bǔ)短,并給兩種方法設(shè)定相應(yīng)的權(quán)值。實(shí)例計算相似度的方法是利用一定量的實(shí)例在兩個概念中出現(xiàn)的聯(lián)合分布概率來計算兩個概念的相似度,對于一個實(shí)例,利用jaccard系數(shù)來計算相似度,該系數(shù)的計算公式為
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。