專利名稱:一種基于本體的主題搜索算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及個性化信息檢索算法領(lǐng)域,且特別涉及一種基于本體的主題搜索算法。
背景技術(shù):
目前的很多搜索服務(wù)中,有一些針對不同用戶的個性化的信息搜索服務(wù),如基于用戶行為分析的個性化搜索服務(wù),對于不同用戶的相同查詢請求返回的查詢結(jié)果也有所相同,即系統(tǒng)能夠在一定程度上識別不同用戶個性信息需求上的差別。但是由于對用戶的查詢主題不能進行比較準(zhǔn)確的確定及描述,因此如何在搜索的過程中基于用戶的不同搜索主題進行基于主題的元搜索,成為了信息檢索領(lǐng)域中許多學(xué)者的研究熱點。在一些個性化信息服務(wù)中,根據(jù)跟蹤用戶的行為,建立用戶的興趣模型,以此來確定用戶感興趣的領(lǐng)域及主題。但是用戶的興趣行為存在很大的可變性,一旦用戶新的搜索行為與之前的興趣模型不相符合的時候,搜索的結(jié)果的準(zhǔn)確性會大大受影響。本體是共享的概念模型的明確的形式化的規(guī)范說明,其目標(biāo)是通過對相關(guān)領(lǐng)域的知識的分析,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的概念(術(shù)語),從不同層次給出這些概念之間的相互關(guān)系的明確定義,并用規(guī)范的形式化語言描述這些術(shù)語及其相互關(guān)系。因此,引用本體可以更準(zhǔn)確地表達各個不同的主題概念。
發(fā)明內(nèi)容
本發(fā)明提出一種基于本體的主題搜索算法,得到一種基于本體的性能良好的主題搜索算法,在保證查全率的前提下,更有效地滿足不同用戶針對不同主題的搜索需求,得到更高的查準(zhǔn)率。為了達到上述目的,本發(fā)明提出一種基于本體的主題搜索算法,包括下列步驟建立基于本體的主題模型;根據(jù)不同的主題模型,匹配合適的成員搜索引擎;對搜索結(jié)果進行處理。進一步的,所述基于本體的主題模型采取三元組Topic (C,P,S)來表示,形成主題樹結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念,具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系。進一步的,所述C采用向量空間模型來表示,使用二元組Ci (Keyi,Weighti),其中 Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。進一步的,所述匹配合適的成員搜索引擎步驟預(yù)設(shè)有推薦的成員搜索引擎,并可對所述成員搜索引擎進行增減操作。進一步的,所述對搜索結(jié)果進行處理包括對搜索結(jié)果的預(yù)處理、抽取特征詞集和主題匹配。
進一步的,所述對搜索結(jié)果的預(yù)處理為將來自各成員搜索引擎的檢索結(jié)果經(jīng)過集成、去重后進行分詞處理。進一步的,所述抽取特征詞集為抽取出表達網(wǎng)頁內(nèi)容的特征詞,并根據(jù)特征詞不同的位置賦予相應(yīng)的權(quán)重,相同的特征詞權(quán)重值相加,形成網(wǎng)頁特征詞集。進一步的,所述搜索結(jié)果頁面采用特征向量表示,主題的各個子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值表示它們的相關(guān)度。進一步的,計算出一個網(wǎng)頁與主題的相關(guān)度,根據(jù)設(shè)定的閾值,將相關(guān)度最大的若干個網(wǎng)頁按照相關(guān)度大小返回給用戶。進一步的,如果一個網(wǎng)頁與本體中該概念的所有屬性的相關(guān)度均達不到閾值策略中設(shè)定的最低相關(guān)度,則該網(wǎng)頁被認(rèn)定為不屬于用戶確定的領(lǐng)域范圍,將它從結(jié)果集中剔除。本發(fā)明提出的基于本體的主題搜索算法,基于本體,對領(lǐng)域概念及概念間明確的定義來建立主題模型,能夠較為準(zhǔn)確地確定主題模型。用戶在進行搜索時,可以選擇要進行搜索的主題,根據(jù)各個主題模型匹配與主題相關(guān)的最佳成員搜索引擎,用戶可以刪減偏愛的成員搜索引擎。對于各個成員搜索引擎返回的搜索結(jié)果,采用空間向量模型分別計算與主題的相似度,將滿足條件的結(jié)果返回給用戶。由于采用本體,對用戶的主題的表達更為精確,解決了由于用戶感興趣的主題不明確而造成搜索結(jié)果不夠準(zhǔn)確的問題,因此搜索結(jié)果的準(zhǔn)確性得到了提高。在搜索的過程中,依據(jù)已經(jīng)建立的較為精確的主題模型對搜索結(jié)果頁面進行相關(guān)度計算排序,以獲得相關(guān)度較高的網(wǎng)頁。這種方法既體現(xiàn)了用戶的個性化,又提高了主題搜索的準(zhǔn)確性。
圖1所示為本發(fā)明較佳實施例的基于本體的主題搜索算法流程圖。
具體實施例方式為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實施例并配合所附圖式說明如下。請參考圖1,圖1所示為本發(fā)明較佳實施例的基于本體的主題搜索算法流程圖。本發(fā)明提出一種基于本體的主題搜索算法,包括下列步驟步驟SlOO 建立基于本體的主題模型;步驟S200 根據(jù)不同的主題模型,匹配合適的成員搜索引擎;步驟S300 對搜索結(jié)果進行處理。根據(jù)本發(fā)明較佳實施例,所述基于本體的主題模型采取三元組Topic(C,P,S)來表示,形成主題樹結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念,具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系,如父類、子類等。所述C采用向量空間模型(VSM)來表示,使用二元組Ci(Keyi,Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。對每個不同的主題,適用的成員搜索引擎也有所不同。所述匹配合適的成員搜索引擎步驟預(yù)設(shè)有推薦的成員搜索引擎,并可對所述成員搜索引擎進行增減操作。針對不同的主題,預(yù)先分配一些推薦的成員搜索引擎,對用戶進行引導(dǎo),用戶在選擇搜索的主題時,可以對成員搜索引擎進行增減。搜索結(jié)果的處理包括搜索結(jié)果的預(yù)處理、抽取特征詞集和主題匹配等步驟,具體過程如下(1)在檢索結(jié)果預(yù)處理模塊,來自各成員搜索引擎的檢索結(jié)果經(jīng)過集成、去重后進行分詞處理,抽取出表達網(wǎng)頁內(nèi)容的特征詞,并根據(jù)特征詞不同的位置(如來自網(wǎng)頁標(biāo)題、網(wǎng)頁摘要、是否與查詢概念同句等),賦予相應(yīng)的權(quán)重,相同的特征詞權(quán)重值相加,形成網(wǎng)頁特征詞集Ti= {(ffordlk, Weightlk) }0這樣搜索結(jié)果頁面采用了特征向量來表示,主題的各個子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值可以表示它們的相關(guān)度。由此可以計算出一個網(wǎng)頁與主題的相關(guān)度Simj,根據(jù)設(shè)定的閾值,將相關(guān)度最大的若干個網(wǎng)頁按照相關(guān)度大小返回給用戶。(2)查詢結(jié)果中有些網(wǎng)頁雖然含有與查詢詞相匹配的概念,卻不屬于用戶確定的領(lǐng)域范圍,這些網(wǎng)頁的特征詞集與本體中的概念術(shù)語及特征詞集的相關(guān)度將會很低。如果一個網(wǎng)頁與本體中該概念的所有屬性的相關(guān)度均達不到閾值策略中設(shè)定的最低相關(guān)度,則該網(wǎng)頁可被認(rèn)定為不屬于該學(xué)科領(lǐng)域的范疇,將它從結(jié)果集中剔除。綜上所述,本發(fā)明提出的基于本體的主題搜索算法,基于本體,對領(lǐng)域概念及概念間明確的定義來建立主題模型,能夠較為準(zhǔn)確地確定主題模型。用戶在進行搜索時,可以選擇要進行搜索的主題,根據(jù)各個主題模型匹配與主題相關(guān)的最佳成員搜索引擎,用戶可以刪減偏愛的成員搜索引擎。對于各個成員搜索引擎返回的搜索結(jié)果,采用空間向量模型分別計算與主題的相似度,將滿足條件的結(jié)果返回給用戶。由于采用本體,對用戶的主題的表達更為精確,解決了由于用戶感興趣的主題不明確而造成搜索結(jié)果不夠準(zhǔn)確的問題,因此搜索結(jié)果的準(zhǔn)確性得到了提高。在搜索的過程中,依據(jù)已經(jīng)建立的較為精確的主題模型對搜索結(jié)果頁面進行相關(guān)度計算排序,以獲得相關(guān)度較高的網(wǎng)頁。這種方法既體現(xiàn)了用戶的個性化,又提高了主題搜索的準(zhǔn)確性。雖然本發(fā)明已以較佳實施例揭露如上,然其并非用以限定本發(fā)明。本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾。因此,本發(fā)明的保護范圍當(dāng)視權(quán)利要求書所界定者為準(zhǔn)。
權(quán)利要求
1.一種基于本體的主題搜索算法,其特征在于,包括下列步驟建立基于本體的主題模型;根據(jù)不同的主題模型,匹配合適的成員搜索引擎;對搜索結(jié)果進行處理。
2.根據(jù)權(quán)利要求1所述的基于本體的主題搜索算法,其特征在于,所述基于本體的主題模型采取三元組Topic (C,Pj)來表示,形成主題樹結(jié)構(gòu),其中C表示由主題領(lǐng)域中的名詞概念,具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系。
3.根據(jù)權(quán)利要求2所述的基于本體的主題搜索算法,其特征在于,所述C采用向量空間模型來表示,使用二元組Ci (Keyi,Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。
4.根據(jù)權(quán)利要求1所述的基于本體的主題搜索算法,其特征在于,所述匹配合適的成員搜索引擎步驟預(yù)設(shè)有推薦的成員搜索引擎,并可對所述成員搜索引擎進行增減操作。
5.根據(jù)權(quán)利要求1所述的基于本體的主題搜索算法,其特征在于,所述對搜索結(jié)果進行處理包括對搜索結(jié)果的預(yù)處理、抽取特征詞集和主題匹配。
6.根據(jù)權(quán)利要求5所述的基于本體的主題搜索算法,其特征在于,所述對搜索結(jié)果的預(yù)處理為將來自各成員搜索引擎的檢索結(jié)果經(jīng)過集成、去重后進行分詞處理。
7.根據(jù)權(quán)利要求5所述的基于本體的主題搜索算法,其特征在于,所述抽取特征詞集為抽取出表達網(wǎng)頁內(nèi)容的特征詞,并根據(jù)特征詞不同的位置賦予相應(yīng)的權(quán)重,相同的特征詞權(quán)重值相加,形成網(wǎng)頁特征詞集。
8.根據(jù)權(quán)利要求1所述的基于本體的主題搜索算法,其特征在于,所述搜索結(jié)果頁面采用特征向量表示,主題的各個子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值表示它們的相關(guān)度。
9.根據(jù)權(quán)利要求8所述的基于本體的主題搜索算法,其特征在于,計算出一個網(wǎng)頁與主題的相關(guān)度,根據(jù)設(shè)定的閾值,將相關(guān)度最大的若干個網(wǎng)頁按照相關(guān)度大小返回給用戶。
10.根據(jù)權(quán)利要求9所述的基于本體的主題搜索算法,其特征在于,如果一個網(wǎng)頁與本體中該概念的所有屬性的相關(guān)度均達不到閾值策略中設(shè)定的最低相關(guān)度,則該網(wǎng)頁被認(rèn)定為不屬于用戶確定的領(lǐng)域范圍,將它從結(jié)果集中剔除。
全文摘要
本發(fā)明提出一種基于本體的主題搜索算法,包括下列步驟建立基于本體的主題模型;根據(jù)不同的主題模型,匹配合適的成員搜索引擎;對搜索結(jié)果進行處理。本發(fā)明提出的基于本體的主題搜索算法,得到一種基于本體的性能良好的主題搜索算法,在保證查全率的前提下,更有效地滿足不同用戶針對不同主題的搜索需求,得到更高的查準(zhǔn)率。
文檔編號G06F17/30GK102542022SQ20111043170
公開日2012年7月4日 申請日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
發(fā)明者閆俊英 申請人:上海電機學(xué)院