專利名稱:一種計算機標引和檢索的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機信息處理技術(shù),特別是一種利用計算機對文獻進行標引和檢索的方法。
背景技術(shù):
隨著計算機技術(shù)特別是互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,信息爆炸性地增長。如何快速、準確地獲取自己所需要的信息是人們的迫切需求。利用計算機系統(tǒng)進行自動標引和檢索技術(shù)的發(fā)展為我們提供了有力的支持?;谠~匯的檢索技術(shù)是目前最常見的檢索技術(shù),由這種方法構(gòu)建的計算機檢索系統(tǒng),使用者只要輸入以詞匯、短語或句子組成的提問,就可以實現(xiàn)對相關(guān)文獻的檢索。
目前進行自動標引和檢索的計算機系統(tǒng)一般包括內(nèi)容分析子系統(tǒng)、索引子系統(tǒng)和檢索子系統(tǒng)(參見公開號為CN1435776A的專利文獻)。其進行標引的方法主要包括以下步驟進行文本分析、自動分詞,根據(jù)詞頻等信息提取關(guān)鍵詞,并計算出每個關(guān)鍵詞與文獻的相關(guān)度,為文獻建立以詞匯為內(nèi)容的倒排索引。其進行檢索的方法主要包括以下步驟檢索輸入串進行分詞處理,得到檢索關(guān)鍵詞,用檢索關(guān)鍵詞依據(jù)一定的信息檢索模型進行檢索,得到文獻和檢索輸入串的相關(guān)度,然后根據(jù)文獻的相關(guān)度進行排序輸出。
目前的自動標引多是字面標引,也就是將文本中出現(xiàn)的關(guān)鍵詞標為該文的索引詞,也有部分進行同義詞或上位詞標引。例如文本中出現(xiàn)“計算機”一詞,字面標引僅將“計算機”作為索引詞,而同義詞標引則同時將其同義詞“電腦”作為索引詞;文本中出現(xiàn)“Windows 2000”一詞,字面標引僅將“Windows 2000”作為索引詞,而上位詞標引同時將其上位詞“操作系統(tǒng)”作為索引詞。上述標引方法不進行更深層次的隱含概念的標引,不能揭示文本的隱含概念。
在檢索時,目前常用的信息檢索模型有布爾檢索模型、向量空間模型、概率檢索模型。其中向量空間模型是指,在向量空間模型(Vector Space Model)中,檢索系統(tǒng)中的每一篇文獻和每一個提問式均用向量表示,例如Di=(T1,T2,T3,...,Tm),Q=(T1,T2,T3,...,Tn),其中,Di為文獻集合中的第i篇文獻;Q為提問;Tk表示文獻向量或提問向量中的第k個分量,即文獻表示或提問式中所含的第k個索引詞或檢索詞。那么向量Di(DVi)、Q(QV)可表示如下DVi=(DWi1,DWi2,DWi3,...DWim)QV=(QW1,QW2,QW3,...QWn)DWij和QWj 分別是文獻和提問中每個分量(詞)的權(quán)值,即詞在特定文獻中加權(quán)后的權(quán)重。向量空間模型將DWij和QWj在
區(qū)間取值。這樣,就可以構(gòu)成一個向量空間,把信息檢索中文獻與提問的匹配處理過程轉(zhuǎn)化為向量空間中文獻向量與提問向量的相似度計算問題。某一文獻與某一提問的相關(guān)程度通過計算該向量對之間的相似度來測定。
計算向量對之間相似度最簡單的方法就是用點積函數(shù),它把文獻向量與提問向量的相似度定義為Sim(DVi,QV)=Σj=1nDWij*QWj---(1)]]>公式(1)中,Sim(DVi,QV)表示文獻向量Di與提問向量Q的相似度。
計算向量對之間相似度較常用的方法是用余弦函數(shù),它將相似度定義為Sim(DVi,QV)=Σj=1nDWij*QWj(Σj=1nDWij2)(Σj=1nQWj2)---(2)]]>公式(2)中,Sim(DVi,QV)表示文獻向量Di與提問向量Q的相似度,這種方法的實質(zhì)就是計算多維空間中文獻向量與提問向量之間的夾角余弦。當兩個向量完全相同時,它們在該空間中相互重疊,即夾角為0,函數(shù)(相似度)達到最大值。公式中的分母作為某種標準化因子起作用。若向量之間夾角很小,且采用的是標準化向量,那么向量之間的夾角余弦近似等于對應(yīng)向量的端點之間的距離。
當全部文獻向量與某個提問向量的相似度都計算完畢后,系統(tǒng)就把相似度超過某一規(guī)定閾值的文獻(或者根據(jù)預(yù)定要檢出的文獻數(shù)量)按相似度大小降序排列輸出。
使用公式(1)計算向量相似度有明顯的局限性,因為公式(1)只是向量簡單相加,未考慮向量的夾角,這樣計算出的向量相似度與實際情況可能會有較大出入,如根據(jù)公式(1)將向量簡單相加后計算出的相似度相同的文獻,其向量夾角可能并不相同,這樣實際相似度也不相同,向量夾角小的實際相似度高;公式(2)只度量了兩個向量的夾角大小,而沒有考慮向量的長度,這樣計算出的向量相似度也可能與實際情況有較大出入,如根據(jù)公式(2)的計算結(jié)果,向量夾角大小一致而向量長度不一樣的文獻相似度相同,而事實上向量長度大的文獻的實際相似度高。所以上述兩種計算方法都有一定局限性。
目前檢索技術(shù)的另一個局限性是檢索結(jié)果僅僅考慮文獻的相關(guān)度,而不考慮時間,實際上只按相關(guān)度排序在很多時候并不符合用戶實際的需求,因為在一般情況下,用戶需要既相關(guān)又時效性強文獻。
發(fā)明內(nèi)容
本發(fā)明的方法針對上述標引方法的不足,提出一種利用計算機系統(tǒng)進行自動標引及其基礎(chǔ)上的檢索方法,使檢索輸出的文獻更為全面;作為本發(fā)明的進一步改進,還針對上述檢索方法的不足,提出新的技術(shù)方案,使檢索輸出文獻與提問關(guān)鍵詞的相關(guān)度更高,保證檢索的準確性。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的本方法利用包括內(nèi)容分析子系統(tǒng)、普通索引子系統(tǒng)、隱含概念索引子系統(tǒng)和檢索子系統(tǒng)的計算機系統(tǒng)進行自動標引和檢索。其中隱含概念索引子系統(tǒng)中存儲有由隱含概念規(guī)則表組成的隱含概念規(guī)則數(shù)據(jù)庫,隱含概念規(guī)則表的內(nèi)容包含有隱含概念、隱含概念所對應(yīng)的詞、隱含概念所對應(yīng)的詞的權(quán)值。本方法利用隱含概念索引子系統(tǒng)進行隱含概念的標引,并根據(jù)包括隱含概念索引在內(nèi)的文獻索引提供檢索結(jié)果。本方法利用隱含概念索引子系統(tǒng)進行隱含概念的標引時包括以下步驟根據(jù)存儲在隱含概念索引子系統(tǒng)內(nèi)的隱含概念規(guī)則數(shù)據(jù)庫及文獻的關(guān)鍵詞權(quán)值信息計算隱含概念與文獻的相關(guān)度;將與文獻的相關(guān)度達到一定閾值的隱含概念作為索引詞進行標引;該方法根據(jù)包括隱含概念索引在內(nèi)的文獻索引提供檢索結(jié)果。
所述隱含概念規(guī)則庫可以由隱含概念規(guī)則表組成,該規(guī)則表包含隱含概念、隱含概念所對應(yīng)的詞、隱含概念所對應(yīng)的詞權(quán)值。
在計算隱含概念與文獻的相關(guān)度時采用向量空間模型,其計算公式為Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij---(3)]]>(3)式中Sim(Dvi,Cvi)為隱含概念與文獻的相關(guān)度,DWij為文獻中每個關(guān)鍵詞的權(quán)值,CWij為隱含概念規(guī)則表中每個隱含概念所對應(yīng)的關(guān)鍵詞的權(quán)值。
作為本發(fā)明的進一步改進,運用信息檢索模型的向量空間模型進行檢索時,計算文獻和提問的相關(guān)度的公式為Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj---(4)]]>式中Sim(DVi,QV)表示文獻向量與提問的相關(guān)度,Dwij為文獻中每個索引詞的權(quán)值,QWj為提問經(jīng)過分析后所得出的每個關(guān)鍵詞的權(quán)值。
作為本發(fā)明的進一步改進,本方法的檢索結(jié)果可以依據(jù)文獻的綜合相關(guān)度排序輸出,文獻的綜合相關(guān)度的計算方法為將文獻的時間和文獻與提問的相關(guān)度進行加權(quán)處理,得到文獻的綜合相關(guān)度。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點1、目前自動標引的索引多是字面索引,未能進行更深層次的隱含概念的標引,不能揭示文本的隱含概念,本發(fā)明提出自動標引在字面索引的基礎(chǔ)上加入隱含概念的標引,使得更能準確地索引文獻。
2、目前檢索時采用的向量空間模型中計算相關(guān)度的算法(點積函數(shù)、余弦函數(shù))不能兼顧向量的夾角和長度兩個因素,因而計算結(jié)果的精確度有限。本發(fā)明采用的一種計算文獻和提問相關(guān)度的新算法,能夠同時兼顧向量的夾角和長度兩個因素,計算結(jié)果的精確度大大提高。
3、目前已有檢索方法的檢索結(jié)果僅按相關(guān)度排序而不考慮時間導(dǎo)致很早的文獻出現(xiàn)在檢索結(jié)果前列,或者按時間排序時不考慮相關(guān)度導(dǎo)致相關(guān)性很小的文獻出現(xiàn)在檢索結(jié)果前列,本發(fā)明提出采用相關(guān)度與時間相結(jié)合的辦法,排序輸出。保證相關(guān)且時間近,符合用戶實際需求。
圖1為本發(fā)明計算機標引和檢索的基本框架圖2為本發(fā)明隱含概念的標引方法的工作流程圖3為本發(fā)明計算機檢索方法的工作流程具體實施方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步描述本發(fā)明的方法適用于通過計算機系統(tǒng)對文字文獻所組成的信息庫進行自動標引和檢索。圖1顯示了本實施例的方法所利用的計算機系統(tǒng)的基本框架。本方法利用包含有內(nèi)容分析子系統(tǒng)、索引子系統(tǒng)、隱含概念索引子系統(tǒng)和檢索子系統(tǒng)的計算機系統(tǒng)進行計算機自動標引和檢索。其中內(nèi)容分析子系統(tǒng)是對檢索所針對的文字文獻數(shù)據(jù)庫中的每一篇文獻內(nèi)容進行分析,通過文本分析、自動分詞得到文獻的詞頻等信息,提取關(guān)鍵詞;索引子系統(tǒng)根據(jù)文獻的詞頻等信息,進行字面標引、同義詞標引等常用的標引;隱含概念索引子系統(tǒng)中存儲有由隱含概念規(guī)則表組成的隱含概念規(guī)則數(shù)據(jù)庫,隱含概念索引子系統(tǒng)負責隱含概念的標引;檢索子系統(tǒng)負責響應(yīng)用戶的檢索請求,完成檢索和結(jié)果輸出的工作。在具體設(shè)備配置方面,可以使用一臺服務(wù)器運行上述幾個子系統(tǒng),也可以用多臺服務(wù)器分別運行。
本實施例采用的計算機標引方法包括以下步驟1、通過文本分析、自動分詞得到文獻的詞頻等信息,提取文獻的關(guān)鍵詞;2、根據(jù)文獻關(guān)鍵詞的權(quán)值信息,在字面標引、同義詞標引的基礎(chǔ)上加入隱含概念的標引;3、利用最后得到的文獻索引詞及其權(quán)值信息,建立倒排索引(D,T,W)。其中D為文獻,T為詞,W為文獻詞相關(guān)權(quán)值。
圖2為進行上述步驟2中的隱含概念的標引的工作流程,隱含概念的標引方法包含以下步驟21、建立隱含概念規(guī)則庫并將其存儲在隱含概念索引子系統(tǒng)中。該規(guī)則庫由隱含概念規(guī)則表組成,規(guī)則表包含隱含概念、隱含概念所對應(yīng)的詞、隱含概念所對應(yīng)的詞權(quán)值,可表示為(Ci,Tij,CWij),其中Ci為隱含概念,Tij為詞,CWij為詞權(quán)值。例如對于隱含概念“新網(wǎng)站”,規(guī)則表內(nèi)容可以設(shè)計為新網(wǎng)站,網(wǎng)站,1.0;新網(wǎng)站,開通,0.9;新網(wǎng)站,推出,0.9;新網(wǎng)站,發(fā)布,0.9;……。其中“新網(wǎng)站”為隱含概念,“網(wǎng)站”“開通”、“推出”、“發(fā)布”等為相關(guān)的詞,“1.0”、“0.9”、“0.9”、“0.9”等為不同相關(guān)詞的權(quán)值。該權(quán)值的加權(quán)因素可以包括詞頻、倒置文獻頻率、規(guī)范因子等。
22、將通過文本分析、自動分詞得到的文獻的詞頻信息進行歸一化處理,得到歸一化的文獻關(guān)鍵詞權(quán)值信息,可表示為(Di,Tij,DWij)。其中Di為文獻集合中的第i篇文獻,Tij為第i篇文獻中的第j個關(guān)鍵詞,DWij第i篇文獻中的第j個關(guān)鍵詞的權(quán)值。為進行歸一化處理可以采用目前常用的詞頻、倒置文獻頻率公式(即TF-IDF公式)計算詞權(quán)值,加權(quán)因素有詞頻、倒置文獻頻率、規(guī)范因子等。
23、根據(jù)已經(jīng)建立的隱含概念規(guī)則庫和歸一化后的文獻關(guān)鍵詞權(quán)值信息,運用向量空間模型計算隱含概念與文獻的相關(guān)度。計算公式為Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij---(3)]]>(3)式中Sim(Dvi,Cvi)為隱含概念與文獻的相關(guān)度,DWij為文獻中每個關(guān)鍵詞的權(quán)值,CWij為隱含概念規(guī)則表中每個隱含概念所對應(yīng)的該關(guān)鍵詞的權(quán)值。
24、將與文獻的相關(guān)度達到一定閾值的隱含概念作為索引詞進行標引。
圖3顯示了本實施例計算機檢索方法的工作流程,該方法根據(jù)包括隱含概念索引在內(nèi)的文獻索引提供檢索結(jié)果,包含以下具體步驟1、接收用戶提出的檢索請求,所謂檢索請求是指用戶在檢索時輸入的字符串,也就是提問,可以是詞匯、短語或句子。
2、對檢索輸入串進行分詞處理,得到檢索關(guān)鍵詞。
3、運用信息檢索模型的向量空間模型進行檢索,得到文獻和提問的相關(guān)度。計算公式如下Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj---(4)]]>(4)式中Sim(DVi,QV)表示文獻向量DVi與提問向量QV的相似度,Dwij為文獻中每個索引詞的權(quán)值,QWj為提問中每個關(guān)鍵詞的權(quán)值,DWij和QWj在
區(qū)間取值。
上述公式能夠同時兼顧向量的夾角和長度兩個因素。當文獻和提問內(nèi)容毫不相關(guān)時(即它們的關(guān)鍵詞集合沒有交集),Sim的值為0。當它們相同時,Sim為1。當它們相似而不相同時,Sim的值介于0和1之間,于是Sim的值成為判斷文獻和提問相似度的標準。
例如有提問Q(T1,T2),其向量表示為QV=(QW1,QW2)=(1,1),一般情況下可以認為提問向量各向量的權(quán)值為1。
假設(shè)文獻庫中有兩篇文獻(DV1,DV2)與之相關(guān),DV1=(0.9,0.1),其中0.9是T1在DV1的權(quán)值,0.1是T2在DV1的權(quán)值;DV2=(0.6,0.4),其中0.6是T1在DV2的權(quán)值,0.4是T2在DV2的權(quán)值。
利用點積函數(shù)公式(1)求得sim(DV1,QV)=1.0,sim(DV2,QV)=1.0利用余弦函數(shù)公式(2)求得sim(DV1,QV)=0.78,sim(DV2,QV)=0.96利用公式(4)求得sim(DV1,QV)=0.55,sim(DV2,QV)=0.66點積函數(shù)公式計算的結(jié)果是兩篇文獻(DV1,DV2)對于提問Q(T1,T2)同樣重要,而事實上文獻DV2對于提問Q(T1,T2)更相關(guān),也就是說公式(2)、(4)的結(jié)果更準確些。
假設(shè)文獻庫中有兩篇文獻(DV1,DV2)與之相關(guān),DV1=(0.3,0.3),其中0.3是T1在DV1的權(quán)值,0.3是T2在DV1的權(quán)值;DV2=(0.7,0.7),其中0.7是T1在DV2的權(quán)值,0.7是T2在DV2的權(quán)值。
利用點積函數(shù)公式(1)求得sim(DV1,QV)=0.6,sim(DV2,QV)=1.4利用余弦函數(shù)公式(2)求得sim(DV1,QV)=1.0,sim(DV2,QV)=1.0利用公式(4)求得sim(DV1,QV)=0.38,sim(DV2,QV)=0.89余弦函數(shù)公式計算的結(jié)果是兩篇文獻(DV1,DV2)對于提問Q(T1,T2)同樣重要,而事實上文獻DV2對于提問Q(T1,T2)更相關(guān),也就是說公式(1)、(4)的結(jié)果更準確些。
通過將計算結(jié)果與實際情況比較,可以認為公式(4)能夠同時兼顧向量的夾角和長度兩個因素,較公式(1)、(2)更能準確反映文獻和提問的相關(guān)度。
4、根據(jù)文獻的時間和相關(guān)度進行加權(quán)處理,得到文獻的綜合相關(guān)度將文獻的時間權(quán)值表示為Si,根據(jù)文獻的時間權(quán)值Si和上述步驟3得到提問和文獻的相關(guān)度Sim(DVi,QV)計算文獻的綜合相關(guān)度,公式如下SimT(DVi,QV)=Sim(DVi,QV)+k*Si式中SimT(DVi,QV)表示文獻的綜合相關(guān)度,k為時間加權(quán)系數(shù)。
在本實施例中,我們計算時間權(quán)值Si的方法如下根據(jù)與當前時間的時間差將時間分為時間段,每段時間分別設(shè)定一個權(quán)值,文獻的時間屬于哪個時間段則賦予其相應(yīng)的時間權(quán)值。例如以一年為單位分為時間段,所有當前年的文獻的時間權(quán)值為1,與當前年相比每早一年的文獻,其時間權(quán)值減少0.05,與當前年相比早20年或以上的文獻時間權(quán)值都設(shè)定為0。也就是說,在2003年時,2003年的文獻為當前年文獻,其時間權(quán)值為1,2002年的文獻的時間權(quán)值為0.95,以此類推為2001年、2000年、1999年等等每一年的文獻賦予時間權(quán)值;在2004年時,2004年的文獻為當前年文獻,2004年的文獻的時間權(quán)值為1,2003年的文獻的時間權(quán)值則為0.95,以此類推為2002、2001年、2000年、1999年等等每一年的文獻賦予時間權(quán)值。
5、根據(jù)綜合相關(guān)度進行排序輸出根據(jù)步驟4中計算所得的文獻的綜合相關(guān)度進行排序,將大于特定閾值的文獻輸出到檢索結(jié)果。
通過上述標引和檢索的方法,可以保證得到的檢索結(jié)果與檢索輸入串既相關(guān)又時效性強,符合讀者實際需求。
權(quán)利要求
1.一種計算機標引和檢索的方法,利用包括內(nèi)容分析子系統(tǒng)、普通索引子系統(tǒng)和檢索子系統(tǒng)的計算機系統(tǒng)進行自動標引和檢索,其特征在于所述計算機系統(tǒng)還包含有隱含概念索引子系統(tǒng),該子系統(tǒng)中存儲有由隱含概念規(guī)則表組成的隱含概念規(guī)則庫,隱含概念規(guī)則表的內(nèi)容包含有隱含概念、隱含概念所對應(yīng)的詞、隱含概念所對應(yīng)的詞的權(quán)值;所述標引和檢索的方法利用隱含概念索引子系統(tǒng)進行隱含概念的標引,并根據(jù)包括隱含概念索引在內(nèi)的文獻索引提供檢索結(jié)果;所述方法利用隱含概念索引子系統(tǒng)進行隱含概念的標引時包括以下步驟根據(jù)存儲在隱含概念索引子系統(tǒng)內(nèi)的隱含概念規(guī)則庫及文獻的關(guān)鍵詞權(quán)值信息計算隱含概念與文獻的相關(guān)度;將與文獻的相關(guān)度達到一定閾值的隱含概念作為索引詞進行標引;該方法根據(jù)包括隱含概念索引在內(nèi)的文獻索引提供檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種計算機標引和檢索的方法,其特征在于隱含概念規(guī)則庫由隱含概念規(guī)則表組成,該規(guī)則表包含隱含概念、隱含概念所對應(yīng)的詞、隱含概念所對應(yīng)的詞權(quán)值。
3.根據(jù)權(quán)利要求1或2所述的一種計算機標引和檢索的方法,其特征在于計算隱含概念與文獻的相關(guān)度的計算公式為Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij]]>式中Sim(Dvi,Cvi)為隱含概念與文獻的相關(guān)度,DWij為文獻中每個關(guān)鍵詞的權(quán)值,CWij為隱含概念規(guī)則表中每個隱含概念所對應(yīng)的關(guān)鍵詞的權(quán)值。
4.根據(jù)權(quán)利要求1或2所述的一種計算機標引和檢索的方法,其特征在于該方法運用信息檢索模型的向量空間模型進行檢索,文獻與提問的相關(guān)度的計算公式為Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj]]>式中Sim(Dvi,Qv)表示文獻向量與提問的相關(guān)度,Dwij為文獻中每個索引詞的權(quán)值,QWj為提問中每個關(guān)鍵詞的權(quán)值。
5.根據(jù)權(quán)利要求3所述的一種計算機標引和檢索的方法,其特征在于該方法運用信息檢索模型的向量空間模型進行檢索,文獻與提問的相關(guān)度的計算公式為Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj]]>式中Sim(Dvi,Qv)表示文獻向量與提問的相關(guān)度,Dwij為文獻中每個索引詞的權(quán)值,QWj為提問中每個關(guān)鍵詞的權(quán)值。
6.根據(jù)權(quán)利要求1或2所述的一種計算機標引和檢索的方法,其特征在于檢索結(jié)果是依據(jù)文獻的綜合相關(guān)度排序輸出的,文獻的綜合相關(guān)度的計算方法為將文獻的時間和文獻與提問的相關(guān)度進行加權(quán)處理,得到文獻的綜合相關(guān)度;計算公式如下SimT(Dvi,Qv)=Sim(Dvi,Qv)+k*Si式中SimT(Dvi,Qv)表示文獻的綜合相關(guān)度,Sim(Dvi,Qv)為文獻向量與提問向量的相關(guān)度,k為時間加權(quán)系數(shù),Si為時間權(quán)值。
7.根據(jù)權(quán)利要求3所述的一種計算機標引和檢索的方法,其特征在于檢索結(jié)果是依據(jù)文獻的綜合相關(guān)度排序輸出的,文獻的綜合相關(guān)度的計算方法為將文獻的時間和文獻與提問的相關(guān)度進行加權(quán)處理,得到文獻的綜合相關(guān)度;計算公式如下SimT(Dvi,Qv)=Sim(Dvi,Qv)+k*Si式中SimT(Dvi,Qv)表示文獻的綜合相關(guān)度,Sim(Dvi,Qv)為文獻向量與提問向量的相關(guān)度,k為時間加權(quán)系數(shù),Si為時間權(quán)值。
8.根據(jù)權(quán)利要求5所述的一種計算機標引和檢索的方法,其特征在于檢索結(jié)果是依據(jù)文獻的綜合相關(guān)度排序輸出的,文獻的綜合相關(guān)度的計算方法為將文獻的時間和文獻與提問的相關(guān)度進行加權(quán)處理,得到文獻的綜合相關(guān)度;計算公式如下SimT(Dvi,Qv)=Sim(Dvi,Qv)+k*Si式中SimT(Dvi,Qv)表示文獻的綜合相關(guān)度,Sim(Dvi,Qv)為文獻向量與提問向量的相關(guān)度,k為時間加權(quán)系數(shù),Si為時間權(quán)值。
9.根據(jù)權(quán)利要求6所述的一種計算機標引和檢索的方法,其特征在于計算所述時間權(quán)值Si的方法如下根據(jù)與當前時間的時間差將時間分為時間段,每段時間分別設(shè)定一個權(quán)值,文獻的時間屬于哪個時間段則賦予其相應(yīng)的時間權(quán)值。
10.根據(jù)權(quán)利要求7所述的一種計算機標引和檢索的方法,其特征在于計算所述時間權(quán)值Si的方法如下根據(jù)與當前時間的時間差將時間分為時間段,每段時間分別設(shè)定一個權(quán)值,文獻的時間屬于哪個時間段則賦予其相應(yīng)的時間權(quán)值。
全文摘要
本發(fā)明提出一種利用計算機系統(tǒng)進行自動標引及檢索的方法,利用包括內(nèi)容分析子系統(tǒng)、普通索引子系統(tǒng)、隱含概念索引子系統(tǒng)和檢索子系統(tǒng)的計算機系統(tǒng)進行自動標引和檢索。通過對文獻增加隱含概念的標引及在其基礎(chǔ)上的檢索,使檢索輸出的文獻更為全面和準確。
文檔編號G06F17/30GK1641638SQ20041000093
公開日2005年7月20日 申請日期2004年1月17日 優(yōu)先權(quán)日2004年1月17日
發(fā)明者劉千祥, 季曉燕, 周群, 蘇華, 趙靜 申請人:中國計算機世界出版服務(wù)公司