本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法。
背景技術(shù):
眾所周知,科學(xué)技術(shù)的發(fā)展依賴于繼承性和創(chuàng)造性。任何科技成果都是在已有知識(shí)的基礎(chǔ)上發(fā)展起來的,學(xué)習(xí)和掌握前人已有的基礎(chǔ)知識(shí)、基本理論、實(shí)驗(yàn)技術(shù),就屬于繼承性;如果只有繼承沒有創(chuàng)造,科學(xué)技術(shù)將得不到創(chuàng)新和發(fā)展,其后果將是衰退、沒落或停滯不前。為了在學(xué)習(xí)和工作中堅(jiān)持并發(fā)揚(yáng)繼承和創(chuàng)造精神,科技工作者掌握有關(guān)科技文獻(xiàn)的知識(shí)及提高檢索能力是很重要的。所謂文獻(xiàn)是指把人類的實(shí)踐經(jīng)驗(yàn)、理論總結(jié)、各類知識(shí)等,以文字、圖形、符號(hào)、聲頻、視頻等形式記錄在一定載體上,使之成為具有一定歷史價(jià)值和參考價(jià)值的記錄,以供參考、研究和論證之用。在文獻(xiàn)資料中,凝聚著世世代代、千千萬萬人勞動(dòng)的成果、智慧的結(jié)晶,積累許許多多有用的知識(shí);記載著無數(shù)成功的經(jīng)驗(yàn)和失敗的教訓(xùn)。查閱文獻(xiàn)是學(xué)習(xí)前人知識(shí)最有效的手段??萍嘉墨I(xiàn)的內(nèi)容反映著一定時(shí)代、一定社會(huì)條件下科學(xué)技術(shù)的進(jìn)展和水平,也預(yù)示著未來發(fā)展的趨勢(shì)和方向。文獻(xiàn)信息檢索是科學(xué)研究的向?qū)АRM(jìn)行有價(jià)值的科學(xué)研究,研究人員必須依賴文獻(xiàn)檢索,全面獲取相關(guān)文獻(xiàn)信息,及時(shí)了解各學(xué)科領(lǐng)域出現(xiàn)的新問題、新觀點(diǎn),掌握已有文獻(xiàn)成果,以確定自己的研究起點(diǎn)和研究目標(biāo)。通過文獻(xiàn)信息檢索,可以培養(yǎng)信息意識(shí)和獲取新知識(shí)的能力,提高自學(xué)能力,掌握了文獻(xiàn)信息檢索的方法和技能,將大大地縮短收集資料的時(shí)間,提高利用文獻(xiàn)的準(zhǔn)確率,可以不斷更新知識(shí),提高自身綜合素質(zhì)。
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,在文獻(xiàn)領(lǐng)域里逐漸采用了最新的科技成果。文字印刷型的文獻(xiàn),陸續(xù)采用了電子計(jì)算機(jī)編輯、激光照相排版等先進(jìn)技術(shù),但在查詢文獻(xiàn)時(shí)會(huì)看到一些影印版的文獻(xiàn),這些只有摘要,作者和題目,沒有引用關(guān)系、甚至有錯(cuò)誤的文獻(xiàn),以萬方數(shù)據(jù)庫(kù)和中國(guó)知網(wǎng)為例,只能考慮文獻(xiàn)的主題詞、標(biāo)引詞或者文章本身進(jìn)行查詢,缺失文獻(xiàn)與其他文獻(xiàn)之間的引用關(guān)系,大大丟失了重要相關(guān)性信息。沒有引用關(guān)系用于文獻(xiàn)檢索,會(huì)降低檢索精度和質(zhì)量。
文本通常根據(jù)其固有的特征來度量其相似性。文本的特征包括文本的內(nèi)容特征和非內(nèi)容特征兩種。非內(nèi)容特征包括文檔的大小、類型、位置、擁有者等特征,通常比較具體。文本的內(nèi)容特征包括文本的結(jié)構(gòu)特征、關(guān)鍵詞詞頻統(tǒng)計(jì)特征和關(guān)鍵詞的語義特征等。文本的相似性度量在信息檢索、文本分類、文本查重等領(lǐng)域得到了廣泛應(yīng)用。關(guān)聯(lián)關(guān)系是一種結(jié)構(gòu)化的關(guān)系,指一種對(duì)象和另一種對(duì)象有聯(lián)系。關(guān)聯(lián)關(guān)系是數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)和許多應(yīng)用的前提條件,能夠?yàn)閿?shù)據(jù)挖掘和應(yīng)用提供額外的聚類依據(jù)、語義信息等。例如在檢索一篇文獻(xiàn)時(shí),根據(jù)這篇文獻(xiàn)的合作作者檢索到另一篇文獻(xiàn)。本專利中這討論的關(guān)系就是指文獻(xiàn)作者的關(guān)系。對(duì)輸入的關(guān)鍵詞,我們將在整個(gè)的元組中運(yùn)用算法(詳見步驟3.4)得到重要信息,若僅運(yùn)用pagerank或是objectrank計(jì)算的靜態(tài)值來返回信息,則可能會(huì)使多條相似的信息重復(fù)出現(xiàn)且排名分?jǐn)?shù)可能會(huì)很高,所以為了使信息能夠在最大限度上呈現(xiàn)給用戶更多樣化的信息,優(yōu)化排名,引入文本相似性(sim)和關(guān)系多樣性(div)兩種權(quán)衡信息重要性的方法。這種方法不僅能夠大大減少時(shí)間的消耗,提高返回信息的效率,而且能夠滿足用戶對(duì)搜索信息的多樣化需求,在一定程度上優(yōu)化了基于多樣性的關(guān)鍵詞查詢。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法,對(duì)用戶所輸入的關(guān)鍵詞,然后根據(jù)關(guān)鍵詞與各元組信息之間的文本相似性和關(guān)系多樣性進(jìn)行削弱,運(yùn)用算法返回給全面的基于多樣性的關(guān)鍵詞。
一種狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法,其步驟為:
步驟1:構(gòu)建數(shù)據(jù)關(guān)系,設(shè)計(jì)靜態(tài)離線排序評(píng)價(jià)分?jǐn)?shù);
步驟1.1:收集并整理數(shù)據(jù)集,構(gòu)建數(shù)據(jù)關(guān)系。由于只有摘要,作者和題目,沒有引用關(guān)系,只利用文獻(xiàn)的作者和文獻(xiàn)id;
步驟1.2:根據(jù)鏈接分析算法pagerank計(jì)算每一個(gè)節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù),每個(gè)節(jié)點(diǎn)vi都存在相應(yīng)的矢量ri,則通過以下公式來計(jì)算矢量r的評(píng)價(jià)分?jǐn)?shù):
其中d是一個(gè)阻尼系數(shù);a是一個(gè)n*n矩陣,其中aij=α(e),
綜上,迭代計(jì)算出數(shù)據(jù)集中各個(gè)節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù)。
步驟2:輸入關(guān)鍵詞生成備選的元組;
輸入關(guān)鍵詞,在步驟一中過濾掉與關(guān)鍵詞不符的信息,生成備選的元組;
步驟3:根據(jù)得到的元組用算法(詳見步驟3.4)生成最終含有k個(gè)節(jié)點(diǎn)的隊(duì)列hk。
步驟3.1:在得到的元組中選擇靜態(tài)離線排序評(píng)價(jià)分?jǐn)?shù)最高的節(jié)點(diǎn);
步驟3.2:關(guān)系多樣性div;
為避免過高同一作者的信息的重復(fù)出現(xiàn),應(yīng)選擇輸出多樣化的信息,所以給出一個(gè)如下關(guān)系多樣性削弱量的計(jì)算方法:
其中,g(vi)是指與vi相似的元組節(jié)點(diǎn);z(g(vi))是指在備選元組內(nèi)與vi節(jié)點(diǎn)相同的元組節(jié)點(diǎn)的總和。dv(vi)的值域是(0,1]。定義dv[z]為節(jié)點(diǎn)在備選元組中出現(xiàn)z次的關(guān)系多樣性削弱量值,k為輸出總的信息條數(shù);令k=10,“bob”出現(xiàn)2次,即z=2,則
公式(2)的主要思想是:在查詢文獻(xiàn)時(shí)不太希望檢索到的文獻(xiàn)都是同一作者所寫的,為解決這一問題會(huì)將已選擇的文獻(xiàn)的作者進(jìn)行削弱,即計(jì)算在整個(gè)元組集合中一共出現(xiàn)的次數(shù),則該作者出現(xiàn)的頻率為出現(xiàn)的次數(shù)/k,那么在待選元組中是該作者所寫的文獻(xiàn)就會(huì)被削弱為1-作者出現(xiàn)的頻率;
步驟3.3:文本相似性sim;
鑒于在一個(gè)元組中一個(gè)元組節(jié)點(diǎn)與其他元組節(jié)點(diǎn)在文本內(nèi)容上的相似性很高,但是這些節(jié)點(diǎn)可能擁有較高的靜態(tài)值,若將全部都輸出出來,就會(huì)得到不是很全面的信息,由此,通過以下公式來計(jì)算文本相似性:
其中vj是待選元組中的一個(gè)元組節(jié)點(diǎn),而vi是已經(jīng)選擇輸出的元組節(jié)點(diǎn),i的值是從1到已輸出的元組節(jié)點(diǎn)個(gè)數(shù),最大為k。
在日常工作中經(jīng)常要對(duì)兩個(gè)文本是否相似進(jìn)行判定,如判定文字錄入稿與標(biāo)準(zhǔn)稿的相似性以評(píng)判錄入的正確性;判定兩份文稿是否雷同;在信息檢索中,給定一組關(guān)鍵字,檢索含有這組關(guān)鍵字或含有部分關(guān)鍵字的信息。判定文本的相似性有很多方法,如判定文字錄入的正確性可采用“字符頻度統(tǒng)計(jì)”方法,信息檢索中可采用“關(guān)鍵字匹配”方法,但這些方法往往不考慮所比較的元素的順序,如“abc”和“cba”可能被認(rèn)為是完全相似的,這顯然是不合理的。本方法利用jaccard公式進(jìn)行相似度計(jì)算,取兩個(gè)元組中詞組的交集與并集。
步驟3.4:關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例;
假設(shè)關(guān)系多樣性削弱量值所占權(quán)重為α,則剩余節(jié)點(diǎn)削弱后的關(guān)系多樣性削弱量值為dv(vi)×α;假設(shè)文本相似性所占權(quán)重為β,其中α+β=1,則剩余節(jié)點(diǎn)削弱后的文本值為sim(vj)×β;通過以下公式來計(jì)算剩余節(jié)點(diǎn)對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù):
df(vi)=r×(dv(vi)×α+sim(vj)×β)(4)
綜上,計(jì)算出剩余節(jié)點(diǎn)通過對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù),再?gòu)闹羞x出分?jǐn)?shù)最高的節(jié)點(diǎn)。所以選出結(jié)果的過程為:
1.)初始化隊(duì)列hk為空,構(gòu)建數(shù)據(jù)關(guān)系;
2.)計(jì)算每一個(gè)節(jié)點(diǎn)的分?jǐn)?shù);
3.)輸入關(guān)鍵詞,生成備選元組,得到分?jǐn)?shù)最高的節(jié)點(diǎn)加入hk中,l=1
4.)當(dāng)l<k時(shí)轉(zhuǎn)5.),否則轉(zhuǎn)9.);
5.)計(jì)算關(guān)聯(lián)(作者)多樣性的削弱dv(vi)的值;
6.)用已選的節(jié)點(diǎn)的文本對(duì)待選節(jié)點(diǎn)的文本相似性進(jìn)行計(jì)算;
7.)根據(jù)關(guān)聯(lián)多樣性與文本相似性所占權(quán)重,計(jì)算新的分?jǐn)?shù);
8.)得到分?jǐn)?shù)最高的節(jié)點(diǎn)加入hk中,l++,轉(zhuǎn)5.);
9.)返回隊(duì)列hk;
此時(shí)返回的hk即所需的將要檢索到的k條信息。
經(jīng)實(shí)驗(yàn)結(jié)果證明,本方法得到的實(shí)驗(yàn)效果顯著。
附圖說明
圖1為本發(fā)明的實(shí)施流程圖。
具體實(shí)施方式
下面結(jié)合相關(guān)附圖對(duì)本發(fā)明進(jìn)行解釋和闡述:
輸入關(guān)鍵詞“datamining”,生成備選元組,自然數(shù)k為檢索到的信息總條數(shù),假設(shè)k=10,如果只依據(jù)公式1計(jì)算的評(píng)價(jià)分?jǐn)?shù)輸出結(jié)果,前10條結(jié)果如表1,2所示。
表110條文獻(xiàn)所對(duì)應(yīng)的序號(hào),題目與評(píng)價(jià)分?jǐn)?shù)
表210條文獻(xiàn)所對(duì)應(yīng)的作者
步驟3.1:選擇分?jǐn)?shù)最高的節(jié)點(diǎn),即序號(hào)為1的文獻(xiàn)將入隊(duì)列h中,根據(jù)公式2和公式3對(duì)其他9個(gè)節(jié)點(diǎn)進(jìn)行關(guān)聯(lián)多樣性和文本相似性削弱。
步驟3.2:關(guān)聯(lián)多樣性;
jiaweihan在這10條元組中共出現(xiàn)3次,raymondt.ng僅出現(xiàn)一次,即
步驟3.3:文本相似性;
根據(jù)在隊(duì)列h中的節(jié)點(diǎn)的題目的關(guān)鍵詞,計(jì)算其余9個(gè)節(jié)點(diǎn)的與其的相似性。將那些虛詞去掉后計(jì)算vi∩vj與vi∪vj的值,即序號(hào)為2的文獻(xiàn)與其相似性
步驟3.4:關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例;
首先假設(shè)α=0.8,β=0.2,則根據(jù)公式3計(jì)算出剩余節(jié)點(diǎn)通過對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù),如圖表3所示:
表3選取序號(hào)為1的文獻(xiàn)節(jié)點(diǎn)后,根據(jù)算法計(jì)算剩余節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù)結(jié)果
選擇分?jǐn)?shù)最高的節(jié)點(diǎn),即序列為2的文獻(xiàn)將入隊(duì)列h中,循環(huán)上述的操作,直至隊(duì)列h中有10個(gè)節(jié)點(diǎn),循環(huán)結(jié)束。
當(dāng)關(guān)鍵詞為“datamining”,自然數(shù)k=10,關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例α=0.8,β=0.2時(shí)的輸出結(jié)果如表4所示:
表4當(dāng)α=0.8,β=0.2時(shí)輸出結(jié)果
當(dāng)關(guān)鍵詞為“datamining”,自然數(shù)k=10,關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例α=0.2,β=0.8時(shí)的輸出結(jié)果如表5所示:
表5當(dāng)α=0.2,β=0.8時(shí)輸出結(jié)果