狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法與流程

文檔序號(hào)：11729425閱讀：487來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，涉及狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法。

背景技術(shù)：

眾所周知,科學(xué)技術(shù)的發(fā)展依賴于繼承性和創(chuàng)造性。任何科技成果都是在已有知識(shí)的基礎(chǔ)上發(fā)展起來的，學(xué)習(xí)和掌握前人已有的基礎(chǔ)知識(shí)、基本理論、實(shí)驗(yàn)技術(shù),就屬于繼承性；如果只有繼承沒有創(chuàng)造,科學(xué)技術(shù)將得不到創(chuàng)新和發(fā)展,其后果將是衰退、沒落或停滯不前。為了在學(xué)習(xí)和工作中堅(jiān)持并發(fā)揚(yáng)繼承和創(chuàng)造精神,科技工作者掌握有關(guān)科技文獻(xiàn)的知識(shí)及提高檢索能力是很重要的。所謂文獻(xiàn)是指把人類的實(shí)踐經(jīng)驗(yàn)、理論總結(jié)、各類知識(shí)等,以文字、圖形、符號(hào)、聲頻、視頻等形式記錄在一定載體上，使之成為具有一定歷史價(jià)值和參考價(jià)值的記錄，以供參考、研究和論證之用。在文獻(xiàn)資料中,凝聚著世世代代、千千萬萬人勞動(dòng)的成果、智慧的結(jié)晶，積累許許多多有用的知識(shí)；記載著無數(shù)成功的經(jīng)驗(yàn)和失敗的教訓(xùn)。查閱文獻(xiàn)是學(xué)習(xí)前人知識(shí)最有效的手段?？萍嘉墨I(xiàn)的內(nèi)容反映著一定時(shí)代、一定社會(huì)條件下科學(xué)技術(shù)的進(jìn)展和水平,也預(yù)示著未來發(fā)展的趨勢(shì)和方向。文獻(xiàn)信息檢索是科學(xué)研究的向?qū)АＲM(jìn)行有價(jià)值的科學(xué)研究，研究人員必須依賴文獻(xiàn)檢索，全面獲取相關(guān)文獻(xiàn)信息，及時(shí)了解各學(xué)科領(lǐng)域出現(xiàn)的新問題、新觀點(diǎn)，掌握已有文獻(xiàn)成果，以確定自己的研究起點(diǎn)和研究目標(biāo)。通過文獻(xiàn)信息檢索，可以培養(yǎng)信息意識(shí)和獲取新知識(shí)的能力，提高自學(xué)能力，掌握了文獻(xiàn)信息檢索的方法和技能，將大大地縮短收集資料的時(shí)間，提高利用文獻(xiàn)的準(zhǔn)確率，可以不斷更新知識(shí)，提高自身綜合素質(zhì)。

隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展，在文獻(xiàn)領(lǐng)域里逐漸采用了最新的科技成果。文字印刷型的文獻(xiàn)，陸續(xù)采用了電子計(jì)算機(jī)編輯、激光照相排版等先進(jìn)技術(shù)，但在查詢文獻(xiàn)時(shí)會(huì)看到一些影印版的文獻(xiàn)，這些只有摘要，作者和題目，沒有引用關(guān)系、甚至有錯(cuò)誤的文獻(xiàn)，以萬方數(shù)據(jù)庫(kù)和中國(guó)知網(wǎng)為例，只能考慮文獻(xiàn)的主題詞、標(biāo)引詞或者文章本身進(jìn)行查詢，缺失文獻(xiàn)與其他文獻(xiàn)之間的引用關(guān)系，大大丟失了重要相關(guān)性信息。沒有引用關(guān)系用于文獻(xiàn)檢索，會(huì)降低檢索精度和質(zhì)量。

文本通常根據(jù)其固有的特征來度量其相似性。文本的特征包括文本的內(nèi)容特征和非內(nèi)容特征兩種。非內(nèi)容特征包括文檔的大小、類型、位置、擁有者等特征，通常比較具體。文本的內(nèi)容特征包括文本的結(jié)構(gòu)特征、關(guān)鍵詞詞頻統(tǒng)計(jì)特征和關(guān)鍵詞的語義特征等。文本的相似性度量在信息檢索、文本分類、文本查重等領(lǐng)域得到了廣泛應(yīng)用。關(guān)聯(lián)關(guān)系是一種結(jié)構(gòu)化的關(guān)系，指一種對(duì)象和另一種對(duì)象有聯(lián)系。關(guān)聯(lián)關(guān)系是數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)和許多應(yīng)用的前提條件，能夠?yàn)閿?shù)據(jù)挖掘和應(yīng)用提供額外的聚類依據(jù)、語義信息等。例如在檢索一篇文獻(xiàn)時(shí)，根據(jù)這篇文獻(xiàn)的合作作者檢索到另一篇文獻(xiàn)。本專利中這討論的關(guān)系就是指文獻(xiàn)作者的關(guān)系。對(duì)輸入的關(guān)鍵詞，我們將在整個(gè)的元組中運(yùn)用算法(詳見步驟3.4)得到重要信息，若僅運(yùn)用pagerank或是objectrank計(jì)算的靜態(tài)值來返回信息，則可能會(huì)使多條相似的信息重復(fù)出現(xiàn)且排名分?jǐn)?shù)可能會(huì)很高，所以為了使信息能夠在最大限度上呈現(xiàn)給用戶更多樣化的信息，優(yōu)化排名，引入文本相似性(sim)和關(guān)系多樣性(div)兩種權(quán)衡信息重要性的方法。這種方法不僅能夠大大減少時(shí)間的消耗，提高返回信息的效率，而且能夠滿足用戶對(duì)搜索信息的多樣化需求，在一定程度上優(yōu)化了基于多樣性的關(guān)鍵詞查詢。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供一種狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法，對(duì)用戶所輸入的關(guān)鍵詞，然后根據(jù)關(guān)鍵詞與各元組信息之間的文本相似性和關(guān)系多樣性進(jìn)行削弱，運(yùn)用算法返回給全面的基于多樣性的關(guān)鍵詞。

一種狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法，其步驟為：

步驟1：構(gòu)建數(shù)據(jù)關(guān)系，設(shè)計(jì)靜態(tài)離線排序評(píng)價(jià)分?jǐn)?shù)；

步驟1.1：收集并整理數(shù)據(jù)集，構(gòu)建數(shù)據(jù)關(guān)系。由于只有摘要，作者和題目，沒有引用關(guān)系，只利用文獻(xiàn)的作者和文獻(xiàn)id；

步驟1.2：根據(jù)鏈接分析算法pagerank計(jì)算每一個(gè)節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù)，每個(gè)節(jié)點(diǎn)vi都存在相應(yīng)的矢量ri，則通過以下公式來計(jì)算矢量r的評(píng)價(jià)分?jǐn)?shù)：

其中d是一個(gè)阻尼系數(shù)；a是一個(gè)n*n矩陣，其中aij＝α(e)，g(vg,eg)為模式圖，eg就是在模式圖中從vi到vj的邊，α(e)為權(quán)轉(zhuǎn)移率，outdeg(u,eg)表示u的出度，s是節(jié)點(diǎn)的任意子集，s＝[s1,...,sn]^t，如果vi在s中，則si＝0；

綜上，迭代計(jì)算出數(shù)據(jù)集中各個(gè)節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù)。

步驟2：輸入關(guān)鍵詞生成備選的元組；

輸入關(guān)鍵詞，在步驟一中過濾掉與關(guān)鍵詞不符的信息，生成備選的元組；

步驟3：根據(jù)得到的元組用算法(詳見步驟3.4)生成最終含有k個(gè)節(jié)點(diǎn)的隊(duì)列hk。

步驟3.1：在得到的元組中選擇靜態(tài)離線排序評(píng)價(jià)分?jǐn)?shù)最高的節(jié)點(diǎn)；

步驟3.2：關(guān)系多樣性div；

為避免過高同一作者的信息的重復(fù)出現(xiàn)，應(yīng)選擇輸出多樣化的信息，所以給出一個(gè)如下關(guān)系多樣性削弱量的計(jì)算方法：

其中，g(vi)是指與vi相似的元組節(jié)點(diǎn)；z(g(vi))是指在備選元組內(nèi)與vi節(jié)點(diǎn)相同的元組節(jié)點(diǎn)的總和。dv(vi)的值域是(0,1]。定義dv[z]為節(jié)點(diǎn)在備選元組中出現(xiàn)z次的關(guān)系多樣性削弱量值，k為輸出總的信息條數(shù)；令k＝10，“bob”出現(xiàn)2次，即z＝2，則

公式(2)的主要思想是：在查詢文獻(xiàn)時(shí)不太希望檢索到的文獻(xiàn)都是同一作者所寫的，為解決這一問題會(huì)將已選擇的文獻(xiàn)的作者進(jìn)行削弱，即計(jì)算在整個(gè)元組集合中一共出現(xiàn)的次數(shù)，則該作者出現(xiàn)的頻率為出現(xiàn)的次數(shù)/k，那么在待選元組中是該作者所寫的文獻(xiàn)就會(huì)被削弱為1-作者出現(xiàn)的頻率；

步驟3.3：文本相似性sim；

鑒于在一個(gè)元組中一個(gè)元組節(jié)點(diǎn)與其他元組節(jié)點(diǎn)在文本內(nèi)容上的相似性很高，但是這些節(jié)點(diǎn)可能擁有較高的靜態(tài)值，若將全部都輸出出來，就會(huì)得到不是很全面的信息，由此，通過以下公式來計(jì)算文本相似性：

其中vj是待選元組中的一個(gè)元組節(jié)點(diǎn)，而vi是已經(jīng)選擇輸出的元組節(jié)點(diǎn)，i的值是從1到已輸出的元組節(jié)點(diǎn)個(gè)數(shù)，最大為k。

在日常工作中經(jīng)常要對(duì)兩個(gè)文本是否相似進(jìn)行判定,如判定文字錄入稿與標(biāo)準(zhǔn)稿的相似性以評(píng)判錄入的正確性；判定兩份文稿是否雷同；在信息檢索中,給定一組關(guān)鍵字,檢索含有這組關(guān)鍵字或含有部分關(guān)鍵字的信息。判定文本的相似性有很多方法,如判定文字錄入的正確性可采用“字符頻度統(tǒng)計(jì)”方法，信息檢索中可采用“關(guān)鍵字匹配”方法,但這些方法往往不考慮所比較的元素的順序,如“abc”和“cba”可能被認(rèn)為是完全相似的,這顯然是不合理的。本方法利用jaccard公式進(jìn)行相似度計(jì)算，取兩個(gè)元組中詞組的交集與并集。

步驟3.4：關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例；

假設(shè)關(guān)系多樣性削弱量值所占權(quán)重為α，則剩余節(jié)點(diǎn)削弱后的關(guān)系多樣性削弱量值為dv(vi)×α；假設(shè)文本相似性所占權(quán)重為β，其中α+β＝1，則剩余節(jié)點(diǎn)削弱后的文本值為sim(vj)×β；通過以下公式來計(jì)算剩余節(jié)點(diǎn)對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù)：

df(vi)＝r×(dv(vi)×α+sim(vj)×β)(4)

綜上，計(jì)算出剩余節(jié)點(diǎn)通過對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù)，再?gòu)闹羞x出分?jǐn)?shù)最高的節(jié)點(diǎn)。所以選出結(jié)果的過程為：

1.)初始化隊(duì)列hk為空，構(gòu)建數(shù)據(jù)關(guān)系；

2.)計(jì)算每一個(gè)節(jié)點(diǎn)的分?jǐn)?shù)；

3.)輸入關(guān)鍵詞，生成備選元組，得到分?jǐn)?shù)最高的節(jié)點(diǎn)加入hk中，l＝1

4.)當(dāng)l<k時(shí)轉(zhuǎn)5.)，否則轉(zhuǎn)9.)；

5.)計(jì)算關(guān)聯(lián)(作者)多樣性的削弱dv(vi)的值；

6.)用已選的節(jié)點(diǎn)的文本對(duì)待選節(jié)點(diǎn)的文本相似性進(jìn)行計(jì)算；

7.)根據(jù)關(guān)聯(lián)多樣性與文本相似性所占權(quán)重，計(jì)算新的分?jǐn)?shù)；

8.)得到分?jǐn)?shù)最高的節(jié)點(diǎn)加入hk中，l++，轉(zhuǎn)5.)；

9.)返回隊(duì)列hk；

此時(shí)返回的hk即所需的將要檢索到的k條信息。

經(jīng)實(shí)驗(yàn)結(jié)果證明，本方法得到的實(shí)驗(yàn)效果顯著。

附圖說明

圖1為本發(fā)明的實(shí)施流程圖。

具體實(shí)施方式

下面結(jié)合相關(guān)附圖對(duì)本發(fā)明進(jìn)行解釋和闡述：

輸入關(guān)鍵詞“datamining”，生成備選元組，自然數(shù)k為檢索到的信息總條數(shù)，假設(shè)k＝10，如果只依據(jù)公式1計(jì)算的評(píng)價(jià)分?jǐn)?shù)輸出結(jié)果，前10條結(jié)果如表1，2所示。

表110條文獻(xiàn)所對(duì)應(yīng)的序號(hào)，題目與評(píng)價(jià)分?jǐn)?shù)

表210條文獻(xiàn)所對(duì)應(yīng)的作者

步驟3.1：選擇分?jǐn)?shù)最高的節(jié)點(diǎn)，即序號(hào)為1的文獻(xiàn)將入隊(duì)列h中，根據(jù)公式2和公式3對(duì)其他9個(gè)節(jié)點(diǎn)進(jìn)行關(guān)聯(lián)多樣性和文本相似性削弱。

步驟3.2：關(guān)聯(lián)多樣性；

jiaweihan在這10條元組中共出現(xiàn)3次，raymondt.ng僅出現(xiàn)一次，即則對(duì)作者中包含jiaweihan的元組進(jìn)行關(guān)聯(lián)的削弱，即對(duì)序號(hào)為4和序號(hào)為10的文獻(xiàn)進(jìn)行削弱。

步驟3.3：文本相似性；

根據(jù)在隊(duì)列h中的節(jié)點(diǎn)的題目的關(guān)鍵詞，計(jì)算其余9個(gè)節(jié)點(diǎn)的與其的相似性。將那些虛詞去掉后計(jì)算vi∩vj與vi∪vj的值，即序號(hào)為2的文獻(xiàn)與其相似性序號(hào)為3的文獻(xiàn)與其相似性序號(hào)為4的文獻(xiàn)與其相似性序號(hào)為5的文獻(xiàn)與其相似性序號(hào)為6的文獻(xiàn)與其相似性序號(hào)為7的文獻(xiàn)與其相似性序號(hào)為8的文獻(xiàn)與其相似性序號(hào)為9的文獻(xiàn)與其相似性序號(hào)為10的文獻(xiàn)與其相似性

步驟3.4：關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例；

首先假設(shè)α＝0.8，β＝0.2，則根據(jù)公式3計(jì)算出剩余節(jié)點(diǎn)通過對(duì)關(guān)聯(lián)多樣性與文本相似性進(jìn)行削弱后的分?jǐn)?shù)，如圖表3所示：

表3選取序號(hào)為1的文獻(xiàn)節(jié)點(diǎn)后，根據(jù)算法計(jì)算剩余節(jié)點(diǎn)的評(píng)價(jià)分?jǐn)?shù)結(jié)果

選擇分?jǐn)?shù)最高的節(jié)點(diǎn)，即序列為2的文獻(xiàn)將入隊(duì)列h中，循環(huán)上述的操作，直至隊(duì)列h中有10個(gè)節(jié)點(diǎn)，循環(huán)結(jié)束。

當(dāng)關(guān)鍵詞為“datamining”，自然數(shù)k＝10，關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例α＝0.8，β＝0.2時(shí)的輸出結(jié)果如表4所示：

表4當(dāng)α＝0.8，β＝0.2時(shí)輸出結(jié)果

當(dāng)關(guān)鍵詞為“datamining”，自然數(shù)k＝10，關(guān)聯(lián)多樣性與文本相似性的權(quán)重比例α＝0.2，β＝0.8時(shí)的輸出結(jié)果如表5所示：

表5當(dāng)α＝0.2，β＝0.8時(shí)輸出結(jié)果

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：才智;李彤;蘭許;丁治明
技術(shù)所有人：北京工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

保護(hù)生物多樣性的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

狹隘范圍內(nèi)文獻(xiàn)的多樣性查詢方法與流程