一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法_3

文檔序號(hào)：9547175閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法

計(jì)算查新文獻(xiàn)關(guān)鍵術(shù)語(yǔ)新穎度的算法為：術(shù)語(yǔ)早度/術(shù)語(yǔ)相關(guān)文檔總數(shù)，即早度越高、術(shù)語(yǔ)相關(guān)文檔越多，則該術(shù)語(yǔ)的新穎度越低。
[0085] C4、在一組術(shù)語(yǔ)早度計(jì)算的基礎(chǔ)上，得出整個(gè)查新文獻(xiàn)的新穎度，根據(jù)預(yù)先設(shè)置的閾值判定其新穎性。
[0086] 如圖3所示，步驟D包括以下步驟：
[0087] D1、對(duì)查新文檔進(jìn)行數(shù)字指標(biāo)抽取。指標(biāo)數(shù)值范圍抽取，主要是提取指標(biāo)相關(guān)的數(shù) 值范圍信息，包括數(shù)值的上限和下限值等；指標(biāo)單位抽取與轉(zhuǎn)換，主要是提取指標(biāo)相關(guān)的單位，并根據(jù)單位換算表，對(duì)不同的數(shù)值單位進(jìn)行規(guī)格化處理，例如，把噸、千克、克、兩、盎司等不同的重量單位統(tǒng)一為千克。指標(biāo)描述信息抽取，主要是抽取指標(biāo)的描述信息，包括指標(biāo) 的主體及屬性信息，例如：槽厚度、機(jī)箱高度。數(shù)字指標(biāo)抽取時(shí)，以上三個(gè)內(nèi)容是都需要抽取的，否則無(wú)法進(jìn)行比對(duì)。
[0088] D2、查新文檔中抽取的指標(biāo)與實(shí)施例1中得到的相似文檔中抽取的指標(biāo)進(jìn)行比對(duì)。若科技文獻(xiàn)中存在以數(shù)值或連續(xù)變化的數(shù)值范圍限定的技術(shù)特征，例如溫度、壓力、組分含量等，而其余技術(shù)特征與對(duì)比文件相同，如果對(duì)比文件中公開(kāi)了該限定數(shù)值范圍內(nèi)的數(shù)值，包括端點(diǎn)的數(shù)值，則該要求保護(hù)的技術(shù)方案不具備新穎性。比對(duì)方法如下：
[0089] D2a、首先找到兩個(gè)對(duì)比文獻(xiàn)中相同或者相似的指標(biāo)描述，相似指標(biāo)的判斷通過(guò)同義詞詞典進(jìn)行判斷。
[0090] D2b、判斷兩個(gè)指標(biāo)描述的指標(biāo)單位是否相同，相同則進(jìn)行比對(duì)，不同則不進(jìn)行比對(duì)。
[0091] D2c、該指標(biāo)描述中，如果查新文檔中的指標(biāo)上下限和相似文檔中的指標(biāo)上下限有重合，則表明該指標(biāo)不具備新穎性。
[0092] D2d、保留不具備新穎性的指標(biāo)描述。
[0093] D3、對(duì)所有抽取的指標(biāo)進(jìn)行比對(duì)后，統(tǒng)計(jì)不具備新穎性的指標(biāo)的總數(shù)，根據(jù)設(shè)定的閾值來(lái)判斷數(shù)值指標(biāo)的新穎度。
[0094] 實(shí)施例2
[0095] 本實(shí)施例提供了另一種科技文獻(xiàn)的自動(dòng)評(píng)價(jià)新穎性的方法，如圖4所示，本實(shí)施例的方法包括以下步驟：
[0096] 步驟1 :查新文檔分別與國(guó)內(nèi)或國(guó)外文獻(xiàn)進(jìn)行比對(duì)，得到在國(guó)內(nèi)和國(guó)外各指標(biāo)上的得分。各個(gè)指標(biāo)評(píng)分包括：基于內(nèi)容排序的相關(guān)度、基于語(yǔ)義比對(duì)的相似度、關(guān)鍵術(shù)語(yǔ)評(píng) 分、數(shù)值指標(biāo)評(píng)分。
[0097] 步驟2 :再運(yùn)用回歸模型計(jì)算出查新文檔的國(guó)內(nèi)和國(guó)外的新穎性總分。本研究中用到的回歸模型是多元線性回歸，其自變量往往受幾個(gè)重要因素的影響，需要用兩個(gè)或兩個(gè)以上的影響因素作為自變量來(lái)解釋因變量的變化。新穎性評(píng)估體系涉及到多個(gè)指標(biāo)，可將這些指標(biāo)作為自變量xl，x2, x3......xn，將總分作為因變量。設(shè)aO, al,......an是待估計(jì) 的回歸系數(shù)，ε是隨機(jī)誤差，回歸模型為Y = Bt^a1Xja2X2+. ·· +anxn+ ε
[0098] 步驟3 :根據(jù)多維度新穎性評(píng)分、新穎性總分、相關(guān)文獻(xiàn)，生成評(píng)估報(bào)告。
[0099] 以上是對(duì)本發(fā)明做的示例性描述，凡在不脫離本發(fā)明核心的情況下做出的簡(jiǎn)單變形或修改均落入本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法，其特征在于，包括如下步驟： A、基于文檔內(nèi)容排序的新穎性檢測(cè)； B、基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè)； C、基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè)； D、基于數(shù)值指標(biāo)的新穎性檢測(cè)； E、基于步驟A-D分別得到各自的新穎性評(píng)分，運(yùn)用回歸模型計(jì)算出查新文檔的新穎性總分。2. 如權(quán)利要求1所述的方法，其特征在于，步驟A中，利用文檔所具有的詞匯集聚特性，借助語(yǔ)義詞典知識(shí)源，對(duì)文檔中詞語(yǔ)間的語(yǔ)義鏈接關(guān)系進(jìn)行定義與考察，提出文檔的詞匯鏈形式化表示、詞匯鏈權(quán)重計(jì)算，計(jì)算待查文檔和檢索庫(kù)中文檔的相關(guān)度，根據(jù)相關(guān)度評(píng)價(jià) 查新文檔的新穎度。3. 如權(quán)利要求2所述的方法，其特征在于，步驟A具體包括如下步驟： A1、文檔特征表示； A2、建立基于倒排表的索引庫(kù)； A3、查新文檔經(jīng)過(guò)特征表示后，與索引庫(kù)中的數(shù)據(jù)進(jìn)行相似性檢索； A4、經(jīng)過(guò)基于內(nèi)容相關(guān)的粗排序后，得到候選的檢索結(jié)果。4. 如權(quán)利要求1所述的方法，其特征在于，步驟B中，根據(jù)檢索到待查文檔的相關(guān)度最高的TOPN篇相關(guān)文檔，采用基于編輯距離的細(xì)排序的計(jì)算方法，計(jì)算查新文檔和檢索結(jié)果的結(jié)構(gòu)化文本塊之間的相似度，根據(jù)相似度評(píng)價(jià)查新文檔的新穎度。5. 如權(quán)利要求4所述的方法，其特征在于，步驟B具體包括如下步驟： B1、對(duì)后臺(tái)檢索庫(kù)的文獻(xiàn)數(shù)據(jù)進(jìn)行結(jié)構(gòu)拆分，保存到各個(gè)字段中； B2、對(duì)查新文檔進(jìn)行結(jié)構(gòu)拆分，查新文檔結(jié)構(gòu)包括：標(biāo)題、正文、查新點(diǎn)； B3、對(duì)查新文檔的文檔全文與后臺(tái)檢索庫(kù)中的文檔進(jìn)行基于內(nèi)容的粗排序，得到相似度最高的TOPN個(gè)結(jié)果； B4、查新文檔的各個(gè)結(jié)構(gòu)內(nèi)容分別與后臺(tái)檢索庫(kù)的對(duì)應(yīng)字段進(jìn)行基于編輯距離的比對(duì)，其中正文字段和查新點(diǎn)需要與所有字段都進(jìn)行比較，取其中最大值作為相似度； B5、最后對(duì)結(jié)果進(jìn)行加權(quán)，得到總的相似度。6. 如權(quán)利要求1所述的方法，其特征在于，步驟C中，是從查新文獻(xiàn)中提取關(guān)鍵技術(shù)術(shù) 語(yǔ)，采用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度，最后得出整個(gè)查新文獻(xiàn)的新穎度，根據(jù)預(yù) 先設(shè)置的閾值判定其新穎性。7. 如權(quán)利要求6所述的方法，其特征在于，步驟C具體包括如下步驟： C1、根據(jù)關(guān)鍵術(shù)語(yǔ)到索引庫(kù)中檢索，取到所有的檢索結(jié)果； C2、取得包含該術(shù)語(yǔ)的相關(guān)文檔總數(shù)，以及改術(shù)語(yǔ)出現(xiàn)的最早時(shí)間； C3、采用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度； C4、在一組術(shù)語(yǔ)早度計(jì)算的基礎(chǔ)上，得出整個(gè)查新文獻(xiàn)的新穎度，根據(jù)預(yù)先設(shè)置的閾值判定其新穎性。8. 如權(quán)利要求1所述的方法，其特征在于，步驟D中，采用基于數(shù)值指標(biāo)項(xiàng)比對(duì)的策略對(duì)數(shù)值指標(biāo)類技術(shù)特征進(jìn)行新穎性檢測(cè)。9. 如權(quán)利要求8所述的方法，其特征在于，步驟D具體包括如下步驟： D1、對(duì)查新文檔進(jìn)行數(shù)字指標(biāo)抽??； D2、查新文檔中抽取的指標(biāo)與相似文檔中抽取的指標(biāo)進(jìn)行比對(duì)； D3 :對(duì)所有抽取的指標(biāo)進(jìn)行比對(duì)后，統(tǒng)計(jì)不具備新穎性的指標(biāo)的總數(shù)，根據(jù)設(shè)定的閾值來(lái)判斷數(shù)值指標(biāo)的新穎度。10.如權(quán)利要求9所述的方法，其特征在于，步驟D2中的比對(duì)方法如下： D2a、找到兩個(gè)對(duì)比文獻(xiàn)中相同或者相似的指標(biāo)描述，相似指標(biāo)的判斷通過(guò)同義詞詞典進(jìn)行判斷； D2b、判斷兩個(gè)指標(biāo)描述的指標(biāo)單位是否相同，相同則進(jìn)行比對(duì)，不同則不進(jìn)行比對(duì)；D2c、該指標(biāo)描述中，如果查新文檔中的指標(biāo)上下限和相似文檔中的指標(biāo)上下限有重合，則表明該指標(biāo)不具備新穎性； D2d、保留不具備新穎性的指標(biāo)描述。
【專利摘要】本發(fā)明提供了一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法，其包括如下步驟：A、基于文檔內(nèi)容排序的新穎性檢測(cè)；B、基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè)；C、基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè)；D、基于數(shù)值指標(biāo)的新穎性檢測(cè)；E、基于步驟A-D分別得到各自的新穎性評(píng)分，運(yùn)用回歸模型計(jì)算出查新文檔的新穎性總分。采用本發(fā)明的方法，可基于多維度新穎性檢測(cè)的科技文獻(xiàn)自動(dòng)查新，提高科技查新的效率。
【IPC分類】G06F17/27, G06F17/30
【公開(kāi)號(hào)】CN105302793
【申請(qǐng)?zhí)枴緾N201510696274
【發(fā)明人】王慶紅, 韋嶸暉, 李廣凱, 鄭金, 周育忠, 張自鋒, 喬春庚, 劉超, 王洪俊, 肖詩(shī)斌, 施水才
【申請(qǐng)人】南方電網(wǎng)科學(xué)研究院有限責(zé)任公司, 中國(guó)南方電網(wǎng)有限責(zé)任公司電網(wǎng)技術(shù)研究中心, 北京拓爾思信息技術(shù)股份有限公司
【公開(kāi)日】2016年2月3日
【申請(qǐng)日】2015年10月21日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

新穎性相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法_3