計(jì)算查新文 獻(xiàn)關(guān)鍵術(shù)語(yǔ)新穎度的算法為:術(shù)語(yǔ)早度/術(shù)語(yǔ)相關(guān)文檔總數(shù),即早度越高、術(shù)語(yǔ)相關(guān)文檔越 多,則該術(shù)語(yǔ)的新穎度越低。
[0085] C4、在一組術(shù)語(yǔ)早度計(jì)算的基礎(chǔ)上,得出整個(gè)查新文獻(xiàn)的新穎度,根據(jù)預(yù)先設(shè)置的 閾值判定其新穎性。
[0086] 如圖3所示,步驟D包括以下步驟:
[0087] D1、對(duì)查新文檔進(jìn)行數(shù)字指標(biāo)抽取。指標(biāo)數(shù)值范圍抽取,主要是提取指標(biāo)相關(guān)的數(shù) 值范圍信息,包括數(shù)值的上限和下限值等;指標(biāo)單位抽取與轉(zhuǎn)換,主要是提取指標(biāo)相關(guān)的單 位,并根據(jù)單位換算表,對(duì)不同的數(shù)值單位進(jìn)行規(guī)格化處理,例如,把噸、千克、克、兩、盎司 等不同的重量單位統(tǒng)一為千克。指標(biāo)描述信息抽取,主要是抽取指標(biāo)的描述信息,包括指標(biāo) 的主體及屬性信息,例如:槽厚度、機(jī)箱高度。數(shù)字指標(biāo)抽取時(shí),以上三個(gè)內(nèi)容是都需要抽取 的,否則無(wú)法進(jìn)行比對(duì)。
[0088] D2、查新文檔中抽取的指標(biāo)與實(shí)施例1中得到的相似文檔中抽取的指標(biāo)進(jìn)行比 對(duì)。若科技文獻(xiàn)中存在以數(shù)值或連續(xù)變化的數(shù)值范圍限定的技術(shù)特征,例如溫度、壓力、組 分含量等,而其余技術(shù)特征與對(duì)比文件相同,如果對(duì)比文件中公開(kāi)了該限定數(shù)值范圍內(nèi)的 數(shù)值,包括端點(diǎn)的數(shù)值,則該要求保護(hù)的技術(shù)方案不具備新穎性。比對(duì)方法如下:
[0089] D2a、首先找到兩個(gè)對(duì)比文獻(xiàn)中相同或者相似的指標(biāo)描述,相似指標(biāo)的判斷通過(guò)同 義詞詞典進(jìn)行判斷。
[0090] D2b、判斷兩個(gè)指標(biāo)描述的指標(biāo)單位是否相同,相同則進(jìn)行比對(duì),不同則不進(jìn)行比 對(duì)。
[0091] D2c、該指標(biāo)描述中,如果查新文檔中的指標(biāo)上下限和相似文檔中的指標(biāo)上下限有 重合,則表明該指標(biāo)不具備新穎性。
[0092] D2d、保留不具備新穎性的指標(biāo)描述。
[0093] D3、對(duì)所有抽取的指標(biāo)進(jìn)行比對(duì)后,統(tǒng)計(jì)不具備新穎性的指標(biāo)的總數(shù),根據(jù)設(shè)定的 閾值來(lái)判斷數(shù)值指標(biāo)的新穎度。
[0094] 實(shí)施例2
[0095] 本實(shí)施例提供了另一種科技文獻(xiàn)的自動(dòng)評(píng)價(jià)新穎性的方法,如圖4所示,本實(shí)施 例的方法包括以下步驟:
[0096] 步驟1 :查新文檔分別與國(guó)內(nèi)或國(guó)外文獻(xiàn)進(jìn)行比對(duì),得到在國(guó)內(nèi)和國(guó)外各指標(biāo)上 的得分。各個(gè)指標(biāo)評(píng)分包括:基于內(nèi)容排序的相關(guān)度、基于語(yǔ)義比對(duì)的相似度、關(guān)鍵術(shù)語(yǔ)評(píng) 分、數(shù)值指標(biāo)評(píng)分。
[0097] 步驟2 :再運(yùn)用回歸模型計(jì)算出查新文檔的國(guó)內(nèi)和國(guó)外的新穎性總分。本研究中 用到的回歸模型是多元線性回歸,其自變量往往受幾個(gè)重要因素的影響,需要用兩個(gè)或兩 個(gè)以上的影響因素作為自變量來(lái)解釋因變量的變化。新穎性評(píng)估體系涉及到多個(gè)指標(biāo),可 將這些指標(biāo)作為自變量xl,x2, x3......xn,將總分作為因變量。設(shè)aO, al,......an是待估計(jì) 的回歸系數(shù),ε是隨機(jī)誤差,回歸模型為Y = Bt^a1Xja2X2+. ·· +anxn+ ε
[0098] 步驟3 :根據(jù)多維度新穎性評(píng)分、新穎性總分、相關(guān)文獻(xiàn),生成評(píng)估報(bào)告。
[0099] 以上是對(duì)本發(fā)明做的示例性描述,凡在不脫離本發(fā)明核心的情況下做出的簡(jiǎn)單變 形或修改均落入本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法,其特征在于,包括如下步驟: A、 基于文檔內(nèi)容排序的新穎性檢測(cè); B、 基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè); C、 基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè); D、 基于數(shù)值指標(biāo)的新穎性檢測(cè); E、 基于步驟A-D分別得到各自的新穎性評(píng)分,運(yùn)用回歸模型計(jì)算出查新文檔的新穎性 總分。2. 如權(quán)利要求1所述的方法,其特征在于,步驟A中,利用文檔所具有的詞匯集聚特性, 借助語(yǔ)義詞典知識(shí)源,對(duì)文檔中詞語(yǔ)間的語(yǔ)義鏈接關(guān)系進(jìn)行定義與考察,提出文檔的詞匯 鏈形式化表示、詞匯鏈權(quán)重計(jì)算,計(jì)算待查文檔和檢索庫(kù)中文檔的相關(guān)度,根據(jù)相關(guān)度評(píng)價(jià) 查新文檔的新穎度。3. 如權(quán)利要求2所述的方法,其特征在于,步驟A具體包括如下步驟: A1、文檔特征表示; A2、建立基于倒排表的索引庫(kù); A3、查新文檔經(jīng)過(guò)特征表示后,與索引庫(kù)中的數(shù)據(jù)進(jìn)行相似性檢索; A4、經(jīng)過(guò)基于內(nèi)容相關(guān)的粗排序后,得到候選的檢索結(jié)果。4. 如權(quán)利要求1所述的方法,其特征在于,步驟B中,根據(jù)檢索到待查文檔的相關(guān)度最 高的TOPN篇相關(guān)文檔,采用基于編輯距離的細(xì)排序的計(jì)算方法,計(jì)算查新文檔和檢索結(jié)果 的結(jié)構(gòu)化文本塊之間的相似度,根據(jù)相似度評(píng)價(jià)查新文檔的新穎度。5. 如權(quán)利要求4所述的方法,其特征在于,步驟B具體包括如下步驟: B1、對(duì)后臺(tái)檢索庫(kù)的文獻(xiàn)數(shù)據(jù)進(jìn)行結(jié)構(gòu)拆分,保存到各個(gè)字段中; B2、對(duì)查新文檔進(jìn)行結(jié)構(gòu)拆分,查新文檔結(jié)構(gòu)包括:標(biāo)題、正文、查新點(diǎn); B3、對(duì)查新文檔的文檔全文與后臺(tái)檢索庫(kù)中的文檔進(jìn)行基于內(nèi)容的粗排序,得到相似 度最高的TOPN個(gè)結(jié)果; B4、查新文檔的各個(gè)結(jié)構(gòu)內(nèi)容分別與后臺(tái)檢索庫(kù)的對(duì)應(yīng)字段進(jìn)行基于編輯距離的比 對(duì),其中正文字段和查新點(diǎn)需要與所有字段都進(jìn)行比較,取其中最大值作為相似度; B5、最后對(duì)結(jié)果進(jìn)行加權(quán),得到總的相似度。6. 如權(quán)利要求1所述的方法,其特征在于,步驟C中,是從查新文獻(xiàn)中提取關(guān)鍵技術(shù)術(shù) 語(yǔ),采用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度,最后得出整個(gè)查新文獻(xiàn)的新穎度,根據(jù)預(yù) 先設(shè)置的閾值判定其新穎性。7. 如權(quán)利要求6所述的方法,其特征在于,步驟C具體包括如下步驟: C1、根據(jù)關(guān)鍵術(shù)語(yǔ)到索引庫(kù)中檢索,取到所有的檢索結(jié)果; C2、取得包含該術(shù)語(yǔ)的相關(guān)文檔總數(shù),以及改術(shù)語(yǔ)出現(xiàn)的最早時(shí)間; C3、采用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度; C4、在一組術(shù)語(yǔ)早度計(jì)算的基礎(chǔ)上,得出整個(gè)查新文獻(xiàn)的新穎度,根據(jù)預(yù)先設(shè)置的閾值 判定其新穎性。8. 如權(quán)利要求1所述的方法,其特征在于,步驟D中,采用基于數(shù)值指標(biāo)項(xiàng)比對(duì)的策略 對(duì)數(shù)值指標(biāo)類技術(shù)特征進(jìn)行新穎性檢測(cè)。9. 如權(quán)利要求8所述的方法,其特征在于,步驟D具體包括如下步驟: D1、對(duì)查新文檔進(jìn)行數(shù)字指標(biāo)抽??; D2、查新文檔中抽取的指標(biāo)與相似文檔中抽取的指標(biāo)進(jìn)行比對(duì); D3 :對(duì)所有抽取的指標(biāo)進(jìn)行比對(duì)后,統(tǒng)計(jì)不具備新穎性的指標(biāo)的總數(shù),根據(jù)設(shè)定的閾值 來(lái)判斷數(shù)值指標(biāo)的新穎度。10.如權(quán)利要求9所述的方法,其特征在于,步驟D2中的比對(duì)方法如下: D2a、找到兩個(gè)對(duì)比文獻(xiàn)中相同或者相似的指標(biāo)描述,相似指標(biāo)的判斷通過(guò)同義詞詞典 進(jìn)行判斷; D2b、判斷兩個(gè)指標(biāo)描述的指標(biāo)單位是否相同,相同則進(jìn)行比對(duì),不同則不進(jìn)行比對(duì);D2c、該指標(biāo)描述中,如果查新文檔中的指標(biāo)上下限和相似文檔中的指標(biāo)上下限有重 合,則表明該指標(biāo)不具備新穎性; D2d、保留不具備新穎性的指標(biāo)描述。
【專利摘要】本發(fā)明提供了一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法,其包括如下步驟:A、基于文檔內(nèi)容排序的新穎性檢測(cè);B、基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè);C、基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè);D、基于數(shù)值指標(biāo)的新穎性檢測(cè);E、基于步驟A-D分別得到各自的新穎性評(píng)分,運(yùn)用回歸模型計(jì)算出查新文檔的新穎性總分。采用本發(fā)明的方法,可基于多維度新穎性檢測(cè)的科技文獻(xiàn)自動(dòng)查新,提高科技查新的效率。
【IPC分類】G06F17/27, G06F17/30
【公開(kāi)號(hào)】CN105302793
【申請(qǐng)?zhí)枴緾N201510696274
【發(fā)明人】王慶紅, 韋嶸暉, 李廣凱, 鄭金, 周育忠, 張自鋒, 喬春庚, 劉超, 王洪俊, 肖詩(shī)斌, 施水才
【申請(qǐng)人】南方電網(wǎng)科學(xué)研究院有限責(zé)任公司, 中國(guó)南方電網(wǎng)有限責(zé)任公司電網(wǎng)技術(shù)研究中心, 北京拓爾思信息技術(shù)股份有限公司
【公開(kāi)日】2016年2月3日
【申請(qǐng)日】2015年10月21日