一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于科技查新技術(shù)領(lǐng)域,具體涉及一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎 性的方法。
【背景技術(shù)】
[0002] 隨著我國(guó)國(guó)家創(chuàng)新體系的建設(shè)和自主創(chuàng)新能力規(guī)劃的實(shí)施,國(guó)家大力推動(dòng)各個(gè)重 大領(lǐng)域的技術(shù)創(chuàng)新,我國(guó)的科技項(xiàng)目立項(xiàng)數(shù)量、重大科研成果的報(bào)獎(jiǎng)數(shù)量都在飛速增長(zhǎng)。在 科技創(chuàng)新的過程中,如何能夠準(zhǔn)確選擇科研方向,正確立項(xiàng),避免重復(fù)立項(xiàng)和無(wú)效的科研投 入,少走彎路,同時(shí)在科技報(bào)獎(jiǎng)的過程中,準(zhǔn)確提煉科技創(chuàng)新點(diǎn),提升科技成果的價(jià)值,都是 目前科研機(jī)構(gòu)急待解決的關(guān)鍵問題。有研究表明,我國(guó)在進(jìn)行中的科研課題至少40%是重 復(fù)其他國(guó)家已經(jīng)研究成功的課題。
[0003] 科技查新是為了避免科研項(xiàng)目的重復(fù)立項(xiàng)、客觀評(píng)價(jià)科研項(xiàng)目和科技成果的新穎 性,通過各種檢索手段、檢索工具進(jìn)行文獻(xiàn)調(diào)查研究,并運(yùn)用綜合分析對(duì)比等方法,對(duì)科研 立項(xiàng)、成果鑒定、申報(bào)獎(jiǎng)項(xiàng)等項(xiàng)目的新穎性提供文獻(xiàn)依據(jù),寫出有依據(jù)、有分析對(duì)比結(jié)論的 報(bào)告的科技管理手段。作為科研立項(xiàng)、科技成果報(bào)獎(jiǎng)等科研工作的有效支持,科技查新工作 在科技與經(jīng)濟(jì)發(fā)展中的作用越來(lái)越顯著,已成為國(guó)家創(chuàng)新體系的重要組成部分。
[0004] 目前,我國(guó)科技查新很大程度上依賴人工操作,如果能實(shí)現(xiàn)自動(dòng)科技查新,將能很 大程度上提升查新效率?,F(xiàn)有的自動(dòng)查新技術(shù)體現(xiàn)在自動(dòng)新穎性檢測(cè)、新穎性評(píng)價(jià)等方面, 其目的在于采用計(jì)算機(jī)技術(shù),自動(dòng)檢測(cè)出具備新穎性的文檔。國(guó)內(nèi)外很多研究機(jī)構(gòu)都在研 究新穎性檢測(cè)相關(guān)的技術(shù),尤其在科技論文抄襲檢測(cè)、互聯(lián)網(wǎng)版權(quán)保護(hù)、網(wǎng)頁(yè)查重、專利新 穎性檢測(cè)等領(lǐng)域,已經(jīng)出現(xiàn)了大量的研究成果?,F(xiàn)有技術(shù)主要是對(duì)文本內(nèi)容的相似度檢測(cè), 檢測(cè)方法單一。本發(fā)明在國(guó)內(nèi)首次開發(fā)基于多維智能比對(duì)的自助查新系統(tǒng),可自動(dòng)檢測(cè)不 具創(chuàng)新性的申請(qǐng),有利于科技項(xiàng)目確定正確的研究方向,提升報(bào)獎(jiǎng)成功率,有效降低人工負(fù) 擔(dān)并提升查新報(bào)告的質(zhì)量和公正性。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)的問題,本發(fā)明的目的是提供一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新 穎性的方法,其能夠自動(dòng)處理用戶的查新文檔,自動(dòng)生成查新報(bào)告,提高科技查新的效率。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種利用計(jì)算機(jī)自動(dòng)評(píng)價(jià)科技文獻(xiàn)新穎性的方 法,其特征在于,包括如下步驟:
[0007] A、基于文檔內(nèi)容排序的新穎性檢測(cè);
[0008] B、基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè);
[0009] C、基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè);
[0010] D、基于數(shù)值指標(biāo)的新穎性檢測(cè);
[0011] E、基于步驟A-D分別得到各自的新穎性評(píng)分,運(yùn)用回歸模型計(jì)算出查新文檔的新 穎性總分。
[0012] 基于文檔內(nèi)容排序的新穎性檢測(cè),是利用文檔所具有的詞匯集聚特性,借助語(yǔ)義 辭典等知識(shí)源,對(duì)文檔中詞語(yǔ)間的語(yǔ)義鏈接關(guān)系進(jìn)行定義與考察,并以之為基礎(chǔ)提出文檔 的詞匯鏈形式化表示、詞匯鏈權(quán)重計(jì)算,采用了一種基于內(nèi)容相關(guān)度的檢索排序方式,從庫(kù) 中檢索與用戶輸入內(nèi)容最相關(guān)的文本。
[0013] 基于文檔語(yǔ)義比對(duì)的新穎性檢測(cè),采用基于內(nèi)容的相關(guān)文檔檢索技術(shù),檢索到查 新文獻(xiàn)的相關(guān)文檔。通過結(jié)構(gòu)化比對(duì)查新文獻(xiàn)與對(duì)比文獻(xiàn)的之間的相關(guān)度,如果二者具有 較高的相似性或關(guān)聯(lián)性,則可以判定查新文獻(xiàn)不具備新穎性。
[0014] 基于關(guān)鍵術(shù)語(yǔ)的新穎性檢測(cè),采用類似于IBM COA的機(jī)制,首先從查新文獻(xiàn)中提取 關(guān)鍵技術(shù)術(shù)語(yǔ)。采用"早度"等指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度,最后得出整個(gè)查新文獻(xiàn)的 新穎度,根據(jù)預(yù)先設(shè)置的閾值判定其新穎性。
[0015] 基于數(shù)值指標(biāo)的新穎性檢測(cè),采用一種基于數(shù)值指標(biāo)項(xiàng)比對(duì)的策略對(duì)數(shù)值指標(biāo)類 技術(shù)特征進(jìn)行新穎性檢測(cè)。若科技文獻(xiàn)中存在以數(shù)值或連續(xù)變化的數(shù)值范圍限定的技術(shù)特 征,例如溫度、壓力、組分含量等,而其余技術(shù)特征與對(duì)比文件相同,如果對(duì)比文件中公開了 該限定數(shù)值范圍內(nèi)的數(shù)值,包括端點(diǎn)的數(shù)值,則該要求保護(hù)的技術(shù)方案不具備新穎性。
[0016] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟A中,利用文檔所具有的詞匯集聚特性,借助 語(yǔ)義詞典知識(shí)源,對(duì)文檔中詞語(yǔ)間的語(yǔ)義鏈接關(guān)系進(jìn)行定義與考察,提出文檔的詞匯鏈形 式化表示、詞匯鏈權(quán)重計(jì)算,計(jì)算待查文檔和檢索庫(kù)中文檔的相關(guān)度,根據(jù)相關(guān)度評(píng)價(jià)查新 文檔的新穎度。
[0017] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟A具體包括如下步驟:
[0018] AU文檔特征表示;
[0019] A2、建立基于倒排表的索引庫(kù);
[0020] A3、查新文檔經(jīng)過特征表示后,與索引庫(kù)中的數(shù)據(jù)進(jìn)行相似性檢索;
[0021] A4、經(jīng)過基于內(nèi)容相關(guān)的粗排序后,得到候選的檢索結(jié)果。
[0022] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟B中,根據(jù)檢索到待查文檔的相關(guān)度最高的 TOP N篇相關(guān)文檔,采用基于編輯距離的細(xì)排序的計(jì)算方法,計(jì)算查新文檔和檢索結(jié)果的結(jié) 構(gòu)化文本塊之間的相似度,根據(jù)相似度評(píng)價(jià)查新文檔的新穎度。
[0023] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟B具體包括如下步驟:
[0024] B1、對(duì)后臺(tái)檢索庫(kù)的文獻(xiàn)數(shù)據(jù)進(jìn)行結(jié)構(gòu)拆分,保存到各個(gè)字段中;
[0025] B2、對(duì)查新文檔進(jìn)行結(jié)構(gòu)拆分,查新文檔結(jié)構(gòu)包括:標(biāo)題、正文、查新點(diǎn);
[0026] B3、對(duì)查新文檔的文檔全文與后臺(tái)檢索庫(kù)中的文檔進(jìn)行基于內(nèi)容的粗排序,得到 相似度最高的TOP N個(gè)結(jié)果;
[0027] B4、查新文檔的各個(gè)結(jié)構(gòu)內(nèi)容分別與后臺(tái)檢索庫(kù)的對(duì)應(yīng)字段進(jìn)行基于編輯距離的 比對(duì),其中正文字段和查新點(diǎn)需要與所有字段都進(jìn)行比較,取其中最大值作為相似度;
[0028] B5、最后對(duì)結(jié)果進(jìn)行加權(quán),得到總的相似度。
[0029] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟C中,是從查新文獻(xiàn)中提取關(guān)鍵技術(shù)術(shù)語(yǔ),采 用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度,最后得出整個(gè)查新文獻(xiàn)的新穎度,根據(jù)預(yù)先設(shè) 置的閾值判定其新穎性。
[0030] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟C具體包括如下步驟:
[0031] CU根據(jù)關(guān)鍵術(shù)語(yǔ)到索引庫(kù)中檢索,取到所有的檢索結(jié)果;
[0032] C2、取得包含該術(shù)語(yǔ)的相關(guān)文檔總數(shù),以及改術(shù)語(yǔ)出現(xiàn)的最早時(shí)間;
[0033] C3、采用"早度"指標(biāo)計(jì)算各個(gè)關(guān)鍵術(shù)語(yǔ)的新穎度;
[0034] C4、在一組術(shù)語(yǔ)早度計(jì)算的基礎(chǔ)上,得出整個(gè)查新文獻(xiàn)的新穎度,根據(jù)預(yù)先設(shè)置的 閾值判定其新穎性。
[0035] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟D中,采用基于數(shù)值指標(biāo)項(xiàng)比對(duì)的策略對(duì)數(shù) 值指標(biāo)類技術(shù)特征進(jìn)行新穎性檢測(cè)。
[0036] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟D具體包括如下步驟:
[0037] D1、對(duì)查新文檔進(jìn)行數(shù)字指標(biāo)抽?。?br>[0038] D2、查新文檔中抽取的指標(biāo)與相似文檔中抽取的指標(biāo)進(jìn)行比對(duì);
[0039] D3 :對(duì)所有抽取的指標(biāo)進(jìn)行比對(duì)后,統(tǒng)計(jì)不具備新穎性的指標(biāo)的總數(shù),根據(jù)設(shè)定的 閾值來(lái)判斷數(shù)值指標(biāo)的新穎度。
[0040] 根據(jù)本發(fā)明另一【具體實(shí)施方式】,步驟D2中的比對(duì)方法如下:
[0041] D2a、找到兩個(gè)對(duì)比文獻(xiàn)中相同或者相似的指標(biāo)描述,相似指標(biāo)的判斷通過同義詞 詞典進(jìn)行判斷;
[0042] D2b、判斷兩個(gè)指標(biāo)描述的指標(biāo)單位是否相同,相同則進(jìn)行比對(duì),不同則不進(jìn)行比 對(duì);
[0043] D2c、該指標(biāo)描述中,如果查新文檔中的指標(biāo)上下限和相似文檔