中的指標上下限有 重合,則表明該指標不具備新穎性;
[0044] D2d、保留不具備新穎性的指標描述。
[0045] 采用本發(fā)明的方法,可基于多維度新穎性檢測的科技文獻自動查新,并自動生成 查新報告。
【附圖說明】
[0046] 圖1為實施例1中,相關文檔檢索以及比對的流程圖;
[0047] 圖2為實施例1中,關鍵術語的新穎性評價的流程圖;
[0048] 圖3為實施例1中,數(shù)值指標的新穎性評價的流程圖;
[0049] 圖4為實施例2中,科技文獻的自動評價新穎性的流程圖。
【具體實施方式】
[0050] 實施例1
[0051] 本實施例提供了一種利用計算機自動評價科技文獻新穎性的方法,其包括如下步 驟:
[0052] A、基于文檔內容排序的新穎性檢測;
[0053] B、基于文檔語義比對的新穎性檢測;
[0054] C、基于關鍵術語的新穎性檢測;
[0055] D、基于數(shù)值指標的新穎性檢測;
[0056] E、基于步驟A-D分別得到各自的新穎性評分,運用回歸模型計算出查新文檔的新 穎性總分。
[0057] 如圖1所示,步驟A中,在用戶輸入內容進行查找比對時,采用了一種基于內容相 關度的檢索排序方式,從庫中檢索與用戶輸入內容最相關的文本。相似文本檢索的任務是 給定一段文本,在文檔庫中尋找與其最相似的文檔,并按相似性的大小對文檔進行排序。步 驟A具體包括如下步驟:
[0058] AU文檔特征表示。
[0059] 在進行文檔相似性檢索之前,首先要提取文檔特征,進行文檔表示。常用的文檔表 示方法有TFIDF、TF、IDF等文檔向量表示方法。這里我們采用了 TF向量表示法。TF向量 反映了文檔的詞集空間,它的每個分量對應于一個詞,分量的大小為這個詞在該文檔中的 出現(xiàn)次數(shù)。
[0060] 在進行文檔表示之前,要進行文檔的預處理。首先對文檔進行分詞、詞性標注,過 濾虛詞,剩下的實詞作為文檔的特征詞。同時,記錄每個詞出現(xiàn)的次數(shù)(詞頻)。這樣就得 到了文檔的TF向量。
[0061] A2、建立基于倒排表的索引庫。
[0062] 在一個文檔庫中出現(xiàn)的詞可能有數(shù)十萬之多,所以文檔向量的維數(shù)很高。但注意 到這樣一個事實:雖然文檔向量的維數(shù)很高,但單獨每一篇文檔包含的詞數(shù)并不多,通常在 幾百幾千左右。因此,對文檔進行相似性檢索不需要使用文檔向量的所有分量,只需要訪問 部分分量。與這些分量相關的文檔才是我們真正關心的部分。
[0063] 基于上述考慮,采用基于倒排表的方法,即提出文檔中的每一個詞,并把該文檔編 號插入到該詞索引的鏈上。把文檔庫所有文檔向量的各個詞語分別建立倒排索引存儲。同 時還保存每個文檔向量的總特征數(shù)等描述信息。
[0064] A3、查新文檔經(jīng)過特征表示后,與索引庫中的數(shù)據(jù)進行相似性檢索。經(jīng)過基于內容 相關的粗排序后,得到一批候選的檢索結果?;趦热菹嚓P的算法是采用余弦相似度算法。
[0065] 用D(Document)表示,特征項(Term,用T表示)是指出現(xiàn)在文檔D中且能夠代表 該文檔內容的基本語言單位,主要是由詞或者短語構成,文本可以用特征項集表示為D(T1, T2, Tk,Τη),其中 Tk 是特征項,1〈 = k〈 = N。
[0066] 對含有η個特征項的文本而言,通常會給每個特征項賦予一定的權重表示其重要 程度。即 D = D(T1,Wl ;T2, W2 ;Tk,Wk,Tn,Wn),簡記為 D = D(W1,W2, Wk,Wn),我們把它叫 做文本D的向量表示。其中Wk是Tk的權重,1〈 = k〈 = N。
[0067] 在向量空間模型中,兩個文本Dl和D2之間的內容相關度Sim(Dl,D2)常用向量之 間夾角的余弦值表示,公式為:
[0069] 計算所有檢索文檔與后臺數(shù)據(jù)庫中文檔的相似度后,對結果進行排序。
[0070] A4、經(jīng)過基于內容相關的粗排序后,得到一批候選的檢索結果。由于粗排序的檢索 結果已經(jīng)根據(jù)用戶內容的相關度進行了排序,所以排在前100條之內的已經(jīng)包含了用戶所 需要的結果,需要做的工作就是繼續(xù)對這些結果的Top N條進行基于編輯的細排序,找到與 用戶輸入最相近的科技文獻文獻段落。具體算法是:
[0071] 取TOP N條檢索結果;
[0072] 取每條結果的文獻內容,計算與用戶輸入內容的編輯距離。編輯距離,又稱 Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數(shù)。許可 的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。
[0073] 根據(jù)編輯距離檢索結果進行重排序,生成最終的檢索結果。
[0074] 如圖1所示,步驟B中,根據(jù)上述檢索比對的相關度計算方法,并且充分利用科技 文獻的結構信息,包括一般論文的標題,摘要,正文,章節(jié)結構等信息、專利文獻的標題、摘 要、權利要求書、說明書、說明書實施例等信息,對文獻的各個組成部分分別進行基于內容 的檢索與比對,最后進行加權輸出,從而得到比單一比對更好的結果。步驟B具體包括如下 步驟:
[0075] B1、對后臺檢索庫的文獻數(shù)據(jù)進行結構拆分,保存到各個字段中:標題、摘要、正 文、權利要求書、說明書、說明書實施例等。
[0076] B2、對查新文檔進行結構拆分,查新文檔結構包括:標題、正文(技術背景、研究方 案、技術特征、技術參數(shù))、查新點(查新文檔的核心要點)。
[0077] B3、對查新文檔的文檔全文與后臺檢索庫中的文檔進行基于內容的粗排序,得到 相似度最高的TOP N個結果。
[0078] B4、查新文檔的各個結構內容分別與后臺檢索庫的對應字段進行基于編輯距離的 比對,其中正文字段和查新點需要與所有字段都進行比較,取其中最大值作為相似度,例 如:Value (查新點)=Max {Value (標題),Value (摘要),Value (正文),Value (權利要求 書),Value(說明書)},其中Value(標題)表示查新點與標題字段比對的相似度。
[0079] B5、最后對結果進行加權,得到總的相似度:Value (相關文檔n) = Weight (標 題)*Value (標題)+Weight (正文)*Value (正文)+Weight (查新點)*Value (查新點),其 中Weight (標題)表示標題的權重。得到相關文檔的相似度值。
[0080] B6、新穎度采用五星的評價方式:如果相似度大于0. 8,新穎度為1星;相似度大于 〇. 7,新穎度為2星;相似度大于0. 6,新穎度為3星;相似度大于0. 5,新穎度為4星;相似 度小于0. 5,新穎度為5星。
[0081] 如圖2所示,步驟C包括以下步驟:
[0082] CU根據(jù)關鍵術語到索引庫中檢索,取到所有的檢索結果
[0083] C2、取得包含該術語的相關文檔總數(shù),以及改術語出現(xiàn)的最早時間
[0084] C3、采用"早度"等指標計算各個關鍵術語的新穎度。定義一個概念術語年齡:查 新文獻與最早出現(xiàn)該術語的文獻的發(fā)布時間的差值。技術術語的"早度"被定義為術語年齡 的倒數(shù)。早度可以評估一個短語的新穎性或創(chuàng)新性。一篇文獻里使用很多早度高的術語, 可初步認為該文獻是本技術領域的先驅。通過限制只在本技術領域內(同一文獻分類)進 行早度比較,可以確保一個術語的含義在不同文獻之間具備可比較的一致性。