亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動查重方法及裝置與流程

文檔序號:12825045閱讀:376來源:國知局
自動查重方法及裝置與流程

本發(fā)明涉及通訊技術(shù)領(lǐng)域,尤其涉及一種自動查重方法及裝置。



背景技術(shù):

隨著知識產(chǎn)權(quán)意識的提高,越來越多的普通人開始申請專利。當(dāng)人們構(gòu)思出技術(shù)文檔并準(zhǔn)備提出相關(guān)專利申請進行知識產(chǎn)權(quán)保護時,為了確保提交的專利申請文件能被授予專利權(quán),十分有必要在提交專利申請文件之前,針對技術(shù)文檔進行查重檢索,現(xiàn)有的查重方法包括基于字符串匹配的方法、基于文檔指紋的方法、基于語義知識的方法。

具體來說,基于字符串匹配的方法是基于數(shù)理統(tǒng)計的方法,先通過字符串匹配算法,找出技術(shù)文檔與數(shù)據(jù)庫中的文檔相匹配的字符串?dāng)?shù),隨后利用相似性計算公式求出結(jié)果。這種基于字符串匹配的方法對字符串的選取要求很高,同時字符串匹配算法的時間復(fù)雜度較高,需要較大的資源開銷和較長的計算時間?;谖臋n指紋的方法通過代表文檔語義的文本作為“指紋”,通過比較“指紋”從而達到查重的目的,在選取“指紋”的過程中可能受到文章層次結(jié)構(gòu)的影響而造成漏判?;谡Z義知識的方法是通過分析比較技術(shù)文檔與數(shù)據(jù)庫文章的自然語義相似的程度從而達到查重的目的,該方法依賴于自然語言相似性的計算,由于中文語言的復(fù)雜性,基于語義知識的判斷結(jié)果正確性很難得到保證。由此可見,傳統(tǒng)上的查重存在資源開銷大、計算時間長、查重結(jié)果不準(zhǔn)確等問題。



技術(shù)實現(xiàn)要素:

本發(fā)明的主要目的在于解決目前在海量數(shù)據(jù)下無法高效快速、準(zhǔn)確進行文檔查重的問題。

為實現(xiàn)上述目的,本發(fā)明提供一種自動查重方法,所述方法包括:

獲取待查重的文檔資料,自動篩選所述文檔資料的關(guān)鍵詞;

制定文獻標(biāo)引表,其中,所述文獻標(biāo)引表包括文獻標(biāo)引、以及每個所述文獻標(biāo)引對應(yīng)的一個或多個詞語;

將數(shù)據(jù)庫中的每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)所述文獻標(biāo)引表為所述抽取出來的詞語賦予對應(yīng)的文獻標(biāo)引;

從所述文獻標(biāo)引表中查找出所述關(guān)鍵詞對應(yīng)的文獻標(biāo)引,將所述數(shù)據(jù)庫中包含所述查找出的文獻標(biāo)引的文獻資料檢索出來;

計算所述文檔資料中的每個詞語與所述檢索出來的文獻資料中的每個詞語的相似度,得到詞語相似度;

根據(jù)所述詞語相似度計算所述文檔資料與所述檢索出來的文獻資料的相似度。

優(yōu)選地,所述自動篩選所述文檔資料的關(guān)鍵詞具體包括:

查找所述文檔資料中出現(xiàn)次數(shù)最多的詞語,將所述出現(xiàn)次數(shù)最多的詞語中無實質(zhì)意義的詞語過濾,得到具有實質(zhì)意義的詞語;

根據(jù)逆文檔頻率規(guī)則對所述具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞。

優(yōu)選地,所述計算所述文檔資料中的詞語與所述檢索出來的文獻資料中的詞語的相似度具體包括:

基于字面信息、或詞林、或知網(wǎng)對所述文檔資料中的每個詞語與所述檢索出來的文獻資料中的每個詞語進行相似度計算。

優(yōu)選地,所述根據(jù)計算出的詞語相似度計算所述文檔資料與所述檢索出來的文獻資料的相似度具體包括:

將每個所述詞語相似度與第一預(yù)設(shè)值進行比較,判斷是否存在大于第一預(yù)設(shè)值的詞語相似度;

當(dāng)某一所述詞語相似度大于第一預(yù)設(shè)值,則所述文檔資料中的對應(yīng)詞語與所述檢索出來的文獻資料中的對應(yīng)的詞語為相似詞語,累計所述相似詞語的個數(shù);

根據(jù)所述相似詞語的個數(shù)計算出所述文檔資料與所述檢索出來的文獻資料的相似度。

優(yōu)選地,所述文獻標(biāo)引包括分類號、檢索詞,所述數(shù)據(jù)庫為專利文獻數(shù)據(jù)庫、所述文獻資料為專利文獻資料。

此外,為實現(xiàn)上述目的,本發(fā)明還提供所述的自動查重裝置,所述裝置包括:

篩選模塊,用于獲取待查重的文檔資料,自動篩選所述文檔資料的關(guān)鍵詞,并制定文獻標(biāo)引表,其中,所述文獻標(biāo)引表包括文獻標(biāo)引、以及每個所述文獻標(biāo)引對應(yīng)的一個或多個詞語;

檢索模塊,用于將數(shù)據(jù)庫中的每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)所述文獻標(biāo)引表為所述抽取出來的詞語賦予對應(yīng)的文獻標(biāo)引,從所述文獻標(biāo)引表中查找出所述關(guān)鍵詞對應(yīng)的文獻標(biāo)引,將所述數(shù)據(jù)庫中包含所述查找出的文獻標(biāo)引的文獻資料檢索出來;

評估模塊,用于計算所述文檔資料中的每個詞語與所述檢索出來的文獻資料中的每個詞語的相似度,得到詞語相似度,根據(jù)所述詞語相似度計算所述文檔資料與所述檢索出來的文獻資料的相似度。

優(yōu)選地,所述篩選模塊,具體用于查找所述文檔資料中出現(xiàn)次數(shù)最多的詞語,將所述出現(xiàn)次數(shù)最多的詞語中無實質(zhì)意義的詞語過濾,得到具有實質(zhì)意義的詞語,根據(jù)逆文檔頻率規(guī)則對所述具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞。

優(yōu)選地,所述評估模塊,具體用于基于字面信息、或詞林、或知網(wǎng)對所述文檔資料中的每個詞語與所述檢索出來的文獻資料中的每個詞語進行相似度計算。

優(yōu)選地,所述評估模塊,具體還用于將每個所述詞語相似度與第一預(yù)設(shè)值進行比較,判斷是否存在大于第一預(yù)設(shè)值的詞語相似度,當(dāng)某一所述詞語相似度大于第一預(yù)設(shè)值,則所述文檔資料中的對應(yīng)詞語與所述檢索出來的文獻資料中的對應(yīng)的詞語為相似詞語,累計所述相似詞語的個數(shù),根據(jù)所述相似詞語的個數(shù)計算出所述文檔資料與所述檢索出來的文獻資料的相似度。

優(yōu)選地,所述文獻標(biāo)引包括分類號、檢索詞,所述數(shù)據(jù)庫為專利文獻數(shù)據(jù)庫、所述文獻資料為專利文獻資料。

本發(fā)明提供的自動查重方法及裝置,能獲取文檔資料,自動篩選文檔資料的關(guān)鍵詞,根據(jù)關(guān)鍵詞檢索出文獻資料,計算文檔資料與檢索出的文獻資料的詞語相似度,根據(jù)詞語相似度計算文檔資料與檢索出的文獻資料的相似度,能在海量數(shù)據(jù)下高效快速、準(zhǔn)確進行文檔查重,提高文檔查重效率。

附圖說明

圖1為本發(fā)明的自動查重方法一實施例的流程示意圖;

圖2為圖1中步驟s10中自動篩選文檔資料的關(guān)鍵詞的一具體細化流程示意圖;

圖3為圖1中步驟s60中根據(jù)詞語相似度計算文檔資料與檢索出來的文獻資料的相似度的一具體細化流程示意圖;

圖4為本發(fā)明的自動查重裝置一實施例的功能模塊示意圖。

本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。

具體實施方式

應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明提供一種自動查重方法。參照圖1,圖1為本發(fā)明的自動查重方法一實施例的流程示意圖。在該實施例中,所述自動查重方法包括:

步驟s10、獲取待查重的文檔資料,自動篩選文檔資料的關(guān)鍵詞。

在上述實施例中,獲取的文檔資料為具有創(chuàng)意的技術(shù)想法,可以通過以下方式獲取文檔資料:實時接收通過輸入設(shè)備輸入的文檔資料、從本地存儲器中獲取文檔資料、通過網(wǎng)絡(luò)從遠端獲取文檔資料。

步驟s20、制定文獻標(biāo)引表,其中,文獻標(biāo)引表包括文獻標(biāo)引、以及每個文獻標(biāo)引對應(yīng)的一個或多個詞語。

在上述實施例中,文獻標(biāo)引表中包括一個或多個文獻標(biāo)引,每一個文獻標(biāo)引對應(yīng)的一個或多個詞語可以由用戶設(shè)置、或系統(tǒng)默認設(shè)置,每個文獻標(biāo)引對應(yīng)的多個詞語為同義詞或近義詞。

步驟s30、將數(shù)據(jù)庫中的每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)文獻標(biāo)引表為抽取出來的詞語賦予對應(yīng)的文獻標(biāo)引。

在上述實施例中,文獻標(biāo)引包括分類號、檢索詞等形式,文獻資料存儲在數(shù)據(jù)庫中,具體的,數(shù)據(jù)庫包括專利文獻數(shù)據(jù)庫、文獻資料包括專利文獻,對數(shù)據(jù)庫中的每一篇文獻都進行文獻標(biāo)引,也就是說將每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)文獻標(biāo)引表對抽取的詞語賦予對應(yīng)的文獻標(biāo)引。

步驟s40、從文獻標(biāo)引表中查找出關(guān)鍵詞對應(yīng)的文獻標(biāo)引,將數(shù)據(jù)庫中包含查找出的文獻標(biāo)引的文獻資料檢索出來。

在上述實施例中,每一個文獻標(biāo)引對應(yīng)一個或多個詞語,根據(jù)文獻標(biāo)引與詞語的對應(yīng)關(guān)系,查找出關(guān)鍵詞對應(yīng)的文獻標(biāo)引。從數(shù)據(jù)庫中檢索出的與文獻資料可以包括一篇或多篇專利文獻資料。

步驟s50、計算文檔資料中的每個詞語與檢索出來的文獻資料中的每個詞語的相似度,得到詞語相似度。

在上述實施例中,計算文檔資料中的詞語與檢索出來的文獻資料中的詞語的相似度具體包括:基于字面信息、或詞林、或知網(wǎng)對文檔資料中的每個詞語與檢索出來的文獻資料中的每個詞語進行相似度計算。需要補充說明的是,基于字面信息對詞語的相似度進行計算的核心內(nèi)容是:中文詞語的構(gòu)成句子中,一般較核心的內(nèi)容都放在句子的后面,句子后面的詞語在句子中所起的作用比靠前的詞語大,因此對句子進行分析時需要給后面的字或詞賦予較高的權(quán)重?;谠~林對詞語的相似度進行計算的核心內(nèi)容是:使用兩個詞語的詞義距離來表示語間相似度,當(dāng)處理對象是一個詞組或短語時,首先將其切分為義類詞,并將義類詞在詞林的樹狀結(jié)構(gòu)中提取出相關(guān)的語義編碼,并對兩個詞語的語義編碼進行相似度計算?;谥W(wǎng)對詞語的相似度進行計算的核心內(nèi)容是:知網(wǎng)以概念作為描述對象,從關(guān)系層次上揭示詞語的的概念含義,并建立了概念關(guān)系網(wǎng)絡(luò),包含詞語屬性以及屬性間關(guān)系,基于知網(wǎng)的詞語相似度計算方法在計算概念詞的相似度時較準(zhǔn)確。

步驟s60、根據(jù)詞語相似度計算文檔資料與檢索出來的文獻資料的相似度。

在上述實施例中得到文檔資料與檢索出來的文獻資料的相似度之后,可以將結(jié)果顯示出來,以供用戶進行查閱,方便用戶了解待查重文檔與文獻資料的相似度。

參見圖2,圖2為圖1中步驟s10中自動篩選文檔資料的關(guān)鍵詞的一具體細化流程示意圖。其中,步驟s10中自動篩選文檔資料的關(guān)鍵詞具體包括:

步驟s11、查找文檔資料中出現(xiàn)次數(shù)最多的詞語,將出現(xiàn)次數(shù)最多的詞語中無實質(zhì)意義的詞語過濾,得到具有實質(zhì)意義的詞語。

在上述實施例中,無實質(zhì)意義的詞語為"的"、"是"、"在"......這一類最常用的詞,這些詞語又稱為停用詞,表示對檢索結(jié)果毫無幫助、必須過濾的詞語。當(dāng)過濾了無實質(zhì)意義的詞語后,只剩下具有實質(zhì)意義的詞語,當(dāng)剩下的詞語中某些詞語出現(xiàn)的次數(shù)一樣多時,需要對出現(xiàn)次數(shù)相同的詞語的重要性進行判斷。

步驟s12、根據(jù)逆文檔頻率規(guī)則對具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞。

在上述實施例中,當(dāng)出現(xiàn)次數(shù)相同的詞語時,通過衡量一個詞是不是常見詞來判斷是否為關(guān)鍵詞,如果某個詞比較少見,但是該詞語在某篇文章中多次出現(xiàn),那么該詞語很可能就反映了這篇文章的特性,即該詞語為這篇文章的關(guān)鍵詞,因此可以根據(jù)逆文檔頻率規(guī)則對具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞,其中,逆文檔頻率規(guī)則是指對每個詞分配一個“重要性”權(quán)重,最常見的詞給予最小的權(quán)重,較常見的詞給予較小的權(quán)重,較少見的詞給予最大的權(quán)重,即詞語的權(quán)重大小與這個詞語的常見程度成反比。

參見圖3,圖3為圖1中步驟s60中根據(jù)詞語相似度計算文檔資料與檢索出來的文獻資料的相似度的一具體細化流程示意圖。其中,步驟s60中根據(jù)詞語相似度計算文檔資料與檢索出來的文獻資料的相似度具體包括:

步驟s61、將每個詞語相似度與第一預(yù)設(shè)值進行比較,判斷是否存在大于第一預(yù)設(shè)值的詞語相似度。

在上述實施例中,第一預(yù)設(shè)值可以為通過大量實驗后獲取的實驗值,也可以根據(jù)日常經(jīng)驗設(shè)置的經(jīng)驗值,還可以為用戶自行設(shè)置的任意數(shù)值。

步驟s62、當(dāng)某一詞語相似度大于第一預(yù)設(shè)值,則待查重文檔資料中的對應(yīng)詞語與檢索出來的文獻資料中的對應(yīng)的詞語為相似詞語,累計相似詞語的個數(shù)。

在上述實施例中,相似詞語是指詞意相同或相似的詞語,具體來說,文檔資料中的某一詞語與檢索出來的文獻資料中的某一詞語為同一詞語時,判斷出該同一詞語為相似詞語,當(dāng)文檔資料中的某一詞語與檢索出來的文獻資料中的某一詞語的詞意的相似度大于第一預(yù)設(shè)值時,判斷出文檔資料中的該詞語與檢索出來的文獻資料中的該詞語為相似詞語。

步驟s63、根據(jù)相似詞語的個數(shù)計算出文檔資料與檢索出來的文獻資料的相似度。

在上述實施例中,當(dāng)檢索出來多篇文獻資料時,逐一對多篇文獻資料與文檔資料進行相似度計算,并得出相似度百分比結(jié)果,根據(jù)相似度百分比結(jié)果對多篇文獻資料進行排序。

以上實施例提供的自動查重方法,能獲取待查重的文檔資料,自動篩選文檔資料的關(guān)鍵詞,根據(jù)關(guān)鍵詞檢索出文獻資料,計算文檔資料與檢索出的文獻資料的詞語相似度,根據(jù)詞語相似度計算文檔資料與檢索出的文獻資料的相似度,能在海量數(shù)據(jù)下高效快速、準(zhǔn)確進行文檔查重,提高文檔查重效率。

本發(fā)明進一步提供一種自動查重裝置。參照圖4,圖4為本發(fā)明的自動查重裝置一實施例的功能模塊示意圖。在該實施例中,所述自動查重裝置100包括:篩選模塊110、檢索模塊120、評估模塊130。其中,所述篩選模塊110,用于獲取待查重的文檔資料,自動篩選文檔資料的關(guān)鍵詞,并制定文獻標(biāo)引表,其中,文獻標(biāo)引表包括文獻標(biāo)引、以及每個文獻標(biāo)引對應(yīng)的一個或多個詞語。所述檢索模塊120,用于將數(shù)據(jù)庫中的每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)文獻標(biāo)引表為抽取出來的詞語賦予對應(yīng)的文獻標(biāo)引,從文獻標(biāo)引表中查找出關(guān)鍵詞對應(yīng)的文獻標(biāo)引,將數(shù)據(jù)庫中包含查找出的文獻標(biāo)引的文獻資料檢索出來。所述評估模塊130,用于計算文檔資料中的每個詞語與檢索出來的文獻資料中的每個詞語的相似度,得到詞語相似度,根據(jù)詞語相似度計算文檔資料與檢索出來的文獻資料的相似度。

在上述實施例中,獲取的文檔資料為具有創(chuàng)意的技術(shù)想法,可以通過以下方式獲取文檔資料:實時接收通過輸入設(shè)備輸入的文檔資料、從本地存儲器中獲取文檔資料、通過網(wǎng)絡(luò)從遠端獲取文檔資料。補充說明的是,在上述實施例中,文獻標(biāo)引表中包括一個或多個文獻標(biāo)引,每一個文獻標(biāo)引對應(yīng)的一個或多個詞語可以由用戶設(shè)置、或系統(tǒng)默認設(shè)置,每個文獻標(biāo)引對應(yīng)的多個詞語為同義詞或近義詞。文獻標(biāo)引包括分類號、檢索詞等形式,文獻資料存儲在數(shù)據(jù)庫中,具體的,數(shù)據(jù)庫包括專利文獻數(shù)據(jù)庫、文獻資料包括專利文獻,對數(shù)據(jù)庫中的每一篇文獻都進行文獻標(biāo)引,也就是說將每篇文獻資料中具有實質(zhì)意義且反映主題的詞語抽取出來,根據(jù)文獻標(biāo)引表對抽取的詞語賦予對應(yīng)的文獻標(biāo)引。每一個文獻標(biāo)引對應(yīng)一個或多個詞語,根據(jù)文獻標(biāo)引與詞語的對應(yīng)關(guān)系,查找出關(guān)鍵詞對應(yīng)的文獻標(biāo)引,根據(jù)關(guān)鍵詞對應(yīng)的文獻標(biāo)引從數(shù)據(jù)庫中檢索出的文獻資料可以包括一篇或多篇專利文獻資料。在得到文檔資料與檢索出來的文獻資料的相似度之后,可以將結(jié)果顯示出來,以供用戶進行查閱,方便用戶了解待查重文檔與文獻資料的相似度。

在上述實施例中,所述篩選模塊110,具體用于查找文檔資料中出現(xiàn)次數(shù)最多的詞語,將出現(xiàn)次數(shù)最多的詞語中無實質(zhì)意義的詞語過濾,得到具有實質(zhì)意義的詞語,根據(jù)逆文檔頻率規(guī)則對具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞。其中,無實質(zhì)意義的詞語為"的"、"是"、"在"......這一類最常用的詞,這些詞語又稱為停用詞,表示對檢索結(jié)果毫無幫助、必須過濾的詞語。當(dāng)過濾了無實質(zhì)意義的詞語后,只剩下具有實質(zhì)意義的詞語,當(dāng)剩下的詞語中某些詞語出現(xiàn)的次數(shù)一樣多時,需要對出現(xiàn)次數(shù)相同的詞語的重要性進行判斷。補充說明的是,當(dāng)出現(xiàn)次數(shù)相同的詞語時,所述篩選模塊110,具體還用于通過衡量一個詞是不是常見詞來判斷是否為關(guān)鍵詞,如果某個詞比較少見,但是該詞語在某篇文章中多次出現(xiàn),那么該詞語很可能就反映了這篇文章的特性,即該詞語為這篇文章的關(guān)鍵詞,因此可以根據(jù)逆文檔頻率規(guī)則對具有實質(zhì)意義的詞語賦予相應(yīng)的權(quán)重,并將具有最大權(quán)重的詞語選為關(guān)鍵詞,其中,逆文檔頻率規(guī)則是指對每個詞分配一個“重要性”權(quán)重,最常見的詞給予最小的權(quán)重,較常見的詞給予較小的權(quán)重,較少見的詞給予最大的權(quán)重,即詞語的權(quán)重大小與這個詞語的常見程度成反比。

在上述實施例中,所述評估模塊130,具體用于基于字面信息、或詞林、或知網(wǎng)對關(guān)鍵詞與文獻資料中的具有實質(zhì)意義的詞語的相似度進行計算。需要補充說明的是,基于字面信息對詞語的相似度進行計算的核心內(nèi)容是:中文詞語的構(gòu)成句子中,一般較核心的內(nèi)容都放在句子的后面,句子后面的詞語在句子中所起的作用比靠前的詞語大,因此對句子進行分析時需要給后面的字或詞賦予較高的權(quán)重?;谠~林對詞語的相似度進行計算的核心內(nèi)容是:使用兩個詞語的詞義距離來表示語間相似度,當(dāng)處理對象是一個詞組或短語時,首先將其切分為義類詞,并將義類詞在詞林的樹狀結(jié)構(gòu)中提取出相關(guān)的語義編碼,并對兩個詞語的語義編碼進行相似度計算?;谥W(wǎng)對詞語的相似度進行計算的核心內(nèi)容是:知網(wǎng)以概念作為描述對象,從關(guān)系層次上揭示詞語的的概念含義,并建立了概念關(guān)系網(wǎng)絡(luò),包含詞語屬性以及屬性間關(guān)系,基于知網(wǎng)的詞語相似度計算方法在計算概念詞的相似度時較準(zhǔn)確。

在上述實施例中,所述評估模塊130,具體還用于將每個詞語相似度與第一預(yù)設(shè)值進行比較,判斷是否存在大于第一預(yù)設(shè)值的詞語相似度,當(dāng)某一詞語相似度大于第一預(yù)設(shè)值,則文檔資料中的對應(yīng)詞語與檢索出來的文獻資料中的對應(yīng)的詞語為相似詞語,累計相似詞語的個數(shù),根據(jù)相似詞語的個數(shù)計算出文檔資料與檢索出來的文獻資料的相似度。

在上述實施例中,第一預(yù)設(shè)值可以為通過大量實驗后獲取的實驗值,也可以根據(jù)日常經(jīng)驗設(shè)置的經(jīng)驗值,還可以為用戶自行設(shè)置的任意數(shù)值。相似詞語是指詞意相同或相似的詞語,具體來說,文檔資料中的某一詞語與檢索出來的文獻資料中的某一詞語為同一詞語時,判斷出該同一詞語為相似詞語,當(dāng)文檔資料中的某一詞語與檢索出來的文獻資料中的某一詞語的詞意的相似度大于第一預(yù)設(shè)值時,判斷出文檔資料中的該詞語與文獻資料中的該詞語為相似詞語。當(dāng)檢索出來多篇文獻資料時,逐一對多篇文獻資料與文檔資料進行相似度計算,并得出相似度百分比結(jié)果,根據(jù)相似度百分比結(jié)果對多篇文獻資料進行排序。

以上實施例提供的自動查重裝置,能獲取待查重的文檔資料,自動篩選文檔資料的關(guān)鍵詞,根據(jù)關(guān)鍵詞檢索出文獻資料,計算文檔資料與檢索出的文獻資料的詞語相似度,根據(jù)詞語相似度計算文檔資料與檢索出的文獻資料的相似度,能在海量數(shù)據(jù)下高效快速、準(zhǔn)確進行文檔查重,提高文檔查重效率。

以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1