一種面向科技大數(shù)據(jù)的項(xiàng)目查重方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及科技項(xiàng)目申請(qǐng)管理方法領(lǐng)域,更具體地,設(shè)及一種面向科技大數(shù)據(jù)的 項(xiàng)目查重方法。
【背景技術(shù)】
[0002] 科技大數(shù)據(jù)是指在科技活動(dòng)中產(chǎn)生的一系列數(shù)據(jù),包括科技項(xiàng)目申報(bào)數(shù)據(jù)、科技 資源描述數(shù)據(jù)、科技創(chuàng)新數(shù)據(jù)等。科技大數(shù)據(jù)具有數(shù)據(jù)類型非結(jié)構(gòu)化、數(shù)據(jù)量龐大等大數(shù)據(jù) 特征,數(shù)據(jù)來源往往是通過多年積累的跨區(qū)域數(shù)據(jù),科技項(xiàng)目信息包括申報(bào)文本信息、立項(xiàng) 合同信息、驗(yàn)收文檔信息等,其具有跨領(lǐng)域、強(qiáng)邏輯的特征,面對(duì)龐大的數(shù)據(jù)資源,如果采用 傳統(tǒng)的中文文本相似度計(jì)算方法,將無法提取出貼切的各領(lǐng)域的項(xiàng)目信息,也無法保障進(jìn) 度。同時(shí),科技項(xiàng)目文本信息具有很強(qiáng)的邏輯性,特別是關(guān)鍵技術(shù)和研究路線的表達(dá),詞與 詞之間的順序不同往往代表的研究方法完全不同,所W面對(duì)科技項(xiàng)目查重,如果單純地采 用傳統(tǒng)的基于統(tǒng)計(jì)或者語義的方法將無法達(dá)到很好的相似度計(jì)算效果。因此,無論是單純 采用專家評(píng)估方式,或者采用現(xiàn)階段的項(xiàng)目查重模型,都無法滿足科技大數(shù)據(jù)的項(xiàng)目查重 要求。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供一種面向科技大數(shù)據(jù)的項(xiàng)目查重方法,該方法基于領(lǐng)域本體和詞序特 征,通過提取科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞匯后得出每個(gè)特征詞的詞序因子引入領(lǐng)域本 體中概念相似度計(jì)算,根據(jù)詞序因子和各特征詞的相似度值進(jìn)行統(tǒng)計(jì)后將得出文本相似 值,從而達(dá)到項(xiàng)目查重的目的。
[0004] 為了達(dá)到上述技術(shù)效果,本發(fā)明的技術(shù)方案如下: 一種面向科技大數(shù)據(jù)的項(xiàng)目查重方法,包括W下步驟: S1:利用歷年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)構(gòu)建領(lǐng)域本體; S2:對(duì)歷年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)進(jìn)行中文分詞后再進(jìn)行去停用操作,提取出歷年 的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞,對(duì)每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞構(gòu)建最長(zhǎng) 公共序列來計(jì)算其特征詞的詞序因子; S3:對(duì)待查重的新申請(qǐng)項(xiàng)目進(jìn)行中文分詞后再進(jìn)行去停用操作,提取出該項(xiàng)目立項(xiàng)信 息數(shù)據(jù)的特征詞,對(duì)該項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞構(gòu)建最長(zhǎng)公共序列來計(jì)算其特征詞的詞 序因子; S4:將待查重的新申請(qǐng)項(xiàng)目的詞序因子和每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的詞序因子 引入領(lǐng)域本體中概念相似度計(jì)算得出查重結(jié)論。
[000引本發(fā)明中,根據(jù)歷年的科技項(xiàng)目立項(xiàng)信息構(gòu)建領(lǐng)域本體,然后對(duì)新申報(bào)的項(xiàng)目信 息跟已有的項(xiàng)目信息進(jìn)行相似度比較,進(jìn)行中文分詞、去停用詞等一系列操作后,提取出關(guān) 鍵特征詞匯,對(duì)每個(gè)文本的關(guān)鍵特征詞分別構(gòu)建最長(zhǎng)公共序列并計(jì)算特征詞的詞序因子, 將詞序因子引入領(lǐng)域本體的概念相似度計(jì)算,可得出每個(gè)特征詞的相似度值進(jìn)而進(jìn)行相似 度評(píng)價(jià)從而得出查重結(jié)論。
[0006] 進(jìn)一步地,所述步驟S2的具體過程如下: S21:將歷年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)組成數(shù)據(jù)源C={C1,C2……CL···},讀取其中任一 數(shù)據(jù)文本Ci,對(duì)數(shù)據(jù)文本Ci進(jìn)行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1, A2,......,Αη); S22:用領(lǐng)域本體對(duì)向量A進(jìn)行詞語消歧和同義替換實(shí)現(xiàn)文本降維,得到降維后的特征 詞向量A'=(A'1 ,Α'2,......,A'm),其中m<n; S23:通過隱馬爾可夫模型,計(jì)算特征詞向量A'的詞序因子序列ai = (ail,ai2,……, 化:加); S24:重復(fù)步驟S22-S23得到每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的詞序因子序列。
[0007] 進(jìn)一步地,所述步驟S3的具體過程如下: S31:將待查重的新申請(qǐng)項(xiàng)目數(shù)據(jù)進(jìn)行中文分詞,將得到的分詞去停用詞,得到特征詞 向量 B=(B1,B2,......,Bin); S32:用領(lǐng)域本體對(duì)特征詞向量B進(jìn)行詞語消歧和同義替換實(shí)現(xiàn)文本降維,得到降維后 的特征詞向量B'=(B' 1 ,Β'2,......,Β' im),其中m<n; S33:通過隱馬爾可夫模型,計(jì)算特征詞向量B'的詞序因子序列#i=(^il,度i2,……, 興加)。
[0008] 進(jìn)一步地,所述步驟S4的具體過程如下: 將詞序因子序列聲1=(擇11,在i2,……,必jm)和每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的 詞序因子序列引入領(lǐng)域本體中概念相似度Κι計(jì)算,其中1表示年份:
其中,疋為任一年份的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)降維后的特征詞向量,兩為待查重的新 申請(qǐng)項(xiàng)目數(shù)據(jù)降維后的特征詞向量,電為筆的詞序因子序列,苗為爺詞序因子序列,、卻 是可調(diào)節(jié)參數(shù),通過兩個(gè)詞序因子的差值計(jì)算作為調(diào)節(jié)參數(shù),dbi(疋JTf)為語義相似度, 語義相似度指領(lǐng)域本體樹中連接兩個(gè)節(jié)點(diǎn)的最短路徑所跨的邊數(shù)。
[0009] 進(jìn)一步地,所述步驟S4還包括: 采用hadoop框架對(duì)相似度Κι的計(jì)算式進(jìn)行分布式改進(jìn),之后設(shè)置相似度閥值,將計(jì)算 出的相似度與闊值進(jìn)行一一對(duì)比,得出查重結(jié)論。
[0010] 與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是: 本發(fā)明是一種基于領(lǐng)域本體和詞序特征的項(xiàng)目查重方法,根據(jù)歷年的科技項(xiàng)目立項(xiàng)信 息構(gòu)建領(lǐng)域本體,然后對(duì)新申報(bào)的項(xiàng)目信息跟已有的項(xiàng)目信息進(jìn)行相似度比較,進(jìn)行中文 分詞、去停用詞等一系列操作后,提取出關(guān)鍵特征詞匯,對(duì)每個(gè)文本的關(guān)鍵特征詞分別構(gòu)建 最長(zhǎng)公共序列并計(jì)算特征詞的詞序因子,將詞序因子引入領(lǐng)域本體的概念相似度計(jì)算,可 得出每個(gè)特征詞的相似度值進(jìn)而進(jìn)行相似度評(píng)價(jià)從而得出查重結(jié)論,本發(fā)明方法在現(xiàn)有的 中文文本詞序相似度計(jì)算方法上結(jié)合了領(lǐng)域本體處理即語義相似度和時(shí)序因子相結(jié)合,相 似度計(jì)算效果將更佳。
【附圖說明】
[0011 ]圖巧本發(fā)明方法的流程圖; 圖2為本發(fā)明方法在現(xiàn)有技術(shù)上的增加技術(shù)的示意框圖。
【具體實(shí)施方式】
[0012] 附圖僅用于示例性說明,不能理解為對(duì)本專利的限制; 為了更好說明本實(shí)施例,附圖某些部件會(huì)有省略、放大或縮小,并不代表實(shí)際產(chǎn)品的尺 寸; 對(duì)于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可W理解的。
[0013] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的說明。
[0014] 實(shí)施例1 如圖1所示,一種面向科技大數(shù)據(jù)的項(xiàng)目查重方法,包括W下步驟: S1:利用歷年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)構(gòu)建領(lǐng)域本體; S2:對(duì)歷年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)進(jìn)行中文分詞后再進(jìn)行去停用操作,提取出歷年 的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞,對(duì)每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞構(gòu)建最長(zhǎng) 公共序列來計(jì)算其特征詞的詞序因子; S3:對(duì)待查重的新申請(qǐng)項(xiàng)目進(jìn)行中文分詞后再進(jìn)行去停用操作,提取出該項(xiàng)目立項(xiàng)信 息數(shù)據(jù)的特征詞,對(duì)該項(xiàng)目立項(xiàng)信息數(shù)據(jù)的特征詞構(gòu)建最長(zhǎng)公共序列來計(jì)算其特征詞的詞 序因子; S4:將待查重的新申請(qǐng)項(xiàng)目的詞序因子和每一年的科技項(xiàng)目立項(xiàng)信息數(shù)據(jù)的詞序因子 引入領(lǐng)域本體中概念相似度計(jì)算得出查重結(jié)論。
[001引本發(fā)明中,根據(jù)歷年的科技項(xiàng)目立項(xiàng)信息構(gòu)建領(lǐng)域本體,然后對(duì)新申報(bào)的項(xiàng)目信 息跟已有的項(xiàng)目信息進(jìn)行相似度比較,進(jìn)行中文分詞、去停用詞等一系列操作后,提取出關(guān) 鍵特征詞匯,對(duì)每個(gè)文本的關(guān)鍵特征詞分別構(gòu)建最長(zhǎng)公共序列并計(jì)算特征詞的詞序因子, 將詞序因子引入領(lǐng)域本體的概念相似度計(jì)算,可得出每個(gè)特征詞的相似度值進(jìn)而進(jìn)行相似 度評(píng)價(jià)從而得出查重結(jié)論,如圖2所示,本發(fā)明方法在現(xiàn)有的中文文本詞序相似度計(jì)算方法 上增加了領(lǐng)域本體的