一種基于專(zhuān)利引文的新興技術(shù)識(shí)別方法與流程

文檔序號(hào)：11199289閱讀：465來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域，具體涉及一種基于專(zhuān)利引文的新興技術(shù)識(shí)別方法。

背景技術(shù)：

當(dāng)今世界，科技的發(fā)展已經(jīng)進(jìn)入到了一個(gè)前所未有的時(shí)代。新興技術(shù)發(fā)展勢(shì)頭強(qiáng)勁，進(jìn)步速度迅猛，技術(shù)類(lèi)型層出不窮。新興技術(shù)是新技術(shù)的一部分，反過(guò)來(lái)，新技術(shù)就不一定屬于新興技術(shù)，正因如此，在所有新技術(shù)中對(duì)新興技術(shù)進(jìn)行有效識(shí)別就顯得至關(guān)重要，它將直接關(guān)乎到我們的經(jīng)濟(jì)、科技的發(fā)展速度。隨著社會(huì)發(fā)展與科技進(jìn)步，各領(lǐng)域里大量的新興技術(shù)如雨后春筍般涌現(xiàn)出來(lái)。但是真正能夠進(jìn)入市場(chǎng)并產(chǎn)生較大社會(huì)影響的卻是寥寥無(wú)幾，因而，誰(shuí)能率先識(shí)別并應(yīng)用這些技術(shù)指導(dǎo)生產(chǎn)實(shí)踐，誰(shuí)就能在競(jìng)爭(zhēng)中脫穎而出，從而引領(lǐng)群雄。隨著社會(huì)的發(fā)展，新興技術(shù)識(shí)別的手段和方法越來(lái)越多，復(fù)雜性也越來(lái)越高，識(shí)別難度也在逐步增大。

識(shí)別方法主要分為主觀識(shí)別方法和基于文獻(xiàn)的識(shí)別方法。最早的新興技術(shù)識(shí)別方法主要采用專(zhuān)家討論的形式來(lái)實(shí)現(xiàn)，此方法比較便捷，主觀方法取決于專(zhuān)家的個(gè)人經(jīng)驗(yàn)和能力，存在追隨權(quán)威和隨眾現(xiàn)象，以及缺乏客觀評(píng)價(jià)標(biāo)準(zhǔn)等弊端。隨著計(jì)算機(jī)技術(shù)的發(fā)展，人們收集處理數(shù)據(jù)能力越來(lái)越強(qiáng)?；谖墨I(xiàn)的新興技術(shù)識(shí)別方法成為主要的研究趨勢(shì)。依據(jù)文獻(xiàn)來(lái)源分為基于非專(zhuān)利文獻(xiàn)與專(zhuān)利文獻(xiàn)測(cè)新興技術(shù)識(shí)別方法。主要采用文本聚類(lèi)技術(shù)、主題提取、共詞分析、網(wǎng)絡(luò)演化等方法對(duì)新興技術(shù)的識(shí)別進(jìn)行實(shí)證研究，利用這些方法來(lái)識(shí)別新興技術(shù)。通過(guò)從這些文獻(xiàn)中抽取特征詞來(lái)構(gòu)成實(shí)體，然后在構(gòu)建識(shí)別模型，在一定程度上降低了主觀性的影響，但是特征詞抽取的難度較大，而且會(huì)造成信息損失。

在新興技術(shù)識(shí)別中，目標(biāo)技術(shù)和新興技術(shù)的依賴(lài)性起到了關(guān)鍵的作用，并且技術(shù)發(fā)展越快，新興技術(shù)的作用就越突出。正因如此，在所有新技術(shù)中對(duì)新興技術(shù)進(jìn)行有效識(shí)別就顯得至關(guān)重要，它將直接關(guān)乎到中國(guó)的經(jīng)濟(jì)、科技的發(fā)展速度。隨著社會(huì)的全面發(fā)展，各大領(lǐng)域里的新興技術(shù)快速的涌現(xiàn)出來(lái)。但是真正能夠進(jìn)入市場(chǎng)并產(chǎn)生較大社會(huì)影響的卻是寥寥無(wú)幾，因而，誰(shuí)能率先識(shí)別并應(yīng)用這些技術(shù)指導(dǎo)生產(chǎn)實(shí)踐，誰(shuí)就能在競(jìng)爭(zhēng)中脫穎而出，從而引領(lǐng)群雄。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明通過(guò)對(duì)特征化處理的引文數(shù)據(jù)進(jìn)行新興技術(shù)標(biāo)注與識(shí)別。采用聚類(lèi)方法對(duì)特征化的引文信息進(jìn)行聚類(lèi)，將相似特征信息的專(zhuān)利數(shù)據(jù)劃分到同一個(gè)聚族，再利用往年的新興技術(shù)與專(zhuān)利分類(lèi)號(hào)得關(guān)系對(duì)聚族進(jìn)行新興技術(shù)標(biāo)注，利用標(biāo)注的數(shù)據(jù)訓(xùn)練分類(lèi)器，將新興技術(shù)的識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)分類(lèi)問(wèn)題。

基于專(zhuān)利引文的新興技術(shù)識(shí)別方法，所述方法包括以下步驟：

s1特征化用于訓(xùn)練的引文數(shù)據(jù)庫(kù)；

s2將在t+1年公布的每一項(xiàng)專(zhuān)利依據(jù)其主分類(lèi)號(hào)進(jìn)行分組，將分組記為gy；

s3如果該主分類(lèi)號(hào)是t+1年新建立的，將gy標(biāo)注為新技術(shù)分組，否則記為非新技術(shù)分組；

s4對(duì)于t年中所有專(zhuān)利根據(jù)專(zhuān)利引文特征向量進(jìn)行聚類(lèi)，將聚簇記為cx；

s5對(duì)于t年的任一計(jì)算與t+1年所有分組cy的專(zhuān)利同引的耦合度；

s6找到與專(zhuān)利同引的耦合度最高的分組；

s7如果為新興技術(shù)分組，將聚簇標(biāo)記為新興技術(shù)，否則標(biāo)記為非新型技術(shù)；

s8循環(huán)步驟4，直至t年所有的聚簇cx被標(biāo)記完畢；

s9循環(huán)步驟1，直至專(zhuān)利數(shù)據(jù)除了年份最大的其他專(zhuān)利都完成聚類(lèi)與標(biāo)注；

s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器；

s11使用該分類(lèi)器判定基于專(zhuān)利引文特征向量的聚簇是否為新興技術(shù)。

所述步驟s1中，特征化引文數(shù)據(jù)庫(kù)是指引文數(shù)據(jù)表達(dá)（或者特征）的選擇，既抽取引文或?qū)＠募牟糠种笜?biāo)數(shù)據(jù)作為特征數(shù)據(jù)，多個(gè)特征數(shù)據(jù)構(gòu)成特征向量，例如選取權(quán)利要求項(xiàng)數(shù)、引文總數(shù)量、非專(zhuān)利文獻(xiàn)引文數(shù)量、專(zhuān)利分類(lèi)號(hào)、技術(shù)生命周期、被引技術(shù)的相似性指數(shù)、被引技術(shù)所有者平均相似性指數(shù)等作為特征向量。

所述步驟s5中，專(zhuān)利同引的耦合度是指聚簇cx和gy的文獻(xiàn)耦合相似度（bcs），計(jì)算公式為：

本發(fā)明的技術(shù)效果或優(yōu)點(diǎn)：

相比現(xiàn)有的技術(shù)方案，本發(fā)明提出的基于專(zhuān)利引文分析的新興技術(shù)識(shí)別方法可以降低現(xiàn)有識(shí)別方法的主觀性，簡(jiǎn)化了特征提取的復(fù)雜度，可以客觀快速的對(duì)專(zhuān)利數(shù)據(jù)進(jìn)行新興技術(shù)標(biāo)注，這些標(biāo)注數(shù)據(jù)可以用于訓(xùn)練各種分類(lèi)器，因此該方法具有良好的可擴(kuò)展性，可以高效迅速準(zhǔn)確的預(yù)測(cè)新興技術(shù)。

附圖說(shuō)明

圖1是基于專(zhuān)利引文的新興技術(shù)識(shí)別方法流程圖。

圖2是深度神經(jīng)網(wǎng)絡(luò)分類(lèi)器的系統(tǒng)結(jié)構(gòu)圖

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明的具體實(shí)施方式做進(jìn)一步描述。

基于專(zhuān)利引文的新興技術(shù)識(shí)別方法，如圖1所示，所述方法包括以下步驟：

s1特征化用于訓(xùn)練的引文數(shù)據(jù)庫(kù)；

s2將在t+1年公布的每一項(xiàng)專(zhuān)利依據(jù)其主分類(lèi)號(hào)進(jìn)行分組，將分組記為gy；

s3如果該主分類(lèi)號(hào)是t+1年新建立的，將gy標(biāo)注為新技術(shù)分組，否則記為非新技術(shù)分組；

s4對(duì)于t年中所有專(zhuān)利根據(jù)專(zhuān)利引文特征向量進(jìn)行聚類(lèi)，將聚簇記為cx；

s5對(duì)于t年的任一計(jì)算與t+1年所有分組cy的專(zhuān)利同引的耦合度；

s6找到與專(zhuān)利同引的耦合度最高的分組；

s7如果為新興技術(shù)分組，將聚簇標(biāo)記為新興技術(shù)，否則標(biāo)記為非新型技術(shù)；

s8循環(huán)步驟4，直至t年所有的聚簇cx被標(biāo)記完畢；

s9循環(huán)步驟1，直至專(zhuān)利數(shù)據(jù)除了年份最大的其他專(zhuān)利都完成聚類(lèi)與標(biāo)注；

s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器；

s11使用該分類(lèi)器判定基于專(zhuān)利引文特征向量的聚簇是否為新興技術(shù)。

在步驟s1中，特征化引文數(shù)據(jù)庫(kù)是指引文數(shù)據(jù)表達(dá)（或者特征）的選擇，既抽取引文或?qū)＠募牟糠种笜?biāo)數(shù)據(jù)作為特征數(shù)據(jù)，多個(gè)特征數(shù)據(jù)構(gòu)成特征向量。在本實(shí)施例中采用如下特征數(shù)據(jù)：

1）權(quán)利要求項(xiàng)數(shù)；2）引文總數(shù)量；3）非專(zhuān)利文獻(xiàn)引文數(shù)量；4）專(zhuān)利分類(lèi)號(hào)；5）技術(shù)生命周期，本實(shí)施例中采用如下計(jì)算公式：

其中是第i篇專(zhuān)利申請(qǐng)日期，是第i篇專(zhuān)利引用的第j篇專(zhuān)利的申請(qǐng)日期；

6）被引技術(shù)的相似性指數(shù)(ctsi)專(zhuān)利分類(lèi)系統(tǒng)對(duì)不同領(lǐng)域的技術(shù)進(jìn)行了劃分。大類(lèi)只是限定了大概的領(lǐng)域，而小類(lèi)才會(huì)給出更具體的領(lǐng)域，在實(shí)際中往往是采用大類(lèi)和小類(lèi)相結(jié)合來(lái)共同構(gòu)成專(zhuān)利的分類(lèi)號(hào)。本實(shí)施例采用如下的計(jì)算公式：

下面給出用于兩個(gè)主分類(lèi)號(hào)之間相似性計(jì)算的公式：

如果一項(xiàng)專(zhuān)利往往擁有幾項(xiàng)分類(lèi)號(hào)，因此需要求出兩項(xiàng)專(zhuān)利分類(lèi)號(hào)之間的平均相似度()，以下是的表達(dá)式：

這里表示專(zhuān)利p和專(zhuān)利q各自所擁有的分類(lèi)號(hào)的數(shù)量。

最后，再來(lái)計(jì)算第x篇專(zhuān)利的被引技術(shù)相似性指數(shù)，指標(biāo)的計(jì)算公式如下：

此處，是引用的專(zhuān)利總數(shù)，是被x引用的第n項(xiàng)專(zhuān)利；

7）被引技術(shù)所有者平均相似性指數(shù)(casi)。一項(xiàng)專(zhuān)利通常情況下有一個(gè)或多個(gè)專(zhuān)利權(quán)人，采取下面的公式計(jì)算兩項(xiàng)技術(shù)的專(zhuān)利權(quán)人相似性指標(biāo)：

其中

這里是專(zhuān)利p和專(zhuān)利q各自的專(zhuān)利權(quán)人的數(shù)量，

。

在步驟s4中，對(duì)專(zhuān)利引文數(shù)據(jù)進(jìn)行特征化后進(jìn)行聚類(lèi)操作，在本實(shí)施例中結(jié)合兩種聚類(lèi)算法和美國(guó)專(zhuān)利分類(lèi)體系的優(yōu)勢(shì)來(lái)設(shè)計(jì)聚類(lèi)步驟。首先，使用dbscan聚類(lèi)算法按不同的年份對(duì)引文數(shù)據(jù)進(jìn)行聚類(lèi)，得到該數(shù)據(jù)集的聚簇類(lèi)別數(shù)k1，然后考慮美國(guó)專(zhuān)利分類(lèi)體系中的大類(lèi)數(shù)目為450，這樣就可以得到兩個(gè)聚類(lèi)的數(shù)目，為了減少誤差，最終取這兩個(gè)類(lèi)別數(shù)的平均值，即k=（k1+450）/2，并向上取整。這樣得到的這個(gè)k就更加接近真實(shí)的類(lèi)別數(shù)，然后將k值帶入k-means聚類(lèi)算法，按不同年份對(duì)引文數(shù)據(jù)進(jìn)行聚類(lèi)。

在步驟s5中專(zhuān)利同引的耦合度是指聚簇cx和gy的文獻(xiàn)耦合相似度（bcs），在本實(shí)施例中采用以下計(jì)算公式：

在步驟s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器，在本實(shí)施例中采用深度神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器。如圖2所示，該分類(lèi)器可分為四層，如圖所示第一層是輸入層，本層需要對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理，形成統(tǒng)一格式的數(shù)據(jù)矩陣；然后就是深度神經(jīng)網(wǎng)絡(luò)層，該層由3層rbm堆疊而成，主要功能就是對(duì)數(shù)據(jù)進(jìn)行重構(gòu)，自動(dòng)提取出合適的特征；接下來(lái)是分類(lèi)器所在的決策層，該層使用logisticregression算法來(lái)設(shè)計(jì)分類(lèi)器，然后再對(duì)分類(lèi)結(jié)果應(yīng)用softmax算法進(jìn)行概率轉(zhuǎn)換。將結(jié)果中概率較大的所對(duì)應(yīng)的下標(biāo)作為分類(lèi)結(jié)果，因?yàn)樵诸?lèi)結(jié)果只有兩個(gè)維度，因此最終的分類(lèi)結(jié)果只有0或者1，0代表非新興技術(shù)，1代表新興技術(shù)。

本實(shí)施例中選取rbm算法作為深度信念網(wǎng)絡(luò)各層之間的重構(gòu)算法。信念網(wǎng)絡(luò)里面各層之間rbm調(diào)節(jié)的主要通過(guò)多個(gè)隱含層的相互轉(zhuǎn)化，從而為rbm內(nèi)部的參數(shù)調(diào)節(jié)提供訓(xùn)練目標(biāo)，通過(guò)降低重構(gòu)矩陣與原矩陣的差異來(lái)達(dá)到調(diào)節(jié)rbm參數(shù)的最終目標(biāo)。對(duì)于rbm的參數(shù)學(xué)習(xí)采用對(duì)數(shù)似然度極大化的思想來(lái)獲取rbm算法中參數(shù)，的表達(dá)式定義如下：

為了獲得最優(yōu)參數(shù)，可以使用隨機(jī)梯度上升法，其中關(guān)鍵步驟是計(jì)算關(guān)于各個(gè)模型參數(shù)的偏導(dǎo)數(shù)。由式2.1可以求出求關(guān)于分布p的均值。

深度模型的反饋微調(diào)主要通過(guò)三個(gè)過(guò)程來(lái)實(shí)現(xiàn)：加載參數(shù)、構(gòu)造數(shù)據(jù)矩陣、循環(huán)調(diào)節(jié)。其中前兩個(gè)過(guò)程主要是在完成整個(gè)深度模型前期的準(zhǔn)備工作，而循環(huán)調(diào)節(jié)過(guò)程才是整個(gè)深度模型反饋調(diào)節(jié)機(jī)制的核心。隨層次增加，深度表示的維度也在逐漸變化，在反饋微調(diào)階段，先通過(guò)識(shí)別模型自底向上進(jìn)行轉(zhuǎn)換，到了最上層之后，再進(jìn)行自頂向下的生成模型的轉(zhuǎn)換，從而生成對(duì)各個(gè)層次的重構(gòu)展現(xiàn)。最后通過(guò)對(duì)原始表示和重構(gòu)表示的不斷優(yōu)化調(diào)節(jié)，從而來(lái)實(shí)現(xiàn)兩者的誤差最小化。

本實(shí)施例中采用bp算法對(duì)自底向上的識(shí)別模型和自頂向下的生成模型相結(jié)合的方式來(lái)進(jìn)行微調(diào)。經(jīng)過(guò)網(wǎng)絡(luò)的識(shí)別模型，本文可以近似得到深度模型對(duì)輸入數(shù)據(jù)最初的各個(gè)層次上的表示形式，并得到一個(gè)深度模型對(duì)樣本最高層次的抽象表示形式，通過(guò)該生成模型，本文可以從模型的最高層次表示形式出發(fā)，重構(gòu)展示深度模型對(duì)樣本數(shù)據(jù)的各個(gè)層次的表示，這樣就可以為原來(lái)的每個(gè)層級(jí)的訓(xùn)練提供優(yōu)化目標(biāo)。經(jīng)過(guò)各個(gè)層次的不斷調(diào)節(jié)，生成模型就可以重構(gòu)出具有較低誤差的訓(xùn)練樣本，通過(guò)以上步驟模型可以自動(dòng)學(xué)習(xí)出原樣本的數(shù)據(jù)特征，即最高層次的抽象表示形式。

上面是本發(fā)明提供的基于專(zhuān)利引文的新興技術(shù)識(shí)別方法優(yōu)選實(shí)施方式，并不構(gòu)成對(duì)本發(fā)明的保護(hù)權(quán)限，任何在本發(fā)明上的改進(jìn)，只要原理相同，都包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程戈;歐陽(yáng)建權(quán);周金海;何春輝
技術(shù)所有人：湘潭大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于專(zhuān)利引文的新興技術(shù)識(shí)別方法與流程