本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于專(zhuān)利引文的新興技術(shù)識(shí)別方法。
背景技術(shù):
當(dāng)今世界,科技的發(fā)展已經(jīng)進(jìn)入到了一個(gè)前所未有的時(shí)代。新興技術(shù)發(fā)展勢(shì)頭強(qiáng)勁,進(jìn)步速度迅猛,技術(shù)類(lèi)型層出不窮。新興技術(shù)是新技術(shù)的一部分,反過(guò)來(lái),新技術(shù)就不一定屬于新興技術(shù),正因如此,在所有新技術(shù)中對(duì)新興技術(shù)進(jìn)行有效識(shí)別就顯得至關(guān)重要,它將直接關(guān)乎到我們的經(jīng)濟(jì)、科技的發(fā)展速度。隨著社會(huì)發(fā)展與科技進(jìn)步,各領(lǐng)域里大量的新興技術(shù)如雨后春筍般涌現(xiàn)出來(lái)。但是真正能夠進(jìn)入市場(chǎng)并產(chǎn)生較大社會(huì)影響的卻是寥寥無(wú)幾,因而,誰(shuí)能率先識(shí)別并應(yīng)用這些技術(shù)指導(dǎo)生產(chǎn)實(shí)踐,誰(shuí)就能在競(jìng)爭(zhēng)中脫穎而出,從而引領(lǐng)群雄。隨著社會(huì)的發(fā)展,新興技術(shù)識(shí)別的手段和方法越來(lái)越多,復(fù)雜性也越來(lái)越高,識(shí)別難度也在逐步增大。
識(shí)別方法主要分為主觀識(shí)別方法和基于文獻(xiàn)的識(shí)別方法。最早的新興技術(shù)識(shí)別方法主要采用專(zhuān)家討論的形式來(lái)實(shí)現(xiàn),此方法比較便捷,主觀方法取決于專(zhuān)家的個(gè)人經(jīng)驗(yàn)和能力,存在追隨權(quán)威和隨眾現(xiàn)象,以及缺乏客觀評(píng)價(jià)標(biāo)準(zhǔn)等弊端。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們收集處理數(shù)據(jù)能力越來(lái)越強(qiáng)?;谖墨I(xiàn)的新興技術(shù)識(shí)別方法成為主要的研究趨勢(shì)。依據(jù)文獻(xiàn)來(lái)源分為基于非專(zhuān)利文獻(xiàn)與專(zhuān)利文獻(xiàn)測(cè)新興技術(shù)識(shí)別方法。主要采用文本聚類(lèi)技術(shù)、主題提取、共詞分析、網(wǎng)絡(luò)演化等方法對(duì)新興技術(shù)的識(shí)別進(jìn)行實(shí)證研究,利用這些方法來(lái)識(shí)別新興技術(shù)。通過(guò)從這些文獻(xiàn)中抽取特征詞來(lái)構(gòu)成實(shí)體,然后在構(gòu)建識(shí)別模型,在一定程度上降低了主觀性的影響,但是特征詞抽取的難度較大,而且會(huì)造成信息損失。
在新興技術(shù)識(shí)別中,目標(biāo)技術(shù)和新興技術(shù)的依賴(lài)性起到了關(guān)鍵的作用,并且技術(shù)發(fā)展越快,新興技術(shù)的作用就越突出。正因如此,在所有新技術(shù)中對(duì)新興技術(shù)進(jìn)行有效識(shí)別就顯得至關(guān)重要,它將直接關(guān)乎到中國(guó)的經(jīng)濟(jì)、科技的發(fā)展速度。隨著社會(huì)的全面發(fā)展,各大領(lǐng)域里的新興技術(shù)快速的涌現(xiàn)出來(lái)。但是真正能夠進(jìn)入市場(chǎng)并產(chǎn)生較大社會(huì)影響的卻是寥寥無(wú)幾,因而,誰(shuí)能率先識(shí)別并應(yīng)用這些技術(shù)指導(dǎo)生產(chǎn)實(shí)踐,誰(shuí)就能在競(jìng)爭(zhēng)中脫穎而出,從而引領(lǐng)群雄。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明通過(guò)對(duì)特征化處理的引文數(shù)據(jù)進(jìn)行新興技術(shù)標(biāo)注與識(shí)別。采用聚類(lèi)方法對(duì)特征化的引文信息進(jìn)行聚類(lèi),將相似特征信息的專(zhuān)利數(shù)據(jù)劃分到同一個(gè)聚族,再利用往年的新興技術(shù)與專(zhuān)利分類(lèi)號(hào)得關(guān)系對(duì)聚族進(jìn)行新興技術(shù)標(biāo)注,利用標(biāo)注的數(shù)據(jù)訓(xùn)練分類(lèi)器,將新興技術(shù)的識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)分類(lèi)問(wèn)題。
基于專(zhuān)利引文的新興技術(shù)識(shí)別方法,所述方法包括以下步驟:
s1特征化用于訓(xùn)練的引文數(shù)據(jù)庫(kù);
s2將在t+1年公布的每一項(xiàng)專(zhuān)利依據(jù)其主分類(lèi)號(hào)進(jìn)行分組,將分組記為gy;
s3如果該主分類(lèi)號(hào)是t+1年新建立的,將gy標(biāo)注為新技術(shù)分組,否則記為非新技術(shù)分組;
s4對(duì)于t年中所有專(zhuān)利根據(jù)專(zhuān)利引文特征向量進(jìn)行聚類(lèi),將聚簇記為cx;
s5對(duì)于t年的任一
s6找到與
s7如果
s8循環(huán)步驟4,直至t年所有的聚簇cx被標(biāo)記完畢;
s9循環(huán)步驟1,直至專(zhuān)利數(shù)據(jù)除了年份最大的其他專(zhuān)利都完成聚類(lèi)與標(biāo)注;
s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器;
s11使用該分類(lèi)器判定基于專(zhuān)利引文特征向量的聚簇是否為新興技術(shù)。
所述步驟s1中,特征化引文數(shù)據(jù)庫(kù)是指引文數(shù)據(jù)表達(dá)(或者特征)的選擇,既抽取引文或?qū)@募牟糠种笜?biāo)數(shù)據(jù)作為特征數(shù)據(jù),多個(gè)特征數(shù)據(jù)構(gòu)成特征向量,例如選取權(quán)利要求項(xiàng)數(shù)、引文總數(shù)量、非專(zhuān)利文獻(xiàn)引文數(shù)量、專(zhuān)利分類(lèi)號(hào)、技術(shù)生命周期、被引技術(shù)的相似性指數(shù)、被引技術(shù)所有者平均相似性指數(shù)等作為特征向量。
所述步驟s5中,專(zhuān)利同引的耦合度是指聚簇cx和gy的文獻(xiàn)耦合相似度(bcs),計(jì)算公式為:
本發(fā)明的技術(shù)效果或優(yōu)點(diǎn):
相比現(xiàn)有的技術(shù)方案,本發(fā)明提出的基于專(zhuān)利引文分析的新興技術(shù)識(shí)別方法可以降低現(xiàn)有識(shí)別方法的主觀性,簡(jiǎn)化了特征提取的復(fù)雜度,可以客觀快速的對(duì)專(zhuān)利數(shù)據(jù)進(jìn)行新興技術(shù)標(biāo)注,這些標(biāo)注數(shù)據(jù)可以用于訓(xùn)練各種分類(lèi)器,因此該方法具有良好的可擴(kuò)展性,可以高效迅速準(zhǔn)確的預(yù)測(cè)新興技術(shù)。
附圖說(shuō)明
圖1是基于專(zhuān)利引文的新興技術(shù)識(shí)別方法流程圖。
圖2是深度神經(jīng)網(wǎng)絡(luò)分類(lèi)器的系統(tǒng)結(jié)構(gòu)圖
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式做進(jìn)一步描述。
基于專(zhuān)利引文的新興技術(shù)識(shí)別方法,如圖1所示,所述方法包括以下步驟:
s1特征化用于訓(xùn)練的引文數(shù)據(jù)庫(kù);
s2將在t+1年公布的每一項(xiàng)專(zhuān)利依據(jù)其主分類(lèi)號(hào)進(jìn)行分組,將分組記為gy;
s3如果該主分類(lèi)號(hào)是t+1年新建立的,將gy標(biāo)注為新技術(shù)分組,否則記為非新技術(shù)分組;
s4對(duì)于t年中所有專(zhuān)利根據(jù)專(zhuān)利引文特征向量進(jìn)行聚類(lèi),將聚簇記為cx;
s5對(duì)于t年的任一
s6找到與
s7如果
s8循環(huán)步驟4,直至t年所有的聚簇cx被標(biāo)記完畢;
s9循環(huán)步驟1,直至專(zhuān)利數(shù)據(jù)除了年份最大的其他專(zhuān)利都完成聚類(lèi)與標(biāo)注;
s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器;
s11使用該分類(lèi)器判定基于專(zhuān)利引文特征向量的聚簇是否為新興技術(shù)。
在步驟s1中,特征化引文數(shù)據(jù)庫(kù)是指引文數(shù)據(jù)表達(dá)(或者特征)的選擇,既抽取引文或?qū)@募牟糠种笜?biāo)數(shù)據(jù)作為特征數(shù)據(jù),多個(gè)特征數(shù)據(jù)構(gòu)成特征向量。在本實(shí)施例中采用如下特征數(shù)據(jù):
1)權(quán)利要求項(xiàng)數(shù);2)引文總數(shù)量;3)非專(zhuān)利文獻(xiàn)引文數(shù)量;4)專(zhuān)利分類(lèi)號(hào);5)技術(shù)生命周期,本實(shí)施例中采用如下計(jì)算公式:
其中
6)被引技術(shù)的相似性指數(shù)(ctsi)專(zhuān)利分類(lèi)系統(tǒng)對(duì)不同領(lǐng)域的技術(shù)進(jìn)行了劃分。大類(lèi)只是限定了大概的領(lǐng)域,而小類(lèi)才會(huì)給出更具體的領(lǐng)域,在實(shí)際中往往是采用大類(lèi)和小類(lèi)相結(jié)合來(lái)共同構(gòu)成專(zhuān)利的分類(lèi)號(hào)。本實(shí)施例采用如下的計(jì)算公式:
下面給出用于兩個(gè)主分類(lèi)號(hào)之間相似性計(jì)算的公式:
這里
最后,再來(lái)計(jì)算第x篇專(zhuān)利的被引技術(shù)相似性指數(shù),指標(biāo)的計(jì)算公式如下:
此處,
7)被引技術(shù)所有者平均相似性指數(shù)(casi)。一項(xiàng)專(zhuān)利通常情況下有一個(gè)或多個(gè)專(zhuān)利權(quán)人,采取下面的公式計(jì)算兩項(xiàng)技術(shù)的專(zhuān)利權(quán)人相似性指標(biāo):
其中
這里
在步驟s4中,對(duì)專(zhuān)利引文數(shù)據(jù)進(jìn)行特征化后進(jìn)行聚類(lèi)操作,在本實(shí)施例中結(jié)合兩種聚類(lèi)算法和美國(guó)專(zhuān)利分類(lèi)體系的優(yōu)勢(shì)來(lái)設(shè)計(jì)聚類(lèi)步驟。首先,使用dbscan聚類(lèi)算法按不同的年份對(duì)引文數(shù)據(jù)進(jìn)行聚類(lèi),得到該數(shù)據(jù)集的聚簇類(lèi)別數(shù)k1,然后考慮美國(guó)專(zhuān)利分類(lèi)體系中的大類(lèi)數(shù)目為450,這樣就可以得到兩個(gè)聚類(lèi)的數(shù)目,為了減少誤差,最終取這兩個(gè)類(lèi)別數(shù)的平均值,即k=(k1+450)/2,并向上取整。這樣得到的這個(gè)k就更加接近真實(shí)的類(lèi)別數(shù),然后將k值帶入k-means聚類(lèi)算法,按不同年份對(duì)引文數(shù)據(jù)進(jìn)行聚類(lèi)。
在步驟s5中專(zhuān)利同引的耦合度是指聚簇cx和gy的文獻(xiàn)耦合相似度(bcs),在本實(shí)施例中采用以下計(jì)算公式:
在步驟s10采用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)器,在本實(shí)施例中采用深度神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器。如圖2所示,該分類(lèi)器可分為四層,如圖所示第一層是輸入層,本層需要對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,形成統(tǒng)一格式的數(shù)據(jù)矩陣;然后就是深度神經(jīng)網(wǎng)絡(luò)層,該層由3層rbm堆疊而成,主要功能就是對(duì)數(shù)據(jù)進(jìn)行重構(gòu),自動(dòng)提取出合適的特征;接下來(lái)是分類(lèi)器所在的決策層,該層使用logisticregression算法來(lái)設(shè)計(jì)分類(lèi)器,然后再對(duì)分類(lèi)結(jié)果應(yīng)用softmax算法進(jìn)行概率轉(zhuǎn)換。將結(jié)果中概率較大的所對(duì)應(yīng)的下標(biāo)作為分類(lèi)結(jié)果,因?yàn)樵诸?lèi)結(jié)果只有兩個(gè)維度,因此最終的分類(lèi)結(jié)果只有0或者1,0代表非新興技術(shù),1代表新興技術(shù)。
本實(shí)施例中選取rbm算法作為深度信念網(wǎng)絡(luò)各層之間的重構(gòu)算法。信念網(wǎng)絡(luò)里面各層之間rbm調(diào)節(jié)的主要通過(guò)多個(gè)隱含層的相互轉(zhuǎn)化,從而為rbm內(nèi)部的參數(shù)調(diào)節(jié)提供訓(xùn)練目標(biāo),通過(guò)降低重構(gòu)矩陣與原矩陣的差異來(lái)達(dá)到調(diào)節(jié)rbm參數(shù)的最終目標(biāo)。對(duì)于rbm的參數(shù)學(xué)習(xí)采用對(duì)數(shù)似然度極大化的思想來(lái)獲取rbm算法中參數(shù)
為了獲得最優(yōu)參數(shù),可以使用隨機(jī)梯度上升法,其中關(guān)鍵步驟是計(jì)算關(guān)于各個(gè)模型參數(shù)的偏導(dǎo)數(shù)。由式2.1可以求出求關(guān)于分布p的均值。
深度模型的反饋微調(diào)主要通過(guò)三個(gè)過(guò)程來(lái)實(shí)現(xiàn):加載參數(shù)、構(gòu)造數(shù)據(jù)矩陣、循環(huán)調(diào)節(jié)。其中前兩個(gè)過(guò)程主要是在完成整個(gè)深度模型前期的準(zhǔn)備工作,而循環(huán)調(diào)節(jié)過(guò)程才是整個(gè)深度模型反饋調(diào)節(jié)機(jī)制的核心。隨層次增加,深度表示的維度也在逐漸變化,在反饋微調(diào)階段,先通過(guò)識(shí)別模型自底向上進(jìn)行轉(zhuǎn)換,到了最上層之后,再進(jìn)行自頂向下的生成模型的轉(zhuǎn)換,從而生成對(duì)各個(gè)層次的重構(gòu)展現(xiàn)。最后通過(guò)對(duì)原始表示和重構(gòu)表示的不斷優(yōu)化調(diào)節(jié),從而來(lái)實(shí)現(xiàn)兩者的誤差最小化。
本實(shí)施例中采用bp算法對(duì)自底向上的識(shí)別模型和自頂向下的生成模型相結(jié)合的方式來(lái)進(jìn)行微調(diào)。經(jīng)過(guò)網(wǎng)絡(luò)的識(shí)別模型,本文可以近似得到深度模型對(duì)輸入數(shù)據(jù)最初的各個(gè)層次上的表示形式,并得到一個(gè)深度模型對(duì)樣本最高層次的抽象表示形式,通過(guò)該生成模型,本文可以從模型的最高層次表示形式出發(fā),重構(gòu)展示深度模型對(duì)樣本數(shù)據(jù)的各個(gè)層次的表示,這樣就可以為原來(lái)的每個(gè)層級(jí)的訓(xùn)練提供優(yōu)化目標(biāo)。經(jīng)過(guò)各個(gè)層次的不斷調(diào)節(jié),生成模型就可以重構(gòu)出具有較低誤差的訓(xùn)練樣本,通過(guò)以上步驟模型可以自動(dòng)學(xué)習(xí)出原樣本的數(shù)據(jù)特征,即最高層次的抽象表示形式。
上面是本發(fā)明提供的基于專(zhuān)利引文的新興技術(shù)識(shí)別方法優(yōu)選實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明的保護(hù)權(quán)限,任何在本發(fā)明上的改進(jìn),只要原理相同,都包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。