本發(fā)明涉及一種文本信息的創(chuàng)新度評估方法。
背景技術(shù):
隨著信息技術(shù)的不斷進(jìn)步與發(fā)展,使得人們可以輕易而快速的獲取大量的文獻(xiàn)來滿足人們閱讀與學(xué)習(xí)的需求。目前對于各種各樣的文獻(xiàn)的創(chuàng)新度卻無法正確衡量。
例如專利等的創(chuàng)新度,還是依靠人力來進(jìn)行檢索、分析,需要對人員進(jìn)行專業(yè)的培訓(xùn),并且人員進(jìn)行檢索和創(chuàng)新度評價的速度比較緩慢且需要不同級別的審核、補(bǔ)充檢索,面對目前大量的文獻(xiàn)資料,審查人員的壓力較大且有可能耽誤審查進(jìn)度,造成授權(quán)延后,復(fù)審和無效事項較多。
另外,企業(yè)在進(jìn)行創(chuàng)新工作時,應(yīng)用大數(shù)據(jù)作為分析和計劃的基礎(chǔ),需要分辨和查看分析有價值的數(shù)據(jù)。而如何衡量一篇文獻(xiàn)的價值,是一個非常困難的事情,之前人們經(jīng)常通過人工進(jìn)行閱讀標(biāo)記的方法,來區(qū)別和標(biāo)注出來有價值,創(chuàng)新性好的文章。但是對于大數(shù)據(jù)來說,幾百萬或者上千萬的文獻(xiàn)數(shù)據(jù),通過人工來進(jìn)行分析創(chuàng)新性顯然是不可取的,因為實現(xiàn)的難度非常大,而且每年都會有大量的文獻(xiàn)出現(xiàn),所以需要自動分析文章內(nèi)容創(chuàng)新性。
技術(shù)實現(xiàn)要素:
本發(fā)明為了解決上述問題,提出了一種文本信息的創(chuàng)新度評估方法,本發(fā)明根據(jù)文本分析技術(shù)實現(xiàn)對固定結(jié)構(gòu)的文本進(jìn)行創(chuàng)新性衡量。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種文本信息的創(chuàng)新度評估方法,包括以下步驟:
(1)對爬取的文本數(shù)據(jù)進(jìn)行分詞預(yù)處理;
(2)使用預(yù)處理數(shù)據(jù)訓(xùn)練lda模型,實現(xiàn)以行業(yè)為主題的分類,用以把不同行業(yè)的文本進(jìn)行區(qū)分,使得訓(xùn)練好的模型包含每個行業(yè)類別的關(guān)鍵詞的模型文件;
(3)按照時間順序,構(gòu)建一個由預(yù)處理數(shù)據(jù)里的抽取的關(guān)鍵知識和技術(shù)信息組成的知識網(wǎng)絡(luò),并且每隔固定時間不斷更新;
(4)使用按照時間排序的預(yù)處理數(shù)據(jù),提取每一篇文獻(xiàn)的時間、名稱、作者、瀏覽量和下載量的屬性信息,并構(gòu)建一個文獻(xiàn)文本結(jié)構(gòu)網(wǎng)絡(luò),并確定各個文獻(xiàn)的創(chuàng)新類型;
(5)利用訓(xùn)練好的lda模型分析專利數(shù)據(jù)里面的技術(shù)和知識關(guān)鍵詞分別屬于的行業(yè),綜合文獻(xiàn)文本結(jié)構(gòu)網(wǎng)絡(luò)的屬性信息,構(gòu)成多維度指標(biāo)以評估創(chuàng)新度。
所述步驟(1)中,構(gòu)建keras深度學(xué)習(xí)模型,包括1層embedding層,1層lstm和1個dense輸出層,目標(biāo)函數(shù)使用交叉熵,優(yōu)化函數(shù)使用adam。
所述步驟(2)中,使用預(yù)處理的數(shù)據(jù)訓(xùn)練word2vector模型,用以計算詞與詞之間的相關(guān)性,確定各個詞語屬于相關(guān)行業(yè)的概率。
所述步驟(2)中,當(dāng)判斷出的各個行業(yè)的所述概率進(jìn)行從大到小排序,得到概率序列,取前n個概率最大的序列,計算各個概率所占的比例,刪除小于閾值的行業(yè)。
所述步驟(3)中,將所有的文獻(xiàn)文本數(shù)據(jù)首先按照時間順序進(jìn)行排序,然后抽取每一個文本數(shù)據(jù)里面所使用的知識和技術(shù)名詞,包括技術(shù)方案里面使用的算法的名稱。
所述步驟(3)中,遍歷文獻(xiàn)的創(chuàng)新點或關(guān)鍵部分,提取每個段落中的關(guān)鍵詞,形成關(guān)鍵詞組合,以表明使用的知識和技術(shù)方案。
所述步驟(3)中,利用tf-idf提取關(guān)鍵詞,具體包括:
(3-1)計算每個詞在文獻(xiàn)中出現(xiàn)的詞頻;
(3-2)計算逆文檔率idf;
(3-3)將詞頻和逆文檔率相乘,計算tf-idf,得到每個詞的tf-idf值,然后按照數(shù)值大小降序排列,提取前m位的為關(guān)鍵詞。
所述步驟(3)中,將新的文獻(xiàn)中提取的關(guān)鍵詞跟已有的知識網(wǎng)絡(luò)包含的關(guān)鍵詞進(jìn)行比較,若某個關(guān)鍵詞已經(jīng)存在于知識網(wǎng)絡(luò)中,則跳過去;若知識網(wǎng)絡(luò)中不存在,則將抽取的時間和該關(guān)鍵詞收錄到知識網(wǎng)絡(luò)之中。
所述步驟(4)中,使用貝葉斯概率模型計算區(qū)分專利創(chuàng)新類型。
進(jìn)一步的,查詢該文獻(xiàn)發(fā)表時間之前已有的相關(guān)技術(shù)和理論知識,若該文獻(xiàn)中出現(xiàn)新的知識或技術(shù)則屬于原始創(chuàng)新;若該文獻(xiàn)里面都是以前已有的技術(shù)和知識,但出現(xiàn)了改進(jìn)方法和技術(shù)方案,則屬于改進(jìn)創(chuàng)新;若該文獻(xiàn)都是已有的技術(shù)和知識,但是從文章結(jié)構(gòu)網(wǎng)絡(luò)中,以前沒有出現(xiàn)過該文獻(xiàn)的組合,則屬于集成創(chuàng)新。
所述步驟(5)中,將得出的該專利所屬的創(chuàng)新類型,使用的創(chuàng)新方法,結(jié)合抽取出來的作者、瀏覽量和下載量作為多維度指標(biāo)。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
(1)本發(fā)明能夠自動分析確定專利的創(chuàng)新類型和使用的創(chuàng)新方法;使用多維度表示評價文獻(xiàn)的創(chuàng)新性,實現(xiàn)了對文獻(xiàn)的創(chuàng)新性高低的定性分析;
(2)本發(fā)明提取效果好,可以作為創(chuàng)新度評價時的參考結(jié)果,有助于減少審查時間,也有助于維護(hù)、更新知識庫和文獻(xiàn)數(shù)據(jù)庫,同時,也能夠更好的對文獻(xiàn)所屬領(lǐng)域、做出的貢獻(xiàn)進(jìn)行提取,以方便其他人閱讀、學(xué)習(xí)和借鑒。
附圖說明
構(gòu)成本申請的一部分的說明書附圖用來提供對本申請的進(jìn)一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。
圖1是本發(fā)明的步驟一流程示意圖;
圖2是本發(fā)明的步驟一分詞模型圖;
圖3是本發(fā)明的流程示意圖;
圖4是本發(fā)明的分析創(chuàng)新度的過程示意圖。
具體實施方式:
下面結(jié)合附圖與實施例對本發(fā)明作進(jìn)一步說明。
應(yīng)該指出,以下詳細(xì)說明都是例示性的,旨在對本申請?zhí)峁┻M(jìn)一步的說明。除非另有指明,本文使用的所有技術(shù)和科學(xué)術(shù)語具有與本申請所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。
需要注意的是,這里所使用的術(shù)語僅是為了描述具體實施方式,而非意圖限制根據(jù)本申請的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復(fù)數(shù)形式,此外,還應(yīng)當(dāng)理解的是,當(dāng)在本說明書中使用術(shù)語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
以對專利進(jìn)行創(chuàng)新度的評估為例進(jìn)行詳細(xì)描述,具體包括:
步驟一:對爬取的萬方數(shù)據(jù)庫專利數(shù)據(jù)進(jìn)行分詞預(yù)處理。
1.數(shù)據(jù)預(yù)處理過程
目前,深度學(xué)習(xí)在自然語言處理領(lǐng)域取得了非常顯著的成績,對于分詞、詞性標(biāo)注和命名實體識別這些自然語言處理的基礎(chǔ)領(lǐng)域有非常良好的應(yīng)用。本步驟通過構(gòu)建一個深度學(xué)習(xí)的模型來對數(shù)據(jù)進(jìn)行分詞預(yù)處理。keras是一個高度模塊化的深度學(xué)習(xí)框架,通過python進(jìn)行編程,封裝大量的函數(shù)模塊接口,這樣,通過調(diào)用這些模塊就可以未完成模型搭建。
中文分詞可以通過將自然語言文本劃分成詞語序列實現(xiàn),當(dāng)前文本序列標(biāo)記是最主流的方法,即通過使用bmes這四個標(biāo)簽去標(biāo)記句子中的每一個字。(b是詞首,m是詞中,e是詞尾,s是單字詞;例如蘋果be,廣電局bme)
步驟二:使用預(yù)處理數(shù)據(jù)訓(xùn)練lda模型,實現(xiàn)以行業(yè)為主題的分類,用以把不同行業(yè)的專利進(jìn)行區(qū)分,訓(xùn)練的結(jié)果是可以計算某一專利所屬的行業(yè),訓(xùn)練好的模型包含每個行業(yè)類別的關(guān)鍵詞的模型文件。
使用預(yù)處理的數(shù)據(jù)訓(xùn)練word2vector模型,用以計算詞與詞之間的相關(guān)性。
lda是一種可以提取文檔隱含主題的算法,本專利通過使用谷歌公開的lda算法,直接將預(yù)處理好的專利數(shù)據(jù)文件地址寫入該程序,即可得到訓(xùn)練好的lda模型。考慮專利數(shù)據(jù)本身就是按照行業(yè)分類之后的,所以設(shè)置lda主題數(shù)量與爬取專利數(shù)據(jù)行業(yè)數(shù)量相同。另外為了方便后續(xù)工作,對不同行業(yè)進(jìn)行人工編號,不同的行業(yè)開頭第一個字符不同,例如規(guī)定自然語言處理nlp領(lǐng)域,行業(yè)編號為3。
word2vector是谷歌開發(fā)的一個開源的用來實現(xiàn)計算自然語言領(lǐng)域文本相關(guān)性的工具,本專利直接使用開源的程序,錄入預(yù)處理數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練好的word2vector就可以直接用來計算兩個詞之間的相關(guān)性,即輸入一個詞,給出該詞相關(guān)性從大到小的排序的詞的序列,并包括相關(guān)性值得大小,因為word2vector使用三角函數(shù)來計算相關(guān)性,所以相關(guān)性的值是一個0到1的實數(shù)。
本步驟的最后結(jié)果是,使用訓(xùn)練好的lda模型可以得出每個專利屬于各個行業(yè)的概率。使用訓(xùn)練好的word2vector模型,經(jīng)過計算,可以得出知識和技術(shù)等名詞屬于某個行業(yè)的概率,例如:輪胎屬于車輛行業(yè)概率為0.83,屬于玩具行業(yè)為0.17。并且得到每一個專利所屬的行業(yè)中概率最高的三個行業(yè)。本專利規(guī)定,對于知識和技術(shù)等名詞以及專利,確定其所屬行業(yè)的方法如下:
1.將所有得出的概率ai(屬于行業(yè)i的概率)進(jìn)行從大到小排序,得到概率序列,例如,[aj,ak,am...al]。
2.取出序列中前三個概率最大的值[aj,ak,am],行業(yè)就在j、k、m這三個里面進(jìn)行選擇。
3.分別計算三個概率所占的比例,
其中bi表示第i個概率所占比例。
4.比較bi值的打小,若存在bi小于0.1,則認(rèn)為屬于第i行業(yè)的概率很小,于是舍棄第i行業(yè),認(rèn)定屬于剩余的行業(yè)。
5.所以,本專利對于一個專利或者一個知識、技術(shù)名詞進(jìn)行行業(yè)分類時,最終區(qū)分的結(jié)果包括三種情況:只屬于一個行業(yè),屬于兩個行業(yè),屬于三個行業(yè)。將該專利、知識或者技術(shù)名詞,所屬行業(yè)編號,以及屬于該行業(yè)的比例作為一條記錄進(jìn)行保存。
步驟三:按照時間順序,構(gòu)建一個由預(yù)處理數(shù)據(jù)里的抽取的關(guān)鍵知識和技術(shù)信息組成的知識網(wǎng)絡(luò),并且每隔固定時間不斷更新。
1.知識網(wǎng)絡(luò)構(gòu)建的策略。
將所有的專利數(shù)據(jù)首先按照時間順序進(jìn)行排序,然后抽取每一個專利數(shù)據(jù)里面所使用的知識和技術(shù)名詞,包括技術(shù)方案里面使用的算法的名稱。
所有的知識和技術(shù)出現(xiàn)的最早的時間記錄為該知識和技術(shù)的首次出現(xiàn)時間,并按照其所屬行業(yè)領(lǐng)域?qū)ζ溥M(jìn)行編號,一個編號代表一個技術(shù)或者知識,具體的該技術(shù)或者知識是一個技術(shù)方案或者算法的組合。
例如,[no.3012000.9.1分詞(去停用詞(300))nlp300]
另外,若對某一已經(jīng)存在的技術(shù)或者知識進(jìn)行了改進(jìn),融合了新的元素。則該改進(jìn)知識或者技術(shù)的編號以其原始為基礎(chǔ),進(jìn)行后續(xù)編號。
例如,[no.30112005.6.3中文分詞(去停用詞(300),詞性分析(305))nlp300]
建立專利知識網(wǎng)絡(luò)索引,一條記錄包括某一個方法的編號與其第一次出現(xiàn)的時間,屬于的專利的編號。
建立專利方案知識網(wǎng)絡(luò)索引,一條記錄包括專利編號和所有的提取的知識、技術(shù)等關(guān)鍵詞組合。
2.抽取關(guān)鍵技術(shù)和知識的方法。
爬取的專利數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),其中權(quán)利要求書內(nèi)容是這個專利著重進(jìn)行創(chuàng)新和保護(hù)的重點部分,遍歷權(quán)利要求書的內(nèi)容,提取每個段落中的關(guān)鍵詞。發(fā)明內(nèi)容和具體實施方式是專利實現(xiàn)過程與方法的描述,提取該兩部分的關(guān)鍵詞。一篇專利所有的關(guān)鍵詞的組合就是該專利使用的知識和技術(shù)方案。
步驟四:使用按照時間排序的預(yù)處理數(shù)據(jù),提取每一篇專利的時間,名稱,作者,瀏覽量,下載量信息,并構(gòu)建一個專利結(jié)構(gòu)網(wǎng)絡(luò)。
1.專利結(jié)構(gòu)網(wǎng)絡(luò)構(gòu)建方法。
對于每一個專利數(shù)據(jù),將它看作一個技術(shù)和知識關(guān)鍵詞的組合方案,并將所有的專利按照該專利所屬的行業(yè)進(jìn)行分類,按照時間進(jìn)行排序并編號。
例如,(no.30000012005.6.3一種中文分詞中科院1000001000(30115044)nlp300)
步驟五:通過專利結(jié)構(gòu)網(wǎng)絡(luò)和知識網(wǎng)絡(luò),確定數(shù)據(jù)的創(chuàng)新類型。
1.計算確定創(chuàng)新類型。
(1)查詢該專利時間之前已有的相關(guān)技術(shù)和理論知識,若該專利中出現(xiàn)新的知識或技術(shù)則屬于原始創(chuàng)新。
(2)若該專利里面都是以前已有的技術(shù)和知識,但出現(xiàn)了改進(jìn)方法和技術(shù)方案,則屬于改進(jìn)創(chuàng)新。
(3)若該專利都是已有的技術(shù)和知識,但是從文章結(jié)構(gòu)網(wǎng)絡(luò)中,以前沒有出現(xiàn)過該專利的組合,則屬于集成創(chuàng)新。
步驟六:結(jié)合訓(xùn)練好的lda模型分析專利數(shù)據(jù)里面的技術(shù)和知識關(guān)鍵詞分別屬于的行業(yè),從而確定該文章的創(chuàng)新方法。
1.按照其屬于相同行業(yè),相關(guān)行業(yè)和不同行業(yè)而分為三個層次。
2.利用文本數(shù)據(jù)相關(guān)性計算方法來進(jìn)行確定關(guān)鍵詞的行業(yè)。
步驟七:綜合專利結(jié)構(gòu)網(wǎng)絡(luò)中的作者,瀏覽量,下載量屬性值,結(jié)合計算出來的專利創(chuàng)新類型和創(chuàng)新方法,使用多維度指標(biāo)來表示創(chuàng)新度。
一個專利的創(chuàng)新性可以由本專利構(gòu)建的多維度評價標(biāo)準(zhǔn)進(jìn)行體現(xiàn),具體來說,通過本專利計算得出的該專利所屬的創(chuàng)新類型,使用的創(chuàng)新方法,結(jié)合從專利數(shù)據(jù)之中抽取出來的關(guān)于專利的作者、瀏覽量和下載量這五個維度的綜合,可以實現(xiàn)對專利創(chuàng)新性高低進(jìn)行定性的分析。
步驟八:可視化方案。使用標(biāo)簽云pytagcloud的方式將文章的創(chuàng)新度以及抽取信息和創(chuàng)新類型,創(chuàng)新方法顯示出來。
1.展示抽取的專利名稱、瀏覽量和下載量信息。
2.展示技術(shù)和知識關(guān)鍵詞信息,即top6關(guān)鍵詞。
3.展示關(guān)鍵詞所屬行業(yè)的相關(guān)信息,并指出創(chuàng)新方法。
4.展示專利屬于每一種重新類型的概率,并重點展示概率最高的類型。
5.展示對作者進(jìn)行百度百科的檢索結(jié)果。
6.展示最后對專利創(chuàng)新性的定性分析結(jié)果。
步驟一中,使用keras搭建深度學(xué)習(xí)模型結(jié)合序列化標(biāo)記實現(xiàn)分詞。
keras相關(guān)模塊及方法介紹。
使用的keras里面主要模塊包括optimizers(優(yōu)化函數(shù)模塊)、sgd(隨機(jī)梯度下降)、adam;objectives(目標(biāo)函數(shù)模塊)使用誤差分析方法包括均方誤差和交叉熵;activations(激活函數(shù)模塊)中sigmoid用來做二分類、relu可以解決梯度消失問題、softmax可用來做多分類;layers(網(wǎng)絡(luò)層模塊)包括cnn(卷積層)、rnn(lstm)、embeddings;initializations(初始化模塊),用于模型參數(shù)初始化,包括均勻分布初始化、高斯分布初始化。
使用keras進(jìn)行模型搭建,實現(xiàn)基于rnn的中文分詞,具體分為四個步驟,數(shù)據(jù)準(zhǔn)備,模型構(gòu)建,模型訓(xùn)練,模型測試。
首先,使用bakeoff2005里面的北京大學(xué)已經(jīng)標(biāo)注好的語料數(shù)據(jù),其中traindata當(dāng)作訓(xùn)練樣本,testdata當(dāng)作測試樣本。統(tǒng)計訓(xùn)練樣本的字符,將其全部映射成對應(yīng)的字典索引,規(guī)定出現(xiàn)次數(shù)不超過3次的字符映射作為未登錄詞??紤]序列標(biāo)記中,一個字的標(biāo)簽會受到上下文的影響,所以取該字的前后3個字作為特征。
然后,設(shè)計模型,本專利使用的模型由1層embedding層,1層lstm和1個dense輸出層構(gòu)成。目標(biāo)函數(shù)使用交叉熵,優(yōu)化函數(shù)使用adam。本專利未使用外部語料訓(xùn)練的詞向量,而是通過embedding層完成從詞典索引到詞向量的映射。從而實現(xiàn)輸入詞典索引,輸出該索引的詞向量。
將詞向量序列輸入lstm層,該層的輸出序列結(jié)合lstm隱層的個數(shù)輸入到輸出層。densen輸出層輸出類別數(shù)。
參數(shù)設(shè)計。embeddingdim數(shù)量設(shè)置為128,rnn序列長度設(shè)置為7,lstm隱層個數(shù)設(shè)置為100,outputdims數(shù)量設(shè)置為4,batch_sizes數(shù)值設(shè)置為128。
最后使用準(zhǔn)備好的北京大學(xué)的訓(xùn)練樣本數(shù)據(jù)對模型進(jìn)行訓(xùn)練,再使用測試樣本進(jìn)行測試。
首先對爬取的專利數(shù)據(jù)按照時間從早到晚進(jìn)行排序,然后使用訓(xùn)練和測試好的深度學(xué)習(xí)模型對其進(jìn)行分詞預(yù)處理。
步驟二中,使用訓(xùn)練好的lda模型判斷專利行業(yè),具體過程如下。
獲取谷歌的開源lda程序,按照官方說明部署環(huán)境。然后將預(yù)處理的數(shù)據(jù)文件地址錄入建好的lda模型,并進(jìn)行訓(xùn)練。
訓(xùn)練好的lda模型能夠計算出一個專利屬于各個行業(yè)的概率,依次提取訓(xùn)練好的lda模型計算出來的該專利屬于各個行業(yè)的概率,將所有的概率值按照從大到小進(jìn)行排序,取該序列的top3。按照上述步驟二中本專利規(guī)定的方法,取比例值bi不小于0.1的行業(yè)作為該專利所屬的行業(yè)。
步驟二中,使用訓(xùn)練好的word2vector模型,提取訓(xùn)練好的lda模型中的包含行業(yè)類別關(guān)鍵詞的模型文件,計算某一專利的關(guān)鍵詞和各個行業(yè)關(guān)鍵詞的相關(guān)性,進(jìn)而計算出該專利的關(guān)鍵詞與各個行業(yè)相關(guān)性,從而判斷該專利的關(guān)鍵詞所屬的行業(yè),主要過程如下。
一個發(fā)明專利一定是通過使用幾個知識和技術(shù)組成一個方案,來解決某一方面的問題。其中,該專利所使用的知識和技術(shù)會在專利的文本內(nèi)容中著重體現(xiàn),所以該專利所使用的知識和技術(shù)一定是該專利文本數(shù)據(jù)的關(guān)鍵詞。
獲取谷歌的開源word2vector程序,按照官方說明部署環(huán)境。然后將預(yù)處理的數(shù)據(jù)文件地址錄入建好的word2vector模型,并進(jìn)行訓(xùn)練,得到訓(xùn)練好的word2vector模型。
使用訓(xùn)練好的word2vector模型,依次計算某一個專利各個關(guān)鍵詞和各個行業(yè)的關(guān)鍵詞(來自訓(xùn)練好的lda模型文件)的相關(guān)性,并將相關(guān)性的值按照行業(yè)求和。取和值最大的top3行業(yè),定義該和值為關(guān)鍵詞屬于這個行業(yè)的概率。按照上述1中所述方法,計算比例值bi,并取比例值bi不小于0.1的行業(yè)作為該關(guān)鍵詞所屬的行業(yè)。
步驟三中,提取權(quán)利要求書、發(fā)明內(nèi)容和具體實施方式內(nèi)容的關(guān)鍵詞,使用tf-idf技術(shù)實現(xiàn)。
根據(jù)爬取的專利數(shù)據(jù)分析結(jié)果,平均一個專利會包含2-6個知識和技術(shù),所以本專利確定從專利中提取的關(guān)鍵詞中,選擇top6個關(guān)鍵詞作為該專利的知識和技術(shù)的所有名詞。
1.抽取預(yù)處理數(shù)據(jù)中專利的時間,由于專利數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù),時間的信息在數(shù)據(jù)中的位置是一定的,所以可以直接利用位置來讀取。
2.tf-idf提取關(guān)鍵詞。
(1)計算詞頻(tf),詞頻是某個詞在文章中出現(xiàn)的次數(shù),本專利使用下面標(biāo)準(zhǔn)化的公式來計算詞頻:
其中,
計算逆文檔率idf。
其中,n表示所有的專利數(shù)量,
(3)計算tf-idf。
tf-idf=tf×idf。
得到每個詞的tf-idf值,然后按照數(shù)值大小降序排列,位置在top6的為關(guān)鍵詞。
3.從某一個專利提取出來top6關(guān)鍵詞以后,跟已有的知識網(wǎng)絡(luò)包含的關(guān)鍵詞進(jìn)行比較,若某個關(guān)鍵詞已經(jīng)存在于知識網(wǎng)絡(luò)中,則跳過去;若知識網(wǎng)絡(luò)中不存在,則將抽取的時間和該關(guān)鍵詞收錄到知識網(wǎng)絡(luò)之中。
4.在完成一個專利關(guān)鍵詞提取之后,將該專利編號、時間和其6個關(guān)鍵詞組成的組合,收錄到知識網(wǎng)絡(luò)之中。
步驟四中,提取專利數(shù)據(jù)中的時間,名稱,作者,瀏覽量,下載量信息。其中專利是結(jié)構(gòu)化的數(shù)據(jù),在專利的開始就包含了它的申請日、申請人、專利名稱信息,只要簡單地依次識別讀出即可。
對于一篇專利的瀏覽量和下載量信息是包含在爬取的專利數(shù)據(jù)中的,可以直接使用。而對于爬取的專利數(shù)據(jù),一個專利的前部分?jǐn)?shù)據(jù)依次為名稱、專利類型、申請?zhí)枴⑸暾埲掌?、公開日、公開號、主分類號、分類號、申請人、發(fā)明人。本步驟依次逐行讀取以上信息,并將該專利的名稱、公開日、主分類號、申請人信息。
根據(jù)專利法規(guī)定的專利分類規(guī)則,根據(jù)獲取的專利號信息,判定該專利的類別和行業(yè)。
根據(jù)獲取的專利數(shù)據(jù)中的申請人信息,本專利將申請人分為三種類型:個人、公司和高??蒲袉挝弧1緦@褂冒俣鹊拈_源接口,對爬取的申請人信息進(jìn)行百度百科搜索。將搜索出來的結(jié)果,本專利規(guī)定,
(1)若搜索不出來相關(guān)結(jié)果,則只展示專利數(shù)據(jù)上的申請人信息。
(2)若搜索出申請人的百度百科信息,則提供專利申請人的百度百科的主要信息。
步驟五中,計算專利的創(chuàng)新類型,本專利規(guī)定原始創(chuàng)新類創(chuàng)新性最高,改進(jìn)創(chuàng)新類創(chuàng)新性次之,集成創(chuàng)新最低。
將上述步驟提取出來的專利的關(guān)鍵詞與知識網(wǎng)絡(luò)進(jìn)行比較,首先比較所有的關(guān)鍵詞,如果該專利包含當(dāng)前時間未錄入網(wǎng)絡(luò)中的知識或者技術(shù)名詞,則確定該專利屬于原始創(chuàng)新;
如果所有的知識和技術(shù)有包含在當(dāng)前時間知識網(wǎng)絡(luò),但是進(jìn)行了改進(jìn),結(jié)合了新的算法或者步驟,則確定該專利屬于改進(jìn)創(chuàng)新;
如果沒有出現(xiàn)改進(jìn)的情況,然后將專利的關(guān)鍵詞組合和知識網(wǎng)絡(luò)已有的專利組合進(jìn)行比較,若這是一個全新的組合,則確定該專利屬于集成創(chuàng)新。
對于一個專利,本專利方法提取top6關(guān)鍵詞。首先,將該專利的時間和top6關(guān)鍵詞提取成一條記錄。然后,依次將top6關(guān)鍵詞與本專利構(gòu)建的知識網(wǎng)絡(luò)進(jìn)行檢索,查詢每一個關(guān)鍵詞在知識網(wǎng)絡(luò)中首次出現(xiàn)時間。若關(guān)鍵詞在知識網(wǎng)絡(luò)中已經(jīng)出現(xiàn)過,則給該關(guān)鍵詞添加一個標(biāo)簽表示已經(jīng)存在,添加數(shù)字1;若有關(guān)鍵詞不在知識網(wǎng)絡(luò)中出現(xiàn),則給該關(guān)鍵詞添加數(shù)字標(biāo)簽3;最后,對于6個關(guān)鍵詞這個組合,檢索知識網(wǎng)絡(luò)中當(dāng)前時間前是否有這個組合存在,根據(jù)檢索出來的組合,將網(wǎng)絡(luò)中的組合不包含但是該專利組合存在的詞,將其標(biāo)簽數(shù)字1改為數(shù)字2。
使用貝葉斯概率模型計算區(qū)分專利創(chuàng)新類型。本專利通過計算每一種創(chuàng)新類型的后驗概率,選擇三個類別中的概率最大的類型最為最終結(jié)果。具體公式如下:
貝葉斯公式:
公式中,事件bi的概率為p(bi),事件bi已經(jīng)發(fā)生的條件下事件a發(fā)生的概率為p(a|bj),事件a發(fā)生的條件下事件bi發(fā)生的概率為p(bi|a)。
規(guī)定,若top6關(guān)鍵詞中,若標(biāo)簽數(shù)值3的個數(shù)不小于1,記為事件a,則創(chuàng)新類型為原始創(chuàng)新;若標(biāo)簽數(shù)值3的個數(shù)為0,而標(biāo)簽數(shù)值2的個數(shù)不小于1,記為事件b,則創(chuàng)新類型為改進(jìn)創(chuàng)新;若標(biāo)簽數(shù)值3的個數(shù)為0,標(biāo)簽數(shù)值2的個數(shù)為0,記為事件c,則創(chuàng)新類型為集成創(chuàng)新。
事件a發(fā)生的概率
事件b發(fā)生的概率
事件c發(fā)生的概率p(c)=1-p(a)-p(b)。
計算事件a、b、c個自發(fā)生的概率值之后,確定最后的創(chuàng)新類型,計算公式如下:
將p最大值的創(chuàng)新類型作為專利的創(chuàng)新類型。
步驟六中,首先通過訓(xùn)練好的lda模型計算某一專利top6關(guān)鍵詞屬于所有主題的概率,對于一個關(guān)鍵詞取概率最大值的行業(yè)作為該關(guān)鍵詞所屬的行業(yè),并記錄行業(yè)編號。
本專利規(guī)定,對于每一個行業(yè),取訓(xùn)練好的lda模型中該行業(yè)的top100關(guān)鍵詞,使用相關(guān)性計算方法即訓(xùn)練好的word2vector模型計算某一專利的top6關(guān)鍵詞中的每一個詞與各行業(yè)top100關(guān)鍵詞的相關(guān)性的和,取其和的最大值最為該詞的行業(yè)。
本專利使用每個行業(yè)的top100關(guān)鍵詞通過訓(xùn)練好的word2vector模型計算每兩個行業(yè)的相關(guān)性,將行業(yè)a的100個關(guān)鍵詞與行業(yè)b的100個關(guān)鍵詞的相關(guān)性的和作為兩個行業(yè)的相關(guān)性的值。規(guī)定最后的和的值小于1的是不相關(guān)的兩個行業(yè);規(guī)定和的值在1-10之間的,屬于相關(guān)行業(yè);規(guī)定和的值大于10的,屬于同行業(yè)。
本專利計算得出某一專利top6關(guān)鍵詞中每一個關(guān)鍵詞所屬的行業(yè)之后,使用上述計算好的行業(yè)之間的相關(guān)性,來表示關(guān)鍵詞之間所屬行業(yè)的關(guān)系。本專利規(guī)定,若計算得出top6關(guān)鍵詞的各行業(yè)之間,存在不相關(guān)行業(yè)關(guān)系,記為事件q;若存在相關(guān)行業(yè)關(guān)系,記為事件s;若存在同行業(yè)記為事件t。
具體的計算公式如下:
事件q發(fā)生的概率
事件s發(fā)生的概率
事件t發(fā)生的概率p(t)=1-p(q)-p(s)。
計算事件q、s、t個自發(fā)生的概率值之后,確定最后的創(chuàng)新類型,計算公式如下:
將p最大值的關(guān)鍵詞相關(guān)關(guān)系作為專利的創(chuàng)新方法。
步驟七中,使用多維度綜合表示一篇專利的創(chuàng)新度,具體方法如下。
使用上述過程提到的專利的創(chuàng)新類型、創(chuàng)新方法、瀏覽量和下載量、以及作者五個維度來表示一個專利的創(chuàng)新度。其中,創(chuàng)新類型和創(chuàng)新方法經(jīng)上述步驟計算得出。統(tǒng)計預(yù)處理數(shù)據(jù)中所有專利的瀏覽量和下載量,結(jié)果表明,瀏覽量數(shù)值0--100000,下載量數(shù)值0--9000。分別對瀏覽量和下載量數(shù)值進(jìn)行劃分層次,根據(jù)瀏覽量數(shù)值50000以上和下載量數(shù)值1000以上占20%,瀏覽量數(shù)值1000--50000和下載量數(shù)值50--1000占55%,瀏覽量數(shù)值0--1000和下載量數(shù)值0--50占25%,將瀏覽量和下載量按照上述區(qū)間依次劃分為較高、中等和較低三個等級。
對于一篇新的專利,依次使用本方法訓(xùn)練好的lda和word2vvector模型測試后,計算該專利屬于每一個創(chuàng)新類型的概率,并選擇最大概率值的類型為該專利的創(chuàng)新類型;再計算該專利每一個創(chuàng)新方法的概率,并選擇最大概率值的方法為該專利的創(chuàng)新方法;根據(jù)該專利的瀏覽量和下載量,根據(jù)上述區(qū)間,確定該專利的瀏覽量和下載量的層次;根據(jù)該專利的作者信息,將上述步驟檢百度百科檢索結(jié)果記錄下來,確定作者的信息。
本專利規(guī)定使用創(chuàng)新性高、中和低三個層次來綜合定性評價一個專利的創(chuàng)新性,使用五維向量(創(chuàng)新類型,創(chuàng)新方法,瀏覽量,下載量,作者)來表示,
具體過程如下:
(1)創(chuàng)新類型為原始創(chuàng)新,則該值為3,為改進(jìn)創(chuàng)新,則該值為2,為集成創(chuàng)新,則該值為1。
(2)創(chuàng)新方法為不同行業(yè),則該值為3,為相關(guān)行業(yè),則該值為2,為同行業(yè),則該值為1。
(3)瀏覽量和下載量為較高,則對應(yīng)值為3,為中等,則對應(yīng)值為2,為較低,則對應(yīng)值為1。
(4)若百度百科檢索出作者的相關(guān)信息,則該值為3,若沒有檢索出相關(guān)信息,則該值為1。
(5)使用公式
表示一個專利的創(chuàng)新性。若創(chuàng)新性值>0.5,則創(chuàng)新性高;若0.2<創(chuàng)新性值≤0.5,則創(chuàng)新性中;若創(chuàng)新性值≤0.2,則創(chuàng)新性低。
步驟八中,實現(xiàn)本方法的可視化,具體方法如下:
首先,使用python的可視化云標(biāo)簽工具pytagcloud來進(jìn)行展示相關(guān)信息,該工具是python開源的,只要按照相關(guān)教程安裝配置即可使用。
展示的信息中,對于瀏覽量和下載量,展示具體的數(shù)值,并展示值所屬的層次為較高、中等還是較低;對于作者信息,若百度百科沒有相關(guān)的信息,則只展示專利數(shù)據(jù)中的作者信息,若檢索出相關(guān)信息,則展示檢索結(jié)果的top20字?jǐn)?shù),并展示提供鏈接;對于創(chuàng)新類型,展示該專利屬于每一個類型的概率,其中概率最大的值數(shù)字字體最大;對于創(chuàng)新方法,展示top6關(guān)鍵詞中每個關(guān)鍵詞的行業(yè),并展示使用的創(chuàng)新方法;對于專利的創(chuàng)新性層次,展示創(chuàng)新性值,和該值所屬的層次,給出該專利創(chuàng)新性高、中或者低的評價結(jié)果。
以上所述僅為本申請的優(yōu)選實施例而已,并不用于限制本申請,對于本領(lǐng)域的技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的保護(hù)范圍之內(nèi)。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。