本發(fā)明涉及文本處理領(lǐng)域,特別是涉及一種方案文本生成方法及系統(tǒng)。
版權(quán)申明
本專利文件披露的內(nèi)容包含受版權(quán)保護的材料。該版權(quán)為版權(quán)所有人所有。版權(quán)所有人不反對任何人復制專利與商標局的官方記錄和檔案中所存在的該專利文件或者該專利披露。
背景技術(shù):
協(xié)同倍增創(chuàng)新方法(collaborativeinnovation&multiplication,cim),是一種基于協(xié)同創(chuàng)新方法和資源復用的五大發(fā)明原理(組合法、分割法、多用法、抽取法、復制法)的專利創(chuàng)新方法,其核心思想是基于已有的相關(guān)問題的專利信息,綜合組合法、分割法、多用法、抽取法、復制法,提出解決新問題的專利方案。通過這種方式,拓展創(chuàng)新思維,提高發(fā)明效率。
海云協(xié)同架構(gòu)是一種結(jié)合海計算和云計算的新型架構(gòu)。一方面,它充分利用了海端的分布式智能和云端強大的計算能力,另一方面,它通過海端智慧減少了云端的存儲和計算壓力,并且使云端更好的服務于海端。
爬蟲技術(shù)是一種“自動化瀏覽網(wǎng)絡(luò)”的程序,它按照一定的規(guī)則,自動在萬維網(wǎng)上抓取用戶需要的信息。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)成為大量信息的載體。爬蟲技術(shù)也成為數(shù)據(jù)采集的重要組成部分,是大數(shù)據(jù)分析中最為基礎(chǔ)的一步。
文本分析技術(shù)是指對文本的表示及其特征項的選取,是文本挖掘、信息檢索中的基本問題。它將無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可以識別和處理的信息,從而建立數(shù)學模型來描述和代替文本,最終實現(xiàn)從大量文本中挖掘有效信息的目的。文本語義分析是識別文本主題、類別與意義等語義信息的過程,在自然語言處理、信息過濾、信息分類、信息檢索、語義挖掘等領(lǐng)域都普遍應用。
深度學習具有分布式特征表達、自動特征提取、端到端機器學習和良好的泛化能力等優(yōu)勢,在語音識別、圖像識別和自然語言處理等很多領(lǐng)域得到令人矚目的成功應用。而文本通常由多個句子構(gòu)成序列組成段落,由多個詞構(gòu)成序列組成句子,可以利用深度學習中基于序列的模型進行預測生成。andrejkarpathy等專家學者的研究驗證了基于深度學習實現(xiàn)文本生成的可行性。
現(xiàn)有的創(chuàng)新方法僅僅提供了理論依據(jù),專利的創(chuàng)新需要發(fā)明人擁有足夠多的相關(guān)知識,并未實現(xiàn)最大程度地利用現(xiàn)有專利資源。
技術(shù)實現(xiàn)要素:
為了解決上述的以及其他潛在的技術(shù)問題,本發(fā)明的實施例提供了一種方案文本生成方法,所述方案文本生成方法包括:采集方案數(shù)據(jù),形成方案素材并對所述方案素材進行處理,獲取方案特征詞的特征矩陣;對方案數(shù)據(jù)進行文本語義分析獲取方案數(shù)據(jù)的潛在主題,將所述方案數(shù)據(jù)的文本表征為詞向量并根據(jù)所述詞向量生成與詞向量對應的近義詞表;根據(jù)輸入的語句或詞語查詢所述近義詞表,形成查詢詞組并根據(jù)所述潛在主題和所述查詢詞組獲取與所述查詢詞組相關(guān)的多個技術(shù)方案;從相關(guān)度高的技術(shù)方案中選取關(guān)鍵詞,利用所述特征矩陣計算與所述查詢詞組最相關(guān)的關(guān)鍵詞,生成關(guān)鍵詞組;對所述關(guān)鍵詞組進行篩選和組合,生成技術(shù)方案描述文本,并將所述技術(shù)方案描述文本輸入到預設(shè)的方案文本生成模型,通過所述方案文本生成模型生成并輸出技術(shù)方案參考文本。
于本發(fā)明的一實施例中,利用爬蟲技術(shù)采集方案數(shù)據(jù)。
于本發(fā)明的一實施例中,對所述方案素材進行處理具體包括:對所述方案素材進行詞語劃分,去除停用詞,進行詞性標注,保留相關(guān)詞性形成清洗數(shù)據(jù)。
于本發(fā)明的一實施例中,所述獲取方案特征詞的特征矩陣具體包括:從所述清洗數(shù)據(jù)中提取多個方案特征詞,并對所述方案特征詞對應的特征向量進行降維;根據(jù)降維后的特征向量生成對應的特征矩陣。
于本發(fā)明的一實施例中,利用預設(shè)的文本分析模型對方案數(shù)據(jù)進行文本語義分析,利用深度學習中基于序列的模型將方案數(shù)據(jù)的文本表征為詞向量。
于本發(fā)明的一實施例中,所述文本分析模型具體為:隱含狄利克雷分布主題生成模型,所述深度學習中基于序列的模型具體為遞歸神經(jīng)網(wǎng)絡(luò)模型。
于本發(fā)明的一實施例中,所述預設(shè)的方案文本生成模型具體為:根據(jù)固定文本輸入格式訓練生成的lstm模型。
本發(fā)明還提供一種方案文本生成系統(tǒng),所述方案文本生成系統(tǒng)包括:數(shù)據(jù)采集處理模塊,語義分析模塊,查詢獲取模塊以及文本生成模塊;所述數(shù)據(jù)采集處理模塊用于采集方案數(shù)據(jù),形成方案素材并對所述方案素材進行處理,獲取方案特征詞的特征矩陣;所述語義分析模塊包括:主題單元,用于對方案數(shù)據(jù)進行文本語義分析獲取方案數(shù)據(jù)的潛在主題;近義詞表單元,用于將所述方案數(shù)據(jù)的文本表征為詞向量并根據(jù)所述詞向量生成與詞向量對應的近義詞表;所述查詢獲取模塊包括:查詢單元,根據(jù)輸入的語句或詞語查詢所述近義詞表,形成查詢詞組;獲取單元,用于根據(jù)所述潛在主題和所述查詢詞組獲取與所述查詢詞組相關(guān)的多個技術(shù)方案;關(guān)鍵詞組單元,用于從相關(guān)度高的技術(shù)方案中選取關(guān)鍵詞,利用所述特征矩陣計算與所述查詢詞組最相關(guān)的關(guān)鍵詞生成關(guān)鍵詞組;所述文本生成模塊包括:描述文本單元,用于對所述關(guān)鍵詞組進行篩選和組合,生成技術(shù)方案描述文本;文本生成單元,用于將所述技術(shù)方案描述文本輸入到預設(shè)的方案文本生成模型,通過所述方案文本生成模型生成并輸出技術(shù)方案參考文本。
于本發(fā)明的一實施例中,所述數(shù)據(jù)采集處理模塊利用爬蟲技術(shù)采集方案數(shù)據(jù)。
于本發(fā)明的一實施例中,所述數(shù)據(jù)采集處理模塊對所述方案素材進行處理具體包括:對所述方案素材進行詞語劃分,去除停用詞,進行詞性標注,保留相關(guān)詞性形成清洗數(shù)據(jù)。
于本發(fā)明的一實施例中,所述數(shù)據(jù)采集處理模塊獲取方案特征詞的特征矩陣具體包括:從所述清洗數(shù)據(jù)中提取多個方案特征詞,并對所述方案特征詞對應的特征向量進行降維,根據(jù)降維后的特征向量生成對應的特征矩陣。
于本發(fā)明的一實施例中,所述主題單元利用預設(shè)的文本分析模型對方案數(shù)據(jù)進行文本語義分析;所述近義詞表單元利用深度學習中基于序列的模型將方案數(shù)據(jù)的文本表征為詞向量。
于本發(fā)明的一實施例中,所述文本分析模型具體為:隱含狄利克雷分布主題生成模型,所述深度學習中基于序列的模型具體為遞歸神經(jīng)網(wǎng)絡(luò)模型。
于本發(fā)明的一實施例中,所述預設(shè)的方案文本生成模型具體為:根據(jù)固定文本輸入格式訓練生成的lstm模型。
如上所述,本發(fā)明的方案文本生成方法及系統(tǒng)具有以下有益效果:
本發(fā)明實施例可以針對輸入的技術(shù)問題查詢最相關(guān)的技術(shù)方案,生成有助于創(chuàng)新構(gòu)思的關(guān)鍵詞組,自動化生成技術(shù)方案參考文本,達到充分利用現(xiàn)有專利的知識和技術(shù),啟發(fā)人們創(chuàng)造性思維,進一步提升人們創(chuàng)新效率的目的,解決“創(chuàng)新難”、“創(chuàng)新少”的問題,最終實現(xiàn)技術(shù)方案創(chuàng)新和創(chuàng)新方案數(shù)量的倍增。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1顯示為本發(fā)明的方案文本生成方法的流程示意圖。
圖2顯示為本發(fā)明的方案文本生成方法的使用實例示意圖。
圖3顯示為本發(fā)明的方案文本生成系統(tǒng)的原理框圖。
元件標號說明
100方案文本生成系統(tǒng)
110數(shù)據(jù)采集處理模塊
120語義分析模塊
121主題單元
122近義詞表單元
130查詢獲取模塊
131查詢單元
132獲取單元
133關(guān)鍵詞組單元
140文本生成模塊
141描述文本單元
142文本生成單元
s101~s105步驟
具體實施方式
以下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應用,本說明書中的各項細節(jié)也可以基于不同觀點與應用,在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施例中的特征可以相互組合。
請參閱圖1至圖3。須知,本說明書所附圖式所繪示的結(jié)構(gòu)、比例、大小等,均僅用以配合說明書所揭示的內(nèi)容,以供熟悉此技術(shù)的人士了解與閱讀,并非用以限定本發(fā)明可實施的限定條件,故不具技術(shù)上的實質(zhì)意義,任何結(jié)構(gòu)的修飾、比例關(guān)系的改變或大小的調(diào)整,在不影響本發(fā)明所能產(chǎn)生的功效及所能達成的目的下,均應仍落在本發(fā)明所揭示的技術(shù)內(nèi)容得能涵蓋的范圍內(nèi)。同時,本說明書中所引用的如“上”、“下”、“左”、“右”、“中間”及“一”等的用語,亦僅為便于敘述的明了,而非用以限定本發(fā)明可實施的范圍,其相對關(guān)系的改變或調(diào)整,在無實質(zhì)變更技術(shù)內(nèi)容下,當亦視為本發(fā)明可實施的范疇。
本實施例的目的在于提供一種方案文本生成方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中難以最大程度地利用現(xiàn)有文檔資源生成方案文本的問題。以下將詳細闡述本發(fā)明的方案文本生成方法及系統(tǒng)的原理及實施方式,使本領(lǐng)域技術(shù)人員不需要創(chuàng)造性勞動即可理解本發(fā)明的方案文本生成方法及系統(tǒng)。
本實施例基于海云協(xié)同服務平臺和cim技術(shù)原理,采用爬蟲技術(shù)、文本分析技術(shù)和深度學習算法對專利數(shù)據(jù)進行采集處理和信息挖掘,針對問題查詢最相關(guān)專利,生成有助于專利創(chuàng)新構(gòu)思的關(guān)鍵詞組,研究挖掘?qū)@l(fā)明與其所解決問題之間、同類專利發(fā)明之間、不同類專利發(fā)明之間的潛在關(guān)聯(lián)。當遇到新問題時,通過特征提取和關(guān)聯(lián)性研究挖掘出類似問題與相關(guān)產(chǎn)品?;谫Y源復用發(fā)明原理與專利文本的結(jié)構(gòu)特點,研究設(shè)計特征挖掘算法提取關(guān)聯(lián)數(shù)據(jù)特征,研究設(shè)計文本預測與生成算法,自動化生成可參考的專利文本,最終實現(xiàn)專利創(chuàng)新和專利倍增。
具體地,如圖1所示,本實施例提供了一種方案文本生成方法,所述方案文本生成方法包括以下步驟:
步驟s101,采集方案數(shù)據(jù),形成方案素材并對所述方案素材進行處理,獲取方案特征詞的特征矩陣。
步驟s102,對方案數(shù)據(jù)進行文本語義分析獲取方案數(shù)據(jù)的潛在主題,將所述方案數(shù)據(jù)的文本表征為詞向量并根據(jù)所述詞向量生成與詞向量對應的近義詞表。
步驟s103,根據(jù)輸入的詞語查詢所述近義詞表,形成查詢詞組并根據(jù)所述潛在主題和所述查詢詞組獲取與所述查詢詞組相關(guān)的多個技術(shù)方案。
步驟s104,從相關(guān)度高的技術(shù)方案中選取關(guān)鍵詞,利用所述特征矩陣計算與所述查詢詞組最相關(guān)的關(guān)鍵詞,生成關(guān)鍵詞組。
步驟s105,對所述關(guān)鍵詞組進行篩選和組合,生成技術(shù)方案描述文本,并將所述技術(shù)方案描述文本輸入到預設(shè)的方案文本生成模型,通過所述方案文本生成模型生成并輸出技術(shù)方案參考文本。
以下對本實施例的步驟s101~步驟s105進行詳細說明,如圖2所示,并以技術(shù)方案為專利方案為例進行具體說明。
步驟s101,采集方案數(shù)據(jù),形成方案素材并對所述方案素材進行處理,獲取方案特征詞的特征矩陣。
例如,于本實施例中,如圖2所示,從專利數(shù)據(jù)庫采集專利方案數(shù)據(jù),形成專利方案素材并對所述專利方案素材進行處理,獲取專利方案特征詞的特征矩陣。
本實施例中,利用爬蟲技術(shù)采集方案數(shù)據(jù),具體地,采取selenium加webdriver的動態(tài)爬蟲方案,首先獲取各個專利類別的目錄,再通過翻頁遍歷每個目錄下的前幾百項專利,形成專利創(chuàng)新的素材;其中,所述專利方案數(shù)據(jù)包括但不限于專利的標題,摘要,專利分類號,專利申請?zhí)柕然拘畔ⅰ?/p>
于本實施例中,對所述方案素材進行處理具體包括:對所述方案素材進行詞語劃分,去除停用詞,進行詞性標注,保留相關(guān)詞性形成清洗數(shù)據(jù)。具體地,可以利用分詞算法對專利數(shù)據(jù)進行詞語劃分,去除停用詞后進行詞性標注,保留相關(guān)詞性處理,實現(xiàn)對原始專利數(shù)據(jù)的清洗。例如:利用中文分詞工具jieba分詞,結(jié)合工具原始字典與專利素材自定義分詞字典;利用jieba分詞進行詞性標注;過濾掉對后期結(jié)果無顯著意義的介詞、副詞、助詞、連詞、標點符號等,篩選出有較高信息價值的名詞、動詞等作為特征詞。于本實施例中,所述獲取方案特征詞的特征矩陣具體包括:從所述清洗數(shù)據(jù)中提取多個方案特征詞,并對所述方案特征詞對應的特征向量進行降維;根據(jù)降維后的特征向量生成對應的特征矩陣。具體地,選出清洗后專利信息最明顯的特征,在保留文本核心信息的同時盡量減少特征詞數(shù)目,對特征向量進行降維,實現(xiàn)方案特征詞提取。
然后根據(jù)降維后的特征向量生成對應的特征矩陣。具體地,利用詞項加權(quán)方法詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,tf-idf)將所述方案特征詞轉(zhuǎn)化為向量空間模型即生成對應的特征矩陣,,計算出降維后特征向量對應的特征矩陣。
具體地,將清洗選擇的特征詞作為文檔特征,建立一個文檔--特征詞矩陣(n×n維,n個文檔,m個特征詞),矩陣的每一行代表一個文檔的特征向量,矩陣的一列代表一個關(guān)鍵詞在文檔中出現(xiàn)的頻率。運用主成分分析(principalcomponentsanalysis,pca)對詞語特征--文檔矩陣進行降維,將n維原始文檔--特征詞空間轉(zhuǎn)換為m維正交特征空間。再運用tf-idf計算降維后的正交矩陣(n×m維)中各詞的權(quán)重,計算出降維后的特征矩陣,同時實現(xiàn)了特征提取。
利用詞項加權(quán)方法詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,tf-idf)將所述方案特征詞轉(zhuǎn)化為向量空間模型即生成對應的特征矩陣,實現(xiàn)基于統(tǒng)計的特征提取與降維。
步驟s102,對方案數(shù)據(jù)進行文本語義分析獲取方案數(shù)據(jù)的潛在主題,將所述方案數(shù)據(jù)的文本表征為詞向量并根據(jù)所述詞向量生成與詞向量對應的近義詞表。
于本實施例中,利用預設(shè)的文本分析模型對方案數(shù)據(jù)進行文本語義分析,例如運用隱含狄利克雷分布(latentdirichletallocation,lda)主題生成模型等相關(guān)模型進行專利信息的文本語義分析,挖掘出原始專利語料的潛在主題。
于本實施例中,利用深度學習中基于序列的模型將方案數(shù)據(jù)的文本表征為詞向量。例如,利用深度學習思想,將專利文本詞語表征為向量,根據(jù)詞向量生成近義詞表。
于本實施例中,所述文本分析模型具體可以是隱含狄利克雷分布(latentdirichletallocation,lda)主題生成模型,lda為非監(jiān)督機器學習的一種方法,可識別大規(guī)模語料或文檔集中的潛在主題信息。所述深度學習中基于序列的模型具體是遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,rnns)模型。
根據(jù)詞向量生成近義詞表具體為:
計算詞向量與詞向量之間的余弦值,即利用向量空間相似度描述專利文本相似度。若兩詞項含義愈接近,則相似度數(shù)值越大,遍歷得出各特征詞與指定特征詞的相似度。
如表1所示,詞語間相似度的大小表征詞項之間的關(guān)聯(lián)強弱,設(shè)定特征詞的相似度閾值,篩選出高于閾值的詞生成近義詞表,存儲在數(shù)據(jù)庫。
表1近義詞及詞語間的相似度示例
步驟s103,根據(jù)輸入的語句或詞語查詢所述近義詞表,形成查詢詞組并根據(jù)所述潛在主題和所述查詢詞組獲取與所述查詢詞組相關(guān)的多個技術(shù)方案。
其中,輸入的語句或詞語為對待解決的技術(shù)問題的描述,若輸入語句,則對語句進行關(guān)鍵詞提取,形成輸入詞語。通過查詢所有輸入詞語的近義詞,生成最終的查詢詞組。
例如,首先將輸入詞語加入查詢詞語。然后針對輸入詞語的詞語,檢索所述近義詞表,若檢索到該詞語,則選取與該詞語相似度最大的前幾個近義詞,并按相關(guān)度由大到小的順序加入查詢詞組;若沒有檢索到該詞語,不做處理。通過查詢所有輸入詞語的近義詞,生成最終的查詢詞組。
具體地,依據(jù)查詢詞組的重要程度和主題相關(guān)度賦權(quán)重,計算每個技術(shù)方案(專利)對于查詢詞組的相關(guān)度,并排序。
例如,首先對查詢詞組的每個詞語賦權(quán)重,詞語在查詢詞組中位置越靠前,對應的權(quán)重越大?;谒霾樵冊~組中的每個詞語,查找每個技術(shù)方案(專利)對應的特征值,并乘以對應的詞語權(quán)重,最后將所有詞語得出的值進行加和即計算每個技術(shù)方案(專利)對應查詢詞組的加權(quán)和。將加權(quán)和進行降序排序,選取前幾個技術(shù)方案,作為最相關(guān)的技術(shù)方案。
步驟s104,從相關(guān)度高的技術(shù)方案中選取關(guān)鍵詞,利用所述特征矩陣計算與所述查詢詞組最相關(guān)的關(guān)鍵詞,生成關(guān)鍵詞組。
例如,選取最相關(guān)專利的關(guān)鍵詞,根據(jù)特征矩陣,計算與查詢詞組最相關(guān)的關(guān)鍵詞,生成有助于專利創(chuàng)新構(gòu)思的關(guān)鍵詞組。
具體地,對于相關(guān)度高的技術(shù)方案,選取最相關(guān)的關(guān)鍵詞,并查詢特征矩陣中關(guān)鍵詞對應的特征值。若不同技術(shù)方案中關(guān)鍵詞相同,則對其特征值進行加和。對所有關(guān)鍵詞的特征值進行降序排序,選取前十幾個特征值對應的關(guān)鍵詞按順序加入關(guān)鍵詞組。
步驟s105,對所述關(guān)鍵詞組進行篩選和組合,生成技術(shù)方案描述文本,并將所述技術(shù)方案描述文本輸入到預設(shè)的方案文本生成模型,通過所述方案文本生成模型生成并輸出技術(shù)方案參考文本。
具體地,選取預設(shè)的方案文本生成模型和預設(shè)的文本預測與生成算法,以結(jié)構(gòu)一致的專利文本為輸入訓練專利文本生成模型。
對所述關(guān)鍵詞組進行篩選組合,生成技術(shù)方案描述文本,其中,所述技術(shù)方案描述文本例如為對于需要提出的新專利進行一句描述,并將此作為方案文本生成模型的輸入,通過所述方案文本生成模型,預測這句話后面最可能出現(xiàn)的字,再將原始輸入加上預測的這個字作為新輸入,預測下一個字,直至輸出為停止標志,最終生成并輸出可參考的專利文本。
最終可通過人工干預的方式對自動化生成的可參考的專利文本進行篩選,得出最佳理想解,從而產(chǎn)生出新的專利。
如圖3所示,本實施例還提供一種方案文本生成系統(tǒng)100,所述方案文本生成系統(tǒng)100包括:數(shù)據(jù)采集處理模塊110,語義分析模塊120,查詢獲取模塊130以及文本生成模塊140。
以下對本實施例中的方案文本生成系統(tǒng)100進行詳細說明。
于本實施例中,所述數(shù)據(jù)采集處理模塊110用于采集方案數(shù)據(jù),形成方案素材并對所述方案素材進行處理,獲取方案特征詞的特征矩陣。
例如,于本實施例中,從專利數(shù)據(jù)庫采集專利方案數(shù)據(jù),形成專利方案素材并對所述專利方案素材進行處理,獲取專利方案特征詞的特征矩陣。
具體地,本實施例中,所述數(shù)據(jù)采集處理模塊110利用爬蟲技術(shù)采集方案數(shù)據(jù),采取selenium加webdriver的動態(tài)爬蟲方案,首先獲取各個專利類別的目錄,再通過翻頁遍歷每個目錄下的前幾百項專利,形成專利創(chuàng)新的素材;其中,所述專利方案數(shù)據(jù)包括但不限于專利的標題,摘要,專利分類號,專利申請?zhí)柕然拘畔ⅰ?/p>
于本實施例中,所述數(shù)據(jù)采集處理模塊110對所述方案素材進行處理具體包括:對所述方案素材進行詞語劃分,去除停用詞,進行詞性標注,保留相關(guān)詞性形成清洗數(shù)據(jù)。
具體地,可以利用分詞算法對專利數(shù)據(jù)進行詞語劃分,去除停用詞后進行詞性標注,保留相關(guān)詞性處理,實現(xiàn)對原始專利數(shù)據(jù)的清洗。例如:利用中文分詞工具jieba分詞,結(jié)合工具原始字典與專利素材自定義分詞字典;利用jieba分詞進行詞性標注;過濾掉對后期結(jié)果無顯著意義的介詞、副詞、助詞、連詞、標點符號等,篩選出有較高信息價值的名詞、動詞等作為特征詞。
于本實施例中,所述數(shù)據(jù)采集處理模塊110獲取方案特征詞的特征矩陣具體包括:從所述清洗數(shù)據(jù)中提取多個方案特征詞,并對所述方案特征詞對應的特征向量進行降維,根據(jù)降維后的特征向量生成對應的特征矩陣。
具體地,選出清洗后專利信息最明顯的特征,在保留文本核心信息的同時盡量減少特征詞數(shù)目,對特征向量進行降維,實現(xiàn)方案特征詞提取。
然后根據(jù)降維后的特征向量生成對應的特征矩陣。具體地,利用詞項加權(quán)方法詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,tf-idf)將所述方案特征詞轉(zhuǎn)化為向量空間模型即生成對應的特征矩陣,計算出降維后特征向量對應的特征矩陣。
具體地,將清洗選擇的特征詞作為文檔特征,建立一個文檔--特征詞矩陣(n×n維,n個文檔,m個特征詞),矩陣的每一行代表一個文檔的特征向量,矩陣的一列代表一個關(guān)鍵詞在文檔中出現(xiàn)的頻率。運用主成分分析(principalcomponentsanalysis,pca)對詞語特征--文檔矩陣進行降維,將n維原始文檔--特征詞空間轉(zhuǎn)換為m維正交特征空間。再運用tf-idf計算降維后的正交矩陣(n×m維)中各詞的權(quán)重,計算出降維后的特征矩陣,同時實現(xiàn)了特征提取。
利用詞項加權(quán)方法詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,tf-idf)將所述方案特征詞轉(zhuǎn)化為向量空間模型即生成對應的特征矩陣,實現(xiàn)基于統(tǒng)計的特征提取與降維。于本實施例中,所述語義分析模塊120包括:主題單元121和近義詞表單元122。
所述主題單元121用于對方案數(shù)據(jù)進行文本語義分析獲取方案數(shù)據(jù)的潛在主題。
于本實施例中,所述主題單元121利用預設(shè)的文本分析模型對方案數(shù)據(jù)進行文本語義分析;例如運用隱含狄利克雷分布(latentdirichletallocation,lda)主題模型等相關(guān)模型進行專利信息的文本語義分析,挖掘出原始專利語料的潛在主題。
所述近義詞表單元122用于將所述方案數(shù)據(jù)的文本表征為詞向量并根據(jù)所述詞向量生成與詞向量對應的近義詞表。于本實施例中,所述近義詞表單元122利用深度學習中基于序列的模型將方案數(shù)據(jù)的文本表征為詞向量。例如,利用深度學習思想,將專利文本詞語表征為向量,根據(jù)詞向量生成近義詞表。
于本實施例中,所述文本分析模型具體可以是隱含狄利克雷分布(latentdirichletallocation,lda)主題生成模型,lda為非監(jiān)督機器學習的一種方法,可識別大規(guī)模語料或文檔集中的潛在主題信息。所述深度學習中基于序列的模型具體是遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,rnns)模型。
根據(jù)詞向量生成近義詞表具體為:
計算詞向量與詞向量之間的余弦值,即利用向量空間相似度描述專利文本相似度。若兩詞項含義愈接近,則相似度數(shù)值越大,遍歷得出各特征詞與指定特征詞的相似度。詞語間相似度的大小表征詞項之間的關(guān)聯(lián)強弱,設(shè)定特征詞的相似度閾值,篩選出高于閾值的詞生成近義詞表,存儲在數(shù)據(jù)庫。
如上表1所示,詞語間相似度的大小表征詞項之間的關(guān)聯(lián)強弱,設(shè)定特征詞的相似度閾值,篩選出高于閾值的詞生成近義詞表,存儲在數(shù)據(jù)庫。
于本實施例中,所述查詢獲取模塊130包括:查詢單元131,獲取單元132以及關(guān)鍵詞組單元133。
所述查詢單元131用于根據(jù)輸入的語句或詞語查詢所述近義詞表,形成查詢詞組。
其中,輸入的語句或詞語為待解決的技術(shù)問題,若輸入語句,則對語句進行關(guān)鍵詞提取,形成輸入詞語。通過查詢所有輸入詞語的近義詞,生成最終的查詢詞組。
例如,首先將輸入詞語加入查詢詞語。然后針對輸入詞語的詞語,檢索所述近義詞表,若檢索到該詞語,則選取與該詞語相似度最大的前幾個近義詞,并按相關(guān)度由大到小的順序加入查詢詞組;若沒有檢索到該詞語,不做處理。通過查詢所有輸入詞語的近義詞,生成最終的查詢詞組。
所述獲取單元132用于根據(jù)所述潛在主題和所述查詢詞組獲取與所述查詢詞組相關(guān)的多個技術(shù)方案。
具體地,依據(jù)查詢詞組的重要程度和主題相關(guān)度賦權(quán)重,計算每個技術(shù)方案(專利)對于查詢詞組的相關(guān)度,并排序。可以舉例說明。
例如,首先對查詢詞組的每個詞語賦權(quán)重,詞語在查詢詞組中位置越靠前,對應的權(quán)重越大?;谒霾樵冊~組中的每個詞語,查找每個技術(shù)方案(專利)對應的特征值,并乘以對應的詞語權(quán)重,最后將所有詞語得出的值進行加和即計算每個技術(shù)方案(專利)對應查詢詞組的加權(quán)和。將加權(quán)和進行降序排序,選取前幾個技術(shù)方案,作為最相關(guān)的技術(shù)方案。
所述關(guān)鍵詞組單元133用于從相關(guān)度高的技術(shù)方案中選取關(guān)鍵詞,利用所述特征矩陣計算與所述查詢詞組最相關(guān)的關(guān)鍵詞生成關(guān)鍵詞組。
例如,選取最相關(guān)專利的關(guān)鍵詞,根據(jù)特征矩陣,計算與查詢詞組最相關(guān)的關(guān)鍵詞,生成有助于專利創(chuàng)新構(gòu)思的關(guān)鍵詞組。
具體地,對于相關(guān)度高的技術(shù)方案,選取最相關(guān)的關(guān)鍵詞,并查詢特征矩陣中關(guān)鍵詞對應的特征值。若不同技術(shù)方案中關(guān)鍵詞相同,則對其特征值進行加和。對所有關(guān)鍵詞的特征值進行降序排序,選取前十幾個特征值對應的關(guān)鍵詞按順序加入關(guān)鍵詞組。
于本實施例中,所述文本生成模塊140包括:描述文本單元141和文本生成單元142。
所述描述文本單元141用于對所述關(guān)鍵詞組進行篩選和組合,生成技術(shù)方案描述文本。
所述文本生成單元142用于將所述技術(shù)方案描述文本輸入到預設(shè)的方案文本生成模型,通過所述方案文本生成模型生成并輸出技術(shù)方案參考文本。
具體地,選取預設(shè)的方案文本生成模型和預設(shè)的文本預測與生成算法,以結(jié)構(gòu)一致的專利文本為輸入訓練專利文本生成模型。所述預設(shè)的方案文本生成模型具體為:根據(jù)固定文本輸入格式訓練生成的lstm(long-shorttermmemory,長短期記憶模型)模型和rgu(gatedrecurrentunit,門控循環(huán)單元)模型。
對所述關(guān)鍵詞組進行篩選組合,生成技術(shù)方案描述文本,其中,所述技術(shù)方案描述文本例如為對于需要提出的新專利進行一句描述,并將此作為方案文本生成模型的輸入,從而通過所述方案文本生成模型生成并輸出可參考的專利文本。
最終可通過人工干預的方式對自動化生成的可參考的專利文本進行篩選,得出最佳理想解,從而產(chǎn)生出新的專利。
綜上所述,本發(fā)明實施例可以針對輸入的技術(shù)問題查詢最相關(guān)的技術(shù)方案,生成有助于創(chuàng)新構(gòu)思的關(guān)鍵詞組,自動化生成技術(shù)方案參考文本,達到充分利用現(xiàn)有專利的知識和技術(shù),啟發(fā)人們創(chuàng)造性思維,進一步提升人們創(chuàng)新效率的目的,解決“創(chuàng)新難”、“創(chuàng)新少”的問題,最終實現(xiàn)技術(shù)方案創(chuàng)新和創(chuàng)新方案數(shù)量的倍增。所以,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點而具高度產(chǎn)業(yè)利用價值。
上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中包括通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應由本發(fā)明的權(quán)利要求所涵蓋。