本發(fā)明涉及中文自然語言處理
技術領域:
,尤其涉及一種基于深度學習模型Word2Vec的短文本語義相似性判別方法和系統(tǒng)。
背景技術:
:自然語言處理(NLP)技術是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯(lián)系,但又有重要的區(qū)別。它并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。它是計算機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域?,F(xiàn)有的NLP處理工具有OpenNLP,F(xiàn)udanNLP和哈工大的語言技術平臺(LTP);當前中文自然語言處理技術難點在于單詞的邊界確定、詞義消歧,句法模糊性,錯誤性輸入等,尤其社交網(wǎng)絡文本,由于其口語化、方言化,且以短文本居多,給NLP帶來了新的挑戰(zhàn)。深度學習是近十年來人工智能領域取得的最重要的突破之一,在語音識別、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。在自然語言處理領域,雖然深度學習方法也收到越來越多的關注,在很多任務上也取得了一定效果,但是并沒有其它領域那么顯著。傳統(tǒng)的主流自然語言處理方法是基于統(tǒng)計機器學習的方法,所使用的特征大多數(shù)是基于onehot向量表示的各種組合特征。這個特征表示方式會導致特征空間非常大,但也帶來一個優(yōu)點,就是在非常高維的特征空間中,很多任務上都是近似線性可分的。因此,在很多任務上,使用線性分類器就是可以取得比較滿意的性能。研究者更加關注于如何去提取能有效的特征,也就是“特征工程”。和傳統(tǒng)統(tǒng)計機器學習不同,在自然語言處理中使用深度學習模型首先需要將特征表示從離散的onehot向量表示轉換為連續(xù)的稠密向量表示,也叫分布式表示。分布式表示的一個優(yōu)點是特征之間存在“距離”概念,這對很多自然語言處理的任務非常有幫助。早期研究者采用比較保守的方法,將離散特征的分布式表示作為輔助特征引入傳統(tǒng)的算法框架,取得了一定的進展,但提升都不太顯著。近兩年來,隨著對深度學習算法的理解逐漸加深,越來越多的研究者開始從輸入到輸出全部采用深度學習模型,并進行端到端的訓練,在很多任務上取得了比較大的突破。2012年,楊震等人提出一種短文本間語義距離的計算機輔助計算方法,其方法是將兩個短文本間的語義距離定義為句法結構距離和單元語義距離之和進行計算,但是該方法存在兩點不足:(1)句法結構距離僅在句法結構規(guī)則的情況下表現(xiàn)良好,而且還受到句長的影響;(2)單元語義距離的計算是基于《同義詞詞林擴展版》中詞語的五級結構,同時引入中文關鍵詞與近義詞。隨著新詞的不斷涌現(xiàn)和社交網(wǎng)絡詞語口語化,基于同義詞和近義詞詞典的方法需要投入大量的人工維護成本,且詞語的覆蓋度有限。綜上所述,楊震的發(fā)明并不能滿足網(wǎng)絡短文本的語義相似度計算需求。技術實現(xiàn)要素:本發(fā)明提供了一種基于深度學習模型Word2Vec的短文本語義相似性判別方法和系統(tǒng),研究對象為網(wǎng)絡短文本,旨在基于深度學習模型解決短文本語義相似性判別問題。達到創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別,從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率的目的。為達到上述目的,本發(fā)明一方面提供了一種基于深度學習模型Word2Vec的短文本語義相似性判別方法,包括:將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型。進一步的,所述將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合,包括:獲取中文語料集,所述中文語料集包括但不限于中文維基百科中文語料集或搜狗新聞語料中的一種或多種;將獲取的中文語料集預處理為深度學習模型word2vec支持的輸入格式的文本數(shù)據(jù);將預處理后的文本數(shù)據(jù)輸入至深度學習模型word2vec中,并調取word2vec中的參數(shù)進行模型訓練,得到目標維度的詞向量集合。進一步的,所述提取所述多維的詞向量集合的特征數(shù)據(jù),包括但不限于:提取詞粒度的語義特征數(shù)據(jù)、文本粒度的語義相似性特征數(shù)據(jù)和文本粒度的向量維度特征數(shù)據(jù)。進一步的,提取詞粒度的語義特征數(shù)據(jù)的方法包括:通過公式在詞粒度上對短文本對進行最大值,中位數(shù),最小值等三個語義特征的提取;其中,(Sl,Ss)為文本對,Sl表示較長的文本,Ss表示較短的文本,avgsl表示訓練語料集中句子的平均長度,k1和b為模型參數(shù),起到平滑的作用,IDF(w)是詞w的逆向文檔頻率,詞w和短文本S之間的語義相似性可以表示為sem(w,s):其中函數(shù)fsem為計算的兩個詞向量之間的語義相似度,使用的是余弦相似度,詞向量源于訓練得到的word2vec模型。fsts計算的總體分值可以基于詞粒度表征短文本之間的語義相似性,但是為了獲取更多的特征,對fsts計算過程中的累加項進行提取,分別提取最大值,中位數(shù),最小值等三個特征。優(yōu)選的,若word2vec深度學習模型不包含的詞w,則該詞用一個隨機生成的n維向量表示,向量各維度取值在[0,1],且相同詞對應同一個隨機向量。進一步的,提取文本粒度的語義相似性特征數(shù)據(jù)的方法包括:一個文本的向量定義為T,詞向量w通過公式:計算文本向量后,分別通過余弦距離和歐氏距離計算文本粒度之間的語義相似性特征數(shù)據(jù);其中,N表示短文本中詞的數(shù)量。進一步的,提取文本粒度的向量維度特征數(shù)據(jù)的方法包括:設短文本對為(Sn1,Sn2),對應的文本向量為(Tn1,Tn2),分別計算向量Tn1和Tn2對應維度的差值Δi,i=(1,2,......,K)。定義差值區(qū)間,依據(jù)短文本對各維度的差值Δi隸屬的區(qū)間范圍,分別統(tǒng)計每個差值區(qū)間中特征的數(shù)量,作為文本向量的特征數(shù)據(jù)。進一步的,將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型,包括:將特征數(shù)據(jù)的短文本對列表與標注數(shù)據(jù)的標注標簽列表同時輸入至SVC模型中,同時調取詞向量集、特征提取算子進行模型訓練,將訓練的預測模型輸出,得到短文本語義相似性判別模型。本發(fā)明還提供了一種基于深度學習模型Word2Vec的短文本語義相似性判別系統(tǒng),包括:第一模型訓練模塊,用于將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;第二模型訓練模塊,用于提取第一模型訓練模塊中的所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型。進一步的,所述第一模型訓練模塊,包括:獲取單元,用于獲取中文語料集,所述中文語料集包括但不限于中文維基百科中文語料集或搜狗新聞語料中的一種或多種;預處理單元,用于將獲取的中文語料集預處理為深度學習模型word2vec支持的輸入格式的文本數(shù)據(jù);第一模型訓練單元,用于將預處理后的文本數(shù)據(jù)輸入至深度學習模型word2vec中,并調取word2vec中的參數(shù)進行模型訓練,得到目標維度的詞向量集合。進一步的,所述第二模型訓練模塊,包括:提取單元,用于提取所述多維的詞向量集合的特征數(shù)據(jù),包括但不限于:提取詞粒度的語義特征數(shù)據(jù)、文本粒度的語義相似性特征數(shù)據(jù)和文本粒度的向量維度特征數(shù)據(jù);第二模型訓練單元,用于將提取單元提取的特征數(shù)據(jù)的短文本對列表與標注數(shù)據(jù)的標注標簽列表同時輸入至SVC模型中,同時調取詞向量集、特征提取算子進行模型訓練,將訓練的預測模型輸出,得到短文本語義相似性判別模型。進一步的,所述提取單元包括:詞粒度的語義特征數(shù)據(jù)提取單元,用于提取詞粒度的語義特征數(shù)據(jù),包括:通過公式在詞粒度上對短文本對進行最大值,中位數(shù),最小值等三個語義特征的提??;其中,(Sl,Ss)為文本對,Sl表示較長的文本,Ss表示較短的文本,avgsl表示訓練語料集中句子的平均長度,k1和b為模型參數(shù),起到平滑的作用,IDF(w)是詞w的逆向文檔頻率,詞w和短文本S之間的語義相似性可以表示為sem(w,s):其中函數(shù)fsem為計算的兩個詞向量之間的語義相似度,使用的是余弦相似度,詞向量源于訓練得到的word2vec模型。fsts計算的總體分值可以基于詞粒度表征短文本之間的語義相似性,但是為了獲取更多的特征,對fsts計算過程中的累加項進行提取,分別提取最大值,中位數(shù),最小值等三個特征;文本粒度的語義相似性特征數(shù)據(jù)提取單元,用于提取文本粒度的語義相似性特征數(shù)據(jù),包括:一個文本的向量定義為T,詞向量w通過公式:計算文本向量后,分別通過余弦距離和歐氏距離計算文本粒度之間的語義相似性特征數(shù)據(jù);其中,N表示短文本中詞的數(shù)量;文本粒度的向量維度特征數(shù)據(jù)提取單元,用于提取文本粒度的向量維度特征數(shù)據(jù),包括:設短文本對為(Sn1,Sn2),對應的文本向量為(Tn1,Tn2),分別計算向量Tn1和Tn2對應維度的差值Δi,i=(1,2,......,K)。定義差值區(qū)間,依據(jù)短文本對各維度的差值Δi隸屬的區(qū)間范圍,分別統(tǒng)計每個差值區(qū)間中特征的數(shù)量,作為文本向量的特征數(shù)據(jù)。優(yōu)選的,還包括隨機向量生成單元,用于若word2vec深度學習模型不包含的詞w,則該詞用一個隨機生成的n維向量表示,向量各維度取值在[0,1],且相同詞對應同一個隨機向量。本發(fā)明還提供了一種基于深度學習模型Word2Vec的短文本語義相似性判別設備,包括前述任一項所述的系統(tǒng)。本發(fā)明通過將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型的技術方案,在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果,創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別;從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率。附圖說明圖1為根據(jù)本發(fā)明的基于深度學習模型Word2Vec的短文本語義相似性判別方法的實施例一的流程圖;圖2為根據(jù)本發(fā)明的基于深度學習模型Word2Vec的短文本語義相似性判別系統(tǒng)的實施例二的示意圖;圖3為根據(jù)本發(fā)明的第一模型訓練模塊的實施例二的示意圖;圖4為根據(jù)本發(fā)明的第二模型訓練模塊的實施例二的示意圖;圖5為根據(jù)本發(fā)明的提取單元的實施例二的示意圖;圖6為根據(jù)本發(fā)明的基于深度學習模型Word2Vec的短文本語義相似性判別設備的實施例三的結構框圖。具體實施方式為了使本
技術領域:
的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范圍。需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。實施例一參照圖1,圖1示出了一種基于深度學習模型Word2Vec的短文本語義相似性判別方法的流程圖。包括:步驟S110和步驟S120。在步驟S110中,將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合。在步驟S120中,提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型。進一步的,所述將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合,包括:獲取中文語料集,所述中文語料集包括但不限于中文維基百科中文語料集;本發(fā)明實施例一優(yōu)選用中文維基百科中文語料集為中文語料集,該中文語料集包含25萬多篇中文語料,約1.2G。將獲取的中文語料集預處理為深度學習模型word2vec支持的輸入格式的文本數(shù)據(jù);預處理的步驟包括:對中文語料集經(jīng)過繁體轉簡體、字符編碼統(tǒng)一換成UTF-8、分詞、所有英文字符小寫等預處理為深度學習模型word2vec支持的輸入格式的文本數(shù)據(jù)。將預處理后的文本數(shù)據(jù)輸入至深度學習模型word2vec中,并調取word2vec中的參數(shù)調優(yōu)后進行模型訓練,得到目標維度的詞向量集合。模型訓練的參數(shù)優(yōu)選如下:用skip-gram模型,采樣閾值為10-5,訓練窗口大小為5,輸出向量維度為300,其它參數(shù)使用默認值,模型訓練完成后即可以得到維度為300的詞向量集合。進一步的,所述提取所述多維的詞向量集合的特征數(shù)據(jù),包括但不限于:提取詞粒度的語義特征數(shù)據(jù)、文本粒度的語義相似性特征數(shù)據(jù)和文本粒度的向量維度特征數(shù)據(jù)。進一步的,提取詞粒度的語義特征數(shù)據(jù)的方法包括:通過公式在詞粒度上對短文本對進行最大值,中位數(shù),最小值等三個語義特征的提取;其中,(Sl,Ss)為文本對,Sl表示較長的文本,Ss表示較短的文本,avgsl表示訓練語料集中句子的平均長度,k1和b為模型參數(shù),起到平滑的作用,IDF(w)是詞w的逆向文檔頻率,詞w和短文本S之間的語義相似性可以表示為sem(w,s):其中函數(shù)fsem為計算的兩個詞向量之間的語義相似度,使用的是余弦相似度,詞向量源于訓練得到的word2vec模型。fsts計算的總體分值可以基于詞粒度表征短文本之間的語義相似性,但是為了獲取更多的特征,對fsts計算過程中的累加項進行提取,分別提取最大值,中位數(shù),最小值等三個特征。優(yōu)選的,若word2vec深度學習模型不包含的詞w,則該詞用一個隨機生成的n維向量表示,如用300維向量表示,向量各維度取值在[0,1],且相同詞對應同一個隨機向量。進一步的,提取文本粒度的語義相似性特征數(shù)據(jù)的方法包括:一個文本的向量定義為T,詞向量w通過公式:計算文本向量后,分別通過余弦距離和歐氏距離計算文本粒度之間的語義相似性特征數(shù)據(jù);其中,N表示短文本中詞的數(shù)量。進一步的,提取文本粒度的向量維度特征數(shù)據(jù)的方法包括:設短文本對為(Sn1,Sn2),對應的文本向量為(Tn1,Tn2),分別計算向量Tn1和Tn2對應維度的差值Δi,i=(1,2,......,K)。定義差值區(qū)間,依據(jù)短文本對各維度的差值Δi隸屬的區(qū)間范圍,分別統(tǒng)計每個差值區(qū)間中特征的數(shù)量,作為文本向量的特征數(shù)據(jù)。一優(yōu)選實施例,定義差值區(qū)間為高度相似維度差值區(qū)間、中等相似維度差值區(qū)間、一般相似維度差值區(qū)間和不相似維度差值區(qū)間,統(tǒng)計短文本對的文本向量中高度相似維度、中等相似維度、一般相似維度和不相似維度的數(shù)量,作為短文本對的四個特征。其中,通過實驗確定四個差值區(qū)間的差值范圍如表1所示:表1差值區(qū)間差值范圍高度相似負無窮-0.001中等相似0.001-0.01一般相似0.01-0.02不相似0.02-無窮大兩個向量之間的余弦相似度,可以解釋成不同維度上差異性的聚合,但其本身也未提煉出兩個向量之間所有的相似性或差異性。例如,在大部分維度都相似但少數(shù)維度不同的兩個向量,與所有維度都有細微差異的兩個向量,余弦相似度的計算結果可能相同;但從直觀上理解,這兩種情況的相似度應該是不同的,本發(fā)明提供的提取文本粒度的向量維度特征數(shù)據(jù)的方法可以解決上述技術問題。進一步的,將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型,包括:將特征數(shù)據(jù)的短文本對列表與標注數(shù)據(jù)的標注標簽列表同時輸入至SVC模型中,同時調取詞向量集、特征提取算子進行模型訓練,將訓練的預測模型輸出,得到短文本語義相似性判別模型。一具體應用例子,在word2vec模型訓練的高維詞向量的基礎上,以同/近義短文本庫作為標注數(shù)據(jù),該數(shù)據(jù)集由短文本對和對應的標注標簽組成,標注標簽取值范圍為{0,1},1表示語義相似,0表示語義不相似,通過特征提取算子為每對短文本共提取9個特征與標注數(shù)據(jù)輸入SVC模型進行訓練。算法流程如下:輸入:短文本對列表[(S11,S12),(S21,S22),……,(Sn1,Sn2)]輸入:標注標簽列表L=[L1,L2,……,Ln]數(shù)據(jù)需求:詞向量集[WE1,WE2,……,WEm]數(shù)據(jù)需求:特征提取算子[fe1,fe2,……,fek]輸出:已訓練的預測模型M步驟:在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果。本發(fā)明實施例一通過將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型的技術方案,在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果,創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別;從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率。實施例二參照圖2,圖2示出了本發(fā)明提供的一種基于深度學習模型Word2Vec的短文本語義相似性判別系統(tǒng)200一實施例的結構圖,包括:第一模型訓練模塊21,用于將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合。第二模型訓練模塊22,用于提取第一模型訓練模塊中的所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型。進一步的,如圖3所示,所述第一模型訓練模塊21,包括:獲取單元211,用于獲取中文語料集,所述中文語料集包括但不限于中文維基百科中文語料集。預處理單元212,用于將獲取的中文語料集預處理為深度學習模型word2vec支持的輸入格式的文本數(shù)據(jù)。第一模型訓練單元213,用于將預處理后的文本數(shù)據(jù)輸入至深度學習模型word2vec中,并調取word2vec中的參數(shù)進行模型訓練,得到目標維度的詞向量集合。進一步的,如圖4所示,所述第二模型訓練模塊22,包括:提取單元221,用于提取所述多維的詞向量集合的特征數(shù)據(jù),包括但不限于:提取詞粒度的語義特征數(shù)據(jù)、文本粒度的語義相似性特征數(shù)據(jù)和文本粒度的向量維度特征數(shù)據(jù);第二模型訓練單元222,用于將提取單元提取的特征數(shù)據(jù)的短文本對列表與標注數(shù)據(jù)的標注標簽列表同時輸入至SVC模型中,同時調取詞向量集、特征提取算子進行模型訓練,將訓練的預測模型輸出,得到短文本語義相似性判別模型。進一步的,如圖5所示,所述提取單元221包括:詞粒度的語義特征數(shù)據(jù)提取單元2211,用于提取詞粒度的語義特征數(shù)據(jù),包括:通過公式在詞粒度上對短文本對進行最大值,中位數(shù),最小值等三個語義特征的提??;其中,(Sl,Ss)為文本對,Sl表示較長的文本,Ss表示較短的文本,avgsl表示訓練語料集中句子的平均長度,k1和b為模型參數(shù),起到平滑的作用,IDF(w)是詞w的逆向文檔頻率,詞w和短文本S之間的語義相似性可以表示為sem(w,s):其中函數(shù)fsem為計算的兩個詞向量之間的語義相似度,使用的是余弦相似度,詞向量源于訓練得到的word2vec模型。fsts計算的總體分值可以基于詞粒度表征短文本之間的語義相似性,但是為了獲取更多的特征,對fsts計算過程中的累加項進行提取,分別提取最大值,中位數(shù),最小值等三個特征;文本粒度的語義相似性特征數(shù)據(jù)提取單元2212,用于提取文本粒度的語義相似性特征數(shù)據(jù),包括:一個文本的向量定義為T,詞向量w通過公式:計算文本向量后,分別通過余弦距離和歐氏距離計算文本粒度之間的語義相似性特征數(shù)據(jù);其中,N表示短文本中詞的數(shù)量;文本粒度的向量維度特征數(shù)據(jù)提取單元2213,用于提取文本粒度的向量維度特征數(shù)據(jù),包括:設短文本對為(Sn1,Sn2),對應的文本向量為(Tn1,Tn2),分別計算向量Tn1和Tn2對應維度的差值Δi,i=(1,2,......,K)。定義差值區(qū)間,依據(jù)短文本對各維度的差值Δi隸屬的區(qū)間范圍,分別統(tǒng)計每個差值區(qū)間中特征的數(shù)量,作為文本向量的特征數(shù)據(jù)。優(yōu)選的,還包括隨機向量生成單元(圖中未示),用于若word2vec深度學習模型不包含的詞w,則該詞用一個隨機生成的n維向量表示,向量各維度取值在[0,1],且相同詞對應同一個隨機向量。由于本實施例二的系統(tǒng)所實現(xiàn)的處理及功能基本相應于前述圖1所示的方法的實施例、原理和實例,故本實施例的描述中未詳盡之處,可以參見前述實施例中的相關說明,在此不做贅述。本發(fā)明實施例二通過第一模型訓練模塊將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;又通過第二模型訓練模塊提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型的技術方案,在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果,創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別;從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率。實施例三參照圖6,圖6示出了本發(fā)明提供的一種基于深度學習模型Word2Vec的短文本語義相似性判別設備300,包括實施例二中的任一項所述的系統(tǒng)200。本發(fā)明實施例三通過將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型的技術方案,在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果,創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別;從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。需要指出,根據(jù)實施的需要,可將本申請中描述的各個步驟/部件拆分為更多步驟/部件,也可將兩個或多個步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件,以實現(xiàn)本發(fā)明的目的。上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(諸如CDROM、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現(xiàn)通過網(wǎng)絡下載的原始存儲在遠程記錄介質或非暫時機器可讀介質中并將被存儲在本地記錄介質中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或專用硬件(諸如ASIC或FPGA)的記錄介質上的這樣的軟件處理??梢岳斫猓嬎銠C、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,RAM、ROM、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機轉換為用于執(zhí)行在此示出的處理的專用計算機。以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術領域:
的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。當前第1頁1 2 3