技術總結
本發(fā)明提供了一種基于深度學習模型Word2Vec的短文本語義相似性判別方法和系統(tǒng),方法包括:將獲取的中文語料集進行文本預處理后輸入至深度學習模型word2vec中進行模型訓練得到多維的詞向量集合;提取所述多維的詞向量集合的特征數(shù)據(jù),將所述特征數(shù)據(jù)與標注數(shù)據(jù)同時輸入至SVC模型中進行模型訓練,得到短文本語義相似性判別模型。通過本發(fā)明提供的技術方案,在社交網(wǎng)絡文本分析場景中,將待判別的兩個短文本輸入到上一步訓練的模型中,即可輸出語義相似性的判別結果,創(chuàng)新地將深度學習算法應用于解決自然語言處理中的短文本語義相似性判別;從詞粒度到文本粒度構建特征工程,詳盡地表達了短文本局部及總體特征,提升了短文本語義相似性判別的準確率。
技術研發(fā)人員:曹杰;馮雨暉;宿曉坤;楊睿;何源浩
受保護的技術使用者:北京紅馬傳媒文化發(fā)展有限公司
文檔號碼:201710070391
技術研發(fā)日:2017.02.09
技術公布日:2017.06.13