一種用于文本分類的多任務機器學習方法及其裝置制造方法
【專利摘要】本發(fā)明公開了一種用于文本分類的多任務機器學習方法及其裝置,本發(fā)明特點在于同時利用任務關系建模和文本數(shù)據(jù)鏈接結構,對回歸矩陣和樣本預估標簽值之間的差異進行概率建模,然后基于采樣技術和凸優(yōu)化方法對上述概率模型提出參數(shù)學習方法,最后得到準確度較高的回歸矩陣并用其進行文本分類。通過利用本發(fā)明所述的方案,一方面,協(xié)方差矩陣中包含的多任務間相關關系信息得到了利用能提高參數(shù)學習準確度以提高分類準確度,另一方面通過對文本數(shù)據(jù)鏈接結構建??梢杂行浹a訓練樣本不足帶來的過擬合問題。
【專利說明】—種用于文本分類的多任務機器學習方法及其裝置
【技術領域】
[0001]本發(fā)明屬于文本處理【技術領域】,涉及一種文本分類的多任務機器學習方法,特別涉及一種利用數(shù)據(jù)鏈接結構和任務關系建模進行文本分類的多任務機器學習方法。
【背景技術】
[0002]多任務學習已經在數(shù)據(jù)挖掘和機器學習領域引起了極大的關注。它主要旨在通過多種任務一起學習來提高算法的性能。多任務學習已經被廣泛應用于模式識別、計算機視覺和生物信息學等諸多領域?,F(xiàn)有的大多數(shù)多任務學習算法都是建立在一個基本的假設上:所有任務可以通過某種結構關聯(lián)起來。這樣的結構既可以通過直接推斷任務的相關性得到,也可以通過學習一個多種任務共同享有的特征表示得到。
[0003]本發(fā)明希望把現(xiàn)有的技術拓展到高維帶有鏈接結構的文本數(shù)據(jù)上,這樣的數(shù)據(jù)存在于很多應用中,例如個人的網頁、研究性文章和在線的新聞文章。這些數(shù)據(jù)一般都含有鏈接信息,比如存在于個人主頁之間的超鏈接,文章之間的引用信息和新聞文章的來源。在這些結構化的數(shù)據(jù)上進行多任務學習為我們帶來了新的挑戰(zhàn):如何有效的讓多任務學習算法利用這些鏈接信息。
[0004]正則化方法被廣泛用于多任務學習來進行多任務相關性建模。例如,可以使用12>1范數(shù)來學習一個多任務共享的低維表示,也可以在多任務學習中弓丨入跡范數(shù)(trace norm)正則。但是,在實際應用中所有的任務并不是統(tǒng)一相關聯(lián)。因此,簡單的把所有任務使用特定的結構集中在一起學習可能會降低算法的性能。為了解決這一問題,一些當前的多任務學習算法對任務關系建模做了一些實質性的研究工作。例如,一些多任務學習算法通過估計回歸矩陣的協(xié)方差矩陣來對任務關系進行建模。這些方法共同的問題在于它們沒有考慮文本數(shù)據(jù)的鏈接結構。
[0005]由于樣本之間的鏈接隱含著它們直接的相關性,因此,傳統(tǒng)的忽略了鏈接結構的多任務學習方法就可能不適用。另一方面,多任務學習經常被應用于學習任務本身的訓練樣本極其有限的情況,因此,鏈接結構信息可以被視為一種有價值的輔助信息來彌補這一不足。
【發(fā)明內容】
[0006]本發(fā)明的目的在于克服上述已有技術缺點,提出一種基于貝葉斯的任務關系建模和數(shù)據(jù)鏈接結構的文本分類的多任務機器學習方法及其裝置,從而能夠有效提升文本數(shù)據(jù)分類的精度。
[0007]為實現(xiàn)上述目的,本發(fā)明的用于文本分類的多任務機器學習方法首先引入幾百個分類任務的文本數(shù)據(jù)及其相對應的標簽數(shù)據(jù);進而對上述數(shù)據(jù)建立優(yōu)化模型,通過利用回歸矩陣的協(xié)方差結構和鏈接結構的多任務機器學習方法,對回歸矩陣進行學習;最后利用多任務學習到的回歸矩陣對測試文本進行分類。具體步驟包括:
[0008]輸入分類任務的文本數(shù)據(jù)及其對應的標簽數(shù)據(jù),對文本數(shù)據(jù)使用文本處理的方法提取特征,得到文本數(shù)據(jù)的觀測向量和標簽值,所述的文本數(shù)據(jù)包括訓練數(shù)據(jù)和測試數(shù)據(jù);
[0009]通過計算標簽值和觀測向量乘以回歸矩陣之間的差得到殘差,對殘差進行概率建模;
[0010]通過對回歸矩陣w = (Wl,...,wd)進行多層概率建模,
[0011]W?Fw(2)
[0012]Σ ?Fj; (Ψ,Φ, v)
[0013]其中Fw,F(xiàn)e分別為W,Σ設定的概率分布,其中Wi是第i個任務的回歸向量,i =
1d.x j...j να ,
[0014]然后對存在鏈接的樣本之間的預估標簽值的差異進行概率建模;
[0015]在已有的采樣技術和凸優(yōu)化的方法基礎上,提出以上所述的多層概率模型以及差異概率模型中的參數(shù)更新學習方法,優(yōu)化回歸矩陣;
[0016]重復更新學習方法,直至諸參數(shù)收斂;
[0017]利用本發(fā)明所提出的多任務機器學習方法學習得到的回歸矩陣和輸入的測試文本的觀測向量得到測試文本標簽的估計值,以此估計標簽值對測試文本數(shù)據(jù)進行分類。
[0018]本發(fā)明的另一目的還在于提供一種用于文本分類的多任務機器學習分類器,其特征在于,包括以下三個模塊:
[0019]1)文本數(shù)據(jù)預處理模塊,其輸入為文本數(shù)據(jù)及其對應的標簽數(shù)據(jù),輸出分別為文本數(shù)據(jù)的觀測向量和標簽值,用于對文本數(shù)據(jù)使用文本處理的方法提取得到文本數(shù)據(jù)的觀測向量和標簽值;
[0020]2)回歸矩陣和樣本預估標簽值差異概率建模參數(shù)學習模塊,其輸入為文本數(shù)據(jù)的觀測向量及其對應的標簽值,其輸出為回歸矩陣。對回歸矩陣進行多層概率建模,或者對回歸矩陣進行單獨的高斯概率建模;對存在鏈接的任意兩個文本,通過其觀測向量乘以回歸矩陣,計算各自的預估標簽值,對預估標簽值的差異進行概率建模,通過已有的采樣和凸優(yōu)化的方法對上述概率模型中的參數(shù)進行學習,優(yōu)化回歸矩陣;
[0021]3)文本數(shù)據(jù)分類模塊,其輸入為回歸矩陣和測試文本數(shù)據(jù)觀測向量,其輸出為測試文本標簽的估計值,利用回歸矩陣和樣本預估標簽值差異概率建模參數(shù)學習模塊中學習得到的回歸矩陣W和輸入的測試文本的觀測向量得到測試文本的標簽估計值,以此估計標簽值對測試文本數(shù)據(jù)進行分類。
[0022]本發(fā)明的優(yōu)點是:同時利用回歸矩陣的多層概率建模和文本數(shù)據(jù)的鏈接結構。通過鏈接結構能夠提高任務關系學習的準確度,從而有效提高回歸矩陣的學習準確度,進一步能提高文本數(shù)據(jù)分類的準確度。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明的用于文本分類的多任務機器學習方法實施例的流程圖;
[0024]圖2本發(fā)明一種用于文本分類的多任務機器學習分類器實施例的示意圖。
【具體實施方式】
[0025]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0026]相反,本發(fā)明涵蓋任何由權利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進一步,為了使公眾對本發(fā)明有更好的了解,在下文對本發(fā)明的細節(jié)描述中,詳盡描述了一些特定的細節(jié)部分。對本領域技術人員來說沒有這些細節(jié)部分的描述也可以完全理解本發(fā)明。
[0027]本發(fā)明實施例一提供一種用于文本分類的多任務機器學習方法,其包括以下步驟:
[0028]輸入分類任務的訓練文本數(shù)據(jù)及其對應的標簽數(shù)據(jù):給定d個分類任務,對第任意i個分類任務,i = 1,...,d,訓練數(shù)據(jù)包含ni個訓練樣本和標簽數(shù)據(jù)對
【權利要求】
1.一種用于文本分類的多任務機器學習方法,其特征在于包括如下步驟:步驟1:輸入分類任務的文本數(shù)據(jù)及其對應的標簽數(shù)據(jù),對文本數(shù)據(jù)使用文本處理的方法提取特征,得到文本數(shù)據(jù)的觀測向量和標簽值,所述的文本數(shù)據(jù)包括訓練數(shù)據(jù)和測試數(shù)據(jù);步驟2:通過計算標簽值和觀測向量乘以回歸矩陣之間的差得到殘差,對殘差進行概率建模,并設定殘差服從某一概率分布;對回歸矩陣及其協(xié)方差矩陣進行多層概率建模,或者對回歸矩陣進行單獨的高斯概率建模;對存在鏈接的任意兩個文本,通過其觀測向量乘以回歸矩陣,計算各自的預估標簽值,對預估標簽值之間的差異進行概率建模;基于采樣技術和凸優(yōu)化的方法,對以上所述的多層概率模型以及差異概率模型中的參數(shù)更新學習方法,優(yōu)化回歸矩陣;重復更新學習方法,直至諸參數(shù)收斂;步驟3:利用上述步驟學習得到的回歸矩陣W和輸入的測試文本的觀測向量得到測試文本的標簽估計值,以此估計標簽值對測試文本數(shù)據(jù)進行分類。
2.—種用于文本分類的多任務機器學習分類器,其特征在于,包括:文本數(shù)據(jù)預處理模塊,其輸入為文本數(shù)據(jù)及其對應的標簽數(shù)據(jù),輸出分別為文本數(shù)據(jù)的觀測向量和標簽值,對文本數(shù)據(jù)使用文本處理的方法提取特征得到文本數(shù)據(jù)的觀測向量和標簽值,所述的文本數(shù)據(jù)包括訓練數(shù)據(jù)和測試數(shù)據(jù);回歸矩陣和樣本預估標簽值的差異概率建模參數(shù)學習模塊,其輸入為文本數(shù)據(jù)的觀測向量及其對應的標簽值,其輸出為回歸矩陣;用于:通過計算標簽值和觀測向量乘以回歸矩陣之間的差得到殘差,對殘差進行概率建模,并設定殘差服從某一概率分布;對回歸矩陣及其協(xié)方差矩陣進行多層概率建模,或者對回歸矩陣進行單獨的高斯概率建模;對存在鏈接的任意兩個文本,通過其觀測向量乘以回歸矩陣,計算各自的預估標簽值,對預估標簽值之間的差異進行概率建模;在已有的采樣技術和凸優(yōu)化的方法基礎上,提出以上所述的概率模型中的參數(shù)更新學習方法,優(yōu)化回歸矩陣,重復更新學習算法,直至諸參數(shù)收斂;文本數(shù)據(jù)分類模塊,其輸入為回歸矩陣和測試文本數(shù)據(jù)觀測向量,其輸出為測試文本標簽的估計值,利用回歸矩陣和樣本預估標簽值的差異概率建模參數(shù)學習模塊學習得到的回歸矩陣W和輸入的測試文本的觀測向量得到測試文本的標簽估計值,以此估計標簽值對測試文本數(shù)據(jù)進行分類。
【文檔編號】G06F17/30GK103678580SQ201310674306
【公開日】2014年3月26日 申請日期:2013年12月7日 優(yōu)先權日:2013年12月7日
【發(fā)明者】李英明, 楊名, 祁仲昂, 張仲非 申請人:浙江大學