基于最大間隔張量學習的高維多媒體數據分類方法
【專利摘要】本發(fā)明公開了一種基于最大間隔張量學習的高維多媒體數據分類方法。它包括如下步驟:1)建立多媒體數據的訓練數據集;2)對訓練數據集建模,進行分析,得到分類模型;3)根據用戶查詢數據集及分類模型,對查詢數據集分類。本發(fā)明針對多媒體的高維性和結構性,利用張量來表達多媒體數據,并通過最大間隔分類器的方法,對高維的多媒體數據進行分類。在對多媒體數據進行分解分析的同時完成分類,不僅保留了多媒體數據中的結構信息,而且避免了傳統的通過拼合的方法產生的高維數據所引發(fā)的“維數災難”,因此比傳統的多媒體數據分類方法更加準確,并易于計算。
【專利說明】基于最大間隔張量學習的高維多媒體數據分類方法
【技術領域】
[0001]本發(fā)明涉及多媒體分類,尤其涉及一種基于最大間隔張量學習的高維多媒體數據分類方法。
【背景技術】
[0002]隨著計算機存儲技術和網絡技術的發(fā)展,信息不再僅僅是單一的文字或語言,而是以更加多樣化的多媒體形式呈現,包括文本,圖片,聲音,視頻,如圖像數據庫Picasa,視頻數據庫YouTube等。如何有效地獲取、管理和利用這些多媒體數據成為計算機應用技術中越來越重要的研究問題。多媒體分類技術可以幫助用戶有效地查詢、管理這些海量的多媒體數據。一般來說,多媒體數據具有兩個特點。第一,高維性,多媒體數據通常數據量巨大,特征維數高;第二,結構性:多媒體數據存在內部結構關系,如圖像中物體的位置關系,視頻中動作的先后關系。由于傳統的分類方法往往將提取的特征進行簡單的拼合,產生了非常高維的數據,從而在數據的分析中產生“維數災難”。此外,傳統的方法沒有考慮多媒體數據中存在的內部結構信息,因此不能很好地處理和分析海量的高維多媒體數據,從而無法很好地適應用戶需求。
[0003]針對多媒體數據的特點,張量可以用來表達和分析多媒體數據。張量,即多為數組,是對向量和矩陣的自然擴展。多媒體數據可以自然地表達成張量數據,如自然圖像可以認為是由場景結構、光照及主體形象三方面因素共同作用的結果,因此,可以將自然圖像表達成一個三階張量;又如視頻片斷可以表達成“長X寬X時間”的三階張量。在張量的表達中,多媒體數據中所包含的同一類型媒體數據特征被表達為張量的一階。利用張量表達多媒體數據,一定程度避免了從不同類型媒體數據中所提取特征因為拼合而產生的維數災難及過壓縮問題,而且通過張量的表達可以自然地保留多媒體數據中的結構信息。通過對表達成張量的多媒體數據進行分解,可以得到多媒體數據分量的多維線性組合,很好地保留了多媒體數據內部的結構信息。
[0004]另一方面,在數據分類方面,近年來最大間隔的分類器,如支持向量機(supportvector machines),最大間隔馬爾科夫網絡(maximum margin Markov Networks)被廣泛地應用于許多多媒體分類的問題中,并顯示出了很好的分類效果。最大間隔的方法通常將數據映射到一個再生核希爾伯特空間(reproducing kernel Hilbert space)中,建立一個最優(yōu)的分割超平面,將數據間的間隔最大化。最大間隔的分類器由于核的運用,具有很強的擴展性,因而近年來成為一個研究的熱點。
[0005]本發(fā)明針對多媒體的高維性和結構性,利用張量來表達多媒體數據,并通過最大間隔分類器的方法,對高維的多媒體數據進行分類。在對多媒體數據進行分解分析的同時完成分類,不僅保留了多媒體數據中的結構信息,而且避免了傳統的通過拼合的方法產生的高維數據所引發(fā)的“維數災難”。
【發(fā)明內容】
[0006]本發(fā)明的目的在于對多媒體數據進行分類,使得相同主題圖像標注為一類,以方便用戶進行管理、檢索多媒體數據,提出一種基于最大間隔張量學習的高維多媒體數據分類方法基于最大間隔張量學習的高維多媒體數據分類方法包括如下步驟:
[0007](I)建立多媒體數據的訓練數據集,提取不同種類的特征,并對多媒體數據進行標注;
[0008](2)將訓練數據集表達成張量,得到基于最大間隔張量學習的高維多媒體數據分類的目標函數,并對目標函數進行分析,優(yōu)化,得到分類模型;
[0009](3)對用戶查詢數據集提取不同種類的特征,根據分類模型,對查詢數據集標注分類。
[0010]所述的步驟⑴包括:
[0011]所述的建立多媒體數據的訓練數據集,其步驟如下:
[0012]I)編寫爬蟲程序下載用戶所需的多媒體數據,構成多媒體數據集合DATA =ID1,..D1^ f,其中In是集合DATA中的多媒體數據個數;
[0013]2)對DATA中的多媒體數據提取不同種類的特征,T1, , V1, N-1為特征的種類數;
[0014]3)對DATA中的多媒體數據進行標注,正例為“1”,反例為“O” ;
【權利要求】
1.一種基于最大間隔張量學習的高維多媒體數據分類方法,其特征在于包括如下步驟: (1)建立多媒體數據的訓練數據集,提取不同種類的特征,并對多媒體數據進行標注; (2)將訓練數據集表達成張量,得到基于最大間隔張量學習的高維多媒體數據分類的目標函數,并對目標函數進行分析,優(yōu)化,得到分類模型; (3)對用戶查詢數據集提取不同種類的特征,根據分類模型,對查詢數據集標注分類。
2.根據權利要求1所述的一種基于最大間隔張量學習的高維多媒體數據分類方法,其特征在于所述的步驟(I)包括: 1)編寫爬蟲程序下載用戶所需的多媒體數據,構成多媒體數據集合DATA ={DiDiN},其中In是集合DATA中的多媒體數據個數; 2)對DATA中的多媒體數據提取不同種類的特征,T1,, V1, N-1為特征的種類數; 3)對DATA中的多媒體數據進行標注,正例為“I”,反例為“O” ; 4)建立訓練張量XG …χ~,其中I1,...,In^1模態(tài)對應為步驟2)中多媒體數據的特征T1,...,V1, In模態(tài)對應為多媒體數據個數。
3.根據權利要求1所述的一種基于最大間隔張量學習的高維多媒體數據分類方法,其特征在于所述的步驟(2)包括: 1)根據訓練張量X,得到基于最大間隔張量學習的高維多媒體數據分類的目標函數: mil] ||,Υ -Cx1U1 X2 xN UnW2 + Ω(Χ)(I)
s.t.Un > O, I < η < N 其中Ω⑴表示訓練數據的監(jiān)督信息,Un(l≤η≤N)為張量分解后得到的矩陣,C為核張量,其η階展開矩陣C(n)滿足以下條件: a)C(n)的元素全由“O”或“I”組成; b)C(n)的所有行相互正交; c)對于任意的n,C(n)為滿秩; 2)根據張量展開,可以將公式(I)寫作: min I — UnB^W + Ω(Χ ⑷)(、I ;
uN
s.t.Un > 0,1 < η < N 其中,Bw=CX1U1X2...XnA1XntlUntlX^2...XnUn, Χ(η)為訓練張量 X 的 η 階展開矩陣; 令X(n) — [xl'x2> ---'xIn],U(n) = [U1, U2,..WzfJir:將公式⑴中每一個矩陣 Ui轉置并分成Ii個獨立的優(yōu)化問題: nTin||xj - Bln)Ui\\2 + Q(Xi)C2 ;
s.t.Ui > 0,1 < i < In 3)將公式(2)中有監(jiān)督信息,即n=N時的分量引入最大間隔的分類器作為監(jiān)督信息,得到如下的優(yōu)化函數:
4.根據權利要求1所述的一種基于最大間隔張量學習的高維多媒體數據分類方法,其特征在于所述的步驟(3)包括: 1)編寫爬蟲程序下載用戶所需的待分類的多媒體數據,構成多媒體數據測試集合TEST =IDt1,m_lNt},其中〗Nt是集合TEST中的待分類的多媒體數據個數 2)對TEST中的多媒體數據提取不同種類的特征,與訓練時所提取的特征一致,Tt1,...,TV1, N-1為特征的種類數; 3)建立測試張量Xte Vix…x^V,其中I1,...,In^1模態(tài)對應為步驟2)中多媒體數據的特征T1,...,V1, In模態(tài)對應為待分類的多媒體數據個數; 4)根據得到的分類模型參數IU1,...,UN ; α },以及公式(3),計算待分類的多媒體數據的; 5)根據步驟4)中得到的yi;進行以0.5為閾值的二值化操作,獲得待分類的多媒體數據的標簽及分類結果。
【文檔編號】G06F17/30GK103473308SQ201310410604
【公開日】2013年12月25日 申請日期:2013年9月10日 優(yōu)先權日:2013年9月10日
【發(fā)明者】張寅 , 湯斯亮, 譚谞, 邵健, 吳飛, 莊越挺 申請人:浙江大學