專利名稱:一種向量間相似度的計算方法
技術領域:
本發(fā)明涉及一種計算不同向量間相似度或相異度的方法,屬數(shù)據(jù)識別技術領域。
背景技術:
如何計算對象之間相似度是現(xiàn)代科學技術一個非常重要的問題。兩個對象之間的相似度是這兩個對象相似程度的數(shù)值度量。兩個對象越相似,它們的相似度就越高。通常,相似度是非負的,并常常在0(不相似)和1(完全相似)之間取值。一般用一個多維向量來表示一個對象。為了度量兩個向量之間的相似度,通常采用計算向量間的距離的方法(距離越小,相似度越大)。在相似度測量所采用的各種距離中,應用最普遍的是歐幾里得距離和曼哈頓距離,其定義如下p個n維向量,可看作是n維空間的p個點,分別用n維向量xi=(xi1,...,xin)T,i=1,2,...,p來表示,向量xj與向量xk之間的歐幾里得距離計算公式是 向量xj與向量xk之間的曼哈頓距離計算公式是 相似度測量的有關研究表明,不同距離適合于不同分布的數(shù)據(jù),有些情況下,歐幾里得距離和曼哈頓距離并不適用。根據(jù)計算公式(1)和(2),傳統(tǒng)的歐幾里得距離和曼哈頓距離的計算僅考慮了代表對象的向量之間差值的絕對值,忽略了向量間各維差值的具體情況。因此,通過研究向量之間差值的具體特征對相似度測量的影響,找出更精確的相似度距離計算方法,可以能夠有效提高相似度的測量精度。
發(fā)明內容
本發(fā)明的目的是克服已有技術之缺陷而提供一種基于向量之間的差值特征的向量間相似度的計算方法。
本發(fā)明所述問題是以下述技術方案實現(xiàn)的 一種向量間相似度的計算方法,設在n維坐標系中有兩個n維向量xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,定義n維向量xj與n維向量xk間的相似度測量距離是 其中,ED為歐幾里得距離ASD為向量差值和絕對值MSAD為向量差值絕對值和 式中δi(δi≥0,i=1,2,...,n)是給n維向量各維設置的權值系數(shù),根據(jù)n維向量第i維所表達的信息設定, 則n維向量xj=(xj1,...,xjn)T與n維向量xk=(xk1,...,xkn)T之間相似度是 其數(shù)值越大,則兩者越相似,反之,則差異越大。
上述向量間相似度的計算方法,所述權值系數(shù)δi按如下原則取值 A、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)有關,例如位置、長度、寬度、高度、體積等,則δi可以取值為1; B、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)無關,例如顏色、濃度、密度、時間等,則δi的取值范圍為0≤δi<1。
C、如果對n維向量xm各維取值具體定義不明確,則δi=1,i=1,2,...,n。
一種向量間相似度的計算方法,設在n維坐標系中有兩個n維向量xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,定義n維向量xj與n維向量xk間的相似度測量距離是 dMSD(j,k)=ED×(2-ASD/MSAD) 其中,ED為歐幾里得距離ASD為向量差值和絕對值MSAD為向量差值絕對值和 式中δi(δi≥0,i=1,2,...,n)是給n維向量各維設置的權值系數(shù),根據(jù)n維向量第i維所表達的信息設定, 則n維向量xj=(xj1,...,xjn)T與n維向量xk=(xk1,...,xkn)T之間相似度是 其數(shù)值越大,則兩者越相似,反之,則差異越大。
上述向量間相似度的計算方法,各維設置的權值系數(shù)δi按如下原則取值:: a、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)有關,則δi可以取值為1; b、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)無關,則δi的取值范圍為0≤δi<1; c、如果對n維向量xm各維取值具體定義不明確,則δi=1,i=1,2,...,n。
本發(fā)明提出的相似度計算方法,計算簡便,與歐幾里得距離具有近似的復雜度,且對數(shù)據(jù)沒有任何限制。由于本方法采用的差值和絕對值能夠反映向量間差值的分布情況,因而該方法不但考慮了向量間各維差值絕對值的和(如同歐幾里得距離和曼哈頓距離),而且考慮了向量間各維差值的具體特征,即若把向量作為空間中物體,則本發(fā)明的方法從物體的大小和形狀兩個方面進行相似度的計算。故此,本發(fā)明的相似度測量方法具有比傳統(tǒng)方法具有更高的精度,更能逼近實際。
下面結合附圖對本發(fā)明作進一步說明。
圖1-1、圖1-2、圖1-3、圖1-4分別表示二維向量的四個二維物體; 圖2是在二維空間中到原點距離等于1時,SSD、ED和SAD構成的形狀比較; 圖3是在二維空間中到原點距離等于1時,MSD、ED和SAD構成的形狀比較。
圖中各標號表示為a.二維物體a;b.二維物體b;c.二維物體c;d.二維物體d。
文中所用符號為SSD、相似度測量距離,MSD、相似度測量距離,ED、歐幾里得距離,SAD、曼哈頓距離,δi、權值系數(shù),xj、xk、向量。
具體實施例方式 設在n維坐標系中有兩個n維向量xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,n維向量xj與n維向量xk間的差值和絕對值(ASD)定義為 差值和絕對值能夠反映向量間差值的分布情況,當δi=1(i=1,2,...,n)時,有以下性質 a)差值和絕對值的取值范圍是
,其中SAD是曼哈頓距離; b)當參照物向量的各維值均大于等于(或小于等于)待測向量時,即兩者形狀相同或相似而大小存在差異時,差值和絕對值等于曼哈頓距離,即滿足ASD=SAD; c)當參照物向量的各維值部分大于而部分小于待測向量時(形狀差異比較大)時,兩者之間的差值和絕對值小于曼哈頓距離,特殊情況下,差值和絕對值等于零; d)結合前面b)和c),在曼哈頓距離一定的前提條件下,差值和絕對值能夠近似地反映向量間形狀差異的大小,差值和絕對值越大,則兩者的形狀越相似,反之,形狀差異越大。
本發(fā)明利用差值和絕對值的性質,結合傳統(tǒng)的歐幾里得距離和曼哈頓距離,設計了兩種基于向量間差值特征的相似度測量距離,不但考慮了向量間各維差值絕對值的和(如同歐幾里得距離和曼哈頓距離),而且考慮了向量間各維差值的具體特征,故此,本發(fā)明的相似度測量方法具有比傳統(tǒng)方法更高的精度,更能逼近實際。
實施例1.假設有四個二維向量x1=(5,5)T,x2=(4,4)T,x3=(4,6)T和x4=(5,7)T,以向量x1為參照物,分析向量x2,x3,x4與x1之間的相似度。
首先,按照各自的距離定義,分別計算二維向量x2,x3,x4與x1之間的各種距離,計算結果記錄在表1中。根據(jù)表1,二維向量x2,x3,x4與x1之間的曼哈頓距離都是2,表明以曼哈頓距離作為相似度的測量標準,x2,x3,x4與x1具有相同的相似度;相應的歐幾里得距離分別1.414、1.414和2,表示x2,x3與x1具有相同的相似度,并且比x4更接近x1。
表1向量x1=(5,5)T與x2=(4,4)T,x3=(4,6)T和x4=(5,7)T之間的不同距離 注表中計算結果四舍五入,保留小數(shù)點后三位。
如果把這四個二維向量看作二維空間中的四個二維物體,物體的寬度和高度分別取二維自向量各維的數(shù)值,則可用圖1-1、圖1-2、圖1-3、圖1-4中的四個二維物體(a)、(b)、(c)和(d)依次表示二維向量x1,x2,x3和x4。
分析圖1-1、圖1-2、圖1-3、圖1-4,物體(b)、(c)和(d)與物體(a)的寬度和高度的差值的絕對值之和都是2,由于(b)與(a)都屬于正方形,可以看作是物體(a)等比例的縮小,推出(b)與(a)最為相似;由于物體(d)與物體(a)的長度一樣,且與物體(c)相比更接近于正方形,因而物體(d)比物體(c)更接近于物體(a)。顯然,這一結果考慮了四個物體之間的大小和形狀兩個因素,符合人們的日常經(jīng)驗和視覺對比。由此,物體(b)、(c)和(d)與物體(a)的相似度由大到小的排列順序應當是(b)、(d)和(c),若用距離測量四個向量的相似度程度,彼此間的距離應當滿足d(x2,x1)<d(x4,x1)<d(x3,x1)。根據(jù)表1,歐幾里得距離和曼哈頓距離均無法得出準確結果,依據(jù)本發(fā)明的相似度距離計算方法則能夠得出正確的結果。
實施例2.本例采用著名的國際標準的數(shù)據(jù)測試集—Iris數(shù)據(jù)集進行說明。Iris數(shù)據(jù)集共包含150條樣本記錄,分別取自三種不同的鳶尾屬植物Setosa、Versicolor和Virginica的花朵樣本,每一種植物各有50條記錄,其中每條記錄有四個屬性萼片長度(sepallength)、萼片寬度(sepal width)、花瓣長度(petal length)和花瓣寬度(petal width)。
測試中,首先分別計算出三種植物記錄(各有50條)的算術平均值,作為三種植物的標準參照樣本,然后計算數(shù)據(jù)集中所有記錄與三個參照樣本的距離,選擇與其距離最近的參照樣本的類別作為該記錄的類別,進行分類。計算后分類結果記錄在表2中。
表2依據(jù)不同距離作為相似度測量標準,Iris數(shù)據(jù)集的分類結果對比
注由于數(shù)據(jù)集中的數(shù)據(jù)表述了物體的形狀,本發(fā)明的相似度測量距離的計算中,向量各維設置的權值系數(shù)δ均取值為1. 根據(jù)表2,應用歐幾里得距離和曼哈頓距離進行分類,其錯誤分類數(shù)都是11,應用本發(fā)明的兩種相似度計算方法,其錯誤分類數(shù)分別是5和7,錯誤分類數(shù)目分別下降了54.5%和36.4%。顯然本發(fā)明方法能夠獲得比歐幾里得距離和曼哈頓距離更好的分類效果,具有更高的精度。
圖2、3結合具體實例對各相似度距離之間的差異作了進一步的說明,圖2是在二維空間中到原點距離等于1時,SSD、ED和SAD構成的形狀。分析圖2,到原點的曼哈頓距離等于1的所有點構成了菱形,表明了按照曼哈頓距離進行相似度測量,菱形上的各個點與原點具有相同的相似度;到原點的歐幾里得距離等于1的所有點構成了圓形,表明了按照歐幾里得距離進行相似度測量,圓形上的各個點與原點具有相同的相似度;到原點的相似度測量距離SSD等于1的所有點構成不規(guī)則的類似橢圓的圖形,表明了按照相似度測量距離(本發(fā)明方法一)SSD進行相似度測量,這個不規(guī)則的類似橢圓的圖形上的各個點與原點具有相同的相似度。
圖3是在二維空間中到原點距離等于1時,MSD、ED和SAD構成的形狀。分析圖3,到原點的曼哈頓距離等于1的所有點構成了菱形,表明了按照曼哈頓距離進行相似度測量,菱形上的各個點與原點具有相同的相似度;到原點的歐幾里得距離等于1的所有點構成了圓形,表明了按照歐幾里得距離進行相似度測量,圓形上的各個點與原點具有相同的相似度;到原點的相似度測量距離MSD距離等于1的所有點構成不規(guī)則的圖形,表明了按照相似度測量距離MSD進行相似度測量,這個不規(guī)則的圖形上的各個點與原點具有相同的相似度。
權利要求
1、一種向量間相似度的計算方法,設在n維坐標系中有兩個n維向量xj=(xjl,...,xjn)T和xk=(xkl,...,xkn)T,定義n維向量xj與n維向量xk間的相似度測量距離是
其中,ED為歐幾里得距離ASD為向量差值和絕對值
MSAD為向量差值絕對值和
式中δi(δi≥0,i=1,2,...,n)是給n維向量各維設置的權值系數(shù),根據(jù)n維向量第i維所表達的信息設定,
則n維向量xj=(xjl,...,xjn)T與n維向量xk=(xk1,...,xkn)T之間相似度是
其數(shù)值越大,則兩者越相似,反之,則差異越大。
2、根據(jù)權利要求1所述向量間相似度的計算方法,其特征是,所述權值系數(shù)δi按下述原則取值
A、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)有關,則δi取值為1;
B、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)無關,則δi取值為0≤δi<1;
C、如果對n維向量xm各維取值具體定義不明確,則δi=1,i=1,2,...,n。
3、一種向量間相似度的計算方法,設在n維坐標系中有兩個n維向量xj=(xjl,...,xjn)T和xk=(xk1,...,xkn)T,定義n維向量xj與n維向量xk間的相似度測量距離是
dMSD(j,k)=ED×(2-ASD/MSAD)
其中,ED為歐幾里得距離ASD為向量差值和絕對值
MSAD為向量差值絕對值和
式中δi(δi≥0,i=1,2,...,n)是給n維向量各維設置的權值系數(shù),根據(jù)n維向量第i維所表達的信息設定,
則n維向量xj=(xj1,...,xjn)T與n維向量xk=(xk1,...,xkn)T之間相似度是
其數(shù)值越大,則兩者越相似,反之,則差異越大。
4、根據(jù)權利要求3所述向量間相似度的計算方法,其特征是,所述權值系數(shù)δi按下述原則取值
a、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)有關,則δi可以取值為1;
b、如果n維向量xm第i維值xmi表達的信息與物體的形態(tài)無關,則δi的取值范圍為0≤δi<1;
c、如果對n維向量xm各維取值具體定義不明確,則δi=1,i=1,2,...,n。
全文摘要
一種向量間相似度的計算方法,屬數(shù)據(jù)識別技術領域,用于判斷向量間的相似度。其技術方案是定義n維向量xj與xk間的相似度距離是dSSD(j,k)=ED×[1+COS(ASD/MSAD×π/2)]或dMSD(j,k)=ED×(2-ASD/MSAD),則n維向量xj與xk之間相似度是s(j,k)=1/(dSSD+1)或s(j,k)=1/(dMSD+1),其數(shù)值越大,則兩者越相似,反之,則差異越大。本發(fā)明不但考慮了向量間各維差值絕對值的和,而且考慮了向量間各維差值的具體特征,因而比傳統(tǒng)方法具有更高的精度,更能逼近實際。
文檔編號G06K9/62GK101488190SQ20091007383
公開日2009年7月22日 申請日期2009年2月27日 優(yōu)先權日2009年2月27日
發(fā)明者中 李, 苑津莎, 宏 楊 申請人:華北電力大學(保定)