本發(fā)明涉及一種基于投票委員會(huì)的k最近鄰分類方法。
背景技術(shù):
在一般的物體識(shí)別方法中,在得出目標(biāo)物體的特征信息之后,需要將此特征信息與已知數(shù)據(jù)庫(kù)中表示物體的類別的特征信息進(jìn)行比較,方能做出判斷目標(biāo)物體的類別。一般對(duì)于多分類問(wèn)題而言,knn分類方法是一個(gè)簡(jiǎn)單且有效的分類方法。
傳統(tǒng)knn分類方法的做法是,將數(shù)據(jù)庫(kù)中不同的類別形成一個(gè)特征空間,每個(gè)類別的特征向量單獨(dú)形成一個(gè)獨(dú)立的區(qū)域。當(dāng)希望對(duì)表示某種物體的新得到的特征向量進(jìn)行分類時(shí),需計(jì)算新特征向量到每個(gè)類別的特征向量組成的區(qū)域的距離(設(shè)其距離為dmin),當(dāng)新特征向量到a類別的特征向量組成的區(qū)域的距離最小時(shí),將該新特征向量所表述的物體歸屬于a類別。需要對(duì)dmin進(jìn)行衡量,為此需確定一個(gè)閾值,當(dāng)dmin大于該閾值時(shí),分類結(jié)果將被舍棄,即認(rèn)為新特征向量不屬于原數(shù)據(jù)庫(kù)中的任何一種類別。
knn分類方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于knn分類方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因而無(wú)需估計(jì)參數(shù),無(wú)需訓(xùn)練,對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),knn分類方法較其他方法更為適合。
但是,這種傳統(tǒng)做法邏輯簡(jiǎn)單,但是分類能力較差,分類能力主要取決于用于分類的特征向量的強(qiáng)弱,但數(shù)據(jù)庫(kù)類別較多或特征向量的描述性不夠強(qiáng)時(shí),常陷入到無(wú)法確定閾值、分類效果差的情況。常用的knn分類方法往往缺乏有效的閾值確定方式,而難以有效的工作。對(duì)于家用移動(dòng)機(jī)器人的實(shí)際應(yīng)用而言,這遠(yuǎn)遠(yuǎn)不能滿足要求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的旨在解決現(xiàn)有技術(shù)中存在的上述問(wèn)題和缺陷的至少一個(gè)方面。
根據(jù)本發(fā)明的一個(gè)方面,提供一種基于投票委員會(huì)的k最近鄰分類方法,包括如下的步驟:
s1:建立分類數(shù)據(jù)庫(kù),在所述分類數(shù)據(jù)庫(kù)中存在m種物體類別,m為大于1的整數(shù),每種物體類別由至少一個(gè)第一特征向量表示;
s2:獲取表示類別待確定的物體的第二特征向量;
s3:將第二特征向量與分類數(shù)據(jù)庫(kù)中的表示m種物體類別的m組第一特征向量分別進(jìn)行對(duì)比,并計(jì)算它們之間的相關(guān)系數(shù),得到m組相關(guān)系數(shù),每組相關(guān)系數(shù)中包括n個(gè)相關(guān)系數(shù),n為大于1的整數(shù);
s4:針對(duì)m組相關(guān)系數(shù)的每一組中,將相關(guān)系數(shù)按照從高到低的順序排列,選取前a個(gè)相關(guān)系數(shù)組成投票委員會(huì),a為小于等于n的正整數(shù),從而組成m組投票委員會(huì);
s5:針對(duì)m組投票委員會(huì),分別對(duì)每組中的a個(gè)相關(guān)系數(shù)進(jìn)行加權(quán)相加,得到m組加權(quán)和;以及
s6:從m組加權(quán)和中選取加權(quán)和值最高的一組和加權(quán)和值次高的一組,在最高的加權(quán)和值減去次高的加權(quán)和值的差值大于或等于差值閾值,且最高的加權(quán)和值大于或等于決定閾值的情況下,將第二特征向量所表示的物體類別歸屬為最高的加權(quán)和值所表示的物體類別,否則認(rèn)為類別待確定的物體不屬于分類數(shù)據(jù)庫(kù)中的m種物體類別中的任一種。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,在步驟s2中,如果m組相關(guān)系數(shù)的一組中的最大相關(guān)系數(shù)小于特定閾值,則舍棄該組相關(guān)系數(shù),對(duì)剩余的若干組相關(guān)系數(shù)執(zhí)行步驟s3至s6中的處理,所述特定閾值位于0.1至0.6之間。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述差值閾值位于0.15至0.3的范圍內(nèi)。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述決定閾值位于1至3的范圍內(nèi)。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述相關(guān)系數(shù)是歐式距離、余弦距離或皮爾森相關(guān)系數(shù)中的一種。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述相關(guān)系數(shù)為皮爾森系數(shù)。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,加權(quán)方式是線性加權(quán)、指數(shù)加權(quán)、sigmoid型加權(quán)中的一種。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,加權(quán)方式是sigmoid型加權(quán)。
通過(guò)根據(jù)本發(fā)明的基于投票委員會(huì)的k最近鄰分類算法,通過(guò)規(guī)定最高的加權(quán)和值和次高的加權(quán)和值之間的差值需大于或等于差值閾值,并且最高的加權(quán)和值需大于或等于決定閾值,那么通過(guò)兩個(gè)閾值的限定可以更加精確地確定物體所歸屬的類別,大大提高了分類的準(zhǔn)確度。
附圖說(shuō)明
圖1是根據(jù)本發(fā)明的示例性實(shí)施例的基于投票委員會(huì)的k最近鄰分類方法的流程圖。
具體實(shí)施方式
下面通過(guò)實(shí)施例,并結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體的說(shuō)明。下述參照附圖對(duì)本發(fā)明實(shí)施方式的說(shuō)明旨在對(duì)本發(fā)明的總體發(fā)明構(gòu)思進(jìn)行解釋,而不應(yīng)當(dāng)理解為對(duì)本發(fā)明的一種限制。
另外,在下面的詳細(xì)描述中,為便于解釋,闡述了許多具體的細(xì)節(jié)以提供對(duì)本披露實(shí)施例的全面理解。然而明顯地,一個(gè)或多個(gè)實(shí)施例在沒(méi)有這些具體細(xì)節(jié)的情況下也可以被實(shí)施。
根據(jù)本發(fā)明的總的發(fā)明構(gòu)思,提供一種基于投票委員會(huì)的k最近鄰分類方法,包括如下的步驟:
s1:建立分類數(shù)據(jù)庫(kù),在所述分類數(shù)據(jù)庫(kù)中存在m種物體類別,m為大于1的整數(shù),每種物體類別由至少一個(gè)第一特征向量表示;
s2:獲取表示類別待確定的物體的第二特征向量;
s3:將第二特征向量與分類數(shù)據(jù)庫(kù)中的表示m種物體類別的m組第一特征向量分別進(jìn)行對(duì)比,并計(jì)算它們之間的相關(guān)系數(shù),得到m組相關(guān)系數(shù),每組相關(guān)系數(shù)中包括n個(gè)相關(guān)系數(shù),n為大于1的整數(shù);
s4:針對(duì)m組相關(guān)系數(shù)的每一組中,將相關(guān)系數(shù)按照從高到低的順序排列,選取前a個(gè)相關(guān)系數(shù)組成投票委員會(huì),a為小于等于n的正整數(shù),從而組成m組投票委員會(huì);
s5:針對(duì)m組投票委員會(huì),分別對(duì)每組中的a個(gè)相關(guān)系數(shù)進(jìn)行加權(quán)相加,得到m組加權(quán)和;以及
s6:從m組加權(quán)和中選取加權(quán)和值最高的一組和加權(quán)和值次高的一組,在最高的加權(quán)和值減去次高的加權(quán)和值的差值大于或等于差值閾值,且最高的加權(quán)和值大于或等于決定閾值的情況下,將第二特征向量所表示的物體類別歸屬為最高的加權(quán)和值所表示的物體類別,否則認(rèn)為類別待確定的物體不屬于分類數(shù)據(jù)庫(kù)中的m種物體類別中的任一種。
通過(guò)根據(jù)本發(fā)明的基于投票委員會(huì)的k最近鄰分類算法,通過(guò)規(guī)定最高的加權(quán)和值和次高的加權(quán)和值之間的差值需大于或等于差值閾值,并且最高的加權(quán)和值需大于或等于決定閾值,那么通過(guò)兩個(gè)閾值的限定可以更加精確地確定物體所歸屬的類別,大大提高了分類的準(zhǔn)確度。此外,在分類數(shù)據(jù)庫(kù)中,當(dāng)同一物體的樣本是基于多個(gè)角度、多個(gè)距離、多種光照條件下獲得的圖片時(shí),分類數(shù)據(jù)庫(kù)中同一物體可以由多個(gè)不同的第一特征向量表示,根據(jù)本發(fā)明的基于投票委員會(huì)的k最近鄰分類算法利用了多角度樣本間的共性,為適應(yīng)多種類多角度分類提供了良好的基礎(chǔ)。
在根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例中,在步驟s2中,如果m組相關(guān)系數(shù)的一組中的最大相關(guān)系數(shù)小于特定閾值,則舍棄該組相關(guān)系數(shù),對(duì)剩余的若干組相關(guān)系數(shù)執(zhí)行步驟s3至s6中的處理,所述特定閾值位于0.1至0.6之間。通過(guò)限定該相關(guān)系數(shù)的閾值,可以初步排除明顯不合適的物體類別,例如如果第二特征向量和某組第一特征向量之間的相關(guān)系數(shù)都小于0.1,那么可以認(rèn)為第二特征向量所表示的物體明顯不是該組第一特征向量所表示的物體。通過(guò)初步篩選可以降低該方法的計(jì)算量。
在根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例中,所述差值閾值位于0.15至0.3的范圍內(nèi)。具體的差值閾值的值可以根據(jù)實(shí)際情況而定。如上的范圍只是差值閾值的優(yōu)選范圍。
在根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例中,所述決定閾值位于1至3的范圍內(nèi)。具體的決定閾值的值可以根據(jù)實(shí)際情況而定。如上的范圍只是決定閾值的優(yōu)選范圍。
在根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例中,所述相關(guān)系數(shù)是歐式距離、余弦距離或皮爾森相關(guān)系數(shù)中的一種。如上僅僅列舉出了相關(guān)系數(shù)的優(yōu)選實(shí)施例,能夠計(jì)算相關(guān)系數(shù)的所有計(jì)算方式均應(yīng)落在本發(fā)明的保護(hù)范圍之內(nèi)。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述相關(guān)系數(shù)為皮爾森系數(shù),其計(jì)算式由如下的計(jì)算式表示:
r表示x,y兩個(gè)長(zhǎng)度為n的向量的相關(guān)性,
在根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例中,加權(quán)方式是線性加權(quán)、指數(shù)加權(quán)、sigmoid型加權(quán)中的一種。如上僅僅列舉出了加權(quán)方式的優(yōu)選實(shí)施例,能夠計(jì)算權(quán)重值的所有計(jì)算方式均應(yīng)落在本發(fā)明的保護(hù)范圍之內(nèi)。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,加權(quán)方式是sigmoid型加權(quán),sigmoid型加權(quán)的權(quán)重值由如下的等式表示:
其中,i為整數(shù),且0≤i≤a-1,i與0至a-1中的整數(shù)一一對(duì)應(yīng)。
本領(lǐng)域的技術(shù)人員可以理解,上面所描述的實(shí)施例都是示例性的,并且本領(lǐng)域的技術(shù)人員可以對(duì)其進(jìn)行改進(jìn),各種實(shí)施例中所描述的結(jié)構(gòu)在不發(fā)生結(jié)構(gòu)或者原理方面的沖突的情況下可以進(jìn)行自由組合。
雖然結(jié)合附圖對(duì)本發(fā)明進(jìn)行了說(shuō)明,但是附圖中公開(kāi)的實(shí)施例旨在對(duì)本發(fā)明優(yōu)選實(shí)施方式進(jìn)行示例性說(shuō)明,而不能理解為對(duì)本發(fā)明的一種限制。
雖然本總體發(fā)明構(gòu)思的一些實(shí)施例已被顯示和說(shuō)明,本領(lǐng)域普通技術(shù)人員將理解,在不背離本總體發(fā)明構(gòu)思的原則和精神的情況下,可對(duì)這些實(shí)施例做出改變,本發(fā)明的范圍以權(quán)利要求和它們的等同物限定。
應(yīng)注意,措詞“包括”不排除其它元件或步驟,措詞“一”或“一個(gè)”不排除多個(gè)。另外,權(quán)利要求的任何元件標(biāo)號(hào)不應(yīng)理解為限制本發(fā)明的范圍。