亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法

文檔序號(hào):6369487閱讀:522來(lái)源:國(guó)知局
專利名稱:流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法
技術(shù)領(lǐng)域
本發(fā)明涉及圖像的多樣化檢索系統(tǒng),特別涉及一種流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法。
背景技術(shù)
圖像的多樣化檢索研究的對(duì)象是如何在圖像檢索中令新穎的、獨(dú)特的、非重復(fù)冗余的圖像在檢索結(jié)果中排序靠前。多樣化圖像檢索系統(tǒng)的應(yīng)用領(lǐng)域主要包括圖像電子設(shè)備應(yīng)用、互聯(lián)網(wǎng)圖像搜索、醫(yī)學(xué)圖像檢索、商業(yè)信息檢索、遙感信息偵查等等。近年來(lái),隨 著諸如掃描儀、數(shù)碼相機(jī)、數(shù)碼攝像機(jī)等數(shù)字化設(shè)備的快速發(fā)展和普及使用,以及多媒體技術(shù)的提高和Internet的迅速普及,使得圖像數(shù)據(jù)呈現(xiàn)幾何級(jí)數(shù)的增長(zhǎng),于是出現(xiàn)了大容量的圖像及海量的視頻數(shù)據(jù)庫(kù),面對(duì)日益龐大的信息海洋,如何有效地組織、管理和檢索大規(guī)模的圖像數(shù)據(jù)成為迫切需要解決的問(wèn)題,如果能夠在檢索的過(guò)程中自動(dòng)篩選有用信息,盡量可能避免向用戶提交雷同或者近似雷同的檢索結(jié)果,無(wú)疑會(huì)提高信息檢索和瀏覽的效率,節(jié)約大量的時(shí)間。因此,多樣化圖像檢索技術(shù)的研究有著重大的現(xiàn)實(shí)意義,一旦研究成功并投入應(yīng)用,將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。一般的圖像檢索技術(shù)都著重于提高檢索結(jié)果的“概念”相關(guān)性,并不注重結(jié)果的“新穎性”,致使檢索的結(jié)果產(chǎn)生大量的冗余信息,一個(gè)好的搜索引擎應(yīng)該能自動(dòng)去除這些冗余信息,理想情況下,用戶所“關(guān)注”的檢索結(jié)果中排名靠前的圖像列表應(yīng)該是對(duì)“概念”的全面覆蓋,也就是說(shuō),能夠盡可能覆蓋檢索“概念”的所有“子概念”,這樣,當(dāng)不同應(yīng)用背景的用戶輸入相同的檢索信息或者輸入的檢索信息比較模糊時(shí),多樣化的檢索結(jié)果就更能滿足他們的潛在需求。如何迅速而準(zhǔn)確地從浩瀚的圖像數(shù)據(jù)庫(kù)中檢索到用戶所需要的圖像也成了近二十年來(lái)多媒體領(lǐng)域的研究熱點(diǎn)。同時(shí),在傳統(tǒng)的聚類方法中,計(jì)算點(diǎn)到中心的距離通常用歐氏距離,在具有潛在流形的結(jié)構(gòu)中并不合適,并且,如今對(duì)于評(píng)價(jià)聚類的好壞并沒(méi)有合適的指標(biāo),本發(fā)明將針對(duì)上述問(wèn)題提出解決方案,進(jìn)而解決在保證概念相關(guān)性的前提下增加多樣性的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明的目的是提出一種流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法,該方法結(jié)合了基于內(nèi)容的圖像搜索技術(shù)和基于測(cè)地距離的K-means聚類算法,并創(chuàng)造性的提出了將測(cè)地距離引入DB指標(biāo),并用于實(shí)驗(yàn)中的參數(shù)選擇,能夠有效地提供一種針對(duì)保證圖像檢索相關(guān)性的前提下的增加搜索結(jié)果多樣性的檢索方法。本發(fā)明的技術(shù)方案是流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法,其特征在于,具體包括以下步驟(I)首先對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取,利用有不同的參數(shù)的SVM分類器對(duì)提取的特征進(jìn)行訓(xùn)練學(xué)習(xí);
(2)用認(rèn)證集數(shù)據(jù)對(duì)SVM分類器的參數(shù)進(jìn)行篩選,選出最優(yōu)參數(shù)作為最佳SVM分類器;(3)對(duì)輸入的測(cè)試圖像進(jìn)行特征提取,并作為最佳SVM分類器的輸入數(shù)據(jù),從而獲得數(shù)據(jù)庫(kù)中圖像與輸入圖像之間的相關(guān)度大小排序;(4)利用DB指標(biāo)對(duì)緩沖池大小參數(shù)進(jìn)行篩選;選擇緩沖池大小時(shí),要用到兩個(gè)評(píng)價(jià)指標(biāo)前n幅圖像的檢索精度Pn,以及前n幅圖像覆蓋的子概念數(shù)CRn ;通過(guò)SVM分類器檢索之后,設(shè)置候選緩沖池大小為多組數(shù)值,并對(duì)緩沖池中圖像數(shù)據(jù)分別進(jìn)行聚類,計(jì)算DB值,比較結(jié)果,得出最優(yōu)緩沖池大小r ;傳統(tǒng)的DB指標(biāo)計(jì)算使用的是歐式距離,本發(fā)明中使用測(cè)地距離替代歐式距離,并應(yīng)用于P值的選取以及緩沖池大小的選擇,算法如下令Cj為向量的聚類,Xj是分配給Ci的一個(gè)n維特征向量;·
權(quán)利要求
1.一種流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法,其特征在于,具體包括以下步 驟 (1)首先對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取,利用有不同的參數(shù)的SVM分類器對(duì)提取的特征進(jìn)行訓(xùn)練學(xué)習(xí); (2)用認(rèn)證集數(shù)據(jù)對(duì)SVM分類器的參數(shù)進(jìn)行篩選,選出最優(yōu)參數(shù)作為最佳SVM分類器; (3)對(duì)輸入的測(cè)試圖像進(jìn)行特征提取,并作為最佳SVM分類器的輸入數(shù)據(jù),從而獲得數(shù)據(jù)庫(kù)中圖像與輸入圖像之間的相關(guān)度大小排序; (4)利用DB指標(biāo)對(duì)緩沖池大小參數(shù)進(jìn)行篩選; 選擇緩沖池大小時(shí),要用到兩個(gè)評(píng)價(jià)指標(biāo)前n幅圖像的檢索精度Pn,以及前n幅圖像覆蓋的子概念數(shù)CRn ;通過(guò)SVM分類器檢索之后,設(shè)置候選緩沖池大小為多組數(shù)值,并對(duì)緩 沖池中圖像數(shù)據(jù)分別進(jìn)行聚類,計(jì)算DB值,比較結(jié)果,得出最優(yōu)緩沖池大小r ; 使用測(cè)地距離替代歐式距離,并應(yīng)用于P值的選取以及緩沖池大小的選擇,算法如下 令&為向量的聚類,Xj是分配給Ci的一個(gè)n維特征向量; q丨 T1 si =:〒f|dG(X 丨.為)|' 其中Ai是Ci的聚類中心,Ti是類i的大小,Si是一種聚類內(nèi)部的分散度量,C^Xj, Ai)為兩點(diǎn)間的測(cè)地距離; ,U I W1...............%M:.! = |1A: — Afl = ; / Mg (am,£^3m,j)|PP I LmmJ 其中Mu為Ci與q間的距離大??;Bnu是Ai中的第m個(gè)元素,并且A中有n個(gè)這樣的元素,這里的m表明數(shù)據(jù)的特征,并且My.本質(zhì)上是當(dāng)p=2時(shí),類i和j的中心之間的測(cè)地距離; 根據(jù)定義,表示第i個(gè)聚類和第j個(gè)聚類的距離,理想情況下,是使各類間的散度最大,Si表示類i的類內(nèi)散度,應(yīng)使其盡可能??; (5)對(duì)相關(guān)度大小按降序排列,選取緩沖池中的圖像,利用DB指標(biāo)對(duì)改進(jìn)的K-means聚類的P參數(shù)進(jìn)行選擇,從而獲得此部分圖像的各聚類中心; ①k-means聚類方法的目標(biāo)是將流形上的一組樣本點(diǎn)(X1,X2,. . . XN)(其中每個(gè)樣本點(diǎn)是一個(gè)d維的實(shí)向量)分割為k個(gè)類集(k〈=n),類集為S= {SI, S2,…Sk},計(jì)算數(shù)據(jù)點(diǎn)到該數(shù)據(jù)點(diǎn)所在類中心的流形表面距離,使所有點(diǎn)距聚類中心的測(cè)地距離值最小 K2 arg nZ Z IdG(XpPi)Ir S !=IXjESj 其中,U i是類集,Si的平均值,Clc(XjlAi)為兩點(diǎn)間的測(cè)地距離; 算法流程描述如下首先輸入t, data[n]; 1)選擇t 個(gè)初始中心點(diǎn),例如 c
=data
, ...c[k-l]=data[t_l]; 2)對(duì)于data
....data[n],分別與c
c[t_l]比較,若與c[i]沿流形表面的距離最小,就標(biāo)記為i ; 3)對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算c[i]= {所有標(biāo)記為i的data[j]之和}/標(biāo)記為i的個(gè)數(shù); 4)重復(fù)2)、3),直到所有c[i]值的變化小于給定閾值; ②P值的選取 根據(jù)前面所得,固定緩沖池大小為r,為了找到每個(gè)主題的最優(yōu)參數(shù)p,采用不同的p值系統(tǒng)的計(jì)算圖像集之中的不同主題類別的DB指標(biāo),設(shè)置p值為不同數(shù)值,得到不同p值下 不同主題所對(duì)應(yīng)的DB值,從而選擇出參數(shù)p ; (6)利用測(cè)地距離得出流形上距每個(gè)聚類中心最近的圖像; (7)得到最終排序。
全文摘要
本發(fā)明公開了一種流形表面上基于測(cè)地距離的K-means聚類多樣化檢索方法,具體包括以下步驟,提取特征,訓(xùn)練并生成多個(gè)不同參數(shù)的SVM,選出最佳SVM;提取輸入圖像特征并用最佳SVM執(zhí)行檢索,產(chǎn)生結(jié)果排序;利用DB指標(biāo)選擇緩沖池大小值及k近鄰的k值;訓(xùn)練集的類空間劃分,改進(jìn)的K-means聚類法;利用測(cè)地距離得出最靠近各聚類中心的圖像,然后導(dǎo)出最終排序。本發(fā)明用基于內(nèi)容的圖像檢索技術(shù),自動(dòng)實(shí)現(xiàn)對(duì)圖像識(shí)別和檢索,很好的選取最優(yōu)參數(shù),并在保證相關(guān)性的前提下,實(shí)現(xiàn)檢索結(jié)果的多樣性,為用戶隱藏雷同或近似雷同的檢索結(jié)果,提取了具有代表性的結(jié)果,在盡可能短的時(shí)間為用戶提供更多樣化的信息。
文檔編號(hào)G06F17/30GK102750327SQ20121017226
公開日2012年10月24日 申請(qǐng)日期2012年5月30日 優(yōu)先權(quán)日2012年5月30日
發(fā)明者吳信東, 趙仲秋, 馬林海, 高雋 申請(qǐng)人:合肥工業(yè)大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1