一種草圖數(shù)據(jù)集的交互式類別標(biāo)注方法
【專利摘要】本發(fā)明公開(kāi)了一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,包括以下步驟:學(xué)習(xí)過(guò)程,對(duì)已標(biāo)注草圖數(shù)據(jù)集進(jìn)行多特征提取,特征空間度量學(xué)習(xí),計(jì)算距離度量函數(shù)。選擇過(guò)程,如果判斷草圖數(shù)據(jù)集中不存在未標(biāo)注草圖,則結(jié)束,得到最終結(jié)果。否則,根據(jù)度量學(xué)習(xí)結(jié)果,對(duì)待標(biāo)注草圖數(shù)據(jù)集進(jìn)行特征空間構(gòu)造,層次化聚類,并選擇最優(yōu)樣本子集。在線標(biāo)注,用戶對(duì)最優(yōu)樣本子集中的草圖進(jìn)行交互確認(rèn),對(duì)確認(rèn)的樣本進(jìn)行類別標(biāo)注,并更新已標(biāo)注草圖數(shù)據(jù)集。剩余的非同類草圖,將保持未標(biāo)注狀態(tài),并更新待標(biāo)注草圖數(shù)據(jù)集。進(jìn)而不斷循環(huán)上述過(guò)程,直到用戶完成所有草圖標(biāo)注,獲得最終標(biāo)注結(jié)果。
【專利說(shuō)明】一種草圖數(shù)據(jù)集的交互式類別標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種視覺(jué)數(shù)據(jù)集的處理方法,屬于計(jì)算機(jī)視覺(jué)【技術(shù)領(lǐng)域】,具體地說(shuō)是 一種面向計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法。
【背景技術(shù)】
[0002] 草圖作為人類最古老的交流方式之一,是人類對(duì)視覺(jué)信息進(jìn)行抽象概念化的基本 途徑。近年來(lái),隨著智能手機(jī)、平板電腦等觸摸式交互設(shè)備的普及,草圖已成為最常見(jiàn)的 人機(jī)交互方式之一,并在圖像和模型檢索,如文獻(xiàn)1 :M. Eitz, K. Hildebrand, T. Boubekeur and M.Alexa. Sketch-based image retrieval:Benchmark and bag-〇f-features descriptors. IEEE Transactions on Visualization and Computer Graphics,v ol. 17, no. 11,pp. 1624 - 1636, 2011.、文獻(xiàn) 2 :M. Eitz,R. Richter,T. Boubekeur,K. Hildebrand and M. Alexa. Sketch-based shape retrieval. ACM Transactions on Graphics,vol. 31,no. 4, Article 31,2012.三維形狀建模,如文獻(xiàn)3丄.018611^. F. Samavati, M. C. Sousa, and J. A. Jorge. Sketch-based modeling:A survey. Computers feGraphics^oUSdo. l,pp.85-103,2009.等領(lǐng)域得到廣泛應(yīng)用。在這些應(yīng)用領(lǐng)域中, 用戶通過(guò)自由草繪各類物體的形狀來(lái)表達(dá)形狀設(shè)計(jì)的概念意圖,如果這一過(guò)程能同時(shí)結(jié) 合使用草圖的幾何形狀與所包含的語(yǔ)義類別信息,則有助于計(jì)算機(jī)理解用戶所要表現(xiàn)的 設(shè)計(jì)意圖,如文獻(xiàn) 4 :M.Eitz,J.Hays and M.Alexa.How do human sketch objects?. ACM Transactions on Graphics,vol. 31,no. 4, Article 44, 2012?。因此,對(duì)自由手繪各 類物體的草圖賦予語(yǔ)義類別標(biāo)簽已成為計(jì)算機(jī)圖形與視覺(jué)領(lǐng)域的熱點(diǎn)問(wèn)題之一,如文獻(xiàn)5 : R. G. Schneider and T. Tuytelaars. Sketch classification and classification-driven analysis using fisher vectors. ACM Transactions on Graphics (In SIGGRAPH ASIA),2014.。
[0003] 事實(shí)上,自上世紀(jì)90年以來(lái)草圖理解方面已取得大量研究,其中大部分主要 集中于識(shí)別出特定領(lǐng)域草圖中所包含的基本形狀,如UML流程圖,如文獻(xiàn)6 :T. Hammond and R. Davis. A geometrical sketch recognition system for UML class diagrams. In SIGGRAPH,2006?、電路圖,如文獻(xiàn) 7 :T. Hammond and R. Davis,Ladder. A sketching language for user interface developers. Computers&Graphics, vol. 29,no.pp.518 -532, 2005、數(shù)學(xué)公式,如文獻(xiàn) 8 :J. J. Laviola Jr,and R. C. Zeleznik. MathPad:a system for the creation and exploration of mathematical sketches. ACM Transactions on Graphics,vol. 23, no. 3, pp. 432-440, 2004.識(shí)別,其基本思想是根據(jù)特定領(lǐng)域知識(shí)將直 線、圓弧、圓等基本圖元進(jìn)行組合以形成預(yù)定義的圖符,因此,依賴于特定類別先驗(yàn)知識(shí)的 特性也就決定著這類方法難以適應(yīng)其他類型草圖的識(shí)別或標(biāo)注問(wèn)題。近年來(lái),草圖理解 領(lǐng)域則更為關(guān)注如何實(shí)現(xiàn)一般草繪物體的自動(dòng)類別標(biāo)注,即對(duì)非專業(yè)人士繪制的各類物 體草圖進(jìn)行語(yǔ)義類別標(biāo)注。為解決草繪物體的類別、結(jié)構(gòu)多樣性問(wèn)題,Eitz等,如文獻(xiàn)4 : M.Eitz, J. Hays and M. Alexa. How do human sketch objects ? .ACM Transactions on Graphics,vol. 31,no. 4, Article 44, 2012.。借鑒圖像領(lǐng)域中基于BOW的分類方法實(shí)現(xiàn)對(duì) 自由草圖進(jìn)行自動(dòng)類別標(biāo)注,即利用SVM等監(jiān)督學(xué)習(xí)方法建立草圖訓(xùn)練樣本特征與類別間 的映射模型,并使用學(xué)習(xí)模型進(jìn)行類別預(yù)測(cè)。在該方法的基礎(chǔ)上,Li等,如文獻(xiàn)9 :Y. Li,Y. Z.Song and S.G. Gong. Sketch recognition by ensemble matching of structured features. In BMVC,2013?和 Schneider 等,如文獻(xiàn) 5 :R. G. Schneider and T. Tuytelaars. Sketch classification and classification-driven analysis using fisher vectors. ACM Transactions on Graphics (In SIGGRAPH ASIA),2014?分別引入結(jié)構(gòu)描述子和 Fisher Vectors等特征以提高SVM分類器的性能。盡管這種有監(jiān)督的標(biāo)注模式能實(shí)現(xiàn)草圖的自動(dòng) 類別標(biāo)注,但是存在兩方面的局限:一方面標(biāo)注類別依賴于訓(xùn)練樣本中存在的對(duì)象種類,即 不能對(duì)訓(xùn)練樣本中不存在的類別進(jìn)行標(biāo)注;另一面標(biāo)注的準(zhǔn)確度取決于分類器的性能,在 草圖類別數(shù)目較多的情況下,通常需要大量標(biāo)注訓(xùn)練樣本以提高分類精度。因此,在標(biāo)注類 別未知或不受限(動(dòng)態(tài)變化)的情況下,以較小的人工標(biāo)注代價(jià)實(shí)現(xiàn)對(duì)草圖數(shù)據(jù)集的正確 標(biāo)注,是自由草圖標(biāo)注的重要問(wèn)題。
[0004] 相比之下,圖像標(biāo)注領(lǐng)域中的無(wú)監(jiān)督類別發(fā)現(xiàn)方法,如文獻(xiàn)10 :T. Tuytelaars,C. H. Lampert, M. Blaschko and W. Buntine. Unsupervised object discovery:A comparison. International Journal of Computer Vision,vol. 88, no. 2, pp. 284 - 302, 2010.、文獻(xiàn) 11 : Y. Lee and K. Grauman. Object-Graphs for Context-Aware Visual Category Discovery. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34,no.2, pp. 346-358, 2012?、文獻(xiàn) 12 :C. Galleguillos,B. McFee,S. Belongie and G. Lanckriet. From region similarity to category discovery. In CVPR,2011.因其不需要預(yù)先標(biāo) 記訓(xùn)練數(shù)據(jù)的特點(diǎn)更適合標(biāo)簽類別未知的情形,其基本思想是先根據(jù)樣本間相似度將視 覺(jué)相似的模式單元進(jìn)行聚類成組,然后讓用戶為每個(gè)聚類簇提供類別標(biāo)簽。大部分研 究旨在尋求更有效的圖像表示,如文獻(xiàn)11 :Y. Lee and K. Grauman. Object-Graphs for Context-Aware Visual Category Discovery. IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 34, no. 2, pp. 346-358, 2012?或相似度計(jì)算方法,如文獻(xiàn) 12 :C. Galleguillos, B. McFee, S. Belongie and G. Lanckriet. From region similarity to category discovery. In CVPR,2011.,以提高無(wú)監(jiān)督學(xué)習(xí)的性能。但這種"一次性標(biāo)注"模 式難以有效實(shí)現(xiàn)數(shù)據(jù)集的合理劃分,即難以保證每個(gè)聚類簇中的圖像屬于同一類別,也就 意味著難以體現(xiàn)用戶的真實(shí)標(biāo)注意圖。盡管有少量的研究采用"循環(huán)聚類"的思想進(jìn)行迭代 類別發(fā)現(xiàn),如文獻(xiàn) 13 :Y.Lee,and K. Grauman. Learning the easy things first:Self-paced visual category discovery. In CVPR,201L、文獻(xiàn) 14 :C. Galleguillos,B. McFee and G. R. G. Lanckriet. Iterative category discovery via multiple kernel metric learning. International Journal of Computer Vision, vol. 108, no. 1-2, pp. 115 - 132, 2 014.,但它們主要是針對(duì)圖像區(qū)域進(jìn)行類別標(biāo)注。
[0005] 綜上所述,在對(duì)草圖數(shù)據(jù)集進(jìn)行整體標(biāo)注時(shí),已有的有監(jiān)督草圖分類方法需要預(yù) 知類別和樣本訓(xùn)練,無(wú)法適用于標(biāo)注類別未知或不確定的情況;而無(wú)監(jiān)督的圖像類別發(fā)現(xiàn) 方法會(huì)存在以下三個(gè)方面的問(wèn)題:1)則采用"一次標(biāo)注全部"的方式,依賴于無(wú)監(jiān)督學(xué)習(xí) 的分類效果,難以保證標(biāo)注結(jié)果的正確性;2)只使用樣本底層特征間的歐式距離計(jì)算相似 度,忽略了用戶在標(biāo)注過(guò)程中所提供的類別信息,難以完整體現(xiàn)用戶交互意圖;3)在為待 標(biāo)注聚類簇提供類別標(biāo)簽時(shí),缺乏合理的篩選策略,以有效減少標(biāo)注負(fù)擔(dān)。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,提供一種計(jì) 算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,用于支持對(duì)自由草繪物體進(jìn)行類別標(biāo)注,從而 在減少人工標(biāo)注負(fù)擔(dān)的情況下來(lái)獲取正確的草圖標(biāo)注數(shù)據(jù)集。
[0007] 為了解決上述技術(shù)問(wèn)題,本發(fā)明公開(kāi)了一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo) 注方法,包括以下步驟:
[0008] 步驟一,學(xué)習(xí)過(guò)程:對(duì)草圖數(shù)據(jù)集中的已標(biāo)注草圖數(shù)據(jù)集進(jìn)行多特征提取,對(duì)提取 的草圖特征進(jìn)行特征空間度量學(xué)習(xí),得到距離度量函數(shù);
[0009] 步驟二,選擇過(guò)程:判斷如果草圖數(shù)據(jù)集中全是已標(biāo)注草圖數(shù)據(jù)集,不存在待標(biāo)注 草圖數(shù)據(jù)集,則結(jié)束,得到最終結(jié)果,即完全標(biāo)注草圖數(shù)據(jù)集;否則,根據(jù)特征空間度量學(xué)習(xí) 結(jié)果,對(duì)草圖數(shù)據(jù)集中的待標(biāo)注草圖數(shù)據(jù)集進(jìn)行特征空間構(gòu)造,并進(jìn)行層次化聚類;在聚類 結(jié)果中,選取聚類純度最高的聚類,作為最優(yōu)樣本子集;
[0010] 步驟三,在線標(biāo)注:用戶對(duì)選取的最優(yōu)樣本子集中的草圖進(jìn)行交互子集確認(rèn),確認(rèn) 的草圖是已知類別或者新類別;將用戶子集確認(rèn)的草圖進(jìn)行類別標(biāo)注,并更新已標(biāo)注草圖 數(shù)據(jù)集,對(duì)更新的已標(biāo)注草圖數(shù)據(jù)集進(jìn)行多特征提取,對(duì)提取的草圖特征進(jìn)行特征空間度 量學(xué)習(xí),得到更新的距離度量函數(shù);對(duì)于子集確認(rèn)中剩余的草圖,即最優(yōu)樣本子集中的非同 類草圖,保持未標(biāo)注狀態(tài),并更新待標(biāo)注草圖數(shù)據(jù)集,返回步驟二;若子集確認(rèn)中無(wú)剩余草 圖,則更新待標(biāo)注草圖數(shù)據(jù)集后,返回步驟二。
[0011] 本發(fā)明步驟一中所述的多特征提取包括以下步驟:步驟111,傅里葉描述 子方法,計(jì)算邊界點(diǎn)到形狀質(zhì)心的距離rn為:
【權(quán)利要求】
1. 一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在于,包括以下步驟: 步驟一,學(xué)習(xí)過(guò)程:對(duì)草圖數(shù)據(jù)集中的已標(biāo)注草圖數(shù)據(jù)集進(jìn)行多特征提取,對(duì)提取的草 圖特征進(jìn)行特征空間度量學(xué)習(xí),得到距離度量函數(shù); 步驟二,選擇過(guò)程:判斷如果草圖數(shù)據(jù)集中全是已標(biāo)注草圖數(shù)據(jù)集,不存在待標(biāo)注草 圖數(shù)據(jù)集,則結(jié)束,得到最終結(jié)果,即完全標(biāo)注草圖數(shù)據(jù)集;否則,根據(jù)特征空間度量學(xué)習(xí)結(jié) 果,對(duì)草圖數(shù)據(jù)集中的待標(biāo)注草圖數(shù)據(jù)集進(jìn)行特征空間構(gòu)造,并進(jìn)行層次化聚類;在聚類結(jié) 果中,選取聚類純度最高的聚類,作為最優(yōu)樣本子集; 步驟三,在線標(biāo)注:用戶對(duì)選取的最優(yōu)樣本子集中的草圖進(jìn)行交互子集確認(rèn),確認(rèn)的草 圖是已知類別或者新類別;將用戶子集確認(rèn)的草圖進(jìn)行類別標(biāo)注,并更新已標(biāo)注草圖數(shù)據(jù) 集,對(duì)更新的已標(biāo)注草圖數(shù)據(jù)集進(jìn)行多特征提取,對(duì)提取的草圖特征進(jìn)行特征空間度量學(xué) 習(xí),得到更新的距離度量函數(shù);對(duì)于子集確認(rèn)中剩余的草圖,即最優(yōu)樣本子集中的非同類草 圖,保持未標(biāo)注狀態(tài),并更新待標(biāo)注草圖數(shù)據(jù)集,返回步驟二;若子集確認(rèn)中無(wú)剩余草圖,則 更新待標(biāo)注草圖數(shù)據(jù)集后,返回步驟二。
2. 根據(jù)權(quán)利要求1所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟一和三中所述多特征提取包括以下步驟: 步驟111,傅里葉描述子方法,計(jì)算邊界點(diǎn)到形狀質(zhì)心的距離ril為:
其中,(Xii,yn)為表示第il個(gè)邊界點(diǎn)坐標(biāo),邊界曲線共包含Nl個(gè)邊界點(diǎn),質(zhì)心坐標(biāo) (xni, yj計(jì)算公式為:
對(duì)距離rn進(jìn)行快速傅里葉變換得到傅里葉級(jí)數(shù):
其中,j為復(fù)數(shù)的虛單位,nl為計(jì)數(shù)參數(shù); 步驟112, Zernike矩方法:定義在單位圓上的復(fù)值函數(shù)集IVmi(XiDyi2)K則在單位圓 內(nèi)的任何平方可積函數(shù)為: V? (xi2. Yi2) = Vmi ( P , θ ) = Rnm ( P ) exp (jm θ ), 其中,P表示從原點(diǎn)到第i2個(gè)點(diǎn)(xi2, yi2)的矢量距離向量;Θ表示向量p跟x軸之 間的逆時(shí)針?lè)较虻膴A角,Rnm(P)表示點(diǎn)(xi2,yi2)的徑向多項(xiàng)式,定義為:
i3為〇之間的整數(shù),Zernike矩的階數(shù)η為正整數(shù)或0,循環(huán)數(shù)m為正整數(shù)或負(fù)整 數(shù),且滿足n-|m|為偶數(shù),則η階且具有m重循環(huán)的Zernike矩Ami為:
其中 =?+^2,j為復(fù)數(shù)的虛單位; 步驟113, BOW方法:對(duì)每一幅草圖,劃分為4*4的小塊,抽取每個(gè)小塊的方向向量1,組 合成一個(gè)列向量表示最終的局部塊描述子d = [I1, ...,^T,j 1為方向向量的數(shù)目,對(duì)每個(gè) 局部塊描述子進(jìn)行歸一化,歸一化后,得到一個(gè)特征包D = {di4},包括i4個(gè)局部塊描述子, i4為0到N2-1之間的正整數(shù),N2為局部特征塊的數(shù)目; 對(duì)于局部塊描述子d,使用kl均值聚類構(gòu)建視覺(jué)詞典,將所有局部塊描述 子劃分為kl個(gè)中心不相連的聚類,定義視覺(jué)詞典Vl為向量集合{μ i5},使得
i小,dj2為第j2個(gè)局部塊描述子,μ i5為第i5個(gè)向量,定義為:
實(shí)中,Ci5為視覺(jué)詞典中的第i5個(gè)聚類,i5取值范圍為1?kl,kl 為局部塊描述子聚類數(shù)目; 視覺(jué)詞的頻率直方圖h定義為:
其中,di6為第i6個(gè)局部塊描述子,i6為正整數(shù),取值范圍為0?N2-1, q(di6)是一個(gè)向量值量化函數(shù),定義為: Q (djg) - [K (di6, U j), . . . , K (di6, U kl) ] j 其中,計(jì)算樣本點(diǎn)之間的距離K為: K(d,μ j3) = exp(_| ld-μ j3| |2/2 〇 2),j3 = 1,…,kl, 其中,μ#為視覺(jué)字典中的第j3個(gè)向量,參數(shù)σ設(shè)置為1。
3.根據(jù)權(quán)利要求2所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟一和三中所述特征空間度量學(xué)習(xí)包括以下步驟: 步驟121,將步驟111、步驟112、步驟113中得到的三個(gè)特征:傅里葉描述子anl、 Zernike矩Α?、Β(Μ方法中的直方圖h(D),分別映射到再生核希爾伯特空間H1, H2, H3,得 到相對(duì)應(yīng)草圖X的特征映射Φ i (X)、Φ 2 (X)、φ 3 (X), 對(duì)應(yīng)草圖X的三個(gè)核度量<、人1、/c)分別定義為:
其中,特征空間 O1 = ΦΑ),Φ2 = Φ2(Χ),Φ3 = Φ3(Χ), 步驟122,定義核心度量偏序特征:
其中,t為抽取的草圖特征數(shù),1+和;^分別表示草圖數(shù)據(jù)集的正樣本和負(fù)樣本,即相 同類別和不同類別的草圖,Kj4為第j4幅草圖的核度量,K7為第i7幅草圖的核度量,y i7j4 用于判斷第i7幅草圖與第j4幅草圖之間的先后順序,定義為:
步驟123,根據(jù)核度量對(duì)已標(biāo)注草圖數(shù)據(jù)集進(jìn)行排序,產(chǎn)生排序結(jié)果 yi,y2,. . .,yn2, n2為草圖的數(shù)目,得到n2 X n2維度量矩陣Wt定義為:
其中,Mt為下三角矩陣,使得
C為松弛平衡因子,并且對(duì)任意草 圖X和排序y,符合:
其中,ξ x是標(biāo)準(zhǔn)的軟間隔SVM中的松弛變量,Λ (yx,y)為排序y代替yx時(shí)發(fā)生的誤 差,yx為草圖X的排序位置。
4. 根據(jù)權(quán)利要求3所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟二中所述相似度計(jì)算包括以下步驟: 步驟211,根據(jù)步驟111、步驟112和步驟113定義的特征抽取方法,抽取待標(biāo)注草圖數(shù) 據(jù)集對(duì)應(yīng)的特征,即傅里葉、Zernike、BOW特征; 步驟212,根據(jù)特征空間度量學(xué)習(xí)得到的矩陣Wt,從而計(jì)算草圖之間的馬氏距離dM為:
dM(Xj5,Xj6)表示草圖Xj^Px j6之間的馬氏距離,j5和j6為正整數(shù),取值范圍為0? n3-l,n3為待標(biāo)注草圖數(shù)據(jù)集中的草圖數(shù); 步驟213,通過(guò)徑向基函數(shù)RBF核距離度量方法計(jì)算草圖之間的相似度Aj5j6 : Aj5j6 - exP (_dM (Xj5, Xj6) /2 σ 1 ), 其中,σ i為帶寬參數(shù)。
5. 根據(jù)權(quán)利要求4所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟二中所述層次化聚類包括以下步驟: 步驟221,每一幅草圖都屬于一個(gè)聚類,計(jì)算每?jī)蓚€(gè)聚類之間的距離,即類別相似度; 步驟222,選擇兩個(gè)距離最近的聚類,合成一個(gè)聚類,聚類總數(shù)減1 ; 步驟223,重新計(jì)算步驟222中新生成的聚類和其它聚類之間的距離,即更新相似度; 步驟224,重復(fù)步驟222和步驟223,直至聚類劃分為用戶指定的類別數(shù)k為止,k為大 于0的正整數(shù)。
6. 根據(jù)權(quán)利要求5所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟二中選取聚類純度最高的聚類,作為最優(yōu)樣本子集包括以下步驟: 步驟231,構(gòu)造草圖數(shù)據(jù)集上的隨機(jī)度量樹(shù),每一個(gè)隨機(jī)度量樹(shù)將草圖作為葉子節(jié)點(diǎn)來(lái) 編碼,臨近森林連通性度量PFC是基于計(jì)算葉子節(jié)點(diǎn)xi8與xi9之間的加權(quán)邊緣,權(quán)值定義 為:
函數(shù)common_leaf在樹(shù)k2中找到Xii^P xi9K屬的葉子節(jié)點(diǎn),如果葉子節(jié)點(diǎn)相同則返回 1,否則返回〇, k2為1?Tl之間的正整數(shù),Tl為隨機(jī)度量樹(shù)的數(shù)目; 步驟232,平均邊緣權(quán)重從xi8 e Ci8到所有Xi9 e Ci8,定義為:
其中,ci8為第i8個(gè)聚類,i8為正整數(shù),取值范圍為1?Tl ; 步驟233, PFC方法估計(jì)聚類純度,是所有樣本在聚類ci8的平均連通性,定義為:
步驟234,聚類c的開(kāi)發(fā)分?jǐn)?shù)定義為: exploit (c) = pc*lc, 其中,P。是聚類c的純度,由臨近森林連通性度量PFC計(jì)算得出,1。是聚類c中未標(biāo)記 樣本的數(shù)目; 步驟2,陽(yáng),楳索詵檉件得分是某干距離值,并定義為:
其中,d是聚類c和第i8個(gè)聚類ci8之間的歐氏距離,L為聚類簇; 步驟236, SG組合被定義為: SG(c) = a ^exploit (c) + (1- α ) ^explore (c), 其中,權(quán)重α,范圍為[〇, 1]; 步驟237,對(duì)步驟224中的k個(gè)聚類分別計(jì)算SG值,選取SG值最小的聚類,作為聚類純 度最高的聚類,將選取的純度最高的聚類,即最優(yōu)樣本子集,作為一個(gè)未知類別草圖的最優(yōu) 樣本子集提供給用戶。
7. 根據(jù)權(quán)利要求6所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟三中所述用戶對(duì)選取的最優(yōu)樣本子集中的草圖進(jìn)行交互確認(rèn)包括以下步驟: 步驟311,確認(rèn)最優(yōu)樣本子集中的標(biāo)注對(duì)象:在所選出的最優(yōu)樣本子集中,用戶對(duì)草圖 通過(guò)選擇和剔除操作進(jìn)行進(jìn)一步選擇,先統(tǒng)計(jì)最優(yōu)樣本子集中各草圖類別出現(xiàn)的頻率并確 認(rèn)出現(xiàn)頻率最高的類別,將屬于該類別的草圖選擇保留,從而形成待標(biāo)注的草圖子集; 步驟312,將不屬于該類別的草圖從最優(yōu)樣本子集中剔除,并加入到非同類草圖子集 中。
8. 根據(jù)權(quán)利要求7所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟三中所述類別標(biāo)注包括以下步驟: 用戶對(duì)待標(biāo)注的草圖子集進(jìn)行類別標(biāo)注,標(biāo)注的標(biāo)簽是新標(biāo)簽或者是已有標(biāo)簽;如果 用戶標(biāo)注了新標(biāo)簽,則向標(biāo)簽集中添加新標(biāo)簽,如果用戶標(biāo)注了已有標(biāo)簽,則標(biāo)簽集保持不 變。
9. 根據(jù)權(quán)利要求8所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征在 于,步驟三中所述更新已標(biāo)注草圖數(shù)據(jù)集包括以下步驟: 將用戶標(biāo)注的草圖添加到已標(biāo)注草圖數(shù)據(jù)集Xf中。
10. 根據(jù)權(quán)利要求9所述的一種計(jì)算機(jī)中草圖數(shù)據(jù)集的交互式類別標(biāo)注方法,其特征 在于,步驟三中所述更新待標(biāo)注草圖數(shù)據(jù)集包括以下步驟: 將用戶已標(biāo)注的草圖從待標(biāo)注草圖數(shù)據(jù)集X u中剔除,返回執(zhí)行步驟二。
【文檔編號(hào)】G06K9/66GK104392253SQ201410764689
【公開(kāi)日】2015年3月4日 申請(qǐng)日期:2014年12月12日 優(yōu)先權(quán)日:2014年12月12日
【發(fā)明者】王爽, 孫正興, 劉凱, 李博 申請(qǐng)人:南京大學(xué)