一種數(shù)據(jù)識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)識別方法及裝置,涉及數(shù)據(jù)處理技術(shù),根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集,使得各識別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個識別器的差異性,因此,在對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別時,獲得訓(xùn)練后的識別器給出的識別結(jié)果,再根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,提高了大數(shù)據(jù)識別的精確度。
【專利說明】一種數(shù)據(jù)識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種數(shù)據(jù)識別方法及裝置。
【背景技術(shù)】
[0002]目前,現(xiàn)實和虛擬世界的數(shù)據(jù)產(chǎn)生速度越來越大,對數(shù)據(jù)進(jìn)行自動識別會便于用戶對數(shù)據(jù)的查找和使用,因此,很多應(yīng)用或系統(tǒng)在獲得新的數(shù)據(jù)時,需要通過對已有數(shù)據(jù)的識別方式,對所獲得的數(shù)據(jù)進(jìn)行數(shù)據(jù)識別。
[0003]目前進(jìn)行數(shù)據(jù)識別的方法主要為:先從標(biāo)注數(shù)據(jù)中選取相應(yīng)訓(xùn)練數(shù)據(jù)由識別器進(jìn)行學(xué)習(xí),在獲得新的數(shù)據(jù)時,即可使用學(xué)習(xí)后的識別器對該數(shù)據(jù)進(jìn)行數(shù)據(jù)識別。
[0004]在進(jìn)行識別器的學(xué)習(xí)時,和本專利最相關(guān)的技術(shù)包括大規(guī)模機(jī)器學(xué)習(xí)以及集成學(xué)習(xí),下面分別對這兩種學(xué)習(xí)方式進(jìn)行具體說明:
[0005]大規(guī)模機(jī)器學(xué)習(xí)是指能夠利用大規(guī)模數(shù)據(jù)來監(jiān)督識別器學(xué)習(xí)以解決大數(shù)據(jù)分析基本問題的理論或方法,大數(shù)據(jù)(大規(guī)模數(shù)據(jù),通常至少包括IOW標(biāo)注數(shù)據(jù)樣本)概念的出現(xiàn)使很多只關(guān)心識別精度的傳統(tǒng)的機(jī)器學(xué)習(xí)方法不再適用。
[0006]集成學(xué)習(xí)是通過利用不同的訓(xùn)練標(biāo)注數(shù)據(jù)集合或者不同的特征集合訓(xùn)練得到多個識別器,在應(yīng)用過程中這多個識別器以某種組合策略,比如投票,來解決某個識別問題。集成學(xué)習(xí)主要用來改善單個識別器的識別或預(yù)測等的性能精度。這種機(jī)器學(xué)習(xí)范式相對于單個識別器的學(xué)習(xí)算法來說,更容易擴(kuò)展到大規(guī)模數(shù)據(jù)的學(xué)習(xí)任務(wù)。比較有影響的集成學(xué)習(xí)方法包括boosting (增強(qiáng)學(xué)習(xí)方法),bagging (基于可放回采樣的學(xué)習(xí)方法)等。
[0007]集成學(xué)習(xí)方法可以使得識別精度較高,其主要原因是它能夠通過群體決策的方式來克服單個識別器可能犯得一些識別錯誤,而這主要?dú)w功于多個識別器的差異性。因此,要實現(xiàn)多個弱識別器的組合以實現(xiàn)強(qiáng)識別器,需要不同的個體識別器在不同的識別任務(wù)中需要犯不同的錯誤,以造成這種差異性。
[0008]基于不同的訓(xùn)練集合,不同的識別器參數(shù),或者不同的特征集合而獲得的多個識別器模型需要以某種策略組合起來使用來最終決定某個測試實例的最終識別結(jié)果,這種群體決策的策略就是識別器組合。
[0009]集成學(xué)習(xí)方法具有對于大規(guī)模數(shù)據(jù)上的機(jī)器學(xué)習(xí)具有很強(qiáng)的可擴(kuò)展性,但如果直接將他們應(yīng)用到大規(guī)模數(shù)據(jù)學(xué)習(xí)問題中,由于差異性不明顯,會造成最終的數(shù)據(jù)挖掘精度不是很高,不能取得理想的效果。雖然實現(xiàn)了大規(guī)模數(shù)據(jù)學(xué)習(xí),但不能充分體現(xiàn)大規(guī)模數(shù)據(jù)學(xué)習(xí)的優(yōu)勢。
[0010]目前,可以通過重采樣技術(shù)和劃分子集的方式,使得集成學(xué)習(xí)方法能夠應(yīng)用到大規(guī)模學(xué)習(xí)中去,可是,不同的識別器通過不同的采樣技術(shù)在大數(shù)據(jù)中進(jìn)行采樣,能夠?qū)崿F(xiàn)所訓(xùn)練的識別器的差異性,但由于只有部分的訓(xùn)練數(shù)據(jù)被采樣并用來識別器的構(gòu)建,所以標(biāo)注樣本中蘊(yùn)含的知識并沒有都用于識別器的訓(xùn)練。而直接將整個標(biāo)注數(shù)據(jù)集分成多個子集,這種隨機(jī)的標(biāo)注數(shù)據(jù)集拆分的方法不能保證不同子標(biāo)注集合之間的差異性,從而不能保證多個識別器之間差異性。
【發(fā)明內(nèi)容】
[0011]本發(fā)明實施例提供一種數(shù)據(jù)識別方法及裝置,以提高大數(shù)據(jù)識別的精確度。
[0012]一種數(shù)據(jù)識別方法,包括:
[0013]分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,所述多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器;
[0014]根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
[0015]一種數(shù)據(jù)識別裝置,包括:
[0016]第一確定單元,用于分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,所述多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器;
[0017]第二確定單元,用于根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
[0018]本發(fā)明實施例提供一種數(shù)據(jù)識別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集,使得各識別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個識別器的差異性,因此,在對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別時,獲得訓(xùn)練后的識別器給出的識別結(jié)果,再根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,提高了大數(shù)據(jù)識別的精確度。
【專利附圖】
【附圖說明】
[0019]圖1為本發(fā)明實施例提供的數(shù)據(jù)識別方法流程圖;
[0020]圖2為本發(fā)明實施例提供的根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分多個數(shù)據(jù)子集的方法流程圖;
[0021]圖3為本發(fā)明實施例提供的根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果的方法流程圖之一;
[0022]圖4為本發(fā)明實施例提供的根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果的方法流程圖之二;
[0023]圖5為本發(fā)明實施例提供的數(shù)據(jù)識別裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0024]本發(fā)明實施例提供一種數(shù)據(jù)識別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集,使得各識別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個識別器的差異性,因此,在對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別時,獲得訓(xùn)練后的識別器給出的識別結(jié)果,再根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,提高了大數(shù)據(jù)識別的精確度。
[0025]在將整個標(biāo)注集合分成多個子集過程中,將數(shù)據(jù)子集之間的差異性作為一個優(yōu)化的指標(biāo)來考慮進(jìn)來,從而保證最后獲得的多個子集之間具有最大的差異性。
[0026]進(jìn)一步,在進(jìn)行數(shù)據(jù)識別時,可以基于標(biāo)注數(shù)據(jù)樣本的差異性對多個識別器進(jìn)行選擇(只有最相關(guān)的領(lǐng)域?qū)<也艆⒓幼詈蟮耐镀?,同時在投票過程中,不只是多個識別器之間的差異性被考慮進(jìn)來,還將每個識別器局部的特征,即每個識別器的置信度信息也考慮到最后的識別器組合過程中,從而進(jìn)一步提高識別的精度。
[0027]具體的,如圖1所示,本發(fā)明實施例提供的數(shù)據(jù)識別方法,包括:
[0028]步驟S101、分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器;
[0029]步驟S102、根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
[0030]由于將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集根據(jù)樣本差異性劃分成了多個數(shù)據(jù)子集,又通過各個數(shù)據(jù)子集分別對各個識別器進(jìn)行訓(xùn)練,保證了各個識別器之間的差異性,從而提高了對數(shù)據(jù)進(jìn)行識別的精度。
[0031]具體的,在將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集時,需要進(jìn)行如下三個方面的考慮:
[0032]I)每個數(shù)據(jù)子集應(yīng)該足夠大,從而能夠被用來訓(xùn)練單個的識別器;
[0033]2)每個數(shù)據(jù)子集的大小應(yīng)該使其在進(jìn)行識別器的訓(xùn)練時,訓(xùn)練時間不能過長,即每個子標(biāo)注數(shù)據(jù)集不能過大到不能順利完成單個識別器的構(gòu)建;
[0034]3)為了實現(xiàn)識別器的差異性(這一點(diǎn)是能夠保證集成學(xué)習(xí)方法能夠具有較高識別精度的關(guān)鍵),需要使多個數(shù)據(jù)子集之間的相似度盡量低。在本發(fā)明以下的實施例中,是通過圖論來表示數(shù)據(jù)子集之間的相似度。如果數(shù)據(jù)子集之間的相似度越高,則在圖中兩者的距離則越小。本領(lǐng)域內(nèi)技術(shù)人員可以理解,還可以應(yīng)用其他方式來表示數(shù)據(jù)子集之間的相似度,在此不再贅述。
[0035]本發(fā)明實施例提供一種標(biāo)注數(shù)據(jù)集的劃分方法,將實現(xiàn)多個標(biāo)注數(shù)據(jù)集合之間距離的最大化(也就是差異最大化)轉(zhuǎn)換為它的對偶問題,也就是,找到一個拆分方案使每個子標(biāo)注數(shù)據(jù)集合中的樣本之間的距離之和最小化,此時,可以首先獲取數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本;再從標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個數(shù)據(jù)子集,直至數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。進(jìn)而使得每一數(shù)據(jù)子集內(nèi)所包含的標(biāo)注數(shù)據(jù)樣本之間的相似度最高,且數(shù)據(jù)子集之間的相似度最低。
[0036]具體的,如圖2所示,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括:
[0037]步驟S201、將標(biāo)注數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集;
[0038]步驟S202、對于每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,將其和與其距離最小的數(shù)據(jù)子集合并,對每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個數(shù)據(jù)子集,并保證切分后的每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值,其中,數(shù)據(jù)子集間的距離可以通過圖論的方式來進(jìn)行量化,也可以通過其它方式進(jìn)行量化;
[0039]步驟S203、確定每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時,將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集。
[0040]其中,第一閾值根據(jù)條件I)設(shè)定,即,使得每個數(shù)據(jù)子集足夠大,從而能夠被用來訓(xùn)練單個的識別器,第二閾值根據(jù)條件2)設(shè)定,即,使得每個子標(biāo)注數(shù)據(jù)集不能過大到不能順利完成單個識別器的構(gòu)建。
[0041]根據(jù)步驟S202可知,第二閾值必然大于第一閾值,當(dāng)?shù)诙撝敌∮诘谝婚撝档亩稌r,可能出現(xiàn)切分后的數(shù)據(jù)子集中,有一個數(shù)據(jù)子集必然不能滿足條件I)或條件2),此時,則保證切分后的每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值,從而可以使得小于設(shè)定的第一閾值的數(shù)據(jù)子集與其它子集進(jìn)行進(jìn)一步合并,當(dāng)然,為進(jìn)一步便于標(biāo)注數(shù)據(jù)集的劃分,第二閾值設(shè)定為第一閾值的整數(shù)倍較佳。
[0042]通常,數(shù)據(jù)子集的大小和訓(xùn)練識別器的關(guān)系為,隨著數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量從O開始增大,訓(xùn)練識別器的效果越來越好,直至數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量達(dá)到某一最佳值,此時訓(xùn)練識別器的效果達(dá)到最佳,隨后,隨著數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量繼續(xù)增大,訓(xùn)練識別器的效果也越來越差,因此,第一閾值和第二閾值的設(shè)定,可以參考數(shù)據(jù)子集的大小和訓(xùn)練識別器的關(guān)系曲線進(jìn)行。
[0043]當(dāng)然,在本實施例中是每次只與一個相似度最高的數(shù)據(jù)子集進(jìn)行合并。本領(lǐng)域內(nèi)技術(shù)人員可以理解,還可以每次與兩個或多個數(shù)據(jù)子集進(jìn)行合并,其原理與上述實施例相似,在此不再贅述。
[0044]進(jìn)一步,在對待識別數(shù)據(jù)進(jìn)行識別時,可以僅使用與該待識別數(shù)據(jù)關(guān)聯(lián)程度較大的識別器進(jìn)行識別,從而避免與該待識別數(shù)據(jù)關(guān)聯(lián)程度較小的識別器給出的錯誤識別結(jié)果造成的干擾,從而進(jìn)一步提高識別精度。
[0045]具體的,在步驟SlOl分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,還包括:
[0046]確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為多個識別器;或者
[0047]確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為多個識別器。
[0048]其中,確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為多個識別器,具體包括:
[0049]確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
[0050]將分?jǐn)?shù)最高的設(shè)定個數(shù)個識別器,作為多個識別器;
[0051]相應(yīng)的,確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為多個識別器,具體包括:
[0052]確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
[0053]將分?jǐn)?shù)超過設(shè)定分?jǐn)?shù)值的識別器,作為多個識別器。
[0054]各個識別器可以根據(jù)待識別數(shù)據(jù)與訓(xùn)練自身的數(shù)據(jù)子集中各數(shù)據(jù)的關(guān)聯(lián)程度給出該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體的,本發(fā)明實施例中確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為:
[0055]各識別器分別計算待識別數(shù)據(jù)和該識別器對應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者
[0056]從標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與待識別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識別器分別確定該識別器對應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識別器對應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。[0057]在步驟S102中,根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,可以直接采用相同識別結(jié)果數(shù)量最多的識別結(jié)果作為該待識別數(shù)據(jù)的最終識別結(jié)果,為進(jìn)一步提高識別精度,本發(fā)明實施例還提供一種較佳的根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果的方式,此時,如圖3所示,步驟S102包括:
[0058]步驟S301、對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重;
[0059]步驟S302、根據(jù)多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果。
[0060]其中,步驟S301中,對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重,具體為:
[0061]對于每個識別器,確定該識別器的投票權(quán)重為該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值的乘積。
[0062]如圖4所示,步驟S302中,根據(jù)多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果,具體包括:
[0063]步驟S401、根據(jù)多個識別器的識別結(jié)果將多個識別器進(jìn)行分組;
[0064]步驟S402、根據(jù)各個識別器的投票權(quán)重,確定每個分組的加權(quán)求和值;
[0065]步驟S403、將加權(quán)求和值最大的分組所對應(yīng)的識別結(jié)果,確定為該待識別數(shù)據(jù)的最終識別結(jié)果。
[0066]例如,若10個識別器對待識別數(shù)據(jù)進(jìn)行識別,其中3個識別器給出的識別結(jié)果為A,且權(quán)重分別為0.1,0.2,0.3,3個識別器給出的識別結(jié)果為B,且權(quán)重分別為0.5,0.5、
0.4,4個識別器給出的識別結(jié)果為C,且權(quán)重分別為0.2,0.2,0.3,0.1,可以得出,識別結(jié)果為A的分組的加權(quán)求和值為0.1+0.2+0.3=0.6,識別結(jié)果為B的分組的加權(quán)求和值為
0.5+0.5+0.4=1.4,識別結(jié)果為C的分組的加權(quán)求和值為0.2+0.2+0.3+0.1=0.8,則可以確定識別結(jié)果為B的分組的加權(quán)求和值最大,最終識別結(jié)果為B。
[0067]相應(yīng)的,本發(fā)明實施例還提供一種數(shù)據(jù)識別裝置,如圖5所示,該裝置包括:
[0068]第一確定單元501,用于分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器;
[0069]第二確定單元502,用于根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
[0070]其中,第一確定單元501根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括:
[0071]獲取數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本;
[0072]從標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個數(shù)據(jù)子集,直至數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
[0073]具體的,第一確定單元501根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括:
[0074]將標(biāo)注數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集;
[0075]對于每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,將其和與其距離最小的數(shù)據(jù)子集合并,對每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個數(shù)據(jù)子集,并保證切分后的每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值;
[0076]確定每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時,將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集。
[0077]第一確定單元501還用于:
[0078]在分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為多個識別器;或者
[0079]在分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為多個識別器。
[0080]第一確定單元501確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為多個識別器,具體包括:
[0081]確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
[0082]將分?jǐn)?shù)最高的設(shè)定個數(shù)個識別器,作為多個識別器;
[0083]第一確定單元501確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為多個識別器,具體包括:
[0084]確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
[0085]將分?jǐn)?shù)超過設(shè)定分?jǐn)?shù)值的識別器,作為多個識別器。
[0086]其中,各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為:
[0087]各識別器分別計算待識別數(shù)據(jù)和該識別器對應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者
[0088]從標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與待識別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識別器分別確定該識別器對應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識別器對應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
[0089]第二確定單元502具體用于:
[0090]對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重;
[0091]根據(jù)多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)
果O
[0092]第二確定單元502對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重,具體為:
[0093]對于每個識別器,確定該識別器的投票權(quán)重為該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值的乘積。
[0094]第二確定單元502根據(jù)多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果,具體包括:
[0095]根據(jù)多個識別器的識別結(jié)果將多個識別器進(jìn)行分組;[0096]根據(jù)各個識別器的投票權(quán)重,確定每個分組的加權(quán)求和值;
[0097]將加權(quán)求和值最大的分組所對應(yīng)的識別結(jié)果,確定為該待識別數(shù)據(jù)的最終識別結(jié)
果O
[0098]本發(fā)明實施例提供一種數(shù)據(jù)識別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集,使得各識別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個識別器的差異性,因此,在對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別時,獲得訓(xùn)練后的識別器給出的識別結(jié)果,再根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,提高了大數(shù)據(jù)識別的精確度。
[0099]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。
[0100]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0101]這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0102]這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0103]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
[0104]顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)識別方法,其特征在于,包括: 分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,所述多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器; 根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括: 獲取所述數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本; 從所述標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個數(shù)據(jù)子集,直至所述數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括: 將標(biāo)注數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集; 對于每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,根據(jù)該數(shù)據(jù)子集與其他數(shù)據(jù)子集之間的相似度,將該數(shù)據(jù)子集與其他數(shù)據(jù)子集進(jìn)行合并;對每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個數(shù)據(jù)子集,并保證切分后的每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值; 確定每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時,將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集。`
4.如權(quán)利要求1-3任一所述的方法,其特征在于,所述分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,還包括: 確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為所述多個識別器;或者 確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為所述多個識別器。
5.如權(quán)利要求4所述的方法,其特征在于,所述確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為所述多個識別器,具體包括: 確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)最高的設(shè)定個數(shù)個識別器,作為所述多個識別器; 所述確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為所述多個識別器,具體包括: 確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)超過設(shè)定分?jǐn)?shù)值的識別器,作為所述多個識別器。
6.如權(quán)利要求5所述的方法,其特征在于,所述各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為: 各識別器分別計算待識別數(shù)據(jù)和該識別器對應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者 從所述標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與所述待識別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識別器分別確定該識別器對應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識別器對應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
7.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果,具體包括: 對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重; 根據(jù)所述多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果O
8.如權(quán)利要求7所述的方法,其特征在于,所述對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度 分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重,具體為: 對于每個識別器,確定該識別器的投票權(quán)重為該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值的乘積。
9.如權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果,具體包括: 根據(jù)多個識別器的識別結(jié)果將所述多個識別器進(jìn)行分組; 根據(jù)各個識別器的投票權(quán)重,確定每個分組的加權(quán)求和值; 將加權(quán)求和值最大的分組所對應(yīng)的識別結(jié)果,確定為該待識別數(shù)據(jù)的最終識別結(jié)果。
10.一種數(shù)據(jù)識別裝置,其特征在于,包括: 第一確定單元,用于分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果,所述多個識別器為分別通過根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識別器; 第二確定單元,用于根據(jù)各個識別結(jié)果確定該待識別數(shù)據(jù)的最終識別結(jié)果。
11.如權(quán)利要求10所述的裝置,其特征在于,所述第一確定單元根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括: 獲取所述數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本; 從所述標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個數(shù)據(jù)子集,直至所述數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一確定單元根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個數(shù)據(jù)子集,具體包括: 將標(biāo)注數(shù)據(jù)集中的每個標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集; 對于每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,根據(jù)該數(shù)據(jù)子集與其他數(shù)據(jù)子集之間的相似度,將該數(shù)據(jù)子集與其他數(shù)據(jù)子集進(jìn)行合并;對每個所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個數(shù)據(jù)子集,并保證切分后的每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值; 確定每個數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時,將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個數(shù)據(jù)子集。
13.如權(quán)利要求10-12任一所述的裝置,其特征在于,所述第一確定單元還用于:在分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為所述多個識別器;或者 在分別確定多個識別器對待識別數(shù)據(jù)進(jìn)行數(shù)據(jù)識別的識別結(jié)果前,確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為所述多個識別器。
14.如權(quán)利要求13所述的裝置,其特征在于,所述第一確定單元確定將與待識別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個數(shù)的識別器,作為所述多個識別器,具體包括: 確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)最高的設(shè)定個數(shù)個識別器,作為所述多個識別器; 所述第一確定單元確定將與待識別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識別器,作為所述多個識別器,具體包括: 確定各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)超過設(shè)定分?jǐn)?shù)值的識別器,作為所述多個識別器。
15.如權(quán)利要求14所述的裝置,其特征在于,所述各識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為: 各識別器分別計算待識別數(shù)據(jù)和該識別器對應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者 從所述標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與所述待識別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識別器分別確定該識別器對應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識別器對應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
16.如權(quán)利要求14所述的裝置,其特征在于,所述第二確定單元具體用于: 對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重; 根據(jù)所述多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果O
17.如權(quán)利要求16所述的裝置,其特征在于,所述第二確定單元對于每個識別器,根據(jù)該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值,確定該識別器的投票權(quán)重,具體為: 對于每個識別器,確定該識別器的投票權(quán)重為該識別器給出的該待識別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識別器對該待識別數(shù)據(jù)進(jìn)行識別后給出的置信值的乘積。
18.如權(quán)利要求16所述的裝置,其特征在于,所述第二確定單元根據(jù)所述多個識別器的識別結(jié)果以及其投票權(quán)重,確定該待識別數(shù)據(jù)的最終識別結(jié)果,具體包括: 根據(jù)多個識別器的識別結(jié)果將所述多個識別器進(jìn)行分組; 根據(jù)各個識別器的投票權(quán)重,確定每個分組的加權(quán)求和值; 將加權(quán)求和值最大的分組所對應(yīng)的識別結(jié)果,確定為該待識別數(shù)據(jù)的最終識別結(jié)果。
【文檔編號】G06F17/30GK103678419SQ201210362300
【公開日】2014年3月26日 申請日期:2012年9月25日 優(yōu)先權(quán)日:2012年9月25日
【發(fā)明者】李建強(qiáng), 劉春辰 申請人:日電(中國)有限公司