專利名稱:特征量候選生成裝置和特征量候選生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于準(zhǔn)備成為模型構(gòu)筑的基礎(chǔ)的特征量的技術(shù)。
背景技術(shù):
為了預(yù)防疾病和維持/提高健康,需要掌握人的健康狀態(tài)(體溫、 血壓、身體脂肪 等是否在正常范圍內(nèi))。但是,難以直接測(cè)量健康狀態(tài),所以在各種健康設(shè)備中,加入了基于 通過(guò)測(cè)量而獲得的某種生物體信息來(lái)估計(jì)人的健康狀態(tài)的模型(model)。例如,在電子體溫 計(jì)中,加入了根據(jù)在腋下測(cè)量的溫度來(lái)估計(jì)體溫的模型。在血壓計(jì)中,加入了根據(jù)加到手臂 上的壓力和測(cè)量的聲音來(lái)估計(jì)血壓的模型。此外,在身體組成計(jì)中,加入了根據(jù)體重、身高、 年齡、性別、生物體阻抗來(lái)估計(jì)身體脂肪率等的身體組成的模型。這種模型一般由將從人獲得的各種特征量作為變量的估計(jì)式來(lái)表現(xiàn)。在構(gòu)筑模型 時(shí),(1)首先從多個(gè)被測(cè)試者測(cè)量/收集數(shù)據(jù),準(zhǔn)備特征量。在特征量中,除了通過(guò)測(cè)量而 獲得的測(cè)量值之外,還包括根據(jù)一個(gè)或多個(gè)測(cè)量值算出的算出值、性別這樣的被測(cè)試者的 屬性值等。并且,接著,(2)從準(zhǔn)備的特征量中選定用于模型的構(gòu)筑的特征量,(3)使用選定 的特征量來(lái)構(gòu)筑模型。關(guān)于⑵特征量的選定和(3)模型的構(gòu)筑,從以往開(kāi)始研究、提出了各種方法。作 為有關(guān)(2)的已有方法,例如,有排除在特征量之間的含義的相似性、基于特征量的信息分 割法中相似性高的特征量的方法(參照專利文獻(xiàn)1),使用在多個(gè)特征量中的平均相互信息 量來(lái)評(píng)價(jià)信息量的方法(參照專利文獻(xiàn)2),使用預(yù)測(cè)誤差來(lái)評(píng)價(jià)特征量的組合的好壞的方 法(參照專利文獻(xiàn)3)等。此外,作為有關(guān)(3)的已有方法,有線性模型(單回歸模型、重回 歸模型)、非線性模型(神經(jīng)網(wǎng)絡(luò)、SVM(Support Vector Machine,支撐矢量設(shè)備))等。專利文獻(xiàn)1 特開(kāi)平11-126212號(hào)公報(bào)專利文獻(xiàn)2 特開(kāi)平4-84277號(hào)公報(bào)專利文獻(xiàn)3 特開(kāi)平9-81731號(hào)公報(bào)
發(fā)明內(nèi)容
發(fā)明要解決的課題人(生物體)具有“復(fù)雜性”和“個(gè)別性”這樣的特殊的結(jié)構(gòu)性質(zhì)。生物體的復(fù)雜性 意味著生物體由肌肉、骨、脂肪等的各種要素構(gòu)成,此外,生物體的個(gè)別性意味著在構(gòu)成生 物體的各個(gè)要素的特性上存在基于個(gè)體差異的偏差。這樣存在生物體的復(fù)雜性和個(gè)別性的 基礎(chǔ)上,從生物體測(cè)量的信息成為受到了體內(nèi)的各種構(gòu)成要素的偏差的影響的復(fù)合量。并 且,認(rèn)為在該信息中包含的偏差中,存在與設(shè)為目的的估計(jì)對(duì)象(例如,身體脂肪率)有關(guān) 的偏差和無(wú)關(guān)的偏差的特性不同的偏差??紤]了這樣的偏差的特性的模型構(gòu)筑極其困難。對(duì)于這樣的課題,本發(fā)明者們?cè)O(shè)想是否能夠通過(guò)在上述(1)的特征量的準(zhǔn)備階段 中確保特征量的變化(Variation),以網(wǎng)羅復(fù)雜性和個(gè)別性的各種性質(zhì),從而構(gòu)筑精度和可 靠性高的模型。即,將對(duì)生物體的復(fù)雜性和個(gè)別性的偏差敏感地反應(yīng)的特征量與不易受到基于生物體的復(fù)雜性和個(gè)別性的偏差的影響的特征量這樣的性質(zhì)不同的特征量網(wǎng)羅而準(zhǔn)備。但是,由于以往沒(méi)有對(duì)特征量的性質(zhì)進(jìn)行定量地評(píng)價(jià)的有效的方法,所以只能采 用基于對(duì)估計(jì)對(duì)象的預(yù)見(jiàn)知識(shí)來(lái)試錯(cuò)(trial and error)地準(zhǔn)備特征量等的沒(méi)有效率的方法。本發(fā)明是鑒于上述的實(shí)情而完成的,其目的在于,提供一種能夠有效地準(zhǔn)備在具 有復(fù)雜性和個(gè)別性的對(duì)象物的模型構(gòu)筑中特別有效的、性質(zhì)不同的特征量的候選的技術(shù)。用于解決課題的手段為了達(dá)到上述目的,本發(fā)明采用以下結(jié)構(gòu)。本發(fā)明是一種特征量候選生成裝置,用于生成應(yīng)對(duì)模型生成裝置提供的特征量候 選,該模型生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型,所述特 征量候選生成裝置包括存儲(chǔ)部件,對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的特 征量的值;指標(biāo)值計(jì)算部件,對(duì)所述多種特征量的每種特征量計(jì)算指標(biāo)值,通過(guò)由所述樣本 數(shù)對(duì)所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo)值;評(píng)價(jià)對(duì)象選擇部件,從所述多 種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合;評(píng)價(jià)部件,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的 特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及 候選決定部件,將通過(guò)所述評(píng)價(jià)部件而評(píng)價(jià)為滿足所述規(guī)定的基準(zhǔn)的特征量的組合,決定 為對(duì)所述模型生成裝置提供的特征量候選。在本發(fā)明中,使用“通過(guò)由樣本數(shù)對(duì)特征量的值的種類數(shù)進(jìn)行歸一化而獲得的指 標(biāo)值”,對(duì)各個(gè)特征量的性質(zhì)進(jìn)行定量化。并且,選擇特征量的候選,使得該指標(biāo)值的次數(shù)分 布在某種程度成為一樣。這樣,作為特征量候選,能夠高平衡地網(wǎng)羅備齊各種性質(zhì)的特征 量。并且,基于這樣的特征量候選來(lái)進(jìn)行模型構(gòu)筑,從而能夠期待模型的精度和性能的提
尚ο在本發(fā)明中,優(yōu)選地,為發(fā)現(xiàn)滿足所述規(guī)定的基準(zhǔn)的特征量的組合,重復(fù)通過(guò)所述 評(píng)價(jià)對(duì)象選擇部件進(jìn)行的評(píng)價(jià)對(duì)象的更新和通過(guò)所述評(píng)價(jià)部件進(jìn)行的所述更新了的評(píng)價(jià) 對(duì)象的評(píng)價(jià)。通過(guò)執(zhí)行這樣的探索處理,從多個(gè)特征量中能夠自動(dòng)地選擇出最適合或合適的特 征量的組合。關(guān)于探索處理的具體的方法,也可以是循環(huán)式,也可以應(yīng)用已有的探索算法。例如,所述評(píng)價(jià)對(duì)象選擇部件也可以通過(guò)將在所述多種特征量中沒(méi)有包含在所述 評(píng)價(jià)對(duì)象的特征量追加到所述評(píng)價(jià)對(duì)象中,更新所述評(píng)價(jià)對(duì)象。此時(shí),所述評(píng)價(jià)對(duì)象選擇部 件也可以確定包含在所述評(píng)價(jià)對(duì)象的特征量的指標(biāo)值的次數(shù)分布中表示最小次數(shù)的部分, 并選擇具有與該表示最小次數(shù)的部分對(duì)應(yīng)的指標(biāo)值的特征量,作為追加到所述評(píng)價(jià)對(duì)象的 特征量。這樣,由于適合提高次數(shù)分布的一致性的特征量被選擇作為追加對(duì)象,所以能夠 實(shí)現(xiàn)探索處理的效率化,能夠盡早地決定合適的特征量候選。此外,所述評(píng)價(jià)對(duì)象選擇部件也可以通過(guò)變更包含在所述評(píng)價(jià)對(duì)象的特征量中的至少一個(gè)特征量的值的分辨率,更新所述評(píng)價(jià)對(duì)象。此時(shí),所述評(píng)價(jià)對(duì)象選擇部件也可以確 定包含在所述評(píng)價(jià)對(duì)象的特征量的指標(biāo)值的次數(shù)分布中表示最大次數(shù)的部分,并變更具有 與該表示最大次數(shù)的部分對(duì)應(yīng)的指標(biāo)值的特征量的分辨率。
若將特征量的值的分辨率設(shè)為粗糙,則指標(biāo)值變小,若將分辨率設(shè)為細(xì)致,則指標(biāo) 值變大。變更具有與表示最大次數(shù)的部分對(duì)應(yīng)的指標(biāo)值的特征量的分辨率,并減小或增大 該指標(biāo)值,從而能夠提高次數(shù)分布的一致性。該方法在存儲(chǔ)部件中存儲(chǔ)的多種特征量的指 標(biāo)值偏向的情況下或在存儲(chǔ)部件中不存在具有與次數(shù)少的部分對(duì)應(yīng)的指標(biāo)值的特征量的 情況下等有效。本發(fā)明可作為具有上述部件的至少一部分的特征量候選生成裝置處理,也可以作 為包括上述特征量候選生成裝置和上述模型生成裝置的模型構(gòu)筑系統(tǒng)處理。此外,本發(fā)明 也可以作為至少包括上述處理的一部分的特征量候選生成方法或者用于實(shí)現(xiàn)該方法的程 序或記錄了該程序的計(jì)算機(jī)可讀取的記錄介質(zhì)處理。另外,只要有可能,上述部件和處理中 的各個(gè)部件和處理可以相互組合而構(gòu)成本發(fā)明。
例如,本發(fā)明的一種特征量候選生成方法,用于生成應(yīng)對(duì)模型生成裝置提供的特 征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型, 所述特征量候選生成方法使包括對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的特征 量的值的存儲(chǔ)部件的計(jì)算機(jī)執(zhí)行以下步驟指標(biāo)值計(jì)算步驟,對(duì)所述多種特征量的每種特 征量計(jì)算指標(biāo)值,通過(guò)由所述樣本數(shù)對(duì)所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo) 值;評(píng)價(jià)對(duì)象選擇步驟,從所述多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合;評(píng)價(jià)步 驟,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的次數(shù)分布的 一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過(guò)所述評(píng)價(jià)步驟而評(píng)價(jià)為滿足所述 規(guī)定的基準(zhǔn)的特征量的組合,決定為對(duì)所述模型生成裝置提供的特征量候選。此外,本發(fā)明的一種特征量候選生成程序,用于生成應(yīng)對(duì)模型生成裝置提供的特 征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型, 所述特征量候選生成程序使包括對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的特征 量的值的存儲(chǔ)部件的計(jì)算機(jī)執(zhí)行以下步驟指標(biāo)值計(jì)算步驟,對(duì)所述多種特征量的每種特 征量計(jì)算指標(biāo)值,通過(guò)由所述樣本數(shù)對(duì)所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo) 值;評(píng)價(jià)對(duì)象選擇步驟,從所述多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合;評(píng)價(jià)步 驟,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的次數(shù)分布的 一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過(guò)所述評(píng)價(jià)步驟而評(píng)價(jià)為滿足所述 規(guī)定的基準(zhǔn)的特征量的組合,決定為對(duì)所述模型生成裝置提供的特征量候選。發(fā)明效果根據(jù)本發(fā)明,能夠有效地準(zhǔn)備在具有復(fù)雜性和個(gè)別性的對(duì)象物的模型構(gòu)筑中成為 有效的、性質(zhì)不同的特征量的候選。
圖1是示意性地表示本發(fā)明的實(shí)施方式的模型構(gòu)筑系統(tǒng)的結(jié)構(gòu)的圖。圖2是表示本系統(tǒng)的整體流程的圖。圖3是表示特征量的追加的具體處理的流程圖。圖4是用于說(shuō)明特征量的追加處理的NC直方圖。圖5是表示特征量的分辨率的調(diào)整的具體處理的流程圖。圖6A和圖6B是用于說(shuō)明特征量的分辨率的調(diào)整處理的NC直方圖。
圖7是用于說(shuō)明特征量的分辨率的調(diào)整處理的圖。圖8是表示相關(guān)系數(shù)的變化的圖。圖9是表示誤差SD的變化的圖。圖10是表示每個(gè)方式的回歸系數(shù)的平均與標(biāo)準(zhǔn)偏差的表。
具體實(shí)施例方式以下,參照附圖,例示性地詳細(xì)說(shuō)明本發(fā)明的優(yōu)選的實(shí)施方式。<特征量的評(píng)價(jià)指標(biāo)>想要網(wǎng)羅性地準(zhǔn)備應(yīng)對(duì)應(yīng)于生物體的復(fù)雜性和個(gè)別性的性質(zhì)不同的特征量,以往 也沒(méi)有用于定量地評(píng)價(jià)特征量的性質(zhì)的有效的方法,所以只有試錯(cuò)地區(qū)分特征量并準(zhǔn)備的 方法,非常沒(méi)有效率。因此,在本實(shí)施方式中,導(dǎo)入基數(shù)性(cardinality)(濃度)的概念?;鶖?shù)性是表 示集合的要素?cái)?shù)的概念,是表示特征量可具有的濃度,即特征量值的種類數(shù)的指標(biāo)。例如, 設(shè)為從5個(gè)被測(cè)試者獲得了以下的特征量。(1)性別男,身高:170cm,體重 59kg(2)性別男,身高173cm,體重 65kg(3)性別男,身高l68cm,體重 65kg(4)性別女,身高l52cm,體重 42kg(5)性別女,身高l59cm,體重 50kg在該樣本中,特征量“性另lj”的要素是“男”和“女”,該基數(shù)性成為“2”。此外,特征 量“身高”的基數(shù)性成為“5”,“體重”的基數(shù)性成為“4”。通過(guò)使用該基數(shù)性的概念,能夠?qū)?各個(gè)特征量對(duì)于偏差的表現(xiàn)能力進(jìn)行定量化。但是,該基數(shù)性的值存在集合的規(guī)模,即樣本數(shù)據(jù)的數(shù)目上受到影響的問(wèn)題。例 如,在如“身高”那樣值因每個(gè)人而不同的可能性高的特征量的情況下,隨著樣本數(shù)據(jù)增加, 基數(shù)性的值也增大。因此,在本實(shí)施方式中,如以下式所示那樣,定義通過(guò)以樣本數(shù)對(duì)基數(shù) 性進(jìn)行歸一化所得到的NC (歸一化基數(shù)性=Normalized Cardinality)這樣的評(píng)價(jià)指標(biāo)。根 據(jù)以下式可知那樣,NC的定義域(值域)成為0 < NC彡1。NC =(基數(shù)性)/ (樣本數(shù)據(jù)數(shù)目)可以說(shuō)歸一化基數(shù)性NC較小的特征量具有不易受到因生物體的復(fù)雜性和個(gè)別性 的偏差的影響的性質(zhì)。若將這樣的特征量加入到模型中,則能夠期待吸收由生物體的復(fù)雜 性/個(gè)別性的偏差所引起的誤差,提高模型的穩(wěn)定性的效果。另一方面,可以說(shuō)歸一化基數(shù)性NC較大的特征量具有能夠高精度地表現(xiàn)生物體 的復(fù)雜性和個(gè)別性的偏差的性質(zhì)。若將這樣的特征量加入到模型中,則能夠期待提高模型 的精度和表現(xiàn)力的效果。因此,為構(gòu)筑兼具了穩(wěn)定性和精度的雙方的可靠性高的模型,期望使用歸一化基 數(shù)性NC較大的特征量和較小的特征量的雙方。因此,在以下敘述的本實(shí)施方式的系統(tǒng)中, 在特征量的準(zhǔn)備階段,采用高平衡且網(wǎng)羅性地準(zhǔn)備從歸一化基數(shù)性NC較大的特征量到小 的特征量的方法(approach)。通過(guò)在最初準(zhǔn)備這樣的特征量候選,結(jié)果能夠在后級(jí)的特征 量的選定處理和模型的構(gòu)筑處理中構(gòu)筑可靠性高的模型。
<系統(tǒng)結(jié)構(gòu)>圖1是示意性地表示本發(fā)明的實(shí)施方式的模型構(gòu)筑系統(tǒng)的結(jié)構(gòu)的圖。模型構(gòu)筑系統(tǒng)大致上包括基于歸一化基數(shù)性NC而生成特征量候選的特征量候 選生成裝置1和基于由該特征量候選生成裝置1提供的特征量候選而進(jìn)行特征量的選定和 模型構(gòu)筑的模型生成裝置2。特征量候選生成裝置1包括特征量候選生成單元10和特征量 數(shù)據(jù)庫(kù)11,模型生成裝置2包括模型準(zhǔn)備單元20和特征量/模型選定單元21及模型評(píng)價(jià) 單元22。該模型構(gòu)筑系統(tǒng)是基于從多個(gè)被測(cè)試者(樣本)獲得的測(cè)量數(shù)據(jù)和屬性數(shù)據(jù),自 動(dòng)地生成估計(jì)對(duì)象的模型(估計(jì)式)的系統(tǒng)。作為估計(jì)對(duì)象,例如可估計(jì)身體脂肪率或內(nèi) 臟脂肪量等的身體組成、體溫、血壓等的表示人的健康狀態(tài)的對(duì)象。作為測(cè)量數(shù)據(jù),使用從 生物體測(cè)量的各種信息,例如身高、體重、腰圍、生物體阻抗、溫度、心率等,此外,作為屬性 數(shù)據(jù),例如使用年齡、性別等。由于大多情況下測(cè)量數(shù)據(jù)或?qū)傩詳?shù)據(jù)與估計(jì)對(duì)象之間的因果 關(guān)系是未知的,所以優(yōu)選盡可能收集多種數(shù)據(jù)。事先收集的測(cè)量數(shù)據(jù)、屬性數(shù)據(jù)存儲(chǔ)在特征 量數(shù)據(jù)庫(kù)11中。在硬件上,模型構(gòu)筑系統(tǒng)可通過(guò)包括CPU、存儲(chǔ)器、輔助存儲(chǔ)裝置、顯示裝置、輸入 裝置等的通用的計(jì)算機(jī)構(gòu)成。既可以是一臺(tái)計(jì)算機(jī),也可以是由多臺(tái)計(jì)算機(jī)構(gòu)成。并且,上 述的模型構(gòu)筑系統(tǒng)的各種功能可通過(guò)CPU執(zhí)行在輔助存儲(chǔ)裝置中存儲(chǔ)的程序,并根據(jù)需要 利用硬件資源而實(shí)現(xiàn)。<功能和動(dòng)作>接著,參照?qǐng)D2的流程圖,說(shuō)明模型構(gòu)筑系統(tǒng)的各個(gè)部分的功能和其動(dòng)作。圖2是 表示本系統(tǒng)的整體流程的圖。(特征量候選生成裝置特征量的準(zhǔn)備)在步驟Sl中,特征量候選生成單元10從特征量數(shù)據(jù)庫(kù)11讀入測(cè)量數(shù)據(jù)和屬性數(shù) 據(jù),并根據(jù)這些數(shù)據(jù)而計(jì)算特征量。這里,將測(cè)量數(shù)據(jù)(測(cè)量值)和屬性數(shù)據(jù)(屬性值)本 身稱為第一次特征量,將根據(jù)一個(gè)或多個(gè)測(cè)量值算出的算出值稱為第二次特征量。例如,從 被測(cè)試者測(cè)量的腰圍w和生物體阻抗Z是第一次特征量,通過(guò)它們的維數(shù)擴(kuò)展和組合而獲 得的w2、1/w、Z · w等是第二次特征量。作為第二次特征量而生成什么樣的量,可以預(yù)先設(shè) 定在特征量候選生成單元10中,也可以隨機(jī)或網(wǎng)羅性地生成各種形式的第二次特征量。通過(guò)特征量候選生成單元10算出的特征量(包括第一次特征量、第二次特征量) 存儲(chǔ)在作為存儲(chǔ)部件的特征量數(shù)據(jù)庫(kù)11中。這樣,在特征量數(shù)據(jù)庫(kù)11中,對(duì)多種特征量準(zhǔn) 備從多個(gè)樣本的各個(gè)樣本中提取出的(測(cè)量、獲取或者算出的)特征量的值。其中,由于這 些特征量只是自動(dòng)地收集并算出的,所以并不限定高平衡且網(wǎng)羅性地包含不同性質(zhì)的特征 量,也存在若將全部設(shè)為特征量候選的話數(shù)目會(huì)過(guò)多的情況。因此,特征量候選生成單元10 在下一個(gè)步驟之后進(jìn)行特征量候選的生成。在步驟S2中,特征量候選生成單元10對(duì)在特征量數(shù)據(jù)庫(kù)11中存儲(chǔ)的多種特征量 的每種特征量計(jì)算歸一化基數(shù)性NC的值。另外,在本實(shí)施方式中,特征量候選生成單元10 的這個(gè)功能相當(dāng)于本發(fā)明的指標(biāo)值計(jì)算部件。在步驟S3中,特征量候選生成單元10從多種特征量選擇設(shè)為評(píng)價(jià)對(duì)象的特征量的組合(特征量組)。初始的特征量組可以任意選擇。例如,可以隨機(jī)選擇,也可以選擇NC的值的方差大的組合的特征量。另外,在本實(shí)施方式中,特征量候選生成單元10的這個(gè)功 能相當(dāng)于本發(fā)明的評(píng)價(jià)對(duì)象選擇部件。在步驟S4中,特征量候選生成單元10對(duì)在步驟S3中選擇作為評(píng)價(jià)對(duì)象的特征量 組,評(píng)價(jià)各個(gè)特征量的歸一化基數(shù)性的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn)。即,在將橫 軸設(shè)為NC的值(值域是0 1)、將縱軸設(shè)為次數(shù)(特征量的數(shù)目)的直方圖(以下,稱為 NC直方圖)中,評(píng)價(jià)在0 1的值域整體中是否高平衡地分布特征量。作為這樣的評(píng)價(jià)方 法,例如可使用Kolmogorov smirnov檢測(cè)等。這里,在評(píng)價(jià)為NC直方圖的一致性滿足規(guī)定 的基準(zhǔn)(NC的平衡好)的情況下,進(jìn)至步驟S6,在評(píng)價(jià)為不滿足規(guī)定的基準(zhǔn)(NC的平衡差) 的情況下,進(jìn)至步驟S5。另外,在本實(shí)施方式中,特征量候選生成單元10的這個(gè)功能相當(dāng)于 本發(fā)明的評(píng)價(jià)部件。在步驟S5中,特征量候選生成單元10更新設(shè)為評(píng)價(jià)對(duì)象的特征量組。作為NC高 平衡地更新特征量組的方法,這里使用“特征量的追加”和“特征量的分辨率的調(diào)整”的兩 個(gè)方法中的任一個(gè)或者兩個(gè)。圖3是表示特征量的追加的具體處理的流程圖。在步驟S30中,特征量候選生成單 元10調(diào)查在特征量數(shù)據(jù)庫(kù)11中是否存在不使用(沒(méi)有包括在評(píng)價(jià)中的特征量組中)的特 征量。在存在的情況下,在步驟S31中取得它們的NC 的值。然后,在步驟S32中,特征量候 選生成單元10在當(dāng)前的評(píng)價(jià)對(duì)象的NC直方圖中確定表示最小次數(shù)的部分。若例如是圖4 所示那樣的NC直方圖,則表示最小次數(shù)的部分是NC值為0. 3的部分。以下,將表示最小次 數(shù)的部分的NC值稱為NCb、將表示最大次數(shù)的部分的NC值稱為NCp。特征量候選生成單元 10從在步驟S30中獲得的特征量中,提取NC的值包含在NCb士 α (α是預(yù)先設(shè)定的值。例 如α =0.05)的范圍的特征量。這里,在提取的特征量至少存在一個(gè)的情況下(步驟S33 是),在步驟S34中,NC的值最接近NCb的特征量被追加到作為評(píng)價(jià)對(duì)象的特征量組中。圖5是表示特征量的分辨率的調(diào)整的具體處理的流程圖。在步驟S40中,特征量 候選生成單元10比較當(dāng)前的評(píng)價(jià)對(duì)象的NC直方圖的NCp與NCb的大小。在NCp > NCb的情況下(參照?qǐng)D6Α),進(jìn)至步驟S41。在步驟S41中,特征量候選 生成單元10從屬于NCp的部分的特征量中,提取能夠?qū)⒎直媛师?%粗略化的特征量(β是 預(yù)先設(shè)定的值。例如β =50%)。這里,調(diào)整分辨率是指,變更特征量可取的值(離散值) 的刻紋寬度,將分辨率粗略化是指將刻紋寬度增大,將分辨率細(xì)致化是指將刻紋寬度減小。 若特征量的值為以實(shí)數(shù)值來(lái)提供的特征量,則原則上能夠以任意寬度來(lái)調(diào)整分辨率。在步 驟S41中提取的特征量至少存在一個(gè)的情況下(步驟S42 是),準(zhǔn)備將這些特征量的分辨 率β %粗略化的特征量(步驟S43),進(jìn)至步驟S47。另一方面,在NCp < NCb的情況下(參照?qǐng)D6Β),進(jìn)至步驟S44。在步驟S44中,特 征量候選生成單元10從屬于NCp的部分的特征量中,提取能夠?qū)⒎直媛师?%細(xì)致化的特征 量。在提取的特征量至少存在一個(gè)的情況下(步驟S45:是),準(zhǔn)備將這些特征量的分辨率 β %細(xì)致化的特征量(步驟S46),進(jìn)至步驟S47。在步驟S47中,特征量候選生成單元10計(jì)算在步驟S43或步驟S46中準(zhǔn)備的分辨 率調(diào)整之后的特征量的NC。如圖7所示那樣,若將分辨率粗略化,則特征量可取的值的數(shù)目 減少,所以NC的值減小,相反地,若將分辨率細(xì)致化,則特征量可取的值的數(shù)目增加,所以 NC的值變大。在步驟S48中,在這些中采用具有最接近NCb的NC的值的特征量。
若通過(guò)執(zhí)行以上敘述的“特征量的追加”或/和“特征量的分辨率的調(diào)整”而評(píng)價(jià) 對(duì)象的特征量組被更新,則返回到步驟S4,進(jìn)行在更新后的特征量組中的NC的平衡評(píng)價(jià)。 該步驟S4和S5的處理(適合的特征量組的探索處理)重復(fù)至NC的平衡判斷為好為止。由 于在上述特征量的追加處理中,適合提高NC直方圖的一致性的特征量被選擇作為追加對(duì) 象,所以具有能夠?qū)崿F(xiàn)探索處理的效率化,且能夠盡早決定合適的特征量候選的優(yōu)點(diǎn)。另一 方面,通過(guò)在特征量的分辨率的調(diào)整處理中,減小或增大與在NC直方圖中的最大次數(shù)的部 分對(duì)應(yīng)的特征量的指標(biāo)值,從而能夠提高次數(shù)分布的一致性。該方法在以下情況下有效在 特征量數(shù)據(jù)庫(kù)11中存儲(chǔ)的特征量的NC偏向的情況下,或在特征量數(shù)據(jù)庫(kù)11中不存在具有 與NC直方圖的次數(shù)少的部分對(duì)應(yīng)的NC的特征量的情況下等。另外,特征量候選生成單元 10的這些功能對(duì)應(yīng)于本發(fā)明的評(píng)價(jià)對(duì)象選擇部件。若這樣獲得NC的平衡好的特征量組,則特征量候選生成單元10將該特征量組決 定為對(duì)模型生成裝置2提供的特征量候選(步驟S6)。在該特征量候選中,高平衡且網(wǎng)羅性 地包括NC大的特征量至小的特征量,能夠期待在后級(jí)的特征量的選定處理和模型的構(gòu)筑 處理中可進(jìn)行可靠性高的模型構(gòu)筑。(模型生成裝置特征量的選定和模型的構(gòu)筑)在步驟S7中,模型準(zhǔn)備單元20生成模型候選(估計(jì)式的候選)。這里,模型準(zhǔn)備 單元20對(duì)在特征量候選中包含的特征量的全部組合生成模型候選。這里,若特征量的數(shù) 目過(guò)多而評(píng)價(jià)全部組合為不現(xiàn)實(shí)的情況下,則固定要選擇的特征量的數(shù)目等(例如,若將 特征量的總數(shù)設(shè)為η個(gè)、要選擇的特征量的數(shù)目設(shè)為m個(gè),則模型候選的數(shù)目被限定為nCm 組。),適當(dāng)?shù)叵薅P秃蜻x的數(shù)目即可。作為模型,有單回歸模型、重回歸模型等的線性模型和神經(jīng)網(wǎng)絡(luò)、SVM等的非線性 模型等,使用任何模型都可以。此外,模型準(zhǔn)備單元20也可以根據(jù)在提供的特征量候選中 包含的特征量的種類和數(shù)目等,適應(yīng)性地改變使用的模型的形式或者對(duì)一個(gè)特征量的組生 成多種形式的模型候選。在步驟S8中,模型準(zhǔn)備單元20從特征量數(shù)據(jù)庫(kù)11中讀入各個(gè)特征量的值,學(xué)習(xí) 各個(gè)模型候選的系數(shù)。在學(xué)習(xí)方法中有最小二乘(least squares)法或向后傳播(back propagation)法等,根據(jù)模型候選的形式來(lái)選擇最合適的學(xué)習(xí)方法即可。接著,進(jìn)行在通過(guò)步驟S7和S8獲得的多個(gè)模型候選中篩選最合適的特征量/模 型的處理。這里,為選定特征量/模型,使用AIC (Akaike InformationCriterion)這樣的 指標(biāo)。AIC是用于選擇顧全了模型的簡(jiǎn)單性和對(duì)已知的數(shù)據(jù)的適應(yīng)性的模型的統(tǒng)計(jì)性的基 準(zhǔn)。在步驟S9中,特征量/模型選定單元21對(duì)各個(gè)模型候選選擇AIC。然后,在步驟SlO 中,AIC最小的模型候選被選擇作為最合適的模型,即顧全了簡(jiǎn)單性和對(duì)已知的數(shù)據(jù)的適應(yīng) 性的模型。另外,作為用于評(píng)價(jià)特征量/模型的指標(biāo),并不限定于AIC,可以使用Cp值等的 其他指標(biāo)。之后,在步驟Sll中,模型評(píng)價(jià)單元22評(píng)價(jià)所選擇的模型的性能。具體地說(shuō),使用 驗(yàn)證用的樣本數(shù)據(jù)來(lái)求出模型的估計(jì)誤差,并根據(jù)該估計(jì)誤差是否在允許范圍內(nèi)來(lái)決定是 否采用該模型。若估計(jì)誤差超出允許范圍,則依次評(píng)價(jià)AIC的值下一個(gè)小的模型即可。若 這樣也沒(méi)有發(fā)現(xiàn)滿足性能目標(biāo)的模型的情況下,重新生成或者更新特征量候選(步驟S3 S6),或者重新生成模型候選(步驟S7、S8)即可。
如以上所述那樣,在本實(shí)施方式的方法中,各個(gè)特征量的性質(zhì)通過(guò)歸一化基數(shù)性 被定量化。并且,選擇特征量的候選,使得該指標(biāo)值NC的次數(shù)分布在某種程度上成為一致。 這樣,作為特征量候選,能夠高平衡且網(wǎng)羅性地備齊各種性質(zhì)的特征量。并且,通過(guò)基于這 樣的特征量候選來(lái)進(jìn)行模型構(gòu)筑,從而能夠期待模型的精度和穩(wěn)定性的提高?!磳?shí)施例評(píng)價(jià)實(shí)驗(yàn)〉為了驗(yàn)證考慮歸一化基數(shù)性NC而選擇特征量的有效性,準(zhǔn)備采用的特征量的NC 的傾向不同的三個(gè)模型(估計(jì)式),評(píng)價(jià)了各個(gè)模型的估計(jì)精度和穩(wěn)定性。1.估計(jì)式準(zhǔn)備的估計(jì)式如下所示。另外,這些估計(jì)式是用于基于從人測(cè)量或獲得的特征量而估計(jì)內(nèi)臟脂肪面積的模型。省略關(guān)于各個(gè)特征量的含義。(方式1)方式1是在現(xiàn)有研究中提出的估計(jì)式。在下述式中“NC(x) ”表示特征量χ的NC 的值。式1
2 1VFA=OCW -β—-yXw-δ
Zα、β、γ、δ:回歸系數(shù)w2、去、Xw:特征量NC(1/Z) = NC (Xw) = 1. 00,NC (w2) = 0. 72(方式2)方式2是通過(guò)上述的實(shí)施方式的模型構(gòu)筑系統(tǒng)而構(gòu)筑的估計(jì)式。在下述式中,網(wǎng) 羅性地包括NC大的特征量至NC小的特征量。式2
VFA=aia+a2b+a3 - +a4a2+a5b2+a6^ +a7 丄 +a8X Va2+ 2 +a9A+ai0S+a1i
bb Za“i = 1、2、……、11)回歸系數(shù)a、b、+、a2、b2、+、去、χ^2+&2、A、S 特征量NC ( 1/Z) =NC ( XVa2+62 ) =1.00NC (b) = NC(l/b) = NC (b2) = NC(l/b2) = 0. 98NC (a) = NC (a2) = 0. 80NC(A) = 0· 40,NC(S) = 0. 02(方式3)方式3是從方式2的估計(jì)式中除去了 NC小的特征量A、S的估計(jì)式。即,方式3成 為僅由NC大的特征量構(gòu)成的估計(jì)式。式3νΡΑ=β!α+β25+β3- +p4a2+p5b2+p6 J- +β7 丄 +β8Χ+β9
bb Z<formula>formula see original document page 12</formula>2.評(píng)價(jià)指標(biāo)在本評(píng)價(jià)實(shí)驗(yàn)中,作為用于評(píng)價(jià)各個(gè)估計(jì)式的估計(jì)精度的高度和穩(wěn)定性的指標(biāo), 使用相關(guān)系數(shù)和誤差標(biāo)準(zhǔn)偏差。此外,作為用于評(píng)價(jià)估計(jì)式的穩(wěn)定性的指標(biāo),使用回歸系數(shù) 的標(biāo)準(zhǔn)偏差。以下,表示這些評(píng)價(jià)指標(biāo)的細(xì)節(jié)。(相關(guān)系數(shù))通過(guò)皮爾遜(pearson)的積矩相關(guān)系數(shù)(product moment correlationcoefficient)而算出基于任意的估計(jì)式的內(nèi)臟脂肪面積的估計(jì)式與通過(guò)MRI 而獲得的實(shí)際值之間的相關(guān),從而評(píng)價(jià)對(duì)于未知的個(gè)體的表現(xiàn)性能,即評(píng)價(jià)是否能夠?qū)?nèi) 臟脂肪面積小的個(gè)體到大的個(gè)體確保高的估計(jì)精度。(誤差標(biāo)準(zhǔn)偏差)根據(jù)基于任意的估計(jì)式的估計(jì)值與通過(guò)MRI而獲得的實(shí)際測(cè)量值之間的誤差的 標(biāo)準(zhǔn)偏差(以下,稱為誤差SD),評(píng)價(jià)對(duì)于未知的個(gè)體的估計(jì)精度的穩(wěn)定性。(回歸系數(shù)的標(biāo)準(zhǔn)偏差)預(yù)先準(zhǔn)備多個(gè)學(xué)習(xí)用數(shù)據(jù)組,并根據(jù)學(xué)習(xí)任意的估計(jì)式的回歸系數(shù)時(shí)的回歸系數(shù) 的標(biāo)準(zhǔn)偏差,評(píng)價(jià)估計(jì)式對(duì)于學(xué)習(xí)用數(shù)據(jù)中的個(gè)體差的穩(wěn)定性。3.實(shí)驗(yàn)方法在每次進(jìn)行方式1、2、3的比較評(píng)價(jià)時(shí),進(jìn)行交叉驗(yàn)證(cross validation)。以下 表示步驟。(1)為生成學(xué)習(xí)用數(shù)據(jù)組和驗(yàn)證用數(shù)據(jù)組,將在特征量數(shù)據(jù)庫(kù)11中存儲(chǔ)的被測(cè)試 者組的數(shù)據(jù)隨機(jī)地分割為2組。另外,在本實(shí)驗(yàn)中,將學(xué)習(xí)用數(shù)據(jù)組與驗(yàn)證用數(shù)據(jù)組的個(gè)體 數(shù)設(shè)為相同。(2)對(duì)一個(gè)數(shù)據(jù)組進(jìn)行估計(jì)式的回歸系數(shù)的學(xué)習(xí)。(3)使用另一個(gè)數(shù)據(jù)組,從各個(gè)估計(jì)式算出估計(jì)值。(4)進(jìn)行估計(jì)值與MRI的實(shí)際測(cè)量值之間的相關(guān)系數(shù)和誤差SD的計(jì)算。(5)為驗(yàn)證估計(jì)式的穩(wěn)定性,多次進(jìn)行(1) (4)。在本實(shí)驗(yàn)中,將進(jìn)行次數(shù)設(shè)為 10次。4.評(píng)價(jià)結(jié)果在圖8中示出在10次試行中的各個(gè)方式的估計(jì)值與實(shí)際測(cè)量值的相關(guān)系數(shù)的變 化,在圖9中示出誤差SD的變化。根據(jù)圖8可知方式2和方式3的內(nèi)臟脂肪面積的表現(xiàn)性能高于以往方法的方式1。 此外,根據(jù)圖9可確認(rèn)對(duì)于未知的生物體的估計(jì)精度的穩(wěn)定性也是相同的。這里,方式2和方式3比方式1包括較多NC大的特征量。即,可確認(rèn)通過(guò)在估計(jì) 式中導(dǎo)入NC大的特征量,估計(jì)精度會(huì)提高。
此外,圖10表示與通過(guò)在評(píng)價(jià)實(shí)驗(yàn)中進(jìn)行的10次試行而獲得的各個(gè)估計(jì)式的特 征量對(duì)應(yīng)的回歸系數(shù)的平均與標(biāo)準(zhǔn)偏差。在圖10中,若比較對(duì)于在方式2和方式3中共 同包含的特征量的回歸系數(shù)的標(biāo)準(zhǔn)偏差,則方式2的各個(gè)回歸系數(shù)的標(biāo)準(zhǔn)偏差比方式3小 9 48%。因此,可以說(shuō)方式2可以比方式3更穩(wěn)定地構(gòu)筑估計(jì)式。即,能夠確認(rèn)通過(guò)在估 計(jì)式中導(dǎo)入NC小的特征量,估計(jì)式的穩(wěn)定性會(huì)提高。根據(jù)以上的結(jié)果,可知通過(guò)使用本實(shí)施方式的方法來(lái)準(zhǔn)備/選定特征 量,從而能 夠穩(wěn)定地構(gòu)筑高精度的估計(jì)式。
權(quán)利要求
一種特征量候選生成裝置,用于生成應(yīng)對(duì)模型生成裝置提供的特征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型,其特征在于,所述特征量候選生成裝置包括存儲(chǔ)部件,對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的特征量的值;指標(biāo)值計(jì)算部件,對(duì)所述多種特征量的每種特征量計(jì)算指標(biāo)值,通過(guò)由所述樣本數(shù)對(duì)所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo)值;評(píng)價(jià)對(duì)象選擇部件,從所述多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合;評(píng)價(jià)部件,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定部件,將通過(guò)所述評(píng)價(jià)部件而評(píng)價(jià)為滿足所述規(guī)定的基準(zhǔn)的特征量的組合,決定為對(duì)所述模型生成裝置提供的特征量候選。
2.如權(quán)利要求1所述的特征量候選生成裝置,其特征在于,為發(fā)現(xiàn)滿足所述規(guī)定的基準(zhǔn)的特征量的組合,重復(fù)通過(guò)所述評(píng)價(jià)對(duì)象選擇部件進(jìn)行的 評(píng)價(jià)對(duì)象的更新和通過(guò)所述評(píng)價(jià)部件進(jìn)行的所述更新了的評(píng)價(jià)對(duì)象的評(píng)價(jià)。
3.如權(quán)利要求2所述的特征量候選生成裝置,其特征在于,所述評(píng)價(jià)對(duì)象選擇部件通過(guò)將在所述多種特征量中沒(méi)有包含在所述評(píng)價(jià)對(duì)象的特征 量追加到所述評(píng)價(jià)對(duì)象中,更新所述評(píng)價(jià)對(duì)象,所述評(píng)價(jià)對(duì)象選擇部件確定包含在所述評(píng)價(jià)對(duì)象的特征量的指標(biāo)值的次數(shù)分布中表 示最小次數(shù)的部分,并選擇具有與該表示最小次數(shù)的部分對(duì)應(yīng)的指標(biāo)值的特征量,作為追 加到所述評(píng)價(jià)對(duì)象的特征量。
4.如權(quán)利要求2或3所述的特征量候選生成裝置,其特征在于,所述評(píng)價(jià)對(duì)象選擇部件通過(guò)變更包含在所述評(píng)價(jià)對(duì)象的特征量中的至少一個(gè)特征量 的值的分辨率,更新所述評(píng)價(jià)對(duì)象,所述評(píng)價(jià)對(duì)象選擇部件確定包含在所述評(píng)價(jià)對(duì)象的特征量的指標(biāo)值的次數(shù)分布中表 示最大次數(shù)的部分,并變更具有與該表示最大次數(shù)的部分對(duì)應(yīng)的指標(biāo)值的特征量的分辨 率。
5.一種特征量候選生成方法,用于生成應(yīng)對(duì)模型生成裝置提供的特征量候選,該模型 生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型,其特征在于,所述特征量候選生成方法使包括對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的 特征量的值的存儲(chǔ)部件的計(jì)算機(jī)執(zhí)行以下步驟指標(biāo)值計(jì)算步驟,對(duì)所述多種特征量的每種特征量計(jì)算指標(biāo)值,通過(guò)由所述樣本數(shù)對(duì) 所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo)值;評(píng)價(jià)對(duì)象選擇步驟,從所述多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合; 評(píng)價(jià)步驟,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的 次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過(guò)所述評(píng)價(jià)步驟而評(píng)價(jià)為滿足所述規(guī)定的基準(zhǔn)的特征量的組合, 決定為對(duì)所述模型生成裝置提供的特征量候選。
6.一種特征量候選生成程序,用于生成應(yīng)對(duì)模型生成裝置提供的特征量候選,該模型 生成裝置使用從提供的特征量候選中所選擇的多個(gè)特征量來(lái)構(gòu)筑模型,其特征在于,所述特征量候選生成程序使包括對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的 特征量的值的存儲(chǔ)部件的計(jì)算機(jī)執(zhí)行以下步驟指標(biāo)值計(jì)算步驟,對(duì)所述多種特征量的每種特征量計(jì)算指標(biāo)值,通過(guò)由所述樣本數(shù)對(duì) 所述特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo)值;評(píng)價(jià)對(duì)象選擇步驟,從所述多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合; 評(píng)價(jià)步驟,對(duì)作為所述評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的 次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及 候選決定步驟,將通過(guò)所述評(píng)價(jià)步驟而評(píng)價(jià)為滿足所述規(guī)定的基準(zhǔn)的特征量的組合, 決定為對(duì)所述模型生成裝置提供的特征量候選。
全文摘要
特征量候選生成裝置,包括存儲(chǔ)部件,對(duì)多種特征量存儲(chǔ)從多個(gè)樣本的每個(gè)樣本中提取的特征量的值;指標(biāo)值計(jì)算部件,對(duì)多種特征量的每種特征量計(jì)算指標(biāo)值,通過(guò)由樣本數(shù)對(duì)特征量的值的種類數(shù)進(jìn)行歸一化而獲得該指標(biāo)值;評(píng)價(jià)對(duì)象選擇部件,從多種特征量中選擇作為評(píng)價(jià)對(duì)象的特征量的組合;評(píng)價(jià)部件,對(duì)作為評(píng)價(jià)對(duì)象而選擇的特征量的組合,評(píng)價(jià)各個(gè)特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定部件,將通過(guò)評(píng)價(jià)部件而評(píng)價(jià)為滿足規(guī)定的基準(zhǔn)的特征量的組合,決定為對(duì)模型生成裝置提供的特征量候選。
文檔編號(hào)A61B5/05GK101835421SQ20088011285
公開(kāi)日2010年9月15日 申請(qǐng)日期2008年10月31日 優(yōu)先權(quán)日2007年11月1日
發(fā)明者中島宏, 土屋直樹(shù), 田崎博, 米田光宏 申請(qǐng)人:歐姆龍株式會(huì)社