使用多個(gè)支持向量機(jī)從多個(gè)數(shù)據(jù)組中提升知識(shí)發(fā)現(xiàn)的制作方法

文檔序號(hào)：6500599閱讀：244來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：使用多個(gè)支持向量機(jī)從多個(gè)數(shù)據(jù)組中提升知識(shí)發(fā)現(xiàn)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的學(xué)習(xí)機(jī)的使用。更特別地，本發(fā)明涉及學(xué)習(xí)機(jī)和相關(guān)的輸入和輸出數(shù)據(jù)的最優(yōu)化，以便提升從多個(gè)數(shù)據(jù)組中發(fā)現(xiàn)的知識(shí)。
作為一個(gè)具體的示例，人類基因組計(jì)劃(Human Genome Project)正在增加描述人類遺傳碼的一個(gè)幾千兆字節(jié)的數(shù)據(jù)庫(kù)。在人類基因組的測(cè)繪完成(預(yù)期在2003年)之前，預(yù)期該數(shù)據(jù)庫(kù)的大小將顯著增長(zhǎng)。這樣一個(gè)數(shù)據(jù)庫(kù)中的大數(shù)量的數(shù)據(jù)壓倒了傳統(tǒng)的數(shù)據(jù)分析工具，例如電子表格和特定(ad hoc)查詢。傳統(tǒng)的數(shù)據(jù)分析方法可用來(lái)從數(shù)據(jù)中創(chuàng)建豐富的報(bào)告，但是不具有聰明地以及自動(dòng)地協(xié)助人類在大數(shù)量的數(shù)據(jù)中分析并尋找有用知識(shí)模型的能力。而且，使用通常的已接受的參考范圍和解釋標(biāo)準(zhǔn)，即使對(duì)于小數(shù)量的數(shù)據(jù)，人類也經(jīng)常不可能識(shí)別有用知識(shí)的模型。
一個(gè)新近的改進(jìn)，其已經(jīng)顯示在一些機(jī)器學(xué)習(xí)示例中有效，是反向傳播神經(jīng)網(wǎng)絡(luò)。反向傳播神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)機(jī)，其可以被訓(xùn)練以便發(fā)現(xiàn)一個(gè)數(shù)據(jù)組中對(duì)人來(lái)說(shuō)是不容易明白的知識(shí)?？墒?，使用反向傳播神經(jīng)網(wǎng)絡(luò)方法的各種問(wèn)題阻止神經(jīng)網(wǎng)絡(luò)更好的控制學(xué)習(xí)機(jī)。例如，反向傳播神經(jīng)網(wǎng)絡(luò)一個(gè)顯著的缺點(diǎn)是經(jīng)驗(yàn)的風(fēng)險(xiǎn)函數(shù)可以有許多局部最小值，通過(guò)此技術(shù)會(huì)容易模糊來(lái)自發(fā)現(xiàn)中的最佳解。由反向傳播神經(jīng)網(wǎng)絡(luò)使用的標(biāo)準(zhǔn)最優(yōu)化程序可以收斂到一個(gè)最小值，但是該神經(jīng)網(wǎng)絡(luò)方法不能保證獲得比期望的全局最小值小許多的一個(gè)局部化最小值。從一個(gè)神經(jīng)網(wǎng)絡(luò)中獲得的解的質(zhì)量取決于許多因素。具體的說(shuō)，實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的從業(yè)者的技能決定了最終的利益，但是甚至與初始加權(quán)的隨機(jī)選擇表面上一樣良性的因素也可能導(dǎo)致差的結(jié)果。此外，用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的基于梯度收斂的方法從來(lái)就很慢。另外一個(gè)缺點(diǎn)是反曲函數(shù)具有一個(gè)比例因子，它影響近似法的質(zhì)量?？赡芘c知識(shí)發(fā)現(xiàn)相關(guān)的神經(jīng)網(wǎng)絡(luò)的最大限制因素是“維數(shù)的詛咒”(curse of dimensionality)其與訓(xùn)練數(shù)據(jù)中的每個(gè)附加特性或者維數(shù)在所需要計(jì)算的時(shí)間和功率的不成比例的增長(zhǎng)相關(guān)聯(lián)。
使用支持向量機(jī)可克服神經(jīng)網(wǎng)絡(luò)的這些缺點(diǎn)。在通常的術(shù)語(yǔ)中，一個(gè)支持向量機(jī)選擇優(yōu)先通過(guò)非線性映射函數(shù)把輸入向量映射到一高維特征空間中。在這個(gè)高維特征空間中，構(gòu)造了一個(gè)最佳分離的超平面。然后該最佳超平面被用于確定諸如類別分離、回歸適合或者密度估計(jì)中的精確度。
在一個(gè)支持向量機(jī)內(nèi)部，特征空間維數(shù)可以很巨大。例如，一個(gè)第四次方的多項(xiàng)式映射函數(shù)使一個(gè)200維輸入空間被映射到一個(gè)1.6億維的特征空間中。內(nèi)核手段(kernel trick)和Vapnik-Chervonenkis維數(shù)允許支持向量機(jī)阻礙這個(gè)″維數(shù)詛咒″(curse of dimensionality)，該″維數(shù)詛咒″約束了其他方法和從很高維特征空間中有效的得出的可歸納答案。
如果訓(xùn)練向量被最佳超平面(或者廣義的最佳超平面)分離，那么在一個(gè)測(cè)試示例上提交一個(gè)差錯(cuò)的概率期望值由訓(xùn)練組中的示例所限制。這個(gè)界限既不取決于特征空間的維數(shù)，也不取決于系數(shù)向量的范數(shù)，也不取決于輸入向量數(shù)量的界限。因此，如果最佳超平面可以從與訓(xùn)練組大小有關(guān)的少數(shù)支持向量中構(gòu)造而來(lái)，甚至在無(wú)限維空間中，一般化的性能將很高。
同樣地，支持向量機(jī)提供一個(gè)理想的解決方案，解決來(lái)自巨大數(shù)量的輸入數(shù)據(jù)中的發(fā)現(xiàn)知識(shí)的問(wèn)題?？墒牵С窒蛄繖C(jī)從一個(gè)數(shù)據(jù)組中發(fā)現(xiàn)知識(shí)的能力局限在包括訓(xùn)練數(shù)據(jù)組內(nèi)部的信息的一部分。因此，這里存在對(duì)一種系統(tǒng)和方法的需要，該系統(tǒng)和方法用于增加訓(xùn)練數(shù)據(jù)以便使向量機(jī)的知識(shí)發(fā)現(xiàn)最大化。
此外，來(lái)自一個(gè)支持向量機(jī)的未加工的輸出不能以最容易解釋的形式完全公開(kāi)知識(shí)。因此，這里依然還需要一種系統(tǒng)和方法，用于對(duì)從一個(gè)支持向量機(jī)中輸出的數(shù)據(jù)進(jìn)行后處理(post-processing)以便將人或另外的自動(dòng)處理所傳送的信息值最大化。
另外，支持向量機(jī)從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的能力被內(nèi)核的選擇所限制。因此，這里依然需要一種改良的系統(tǒng)和方法，用于為支持向量機(jī)選擇和/或創(chuàng)建一個(gè)期望的內(nèi)核。
在這種方式中，由預(yù)處理提供的訓(xùn)練數(shù)據(jù)的附加表述可以提升從那里發(fā)現(xiàn)知識(shí)的學(xué)習(xí)機(jī)的性能。在支持向量機(jī)的特定環(huán)境中，訓(xùn)練組的維數(shù)越大，則可以從那里導(dǎo)出的歸納質(zhì)量就越高。當(dāng)從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)涉及一個(gè)一個(gè)回歸或者密度估計(jì)時(shí)或者在訓(xùn)練輸出包括一個(gè)連續(xù)變量的地方，可以通過(guò)把訓(xùn)練輸出進(jìn)行最佳分類來(lái)對(duì)該訓(xùn)練輸出進(jìn)行后處理從而從連續(xù)變量中導(dǎo)出分類。
以與訓(xùn)練數(shù)據(jù)組相同的方式來(lái)預(yù)先處理一個(gè)測(cè)試數(shù)據(jù)組。然后，使用預(yù)處理的測(cè)試數(shù)據(jù)組來(lái)測(cè)試訓(xùn)練的學(xué)習(xí)機(jī)。被訓(xùn)練的學(xué)習(xí)機(jī)的一個(gè)測(cè)試輸出可以被后處理以便確定該測(cè)試輸出是否是一個(gè)最佳解。后處理測(cè)試輸出可以包括把測(cè)試輸出解釋為可以與測(cè)試數(shù)據(jù)組相比較的一種格式。選擇性的后處理步驟可以提升人類對(duì)于輸出數(shù)據(jù)的附加處理的解釋性或適應(yīng)性。
在支持向量機(jī)的環(huán)境中，本發(fā)明還在訓(xùn)練支持向量機(jī)之前提供內(nèi)核的選擇。內(nèi)核的選擇可以是以被處理的具體問(wèn)題的現(xiàn)有的知識(shí)或者利用學(xué)習(xí)機(jī)可使用的任何可用數(shù)據(jù)的性質(zhì)分析為基礎(chǔ)的并且通常取決于從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)的性質(zhì)。作為選擇，把被后處理的訓(xùn)練輸出或者測(cè)試輸出進(jìn)行比較的一個(gè)迭代處理可以被應(yīng)用來(lái)進(jìn)行關(guān)于哪一配置提供最佳解的一個(gè)判定。如果測(cè)試輸出不是最佳解，則可以調(diào)整內(nèi)核的選擇并且支持向量機(jī)可以被重新訓(xùn)練及重新測(cè)試。當(dāng)確定最佳解已經(jīng)被識(shí)別時(shí)，可以按照與訓(xùn)練數(shù)據(jù)組相同的方式來(lái)采集并預(yù)處理一個(gè)真實(shí)的數(shù)據(jù)組。預(yù)處理的實(shí)用數(shù)據(jù)組被輸入學(xué)習(xí)機(jī)用于處理。然后可以通過(guò)把實(shí)用輸出解釋為一種計(jì)算導(dǎo)出的文字?jǐn)?shù)字的分類來(lái)對(duì)學(xué)習(xí)機(jī)的實(shí)用輸出進(jìn)行后處理。
在一個(gè)示例性的實(shí)施例中，提供一種系統(tǒng)，使用一個(gè)支持向量機(jī)來(lái)提升從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)。該示例性的系統(tǒng)包括用于一個(gè)存儲(chǔ)訓(xùn)練數(shù)據(jù)組和一個(gè)測(cè)試數(shù)據(jù)組的一個(gè)存儲(chǔ)設(shè)備和用于執(zhí)行支持向量機(jī)的一臺(tái)處理器。該處理器還可操作用于從數(shù)據(jù)庫(kù)采集訓(xùn)練數(shù)據(jù)組；對(duì)訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理以便提升多個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的每一個(gè)；使用該預(yù)處理的訓(xùn)練數(shù)據(jù)組來(lái)訓(xùn)練該支持向量機(jī)；從數(shù)據(jù)庫(kù)中采集測(cè)試數(shù)據(jù)；以與訓(xùn)練數(shù)據(jù)組相同的方式來(lái)對(duì)測(cè)試數(shù)據(jù)組進(jìn)行預(yù)處理；使用該預(yù)處理的測(cè)試數(shù)據(jù)組來(lái)測(cè)試被訓(xùn)練的支持向量機(jī)；以及響應(yīng)于接收被訓(xùn)練的支持向量機(jī)的測(cè)試輸出，來(lái)對(duì)該測(cè)試輸出進(jìn)行后處理以便確定該測(cè)試輸出是否是一個(gè)最佳解。該示例性的系統(tǒng)還可以包括一個(gè)通信設(shè)備，用于從一個(gè)遠(yuǎn)端源接收該測(cè)試數(shù)據(jù)組和該訓(xùn)練數(shù)據(jù)組。在這樣一個(gè)情況中，處理器可以操作來(lái)在訓(xùn)練數(shù)據(jù)組的預(yù)處理之前把訓(xùn)練數(shù)據(jù)組儲(chǔ)存在存儲(chǔ)設(shè)備中以及在測(cè)試數(shù)據(jù)組的預(yù)處理之前把測(cè)試數(shù)據(jù)組儲(chǔ)存在存儲(chǔ)設(shè)備中。該示例性的系統(tǒng)還可以包括一個(gè)顯示設(shè)備，用于顯示被后處理的測(cè)試數(shù)據(jù)。該示例性系統(tǒng)的處理器還可以操作用于執(zhí)行如上所述的每個(gè)附加功能。該通信設(shè)備還可以操作來(lái)把計(jì)算導(dǎo)出的數(shù)字字母分類發(fā)送給一個(gè)遠(yuǎn)端源。
在一個(gè)示例性的實(shí)施例中，提供一種系統(tǒng)和方法，用于使用通常的多個(gè)學(xué)習(xí)機(jī)和特別是多個(gè)支持向量機(jī)來(lái)提升來(lái)自數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。學(xué)習(xí)機(jī)的訓(xùn)練數(shù)據(jù)被預(yù)處理以便加上數(shù)據(jù)的含意。預(yù)處理數(shù)據(jù)可以包括轉(zhuǎn)換數(shù)據(jù)點(diǎn)和/或擴(kuò)展數(shù)據(jù)點(diǎn)。通過(guò)把含意加給數(shù)據(jù)，該學(xué)習(xí)機(jī)提供更強(qiáng)大的處理信息量。特別是涉及倒支持向量機(jī)，被處理的信息量越大，則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。多個(gè)支持向量機(jī)，每個(gè)都包括不同的內(nèi)核，用預(yù)處理的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練并以相同的方式用被預(yù)處理的測(cè)試數(shù)據(jù)來(lái)測(cè)試。來(lái)自多個(gè)支持向量機(jī)的測(cè)試輸出被比較以便決定哪一測(cè)試輸出(如果有的話)表示一個(gè)最佳解。一個(gè)或多個(gè)內(nèi)核的選擇可以被調(diào)整并且一個(gè)或多個(gè)支持向量機(jī)可以被重新訓(xùn)練和重新測(cè)試。當(dāng)確定已經(jīng)獲得一個(gè)最佳解時(shí)，實(shí)用數(shù)據(jù)被預(yù)處理并被輸入到包括了產(chǎn)生最佳解的內(nèi)核的支持向量機(jī)中。來(lái)自學(xué)習(xí)機(jī)中的實(shí)用輸出然后可以被后處理到一個(gè)計(jì)算導(dǎo)出的字母數(shù)字分類用于由人類或計(jì)算機(jī)自動(dòng)程序來(lái)解釋。
在另一個(gè)示例性的實(shí)施例中，提供一種系統(tǒng)和方法，用于對(duì)一個(gè)連續(xù)變量進(jìn)行最佳分類。表示一個(gè)連續(xù)變量的一個(gè)數(shù)據(jù)組包括數(shù)據(jù)點(diǎn)(其每一個(gè)包括來(lái)自該連續(xù)變量中的一個(gè)抽樣)和一個(gè)類別標(biāo)識(shí)符。根據(jù)數(shù)據(jù)組內(nèi)部的抽樣范圍和抽樣的精度級(jí)來(lái)確定數(shù)據(jù)組內(nèi)部的若干不同的類別標(biāo)識(shí)符以及若干候選者庫(kù)(candidate bins)。每個(gè)候選者庫(kù)表示一個(gè)抽樣子范圍。對(duì)于每個(gè)候選者庫(kù)，落在該候選者庫(kù)內(nèi)的數(shù)據(jù)點(diǎn)的熵被計(jì)算出。然后，對(duì)于具有被最小化的采集熵的候選者庫(kù)的每個(gè)序列，把抽樣范圍中的一個(gè)截止點(diǎn)定義為候選者庫(kù)序列中的最后一個(gè)候選者庫(kù)的邊界處。作為一個(gè)迭代處理，順序候選者庫(kù)的不同組合的采集熵可以被計(jì)算出。還可以調(diào)整被定義的截止點(diǎn)的數(shù)量以便確定截止點(diǎn)的最佳數(shù)量，這是以最小熵的計(jì)算為基礎(chǔ)的。正如所提及的，用于對(duì)一個(gè)連續(xù)變量進(jìn)行最佳分類的該示例性系統(tǒng)和方法可以被用于對(duì)要被輸入學(xué)習(xí)機(jī)的數(shù)據(jù)進(jìn)行預(yù)處理以及用于對(duì)學(xué)習(xí)機(jī)的輸出進(jìn)行后處理。
在另一示例性的實(shí)施例中，提供一種系統(tǒng)和方法，用于一個(gè)分布式的網(wǎng)絡(luò)環(huán)境中使用通常的一個(gè)學(xué)習(xí)機(jī)和特別是一個(gè)支持向量機(jī)來(lái)提升來(lái)自數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。顧客可以通過(guò)一個(gè)分布式的網(wǎng)絡(luò)從一個(gè)遠(yuǎn)端源發(fā)送訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和實(shí)用數(shù)據(jù)到廠家的服務(wù)器。顧客也可以向服務(wù)器發(fā)送諸如用戶名、密碼和財(cái)務(wù)賬目標(biāo)識(shí)符之類的標(biāo)識(shí)信息。訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和實(shí)用數(shù)據(jù)可以被儲(chǔ)存在一個(gè)存儲(chǔ)設(shè)備中。訓(xùn)練數(shù)據(jù)然后可以被預(yù)處理以便向其加上含意。預(yù)處理數(shù)據(jù)可以包括轉(zhuǎn)換數(shù)據(jù)點(diǎn)和/或擴(kuò)展數(shù)據(jù)點(diǎn)。通過(guò)把含意加給數(shù)據(jù)，該學(xué)習(xí)機(jī)提供更強(qiáng)大的信息量用于處理。關(guān)于特別的支持向量機(jī)，被處理的信息量越大，則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。因此用預(yù)處理的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練并以相同的方式用被預(yù)處理的測(cè)試數(shù)據(jù)來(lái)測(cè)試該學(xué)習(xí)機(jī)。來(lái)自學(xué)習(xí)機(jī)的測(cè)試輸出被后處理以便確定從測(cè)試數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)是否是理想的。后處理包括把測(cè)試輸出解釋為可以與測(cè)試數(shù)據(jù)相比較的一種格式。實(shí)用數(shù)據(jù)被預(yù)處理輸入訓(xùn)練的和測(cè)試的學(xué)習(xí)機(jī)中。來(lái)自學(xué)習(xí)機(jī)中的實(shí)用輸出然后可以被后處理到一個(gè)計(jì)算導(dǎo)出的字母數(shù)字分類用于由人類或計(jì)算機(jī)自動(dòng)程序來(lái)解釋。在通過(guò)分布式的網(wǎng)絡(luò)把字母數(shù)字分類傳送給顧客以前，為了從由財(cái)務(wù)賬目標(biāo)識(shí)符識(shí)別的顧客的財(cái)務(wù)賬目中收受資金，可以操作服務(wù)器來(lái)與財(cái)務(wù)機(jī)構(gòu)通信。
在另一示例性的實(shí)施例中，使用第一預(yù)處理訓(xùn)練數(shù)據(jù)組來(lái)訓(xùn)練一個(gè)或多個(gè)支持向量機(jī)并且使用第二預(yù)處理訓(xùn)練數(shù)據(jù)組來(lái)訓(xùn)練一個(gè)或多個(gè)第二支持向量機(jī)。然后，來(lái)自類似支持向量機(jī)中的最佳輸出可以被合并以便對(duì)于一個(gè)或多個(gè)附加支持向量機(jī)形成一個(gè)新的輸入數(shù)據(jù)。
圖2是一個(gè)流程圖，說(shuō)明了利用一個(gè)支持向量機(jī)用于增加可以從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)之示例性的通用方法。
圖3是一個(gè)流程圖，說(shuō)明了按照本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的最佳分類方法，其可以以獨(dú)立的配置形式或者會(huì)同用于預(yù)處理或后處理技術(shù)的一個(gè)學(xué)習(xí)機(jī)而被使用。
圖4說(shuō)明了可以被輸入一個(gè)支持向量機(jī)的一個(gè)示例性的未被擴(kuò)展的數(shù)據(jù)組。
圖5說(shuō)明了使用圖4的數(shù)據(jù)組通過(guò)一個(gè)支持向量機(jī)所產(chǎn)生的一個(gè)示例性的后處理輸出。
圖6說(shuō)明了可以被輸入一個(gè)支持向量機(jī)的一個(gè)示例性的被擴(kuò)展數(shù)據(jù)組。
圖7說(shuō)明了使用圖6的數(shù)據(jù)組通過(guò)一個(gè)支持向量機(jī)所產(chǎn)生的一個(gè)示例性的后處理輸出。
圖8說(shuō)明了圖3最佳分類方法的一個(gè)獨(dú)立應(yīng)用的示例性輸入和輸出。
圖9是來(lái)自包括一個(gè)線性內(nèi)核的第一支持向量機(jī)和包括一個(gè)多項(xiàng)式內(nèi)核的第二支持向量機(jī)中的示例性后處理輸出的比較。

圖10是一個(gè)功能方框圖，說(shuō)明了本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的操作環(huán)境。
圖11是一個(gè)功能方框圖，說(shuō)明了本發(fā)明的一個(gè)替換實(shí)施例的一個(gè)替換的示例性操作環(huán)境。
圖12是一個(gè)功能方框圖，說(shuō)明了用于實(shí)現(xiàn)本發(fā)明的另外一個(gè)替換實(shí)施例的示例性網(wǎng)絡(luò)操作環(huán)境。
圖13是一個(gè)功能方框圖，說(shuō)明了多個(gè)支持向量機(jī)的一個(gè)等級(jí)體系。
本發(fā)明的第一方面想要通過(guò)在使用數(shù)據(jù)來(lái)訓(xùn)練一個(gè)學(xué)習(xí)機(jī)之前對(duì)數(shù)據(jù)進(jìn)行隨意地預(yù)處理和/或?qū)?lái)自學(xué)習(xí)機(jī)的輸出進(jìn)行隨意地后處理從而提升知識(shí)發(fā)現(xiàn)。通常規(guī)定，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包括重新格式化或增加數(shù)據(jù)以便允許最有利地應(yīng)用該學(xué)習(xí)機(jī)。同樣地，后處理包括解釋一個(gè)學(xué)習(xí)機(jī)的輸出以便發(fā)現(xiàn)它有意義的特性。從輸出中確定的有意義的特性可能是問(wèn)題或數(shù)據(jù)特性。后處理包括把輸出解釋為人類可理解的一種形式或者計(jì)算機(jī)可理解的形式。
在下文中將參考附圖描述本發(fā)明的示例性實(shí)施例，附圖中，相同數(shù)字表示各個(gè)圖各處的相同的元件。圖1是一個(gè)流程圖，說(shuō)明了利用學(xué)習(xí)機(jī)用于提升知識(shí)發(fā)現(xiàn)的一種通用方法100。方法100以開(kāi)始模塊101開(kāi)始并前進(jìn)到步驟102，在此，一個(gè)特定的問(wèn)題被形式化用于通過(guò)機(jī)器學(xué)習(xí)來(lái)進(jìn)行知識(shí)發(fā)現(xiàn)的應(yīng)用。特別重要的是學(xué)習(xí)機(jī)的期望輸出的一個(gè)正確的公式。例如，在預(yù)知單個(gè)資產(chǎn)凈值工具、或者一個(gè)市場(chǎng)指標(biāo)的未來(lái)的性能時(shí)，如果預(yù)知的是預(yù)期未來(lái)的改變而不是預(yù)知未來(lái)的價(jià)格水平時(shí)，則一個(gè)學(xué)習(xí)機(jī)可能獲得更好的性能。未來(lái)的價(jià)格的期望值稍后可以在一個(gè)后處理步驟中導(dǎo)出，稍后在此說(shuō)明書(shū)中討論。
在問(wèn)題形式化之后，步驟103為訓(xùn)練數(shù)據(jù)采集編址。訓(xùn)練數(shù)據(jù)包括已知特性的一組數(shù)據(jù)點(diǎn)?？梢詮囊粋€(gè)或多個(gè)本地和/或遠(yuǎn)端源采集訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)的采集可以手動(dòng)地或者通過(guò)諸如已知電子數(shù)據(jù)傳送方法的自動(dòng)處理來(lái)實(shí)現(xiàn)。因此，可以在一個(gè)網(wǎng)絡(luò)計(jì)算機(jī)環(huán)境中執(zhí)行本發(fā)明的一個(gè)示例性實(shí)施例。用于執(zhí)行本發(fā)明各個(gè)實(shí)施例的示例性的操作環(huán)境將參照?qǐng)D10-12來(lái)詳細(xì)描述。
接下來(lái)，在步驟104，隨意地預(yù)處理被采集的訓(xùn)練數(shù)據(jù)以便允許把學(xué)習(xí)機(jī)最有利地應(yīng)用到訓(xùn)練數(shù)據(jù)固有的知識(shí)提取中。在此預(yù)處理階段期間，通過(guò)訓(xùn)練數(shù)據(jù)記錄內(nèi)單獨(dú)的或者多個(gè)測(cè)量值的變換、組合或者操作可以隨意地?cái)U(kuò)展訓(xùn)練數(shù)據(jù)。正如在此處所使用的，擴(kuò)展的數(shù)據(jù)意指通過(guò)改變可用來(lái)確定每一輸入點(diǎn)的觀測(cè)值的數(shù)量來(lái)改變輸入數(shù)據(jù)的維數(shù)(作為替換，也可以被描述為增加或刪除數(shù)據(jù)庫(kù)表格內(nèi)的欄)。通過(guò)說(shuō)明，一個(gè)數(shù)據(jù)點(diǎn)可以包括坐標(biāo)(1，4，9)。這個(gè)數(shù)據(jù)點(diǎn)的一個(gè)擴(kuò)展形式可以導(dǎo)致坐標(biāo)(1，1，4，2，9，3)。在這個(gè)例子中，可以看出加到被擴(kuò)展的數(shù)據(jù)點(diǎn)上的坐標(biāo)是以初始坐標(biāo)的平方根變換為基礎(chǔ)的。通過(guò)向該數(shù)據(jù)點(diǎn)增加維數(shù)，此被擴(kuò)展的數(shù)據(jù)點(diǎn)提供一個(gè)不同的輸入數(shù)據(jù)表示，其對(duì)于一個(gè)學(xué)習(xí)機(jī)的知識(shí)發(fā)現(xiàn)有潛在的更大意義。數(shù)據(jù)擴(kuò)展在這種意義上講為學(xué)習(xí)機(jī)提供機(jī)會(huì)去發(fā)現(xiàn)沒(méi)有迅速顯現(xiàn)在未擴(kuò)展的訓(xùn)練數(shù)據(jù)中的知識(shí)。
對(duì)數(shù)據(jù)進(jìn)行擴(kuò)展可以包括把任何有意義的變換類型應(yīng)用到數(shù)據(jù)上并把那些變換加到原始數(shù)據(jù)上。用于確定一個(gè)變換是否有意義的標(biāo)準(zhǔn)可取決于輸入數(shù)據(jù)本身和/或從數(shù)據(jù)中搜索到的知識(shí)類型。數(shù)據(jù)變換的說(shuō)明類型包括專家信息的加入；標(biāo)記；二進(jìn)制的轉(zhuǎn)換；正弦，余弦，正切，余切，以及其它三角法的變換；群集；換算；概率和統(tǒng)計(jì)分析；有效性測(cè)試；強(qiáng)度測(cè)試；搜索二維圖規(guī)則(2-D regularities)；隱式馬可夫模型(Hidden Markov Modeling)；等價(jià)關(guān)系的識(shí)別；偶然性表格的應(yīng)用；圖論原理的應(yīng)用；向量映射的創(chuàng)建；加法，減法，乘法，除法，多項(xiàng)式方程式及其它代數(shù)變換的應(yīng)用；比例性的識(shí)別；有差別的冪的判定；等等。在醫(yī)學(xué)的環(huán)境中，潛在有意義的變換包括與已知標(biāo)準(zhǔn)醫(yī)學(xué)的參考范圍的關(guān)聯(lián)；生理學(xué)的切斷；生理學(xué)的組合；生物化學(xué)的組合；啟發(fā)式規(guī)則的應(yīng)用；診斷標(biāo)準(zhǔn)判定；臨床的加權(quán)系統(tǒng)；診斷變換；臨床的變換；專家知識(shí)的應(yīng)用；標(biāo)記技術(shù)；其他領(lǐng)域知識(shí)的應(yīng)用；貝葉斯定理的網(wǎng)絡(luò)知識(shí)；等等。對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，這些和其它變換以及它們的組合都可出現(xiàn)。
本領(lǐng)域的技術(shù)人員也應(yīng)該承認(rèn)不把維數(shù)加到數(shù)據(jù)點(diǎn)中也可以執(zhí)行數(shù)據(jù)變換。例如一個(gè)數(shù)據(jù)點(diǎn)可以包括坐標(biāo)(A，B，C)。這個(gè)數(shù)據(jù)點(diǎn)的轉(zhuǎn)換形式結(jié)果為坐標(biāo)(1，2，3)，在此，坐標(biāo)“1”具有與坐標(biāo)“A”的某些已知關(guān)系，坐標(biāo)“2”具有與坐標(biāo)“B”的某些已知關(guān)系，而坐標(biāo)“3”具有與坐標(biāo)“C”的某些已知關(guān)系。從字母到數(shù)目的變換可能是需要的，例如，如果字母不能被一個(gè)學(xué)習(xí)機(jī)理解時(shí)。即使對(duì)于最初為數(shù)字形式的數(shù)據(jù)，不把維數(shù)加到數(shù)據(jù)點(diǎn)上的其它類型的變換也是可能的。此外，應(yīng)該理解，為了對(duì)其加上含意而對(duì)數(shù)據(jù)進(jìn)行預(yù)處理可以包括分析未完成的、被破壞的或者另外“臟的”數(shù)據(jù)。一個(gè)學(xué)習(xí)機(jī)不能以有意義的方式處理“臟的”數(shù)據(jù)。因此，一個(gè)預(yù)處理步驟可以包括清除一個(gè)數(shù)據(jù)組以便移去、修復(fù)或替換臟的數(shù)據(jù)點(diǎn)。
返回圖1，示例性的方法100繼續(xù)到步驟106，在此，使用預(yù)處理的數(shù)據(jù)來(lái)訓(xùn)練學(xué)習(xí)機(jī)。正如本領(lǐng)域所熟知的，通過(guò)把學(xué)習(xí)機(jī)的操作參數(shù)調(diào)整直到獲得一個(gè)理想的訓(xùn)練輸出來(lái)訓(xùn)練一個(gè)學(xué)習(xí)機(jī)?？梢酝ㄟ^(guò)把訓(xùn)練輸出與訓(xùn)練數(shù)據(jù)的已知進(jìn)行比較來(lái)手動(dòng)地或自動(dòng)地實(shí)現(xiàn)一個(gè)訓(xùn)練輸出是否理想的判定。當(dāng)一個(gè)學(xué)習(xí)機(jī)的訓(xùn)練輸出在離訓(xùn)練數(shù)據(jù)的已知特性的一個(gè)預(yù)確定差錯(cuò)門限值之內(nèi)時(shí)認(rèn)為該學(xué)習(xí)機(jī)被訓(xùn)練了。在某些情形中，如果不需要，在步驟107中對(duì)學(xué)習(xí)機(jī)的訓(xùn)練輸出進(jìn)行后處理可能是理想的。正如所提及的，對(duì)學(xué)習(xí)機(jī)的輸出進(jìn)行后處理包括把該輸出解釋為一個(gè)有意義的形式。在一個(gè)回歸問(wèn)題的環(huán)境中，例如，可能需要確定學(xué)習(xí)機(jī)輸出的范圍分類以便確定輸入數(shù)據(jù)點(diǎn)是否被正確分類。在模式識(shí)別問(wèn)題的例子中，常常不需要對(duì)學(xué)習(xí)機(jī)的訓(xùn)練輸出進(jìn)行后處理。
在步驟108，在測(cè)試訓(xùn)練學(xué)習(xí)機(jī)的準(zhǔn)備時(shí)隨意地采集測(cè)試數(shù)據(jù)?？梢詮囊粋€(gè)或多個(gè)本地和/或遠(yuǎn)端源采集測(cè)試數(shù)據(jù)。實(shí)際上，可以同時(shí)從同一源(組)中采集測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。因此，在一個(gè)公用數(shù)據(jù)組之外可以分開(kāi)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)組并將其儲(chǔ)存在一個(gè)本地存儲(chǔ)媒體中作為學(xué)習(xí)機(jī)的不同輸入數(shù)據(jù)組而使用。無(wú)論測(cè)試數(shù)據(jù)如何采集，所使用的任何測(cè)試數(shù)據(jù)必須在步驟110與訓(xùn)練數(shù)據(jù)組相同的方式被預(yù)處理。對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)應(yīng)該很明顯，只可以通過(guò)使用與訓(xùn)練數(shù)據(jù)相同格式的測(cè)試數(shù)據(jù)才可實(shí)現(xiàn)一個(gè)適當(dāng)?shù)膶W(xué)習(xí)測(cè)試。然后，在步驟112，使用預(yù)處理的測(cè)試數(shù)據(jù)來(lái)測(cè)試學(xué)習(xí)機(jī)，如果需要的話。在步驟114中對(duì)學(xué)習(xí)機(jī)的測(cè)試輸出進(jìn)行隨意地后處理以便確定結(jié)果是否是理想的。同樣，后處理步驟包括把測(cè)試輸出解釋為一種有意義的形式。該有意義的形式可以是人類可理解的一種形式或者計(jì)算機(jī)可理解的形式。不管怎樣，測(cè)試輸出必須被后處理為可以與測(cè)試數(shù)據(jù)進(jìn)行比較的一種形式以便確定結(jié)果是否是理想的。后處理步驟的示例包括但是并不局限如下步驟最佳分類判定，換算技術(shù)(線性和非線性)，變換(線性和非線性)，以及概率估計(jì)。方法100在步驟116處結(jié)束。
圖2是一個(gè)流程圖，說(shuō)明了用于提升知識(shí)的一個(gè)示例性的方法200，可以使用特種類型的學(xué)習(xí)機(jī)(通常所說(shuō)的支持向量機(jī)(SVM))從數(shù)據(jù)中發(fā)現(xiàn)該知識(shí)。一個(gè)SVM執(zhí)行一個(gè)專門的算法，用于當(dāng)從一個(gè)有限的數(shù)據(jù)采集中估計(jì)一個(gè)多維函數(shù)時(shí)提供歸納。SVM在解決相關(guān)性估計(jì)問(wèn)題中可能特別有用。更明確地，一個(gè)SVM可以被精確地使用來(lái)估計(jì)指示函數(shù)(例如，模式識(shí)別問(wèn)題)和實(shí)值函數(shù)(例如，函數(shù)近似法問(wèn)題，回歸估計(jì)問(wèn)題，密度估計(jì)問(wèn)題以及解決倒數(shù)問(wèn)題)。SMV最初是被Vladimir N.Vapnik提出的。在他的標(biāo)題為“統(tǒng)計(jì)上的傾斜理論”(StatisticalLeaning Theory)(John Wiley & Sons，Inc.1998)的書(shū)中詳細(xì)地解釋了SVM基礎(chǔ)的概念，其在此處通過(guò)參考將其全部結(jié)合。因此，在此說(shuō)明書(shū)各處假定了與SVM的相通以及與之一起使用的術(shù)語(yǔ)。
示例性的方法200從開(kāi)始模塊201開(kāi)始并前進(jìn)到步驟202，在此，一個(gè)問(wèn)題被用公式表示，然后到步驟203，此時(shí)，一個(gè)訓(xùn)練數(shù)據(jù)組被采集。正如參考圖1描述的一樣，可以通過(guò)人工的或自動(dòng)的處理從一個(gè)或多個(gè)本地和/或遠(yuǎn)端源采集訓(xùn)練數(shù)據(jù)。在步驟204，訓(xùn)練數(shù)據(jù)被隨意地預(yù)處理。同樣，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包括通過(guò)凈化數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)和/或擴(kuò)展數(shù)據(jù)來(lái)提升訓(xùn)練數(shù)據(jù)之內(nèi)的含意。本領(lǐng)域技術(shù)人員應(yīng)該理解，SVM能夠處理具有很大維數(shù)的輸入數(shù)據(jù)。實(shí)際上，輸入數(shù)據(jù)的維數(shù)越大，則一個(gè)SVM能夠計(jì)算的歸納越好。因此，雖然不擴(kuò)展訓(xùn)練數(shù)據(jù)就對(duì)數(shù)據(jù)變換進(jìn)行訓(xùn)練是可能的，但是在SVM的特性環(huán)境中最好通過(guò)把有意義的信息加到其上來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)。
在步驟206，為SVM選擇一個(gè)內(nèi)核。正如本領(lǐng)域已知的，不同的內(nèi)核將使SVM在輸入數(shù)據(jù)的一個(gè)給定組的輸出中產(chǎn)生不同的質(zhì)量水平。因此，一個(gè)恰當(dāng)?shù)膬?nèi)核的選擇對(duì)SVM輸出的期望質(zhì)量來(lái)說(shuō)是很重要的。在本發(fā)明的一個(gè)實(shí)施例中，可以根據(jù)先前的性能知識(shí)來(lái)選擇一個(gè)內(nèi)核。正如本領(lǐng)域所熟知的，示例性的內(nèi)核包括多項(xiàng)式內(nèi)核，徑向準(zhǔn)則分類內(nèi)核，線性內(nèi)核，等等。在一個(gè)替換實(shí)施例中，可以創(chuàng)建一個(gè)自定義內(nèi)核，其對(duì)數(shù)據(jù)組的一個(gè)特定問(wèn)題或類型來(lái)說(shuō)是特定的。在另一實(shí)施例中，可以同時(shí)地訓(xùn)練并多個(gè)SVM，其每一個(gè)使用不同的內(nèi)核。利用各種可選擇的或加權(quán)的規(guī)格可以比較同時(shí)訓(xùn)練并測(cè)試的每個(gè)SVM的輸出質(zhì)量(參見(jiàn)步驟222)以便確定最理想的內(nèi)核。
接下來(lái)，在步驟208，把預(yù)處理的訓(xùn)練數(shù)據(jù)輸入SVM中。在步驟210，使用預(yù)處理的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練SVM以便產(chǎn)生一個(gè)最佳超平面。作為選擇，然后可以在步驟211處對(duì)SVM的訓(xùn)練輸出進(jìn)行后處理。同樣，在這一點(diǎn)上訓(xùn)練輸出的后處理可能是理想的，甚至是必需的，以便正常地計(jì)算輸出的范圍或類別。在步驟212，類似于前面的數(shù)據(jù)采集說(shuō)明來(lái)采集測(cè)試數(shù)據(jù)。以與上述的訓(xùn)練數(shù)據(jù)相同的方式來(lái)在步驟214對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)處理。然后，在步驟216，把預(yù)處理的測(cè)試數(shù)據(jù)輸入SVM處理以便確定本SVM是否按照一種理想的方式被訓(xùn)練。測(cè)試輸出在步驟218從SVM收到并在步驟220被隨意地后處理。
根據(jù)后處理的測(cè)試輸出，在步驟222確定通過(guò)SVM是否獲得一個(gè)最佳最小值。本領(lǐng)域技術(shù)人員應(yīng)該理解，一個(gè)SVM可以操作來(lái)確定具有一個(gè)全局最小差錯(cuò)的一個(gè)輸出?？墒?，正如在上面所提及的，對(duì)于一個(gè)給定數(shù)據(jù)組的SVM輸出結(jié)果相對(duì)于內(nèi)核的選擇通常將不同。因此，實(shí)際上對(duì)于一種給定的數(shù)據(jù)組，存在可以由一個(gè)SVM確定的多個(gè)全局最小值。正如在此處所使用的，術(shù)語(yǔ)“最佳最小值”或“最佳解”是指當(dāng)與SVM確定的其它全局最小值相比時(shí)為最佳的那個(gè)選定的全局最小值(例如，問(wèn)題特性、預(yù)定標(biāo)準(zhǔn)的一個(gè)給定組的最佳解)。因此，在步驟222確定最佳最小值是否已經(jīng)被確定可以包括把SVM的輸出與一個(gè)歷史的或預(yù)定的值進(jìn)行比較。這樣一個(gè)預(yù)定值可取決于測(cè)試數(shù)據(jù)組。例如，在一個(gè)模式識(shí)別問(wèn)題的環(huán)境中，在此，一個(gè)數(shù)據(jù)點(diǎn)被一個(gè)SVM分類為或者具有某一個(gè)特性或者不具有該特性，則50％的全局最小差錯(cuò)將不是最佳的。在這個(gè)例子中，50％的全局最小值幾乎等于通過(guò)拋硬幣來(lái)確定該數(shù)據(jù)點(diǎn)是否具有某一個(gè)特性而獲得的結(jié)果。作為另外一個(gè)例子，在同時(shí)訓(xùn)練并測(cè)試用不同內(nèi)核的多個(gè)SVM的情況中，可以把每個(gè)SVM的輸出與彼此SVM的輸出相比較從而決定特定內(nèi)核組的實(shí)際最佳解。可以手動(dòng)地或者通過(guò)一個(gè)自動(dòng)的比較處理來(lái)完成一個(gè)最佳解是否已經(jīng)被確定的一個(gè)判定。
如果確定訓(xùn)練的SVM沒(méi)有獲得最佳最小值，則本方法前進(jìn)到步驟224，在此調(diào)整內(nèi)核選擇。內(nèi)核選擇的調(diào)整可以包括選擇一個(gè)或多個(gè)新的內(nèi)核或者調(diào)整內(nèi)核參數(shù)。此外，在同時(shí)地訓(xùn)練并測(cè)試多個(gè)SVM的情況中，選定的內(nèi)核可以被替換或修改同時(shí)其它內(nèi)核可以被重新用于控制目的。在調(diào)整了內(nèi)核選擇之后，方法200從步驟208重復(fù)，在此，把預(yù)處理的訓(xùn)練數(shù)據(jù)輸入SVM用于訓(xùn)練目的。當(dāng)確定在步驟222處已經(jīng)獲得了最佳最小值時(shí)，該方法前進(jìn)到步驟226，在此與上述類似地采集實(shí)用數(shù)據(jù)。相對(duì)于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)為已知的期望的輸出特性相對(duì)于實(shí)用數(shù)據(jù)不是已知的。
在步驟228處以與訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)相同的方式對(duì)實(shí)用數(shù)據(jù)進(jìn)行預(yù)處理。在步驟230，把預(yù)處理的實(shí)用數(shù)據(jù)輸入SVM中用于處理。在步驟232接收SVM的實(shí)用輸出并在步驟234對(duì)其進(jìn)行后處理。在本發(fā)明的一個(gè)實(shí)施例中，后處理包括把SVM的輸出轉(zhuǎn)換為計(jì)算導(dǎo)出的字母數(shù)字分類，用于由人類或計(jì)算機(jī)解釋。最好，字母數(shù)字分類包括人類或計(jì)算機(jī)可輕易理解的單個(gè)數(shù)值。方法200在步驟236處結(jié)束。
圖3是一個(gè)流程圖，說(shuō)明了按照本發(fā)明的一個(gè)示例性實(shí)施例的一個(gè)示例性的最佳分類方法300，其可以被用于對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或?qū)?lái)自學(xué)習(xí)機(jī)的輸出進(jìn)行后處理。另外，如在下面將描述的，示例性的最佳分類方法可以被使用作為一個(gè)獨(dú)立的分類技術(shù)，獨(dú)立于學(xué)習(xí)機(jī)。示例性的最佳分類方法300從開(kāi)始模塊301開(kāi)始并前進(jìn)到步驟302，在此，一個(gè)輸入數(shù)據(jù)組被接收。輸入數(shù)據(jù)組包括來(lái)自一個(gè)連續(xù)變量的一個(gè)數(shù)據(jù)抽樣序列。數(shù)據(jù)抽樣落在兩個(gè)或多個(gè)分類類別之內(nèi)。接下來(lái)，在步驟304處，庫(kù)和分類跟蹤變量被初始化。正如本領(lǐng)域所熟知的，庫(kù)變量涉及分辨率而類別跟蹤變量涉及數(shù)據(jù)組內(nèi)部的分類數(shù)量?？梢允謩?dòng)地或者通過(guò)諸如來(lái)自分析輸入數(shù)據(jù)組的一個(gè)計(jì)算機(jī)程序的一個(gè)自動(dòng)處理來(lái)完成確定用于把庫(kù)和分類跟蹤變量初始化的數(shù)值。在步驟306，每個(gè)庫(kù)的數(shù)據(jù)熵被計(jì)算出。熵是一個(gè)數(shù)學(xué)數(shù)值，其測(cè)量一個(gè)隨機(jī)分布的不確定度。在示例性的方法300中，熵用于測(cè)量輸入變量的等級(jí)以使獲得最大分類性能。
方法300在連續(xù)變量上產(chǎn)生一系列的“切割”，以致連續(xù)變量可以被分成離散類別。由示例性的方法300選擇的切割感覺(jué)上是最佳的，每個(gè)結(jié)果的離散類別的平均熵被最小化。在步驟308，判定是否所有的切割已經(jīng)被放置在包括該連續(xù)變量的輸入數(shù)據(jù)組內(nèi)。如果沒(méi)有把所有的切割放置好，則在步驟310為截止判定而測(cè)試順序的庫(kù)組合。從步驟310，示例性的方法300循環(huán)返回通過(guò)步驟306并返回到步驟308，在此再一次確定是否所有的切割已經(jīng)被放置在包括該連續(xù)變量的輸入數(shù)據(jù)組之內(nèi)。當(dāng)所有的切割已經(jīng)被放置好時(shí)，則在步驟309估計(jì)整個(gè)系統(tǒng)的熵并將其與來(lái)自測(cè)試更多或更少的切割的早先結(jié)果進(jìn)行比較。如果不能斷定最小的熵狀態(tài)已經(jīng)被確定，那么必須估計(jì)其它可能的切割選擇并且該方法繼續(xù)到步驟311。從步驟311起，一個(gè)迄今未測(cè)試過(guò)的切割數(shù)量的選擇被選擇并從步驟304起重復(fù)上面的處理。當(dāng)由庫(kù)寬度確定的分辨率界限已經(jīng)被測(cè)試或者向一個(gè)最小解的收斂已經(jīng)被識(shí)別時(shí)，則在步驟312輸出最佳的分類標(biāo)準(zhǔn)并且該示例性的最佳分類方法300在步驟314結(jié)束。
該最佳的分類方法300充分利用了動(dòng)態(tài)規(guī)劃技術(shù)。正如本領(lǐng)域所已知的，通過(guò)把一個(gè)算法認(rèn)真地結(jié)構(gòu)化，動(dòng)態(tài)規(guī)劃技術(shù)可用來(lái)顯著改良解決某一復(fù)雜問(wèn)題的效率從而減少冗余計(jì)算。在最佳分類問(wèn)題中，通過(guò)在連續(xù)變量數(shù)據(jù)中所有可能的切割來(lái)徹底搜索的直接方法將導(dǎo)致具有指數(shù)復(fù)雜性的一個(gè)算法并且將使得問(wèn)題難處理，即使是中等大小的輸入。通過(guò)充分利用目標(biāo)函數(shù)的相加性、在此問(wèn)題中平均熵，則該問(wèn)題可以被分為一系列子問(wèn)題。通過(guò)適當(dāng)?shù)赜霉奖硎窘鉀Q每個(gè)子問(wèn)題的子結(jié)構(gòu)以及儲(chǔ)存該子問(wèn)題的解，則可以識(shí)別并避免了大量的冗余計(jì)算。使用動(dòng)態(tài)規(guī)劃方法其結(jié)果是示例性的最佳分類方法300可以作為具有一個(gè)多項(xiàng)式復(fù)雜性的一種算法而被執(zhí)行，它可被用來(lái)解決大尺寸的問(wèn)題。
正如在上面所提及的，示例性的最佳分類方法300可以被使用于對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和/或?qū)W(xué)習(xí)機(jī)的輸出進(jìn)行后處理。例如，作為一個(gè)預(yù)處理變換步驟，示例性的最佳分類方法300可被用來(lái)從原始數(shù)據(jù)中提取分類信息。作為一種后處理技術(shù)，示例性的最佳范圍分類方法可被用來(lái)確定客觀的基于數(shù)據(jù)的標(biāo)識(shí)器的最佳截止數(shù)值。很明顯，示例性的最佳分類方法300已經(jīng)應(yīng)用在模式識(shí)別、分類、回歸問(wèn)題等等之中。示例性的最佳分類方法300還可以被使用作為一種獨(dú)立的分類技術(shù)，與SVM和其它學(xué)習(xí)機(jī)相獨(dú)立。最佳分類方法300的一個(gè)示例性的獨(dú)立應(yīng)用將參考圖8進(jìn)行描述。
圖4說(shuō)明了一種示例性的未擴(kuò)展數(shù)據(jù)組400，其可以作為支持向量機(jī)的輸入而被使用。這個(gè)數(shù)據(jù)組400被稱為“未擴(kuò)展的”，因?yàn)闆](méi)有附加信息被附加到其上。正圖所示，未擴(kuò)展的數(shù)據(jù)組包括一個(gè)訓(xùn)練數(shù)據(jù)組402和一個(gè)測(cè)試數(shù)據(jù)組404。未擴(kuò)展的訓(xùn)練數(shù)據(jù)組402和未擴(kuò)展的測(cè)試數(shù)據(jù)組404包括諸如示例性的數(shù)據(jù)點(diǎn)406，與來(lái)自抽樣的內(nèi)科病人的歷史臨床數(shù)據(jù)有關(guān)。數(shù)據(jù)組400可被用來(lái)訓(xùn)練一個(gè)SVM以便確定一個(gè)乳癌病人是否將經(jīng)歷復(fù)發(fā)。
每一數(shù)據(jù)點(diǎn)包括五個(gè)輸入坐標(biāo)或維數(shù)和輸出分類，如圖406a-f所示，輸出分類表示為每個(gè)病人采集的醫(yī)學(xué)數(shù)據(jù)。具體地，第一坐標(biāo)406a表示“年齡”，第二坐標(biāo)406b表示“雌激素受體水平”，第三坐標(biāo)406c表示“荷爾蒙接收器水平”，第四坐標(biāo)406d表示“提取的正(癌)淋巴結(jié)”，輸出分類406f表示“復(fù)發(fā)分類”。數(shù)據(jù)400重要的已知特性是輸出分類406f(復(fù)發(fā)分類)，在這個(gè)例子中，它表示被抽樣的內(nèi)科病人順利地響應(yīng)醫(yī)療處理而沒(méi)有癌復(fù)發(fā)(“-1”)或者消極地響應(yīng)醫(yī)療處理而具有癌復(fù)發(fā)(“1”)。此已知的特性將被用于學(xué)習(xí)同時(shí)處理SVM中的訓(xùn)練數(shù)據(jù)，在把測(cè)試數(shù)據(jù)輸入SVM中之后將以一種可估計(jì)的形式被使用從而產(chǎn)生一個(gè)“盲的”測(cè)試，并且在當(dāng)前的內(nèi)科病人的實(shí)用數(shù)據(jù)中將明顯是未知的。
圖5說(shuō)明了一個(gè)示例性的測(cè)試輸出502，其來(lái)自利用如圖4所示的未擴(kuò)展的訓(xùn)練數(shù)據(jù)402訓(xùn)練并且利用未擴(kuò)展的數(shù)據(jù)組404測(cè)試的一個(gè)SVM中。測(cè)試輸出502已經(jīng)被后處理以便可被人類或計(jì)算機(jī)理解。正如所指出的，測(cè)試輸出502說(shuō)明總共24個(gè)抽樣(數(shù)據(jù)點(diǎn))被SVM檢查并且該SVM錯(cuò)誤地識(shí)別八個(gè)正抽樣中的四個(gè)(50％)并且錯(cuò)誤地識(shí)別十六個(gè)負(fù)抽樣中的6個(gè)(37.5％)。
圖6說(shuō)明了一種示例性的擴(kuò)展數(shù)據(jù)組600，其可以被使用作為支持向量機(jī)的輸入。這個(gè)數(shù)據(jù)組600被稱為“擴(kuò)展的”，因?yàn)楦郊有畔⒁呀?jīng)被附加到其上。注意，除附加信息以外，該擴(kuò)展的數(shù)據(jù)組600與如圖4所示的未擴(kuò)展的數(shù)據(jù)組400相同。參考圖3描述的示例性的最佳范圍分類方法300已經(jīng)提供了提供給該擴(kuò)展數(shù)據(jù)組的該附加信息。如圖所示，擴(kuò)展的數(shù)據(jù)組包括一個(gè)訓(xùn)練數(shù)據(jù)組602和一個(gè)測(cè)試數(shù)據(jù)組604。擴(kuò)展的訓(xùn)練數(shù)據(jù)組602和擴(kuò)展的測(cè)試數(shù)據(jù)組604包括諸如示例性的數(shù)據(jù)點(diǎn)606，與來(lái)自抽樣的內(nèi)科病人的歷史臨床數(shù)據(jù)有關(guān)。同樣，數(shù)據(jù)組600可被用來(lái)訓(xùn)練一個(gè)SVM以便學(xué)會(huì)一個(gè)乳癌病人是否將經(jīng)歷復(fù)發(fā)。
通過(guò)示例性的最佳分類方法300的應(yīng)用，每個(gè)被擴(kuò)展的數(shù)據(jù)點(diǎn)數(shù)據(jù)點(diǎn)包括二十個(gè)坐標(biāo)(或維數(shù))606a1-3一直到606e1-3，和一個(gè)輸出分類606f，它們共同地表示每個(gè)病人的醫(yī)學(xué)數(shù)據(jù)及其分類變換。具體地，第一坐標(biāo)606a表示“年齡”，第二坐標(biāo)一直到第四坐標(biāo)606a1-606a3是組合來(lái)表示一個(gè)年齡類別的變量。例如，一個(gè)年齡范圍可以被分類為“青年”、“中年”和“老年”類別，針對(duì)數(shù)據(jù)中出現(xiàn)的各種年齡范圍。如圖所示，一串變量“0”(606a1)、“0”(606a2)、“1”(606a3)可用來(lái)表示某一個(gè)年齡值被分類為“老年”。同樣地，一串變量“0”(606a1)、“1”(606a2)、“0”(606a3)可用來(lái)表示某一個(gè)年齡值被分類為“中年”。同時(shí)，一串變量“1”(606a1)、“0”(606a2)、“0”(606a3)可用來(lái)表示某一個(gè)年齡值被分類為“青年”。從圖6的一個(gè)檢查中可以看出使用示例性的方法300把“年齡”606a數(shù)值的范圍的最佳分類確定為31-33＝“青年”，34＝“中年”，以及35-49＝“老年”。其它坐標(biāo)，即坐標(biāo)606b“雌激素受體水平”、坐標(biāo)606c“荷爾蒙受體水平”、坐標(biāo)606d“提取的總的淋巴結(jié)”、以及坐標(biāo)606e“提取的正(癌)淋巴結(jié)”，每個(gè)都已經(jīng)以一種類似的方式被最佳分類。
圖7說(shuō)明了一個(gè)示例性的擴(kuò)展的測(cè)試輸出702，其來(lái)自利用如圖6所示的擴(kuò)展的訓(xùn)練數(shù)據(jù)602訓(xùn)練并且利用擴(kuò)展的數(shù)據(jù)組604測(cè)試的一個(gè)SVM中。擴(kuò)展的測(cè)試輸出702已經(jīng)被后處理以便可被人類或計(jì)算機(jī)理解。正如所指出的，擴(kuò)展的測(cè)試輸出702說(shuō)明總共24個(gè)抽樣(數(shù)據(jù)點(diǎn))被SVM檢查并且該SVM錯(cuò)誤地識(shí)別八個(gè)正抽樣中的四個(gè)(50％)并且錯(cuò)誤地識(shí)別十六個(gè)負(fù)抽樣中的四個(gè)(25％)。因此，通過(guò)把此擴(kuò)展的測(cè)試輸出702與圖5未擴(kuò)展的測(cè)試輸出502進(jìn)行比較可以看出數(shù)據(jù)點(diǎn)的擴(kuò)展得到改良的結(jié)果(即，一個(gè)較低的全局最小差錯(cuò))，特別是減少那些不必要地蒙受追蹤癌處理的病人的實(shí)例。
圖8說(shuō)明了圖3中描述的最佳分類方法300的一個(gè)獨(dú)立應(yīng)用的示例性輸入和輸出。在圖8的例子中，輸入數(shù)據(jù)組801包括一個(gè)“正淋巴結(jié)數(shù)量”802和一個(gè)相應(yīng)的“復(fù)發(fā)分類”804。在這個(gè)例子中，最佳分類方法300已經(jīng)被應(yīng)用到輸入數(shù)據(jù)組801中以便定位癌復(fù)發(fā)處理判定的最佳截止點(diǎn)，完全以后外科的一連串抽樣中采集的陽(yáng)淋巴結(jié)數(shù)量為基礎(chǔ)。熟知的臨床標(biāo)準(zhǔn)用來(lái)規(guī)定處理具有至少三個(gè)正節(jié)點(diǎn)的任何病人?？墒牵罴逊诸惙椒?00證明以輸入數(shù)據(jù)801為基礎(chǔ)，最佳截止806應(yīng)該在較高數(shù)值的5.5淋巴結(jié)處，它符合規(guī)定對(duì)具有至少六個(gè)正淋巴結(jié)的病人的追蹤處理的一條臨床規(guī)則。
如對(duì)比表808所示，現(xiàn)有技術(shù)接受的臨床截止點(diǎn)(＞3.0)導(dǎo)致47％正確分類的復(fù)發(fā)和71％正確分類的非復(fù)發(fā)。因此，53％的復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理沒(méi)有被錯(cuò)誤地推薦)并且29％的非復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理被錯(cuò)誤地推薦)。相反，通過(guò)最佳分類方法300確定的截止點(diǎn)(＞5.5)導(dǎo)致33％正確分類的復(fù)發(fā)和97％正確分類的非復(fù)發(fā)。因此，67％的復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理沒(méi)有被錯(cuò)誤地推薦)并且3％的非復(fù)發(fā)被錯(cuò)誤地分類(進(jìn)一步處理被錯(cuò)誤地推薦)。
本示例所示，使用示例性的最佳分類方法300，可以達(dá)到對(duì)可以避免后外科的癌處理方式的那些病人進(jìn)行較高正確地識(shí)別的實(shí)例。即使由最佳分類方法300確定的截止點(diǎn)產(chǎn)生錯(cuò)誤分類復(fù)發(fā)的一個(gè)適度較高的百分比，它也產(chǎn)生錯(cuò)誤分類非復(fù)發(fā)的一個(gè)顯著較低的百分比。因此，考慮到交換，并且實(shí)現(xiàn)最優(yōu)化問(wèn)題目的為避免不必要處理，由最佳分類方法300確定的截止點(diǎn)算術(shù)上優(yōu)于現(xiàn)有技術(shù)的那些臨床的截止點(diǎn)。這類信息非?？赡芾迷谙虿∪颂峁┝硗獾亩床炝?lái)在遭受諸如化學(xué)療法或者冒乳癌復(fù)發(fā)的危險(xiǎn)之間衡量選擇。
圖9是來(lái)自包括一個(gè)線性內(nèi)核的第一支持向量機(jī)和包括一個(gè)多項(xiàng)式內(nèi)核的第二支持向量機(jī)中的示例性后處理輸出一個(gè)比較。圖9證明了內(nèi)核選擇中的一個(gè)變化可以影響SVM輸出質(zhì)量的水平。如圖所示，包括一個(gè)線性點(diǎn)乘內(nèi)核的第一SVM902的后處理輸出表示一個(gè)給定的二十四個(gè)抽樣的測(cè)試組，八個(gè)正抽樣的六個(gè)被錯(cuò)誤地識(shí)別并且十六個(gè)負(fù)抽樣的三個(gè)被錯(cuò)誤地識(shí)別。通過(guò)對(duì)比，包括一個(gè)多項(xiàng)式內(nèi)核的第二SVM904的后處理輸出表示對(duì)于同一測(cè)試組，八個(gè)正抽樣的只有兩個(gè)被錯(cuò)誤地識(shí)別和十六個(gè)負(fù)抽樣的四個(gè)被識(shí)別。通過(guò)對(duì)比，多項(xiàng)式內(nèi)核產(chǎn)生與正抽樣識(shí)別有關(guān)的顯著改良的結(jié)果而產(chǎn)生與負(fù)抽樣識(shí)別有關(guān)的僅僅稍微更惡劣的結(jié)果。因此，對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō)很明顯，多項(xiàng)式內(nèi)核的全局最小差錯(cuò)比這個(gè)數(shù)據(jù)組的線性內(nèi)核的全局最小差錯(cuò)更低。
圖10和下列討論想要來(lái)提供用于執(zhí)行本發(fā)明的一種適當(dāng)?shù)挠?jì)算環(huán)境的一個(gè)簡(jiǎn)短而概括的說(shuō)明。雖然如圖10所示的系統(tǒng)是一個(gè)傳統(tǒng)的個(gè)人計(jì)算機(jī)1000，但是本領(lǐng)域的技術(shù)人員將承認(rèn)也可以使用其它類型的計(jì)算機(jī)系統(tǒng)配置來(lái)執(zhí)行本發(fā)明。計(jì)算機(jī)1000包括一個(gè)中央處理器1022，一個(gè)系統(tǒng)存儲(chǔ)器1020，以及一個(gè)輸入輸出(“I/O”)總線1026。系統(tǒng)總線1021把中央處理器1022耦合到系統(tǒng)存儲(chǔ)器020?？偩€控制器1023控制I/O總線1026上和在中央處理器1022與各種內(nèi)部和外部I/O設(shè)備之間的數(shù)據(jù)流。已連接到I/O總線1026上的I/O設(shè)備可以使用一種直接存儲(chǔ)器存取(“DMA”)控制器1024來(lái)對(duì)系統(tǒng)存儲(chǔ)器1020直接存取。
I/O設(shè)備通過(guò)一組設(shè)備接口連接到I/O總線1026。設(shè)備接口可以包括硬件組件和軟件組件。例如，用于對(duì)可拆卸的媒體1050進(jìn)行讀寫的一個(gè)硬盤驅(qū)動(dòng)器1030和一個(gè)軟盤驅(qū)動(dòng)器1032可以通過(guò)磁盤驅(qū)動(dòng)器控制器1040連接到I/O總線1026?？梢允褂靡环N小型的計(jì)算機(jī)系統(tǒng)接口(“SCSI”)1041來(lái)把用于對(duì)光媒體進(jìn)行讀寫的一個(gè)光盤驅(qū)動(dòng)器1034連接到I/O總線1026。可替代地，一個(gè)IDE(ATAPI)或EIDE接口可以與諸如可能為具有CD-ROM驅(qū)動(dòng)器的外殼之類的一個(gè)光盤驅(qū)動(dòng)器相關(guān)。驅(qū)動(dòng)器和它們相關(guān)的計(jì)算機(jī)可讀媒體為計(jì)算機(jī)1000提供非易失性儲(chǔ)存。除了上述的計(jì)算機(jī)可讀媒體之外，其它類型的計(jì)算機(jī)可讀媒體也可以被使用，例如ZIP驅(qū)動(dòng)器等等。
諸如監(jiān)視器之類的一個(gè)顯示設(shè)備1053通過(guò)諸如一個(gè)視頻適配器1042之類的另外一個(gè)接口連接到I/O總線1026。一個(gè)并行接口1043把諸如激光打印機(jī)1056之類的同步外圍設(shè)備連接到I/O總線1026。一個(gè)串行接口1044把通信設(shè)備連接到I/O總線1026。用戶可以通過(guò)串行接口1044或者通過(guò)使用諸如鍵盤1038、鼠標(biāo)1036或調(diào)制解調(diào)器1057之類的一個(gè)輸入設(shè)備來(lái)把命令和信息輸入計(jì)算機(jī)1000。其它外圍設(shè)備(未示出)也可以連接到計(jì)算機(jī)1000，例如音頻輸入輸出設(shè)備或圖像捕獲設(shè)備。
若干程序模塊可以被儲(chǔ)存在驅(qū)動(dòng)上以及系統(tǒng)存儲(chǔ)器1020中。系統(tǒng)存儲(chǔ)器1020可以包括隨機(jī)訪問(wèn)存儲(chǔ)器(″RAM″)和只讀存儲(chǔ)器(″ROM″)。程序模塊利用I/O設(shè)備或者利用其它計(jì)算機(jī)來(lái)控制計(jì)算機(jī)1000如何起作用以及如何與用戶交互作用。程序模塊包括分程序、操作系統(tǒng)1065、應(yīng)用程序、數(shù)據(jù)結(jié)構(gòu)、以及其它軟件或固件組件。在一個(gè)說(shuō)明實(shí)施例中，本發(fā)明可以包括一個(gè)或多個(gè)預(yù)處理程序模塊1075A，一個(gè)或多個(gè)后處理程序模塊1075B和/或一個(gè)或多個(gè)最佳分類程序模塊1077和一個(gè)或多個(gè)SVM程序模塊1070，儲(chǔ)存在驅(qū)動(dòng)上或計(jì)算機(jī)1000的系統(tǒng)存儲(chǔ)器1020中。明確地，預(yù)處理程序模塊1075A、后處理程序模塊1075B和SVM程序模塊1070可以包括計(jì)算機(jī)可執(zhí)行指令，用于對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并對(duì)來(lái)自學(xué)習(xí)機(jī)的輸出進(jìn)行后處理并且執(zhí)行按照參考圖1和2描述的示例性方法的學(xué)習(xí)算法。此外，最佳分類程序模塊1077可以包括計(jì)算機(jī)可執(zhí)行指令，用于按照參考圖3描述的示例性方法對(duì)一個(gè)數(shù)據(jù)組進(jìn)行最佳分類。
使用對(duì)諸如遠(yuǎn)程計(jì)算機(jī)1060之類的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接，計(jì)算機(jī)1000就可以操作在一個(gè)網(wǎng)絡(luò)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)1060可以是一個(gè)服務(wù)器，一個(gè)路由器，一個(gè)同等的設(shè)備或者其它公用網(wǎng)絡(luò)節(jié)點(diǎn)，并且通常包括有關(guān)于計(jì)算機(jī)1000所描述的許多或者所有元件。在一個(gè)網(wǎng)絡(luò)環(huán)境中，程序模塊和數(shù)據(jù)可以被儲(chǔ)存在遠(yuǎn)程計(jì)算機(jī)1060上。圖10中描述的邏輯連接包括一個(gè)局域網(wǎng)(“LAN”)1054和一個(gè)廣域網(wǎng)(“WAN”)1055。在一個(gè)局域網(wǎng)環(huán)境中，諸如以太網(wǎng)卡之類的一個(gè)網(wǎng)絡(luò)接口1045可用于把計(jì)算機(jī)1000連接到遠(yuǎn)程計(jì)算機(jī)1060。在一個(gè)廣域網(wǎng)環(huán)境中，計(jì)算機(jī)1000可以使用諸如調(diào)制解調(diào)器1057之類的一個(gè)電信設(shè)備來(lái)建立一個(gè)連接。應(yīng)該理解，所示出的網(wǎng)絡(luò)連接是說(shuō)明性的并且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它設(shè)備。
圖11是一個(gè)功能方框圖，說(shuō)明了實(shí)現(xiàn)本發(fā)明的一個(gè)替換的示例性操作環(huán)境。本發(fā)明可以在多個(gè)計(jì)算機(jī)系統(tǒng)的專門配置中實(shí)現(xiàn)。多個(gè)計(jì)算機(jī)系統(tǒng)的專門配置的一個(gè)例子在此被稱為BIOWulfTMSupport VectorProcessor(BSVP)(支持向量處理器)。BSVP把并行計(jì)算硬件技術(shù)中的最新進(jìn)步與模式識(shí)別、回歸估計(jì)以及密度估計(jì)中的最新數(shù)學(xué)進(jìn)步結(jié)合在一起。雖然這些技術(shù)的組合是唯一且新穎的實(shí)現(xiàn)，但是該硬件結(jié)構(gòu)是以NASA Goddard Space Flight Center(太空總署Goddard太空航行中心)最早的Beowulf巨型計(jì)算機(jī)實(shí)現(xiàn)為基礎(chǔ)的。
BSVP提供加快SVM訓(xùn)練所必需的大型并行計(jì)算能力和對(duì)大規(guī)模數(shù)據(jù)組的估計(jì)。BSVP包括一個(gè)雙重并行硬件結(jié)構(gòu)和自定義并行軟件以便實(shí)現(xiàn)多線程和信息傳遞的有效應(yīng)用從而有效地識(shí)別實(shí)際應(yīng)用中的支持向量。硬件和軟件的最優(yōu)化使BSVP顯著優(yōu)于標(biāo)準(zhǔn)的SVM實(shí)現(xiàn)。此外，隨著商品計(jì)算技術(shù)的發(fā)展，通過(guò)BSVP在開(kāi)放源軟件和標(biāo)準(zhǔn)化接口技術(shù)中的基礎(chǔ)可保證BSVP的升級(jí)性。未來(lái)的計(jì)算平臺(tái)和網(wǎng)絡(luò)技術(shù)可以被同化到BSVP中，因?yàn)樗鼈儗?duì)軟件實(shí)現(xiàn)成本無(wú)影響而變得有效。
如圖11所示，BSVP包括具有二十個(gè)處理節(jié)點(diǎn)1104a-t的一個(gè)Beowulf型超級(jí)計(jì)算群集和一個(gè)主節(jié)點(diǎn)1112。處理節(jié)點(diǎn)1104a-j通過(guò)交換機(jī)1102a互連，而處理節(jié)點(diǎn)1104k-t通過(guò)交換機(jī)1102b互連。主節(jié)點(diǎn)1112通過(guò)一個(gè)適當(dāng)?shù)囊蕴W(wǎng)電纜1114連接到網(wǎng)絡(luò)交換機(jī)1102a或1102b(示出了1102a)的其中之一上。同時(shí)，交換機(jī)1102a和交換機(jī)1102b通過(guò)一個(gè)適當(dāng)?shù)囊蕴W(wǎng)電纜1114彼此連接以使所有的二十個(gè)處理節(jié)點(diǎn)1104a-t和主節(jié)點(diǎn)1112互相有效地通信。交換機(jī)1102a和1102b最好包括快速以太網(wǎng)互相連接。通過(guò)Beowulf巨型計(jì)算機(jī)的信息傳遞多個(gè)機(jī)器并行結(jié)構(gòu)的實(shí)現(xiàn)以及把一個(gè)高性能雙重處理器SMP計(jì)算機(jī)利用為主節(jié)點(diǎn)1112來(lái)實(shí)現(xiàn)BSVP的雙重并行結(jié)構(gòu)。
在這個(gè)示例性的結(jié)構(gòu)中，主節(jié)點(diǎn)1112包含無(wú)縫多元處理器SMP技術(shù)并且包括一個(gè)基于雙倍的450Mhz奔騰II Xeon的機(jī)器，具有18GB的提升型SCSI存儲(chǔ)器，256MB內(nèi)存，兩個(gè)100M比特/秒NIC，以及一個(gè)24GB DAT網(wǎng)絡(luò)備份磁帶設(shè)備。主節(jié)點(diǎn)1112在Linux下執(zhí)行NIS、MPL和/或PMV來(lái)管理BSVP的動(dòng)作。主節(jié)點(diǎn)1112還在BSVP和外部世界之間提供網(wǎng)關(guān)。同樣地，BSVP的內(nèi)部網(wǎng)絡(luò)與外部交互作用相孤立，這允許整個(gè)群集作為單個(gè)機(jī)器出現(xiàn)來(lái)起作用。
二十個(gè)處理節(jié)點(diǎn)1104a-t是相同配置的計(jì)算機(jī)，包含150MHz奔騰處理器，32MB RAM，850MB HDD，1.44MB FDD以及一個(gè)快速以太網(wǎng)mb100Mb/sNIC。處理節(jié)點(diǎn)1104a-t互相互連并且通過(guò)TCP/IP通過(guò)NFS連接與主節(jié)點(diǎn)互連。除了BSVP計(jì)算之外，處理節(jié)點(diǎn)被配置來(lái)通過(guò)一個(gè)附加組的監(jiān)視器提供示范性能，每個(gè)節(jié)點(diǎn)的鍵盤和鼠標(biāo)通過(guò)KVM交換機(jī)1108a和1108b被路由到單個(gè)鍵盤設(shè)備和單個(gè)鼠標(biāo)設(shè)備。
軟件自定義和改進(jìn)允許BSVP上的動(dòng)作的最優(yōu)化。在部分SVM處理中的并行性以最有利的方式通過(guò)BSVP硬件提供的混合并行化而被利用。軟件實(shí)現(xiàn)了從原始數(shù)據(jù)到執(zhí)行解的完整周期支持。一個(gè)數(shù)據(jù)庫(kù)引擎提供對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理所需要的存儲(chǔ)器和適應(yīng)性。自定義開(kāi)發(fā)分程序把SVM訓(xùn)練之前的數(shù)據(jù)預(yù)處理自動(dòng)化。多個(gè)變換和數(shù)據(jù)處理在數(shù)據(jù)庫(kù)環(huán)境內(nèi)完成以便產(chǎn)生候選訓(xùn)練數(shù)據(jù)。
BSVP的峰值理論處理性能為3.90GFLOPS?；谔湛偸餑oddard太空航行中心在它們的Beowulf型機(jī)器上執(zhí)行的基準(zhǔn)點(diǎn)，預(yù)期的實(shí)際性能應(yīng)該大約為1.56GFLOPS。因此，使用此Beowulf型群集機(jī)器中的商品組件計(jì)算能力所達(dá)到的性能符合諸如Cray J932/8之類的巨型計(jì)算機(jī)的性能。另外研究和學(xué)院體系中的Beowulf測(cè)試表示在二十個(gè)節(jié)點(diǎn)Beowulf群集上，通?？梢赃_(dá)到按18倍于單個(gè)處理器的一個(gè)順序的一個(gè)性能。例如，在單個(gè)奔騰處理器計(jì)算機(jī)上需要17分45秒時(shí)鐘時(shí)間的一個(gè)最優(yōu)化問(wèn)題在具有20個(gè)節(jié)點(diǎn)的Beowulf上以59秒解決。因此，BSVP的高性能性質(zhì)能夠?qū)嶋H分析當(dāng)前認(rèn)為非常麻煩而不能被傳統(tǒng)計(jì)算機(jī)系統(tǒng)處理的數(shù)據(jù)組。
BSVP巨大的計(jì)算能力使得它特別適用于并行地執(zhí)行多個(gè)SVM從而解決涉及大數(shù)量輸入的現(xiàn)實(shí)問(wèn)題。通常的SVM和特別的BSVP的有用性示例包括遺傳研究，特別是人類基因組計(jì)劃；管理維護(hù)效率的估計(jì)；治療學(xué)的判斷和跟蹤；適當(dāng)?shù)闹委煂W(xué)篩余；配藥學(xué)的開(kāi)發(fā)技術(shù)；分子結(jié)構(gòu)的發(fā)現(xiàn)；預(yù)測(cè)估計(jì)；醫(yī)學(xué)信息學(xué)；付款欺詐檢測(cè)；庫(kù)存控制；股票估計(jì)和預(yù)測(cè)；商品估計(jì)和預(yù)測(cè)；以及保險(xiǎn)概率估計(jì)。
本領(lǐng)域技術(shù)人員應(yīng)該理解，上述的BSVP結(jié)構(gòu)實(shí)際上是說(shuō)明性的而不是意欲限制本發(fā)明的范圍。例如，二十個(gè)處理節(jié)點(diǎn)的選擇是以熟知的Beowulf結(jié)構(gòu)為基礎(chǔ)的?？墒牵迷鰷p二十個(gè)處理節(jié)點(diǎn)可以交替地執(zhí)行該BSVP。此外，上述具體的硬件和軟件組件僅僅是作為例子。正如所提及的，本發(fā)明的BSVP實(shí)施例被配置來(lái)與替換的和/或未來(lái)的硬件和軟件組件兼容。
圖12是一個(gè)功能方框圖，說(shuō)明了用于實(shí)現(xiàn)本發(fā)明的另外一個(gè)替換實(shí)施例的示例性網(wǎng)絡(luò)操作環(huán)境。在這個(gè)示例性的網(wǎng)絡(luò)操作環(huán)境中，顧客1202或其它實(shí)體可以通過(guò)諸如互聯(lián)網(wǎng)1204之類的一個(gè)分布式計(jì)算機(jī)網(wǎng)路發(fā)送數(shù)據(jù)給廠家1212。本領(lǐng)域技術(shù)人員應(yīng)該理解，顧客1202可以從包括或與一個(gè)通信設(shè)備和一個(gè)數(shù)據(jù)存儲(chǔ)設(shè)備通信的任何類型的計(jì)算機(jī)或?qū)嶒?yàn)室儀器來(lái)發(fā)送數(shù)據(jù)。從顧客1202發(fā)送的數(shù)據(jù)可以是由學(xué)習(xí)機(jī)處理的訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和/或?qū)嵱脭?shù)據(jù)。由顧客發(fā)送的數(shù)據(jù)在廠家的Web服務(wù)器1206處被接收，Web服務(wù)器1206可以通過(guò)一個(gè)內(nèi)部網(wǎng)絡(luò)1214a-b把該數(shù)據(jù)發(fā)送給一個(gè)或多個(gè)學(xué)習(xí)機(jī)。正如先前描述的，學(xué)習(xí)機(jī)可以包括SVMs、BSVPs1100、神經(jīng)網(wǎng)絡(luò)、其它學(xué)習(xí)機(jī)或它們的組合。優(yōu)選地，Web服務(wù)器1206通過(guò)一個(gè)防火墻1208或其它安全系統(tǒng)與學(xué)習(xí)機(jī)(組)相孤立。廠家1212也可以通過(guò)互聯(lián)網(wǎng)1204或任何專用或所要求的通信鏈路來(lái)與一個(gè)或多個(gè)財(cái)務(wù)體系1210通信。Web服務(wù)器1206或其它通信設(shè)備可以處理與該一個(gè)或多個(gè)財(cái)務(wù)體系的通信。財(cái)務(wù)機(jī)構(gòu)(組)可以包括銀行、互聯(lián)網(wǎng)銀行、票據(jù)交換所、貸款或自動(dòng)提款卡公司等等。
在操作時(shí)，廠家可以通過(guò)主機(jī)在web服務(wù)器1206或者與該web服務(wù)器1206通信的另外一個(gè)服務(wù)器處的一個(gè)web站點(diǎn)來(lái)提供學(xué)習(xí)機(jī)處理業(yè)務(wù)。顧客1202可以發(fā)送數(shù)據(jù)給Web服務(wù)器1206以便由學(xué)習(xí)機(jī)進(jìn)行處理。顧客1202還可以發(fā)送諸如用戶名、密碼和/或財(cái)務(wù)賬目標(biāo)識(shí)符之類的識(shí)別信息給web服務(wù)器。響應(yīng)于接收數(shù)據(jù)和識(shí)別信息，Web服務(wù)器1206可以在一個(gè)財(cái)務(wù)機(jī)構(gòu)1210處從顧客1202保存或授權(quán)的一個(gè)財(cái)務(wù)賬目中電子地取回一個(gè)預(yù)確定數(shù)量的資金。另外，Web服務(wù)器可以發(fā)送顧客的數(shù)據(jù)到BSVP1100或其它學(xué)習(xí)機(jī)。當(dāng)BSVP1100已經(jīng)完成數(shù)據(jù)的處理和輸出的后處理時(shí)，后處理的輸出被返回到web服務(wù)器1206。如前所述，來(lái)自學(xué)習(xí)機(jī)的輸出可以被后處理以便產(chǎn)生單值或多值的、計(jì)算導(dǎo)出的字母數(shù)字分類，用于人類或自動(dòng)的解釋。Web服務(wù)器1206然后可以確保在通過(guò)互聯(lián)網(wǎng)1204把后處理的輸出發(fā)送回到顧客1202之前已經(jīng)保證了來(lái)自顧客的付款。
SVMs可用來(lái)解決多種多樣的現(xiàn)實(shí)問(wèn)題。例如，SVMs可在分析賬目和存貨數(shù)據(jù)、股票和商品市場(chǎng)數(shù)據(jù)、保險(xiǎn)數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)等等方面具有實(shí)用性。同樣地，如上所述的網(wǎng)絡(luò)環(huán)境在許多工業(yè)和市場(chǎng)部分中具有廣泛的實(shí)用性。在存貨數(shù)據(jù)分析環(huán)境中，例如，顧客可能是一個(gè)零售商。該零售商可以以預(yù)確定次數(shù)提供存貨和核查數(shù)據(jù)給Web服務(wù)器1206。該存貨和核查數(shù)據(jù)可以由BSVP和/或一個(gè)或多個(gè)其它學(xué)習(xí)機(jī)來(lái)處理以便估計(jì)零售商的存貨需求。同樣地，在醫(yī)學(xué)數(shù)據(jù)分析的環(huán)境中，顧客可能是一個(gè)醫(yī)學(xué)實(shí)驗(yàn)室并且可以把從病人身上采集實(shí)用數(shù)據(jù)發(fā)送給Web服務(wù)器1206同時(shí)該病人在該醫(yī)學(xué)實(shí)驗(yàn)室中。通過(guò)用BSVP或其它學(xué)習(xí)機(jī)處理該醫(yī)學(xué)數(shù)據(jù)所產(chǎn)生的輸出可以被發(fā)送回到這家醫(yī)學(xué)實(shí)驗(yàn)室并且呈遞給該病人。
在另一實(shí)施例中，本發(fā)明想要配置多個(gè)支持向量機(jī)來(lái)并行或串行地層次處理多個(gè)數(shù)據(jù)組。具體地，一個(gè)或多個(gè)第一級(jí)支持向量機(jī)可以被訓(xùn)練并測(cè)試來(lái)處理第一類型的數(shù)據(jù)而一個(gè)或多個(gè)第一級(jí)支持向量機(jī)可以被訓(xùn)練并測(cè)試來(lái)處理第二類型的數(shù)據(jù)。另外類型的數(shù)據(jù)也同樣可以由其它第一級(jí)支持向量機(jī)處理。來(lái)自一些或所有第一級(jí)支持向量機(jī)的輸出可以按照一種邏輯方式被合并使得為一個(gè)或多個(gè)第二級(jí)支持向量機(jī)產(chǎn)生一個(gè)輸入數(shù)據(jù)組。按照類似的形式，來(lái)自多個(gè)第二級(jí)支持向量機(jī)的輸出可以按照一種邏輯方式被合并使得為一個(gè)或多個(gè)第三級(jí)支持向量機(jī)產(chǎn)生一個(gè)輸入數(shù)據(jù)。支持向量機(jī)的分層結(jié)構(gòu)可以被擴(kuò)展為適當(dāng)?shù)脑S多級(jí)。按照這種方式，較低分級(jí)的支持向量機(jī)可用來(lái)把要被輸入到較高分級(jí)的支持向量機(jī)中的數(shù)據(jù)進(jìn)行預(yù)處理。同時(shí)，較高分級(jí)的支持向量機(jī)可用來(lái)把較低分級(jí)的支持向量機(jī)的輸出數(shù)據(jù)進(jìn)行后處理。
分層結(jié)構(gòu)中的每個(gè)支持向量機(jī)或支持向量機(jī)的每一分級(jí)可以被配置不同的內(nèi)核。例如，用于處理第一類型數(shù)據(jù)的支持向量機(jī)可能被配置第一類型的內(nèi)核，而用于處理第二類型數(shù)據(jù)的支持向量機(jī)可以被配置第二類型的內(nèi)核。另外，在同一或不同的分級(jí)中的多個(gè)支持向量機(jī)可以被配置來(lái)利用不同的內(nèi)核處理同一類型的數(shù)據(jù)。
圖13被提出來(lái)通過(guò)示例說(shuō)明支持向量機(jī)的一種分級(jí)系統(tǒng)。如圖所示，一個(gè)或多個(gè)第一級(jí)支持向量機(jī)1302A1和1302A2可以被訓(xùn)練并測(cè)試來(lái)處理第一類型的輸入數(shù)據(jù)1304A，例如和內(nèi)科病人的抽樣有關(guān)的乳房透視數(shù)據(jù)。這些支持向量機(jī)的一個(gè)或多個(gè)可以包括不同的內(nèi)核(示出為內(nèi)核1和內(nèi)核2)。同樣，一個(gè)或多個(gè)另外的第一級(jí)支持向量機(jī)1302B1和1302B2可以被訓(xùn)練并測(cè)試來(lái)處理第二類型的輸入數(shù)據(jù)1304B，例如相同或不同的內(nèi)科病人抽樣的基因數(shù)據(jù)。同樣，該另外的支持向量機(jī)的一個(gè)或多個(gè)可以包括不同的內(nèi)核(示出為內(nèi)核1和內(nèi)核3)。來(lái)自每一類似的第一級(jí)支持向量機(jī)的輸出可以彼此相比較(即，輸出A1 1306A與輸出A2 1306B相比較；輸出B1 1306C與輸出B2 1306D相比較)以便確定最佳輸出(1308A和1308B)。然后，來(lái)自兩個(gè)類型的第一級(jí)支持向量機(jī)1308A和1308B的最佳輸出可以被合并以便形成一個(gè)新的多維輸入數(shù)據(jù)組1310，例如與乳房透視和基因數(shù)據(jù)有關(guān)。新的數(shù)據(jù)組然后可以由一個(gè)或多個(gè)適當(dāng)訓(xùn)練并測(cè)試的第二級(jí)支持向量機(jī)1312A和1312B處理。來(lái)自第二級(jí)支持向量機(jī)1312A和1312B的結(jié)果輸出1314A和1314B可以進(jìn)行比較以便確定一個(gè)最佳輸出1316。最佳輸出1316可以識(shí)別乳房透視和基因數(shù)據(jù)點(diǎn)之間的因果關(guān)系。對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō)應(yīng)該很明顯，所期望的支持向量機(jī)的分層結(jié)構(gòu)可以應(yīng)用在任意領(lǐng)域或者期望通過(guò)學(xué)習(xí)機(jī)分析數(shù)據(jù)的工業(yè)中。
使用多個(gè)支持向量機(jī)的多個(gè)數(shù)據(jù)組的分級(jí)處理可以被使用為一種方法，用于對(duì)從其它支持向量機(jī)或?qū)W習(xí)機(jī)中輸入或輸出的數(shù)據(jù)進(jìn)行預(yù)處理或后處理。另外，可以對(duì)輸入數(shù)據(jù)和/或如上所述的支持向量機(jī)分級(jí)結(jié)構(gòu)的輸出執(zhí)行數(shù)據(jù)的預(yù)處理或后處理。
對(duì)本發(fā)明所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，本發(fā)明的替換實(shí)施例將變得顯而易見(jiàn)。這樣的替換實(shí)施例被認(rèn)為是包含在本發(fā)明的精神和范圍內(nèi)。因此，本發(fā)明的范圍通過(guò)附加的權(quán)利要求來(lái)描述并且由前述的說(shuō)明書(shū)支持。
權(quán)利要求
1.一種利用多個(gè)支持向量機(jī)來(lái)提升知識(shí)發(fā)現(xiàn)的方法，包括對(duì)第一訓(xùn)練數(shù)據(jù)組和第二訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理以便向多個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的每一個(gè)增加維數(shù)；利用第一預(yù)處理訓(xùn)練數(shù)據(jù)組訓(xùn)練一個(gè)或多個(gè)第一支持向量機(jī)，第一支持向量機(jī)的每一個(gè)都包括不同的內(nèi)核；利用第二預(yù)處理訓(xùn)練數(shù)據(jù)組訓(xùn)練一個(gè)或多個(gè)第二支持向量機(jī)，第二支持向量機(jī)的每一個(gè)都包括不同的內(nèi)核；以與第一訓(xùn)練數(shù)據(jù)組相同的方式對(duì)第一測(cè)試數(shù)據(jù)組進(jìn)行預(yù)處理并且以與第二訓(xùn)練數(shù)據(jù)組相同的方式對(duì)第二測(cè)試數(shù)據(jù)組進(jìn)行預(yù)處理；利用第一預(yù)處理測(cè)試數(shù)據(jù)組測(cè)試每一個(gè)第一訓(xùn)練支持向量機(jī)并且利用第二預(yù)處理測(cè)試數(shù)據(jù)組測(cè)試每一個(gè)第二訓(xùn)練支持向量機(jī)；響應(yīng)于從每一個(gè)第一訓(xùn)練支持向量機(jī)接收第一測(cè)試輸出，把每一個(gè)第一測(cè)試輸出互相進(jìn)行比較以便確定第一測(cè)試輸出的哪一個(gè)是第一最佳解，如果有最佳解的話；響應(yīng)于從每一個(gè)第二訓(xùn)練支持向量機(jī)接收第二測(cè)試輸出，把每一個(gè)第二測(cè)試輸出互相進(jìn)行比較以便確定第二測(cè)試輸出的哪一個(gè)是第二最佳解，如果有最佳解的話；把第一最佳解與第二最佳解合并以便創(chuàng)建一個(gè)新的輸入數(shù)據(jù)組從而輸入到一個(gè)或多個(gè)附加的支持向量機(jī)中。
2.一種計(jì)算機(jī)可讀媒體，其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令，用于執(zhí)行如權(quán)利要求1所述的方法。
3.如權(quán)利要求1所述的方法，其中，對(duì)第一訓(xùn)練數(shù)據(jù)組和第二訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理還包括確定至少訓(xùn)練數(shù)據(jù)點(diǎn)中的一個(gè)是臟的；以及響應(yīng)于確定訓(xùn)練數(shù)據(jù)點(diǎn)是臟的，對(duì)臟的訓(xùn)練數(shù)據(jù)點(diǎn)進(jìn)行凈化。
4.如權(quán)利要求3所述的方法，其中對(duì)臟的訓(xùn)練數(shù)據(jù)點(diǎn)進(jìn)行凈化包括刪除、修復(fù)或更換該數(shù)據(jù)點(diǎn)。
5.如權(quán)利要求1所述的方法，其中，每一訓(xùn)練數(shù)據(jù)點(diǎn)包括具有一個(gè)或多個(gè)初始坐標(biāo)的一個(gè)向量；而且，對(duì)訓(xùn)練數(shù)據(jù)組進(jìn)行預(yù)處理包括把一個(gè)或多個(gè)新的坐標(biāo)加到該向量。
6.一種計(jì)算機(jī)可讀媒體，其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令，用于執(zhí)行如權(quán)利要求7所述的方法。
7.如權(quán)利要求5所述的方法，其中，通過(guò)把變換應(yīng)用到一個(gè)或多個(gè)初始坐標(biāo)上來(lái)導(dǎo)出加到向量上的一個(gè)或多個(gè)新的坐標(biāo)。
8.如權(quán)利要求7所述的方法，其中，該變換是以專家知識(shí)為基礎(chǔ)的。
9.如權(quán)利要求7所述的方法，其中，該變換是計(jì)算導(dǎo)出的。
10.如權(quán)利要求3和7所述的方法，其中，訓(xùn)練數(shù)據(jù)組包括一個(gè)連續(xù)變量；而且變換包括對(duì)訓(xùn)練數(shù)據(jù)組的連續(xù)變量進(jìn)行最佳分類。
11.一種計(jì)算機(jī)可讀媒體，其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令，用于執(zhí)行如權(quán)利要求10所述的方法。
12.如權(quán)利要求1所述的方法，其中，把每一個(gè)第一測(cè)試輸出互相進(jìn)行比較以及把每一個(gè)第二測(cè)試輸出互相進(jìn)行比較包括通過(guò)把每一個(gè)測(cè)試輸出解釋為一種公共的格式來(lái)對(duì)每一個(gè)測(cè)試輸出進(jìn)行后處理；把每一個(gè)第一后處理的測(cè)試輸出互相進(jìn)行比較以便確定哪一個(gè)第一測(cè)試輸出表示一個(gè)第一最低的全局最小差錯(cuò)；和把每一個(gè)第二后處理的測(cè)試輸出互相進(jìn)行比較以便確定哪一個(gè)第二測(cè)試輸出表示一個(gè)第二最低的全局最小差錯(cuò)。
13.一種計(jì)算機(jī)可讀媒體，其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令，用于執(zhí)行如權(quán)利要求12所述的方法。
14.如權(quán)利要求1所述的方法，其中，從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)涉及一個(gè)回歸或密度估計(jì)；其中，每一個(gè)支持向量機(jī)產(chǎn)生包括一個(gè)連續(xù)變量的一個(gè)訓(xùn)練輸出；以及該方法還包括如下步驟通過(guò)對(duì)訓(xùn)練輸出進(jìn)行最佳分類來(lái)對(duì)每一個(gè)訓(xùn)練輸出進(jìn)行后處理從而導(dǎo)出連續(xù)變量中的截止點(diǎn)。
15.如權(quán)利要求1所述的方法，其中，包括如下步驟響應(yīng)于把每一個(gè)測(cè)試輸出互相進(jìn)行比較，確定沒(méi)有測(cè)試輸出是最佳解；調(diào)整多個(gè)支持向量機(jī)中的一個(gè)或多個(gè)之不同的內(nèi)核；和響應(yīng)于調(diào)整不同的內(nèi)核的選擇，重新訓(xùn)練并重新測(cè)試多個(gè)支持向量機(jī)的每一個(gè)。
16.一種計(jì)算機(jī)可讀媒體，其具有儲(chǔ)存在其上面的計(jì)算機(jī)可執(zhí)行指令，用于執(zhí)行如權(quán)利要求15所述的方法。
17.如權(quán)利要求15所述的方法，其中，調(diào)整不同的內(nèi)核是以先前的性能或歷史數(shù)據(jù)為基礎(chǔ)完成的，并且依賴于從數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)的性質(zhì)或者數(shù)據(jù)的性質(zhì)。
全文摘要
一種系統(tǒng)和方法,用于使用通常的多個(gè)學(xué)習(xí)機(jī)特別是多個(gè)支持向量機(jī)來(lái)提升來(lái)自數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。通過(guò)把含意加給數(shù)據(jù),該學(xué)習(xí)機(jī)提供更強(qiáng)大的信息量用于處理。特別是支持向量機(jī),被處理的信息量越大,則可以被導(dǎo)出的有關(guān)數(shù)據(jù)的歸納就越好。多個(gè)支持向量機(jī)用預(yù)先處理的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練并以相同的方式用被預(yù)先處理的測(cè)試數(shù)據(jù)來(lái)測(cè)試。來(lái)自多個(gè)支持向量機(jī)的測(cè)試輸出被比較以便決定哪一測(cè)試輸出表示一個(gè)最佳解。一個(gè)或多個(gè)內(nèi)核的選擇可以被調(diào)整并且一個(gè)或多個(gè)支持向量機(jī)可以被重新訓(xùn)練和重新測(cè)試?；诓煌斎霐?shù)據(jù)組的最佳解可以被合并以便形成一個(gè)新的輸入數(shù)據(jù)組從而輸入到一個(gè)或多個(gè)附加的支持向量機(jī)中。
文檔編號(hào)G06F15/18GK1358288SQ00808062
公開(kāi)日2002年7月10日申請(qǐng)日期2000年5月24日優(yōu)先權(quán)日1999年5月25日
發(fā)明者斯蒂芬·D·巴恩希爾申請(qǐng)人:巴恩希爾科技公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：斯蒂芬.D.巴恩希爾
技術(shù)所有人：巴恩希爾科技公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

知識(shí)發(fā)現(xiàn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用多個(gè)支持向量機(jī)從多個(gè)數(shù)據(jù)組中提升知識(shí)發(fā)現(xiàn)的制作方法