專利名稱:處理混合的數(shù)值和/或非數(shù)值數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
本申請涉及借助于計算的智能數(shù)據(jù)處理技術(shù)例如人工神經(jīng)網(wǎng)絡(luò),群集分析,自組織,可視化以及其它的智能數(shù)據(jù)處理技術(shù)。具體地說,本申請涉及利用這些技術(shù)的一種或其組合處理混和的數(shù)值數(shù)據(jù)非數(shù)值非數(shù)值數(shù)據(jù)的方法和裝置。
背景技術(shù):
人工神經(jīng)網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))和其它的人工智能技術(shù)一直用于處理分類應(yīng)用領(lǐng)域中的模式格式化信息和數(shù)據(jù)。一些人提出,神經(jīng)網(wǎng)絡(luò)可以高效地用于處理數(shù)值模式數(shù)據(jù),但是,如果不根據(jù)情況進(jìn)行特定的和復(fù)雜的修改,它們不特別適合于非數(shù)值數(shù)據(jù)的處理。
常規(guī)的符號處理技術(shù)一般涉及這樣的構(gòu)思和定性的關(guān)系,它們部分地依賴于在非數(shù)值模式內(nèi)的具有辨識能力的結(jié)構(gòu),例如在基于規(guī)則的或基于情況的推理系統(tǒng)中。不過,具有許多情況,其中需要識別和表示在混和的數(shù)值和/或非數(shù)值數(shù)據(jù)的實體之間的關(guān)系。例如,在電子媒體中,例如在互聯(lián)網(wǎng)(或者其它有線的或無線的計算機(jī)/電信網(wǎng)絡(luò))上,可以得到以混和的數(shù)值和/或非數(shù)值數(shù)據(jù)表示的大量的信息。不過,常規(guī)的符號處理技術(shù)一般不適用于處理這種混和數(shù)據(jù)形式的信息。
此外,常規(guī)的數(shù)值或符號處理技術(shù)通常預(yù)選一種或幾種模式結(jié)構(gòu)格式用于處理輸入的數(shù)據(jù)。結(jié)果,這種技術(shù)不適用于處理具有預(yù)選的結(jié)構(gòu)之外的結(jié)構(gòu)的符號模式。
需要一種用于符號處理的方法和系統(tǒng),其至少能夠避免上述的常規(guī)符號處理技術(shù)的缺點(diǎn)。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N用于處理所選任務(wù)的混和的數(shù)值的與/或非數(shù)值的數(shù)據(jù)(下面稱為“混和數(shù)據(jù)”)的方法和設(shè)備。按照一個實施例,用于處理所選任務(wù)的混和數(shù)據(jù)的方法包括把混和數(shù)據(jù)轉(zhuǎn)換成轉(zhuǎn)換數(shù)據(jù),并處理所述轉(zhuǎn)換數(shù)據(jù),以便提供用于所選任務(wù)的函數(shù)輸出。
按照一個實施例,用于處理所選任務(wù)的混和數(shù)據(jù)的設(shè)備包括適用于把混和數(shù)據(jù)轉(zhuǎn)換成轉(zhuǎn)換數(shù)據(jù)的輸入變換模塊,以及適用于處理所述轉(zhuǎn)換數(shù)據(jù),從而提供用于所選任務(wù)的函數(shù)輸出的函數(shù)映射模塊。所述設(shè)備可以是被存儲在計算機(jī)可讀的介質(zhì)上的和/或通過計算機(jī)網(wǎng)絡(luò)或其它傳輸介質(zhì)傳輸?shù)挠嬎銠C(jī)程序。
按照一個實施例,混和數(shù)據(jù)通過路標(biāo)變換被變換成轉(zhuǎn)換數(shù)據(jù)。設(shè)置群集中心作為參考點(diǎn),從混和數(shù)據(jù)到各個參考點(diǎn)的距離相應(yīng)于轉(zhuǎn)換的數(shù)據(jù)空間的維數(shù)。輸入變換模塊可以通過混和數(shù)據(jù)訓(xùn)練集的群集被訓(xùn)練。輸入變換模塊可以使用k-means方法或分級的k-mediods方法確定群集的中心。輸入變換模塊還可以使用被監(jiān)控的學(xué)習(xí)方法來確定群集的結(jié)構(gòu)。
按照另一個實施例,混和數(shù)據(jù)通過編碼方法變換成轉(zhuǎn)換數(shù)據(jù)。混和數(shù)據(jù)可以包括消費(fèi)者簡檔信息。
輸入變換模塊和函數(shù)映射模塊可以包括神經(jīng)網(wǎng)絡(luò)的各個層。轉(zhuǎn)換數(shù)據(jù)可以是一種數(shù)值表示。混和數(shù)據(jù)可以相應(yīng)于文本。
輸入變換模塊可以學(xué)習(xí),以便把無組織的數(shù)據(jù)模式組織成相應(yīng)于多個節(jié)點(diǎn)的集,所述節(jié)點(diǎn)的各個輸出相應(yīng)于轉(zhuǎn)換數(shù)據(jù)。所述學(xué)習(xí)可以是非監(jiān)控的。每個節(jié)點(diǎn)可以具有一個相關(guān)的群集注釋函數(shù)。
函數(shù)映射模塊可以包括具有至少一個基本函數(shù)的計算模型,所述基本函數(shù)的參數(shù)可以隨著所述函數(shù)映射模塊學(xué)習(xí)相應(yīng)于所選任務(wù)的采樣數(shù)據(jù)模式的訓(xùn)練集而被調(diào)節(jié)。所述函數(shù)映射模塊可以使用回歸技術(shù)來調(diào)節(jié)基本函數(shù)的參數(shù)。所述基本函數(shù)可以包括S形函數(shù)、小波函數(shù)、輻射狀基本函數(shù)(radial basis function)和/或多項式。
函數(shù)映射模塊可以包括函數(shù)鏈網(wǎng)絡(luò)。所述函數(shù)鏈網(wǎng)絡(luò)可以是正交的。所述函數(shù)映射模塊的學(xué)習(xí)可以被監(jiān)控。函數(shù)映射模塊可以包括非線性的前饋網(wǎng)絡(luò),所述前饋網(wǎng)絡(luò)可以通過誤差的向后傳播來學(xué)習(xí)?;蛘咚龊瘮?shù)映射模塊的學(xué)習(xí)可以通過遞歸最小平方估算方法例如正交的最小平方方法來實現(xiàn)。
所選任務(wù)可以是各種可能的認(rèn)任務(wù)之一或其組合,包括可視化、搜索、調(diào)用(recall)、預(yù)測、分類等。例如,所選任務(wù)可以應(yīng)用于數(shù)據(jù)挖掘,數(shù)據(jù)庫檢索,有目標(biāo)的市場營銷和/或計算機(jī)病毒檢測。
由下面參照附圖進(jìn)行的詳細(xì)說明可以更容易地理解本申請的特征,其中圖1A表示按照本申請的一個實施例的用于對于選擇的任務(wù)處理混和數(shù)據(jù)的方塊圖;圖1B是一種典型的計算系統(tǒng)或計算機(jī)的方塊圖,其中可以駐存和/或執(zhí)行在圖1A所示的裝置的軟件實施例;圖2是按照本申請的一個實施例用于處理選擇的任務(wù)的混和數(shù)據(jù)的方法的流程圖;圖3是按照本申請的另一個實施例用于處理選擇的任務(wù)的混和數(shù)據(jù)的裝置的方塊圖;圖4是按照用于處理選擇的任務(wù)的混和數(shù)據(jù)的另一個實施例的方法的流程圖;以及圖5是按照本申請的另一個實施例用于處理選擇的任務(wù)的混和數(shù)據(jù)的系統(tǒng)的一部分的方塊圖。
具體實施例方式
本申請?zhí)峁┮环N智能方法和系統(tǒng),其可以包括人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)的一種或其組合,用于處理選擇的任務(wù)的混和數(shù)據(jù)。按照本申請的方法可用于例如可視化、檢索、調(diào)用、預(yù)測和分類等任務(wù)。這些任務(wù)可以在技術(shù)和商務(wù)領(lǐng)域中找到,例如信息管理,企業(yè)管理,存儲管理,網(wǎng)絡(luò)基礎(chǔ)設(shè)施管理以及處理管理。本申請還可以用于其它的技術(shù)和商務(wù)領(lǐng)域,例如數(shù)據(jù)挖掘,計算機(jī)病毒檢測,有目的的市場預(yù)測,醫(yī)療診斷,語音和手寫識別等。
下面參照圖1A、1B說明按照一個實施例的用于處理選擇的任務(wù)的混和數(shù)據(jù)的裝置。
裝置10包括輸入轉(zhuǎn)換模塊11和函數(shù)變換模塊13。裝置10可以是存儲在計算機(jī)系統(tǒng)的存儲器中的計算機(jī)程序,其被存儲在計算機(jī)可讀的介質(zhì)上和/或以一個或幾個部分通過計算機(jī)網(wǎng)絡(luò)和/或其它傳輸媒體傳輸,所述部分能夠在計算機(jī)系統(tǒng)上執(zhí)行。
圖1B表示一個計算系統(tǒng)或或=計算機(jī)1,在其上可以執(zhí)行或存儲計算機(jī)可執(zhí)行的代碼例如裝置10的軟件的實施例。計算系統(tǒng)1包括處理器2,存儲器3,硬盤4,可除去的存儲驅(qū)動器5(用于讀/訪問可除去的存儲介質(zhì),例如軟盤、致密盤、數(shù)字通用盤(DVD)等),I/O裝置6(例如顯示器、鍵盤、鼠標(biāo)、麥克風(fēng)、揚(yáng)聲器等),以及和網(wǎng)絡(luò)7的有線或無線連接。網(wǎng)絡(luò)7可以是例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN),存儲區(qū)域網(wǎng)(SAN),內(nèi)聯(lián)網(wǎng),外聯(lián)網(wǎng),互聯(lián)網(wǎng),和/或任何其它的計算機(jī)和/或電信網(wǎng)絡(luò),以及這些網(wǎng)絡(luò)的任意組合。計算機(jī)1可以是現(xiàn)有技術(shù)中已知的任何計算裝置/系統(tǒng)。例如,個人計算機(jī),便攜式計算機(jī),工作站計算機(jī),大型機(jī)等。要被處理的混和數(shù)據(jù)例如可以從硬盤4和/或可以通過可除去的存儲介質(zhì)驅(qū)動器讀/訪問的可除去的存儲介質(zhì),和/或通過網(wǎng)絡(luò)7從其它的數(shù)據(jù)庫或數(shù)據(jù)源中檢索。此外,可以通過網(wǎng)絡(luò)7把裝置10下載到計算機(jī)系統(tǒng)1中。處理器2,存儲器3和硬盤4可以被合適地配置(并且作為典型的),用于提供計算和存儲能力,以便實施人工智能和神經(jīng)網(wǎng)絡(luò)方法。除去裝置10之外的計算系統(tǒng)1的元件是常規(guī)的,因此,為清楚起見,此處不再詳細(xì)說明。
在一個實施例中,輸入變換模塊11以數(shù)據(jù)變換模式操作,其中混和數(shù)據(jù)被變換或者被轉(zhuǎn)換成被轉(zhuǎn)換的數(shù)據(jù)。輸入變換模塊11可以包括可訓(xùn)練的功能,其可以是群集結(jié)構(gòu)的形式或其它可訓(xùn)練的模塊的形式。例如,可訓(xùn)練的模塊可以利用群集技術(shù)中的一種或這些技術(shù)的組合。下面說明利用群集技術(shù)的輸入變換模塊的一個實施例。
如果模塊11包括可訓(xùn)練的功能,則該模塊能夠以兩種模式操作訓(xùn)練模式和數(shù)據(jù)變換模式。在訓(xùn)練模式中,輸入變換模塊11學(xué)習(xí)在混和數(shù)據(jù)的采樣和所述采樣要被變換成的變換數(shù)據(jù)之間的變換關(guān)系(例如函數(shù),映射等)。如上所述,在數(shù)據(jù)變換模式中,混和數(shù)據(jù)被變換或轉(zhuǎn)換成變換數(shù)據(jù)。這些模式將在下面詳細(xì)說明。函數(shù)變換模塊13利用一個或幾個函數(shù)G(X),以便提供被變換的數(shù)據(jù)映射到相應(yīng)于特定選擇的任務(wù)的至少一個函數(shù)輸出的函數(shù)表示。這種函數(shù)的例子包括線性函數(shù)、多項式、三角幾何或高斯函數(shù)。要利用的特定函數(shù)的選擇可以至少部分地基于特定的任務(wù)。
所述函數(shù)最好是正交的,并且隨著函數(shù)映射模塊13學(xué)習(xí)相應(yīng)于一個選擇的任務(wù)的采樣模式的訓(xùn)練組而被調(diào)節(jié)。函數(shù)變換模塊13例如可以是函數(shù)鏈網(wǎng)絡(luò)(FLN)或者是正交函數(shù)鏈網(wǎng)絡(luò)(OFLN)。FLN的例子在共同擁有的美國專利4979126,5734796,6134537,6212509中描述了,這些專利的全文被包括在此作為參考。OFLN的例子在共同擁有的美國專利申請序列號(檔案號65206-PRO)名稱為“AUTOMATICNEURAL-NET MODEL GENERATION AND MAINTENANCE”中描述了。
還可以預(yù)期用于提供被變換的數(shù)據(jù)映射到函數(shù)輸出的函數(shù)表示的其它技術(shù)。這種其它技術(shù)的例子包括小波變換和多項式網(wǎng)絡(luò),其提供用于估算參數(shù)的函數(shù)表示。
此外,由函數(shù)變換模塊13執(zhí)行的功能性可以包括學(xué)習(xí)元件。例如,函數(shù)變換模塊13可以和一個訓(xùn)練組一道使用遞歸的線性回歸技術(shù),其調(diào)節(jié)一個或幾個函數(shù)的參數(shù)。下面參照圖1和圖2說明按照本申請的一個實施例用于處理選擇的任務(wù)的混和數(shù)據(jù)的示例的方法。輸入變換模塊11變換或轉(zhuǎn)換混和數(shù)據(jù)成為變換的數(shù)據(jù)(步S21)。然后變換的數(shù)據(jù)被函數(shù)映射模塊13處理,從而提供至少一個功能輸出(步S23)。
在實際方法中,需要減少作為用于提取對于選擇的任務(wù)是有用的信息的前身的原始的混和的數(shù)據(jù)的復(fù)雜性。為了減少混和數(shù)據(jù)的復(fù)雜性,輸入變換處理可以利用各種方法。例如,輸入變換處理可以使用群集或者其它的自組織技術(shù),例如自組織變換,以便變換數(shù)據(jù)模式。這種方法可以使用例如歐幾里得距離或者使用基于數(shù)據(jù)點(diǎn)之間的另一種度量的距離的信息,以便推斷數(shù)據(jù)點(diǎn)在多維數(shù)據(jù)空間中是如何分布的。這些方法的結(jié)果是要利用群集特征/屬性或和數(shù)據(jù)模式的分布相關(guān)的一些其它信息更精確地描述大量的數(shù)據(jù)模式。用于輸入變換處理的方法可以包括其它維數(shù)減少技術(shù)。維數(shù)減少技術(shù)的非限制性的例子可以包括通過Karhunen-Loeve(K-L)變換進(jìn)行的線性原理元件分析,PCA、SOM的神經(jīng)網(wǎng)絡(luò)實現(xiàn),自相關(guān)的變換技術(shù),再生地形變換(GTM),非線性的變量保存變換(NLVC)以及均衡的正交變換(EOM),這些在共同擁有的美國專利5734796,6134537和6212509中描述了,其全部內(nèi)容被包括在此作為參考,以及非線性變換及其神經(jīng)網(wǎng)絡(luò)實現(xiàn),還有距離比約束變換。
所述輸入變換處理可以具有分類和/或特征提取的效果,或者可以幫助進(jìn)行分類和/或特征提取。分類的任務(wù)一般包括把數(shù)據(jù)模式空間分成相應(yīng)于離散的各個類的單獨(dú)的區(qū)域。一個類是一組具有某些公共的特性、屬性或特征的模式(這些也可以單獨(dú)地或者任意組合地被稱為“特征”、“特性”、“屬性”和“特點(diǎn)”)。因此,在一個區(qū)域中的數(shù)據(jù)模式可以按照具有相應(yīng)的特征進(jìn)行分類。此外,判別式函數(shù)例如線性函數(shù)、平方函數(shù)、S形曲線函數(shù)和/或基于高斯的函數(shù)可用于限定在類范圍之間的邊界。因此,通過對一個模式應(yīng)用相應(yīng)的判別式函數(shù),可以確定所述模式是否應(yīng)該歸入選擇的類。
特征提取方法一般包括使特征的數(shù)量最小,以便對于一個或一組提取的特征以和選擇的任務(wù)相關(guān)的方式描述數(shù)據(jù)模式。最好是,提取的一組特征足以表征數(shù)據(jù)模式的相關(guān)的特性、屬性和/或特征。特征提取可以認(rèn)為是一種數(shù)據(jù)減少方法,其保留數(shù)據(jù)模式的必須的特征,同時消除無關(guān)的特性、屬性和特征的干擾,使得在下游進(jìn)行的決定處理容易。在一些例子中,類可以用它們的相應(yīng)的特征作為類標(biāo)簽來注釋。
如上所述,按照一個實施例,輸入變換模塊可以包括可訓(xùn)練的智能模塊,其至少具有兩種操作模式訓(xùn)練模式和數(shù)據(jù)變換模式。
在訓(xùn)練模式,輸入變換模塊11學(xué)習(xí)數(shù)據(jù)模式類。在訓(xùn)練期間,在模塊11中輸入在選擇的任務(wù)中可以遇到的或者和選擇的任務(wù)相關(guān)的數(shù)據(jù)模式的類型的一組代表性的采樣。如果訓(xùn)練被監(jiān)控(例如,采樣模式和相應(yīng)的期望的/所需的作為訓(xùn)練組的模塊輸出一道被提供),則在代表性的采樣組中的每個采樣(這里也稱為“訓(xùn)練采樣”)可以包括采樣模式的采樣數(shù)據(jù)模式加上類標(biāo)簽注釋(或其它目標(biāo)信息,例如和采樣模式相關(guān)的特性、屬性和/或特征)。如果訓(xùn)練不被監(jiān)控,例如當(dāng)輸入變換模塊11使用群集技術(shù)時,則不在訓(xùn)練組中提供特征。如果在訓(xùn)練模式期間在感興趣的類內(nèi)提供足夠的采樣模式,則模塊11可以充分地學(xué)習(xí),以便表征這些類,使得在數(shù)據(jù)變換模式下,被輸入到模塊11的原始數(shù)據(jù)模式可以可靠地和重復(fù)地在這些類中被分類。
例如,使用群集方法(或其它自組織單獨(dú))的輸入變換模塊11可以學(xué)習(xí),以便利用采樣數(shù)據(jù)模式的訓(xùn)練組對數(shù)據(jù)模式分類。在訓(xùn)練之后,輸入變換模塊11具有M個群集,其中的每一個一般具有(但不是必須具有)一個相關(guān)的注釋(特性、屬性和/或特征或其它特點(diǎn))??梢酝ㄟ^利用注釋的訓(xùn)練組進(jìn)行訓(xùn)練來獲得注釋,或者通過在完成訓(xùn)練之后群集的注釋獲得注釋。
當(dāng)混和數(shù)據(jù)模式被輸入給處于數(shù)據(jù)變換模式的輸入變換模塊11時,數(shù)據(jù)模式被M個群集的每一個評價(例如確定到每個群集中心的距離),并可以作為具有相應(yīng)于M個群集評價的構(gòu)造數(shù)據(jù)輸出評價結(jié)果。這樣,混和數(shù)據(jù)模式的空間被變換成(或轉(zhuǎn)換成)根據(jù)相應(yīng)于在輸入變換模塊11中的M個群集的特征構(gòu)成的第二空間。
接著,M個元素寬的構(gòu)造數(shù)據(jù)被提供給函數(shù)映射模塊13。神經(jīng)網(wǎng)絡(luò)類型的函數(shù)映射模塊可以包括一個或幾個基本函數(shù)G(X)。基本函數(shù)可以是線性函數(shù)、多項式、三角函數(shù)或基于放射的函數(shù)。基本函數(shù)的選擇是任務(wù)特定的。這些基本函數(shù)最好是正交的。當(dāng)函數(shù)映射模塊學(xué)習(xí)相應(yīng)于選擇的任務(wù)的采樣模式的訓(xùn)練組時,基本函數(shù)的參數(shù)被調(diào)節(jié)。
函數(shù)映射模塊可以是函數(shù)鏈網(wǎng)絡(luò),其例如在美國專利5734796,6134537,6212509中描述了。函數(shù)鏈網(wǎng)絡(luò)是合適的,這是因為其可以支持許多功能(和任務(wù))。也可以使用包括函數(shù)表示的其它的技術(shù),在所述函數(shù)表示中其參數(shù)被估計(例如小波,多項式網(wǎng)絡(luò)等)。這種技術(shù)可以具有學(xué)習(xí)元件。例如,函數(shù)變換模塊可以使用遞歸線性回歸技術(shù),其中利用訓(xùn)練組來調(diào)節(jié)基本函數(shù)的參數(shù)。
圖3表示一個示例的實施例,其中輸入變換模塊和函數(shù)變換模塊包括各個層的神經(jīng)網(wǎng)絡(luò)。
輸入變換層通過混和數(shù)據(jù)訓(xùn)練組的群集被訓(xùn)練,從而形成N個群集節(jié)點(diǎn)c1...cN。這些群集節(jié)點(diǎn)可以通過使用非監(jiān)控的學(xué)習(xí)技術(shù)來形成。每個節(jié)點(diǎn)可以具有相關(guān)的群集注釋函數(shù)?;蛘?,所述節(jié)點(diǎn)在完成訓(xùn)練之后被注釋。在數(shù)據(jù)變換模式期間,混和數(shù)據(jù)模式x被輸入給群集節(jié)點(diǎn)c1...cN。群集節(jié)點(diǎn)把數(shù)據(jù)模式x變換成N個分量的轉(zhuǎn)換數(shù)據(jù)。
轉(zhuǎn)換數(shù)據(jù)被輸入給函數(shù)鏈網(wǎng)絡(luò),其是一個前饋的平面網(wǎng)絡(luò)(一層),具有基于放射的函數(shù)節(jié)點(diǎn)f1...fM。當(dāng)函數(shù)鏈網(wǎng)絡(luò)學(xué)習(xí)和所選任務(wù)相關(guān)的采樣模式的訓(xùn)練組時,基本函數(shù)的參數(shù)被調(diào)節(jié)。函數(shù)鏈網(wǎng)絡(luò)的學(xué)習(xí)可以通過錯誤的后傳播或者通過本領(lǐng)域已知的另一種被監(jiān)控技術(shù)來實現(xiàn)?;蛘咚鰧W(xué)習(xí)可以通過遞歸最小平方估算方法進(jìn)行,例如正交的最小平方方法,或者通過在本領(lǐng)域中已知的另一種被監(jiān)控的學(xué)習(xí)技術(shù)進(jìn)行。
上述的根工具和方法可被修改使得適用于任何任務(wù)。
例如,所選任務(wù)可以是根據(jù)未組織的輸入項進(jìn)行的被分類成N個類的數(shù)據(jù)庫的搜索,或者是被分類為N個范圍的信息網(wǎng)絡(luò)的搜索,或者是合適的關(guān)鍵字/術(shù)語的調(diào)用。在訓(xùn)練中的輸入變換模塊可以被監(jiān)控下被訓(xùn)練,以便使每個采樣訓(xùn)練模式和相應(yīng)的類/域相關(guān)。例如,在訓(xùn)練組中的每個采樣可以具有一個相關(guān)的類/域標(biāo)簽。在數(shù)據(jù)變換模式下,變換模塊把混和數(shù)據(jù)搜索模式轉(zhuǎn)換成N個元素的輸出(轉(zhuǎn)換數(shù)據(jù)),每個相關(guān)元素表示一個在搜索模式和與輸出元素相關(guān)的類/域之間的相似性/相關(guān)性之間的量度。函數(shù)變換模塊被訓(xùn)練,以便處理N個元素的轉(zhuǎn)換數(shù)據(jù),并例如推薦和其相關(guān)的N個類/域或關(guān)鍵字/術(shù)語中的一個或幾個被搜索。
另一個所選任務(wù)可以是例如對有目標(biāo)的市場需求進(jìn)行分類和/或預(yù)測。例如輸入變換模塊可利用從混和數(shù)據(jù)的數(shù)據(jù)庫中提取的訓(xùn)練采樣被監(jiān)控地或者非監(jiān)控地訓(xùn)練,所述混和數(shù)據(jù)包括或描述用戶購買模式。在數(shù)據(jù)變換模式下,輸入變換模塊比較混和數(shù)據(jù)輸入模式(和一個被研究的用戶的情況相關(guān)或者從所述情況中提取的)和在訓(xùn)練期間由所述模塊學(xué)習(xí)的N個購買特性/傾向(例如和產(chǎn)品類相關(guān)),并提供N個元素的輸出(轉(zhuǎn)換數(shù)據(jù)),其代表在輸入的購買分布模式和N個購買特性/傾向之間的相似性和/或相關(guān)性。函數(shù)映射模塊可變訓(xùn)練,以便處理N個元素的轉(zhuǎn)換數(shù)據(jù),并且(i)在一個或幾個購買特性/傾向下分類用戶的概況,和/或(ii)預(yù)測例如研究的顧客可能購買的其它的商品和/或服務(wù)(因此可以針對所研究的顧客作所述商品/服務(wù)的廣告或推銷)。
在另一個例子中,可以使所述工具適用于計算機(jī)病毒檢測軟件。輸入變換模塊可利用從被感染的計算機(jī)文件/代碼(例如可視的基本的腳本文件,MS Word macro等)的被破壞的部分中提取的采樣混和數(shù)據(jù)模式被訓(xùn)練,從而形成具有相應(yīng)的病毒特性/特征的群集。在數(shù)據(jù)變換模式下,輸入變換模塊比較從一個掃描的文件/代碼中提取的混和數(shù)據(jù)輸入模式和在訓(xùn)練期間由模塊學(xué)習(xí)的每個群集,并提供一個輸出(轉(zhuǎn)換數(shù)據(jù)),其代表在輸入的數(shù)據(jù)模式和與各個病毒特性相關(guān)的群集之間的相似性和/或相關(guān)性。函數(shù)映射模塊被訓(xùn)練,以便處理轉(zhuǎn)換數(shù)據(jù),并確定(a)是否提取的數(shù)據(jù)模式可能相應(yīng)于被一個或幾個病毒感染,以及(b)如果被感染,則確定病毒的識別或種類。
按照使用路標(biāo)變換的另一個實施例的一種用于處理所選任務(wù)的混和的數(shù)值和非數(shù)值(例如符號)數(shù)據(jù)的方法,所述路標(biāo)變換用于把混和數(shù)據(jù)變換成在相應(yīng)于在數(shù)據(jù)點(diǎn)和路標(biāo)之間的距離的維數(shù)的空間中的轉(zhuǎn)換數(shù)據(jù),所述方法可以包括以下步驟(a)確定由所述混和的數(shù)值數(shù)據(jù)和非數(shù)值數(shù)據(jù)覆蓋的數(shù)據(jù)空間的距離的量度,其使得在所述數(shù)據(jù)空間中的任意兩點(diǎn)之間的距離能夠被計算(步S41);(b)根據(jù)確定的度量群集一個混和數(shù)據(jù)訓(xùn)練組(根據(jù)使用的群集技術(shù),每個群集的計算方法,也可以限定一個相應(yīng)的質(zhì)心;群集所得的結(jié)果可以根據(jù)問題的性質(zhì)被直接使用)(步S42);(c)使用群集中心作為一組參考點(diǎn),使得到所述參考點(diǎn)的距離跨過變換的空間的維數(shù)(步S43);以及(d)使用神經(jīng)網(wǎng)絡(luò)和/或其它的人工智能類型的方法,在所選任務(wù)的變換的空間內(nèi)進(jìn)行進(jìn)一步處理(例如可以使用神經(jīng)網(wǎng)絡(luò)建立一個用于分類數(shù)據(jù)點(diǎn)的模型)(步S44)。
在兩個數(shù)據(jù)點(diǎn)之間的距離可以通過在數(shù)據(jù)空間的各個維數(shù)內(nèi)的距離的組合確定。雖然在原始數(shù)據(jù)中的每個字段被作為維數(shù)來處理,在許多情況下,一些字段比另一些具有較近的關(guān)系,因而它們可以被在一起分組,從而形成一個用作一維的合成字段。把字段組合在一起可以減少維數(shù),并且還可以幫助距離量度的確定。例如,當(dāng)比較地球上位置之間的相對距離時,根據(jù)所述位置的縱向值和橫向值,兩個位置之間的相對距離的一個合適的度量可以是大的圓周距離,來代替兩個位置之間的直線距離。
可以標(biāo)定在每個維數(shù)內(nèi)的距離,以便避免偶然地對一個維數(shù)給予更多的加權(quán)。對于混和數(shù)據(jù),用于每個維數(shù)的一種技術(shù)是標(biāo)定在所述維數(shù)到間隔
內(nèi)的距離。當(dāng)在所有各個維數(shù)中的距離被組合而計算兩點(diǎn)之間的距離時,可以對某個維數(shù)指定附加的加權(quán),以便比其它的更強(qiáng)調(diào)它們。因而,對于是合成字段的維數(shù)可以給予合適的處理,并且可以應(yīng)用關(guān)于所選字段的相對重要性的先前的知識。
對于數(shù)值維數(shù),可以通過缺省歐幾里得距離來設(shè)置距離量度,這是最常用的一種距離量度,以便減少工作量。不過,根據(jù)數(shù)值數(shù)據(jù)的性質(zhì),也可以使用定制的距離函數(shù)。上述的縱橫例子便屬于一種這樣的情況。其中可以使用其它的量度的數(shù)值維數(shù)的其它例子例如包括角度、日期和時間。
應(yīng)當(dāng)說明的是,一些似乎是數(shù)值的字段(例如社會安全數(shù))實際上可以認(rèn)為是符號的。一般地說,如果是一個數(shù)字的序列,而不是數(shù)值,這是重要的,則該字段應(yīng)當(dāng)被認(rèn)為是符號的。
對于覆蓋符號數(shù)據(jù)的維數(shù),最可能的距離量度或許基于匹配符號。如果相應(yīng)于這個維數(shù)的數(shù)據(jù)點(diǎn)的字段可被認(rèn)為是一個集,則可以使用下式作為分別離開兩個的數(shù)據(jù)點(diǎn)的符號集A和B之間的距離d=|A∪B|-|A∩B||A∩B|---(1)]]>公式(1)表示被標(biāo)定的一種簡單的符號匹配,以便滿足距離量度的數(shù)學(xué)要求。當(dāng)維數(shù)由具有簡單的標(biāo)稱值的字段構(gòu)成時(例如,由轎車的內(nèi)部和外部顏色構(gòu)成的維數(shù)“轎車顏色”,其中對顏色的數(shù)量的唯一的限制可以從制造者得到),該公式能很好地適用這種情況。
如果字段的值不能被認(rèn)為是一個簡單的集合,上述的量度(公式1)可以被一般化。一個例子是信息分類的問題中的自由文本文件。因為具有重復(fù)的字,并且一些字可能對于分類具有較大的權(quán)重,可以引入對于每個唯一符號的權(quán)重。在下面的公式(2)中提出了一種使用加權(quán)的可以和公式(1)相比的方法d=ΣiAwAl+ΣjBwBj-ΣkA∩B(wAk+wBk)ΣiAwAi+ΣjBwBj-12ΣkA∩B(wAk+wBk)----(2)]]>其中WAi(和WAk)表示和符號集A中的符號Ai(和Ak)相關(guān)的加權(quán),WBj(和WBk)表示和符號集B中的符號Bj以及Bk相關(guān)的加權(quán)。當(dāng)每個加權(quán)等于1時,公式(2)被簡化為d=|A|+|B|-2|A∩B||A|+|B|-|A∩B|----(3)]]>公式(3)相當(dāng)于公式(1),這是因為以下的事實|A∪B|=|A|+|B|-|A∩B|也可以使用更精確的距離量度進(jìn)行文本處理。例如,當(dāng)搜索文本信息的距離時,可能需要保持一個提示字序列。在這種情況下,如果序列被打斷,則可以引入處罰,即使所有的提示字存在。這可以大大減少不太相關(guān)的或者根本無關(guān)的命中數(shù)量。
如果可以確定一個合理的距離量度,作為下述的步驟可以容易地被擴(kuò)展,以便適用于其它類型的非數(shù)值數(shù)據(jù)。
一旦可以計算混和類型的兩個數(shù)據(jù)點(diǎn)之間的距離,則可以借助于群集來分析這種數(shù)據(jù)點(diǎn)的集合。可以直接使用k-medoids技術(shù)。這種技術(shù)類似于k-means技術(shù)。其差別在于,代替在k-means情況下使用群集中的數(shù)據(jù)點(diǎn)的平均作為群集的中心,k-medoids技術(shù)使用群集中位于最中心的數(shù)據(jù)點(diǎn)作為群集的中心。位于最中心的數(shù)據(jù)點(diǎn)是這樣的數(shù)據(jù)點(diǎn),其具有在群集的點(diǎn)當(dāng)中為最小的到群集中的所有其它數(shù)據(jù)點(diǎn)的距離的和。
k-medoids技術(shù)的優(yōu)點(diǎn)在于,其使用數(shù)據(jù)點(diǎn)之間的距離進(jìn)行群集,并且對于選出值不敏感。不過,k-medoids技術(shù)對于大的數(shù)據(jù)集的計算量大,因為用于識別medoid的步驟的復(fù)雜性為O(n2)數(shù)量級。對于大的數(shù)據(jù)集,可以進(jìn)行采樣,以便減少計算量。CLARA(ClusteringLARge Applications)以及CLARANS(Clustering Large Applicationsbased upon RANdomized Search)技術(shù)是k-medoids技術(shù)的擴(kuò)展。
如果可以確定一種用于計算質(zhì)心的方法,則可以在群集處理中使用更有效的k-means技術(shù)。對于數(shù)值數(shù)據(jù)的維數(shù),質(zhì)心可以簡單地是在所述維數(shù)中的所有字段的平均值。對于符號數(shù)據(jù)的維數(shù),質(zhì)心可以是最能代表該群集的一個選擇的模式。最有代表性的模式的構(gòu)成物可以依賴于數(shù)據(jù)的性質(zhì)和格式。
在所有的符號值當(dāng)中,這樣的符號值是最有代表性的數(shù)據(jù),其當(dāng)使用公式(1)作為距離量度時最頻繁地發(fā)生,或者當(dāng)使用公式(2)作為距離量度時具有最大的總權(quán)重。對于公式(1)是合適的距離量度的情況,可以引入試探,以便減少不經(jīng)常發(fā)生的符號值。試探可以和在一個模式或在頻度門限中包含的符號的平均數(shù)量相關(guān)。對于公式(2)是合適的距離量度的情況,值的符號性質(zhì)不是大的問題,這是因為加權(quán)可以被平均。對于符號的數(shù)量是大的情況,例如自由文本,質(zhì)心的尺寸可能變得太大。因此,可以使用基于符號值的相對加權(quán)的某種截斷準(zhǔn)則。
除去分割方法例如k-means和k-medoids技術(shù)之外,也可以應(yīng)用其它的群集技術(shù)例如基于密度的方法。因為不同的群集技術(shù)使用不同的參數(shù)并且群集的結(jié)果可能對于這些參數(shù)的設(shè)置十分敏感,對于一個特定的問題,一種特定的群集技術(shù)可能比其它的更合適。
群集的結(jié)果可被直接用于理解(通過可視化)數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)壓縮、相關(guān)的調(diào)用以及其它的任務(wù)。機(jī)群群集結(jié)果也可用作用于把符號數(shù)據(jù)轉(zhuǎn)換成數(shù)值形式的基礎(chǔ),使得用于數(shù)值數(shù)據(jù)的技術(shù)可被用于進(jìn)一步處理,如下所述。
許多技術(shù)只適用于數(shù)值數(shù)據(jù),因為它們包含只接收數(shù)值輸入的函數(shù)。標(biāo)準(zhǔn)的隱含層神經(jīng)網(wǎng)絡(luò)便是一個這樣的例子。因為對于鏈接的加權(quán)只適用于數(shù)值數(shù)據(jù),并且激勵函數(shù)只接收數(shù)值輸入,這類技術(shù)不能直接應(yīng)用于符號數(shù)據(jù),并因而不能應(yīng)用于混和數(shù)據(jù)。
為了應(yīng)用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)技術(shù)于符號或混和數(shù)據(jù),數(shù)據(jù)被變換成數(shù)值型的。所述變換可以通過編碼進(jìn)行。一種方法是把每個符號的值轉(zhuǎn)換成一個維數(shù),并且使用1表示符號在模式中出現(xiàn),而使用0表示不出現(xiàn)。當(dāng)可能的符號的數(shù)量小時,這能很好地應(yīng)用。對于在自由文本情況下的大量的符號,維數(shù)的數(shù)量因而問題的復(fù)雜性可能使得難于處理。
在轉(zhuǎn)換處理中可以應(yīng)用路標(biāo)變換,并且群集的中心是路標(biāo)布置的自然位置。然后每個符號數(shù)據(jù)點(diǎn)被轉(zhuǎn)換成數(shù)值形式,其中通過計算所述數(shù)據(jù)點(diǎn)到所有的路標(biāo)的距離,并且這些距離形成在變換的空間中的這個數(shù)據(jù)點(diǎn)的座標(biāo)。
路標(biāo)變換比編碼技術(shù)的主要優(yōu)點(diǎn)是,在變換空間中的維數(shù)的數(shù)量獨(dú)立于在數(shù)據(jù)集中的可能的符號的數(shù)量。利用分級的群集或具有不同次數(shù)的幾個群集結(jié)果集,還可以容易地動態(tài)地調(diào)節(jié)細(xì)節(jié)的值,即調(diào)節(jié)變換空間的復(fù)雜性,使得適合于在數(shù)據(jù)通路中的下游的方法的需要(見名稱為“VIEWING MULTI-DIMENSIONAL DATA THROUGHHIERARCHICAL VISUALIZATION”共同擁有的美國專利申請[檔案號66209-RPO]的美國專利申請)。因為座標(biāo)是距離,這種變換方法還捕捉數(shù)據(jù)集的結(jié)構(gòu)。
和編碼技術(shù)相比,路標(biāo)變換在這樣的意義上是不透明的,即,其一般是不可逆的,并且原始的和變換的空間根據(jù)距離的定義是不對稱的。在變換空間中的兩點(diǎn)之間的距離是在原始空間中的“到路標(biāo)的距離的距離”。這個差異可以使得基于距離的方法受到較大的符號群集結(jié)果的影響。只有當(dāng)目的是研究群集的結(jié)構(gòu)時,才可以使用這種方法。
不過,基于非線性變換的方法,例如神經(jīng)網(wǎng)絡(luò),可以吸收這種差異,甚至從中得到益處。當(dāng)和神經(jīng)網(wǎng)絡(luò)結(jié)合使用時,路標(biāo)變換相當(dāng)于神經(jīng)網(wǎng)絡(luò)的函數(shù)鏈接層。在混和數(shù)據(jù)集的被監(jiān)控的學(xué)習(xí)開始之前,目標(biāo)可被變換成數(shù)值的形式(如果其不是這種形式)。為此目的,可以使用編碼技術(shù),因為在這種情況下變換是可逆的。
為了能夠更好地利用路標(biāo)變換的可利用的動態(tài)控制,最好是(雖然非必須)使用自適應(yīng)技術(shù)用于被監(jiān)控的學(xué)習(xí),例如正交最小平方(OLS)。OLS可以應(yīng)用于線性函數(shù)鏈網(wǎng)絡(luò)結(jié)構(gòu),并且可以動態(tài)地增加節(jié)點(diǎn),直到結(jié)果滿足某個訓(xùn)練準(zhǔn)則。對于其它類型的結(jié)構(gòu),例如隱含的層網(wǎng)絡(luò),可以使用傳統(tǒng)的向后傳播或者共軛梯度學(xué)習(xí)技術(shù),雖然如果網(wǎng)絡(luò)結(jié)構(gòu)改變,這些技術(shù)則使用完全的再訓(xùn)練。
除去構(gòu)建被監(jiān)控的學(xué)習(xí)模型之外,也可以在路標(biāo)變換的下游進(jìn)行數(shù)據(jù)的其它研究例如可視化。一些可視化技術(shù),例如均衡正交映射,距離比約束的映射或自動相關(guān)的映射,使用具有專門格式化的目標(biāo)的神經(jīng)網(wǎng)絡(luò),使得它們可以被容易地應(yīng)用于路標(biāo)變換。盡管一些方法例如使用距離的自組織映射仍然可被使用,因為可視化群集結(jié)構(gòu),因而可視化數(shù)據(jù)是其目標(biāo)。
為了說明使用上述技術(shù)進(jìn)行的數(shù)據(jù)分析處理,可以使用來自保險公司的一個用戶概況和購買數(shù)據(jù)集。這是一個混和的數(shù)值和符號數(shù)據(jù)集。數(shù)值字段是用戶的年齡、工資和退休計劃捐款。符號字段是性別和用戶購買的保險產(chǎn)品表。目標(biāo)是預(yù)測用戶是否對購買一個特定的新的保險產(chǎn)品感興趣。
一個模式數(shù)據(jù)集(例如800個用戶的記錄)可被分成訓(xùn)練數(shù)據(jù)集和試驗數(shù)據(jù)集(例如2/3用于訓(xùn)練,其余的用于試驗)。模式數(shù)據(jù)集可通過首先對其編碼進(jìn)行預(yù)處理。為了限制字段的數(shù)量,只識別一個最流行的產(chǎn)品的選擇的數(shù)量(例如14),其余的被放在字段“其它”之下(總共得到15個產(chǎn)品字段)。符號字段“用戶性別”被轉(zhuǎn)換成相應(yīng)于男、女和未知的3個字段??梢允褂靡环N數(shù)值模擬方法例如OLS方法在被編碼的數(shù)據(jù)上構(gòu)建模型,用于預(yù)測用戶是否購買新產(chǎn)品。
因為只能得到數(shù)據(jù)的編碼形式,通過使3個用戶性別字段和15個產(chǎn)品字段變?yōu)?個來形成混和數(shù)據(jù)集。該數(shù)據(jù)集首先被群集。對于每個群集,根據(jù)和該群集相關(guān)的大多數(shù)用戶是否買過所述新產(chǎn)品,其以兩個類之一(例如“買過”或“未買過”來修飾。注釋使得群集的結(jié)果能夠被間接地用于進(jìn)行預(yù)測。當(dāng)個新的模式落入一個群集中時,其便被指定為該群集的類別。
一種數(shù)值模擬技術(shù)例如OLS技術(shù)可用于根據(jù)混和數(shù)據(jù)和路標(biāo)變換相結(jié)合直接地構(gòu)建模型。在這種情況下,數(shù)值模擬技術(shù)不使用人工編碼,并且如果可以得到在字段“其它”下的產(chǎn)品的整個表,其結(jié)果可被改善。
這里所述的方法還可以用于在企業(yè)模型中進(jìn)行預(yù)測和推薦。圖5表示按照本申請的另一個實施例用于處理所選任務(wù)的混和數(shù)據(jù)的系統(tǒng)的相關(guān)的部分。子系統(tǒng)50包括輸入變換模塊11和函數(shù)映射模塊13,它們具有上述的功能和特征。除去歷史數(shù)據(jù)庫之外,子系統(tǒng)50包括一個或幾個數(shù)據(jù)收集代理56和數(shù)據(jù)源57。數(shù)據(jù)收集代理56收集來自數(shù)據(jù)源57的數(shù)據(jù),并把所述數(shù)據(jù)存儲在歷史數(shù)據(jù)庫55中。數(shù)據(jù)收集可以是連續(xù)的、周期的和/或根據(jù)指令(例如來自輸入變換模塊)進(jìn)行的。收集的數(shù)據(jù)可以全部地或部分地包括混和數(shù)據(jù)。在企業(yè)模型系統(tǒng)中,數(shù)據(jù)源可以包括本地機(jī)和被代理的裝置(例如在網(wǎng)絡(luò)中的路由器,其用于識別網(wǎng)絡(luò)中的另一個裝置)以及外部源。
輸入變換模塊11根據(jù)由數(shù)據(jù)收集代理56收集的并存儲在歷史數(shù)據(jù)庫55中的歷史數(shù)據(jù)學(xué)習(xí)每個裝置的行為,并產(chǎn)生所述裝置的行為的模型。輸入變換模塊11最好具有自適應(yīng)的學(xué)習(xí)特征。因而,可以利用隨時間而添加的收集數(shù)據(jù)對裝置的模型進(jìn)行改進(jìn)。
例如,輸入變換模塊11可以被訓(xùn)練以便處理從外部信息源接收的混和數(shù)據(jù)。在企業(yè)資源使用中的尖峰和低谷可以和某類大字標(biāo)題新聞(例如即將發(fā)生的戰(zhàn)爭,金融市場崩潰等)的存在相聯(lián)系。因而,用于分配網(wǎng)絡(luò)資源的策略可以包括監(jiān)視每天的大字標(biāo)題新聞。相關(guān)的數(shù)據(jù)集當(dāng)然用混和數(shù)據(jù)表示。具有相關(guān)的企業(yè)資源使用數(shù)據(jù)的采樣標(biāo)題的訓(xùn)練集可以被分類成和企業(yè)使用要求相關(guān)的群集,其由歷史數(shù)據(jù)表示。群集由標(biāo)題的歷史趨向引發(fā),所述標(biāo)題含有對企業(yè)資源使用具有類似的影響的某些類似的關(guān)鍵字。根據(jù)和特定的群集關(guān)聯(lián)的采樣標(biāo)題,其可以由相關(guān)的網(wǎng)絡(luò)資源要求(例如使用和采樣標(biāo)題混和數(shù)據(jù)相關(guān)的企業(yè)資源使用數(shù)據(jù)確定)注釋,在查詢時落在這個群集中的新聞標(biāo)題可被合適地分類和推薦給網(wǎng)絡(luò)分析者,用于調(diào)節(jié)要被分配的企業(yè)資源的程度/數(shù)量。
這里所述的方法、設(shè)備和系統(tǒng)可用于其中處理混和數(shù)據(jù)的各種任務(wù),雖然本說明描述了幾個示例的實施例,其中本申請的方法、設(shè)備和系統(tǒng)被應(yīng)用于所選的任務(wù)中。所述的特定的實施例是說明性的,不脫離所附權(quán)利要求的范圍或本說明的構(gòu)思,可以對這些實施例引入許多改變。在本說明和所附權(quán)利要求的范圍內(nèi),不同的說明性的實施例的元件與/或特征可以和每個其它的實施例的組合和/或用每個其它的元件替代。
通過閱讀下面的美國臨時專利申請,本領(lǐng)域的普通技術(shù)人員顯然可以作出其它的改變,這些專利申請都被包括在此作為參考(a)2002年4月19日申請的序列號60/374064,名稱為“PROCESSING MIXED NUMERIC AND/OR NON-NUMERICDATA”;(b)2002年4月19日申請的序列號60/374020,名稱為“AUTOMATIC NEURAL-NET MODEL GENERATION ANDMAINTENANCE”;(c)2002年4月19日申請的序列號60/374024,名稱為“VIEWINGMULTI-DIMENSIONAL DATA THROUGH HIERARCHICALVISUALIZATION”;(d)2002年4月19日申請的序列號60/374041,名稱為“METHODAND APPARATUS FOR DISCOVERING EVOLUTIONARYCHANGES WITHIN A SYSTEM”;(e)2002年4月19日申請的序列號60/373977,名稱為“AUTOMATIC MODEL MAINTENANCE THROUGH LOCALNETS”;以及
(f)2002年4月19日申請的序列號60/373780,名稱為“USINGNEURAL NETWORKS FOR DATA MINING”。
權(quán)利要求
1.一種用于處理所選任務(wù)的混和數(shù)據(jù)的設(shè)備,包括適用于把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)的輸入變換模塊,以及適用于處理所述轉(zhuǎn)換數(shù)據(jù),從而提供用于所選任務(wù)的函數(shù)輸出的函數(shù)映射模塊。
2.如權(quán)利要求1所述的設(shè)備,其中所述輸入變換模塊使用路標(biāo)變換把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)。
3.如權(quán)利要求2所述的設(shè)備,其中設(shè)置群集中心作為參考點(diǎn),從混和數(shù)據(jù)到相應(yīng)參考點(diǎn)的距離對應(yīng)于轉(zhuǎn)換的數(shù)據(jù)空間的維度。
4.如權(quán)利要求2所述的設(shè)備,其中輸入變換模塊通過混和數(shù)據(jù)訓(xùn)練集的群集進(jìn)行訓(xùn)練。
5.如權(quán)利要求4所述的設(shè)備,其中輸入變換模塊使用一種被監(jiān)控的學(xué)習(xí)方法。
6.如權(quán)利要求4所述的設(shè)備,其中輸入變換模塊使用k-means方法確定群集中心。
7.如權(quán)利要求4所述的設(shè)備,其中輸入變換模塊使用k-medoids方法確定群集中心。
8.如權(quán)利要求1所述的設(shè)備,其中輸入變換模塊使用編碼方法把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)。
9.如權(quán)利要求1所述的設(shè)備,其中混和數(shù)據(jù)包括消費(fèi)者簡檔信息。
10.如權(quán)利要求1所述的設(shè)備,其中轉(zhuǎn)換數(shù)據(jù)采用數(shù)值表示。
11.如權(quán)利要求1所述的設(shè)備,其中混和數(shù)據(jù)對應(yīng)于文本。
12.如權(quán)利要求1所述的設(shè)備,其中輸入變換模塊學(xué)習(xí)把混和數(shù)據(jù)模式組織成對應(yīng)于多個節(jié)點(diǎn)的集,所述節(jié)點(diǎn)的相應(yīng)輸出對應(yīng)于所述轉(zhuǎn)換數(shù)據(jù)。
13.如權(quán)利要求12所述的設(shè)備,其中每個節(jié)點(diǎn)具有一個相關(guān)的群集注釋函數(shù)。
14.如權(quán)利要求12所述的設(shè)備,其中所述學(xué)習(xí)是非監(jiān)控的。
15.如權(quán)利要求1所述的設(shè)備,其中函數(shù)映射模塊包括具有至少一個基本函數(shù)的計算模型,并且所述至少一個基本函數(shù)的參數(shù)隨著所述函數(shù)映射模塊學(xué)習(xí)和所選任務(wù)相關(guān)的采樣模式的訓(xùn)練集而被調(diào)節(jié)。
16.如權(quán)利要求15所述的設(shè)備,其中所述函數(shù)映射模塊包括函數(shù)鏈網(wǎng)絡(luò)。
17.如權(quán)利要求15所述的設(shè)備,其中所述函數(shù)映射模塊包括正交函數(shù)鏈網(wǎng)絡(luò)。
18.如權(quán)利要求15所述的設(shè)備,其中函數(shù)映射模塊使用回歸技術(shù)來調(diào)節(jié)所述至少一個基本函數(shù)的參數(shù)。
19.如權(quán)利要求18所述的設(shè)備,其中所述至少一個基本函數(shù)包括S形函數(shù)。
20.如權(quán)利要求18所述的設(shè)備,其中所述至少一個基本函數(shù)包括小波函數(shù)。
21.如權(quán)利要求18所述的設(shè)備,其中所述至少一個基本函數(shù)包括輻射狀基本函數(shù)。
22.如權(quán)利要求18所述的設(shè)備,其中所述至少一個基本函數(shù)包括多項式。
23.如權(quán)利要求15所述的設(shè)備,其中所述函數(shù)映射模塊的學(xué)習(xí)利用被監(jiān)控的遞歸最小平方估計方法進(jìn)行。
24.如權(quán)利要求15所述的設(shè)備,其中函數(shù)映射模塊包括前饋網(wǎng)絡(luò)。
25.如權(quán)利要求24所述的設(shè)備,其中所述前饋網(wǎng)絡(luò)是非線性的。
26.如權(quán)利要求24所述的設(shè)備,其中所述前饋網(wǎng)絡(luò)通過誤差的向后傳播進(jìn)行學(xué)習(xí)。
27.如權(quán)利要求1所述的設(shè)備,其中輸入變換模塊和函數(shù)映射模塊包括神經(jīng)網(wǎng)絡(luò)的相應(yīng)層。
28.如權(quán)利要求1所述的設(shè)備,其中所選任務(wù)是數(shù)據(jù)挖掘。
29.如權(quán)利要求1所述的設(shè)備,其中所選任務(wù)是數(shù)據(jù)庫搜索。
30.如權(quán)利要求1所述的設(shè)備,其中所選任務(wù)是有目標(biāo)的市場營銷。
31.如權(quán)利要求1所述的設(shè)備,其中所選任務(wù)是計算機(jī)病毒檢測。
32.如權(quán)利要求1所述的設(shè)備,其中所選任務(wù)是可視化、搜索、調(diào)用、預(yù)測和分類之一。
33.一種用于處理所選任務(wù)的混和數(shù)據(jù)的方法,包括把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù),以及處理所述轉(zhuǎn)換數(shù)據(jù),以便提供用于所選任務(wù)的函數(shù)輸出。
34.如權(quán)利要求33所述的方法,其中通過路標(biāo)變換把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)。
35.如權(quán)利要求34所述的方法,其中設(shè)置群集中心作為參考點(diǎn),并且從混和數(shù)據(jù)到相應(yīng)參考點(diǎn)的距離對應(yīng)于轉(zhuǎn)換的數(shù)據(jù)空間的維度。
36.如權(quán)利要求33所述的方法,其中通過編碼方法把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)。
37.如權(quán)利要求36所述的方法,其中混和數(shù)據(jù)包括消費(fèi)者簡檔信息。
38.一種在傳輸介質(zhì)中包含的計算機(jī)數(shù)據(jù)信號,其包括可由計算機(jī)執(zhí)行的用于實施權(quán)利要求33所述的方法的指令。
39.一種機(jī)器可讀的程序存儲裝置,其有形地包括可由機(jī)器執(zhí)行的用于實施權(quán)利要求33所述的方法的指令的程序。
40.一種計算系統(tǒng),包括處理器;以及由所述計算機(jī)系統(tǒng)可讀的程序存儲裝置,其有形地包括可由處理器執(zhí)行的用于實施權(quán)利要求33所述的方法的指令的程序。
全文摘要
本發(fā)明提供了一種用于處理所選任務(wù)的混和數(shù)據(jù)的設(shè)備和方法。輸入變換模塊把混和數(shù)據(jù)變換成轉(zhuǎn)換數(shù)據(jù)。函數(shù)映射模塊處理所述轉(zhuǎn)換數(shù)據(jù)而提供用于所選任務(wù)的函數(shù)輸出。所選任務(wù)可以是各種可能的任務(wù)之一或組合,包括搜索,調(diào)用,預(yù)測,分類等。例如,所選任務(wù)可以用于數(shù)據(jù)挖掘,數(shù)據(jù)庫搜索,有目標(biāo)的市場營銷,計算機(jī)病毒檢測等。
文檔編號G06N3/00GK1689035SQ03808835
公開日2005年10月26日 申請日期2003年4月18日 優(yōu)先權(quán)日2002年4月19日
發(fā)明者孟卓, 段保福, 鮑約翰, 羅納德·卡斯 申請人:計算機(jī)聯(lián)合思想公司