預(yù)測類別的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種預(yù)測類別的方法和裝置。
【背景技術(shù)】
[0002] 預(yù)測是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,預(yù)測是通過對樣本數(shù)據(jù) (歷史數(shù)據(jù))的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí),得到預(yù)測模型,再利用該模型對未來的輸入 值進行輸出值預(yù)測。預(yù)測包括分類和回歸,分類是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類器,利 用該分類器對未知類別的對象賦予類別的一種技術(shù),回歸是為了了解兩個或多個變量間是 否相關(guān)、相關(guān)方向與強度,并建立數(shù)學(xué)模型W便觀察特定變量來預(yù)測研究者感興趣的變量 一種技術(shù)。
[0003] 現(xiàn)有的預(yù)測算法中,采用一種多類預(yù)測合并算法(multiclass prediction combination algorithms),該多類預(yù)測合并算法采用通過多個預(yù)測模型對實例進行分別 預(yù)測,在結(jié)合各個預(yù)測結(jié)果給出最后的預(yù)測的一種算法。該算法中,需要采用多個預(yù)測模型 對預(yù)測的對象分別預(yù)測,計算量較大。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例提供一種預(yù)測算法和裝置,能夠減小計算量。
[0005] 第一方面,提供了一種預(yù)測類別的方法,包括:確定多個第一預(yù)測模型,其中,所 述多個第一預(yù)測模型中的每個第一預(yù)測模型用于將實例分成多個組,所述多個組中的每個 組對應(yīng)多個標(biāo)簽類別中的一個標(biāo)簽類別,所述標(biāo)簽類別包含至少一個標(biāo)簽;根據(jù)所述多個 第一預(yù)測模型中的標(biāo)簽之間的相互關(guān)系將所述多個第一預(yù)測模型合并為第二預(yù)測模型,其 中,所述第二預(yù)測模型用于對實例進行分類得到多個組,所述第二預(yù)測模型的多個組中的 每個組對應(yīng)多個多標(biāo)簽類別中的一個多標(biāo)簽類別,所述多標(biāo)簽類別包含多個標(biāo)簽;根據(jù)所 述第二預(yù)測模型確定當(dāng)前的實例屬于所述多個多標(biāo)簽類別中的每個多標(biāo)簽類別的概率,W 預(yù)測所述當(dāng)前的實例的類別。
[0006] 結(jié)合第一方面,在第一種可能的實現(xiàn)方式中,該方法還包括;確定所述當(dāng)前的實例 的類別具有不確定性,其中所述當(dāng)前的實例的類別具有不確定性表示根據(jù)所述第二預(yù)測模 型無法預(yù)測所述當(dāng)前的實例的類別;獲取標(biāo)注的所述當(dāng)前的實例的類別;根據(jù)所述標(biāo)注的 所述當(dāng)前的實例的類別,對所述第二預(yù)測模型進行訓(xùn)練,W便于根據(jù)訓(xùn)練后的第二預(yù)測模 型對待預(yù)測的實例的類別進行預(yù)測。
[0007] 結(jié)合第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述確定所述當(dāng)前的 實例的類別具有不確定性,包括:根據(jù)所述當(dāng)前的實例的信息賭確定所述當(dāng)前的實例的類 別具有不確定性。
[0008] 結(jié)合第二種可能的實現(xiàn)方式,在第Η種可能的實現(xiàn)方式中,所述根據(jù)所述當(dāng)前的 實例的信息賭確定所述當(dāng)前的實例的類別具有不確定性,包括:根據(jù)W下公式確定所述當(dāng) 前的實例的信息賭:
[0009]
[0010] 其中,i表示第i個實例,Hi表示第i個實例的信息賭,1為大于或等于1且小于 或等于C的整數(shù),表示第1個第二標(biāo)簽類別,峰表示第i個實例屬于第1個第二標(biāo)簽類別的 概率,C為所述第二預(yù)模型中的第二標(biāo)簽類別的個數(shù);在所述信息賭大于或等于預(yù)設(shè)的闊 值情時,確定所述當(dāng)前的實例的類別具有不確定性。
[0011] 結(jié)合第一方面或第一至第Η種可能的實現(xiàn)方式中的任一種可能的實現(xiàn)方式,在第 四種可能的實現(xiàn)方式中,所述根據(jù)所述多個第一預(yù)測模型中的標(biāo)簽之間的相互關(guān)系將所述 多個第一預(yù)測模型合并為第二預(yù)測模型,包括:根據(jù)所述多個第一預(yù)測模型中的標(biāo)簽之間 的相斥關(guān)系和相容關(guān)系,將所述多個第一預(yù)測模型中的多個組對應(yīng)的標(biāo)簽類別合并為所述 第二預(yù)測模型中的多個組對應(yīng)的多標(biāo)簽類別。
[0012] 結(jié)合第一方面或第一至第四種可能的實現(xiàn)方式中的任一種可能的實現(xiàn)方式,在第 五種可能的實現(xiàn)方式中,還包括:確定所述第二預(yù)測模型中的標(biāo)簽的相關(guān)性圖,其中所述相 關(guān)性圖包括多個頂點,所述多個頂點分別表示所述第二預(yù)測模型中多個組對應(yīng)的多標(biāo)簽類 另IJ,所述相關(guān)性圖的多個頂點兩兩相連接,用W表示所述第二預(yù)測模型中的標(biāo)簽之間的相 關(guān)性。
[0013] 第二方面,提供了一種預(yù)測類別的裝置,包括:確定單元,用于生成多個第一預(yù)測 模型,其中,所述多個第一預(yù)測模型中的每個第一預(yù)測模型用于將實例分成多個組,所述多 個組中的每個組對應(yīng)多個標(biāo)簽類別中的一個標(biāo)簽類別,所述標(biāo)簽類別包含至少一個標(biāo)簽; 合并單元,用于根據(jù)所述多個第一預(yù)測模型中的標(biāo)簽之間的相互關(guān)系將所述多個第一預(yù)測 模型合并為第二預(yù)測模型,其中,所述第二預(yù)測模型用于對實例進行分類得到多個組,所述 第二預(yù)測模型的多個組中的每個組對應(yīng)多個多標(biāo)簽類別中的一個多標(biāo)簽類別,所述多標(biāo)簽 類別包含多個標(biāo)簽;第一確定單元,用于根據(jù)所述第二預(yù)測模型確定當(dāng)前的實例屬于所述 多個多標(biāo)簽類別中的每個多標(biāo)簽類別的概率,W預(yù)巧IJ所述當(dāng)前的實例的類別。
[0014] 結(jié)合第二方面,在第一種可能的實現(xiàn)方式中,還包括;第二確定單元,用于確定所 述當(dāng)前的實例的類別具有不確定性,其中所述當(dāng)前的實例的類別具有不確定性表示根據(jù)所 述第二預(yù)測模型無法預(yù)測所述當(dāng)前的實例的類別;獲取單元,用于獲取標(biāo)注的所述當(dāng)前的 實例的類別;訓(xùn)練單元,用于根據(jù)所述標(biāo)注的所述當(dāng)前的實例的類別,對所述第二預(yù)測模型 進行訓(xùn)練,W便于根據(jù)訓(xùn)練后的第二預(yù)測模型對待預(yù)測的實例的類別進行預(yù)測。
[0015] 結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述第二 確定單元根據(jù)所述當(dāng)前的實例的信息賭確定所述當(dāng)前的實例的類別具有不確定性。
[0016] 結(jié)合第二方面的第二種可能的實現(xiàn)方式,在第Η種可能的實現(xiàn)方式中,所述第二 確定單元根據(jù)W下公式確定所述當(dāng)前的實例的信息賭:
[0017]
[0018] 其中,i表示第i個實例,Hi表示第i個實例的信息賭,1為大于或等于1且小于 或等于C的整數(shù),表示第1個第二標(biāo)簽類別,為表示第i個實例屬于第1個第二標(biāo)簽類別的 概率,C為所述第二預(yù)模型中的第二標(biāo)簽類別的個數(shù);在所述信息賭大于或等于預(yù)設(shè)的闊 值情時,確定所述當(dāng)前的實例的類別具有不確定性。
[0019] 結(jié)合第二方面或第二方面的第一至第Η種可能的實現(xiàn)方式中的任一種可能的實 現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述合并單元根據(jù)所述多個第一預(yù)測模型中的標(biāo)簽 之間的相斥關(guān)系和相容關(guān)系,將所述多個第一預(yù)測模型中的多個組對應(yīng)的標(biāo)簽類別合并為 所述第二預(yù)測模型中的多個組對應(yīng)的多標(biāo)簽類別。
[0020] 結(jié)合第二方面或第二方面的第一至第四種可能的實現(xiàn)方式中的任一種可能的實 現(xiàn)方式,在第五種可能的實現(xiàn)方式中,還包括:第Η確定單元,用于確定所述第二預(yù)測模型 中的標(biāo)簽的相關(guān)性圖,其中所述相關(guān)性圖包括多個頂點,所述多個頂點分別表示所述第二 預(yù)測模型中多個組對應(yīng)的多標(biāo)簽類別,所述相關(guān)性圖的多個頂點兩兩相連接,用W表示所 述第二預(yù)測模型中的標(biāo)簽之間的相關(guān)性。
[0021] 基于上述技術(shù)方案,通過將多個第一預(yù)測模型中的標(biāo)簽之間的相互關(guān)系將多個第 一預(yù)測模型合并為第二預(yù)測模型,根據(jù)該第二預(yù)測模型對實例的類別進行預(yù)測,無需根據(jù) 多個第一預(yù)測模型分別對當(dāng)前實例的類別進行預(yù)測,能夠減小計算量。
【附圖說明】
[0022] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例中所需要使 用的附圖作簡單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù)送些附圖獲得其他 的附圖。
[0023] 圖1是根據(jù)本發(fā)明一個實施例的預(yù)測的方法的示意性流程圖。
[0024] 圖2是根據(jù)本發(fā)明另一實施例的預(yù)測類別的方法的示意性流程圖。
[00巧]圖3是常規(guī)預(yù)測方法的示意圖。
[0026] 圖4是根據(jù)本發(fā)明另一實施例的預(yù)測類別的方法的示意性流程圖。
[0027] 圖5是根據(jù)本發(fā)明另一實施例的預(yù)測類別的方法的示意性流程圖。
[002引圖6是根據(jù)本發(fā)明一個實施例的預(yù)測類別的裝置的示意性框圖。
[0029] 圖7是根據(jù)本發(fā)明另一實施例的預(yù)測類別的裝置的示意性框圖。
[0030] 圖8是根據(jù)本發(fā)明另一實施例的預(yù)測類別的裝置的示意性框圖。
【具體實施方式】
[0031] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部實施例。基于本發(fā)