亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于正負(fù)對約束數(shù)據(jù)的kl距離訓(xùn)練得到屬性列權(quán)重的方法

文檔序號:6367042閱讀:778來源:國知局
專利名稱:基于正負(fù)對約束數(shù)據(jù)的kl距離訓(xùn)練得到屬性列權(quán)重的方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體地說是一種基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法。
背景技術(shù)
詞袋模型(Bag-of-word Model)最初用于對表示成文本的自然語言處理及信息檢索中,它忽略其詞序和語法、句法,將其僅僅當(dāng)成詞的組合,文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的。目前,詞袋模型被擴(kuò)展到圖像和視頻幀的表示,應(yīng)用及其廣泛。KL 距離(Kullback-Leibler Divergence),也叫做相對熵(RelativeEntropy)。它是衡量相同事件空間里的兩個(gè)概率分布的差異情況。其物理意義是在相同事件空間里,對概率分布/7 (x)的事件空間,用概率分布P (X)編碼時(shí),平均每個(gè)基本事件(符號)編碼長度增加的比特?cái)?shù)。對于離散型的概率分布
P =和0 =,尸和e之間的KL距離定義如下:
Drr(PZO)=T j . Ic^ 厶
,.-I ;
當(dāng)KL距離越小時(shí),產(chǎn)和^就越接近;反之亦然。KL距離具有如下性質(zhì)
性質(zhì)I:非負(fù)性,即1 (PIO.'I > 0 ,
性質(zhì) 2: ^^對稱性,即 D11 (P Z 0 * D12 iO ZP) o
在實(shí)際問題中,獲取實(shí)例標(biāo)記相對困難,很多問題往往只能提供正負(fù)對信息,即已知指定兩個(gè)實(shí)例屬于同一類或?qū)儆诓煌悺o@然,正負(fù)對信息比標(biāo)記弱,如何利用這些正負(fù)對信息指導(dǎo)數(shù)據(jù)挖掘很多操作是工程中亟待解決的問題。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,該方法基于預(yù)處理之后正負(fù)對集合八#構(gòu)成的矩陣,進(jìn)而建立集合/7和#上的加權(quán)KL距離(KL-divergence)的優(yōu)化模型,最后通過二次規(guī)劃優(yōu)化算法訓(xùn)練出二元矩陣中每一屬性列的權(quán)重。該方法能高效、準(zhǔn)確地得到屬性列權(quán)重,實(shí)現(xiàn)數(shù)據(jù)挖掘。本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的
一種基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,其特征在于該首先建立正對數(shù)據(jù)集和負(fù)對數(shù)據(jù)集的預(yù)處理數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含了二元數(shù)據(jù)集,其中正對數(shù)據(jù)集為標(biāo)記正對的相關(guān)實(shí)例數(shù)據(jù)集合,負(fù)對數(shù)據(jù)集為標(biāo)記負(fù)對的相關(guān)實(shí)例數(shù)據(jù)集合,進(jìn)而在數(shù)據(jù)集基礎(chǔ)上分別計(jì)算加權(quán)KL距離;其次,根據(jù)二次規(guī)劃優(yōu)化算法,最終訓(xùn)練得到二元數(shù)據(jù)集矩陣中每一屬性列的權(quán)值;具體如下
1)預(yù)處理輸入數(shù)據(jù)集;輸入數(shù)據(jù)由標(biāo)記的正對數(shù)據(jù)集合和負(fù)對數(shù)據(jù)集合組成,這兩個(gè)數(shù)據(jù)集為稀疏二元矩陣,該矩陣由項(xiàng)instance實(shí)例數(shù)據(jù)行及
其d項(xiàng)屬性列構(gòu)成一個(gè)階矩陣,其中R.—'表示數(shù)據(jù)集屬性a的出現(xiàn)頻率/.
2)正對和負(fù)對數(shù)據(jù)集預(yù)處理;對數(shù)據(jù)集進(jìn)行平滑處理、規(guī)格化處理;
3)分別計(jì)算正對集合、負(fù)對集合的加權(quán)KL距離;
4)使用二次規(guī)劃算法優(yōu)化求解;利用加權(quán)距離訓(xùn)練出每一屬性列上的權(quán)重。本發(fā)明的初始輸入是由已標(biāo)記正負(fù)對數(shù)據(jù)集合的二元矩陣構(gòu)成,矩陣每一行表示為一個(gè)實(shí)例數(shù)據(jù)集,矩陣每一列表示為屬性數(shù)據(jù)列,元素值
>、V^:' =<t,yi >,其中.V:、J.:表示數(shù)據(jù)集屬性標(biāo)識{attribute),
x;、X::表示相應(yīng)的數(shù)據(jù)集標(biāo)識出現(xiàn)頻率{frequency)。對于矩陣中實(shí)例數(shù)據(jù)
行如果數(shù)據(jù)屬性屬于同一類,則其屬于正對數(shù)據(jù)集合八否則屬于負(fù)對數(shù)據(jù)集
M
合見數(shù)據(jù)集 P = [j{< >,< rK w >r.-r< ^;v; >},其中 >■
. .
表示對于實(shí)例數(shù)據(jù)X , i_在第i列數(shù)據(jù)屬性上正對; |?!眧
-Y = LXjr;:' >r<^:; j;<.rK >j,其中< > 表示對于實(shí)例數(shù)據(jù)
...
.V 、 J在第i列數(shù)據(jù)屬性上負(fù)對。本發(fā)明中訓(xùn)練方法主要基于預(yù)處理之后正負(fù)對集合八#構(gòu)成的矩陣,進(jìn)而建立集合/7和Ar上的加權(quán)KL距離(KL-divergence)計(jì)算的優(yōu)化模型,最后通過二次規(guī)劃優(yōu)化算法訓(xùn)練出二元矩陣中每一屬性列的權(quán)重。該方法能高效、準(zhǔn)確地實(shí)現(xiàn)數(shù)據(jù)挖掘。


圖I是本發(fā)明具體實(shí)施的流程圖。圖2是使用本發(fā)明前后文本聚類性能對比圖。
具體實(shí)施例方式本發(fā)明的具體實(shí)施流程如圖I所示,在實(shí)施過程中首先需要建立正對數(shù)據(jù)集和負(fù)對數(shù)據(jù)集的預(yù)處理數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含了計(jì)算所需的二元數(shù)據(jù)集,其中正對數(shù)據(jù)集為標(biāo)記正對的相關(guān)實(shí)例數(shù)據(jù)集合,負(fù)對數(shù)據(jù)集為標(biāo)記負(fù)對的相關(guān)實(shí)例數(shù)據(jù)集合,進(jìn)而在數(shù)據(jù)集基礎(chǔ)上分別計(jì)算加權(quán)KL距離;其次,根據(jù)二次規(guī)劃優(yōu)化算法優(yōu)化求解,最終訓(xùn)練得到矩陣中每一屬性列的權(quán)值。
具體實(shí)施方式
如下所示
I)預(yù)處理輸入數(shù)據(jù)集。輸入數(shù)據(jù)由標(biāo)記的正對數(shù)據(jù)集合和負(fù)對數(shù)據(jù)集合組成,這兩個(gè)數(shù)據(jù)集為稀疏二元矩陣,該矩陣由項(xiàng)instance實(shí)例數(shù)據(jù)行及其V項(xiàng)屬性列構(gòu)成一個(gè)21^朝*4階矩陣句,其中2表示數(shù)據(jù)集屬性a的出現(xiàn)頻率/。2)正對和負(fù)對數(shù)據(jù)集預(yù)處理。根據(jù)公式(1)_(3),對計(jì)算數(shù)據(jù)集進(jìn)行平滑(smoothing)處理、規(guī)格化處理。優(yōu)化模型建立
首先,分別對已標(biāo)記的正對數(shù)據(jù)集和負(fù)對數(shù)據(jù)集構(gòu)建<>稀疏二元矩
陣。然后,為了使得加權(quán)KL距離計(jì)算處于
區(qū)間內(nèi),使用式⑴對實(shí)例數(shù)據(jù)中屬性列{attribute)的出現(xiàn)頻率{frequency)提前進(jìn)行規(guī)格化計(jì)算
權(quán)利要求
1.一種基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,其特征在于該首先建立正對數(shù)據(jù)集和負(fù)對數(shù)據(jù)集的預(yù)處理數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含了ニ元數(shù)據(jù)集,其中正對數(shù)據(jù)集為標(biāo)記正對的相關(guān)實(shí)例數(shù)據(jù)集合,負(fù)對數(shù)據(jù)集為標(biāo)記負(fù)對的相關(guān)實(shí)例數(shù)據(jù)集合,進(jìn)而在數(shù)據(jù)集基礎(chǔ)上分別計(jì)算加權(quán)KL距離;其次,根據(jù)二次規(guī)劃優(yōu)化算法,最終訓(xùn)練得到ニ元數(shù)據(jù)集矩陣中每一屬性列的權(quán)值;具體如下 1)預(yù)處理輸入數(shù)據(jù)集;輸入數(shù)據(jù)由標(biāo)記的正對數(shù)據(jù)集合和負(fù)對數(shù)據(jù)集合組成,這兩個(gè)數(shù)據(jù)集為取
2.根據(jù)權(quán)利要求I所述的基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,其特征在干步驟2)中,使用式(I)對實(shí)例數(shù)據(jù)中屬性列{attribute)的出現(xiàn)頻率{frequency)提前進(jìn)行規(guī)格化計(jì)算
3.根據(jù)權(quán)利要求I所述的基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,其特征在于步驟3)中,分別計(jì)算正對集合P和負(fù)對集合N上的加權(quán)KL距離,設(shè)表示正對集合/7上的加權(quán)KL距離,Bi表示負(fù)對集合#上的加權(quán)KL距離,則對于已規(guī)格化頻率值的實(shí)例數(shù)據(jù)在矩陣第i屬性列上的加權(quán)KL距離用式(2) (3)計(jì)算如下
4.根據(jù)權(quán)利要求I所述的基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,其特征在干步驟4)中,權(quán)重訓(xùn)練的目標(biāo)是為每個(gè)屬性分配ー個(gè)標(biāo)準(zhǔn)權(quán)重,使得正對集合產(chǎn)上的加權(quán)KL距離盡量大,而使得負(fù)對集合#上的加權(quán)KL距離盡量小,因此,得到優(yōu)化目標(biāo)函數(shù)
全文摘要
本發(fā)明公開了一種基于正負(fù)對約束數(shù)據(jù)的KL距離訓(xùn)練得到屬性列權(quán)重的方法,該首先建立正對數(shù)據(jù)集和負(fù)對數(shù)據(jù)集的預(yù)處理數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含了二元數(shù)據(jù)集,其中正對數(shù)據(jù)集為標(biāo)記正對的相關(guān)實(shí)例數(shù)據(jù)集合,負(fù)對數(shù)據(jù)集為標(biāo)記負(fù)對的相關(guān)實(shí)例數(shù)據(jù)集合,進(jìn)而在數(shù)據(jù)集基礎(chǔ)上分別計(jì)算加權(quán)KL距離;其次,根據(jù)二次規(guī)劃優(yōu)化算法,最終訓(xùn)練得到二元數(shù)據(jù)集矩陣中每一屬性列的權(quán)值;該方法能高效、準(zhǔn)確地得到屬性列權(quán)重,實(shí)現(xiàn)數(shù)據(jù)挖掘。
文檔編號G06F17/30GK102663040SQ20121008472
公開日2012年9月12日 申請日期2012年3月28日 優(yōu)先權(quán)日2012年3月28日
發(fā)明者伍之昂, 劉英卓, 方昌鍵, 曹杰, 毛波 申請人:南京財(cái)經(jīng)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1