亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本的降維特征向量確定方法及裝置的制造方法

文檔序號(hào):10655145閱讀:293來(lái)源:國(guó)知局
文本的降維特征向量確定方法及裝置的制造方法
【專利摘要】本發(fā)明適用于文本特征處理領(lǐng)域,提供了一種文本的降維特征向量確定方法及裝置。所述方法包括:確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的權(quán)重,以將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量;將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間RKHS;確定所述RKHS的特征向量;根據(jù)所述RKHS的特征向量確定文本的降維特征向量。通過(guò)上述方法,減少重要信息的損失,增加了后續(xù)文本處理算法的選擇面。
【專利說(shuō)明】
文本的降維特征向量確定方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例屬于文本特征處理領(lǐng)域,尤其設(shè)及一種文本的降維特征向量確定方 法及裝置。
【背景技術(shù)】
[0002] 現(xiàn)今的時(shí)代是信息的時(shí)代,每天的信息都在不斷增長(zhǎng),為更好地過(guò)濾信息,需要對(duì) 信息(如文本的信息)進(jìn)行一定的處理。
[0003] 現(xiàn)有方法中,對(duì)文本進(jìn)行處理的步驟通常為:選取文本的特征,再通過(guò)對(duì)選取的特 征的處理來(lái)實(shí)現(xiàn)對(duì)文本的處理。常用的特征選取方法主要有,詞頻-逆向文件頻率(term frequen巧-inverse document frequency,TF-IDF),信息增益,卡方檢驗(yàn),互信息等,其中 IF-IDF方法形式簡(jiǎn)潔、結(jié)構(gòu)簡(jiǎn)單,并且準(zhǔn)確率較高,應(yīng)用較廣。但傳統(tǒng)的TF-IDF方法仍有W 下不足:
[0004] (1)直接通過(guò)計(jì)算文本的各個(gè)特征的權(quán)重值,再選取權(quán)重較大的特征,丟棄權(quán)重較 小的特征,但由于直接丟棄部分權(quán)重較小的特征,因此損失了部分特征的重要信息。
[0005] (2)當(dāng)選取的特征個(gè)數(shù)大于樣本個(gè)數(shù)時(shí),導(dǎo)致有些算法(如要求特征個(gè)數(shù)小于樣本 個(gè)數(shù)的算法)不適用于后續(xù)的文本處理。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例提供了一種文本的降維特征向量確定方法及裝置,旨在解決現(xiàn)有方 法選取的特征損失了部分特征的重要信息,W及選取的特征的個(gè)數(shù)過(guò)大所導(dǎo)致的適用的文 本處理算法過(guò)少的問(wèn)題。
[0007] 本發(fā)明實(shí)施例是運(yùn)樣實(shí)現(xiàn)的,一種文本的降維特征向量確定方法,所述方法包括: [000引確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的權(quán)重,W將文本語(yǔ)料庫(kù) 中的特征轉(zhuǎn)換為文本特征向量;
[0009]將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間服服;
[0010] 確定所述服服的特征向量;
[0011 ]根據(jù)所述RKHS的特征向量確定文本的降維特征向量。
[0012] 本發(fā)明實(shí)施例的另一目的在于提供一種文本的降維特征向量確定裝置,所述裝置 包括:
[0013] 文本特征向量確定單元,用于確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同 文本的權(quán)重,W將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量;
[0014] 文本特征向量映射單元,用于將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空 間服服;
[0015]服服的特征向量確定單元,用于確定所述服服的特征向量;
[0 016 ]降維特征向量確定單元,用于根據(jù)所述R K H S的特征向量確定文本的降維特征向 量。
[0017] 在本發(fā)明實(shí)施例中,由于文本特征向量是根據(jù)文本語(yǔ)料庫(kù)中的特征確定,因此,確 定的文本特征向量更全面,減少重要信息的損失,并且,由于將文本特征向量映射到服HS 后,再確定該RKHS的特征向量,進(jìn)而根據(jù)該RKHS的特征向量確定文本的降維特征向量,因 此,使得確定的降維特征向量更準(zhǔn)確,從而提高后續(xù)文本處理的準(zhǔn)確性,增加了后續(xù)文本處 理算法的選擇面。
【附圖說(shuō)明】
[0018] 圖1是本發(fā)明第一實(shí)施例提供的一種文本的降維特征向量確定方法的流程圖;
[0019] 圖2是本發(fā)明第二實(shí)施例提供的一種文本的降維特征向量確定裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0020] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。
[0021] 本發(fā)明實(shí)施例中,確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的權(quán)重, W將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量,將轉(zhuǎn)換后的文本特征向量映射到再生核希 爾伯特空間RKHS,確定所述服HS的特征向量,根據(jù)所述服HS的特征向量確定文本的降維特 征向量。
[0022] 為了說(shuō)明本發(fā)明所述的技術(shù)方案,下面通過(guò)具體實(shí)施例來(lái)進(jìn)行說(shuō)明。
[002;3] 實(shí)施例一:
[0024] 圖1示出了本發(fā)明第一實(shí)施例提供的一種文本的降維特征向量確定方法的流程 圖,詳述如下:
[0025] 步驟Sl 1,確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的權(quán)重,W將文 本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量。
[00%]其中,文本語(yǔ)料庫(kù)包括多個(gè)文本。
[0027]可選地,在步驟Sll之前,包括:對(duì)文本語(yǔ)料庫(kù)進(jìn)行分詞及去停用詞的處理。在處理 自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,運(yùn)些字或詞即被稱為Stop Words(停用詞)。停用詞在文本中沒(méi)有顯著作用的詞,如"啊","的"等詞。通過(guò)該步驟,能夠 對(duì)文本語(yǔ)料庫(kù)進(jìn)行初步清洗,減少后續(xù)的工作量。
[00巧]在步驟Sll中,將文本語(yǔ)料庫(kù)進(jìn)行向量空間模型(Vector space model,VSM)處理, W把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它W空間上的相似度表達(dá)語(yǔ)義 的相似度。例如,對(duì)文本語(yǔ)料庫(kù)進(jìn)行分詞及去停用詞的處理后,文本語(yǔ)料庫(kù)中的全部特征為 W1,W2, ...,Wm,其中Wl, 分別表示不同的字、詞或者詞組,貝晦個(gè)文本可W表示為如表1 所示:
[0029] 表1:
[0030]
[0031」其中,Xij表示文本的權(quán)重,
j《m,文本的權(quán)重可通妊TF-IDF、信懇增 益,卡方檢驗(yàn),互信息等確定。Xr ?? Xn表示n個(gè)文本。
[0032] 步驟S12,將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間服服。
[0033] 其中,所述將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間服服,具體包括:
[0034] Al、確定文本語(yǔ)料庫(kù)中各個(gè)文本的特征權(quán)重向量,再根據(jù)各個(gè)文本的特征權(quán)重向 量確定信息矩陣。
[0035] A2、確定所述信息矩陣所在的空間,根據(jù)所述信息矩陣所在的空間W及映射規(guī)則 將轉(zhuǎn)換后的文本特征向量映射到RKHS。
[0036] 上述Al和A2中,假設(shè)文檔化的特征權(quán)重向量為Xi = Ui,,...,xim),于是可得信息矩 陣-
屬于空間12,且分類的訓(xùn)練樣本記為響應(yīng)變量
例如,yi對(duì)應(yīng)的分類為新聞 類別,響應(yīng)變量中的每個(gè)參數(shù)都對(duì)應(yīng)不同的類別。設(shè)再生核希爾伯特空間為H,與其為一對(duì)應(yīng)的 核函數(shù)為K(xi,xj)。其中再生核的核函數(shù)可為:高斯核函數(shù):
為核函數(shù)的寬度參數(shù),用于調(diào)節(jié)高斯核函數(shù)的徑向作用范圍;或者,為多項(xiàng)式核函數(shù):
[0037]
scale,offset,degree〉0,其中,degree 為 多項(xiàng)式的項(xiàng)次,"?"表示乘法運(yùn)算,"II I"表示求取向量的模長(zhǎng),當(dāng)參數(shù)不同時(shí),可得到不同 的核函數(shù),即通過(guò)調(diào)節(jié)參數(shù)可W選取不同的再生核。
[003引假設(shè)空間b到H的映射為:
爾足XEh時(shí),d) (X) GH,則根據(jù)映射規(guī)則將轉(zhuǎn)換后的文本特征向量映射到服服。
[0039] 步驟Sl 3,確定所述服服的特征向量。
[0040] 其中,所述確定所述服服的特征向量包括:
[0041 ] Bl、對(duì)文本特征向量進(jìn)行k鄰近平均處理。其中,該k鄰近平均處理的思路是:如果 一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè) 類別,則該樣本也屬于運(yùn)個(gè)類別。
[0042] B2、根據(jù)k鄰近平均處理的處理結(jié)果、文本特征向量本身W及文本平均特征向量對(duì) 文本高維特征向量進(jìn)行非線性特征選擇,W確定所述RKHS的特征向量。
[0043] 上述Bl和B2中,假設(shè)X為12中(此處X屬于12空間,并且12本質(zhì)上也是一個(gè)服HS,然 后X通過(guò)映射d),將X映射成(I)(X)屬于H)的文本特征向量,且(I)(X)GH,K為再生核的核函 數(shù),貝lj< 4 (Xi), 4 (xj)〉H=K(xi,xj),格拉姆矩陣G,
[0044]
n為文本的個(gè)數(shù);
[0045] 對(duì)文本特征向量進(jìn)行k鄰近平均處理具體為
與 Xi類別相同,且是Xi的k個(gè)鄰近點(diǎn)(即與Xi距離最近的k個(gè)樣本的下標(biāo)對(duì)應(yīng)的文本特征向 量)},ei =(0,..,1,..,1,..0,..0),當(dāng)j £以時(shí),向量ei的第j個(gè)元素為1,否則為0(表示:當(dāng) Xj和Xi類別相同,并且^屬于與Xi距離最近的k個(gè)樣本中,那么向量ei的第j個(gè)元素為1,否則 為0)。其中,馬表示求取的均值,XT表示X的轉(zhuǎn)置,通過(guò)對(duì)文本的特征向量采用k鄰近 平均處理,解決了文本特征在類間分布不均的情況。
[0046] 例如,假設(shè)文本總共有C個(gè)類,運(yùn)C個(gè)類采用如下的X表示,類別號(hào)記為1,..,c,.,C 時(shí),第C類樣本為:
[0047] Kxi,yi):yi = c},將樣本按樣本記號(hào)從小到大排列,經(jīng)過(guò)處理后的C個(gè)類的文本用 X表示,得到:
[004引
[0049]
[(K)加]
[0化1 ]
[0化2]
[0化3] 通過(guò)求解上式的、Cl,a為服服的特征向量。
[0054] 步驟S14,根據(jù)所述RKHS的特征向量確定文本的降維特征向量。
[0055] 其中,所述根據(jù)所述RKHS的特征向量確定文本的降維特征向量,具體包括:
[0056] Cl、對(duì)所述RKHS的特征向量的維度進(jìn)行排序。
[0057] C2、選取預(yù)設(shè)個(gè)數(shù)的高維特征向量作為文本的降維特征向量,預(yù)設(shè)個(gè)數(shù)小于文本 的總個(gè)數(shù)。
[0化引上述Cl和C2中,當(dāng)求出A,a后,由于、,Qs--對(duì)應(yīng),因此將、從大到小排列,取前P 個(gè)Qs作為最終的降維特征(ai, ...,ap)。當(dāng)然,也可將、從小到大排列,取后P個(gè)Qs作為最終的 降維特征,此處不作限定。
[0059] 可選地,在所述根據(jù)所述RKHS的特征向量確定文本的降維特征向量之后,包括:
[0060] D1、獲取新的文本特征向量。運(yùn)里新的文本特征向量為需降維的文本特征向量。 [0061 ] D2、根據(jù)所述新的文本特征向量和文本的降維特征向量確定新的文本的降維特征 向量。
[0062] 上述Dl和D2中,假設(shè)新的文本特征向量為(Xnew,ynew),ynewG {1,. . .,C},則根據(jù)下 式確定新的文本的降維特征向量:
[0063] X new二化(Xnew, Xl ) , . . . , K(Xnew, Xn) ) IXn(口1, . . . , 口P )nXp
[0064] 通過(guò)上述步驟,可將新的文本特征向量從m維特征降為P維,且,因此,解決后續(xù) 文本處理由于高維特征而產(chǎn)生的稀疏性的問(wèn)題。
[0065] 需要指出的是,該新的文本特征向量的個(gè)數(shù)應(yīng)與文本語(yǔ)料庫(kù)中的文本的總個(gè)數(shù)相 等,否則,應(yīng)保證選取的文本的降維特征向量的個(gè)數(shù)應(yīng)小于該新的文本特征向量的個(gè)數(shù)。
[0066] 本發(fā)明第一實(shí)施例中,確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的 權(quán)重,W將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量,將轉(zhuǎn)換后的文本特征向量映射到再 生核希爾伯特空間服HS,確定所述服HS的特征向量,根據(jù)所述服HS的特征向量確定文本的 降維特征向量。由于文本特征向量是根據(jù)文本語(yǔ)料庫(kù)中的特征確定,因此,確定的文本特征 向量更全面,減少重要信息的損失,并且,由于將文本特征向量映射到RKHS后,再確定該 RKHS的特征向量,進(jìn)而根據(jù)該服HS的特征向量確定文本的降維特征向量,因此,使得確定的 降維特征向量更準(zhǔn)確,從而提高后續(xù)文本處理的準(zhǔn)確性,增加了后續(xù)文本處理算法的選擇 面。
[0067] 應(yīng)理解,在本發(fā)明實(shí)施例中,上述各過(guò)程的序號(hào)的大小并不意味著執(zhí)行順序的先 后,各過(guò)程的執(zhí)行順序應(yīng)W其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過(guò)程構(gòu) 成任何限定。
[006引 實(shí)施例二:
[0069] 圖2示出了本發(fā)明第二實(shí)施例提供的一種文本的降維特征向量確定裝置的結(jié)構(gòu) 圖,該文本的降維特征向量確定裝置可W包括經(jīng)無(wú)線接入網(wǎng)RAN與一個(gè)或多個(gè)核屯、網(wǎng)進(jìn)行 通信的用戶設(shè)備,該用戶設(shè)備可W是移動(dòng)電話(或稱為"蜂窩"電話)、具有移動(dòng)設(shè)備的計(jì)算 機(jī)等,例如,用戶設(shè)備還可W是便攜式、袖珍式、手持式、計(jì)算機(jī)內(nèi)置的或者車載的移動(dòng)裝 置,它們與無(wú)線接入網(wǎng)交換語(yǔ)音和/或數(shù)據(jù)。又例如,該移動(dòng)設(shè)備可W包括智能手機(jī)、平板電 腦、個(gè)人數(shù)字助理PDA、銷售終端POS或車載電腦等。為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施 例相關(guān)的部分。
[0070] 該文本的降維特征向量確定裝置包括:
[0071] 文本特征向量確定單元21,用于確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不 同文本的權(quán)重,W將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量。
[0072] 可選地,該文本的降維特征向量確定裝置包括:初步清洗單元,用于對(duì)文本語(yǔ)料庫(kù) 進(jìn)行分詞及去停用詞的處理。
[0073] 文本特征向量映射單元22,用于將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特 空間服服。
[0074] 其中,所述文本特征向量映射單元22包括:
[0075] 信息矩陣確定模塊,用于確定文本語(yǔ)料庫(kù)中各個(gè)文本的特征權(quán)重向量,再根據(jù)各 個(gè)文本的特征權(quán)重向量確定信息矩陣。
[0076] 信息矩陣所在的空間確定模塊,用于確定所述信息矩陣所在的空間,根據(jù)所述信 息矩陣所在的空間W及映射規(guī)則將轉(zhuǎn)換后的文本特征向量映射到RKHS。
[0077] 上述信息矩陣確定模塊和信息矩陣所在的空間確定模塊中,假設(shè)文檔化的特征權(quán) 重向量為Xi=Uil,,...,Xim),于是可得信息矩陣
屬于空間12,且分類的訓(xùn)練樣本記 為響應(yīng)變量
設(shè)再生核希爾伯特空間為H,與其為一對(duì)應(yīng)的核函數(shù)為K(Xi,Xj)。其中 再生核的核函數(shù)可為:高斯核函數(shù):
或者,為多項(xiàng)式核函數(shù):
[007引 K(xi,xj) = (scale ? I |x廣Xj2+0ffset)dgree,scale,offset,degree〉0,當(dāng)參數(shù)不同 時(shí),可得到不同的核函數(shù),即通過(guò)調(diào)節(jié)參數(shù)可W選取不同的再生核。假設(shè)空間b到H的映射 為與W 4 (X) GH,則根據(jù)映射規(guī)則將轉(zhuǎn)換后的文本特征向量映射到服服。
[0079] 服服的特征向量確定單元23,用于確定所述服服的特征向量。
[0080] 其中,所述服服的特征向量確定單元23包括:
[0081] k鄰近平均處理模塊,用于對(duì)文本特征向量進(jìn)行k鄰近平均處理。其中,對(duì)文本特征
向量進(jìn)行k鄰近平均處理具體為: 以二化刮與Xi類別相同,且是Xi的 ,. k個(gè)鄰近點(diǎn)},ei= (0,. .,1,. .,1,. .0,. .0),當(dāng)j £以時(shí),向量ei的第j個(gè)元素為1,否則為0。
[0082] 非線性特征選擇模塊,用于根據(jù)k鄰近平均處理的處理結(jié)果、文本特征向量本身W 及文本平均特征向量對(duì)文本高維特征向量進(jìn)行非線性特征選擇,W確定所述RKHS的特征向 量。具體地,令:
[0083]
[0084]
[0085] 假設(shè)a是一個(gè)n維向量,且有0=( 4 (Xi), . . .,4 (Xn))a= 4 (X)a,于是
[0086]
[0087] 通過(guò)求解上式的、a,a為服服的特征向量。
[0088] 降維特征向量確定單元24,用于根據(jù)所述RKHS的特征向量確定文本的降維特征向 量。
[0089] 其中,所述降維特征向量確定單元24具體包括:
[0090] 特征向量的維度排序模塊,用于對(duì)所述RKHS的特征向量的維度進(jìn)行排序。
[0091] 高維特征向量選取模塊,用于選取預(yù)設(shè)個(gè)數(shù)的高維特征向量作為文本的降維特征 向量,所述預(yù)設(shè)個(gè)數(shù)小于文本的總個(gè)數(shù)。
[0092] 當(dāng)求出、a后,由于、,Os-一對(duì)應(yīng),因此將、從大到小排列,取前P個(gè)Os作為最終的 降維特征(ai,...,ap)。當(dāng)然,也可將、從小到大排列,取后P個(gè)Qs作為最終的降維特征,此處 不作限定。
[0093] 可選地,所述文本的降維特征向量確定裝置包括:
[0094] 新的文本特征向量獲取單元,用于獲取新的文本特征向量。
[00%]新的文本的降維特征向量確定單元,用于根據(jù)所述新的文本特征向量和文本的降 維特征向量確定新的文本的降維特征向量。
[0096] 假設(shè)新的文本特征向量為(Xnew,ynew),ynewG {1,. . .,C},則根據(jù)下式確定新的文本 的降維特征向量:
[0097] X new=化(Xnew, Xl ) , . . . ,K(Xnew, Xn))lXn(口 1, . . . , 口p)nXp
[0098] 通過(guò)上述步驟,可將新的文本特征向量從m維特征降為P維,且,因此,解決后續(xù) 文本處理由于高維特征而產(chǎn)生的稀疏性的問(wèn)題。
[0099] 在第二實(shí)施例中,各個(gè)參數(shù)表示的含義與第一實(shí)施例中相同,此處不再寶述。
[0100] 本發(fā)明第二實(shí)施例中,由于文本特征向量是根據(jù)文本語(yǔ)料庫(kù)中的特征確定,因此, 確定的文本特征向量更全面,減少重要信息的損失,并且,由于將文本特征向量映射到RKHS 后,再確定該RKHS的特征向量,進(jìn)而根據(jù)該RKHS的特征向量確定文本的降維特征向量,因 此,使得確定的降維特征向量更準(zhǔn)確,從而提高后續(xù)文本處理的準(zhǔn)確性,增加了后續(xù)文本處 理算法的選擇面。
[0101] 本領(lǐng)域普通技術(shù)人員可W意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單 元及算法步驟,能夠W電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。運(yùn)些功能究竟 W硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員 可W對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是運(yùn)種實(shí)現(xiàn)不應(yīng)認(rèn)為超出 本發(fā)明的范圍。
[0102] 所屬領(lǐng)域的技術(shù)人員可W清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、 裝置和單元的具體工作過(guò)程,可W參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再寶述。
[0103] 在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所掲露的系統(tǒng)、裝置和方法,可W 通過(guò)其它的方式實(shí)現(xiàn)。例如,W上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的 劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可W有另外的劃分方式,例如多個(gè)單元或組件 可W結(jié)合或者可W集成到另一個(gè)系統(tǒng),或一些特征可W忽略,或不執(zhí)行。另一點(diǎn),所顯示或 討論的相互之間的禪合或直接禪合或通信連接可W是通過(guò)一些接口,裝置或單元的間接禪 合或通信連接,可W是電性,機(jī)械或其它的形式。
[0104] 所述作為分離部件說(shuō)明的單元可W是或者也可W不是物理上分開(kāi)的,作為單元顯 示的部件可W是或者也可W不是物理單元,即可W位于一個(gè)地方,或者也可W分布到多個(gè) 網(wǎng)絡(luò)單元上。可W根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0105] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可W集成在一個(gè)處理單元中,也可W 是各個(gè)單元單獨(dú)物理存在,也可W兩個(gè)或兩個(gè)W上單元集成在一個(gè)單元中。
[0106] 所述功能如果W軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可W 存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于運(yùn)樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō) 對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可WW軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì) 算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用W使得一臺(tái)計(jì)算機(jī)設(shè)備(可W是個(gè) 人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。 而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memo巧)、隨機(jī)存取存 儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可W存儲(chǔ)程序代碼的介質(zhì)。
[0107] W上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明掲露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述W權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種文本的降維特征向量確定方法,其特征在于,所述方法包括: 確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本的權(quán)重,以將文本語(yǔ)料庫(kù)中的 特征轉(zhuǎn)換為文本特征向量; 將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間RKHS; 確定所述RKHS的特征向量; 根據(jù)所述RKHS的特征向量確定文本的降維特征向量。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將轉(zhuǎn)換后的文本特征向量映射到再生 核希爾伯特空間RKHS,具體包括: 確定文本語(yǔ)料庫(kù)中各個(gè)文本的特征權(quán)重向量,再根據(jù)各個(gè)文本的特征權(quán)重向量確定信 息矩陣; 確定所述信息矩陣所在的空間,根據(jù)所述信息矩陣所在的空間以及映射規(guī)則將轉(zhuǎn)換后 的文本特征向量映射到RKHS。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述RKHS的特征向量包括: 對(duì)文本特征向量進(jìn)行k鄰近平均處理; 根據(jù)k鄰近平均處理的處理結(jié)果、文本特征向量本身以及文本平均特征向量對(duì)文本高 維特征向量進(jìn)行非線性特征選擇,以確定所述RKHS的特征向量。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述RKHS的特征向量確定文本的 降維特征向量,具體包括: 對(duì)所述RKHS的特征向量的維度進(jìn)行排序; 選取預(yù)設(shè)個(gè)數(shù)的高維特征向量作為文本的降維特征向量,所述預(yù)設(shè)個(gè)數(shù)小于文本的總 個(gè)數(shù)。5. 根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,在所述根據(jù)所述RKHS的特征向 量確定文本的降維特征向量之后,包括: 獲取新的文本特征向量; 根據(jù)所述新的文本特征向量和文本的降維特征向量確定新的文本的降維特征向量。6. -種文本的降維特征向量確定裝置,其特征在于,所述裝置包括: 文本特征向量確定單元,用于確定文本語(yǔ)料庫(kù)中的特征,并確定所述特征在不同文本 的權(quán)重,以將文本語(yǔ)料庫(kù)中的特征轉(zhuǎn)換為文本特征向量; 文本特征向量映射單元,用于將轉(zhuǎn)換后的文本特征向量映射到再生核希爾伯特空間 RKHS; RKHS的特征向量確定單元,用于確定所述RKHS的特征向量; 降維特征向量確定單元,用于根據(jù)所述RKHS的特征向量確定文本的降維特征向量。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述文本特征向量映射單元包括: 信息矩陣確定模塊,用于確定文本語(yǔ)料庫(kù)中各個(gè)文本的特征權(quán)重向量,再根據(jù)各個(gè)文 本的特征權(quán)重向量確定信息矩陣; 信息矩陣所在的空間確定模塊,用于確定所述信息矩陣所在的空間,根據(jù)所述信息矩 陣所在的空間以及映射規(guī)則將轉(zhuǎn)換后的文本特征向量映射到RKHS。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述RKHS的特征向量確定單元包括: k鄰近平均處理模塊,用于對(duì)文本特征向量進(jìn)行k鄰近平均處理; 非線性特征選擇模塊,用于根據(jù)k鄰近平均處理的處理結(jié)果、文本特征向量本身以及文 本平均特征向量對(duì)文本高維特征向量進(jìn)行非線性特征選擇,以確定所述RKHS的特征向量。9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述降維特征向量確定單元具體包括: 特征向量的維度排序模塊,用于對(duì)所述RKHS的特征向量的維度進(jìn)行排序; 高維特征向量選取模塊,用于選取預(yù)設(shè)個(gè)數(shù)的高維特征向量作為文本的降維特征向 量,所述預(yù)設(shè)個(gè)數(shù)小于文本的總個(gè)數(shù)。10. 根據(jù)權(quán)利要求6至9任一項(xiàng)所述的裝置,其特征在于,所述裝置包括: 新的文本特征向量獲取單元,用于獲取新的文本特征向量; 新的文本的降維特征向量確定單元,用于根據(jù)所述新的文本特征向量和文本的降維特 征向量確定新的文本的降維特征向量。
【文檔編號(hào)】G06F17/30GK106021299SQ201610289966
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月3日
【發(fā)明人】吳成龍
【申請(qǐng)人】Tcl集團(tuán)股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1