亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種挖掘運營基維度的方法及裝置與流程

文檔序號:11520410閱讀:201來源:國知局
一種挖掘運營基維度的方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)挖掘技術領域,更具體地,涉及一種挖掘運營基維度的方法及裝置。



背景技術:

產(chǎn)品運營從內容構建,用戶維護,活動策劃等三個層面來管理產(chǎn)品內容和用戶;運營是產(chǎn)品持續(xù)健康發(fā)展的關鍵。在“流量為王”的時代,為了最大限度地爭取流量,運營的渠道和方式不斷增加,針對不同場景和不同用戶屬性的精細化運營越發(fā)重要。具體地,挖掘隱藏在海量數(shù)據(jù)中的信息,利用數(shù)據(jù)刻畫用戶屬性和場景特征并對各類用戶群定制營銷策略,能有效解決流量運營、用戶運營、產(chǎn)品運營和內容運營中的增長和留存問題。在數(shù)據(jù)化運營中,可觀測的統(tǒng)計維度很多,如產(chǎn)品的pv(瀏覽量),uv(訪客數(shù)),頁面點擊率等。這些維度之間關系復雜,存在大量的信息冗余和重疊現(xiàn)象。譬如在直播領域中,維度“最近3天累計充值金額”,和“最近7天累計充值金額”存在正向的關聯(lián);即當“最近3天累計充值金額”高時,相關指標“最近7天累計充值金額”一般也高。換句話說,維度之間的信息量存在重疊,一個維度在一定程度上可以被其他相關維度線性地推算出來。類似地,維度“最近3天累計營收”與“最近3天累計直播時長”存在關聯(lián),即直播時間越長,營收額越大。這些龐大而復雜的運營維度容易讓運營人員掉進信息過載的陷阱,難以準確把脈產(chǎn)品的狀況并做出合適的決策。如何從這些運營維度中找出少量的關鍵維度,即基維度,是一個技術難點。面對繁多的運營維度,人工篩選的方法難以奏效。據(jù)所知的文獻,目前還沒有對自動識別運營基維度的研究和方法。

傳統(tǒng)方法一般采用人工的方法篩選關鍵維度,譬如在直播領域,把“最近7天累計營收”,“最近7天平均pcu”作為關鍵維度。然而,這些人工篩選的維度并不能完備的刻畫產(chǎn)品的全部狀態(tài)。譬如“最近7天累計營收”與“最近3天累計營收”之間不但存在信息冗余,也存在差異,即“最近7天累計營收”不能完全覆蓋“最近3天累計營收”所含的信息量,也不能替換“最近3天累計營收”這個維度的數(shù)值統(tǒng)計特性。一方面,簡單地通過人工的方法從100個運營維度中抽選出10個維度作為關鍵維度,存在信息損失的問題。換句話說,傳統(tǒng)方法未能準確判斷基維度。另一方面,人工的方法主觀,工作量大,且調節(jié)方式難以固化沉淀。



技術實現(xiàn)要素:

鑒于上述問題,本發(fā)明提出了一種挖掘運營基維度的方法及裝置,能夠通過分析各個運營維度的關聯(lián)關系,準確地判別基維度,指導商業(yè)決策。

本發(fā)明實施例中提供了一種挖掘運營基維度的方法,包括:

根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};

計算所述樣本p的協(xié)方差矩陣xxt;

對所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

優(yōu)選地,根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度的步驟之后,還包括:

根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

優(yōu)選地,根據(jù)收集的運營維度狀態(tài)數(shù)據(jù),構建樣本集的步驟之前,還包括:

從業(yè)務平臺的服務器端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務播放數(shù)據(jù)、業(yè)務營收數(shù)據(jù)、業(yè)務互動數(shù)據(jù)當中的至少一項。

優(yōu)選地,根據(jù)收集的運營維度狀態(tài)數(shù)據(jù),構建樣本集的步驟之前,還包括:

從用戶的客戶端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當中的至少一項。

優(yōu)選地,判別排名前數(shù)位的基維度的步驟之后,包括:

根據(jù)預設的特征值累計重要性閾值,獲取由至少一項排名前數(shù)位的基維度組成的基維度集合。

相應地,本發(fā)明實施例提供了一種挖掘運營基維度的裝置,包括:

樣本構建單元,用于根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};

空間變換單元,用于計算所述樣本p的協(xié)方差矩陣xxt

特征分解單元,用于對所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

基維度判別單元,用于根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

優(yōu)選地,還包括:

基維度排序單元,用于根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

優(yōu)選地,還包括:

業(yè)務維度單元,用于從業(yè)務平臺的服務器端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務播放數(shù)據(jù)、業(yè)務營收數(shù)據(jù)、業(yè)務互動數(shù)據(jù)當中的至少一項。

優(yōu)選地,還包括:

用戶維度單元,用于從用戶的客戶端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當中的至少一項。

優(yōu)選地,所述基維度排序單元,包括:

基維度收集單元,用于根據(jù)預設的特征值累計重要性閾值,獲取由至少一項排名前數(shù)位的基維度組成的基維度集合。

本發(fā)明提出了一種自動挖掘運營基維度的方案。首先,根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi},相對于現(xiàn)有技術,對于構建的樣本集,用戶無需考慮各個樣本之間的信息重疊或信息冗余,也無需通過人工或機器對樣本集的樣本進行篩選或分類。而是,計算所述樣本p的協(xié)方差矩陣xxt,通過協(xié)方差的空間變換,分析維度之間的關聯(lián)關系和信息冗余狀況。然后,對所述協(xié)方差矩陣xxt做特征值分解,求得特征值,自動構造出基維度。讓其之間的信息不冗余,卻能可全方位刻畫產(chǎn)品的狀態(tài),用少量基維度即可表示全量運營維度的信息量。最后,根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。上述方案,簡單快捷,能夠通過分析各個運營維度的關聯(lián)關系,準確地判別基維度,指導商業(yè)決策。具體地,對于直播業(yè)務來說,可以幫助發(fā)掘潛在的網(wǎng)紅主播、評測優(yōu)質主播等。進一步地,讓運營方更加深入了解各個運營指標,包括對指標歸類,認知影響主播排名的本質原因等,指導商業(yè)決策。

本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明一種挖掘運營基維度的方法的流程圖。

圖2為本發(fā)明一種挖掘運營基維度的方法的實施例流程圖。

圖3為本發(fā)明實施例的維度數(shù)據(jù)收集示意圖。

圖4為本發(fā)明實施例的樣本在空間表示成向量的示意圖。

圖5為本發(fā)明一種挖掘運營基維度的裝置的示意圖。

圖6為本發(fā)明一種挖掘運營基維度的裝置的實施例示意圖。

具體實施方式

為了使本技術領域的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述。

在本發(fā)明的說明書和權利要求書及上述附圖中的描述的一些流程中,包含了按照特定順序出現(xiàn)的多個操作,但是應該清楚了解,這些操作可以不按照其在本文中出現(xiàn)的順序來執(zhí)行或并行執(zhí)行,操作的序號如101、102等,僅僅是用于區(qū)分開各個不同的操作,序號本身不代表任何的執(zhí)行順序。另外,這些流程可以包括更多或更少的操作,并且這些操作可以按順序執(zhí)行或并行執(zhí)行。需要說明的是,本文中的“第一”、“第二”等描述,是用于區(qū)分不同的消息、設備、模塊等,不代表先后順序,也不限定“第一”和“第二”是不同的類型。

下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

運營維度:用于衡量產(chǎn)品正常經(jīng)營運轉狀況的指標,如產(chǎn)品的pv(瀏覽量),uv(訪客數(shù)),頁面點擊率等;這些指標多可以通過測量或顯式地統(tǒng)計運算獲得,為產(chǎn)品的運營人員總結、分析和評價產(chǎn)品狀況提供依據(jù)。

基維度:用于描述產(chǎn)品運營狀況的本質因子,可以說是多個運營維度的濃縮。不同于運營維度之間可能存在相關和信息冗余,基維度之間的信息不冗余,卻能可全方位刻畫產(chǎn)品的狀態(tài)。這些基維度多隱藏在數(shù)據(jù)的內部,難直接觀察獲得,是隱藏在運營維度中的母因素。如在大學排名中,影響排名的因素中最本質的有兩類,包括自然科學因子,和社會科學因子,這些就是基維度;但這些因子不容易直接觀測獲得,只能觀察到的維度如本科入學平均分數(shù)線,就業(yè)率,教授發(fā)理工類/人文類論文量等。

如何從可觀測的運營維度中,推測并挖掘基維度,是本發(fā)明要解決的技術問題。通過分析各個運營維度的關聯(lián)關系,本發(fā)明設計新算法準確地找出基維度。本發(fā)明把基維度應用于直播領域,可以指導產(chǎn)品運營方做決策,包括發(fā)現(xiàn)優(yōu)質主播,評測主播表現(xiàn)等。

圖1為本發(fā)明一種挖掘運營基維度的方法的流程圖,包括:

s101:根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};

s102:計算所述樣本p的協(xié)方差矩陣xxt;

s103:對所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

s104:根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

本發(fā)明提出了一種自動挖掘運營基維度的方案。首先,根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi},相對于現(xiàn)有技術,對于構建的樣本集,用戶無需考慮各個樣本之間的信息重疊或信息冗余,也無需通過人工或機器對樣本集的樣本進行篩選或分類。而是,計算所述樣本p的協(xié)方差矩陣xxt,通過協(xié)方差的空間變換,分析維度之間的關聯(lián)關系和信息冗余狀況。然后,對所述協(xié)方差矩陣xxt做特征值分解,求得特征值,自動構造出基維度。讓其之間的信息不冗余,卻能可全方位刻畫產(chǎn)品的狀態(tài),用少量基維度即可表示全量運營維度的信息量。最后,根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。上述方案,簡單快捷,能夠通過分析各個運營維度的關聯(lián)關系,準確地判別基維度,指導商業(yè)決策。具體地,對于直播業(yè)務來說,可以幫助發(fā)掘潛在的網(wǎng)紅主播等。

下面以直播業(yè)務為例,介紹基維度的構建方法。具體地,首先收集運營維度數(shù)據(jù),然后基于該數(shù)據(jù)生成基維度,整個過程不需要標注數(shù)據(jù)。

圖2為本發(fā)明一種挖掘運營基維度的方法的實施例流程圖。

s201:從業(yè)務平臺的服務器端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務播放數(shù)據(jù)、業(yè)務營收數(shù)據(jù)、業(yè)務互動數(shù)據(jù)當中的至少一項。

s202:從用戶的客戶端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當中的至少一項。

s203:根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};

s204:計算所述樣本p的協(xié)方差矩陣xxt

s205:對所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

s206:根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

s207:根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

s208:根據(jù)預設的特征值累計重要性閾值,獲取由至少一項排名前數(shù)位的基維度組成的基維度集合。

本實施例以直播領域為例,針對不同的運營主體(主播,和觀眾),常規(guī)有下面兩類運營維度數(shù)據(jù),從業(yè)務平臺的服務器端收集運營主體(主播)的維度數(shù)據(jù),從用戶的客戶端收集運營主體(觀眾)的維度數(shù)據(jù),即主播的運營維度數(shù)據(jù)和觀眾的觀看維度數(shù)據(jù),如圖3。

圖3為本發(fā)明實施例的維度數(shù)據(jù)收集示意圖。其中主播的維度數(shù)據(jù)通過直播平臺的服務器端獲取,記錄主播的全局行為,包括播放,營收,互動等。圖3中的播放信息采集單元101代表播放行為維度收集器,營收信息采集單元102代表營收行為維度收集器,和互動信息采集單元103代表互動行為維度收集器。運營的維度數(shù)據(jù)舉例如下:業(yè)務播放數(shù)據(jù),如最近3天/7天主播累計播放場次,最近3天/7天主播累計播放時長;業(yè)務營收數(shù)據(jù),如最近3天/7天主播累計付費觀眾數(shù),最近3天/7天主播付費觀眾數(shù)增幅,最近3天/7天主播累計營收額,最近3天/7天主播累計營收額增幅;業(yè)務互動數(shù)據(jù),如最近3天/7天的聊天室累計發(fā)言觀眾數(shù),最近3天/7天的聊天室累計發(fā)言量等。

觀眾的觀看維度數(shù)據(jù)通過用戶的客戶端獲取,記錄觀眾的觀看,活躍和留存狀況等特征。圖1中的觀看信息采集單元104代表觀看行為維度收集器,活躍信息采集單元105代表活躍行為維度收集器,和留存信息采集單元106代表留存行為維度收集器。運營的維度數(shù)據(jù)舉例如下,用戶觀看數(shù)據(jù),如最近3天/7天觀眾平均觀看時長;用戶活躍數(shù)據(jù),如最近3天/7天觀眾平均同時在線人數(shù),最近3天/7天觀眾平均同時在線人數(shù)增速;用戶留存數(shù)據(jù),如最近3天/7天的留存觀眾量,最近3天/7天的觀眾留存率。

需要補充說明的是,本方案既可以僅收集服務器端的維度數(shù)據(jù),分析主播一側的基維度,也可以僅收集客戶端的維度數(shù)據(jù),分析觀眾一側的基維度,還可以同時收集兩端的維度數(shù)據(jù),分析兩者相互影響的維度數(shù)據(jù)。另外,隨著業(yè)務的拓展,比如廣告商,內容提供商,第三方游戲開發(fā)商的業(yè)務加入,本方案還可以添加其它相關方的維度數(shù)據(jù),挖掘更新基維度,指導商業(yè)決策。

圖4為本發(fā)明實施例的樣本在空間表示成向量的示意圖。下面結合圖4敘述本方案,假設有40萬個主播,每個主播的運營維度有1000維,根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};那么每個主播運營維度數(shù)據(jù)的樣本集可以表示成一個1000維的向量向量的每個元素數(shù)值就是對應的主播在該維度上的測量值;如第10個維度(最近3天累計付費觀眾數(shù))是120人,那么該向量的第10個元素數(shù)值為120。

通過空間的等價變換m(包括平移,旋轉,縮放;該類操作不會造成信息丟失),把主播樣本映射到一個s維(譬如10維)的基維度空間中,即每個主播樣本可以表示成一個10維的向量這個向量的信息量等價于以上向量即mth→w。

實際上,向量的元素的數(shù)值是向量中某些元素的線性加權,加權的數(shù)值由變換m來決定;譬如向量的第2個元素=0.2×向量的第1個元素+0.4×向量的第2個元素+...;加權的系數(shù)(如以上的0.2,0.4)由變換m決定。換句話說,第1個維度有20%的信息與第2個維度40%的信息量有重疊,可以壓縮匯總出一個新的維度。對于每一批樣本數(shù)據(jù),變換m是唯一的。發(fā)現(xiàn)基維度的關鍵就是通過步驟s202找到變換m。

對于給定一個樣本點x,在q維坐標空間{h1,h2,...,hq}中表示為向量對該樣本做信息量保真的等價變換(包括平移,旋轉,縮放),變換后在新坐標空間中的向量可以表示為對于p個樣本集合p={x1,x2,...,xi};每個樣本向量都可以變換成新空間中的一個新向量。

不同的變換m,能把樣本映射到對應的不同的新坐標空間中。最優(yōu)的變換m能把樣本映射到s維基維度的坐標空間{w1,w2,...,ws}中。在這個坐標系中,維度之間正交,信息不重疊不冗余,即而且在這個空間中,全體的p個樣本點盡可能地分開,相互間區(qū)分度最大;也就是說,在這個空間中,全體的p個樣本點是最大可分的,只要用少量的維度s,即可顯著地區(qū)分和刻畫p個樣本點。

計算所述樣本p的協(xié)方差矩陣xxt,從數(shù)學統(tǒng)計上,樣本點最大可分性等價于樣本點的方差最大化?;仡櫼陨戏治觯瑢τ诮o定的某一個樣本點xi,變換到新空間后為那么對于所有p個樣本點,方差為

求最大的方差,即求解以下的最值函數(shù),如公式1:

s.t.mtm=i....公式1

其中x是p個樣本點向量對應的矩陣表示形式;對于最值函數(shù),可以用成熟的數(shù)學方法來求解;具體地,對公式1使用拉格朗日乘子法,公式1等價于求解公式2;

xxtm=l·m....公式2

通過對協(xié)方差矩陣xxt進行特征分解,可求得的特征值。根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

根據(jù)特征值的排序,判別排名前數(shù)位的基維度。對于公式2的求解獲取的特征值就是q維坐標空間{h1,h2,...,hq}經(jīng)過等價變換后,在新的坐標空間{w1,w2,...,wq}中,按信息量的重要性的排序l1≥l2...≥lq。

通過特征值的排序,可以找出信息量最大且最重要的基維度。具體地,根據(jù)l1對應的特征向量m1(1×q維)構造出第一個基維度,即m1ht,其中h是{h1,h2,...,hq}的矩陣表示;類似地,根據(jù)li對應的特征向量mi構造出第i個基維度。

舉個例子,假設有q=10(即原有10個運營維度),通過求解變換m,找出排序首位的l1對應的特征向量m1,譬如為[0.3,0.15,0.05,...,0.01];那么新的基維度w1=0.3*h1+0.15*h2+...+0.11*h10。

從信息量的角度看,新的基維度相當于輸出的運營維度中重疊和相互覆蓋的部分抽取出來;這是一種信息壓縮的過程。

進一步地,根據(jù)預設的特征值累計重要性閾值,獲取由至少一項排名前數(shù)位的基維度組成的基維度集合。我們可以根據(jù)特征值的累計重要性找出s個基維度;具體地,累計重要性的計算方法如公式3,

其中閥值t在應用中一般設定為0.95左右,也就是排前的s個基維度占整個數(shù)據(jù)信息量的95%即可。

本發(fā)明能從大量的運營維度中自動發(fā)現(xiàn)基維度,這些基維度數(shù)量不多,但價值高且完備地覆蓋輸出的維度的信息量,即全方位刻畫產(chǎn)品的狀態(tài)。該成果已經(jīng)上線應用于直播運營,目前能從主播220個運營維度中,自動發(fā)現(xiàn)15個高價值的基維度。運營人員只要把握這15個基維度,即可對直播產(chǎn)品的狀況準確把脈,做出合適的決策,顯著提升運營效率。

進一步地,本發(fā)明把算法輸出的基維度應用于運營項目,如發(fā)現(xiàn)潛力主播項目,替換項目舊有的特征??紤]到基維度是大量運營維度的信息壓縮,而且由于維度數(shù)量較集中,能避免一些項目模型的數(shù)據(jù)稀疏問題,從理論上可以提升項目的性能。通過實際在線應用,發(fā)現(xiàn)項目的性能獲得顯著的提升。

具體地,對于潛力主播發(fā)現(xiàn)項目,舊模型離線準確率為83%,利用基維度替換舊模型的特征,離線準確率提升為90%,漲幅為8.4%。采用ab測試評測系統(tǒng)多個月的性能,其中a組為舊模型生成的潛力主播名單,b組為新方法名單,兩組名單數(shù)量一致,統(tǒng)計吸引粉絲的狀況;評測指標為識別準確率(有多少主播變成網(wǎng)紅大主播)。通過跟蹤主播兩個月(2016年9月和10月)的活躍觀眾狀況,在同時在線人數(shù)指標上,舊方法(a組)增長6.4%,新方法(b組)增長10.5%。

圖5為本發(fā)明一種挖掘運營基維度的裝置的示意圖,包括:

樣本構建單元,用于根據(jù)收集的運營維度數(shù)據(jù),構建樣本集p={x1,x2,...,xi};

空間變換單元,用于計算所述樣本p的協(xié)方差矩陣xxt;

特征分解單元,用于對所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

基維度判別單元,用于根據(jù)其中一個特征值對應的特征向量構造的維度判別為基維度。

圖5與圖1相對應,圖中各個單元的運行方式與方法中的相同。

圖6為本發(fā)明一種挖掘運營基維度的裝置的實施例示意圖。

如圖6所示,還包括:

基維度排序單元,用于根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

如圖6所示,還包括:

業(yè)務維度單元,用于從業(yè)務平臺的服務器端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務播放數(shù)據(jù)、業(yè)務營收數(shù)據(jù)、業(yè)務互動數(shù)據(jù)當中的至少一項。

如圖6所示,還包括:

用戶維度單元,用于從用戶的客戶端收集運營主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當中的至少一項。

如圖6所示,所述基維度排序單元,包括:

基維度收集單元,用于根據(jù)預設的特征值累計重要性閾值,獲取由至少一項排名前數(shù)位的基維度組成的基維度集合。

圖6與圖2相對應,圖中各個單元的運行方式與方法中的相同。

本裝置/模塊介紹基維度的生成算法,思路如下:

給定p個樣本,每個樣本通過q個運營維度來衡量刻畫。對于每個樣本x,可以看成是一個q維的坐標空間{h1,h2,...,hq}的一個向量(如圖1中的一個點向量)??紤]到原有的q個維度間存在關聯(lián)和信息冗余,即||hi||2=1,hithj≠0;其中||×||2是l2正則化的數(shù)學符號。

假設基維度有s維,這些基維度是原有維度高保真的壓縮,即s<<q。對于樣本x,為了保留原有的所有信息量(即各種統(tǒng)計特性),可以做空間的等價變換(包括平移,旋轉,縮放;該類操作不會造成信息丟失);所作變換記做m。經(jīng)過變換后,樣本x可以看成是一個s維基維度的坐標空間{w1,w2,...,ws}中的一個向量經(jīng)過該變換后,向量所含信息量等價于向量其中s個基維度之間不存在關聯(lián)和信息冗余,即其中||×||2是l2正則化的數(shù)學符號。

從以上分析可知,基維度構造的關鍵就是要找到一種等價變換的方法m,讓樣本向量x從q個運營維度坐標空間{h1,h2,...,hq}中,信息保真地映射到s維的坐標空間{w1,w2,...,ws}中,即mth→w;在新維度之間不存在關聯(lián)和信息冗余,即其中變換m對應的列向量就是每個基維度的構建方法。

換句話說,基維度的構建方法可以看成是一種信息壓縮的過程。即從多個有信息重疊/冗余的運營維度中,抽取出信息重疊最大的部分作為一個新維度(被稱作一個基維度),這可以看成是對冗余的維度做一次信息壓縮。類似地,抽取第二大重疊的部分作為第二個新維度;如此類推,最終生成s個基維度。為了找出維度間的信息重疊,本發(fā)明采用空間等價變換的方式。

所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1