高維數(shù)據(jù)降維方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及高維數(shù)據(jù)降維方法及裝置。
【背景技術(shù)】
[0002]高維數(shù)據(jù)降維技術(shù)主要是采用某種映射方法,將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維空間中并保持?jǐn)?shù)據(jù)的某種原始特性,通常作為機(jī)器學(xué)習(xí)的預(yù)處理步驟。高維數(shù)據(jù)降維技術(shù)已被廣泛應(yīng)用,如應(yīng)用到圖像識(shí)別、文本挖掘、基因數(shù)據(jù)分析、文本分類、圖像檢索、和消費(fèi)者關(guān)系管理等應(yīng)用中,隨著數(shù)據(jù)的數(shù)量和維數(shù)都急劇增加,特別是大數(shù)據(jù)時(shí)代的到來(lái),這種數(shù)據(jù)的海量性和高維災(zāi)難使得大量機(jī)器學(xué)習(xí)算法在可測(cè)量性和學(xué)習(xí)性能方面產(chǎn)生嚴(yán)重問(wèn)題,使得高維數(shù)據(jù)降維處理成為重要的分析工具之一。
[0003]然而現(xiàn)有所有高維數(shù)據(jù)降維方法都是一種有損信息降維,不能反映高維數(shù)據(jù)的本征低維空間,即高維空間的某些特征在低維空間中不能得以保存?,F(xiàn)在的高維數(shù)據(jù)包含了很多冗余特征或維屬性,這些特征或?qū)傩缘拇嬖?,不僅影響數(shù)據(jù)的高維特性,也為高維數(shù)據(jù)的有效分析,造成了諸多麻煩,如何有效的剔除這些冗余特征或?qū)傩允箶?shù)據(jù)達(dá)到其本征低維空間是大數(shù)據(jù)分析的一項(xiàng)重要任務(wù)之一。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供高維數(shù)據(jù)降維方法及裝置,使得得到的本證低維空間能很好的反映高維空間中高維數(shù)據(jù)的特征。
[0005]本發(fā)明實(shí)施例第一方面提供一種高維數(shù)據(jù)降維方法,包括:
[0006]確定高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖,所述優(yōu)先關(guān)系圖用于表示所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)之間的優(yōu)先關(guān)系;
[0007]根據(jù)所述優(yōu)先關(guān)系圖進(jìn)行圖染色操作,將得到的染色數(shù)作為所述高維數(shù)據(jù)對(duì)象的本征低維空間的本征維數(shù);
[0008]根據(jù)所述優(yōu)先關(guān)系圖確定所述高維數(shù)據(jù)對(duì)象的多組優(yōu)先序列組,所述優(yōu)先序列組的數(shù)量與所述本征維數(shù)一致;所述優(yōu)先序列組是由按照優(yōu)先關(guān)系進(jìn)行排序的所述高維數(shù)據(jù)對(duì)象中的數(shù)據(jù)組成;
[0009]分別對(duì)所述多組優(yōu)先序列組中的數(shù)據(jù)進(jìn)行編碼;
[0010]將所述高維數(shù)據(jù)對(duì)象中一個(gè)數(shù)據(jù)在各組優(yōu)先序列組中的編碼組成所述本征低維空間的一個(gè)數(shù)據(jù)向量。
[0011]本發(fā)明實(shí)施例第一方面的第一種可能實(shí)現(xiàn)方式中,所述優(yōu)先關(guān)系圖中包括節(jié)點(diǎn)、及節(jié)點(diǎn)與節(jié)點(diǎn)之間的優(yōu)先關(guān)系;
[0012]其中,如果一個(gè)節(jié)點(diǎn)優(yōu)于另一節(jié)點(diǎn),則所述一個(gè)節(jié)點(diǎn)為另一節(jié)點(diǎn)的父節(jié)點(diǎn),所述另一節(jié)點(diǎn)為所述一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn);所述節(jié)點(diǎn)用于表示所述高維數(shù)據(jù)對(duì)象中的數(shù)據(jù);兩個(gè)節(jié)點(diǎn)之間的優(yōu)先關(guān)系用于表示所述兩個(gè)節(jié)點(diǎn)所表示數(shù)據(jù)之間的優(yōu)先關(guān)系。
[0013]結(jié)合本發(fā)明實(shí)施例第一方面的第一種可能實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第二種可能實(shí)現(xiàn)方式中,所述確定高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖,之后還包括:
[0014]根據(jù)預(yù)置的策略合并所述優(yōu)先關(guān)系圖得到優(yōu)化后的優(yōu)先關(guān)系圖,其中,所述預(yù)置的策略包括:將父節(jié)點(diǎn)相同且子節(jié)點(diǎn)相同的多個(gè)節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn);和/或,如果第一節(jié)點(diǎn)為第二節(jié)點(diǎn)的父節(jié)點(diǎn),且第二節(jié)點(diǎn)為第三節(jié)點(diǎn)的父節(jié)點(diǎn),則合并為第一節(jié)點(diǎn)為第三節(jié)點(diǎn)的父節(jié)點(diǎn);
[0015]對(duì)應(yīng)地,所述根據(jù)所述優(yōu)先關(guān)系圖進(jìn)行圖染色操作包括:根據(jù)所述優(yōu)化后的優(yōu)先關(guān)系圖進(jìn)行圖染色操作。
[0016]結(jié)合本發(fā)明實(shí)施例第一方面,或第一方面的第一種到第二種可能實(shí)現(xiàn)方式中任一種實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第三種可能實(shí)現(xiàn)方式中,所述確定高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖,具體包括:
[0017]接收用戶輸入的偏好關(guān)系集合,所述偏好關(guān)系集合中包括N維數(shù)據(jù)關(guān)系信息,其中任意一維數(shù)據(jù)關(guān)系信息中包括所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)之間的優(yōu)先關(guān)系信息;
[0018]如果所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)中的第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系滿足第一預(yù)置條件,則確定所述第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系為第一類優(yōu)先關(guān)系;所述第一類優(yōu)先關(guān)系包括一個(gè)數(shù)據(jù)優(yōu)于另一數(shù)據(jù);
[0019]根據(jù)所述確定的第一類優(yōu)先關(guān)系確定所述優(yōu)先關(guān)系圖;
[0020]其中,所述第一預(yù)置條件包括:在M維所述數(shù)據(jù)關(guān)系信息中,第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系在每一維所述數(shù)據(jù)關(guān)系信息中的優(yōu)先關(guān)系都相同,且都為第一類優(yōu)先關(guān)系,所述M大于預(yù)置的值,且小于或等于所述N。
[0021]結(jié)合本發(fā)明實(shí)施例第一方面第一種或第二種可能實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第四種可能實(shí)現(xiàn)方式中,所述確定高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖具體包括:
[0022]根據(jù)所述高維數(shù)據(jù)對(duì)象中的第一部分?jǐn)?shù)據(jù)確定所述第一部分?jǐn)?shù)據(jù)之間的初始優(yōu)先關(guān)系圖;
[0023]隨機(jī)選取所述第一部分?jǐn)?shù)據(jù)中的任一數(shù)據(jù)為參考數(shù)據(jù);
[0024]遍歷所述高維數(shù)據(jù)對(duì)象中除所述第一部分?jǐn)?shù)據(jù)之外的第二部分?jǐn)?shù)據(jù),根據(jù)所述參考數(shù)據(jù)與所述第二部分?jǐn)?shù)據(jù)之間的優(yōu)先關(guān)系,確定所述第二部分?jǐn)?shù)據(jù)添加到初始優(yōu)先關(guān)系圖中的位置;
[0025]根據(jù)所述確定的位置將所述第二部分?jǐn)?shù)據(jù)添加到所述初始優(yōu)先關(guān)系圖。
[0026]結(jié)合本發(fā)明實(shí)施例第一方面的第四種可能實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第五種可能實(shí)現(xiàn)方式中,所述根據(jù)所述參考數(shù)據(jù)與所述第二部分?jǐn)?shù)據(jù)之間的優(yōu)先關(guān)系,確定所述第二部分?jǐn)?shù)據(jù)添加到初始優(yōu)先關(guān)系圖中的位置,具體包括:
[0027]如果所述第二部分?jǐn)?shù)據(jù)中第三數(shù)據(jù)與所述參考數(shù)據(jù)之間的優(yōu)先關(guān)系滿足第二預(yù)置條件,則如果在所述初始優(yōu)先關(guān)系圖中,作為所述參考數(shù)據(jù)的父節(jié)點(diǎn)數(shù)據(jù)的第四數(shù)據(jù)優(yōu)于所述第三數(shù)據(jù),則確定所述第三數(shù)據(jù)為所述第四數(shù)據(jù)的子節(jié)點(diǎn)數(shù)據(jù),且確定所述第四數(shù)據(jù)的所有子節(jié)點(diǎn)數(shù)據(jù)中劣于所述第三數(shù)據(jù)的子節(jié)點(diǎn)數(shù)據(jù)為所述第三數(shù)據(jù)的子節(jié)點(diǎn)數(shù)據(jù);如果所述第三數(shù)據(jù)優(yōu)于第四數(shù)據(jù),且所述第四數(shù)據(jù)不存在父節(jié)點(diǎn)數(shù)據(jù),則確定所述第三數(shù)據(jù)為所述第四數(shù)據(jù)的父節(jié)點(diǎn)數(shù)據(jù);
[0028]如果所述第三數(shù)據(jù)與所述參考數(shù)據(jù)之間的優(yōu)先關(guān)系滿足第三預(yù)置條件,則如果在所述初始優(yōu)先關(guān)系圖中,作為所述參考數(shù)據(jù)的子節(jié)點(diǎn)數(shù)據(jù)的第五數(shù)據(jù)優(yōu)于所述第三數(shù)據(jù),且所述第五數(shù)據(jù)不存在子節(jié)點(diǎn)數(shù)據(jù),則確定所述第三數(shù)據(jù)為所述第五數(shù)據(jù)的子節(jié)點(diǎn)數(shù)據(jù);如果所述第三數(shù)據(jù)優(yōu)于第五數(shù)據(jù),則確定所述第三數(shù)據(jù)為所述第五數(shù)據(jù)的父節(jié)點(diǎn)數(shù)據(jù),且確定所述第五數(shù)據(jù)的所有父節(jié)點(diǎn)數(shù)據(jù)中優(yōu)于所述第三數(shù)據(jù)的父節(jié)點(diǎn)數(shù)據(jù)為所述第三數(shù)據(jù)的父節(jié)點(diǎn)數(shù)據(jù);
[0029]其中,所述第二預(yù)置條件包括所述第三數(shù)據(jù)優(yōu)于所述參考數(shù)據(jù),所述第三預(yù)置條件包括所述參考數(shù)據(jù)優(yōu)于所述第三數(shù)據(jù)。
[0030]結(jié)合本發(fā)明實(shí)施例第一方面,或第一方面的第一種到第五種可能實(shí)現(xiàn)方式中任一種實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第六種可能實(shí)現(xiàn)方式中,所述根據(jù)所述優(yōu)先關(guān)系圖進(jìn)行圖染色操作,具體包括:
[0031]找出所述優(yōu)先關(guān)系圖或所述優(yōu)化后的優(yōu)先關(guān)系圖中優(yōu)先關(guān)系為第二類優(yōu)先關(guān)系的多組數(shù)據(jù)對(duì),所述第二類優(yōu)先關(guān)系為第一數(shù)據(jù)不優(yōu)于第二數(shù)據(jù),且所述第二數(shù)據(jù)也不優(yōu)于第一數(shù)據(jù);
[0032]在所述多組數(shù)據(jù)對(duì)中的一組數(shù)據(jù)對(duì)中的兩個(gè)數(shù)據(jù)之間建立所述第一類優(yōu)先關(guān)系,使得所述多組數(shù)據(jù)對(duì)中的另一組數(shù)據(jù)對(duì)中的兩個(gè)數(shù)據(jù)之間為第一類優(yōu)先關(guān)系;
[0033]將所述建立的所述第一類優(yōu)先關(guān)系的數(shù)據(jù)對(duì),及所述多組數(shù)據(jù)對(duì)中未建立所述第一類優(yōu)先關(guān)系的數(shù)據(jù)對(duì)作為節(jié)點(diǎn),進(jìn)行圖染色操作;
[0034]對(duì)應(yīng)地,所述根據(jù)所述優(yōu)先關(guān)系圖確定所述高維數(shù)據(jù)對(duì)象中數(shù)據(jù)的多組優(yōu)先序列組,具體包括:
[0035]根據(jù)所述優(yōu)先關(guān)系圖中數(shù)據(jù)之間的第一類優(yōu)先關(guān)系和所述建立的第一類優(yōu)先關(guān)系,確定所述多組優(yōu)先序列組。
[0036]結(jié)合本發(fā)明實(shí)施例第一方面,或第一方面的第一種到第六種可能實(shí)現(xiàn)方式中任一種實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第一方面的第七種可能實(shí)現(xiàn)方式中,所述分別對(duì)所述多組優(yōu)先序列組中的數(shù)據(jù)編碼,具體包括:
[0037]對(duì)于所述多組優(yōu)先序列組中的第一優(yōu)先序列組中相鄰的兩個(gè)數(shù)據(jù),在所述多組優(yōu)先序列組中除所述第一優(yōu)先序列組之外的其它優(yōu)先序列組中,如果所述兩個(gè)數(shù)據(jù)不相鄰,且所述兩個(gè)數(shù)據(jù)的優(yōu)先關(guān)系與其在所述第一優(yōu)先序列組中的相對(duì)排序順序相同,則所述兩個(gè)數(shù)據(jù)在所述第一優(yōu)先序列組中的編碼相同;
[0038]如果所述兩個(gè)數(shù)據(jù)不相鄰,且所述兩個(gè)數(shù)據(jù)的優(yōu)先關(guān)系與其在所述第一優(yōu)先序列組中的相對(duì)排序順序不同,則所述兩個(gè)數(shù)據(jù)在所述第一優(yōu)先序列組中的編碼不同。
[0039]本發(fā)明實(shí)施例第二方面提供一種高維數(shù)據(jù)降維裝置,包括:
[0040]優(yōu)先圖確定單元,用于確定高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖,所述優(yōu)先關(guān)系圖用于表示所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)之間的優(yōu)先關(guān)系;
[0041]染色單元,用于根據(jù)所述優(yōu)先圖確定單元確定的優(yōu)先關(guān)系圖進(jìn)行圖染色操作,將得到的染色數(shù)作為所述高維數(shù)據(jù)對(duì)象的本征低維空間的本征維數(shù);
[0042]序列組確定單元,用于根據(jù)所述優(yōu)先圖確定單元確定的優(yōu)先關(guān)系圖確定所述高維數(shù)據(jù)對(duì)象的多組優(yōu)先序列組,所述優(yōu)先序列組的數(shù)量與所述本征維數(shù)一致,所述優(yōu)先序列組是由按照優(yōu)先關(guān)系進(jìn)行排序的所述高維數(shù)據(jù)對(duì)象中的數(shù)據(jù)組成;
[0043]編碼單元,用于分別對(duì)所述序列組確定單元確定的多組優(yōu)先序列組中的數(shù)據(jù)進(jìn)行編碼;
[0044]低維形成單元,用于根據(jù)所述編碼單元的編碼,將所述高維數(shù)據(jù)對(duì)象中一個(gè)數(shù)據(jù)在各組優(yōu)先序列組中的編碼組成所述本征低維空間的一個(gè)數(shù)據(jù)向量。
[0045]本發(fā)明實(shí)施例第二方面的第一種可能實(shí)現(xiàn)方式中,所述優(yōu)先關(guān)系圖中包括節(jié)點(diǎn)、及節(jié)點(diǎn)與節(jié)點(diǎn)之間的優(yōu)先關(guān)系;
[0046]其中,如果一個(gè)節(jié)點(diǎn)優(yōu)于另一節(jié)點(diǎn),則所述一個(gè)節(jié)點(diǎn)為另一節(jié)點(diǎn)的父節(jié)點(diǎn),所述另一節(jié)點(diǎn)為所述一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn);所述節(jié)點(diǎn)用于表示所述高維數(shù)據(jù)對(duì)象中的數(shù)據(jù);兩個(gè)節(jié)點(diǎn)之間的優(yōu)先關(guān)系用于表示所述兩個(gè)節(jié)點(diǎn)所表示數(shù)據(jù)之間的優(yōu)先關(guān)系。
[0047]結(jié)合本發(fā)明實(shí)施例第二方面的第一種可能實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第二方面的第二種可能實(shí)現(xiàn)方式中,所述裝置還包括:
[0048]優(yōu)化單元,用于根據(jù)預(yù)置的策略合并所述優(yōu)先圖確定單元確定的優(yōu)先關(guān)系圖得到優(yōu)化后的優(yōu)先關(guān)系圖;
[0049]其中,所述預(yù)置的策略包括:將父節(jié)點(diǎn)相同且子節(jié)點(diǎn)相同的多個(gè)節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn);和/或,如果第一節(jié)點(diǎn)為第二節(jié)點(diǎn)的父節(jié)點(diǎn),且第二節(jié)點(diǎn)為第三節(jié)點(diǎn)的父節(jié)點(diǎn),則合并為第一節(jié)點(diǎn)為第三節(jié)點(diǎn)的父節(jié)點(diǎn);
[0050]所述染色單元,具體用于根據(jù)所述優(yōu)化單元優(yōu)化后的優(yōu)先關(guān)系圖進(jìn)行圖染色操作。
[0051]結(jié)合本發(fā)明實(shí)施例第二方面,或第二方面的第一種到第二種可能實(shí)現(xiàn)方式中任一種實(shí)現(xiàn)方式,在本發(fā)明實(shí)施例第二方面的第三種可能實(shí)現(xiàn)方式中,所述優(yōu)先圖確定單元,具體包括:
[0052]接收單元,用于接收用戶輸入的偏好關(guān)系集合,所述偏好關(guān)系集合中包括N維數(shù)據(jù)關(guān)系信息,其中任意一維數(shù)據(jù)關(guān)系信息中包括所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)之間的優(yōu)先關(guān)系信息;
[0053]關(guān)系確定單元,用于如果所述高維數(shù)據(jù)對(duì)象中任意兩個(gè)數(shù)據(jù)中的第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系滿足第一預(yù)置條件,則確定所述第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系為第一類優(yōu)先關(guān)系,根據(jù)所述確定的第一類優(yōu)先關(guān)系確定所述高維數(shù)據(jù)對(duì)象的優(yōu)先關(guān)系圖;所述第一類優(yōu)先關(guān)系包括一個(gè)數(shù)據(jù)優(yōu)于另一數(shù)據(jù);
[0054]其中,所述第一預(yù)置條件包括:在M維所述數(shù)據(jù)關(guān)系信息中,第一數(shù)據(jù)和第二數(shù)據(jù)之間的優(yōu)先關(guān)系在每一維所述數(shù)據(jù)