亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的方法

文檔序號(hào):9631565閱讀:492來(lái)源:國(guó)知局
用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的方法,更具體地,涉及 一種利用樹結(jié)構(gòu)、截?cái)嗨惴?、劃分方案以及分布式處理系統(tǒng)來(lái)統(tǒng)計(jì)顯著性模式的搜索大數(shù) 據(jù)空間的方法。本發(fā)明的應(yīng)用包括但不限于在分布式處理系統(tǒng)上處理大數(shù)據(jù),例如社會(huì)媒 體數(shù)據(jù)、科研數(shù)據(jù)以及工業(yè)處理數(shù)據(jù)。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)分析時(shí)代,自動(dòng)發(fā)現(xiàn)定性和定量統(tǒng)計(jì)顯著性模式已經(jīng)成為一項(xiàng)基本任 務(wù)。然而,隨著現(xiàn)有數(shù)據(jù)量的日益增長(zhǎng),尤其是當(dāng)數(shù)據(jù)太大而不能存儲(chǔ)于單個(gè)計(jì)算機(jī)時(shí),發(fā) 現(xiàn)完整的固有模式和規(guī)律被證明是很重要的,尤其是當(dāng)域知識(shí)不可用、太薄弱或者不理想 時(shí)的假設(shè)生成階段。
[0003] 假設(shè)分析域由N個(gè)屬性(特征或變量)表示。對(duì)于該N個(gè)屬性中的每個(gè)屬性,都 具有可能值的值域。模式發(fā)現(xiàn)的目的在于通過(guò)觀察到的發(fā)生發(fā)現(xiàn)該屬性和/或其值之間的 關(guān)系。如果該關(guān)系本身是統(tǒng)計(jì)的,并且我們需要努力發(fā)現(xiàn)統(tǒng)計(jì)顯著性關(guān)系,該模式就變成利 用包含Μ個(gè)觀察數(shù)據(jù)(樣品或記錄)的觀察集D,在由N個(gè)屬性作為特征的域內(nèi)搜索統(tǒng)計(jì)顯 著性關(guān)系的過(guò)程。
[0004] 首先,嚴(yán)格意義來(lái)講,在統(tǒng)計(jì)模式發(fā)現(xiàn)中,高階模式不會(huì)由低階模式引出,反之亦 然。這意味著只有通過(guò)統(tǒng)計(jì)顯著性檢驗(yàn)的模式才算是模式。從另一角度看,它意味著必須對(duì) 整個(gè)問(wèn)題域進(jìn)行探索。在處理窮舉檢索尚為可行的小問(wèn)題域中,這種現(xiàn)象重要性較低。然 而當(dāng)處理的問(wèn)題域變大時(shí),我們就要面對(duì)嚴(yán)峻的考驗(yàn)。
[0005] 由于維數(shù)的原因,對(duì)不同階的候選項(xiàng)進(jìn)行窮舉域檢索不再可行。減小搜索空間的 策略變得有必要。此外,如果域非常大,則在單計(jì)算單元上運(yùn)行搜索空間減小策略在計(jì)算上 又會(huì)變得不可行。理想化地,解決方案應(yīng)該是允許大量獨(dú)立的候選項(xiàng)生成輔助在子域同時(shí) 工作,同時(shí)不會(huì)彼此影響的分布式算法。對(duì)于較大的問(wèn)題,工作輔助的數(shù)量會(huì)增加,而對(duì)于 較小的問(wèn)題,工作輔助的數(shù)量會(huì)減少。從統(tǒng)計(jì)檢驗(yàn)角度上看,數(shù)據(jù)的原子操作為對(duì)出現(xiàn)次數(shù) 計(jì)數(shù)。當(dāng)數(shù)據(jù)變大時(shí),尤其是當(dāng)數(shù)據(jù)不能存儲(chǔ)在單個(gè)計(jì)算單元的主存儲(chǔ)器或者甚至本地物 理存儲(chǔ)時(shí),發(fā)生次數(shù)計(jì)數(shù)的性能就會(huì)受到影響。
[0006] 需要提供一種以分布且可擴(kuò)展的方式為高階統(tǒng)計(jì)模式搜索大數(shù)據(jù)空間的改進(jìn)的 系統(tǒng)和方法,從而提供一種利用傳統(tǒng)計(jì)算設(shè)備分析極大數(shù)據(jù)集合的能力。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明實(shí)施例提供了一種用于搜索不同階模式候選項(xiàng)的大數(shù)據(jù)域的自組織候選 項(xiàng)樹算法,該算法利用多種輔助可支持分布計(jì)算。在數(shù)據(jù)域中具有排好序的原子事件列表, 符合要求的樹結(jié)點(diǎn)通過(guò)將其右側(cè)的兄弟結(jié)點(diǎn)一一如果存在的話一一變成其子結(jié)點(diǎn),生長(zhǎng)到 下一階(生成下一階)。
[0008] 有益地,通過(guò)這種方式創(chuàng)建的候選項(xiàng)列表可以保證不會(huì)遺漏潛在的候選項(xiàng),同時(shí), 也不存在被重復(fù)檢驗(yàn)的候選項(xiàng)。
[0009]此外,從任何一個(gè)符合條件的結(jié)點(diǎn)起,生成的更高階的候選項(xiàng)具有僅由該直接父 結(jié)點(diǎn)包含的信息,這就是它被命名為自組織樹的原因。在分布計(jì)算環(huán)境中,由于工作單元不 需要與其他結(jié)點(diǎn)通信,因此這是非常理想的。
[0010] 此外,本發(fā)明的實(shí)施例提供了一種候選項(xiàng)樹刪減策略,以刪除無(wú)信息候選項(xiàng),從而 避免窮舉搜索。該策略可在支持分布計(jì)算的本地樹分支上操作。如果不再對(duì)域的一個(gè)子空 間進(jìn)行探索,則根據(jù)刪減標(biāo)準(zhǔn)取消結(jié)點(diǎn),然后不會(huì)再生成該子空間的其他候選項(xiàng)。
[0011] 本發(fā)明實(shí)施例提供了一種數(shù)據(jù)劃分方法,該方法在多個(gè)分布計(jì)算存儲(chǔ)之間橫向分 布數(shù)據(jù),利用多種輔助有效地對(duì)發(fā)生次數(shù)計(jì)數(shù)。所有表格數(shù)據(jù)集合為橫向劃分的。每一個(gè) 劃分均具有所有屬性,但是只具有一部分觀察數(shù)據(jù),并且位于分布存儲(chǔ)系統(tǒng)如Hadoop分布 式文件系統(tǒng)的一個(gè)結(jié)點(diǎn)上。這種劃分策略可保證在對(duì)每個(gè)分段上的發(fā)生計(jì)數(shù)進(jìn)行總計(jì),從 而可以獲得完整的數(shù)據(jù)集合中的發(fā)生總計(jì)數(shù),這使得分布系統(tǒng)如HapoopMapReduce以及 Spark的計(jì)數(shù)操作極其有效。
[0012] 本發(fā)明實(shí)施例提供了一種用于從大數(shù)據(jù)集合中發(fā)現(xiàn)高階統(tǒng)計(jì)顯著性模式的分布 系統(tǒng)設(shè)計(jì)。該系統(tǒng)得益于多代理結(jié)構(gòu),并且可以通過(guò)添加新的計(jì)算和存儲(chǔ)結(jié)點(diǎn)處理任意大 數(shù)據(jù)集。
[0013] 考慮到一般性、通用性、有效性以及靈活性,本發(fā)明實(shí)施例非常適用于任意大數(shù)據(jù) 集合的自動(dòng)模式發(fā)現(xiàn)、假設(shè)生成、預(yù)測(cè)模型以及趨勢(shì)監(jiān)測(cè)。這在大數(shù)據(jù)分析、數(shù)據(jù)挖掘、社會(huì) 媒體分析、衛(wèi)生保健、生產(chǎn)以及需要數(shù)據(jù)分析的其他領(lǐng)域具有明顯應(yīng)用。
[0014] 根據(jù)本發(fā)明第一方面,提供了一種用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的方 法。該方法包括以下步驟:從具有多個(gè)觀察數(shù)據(jù)的數(shù)據(jù)集合中采集具有多個(gè)屬性的原始事 件;通過(guò)設(shè)置虛擬根,并以排序順序?qū)⒉煌瑢傩缘脑际录鳛樘摂M根的下一級(jí)別的結(jié)點(diǎn), 初始化樹結(jié)構(gòu);通過(guò)每次選擇結(jié)點(diǎn)中的一個(gè)葉結(jié)點(diǎn),并將被選擇葉結(jié)點(diǎn)右側(cè)的兄弟結(jié)點(diǎn)變 成其子結(jié)點(diǎn),每個(gè)葉結(jié)點(diǎn)逐次進(jìn)行,使樹結(jié)構(gòu)生長(zhǎng)到下一級(jí)別;通過(guò)從虛擬根遍歷到葉結(jié) 點(diǎn),從樹結(jié)構(gòu)中生成具有至少兩個(gè)具有不同屬性的原始事件的復(fù)合事件;驗(yàn)證每個(gè)復(fù)合事 件是否滿足預(yù)先確定的標(biāo)準(zhǔn);如果該復(fù)合事件不能滿足預(yù)先確定的標(biāo)準(zhǔn),則將包含該不符 合條件的復(fù)合事件的其他復(fù)合事件從樹結(jié)構(gòu)中取消;如果該復(fù)合事件滿足預(yù)先確定的標(biāo) 準(zhǔn),則它變成模式候選項(xiàng),然后驗(yàn)證該模式候選項(xiàng)是否為統(tǒng)計(jì)顯著性模式;以及在生長(zhǎng)樹結(jié) 構(gòu)的步驟后重復(fù)這些步驟,直到該樹結(jié)構(gòu)的級(jí)別達(dá)到預(yù)定義的階限制或者不能再生成新的 子結(jié)點(diǎn)。
[0015] 根據(jù)本發(fā)明第二方面,提供了一種用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的分布 式處理系統(tǒng)。該系統(tǒng)包括多個(gè)存儲(chǔ)結(jié)點(diǎn),該存儲(chǔ)結(jié)點(diǎn)用于存儲(chǔ)從具有多個(gè)觀察數(shù)據(jù)的數(shù)據(jù) 集合中劃分的數(shù)據(jù)片、從具有多個(gè)觀察數(shù)據(jù)的數(shù)據(jù)集合中采集具有多個(gè)屬性的原始事件, 并且通過(guò)設(shè)置虛擬根,并以排序順序?qū)⒃际录鳛樘摂M根的下一級(jí)別的葉結(jié)點(diǎn),初始化 樹結(jié)構(gòu),還包括多個(gè)計(jì)算結(jié)點(diǎn),該計(jì)算結(jié)點(diǎn)為屬于同一父結(jié)點(diǎn)的具有不同屬性的結(jié)點(diǎn)集合 而分配,并且為該結(jié)點(diǎn)集合執(zhí)行以下步驟:通過(guò)每次選擇結(jié)點(diǎn)組合中的一個(gè)葉結(jié)點(diǎn),并將被 選擇葉結(jié)點(diǎn)右側(cè)的兄弟結(jié)點(diǎn)變成其下一級(jí)別的子結(jié)點(diǎn),每個(gè)葉結(jié)點(diǎn)逐次進(jìn)行,使樹結(jié)構(gòu)生 長(zhǎng)到下一級(jí)別;從樹結(jié)構(gòu)中生成具有至少兩個(gè)具有不同屬性的原始事件的復(fù)合事件;驗(yàn)證 每個(gè)復(fù)合事件是否滿足預(yù)先確定的標(biāo)準(zhǔn);如果該復(fù)合事件不能滿足預(yù)先確定的標(biāo)準(zhǔn),則將 包含該不符合條件的復(fù)合事件的其他復(fù)合事件從樹結(jié)構(gòu)中取消;如果該復(fù)合事件滿足預(yù)先 確定的標(biāo)準(zhǔn),則將它變成模式候選項(xiàng),然后驗(yàn)證該候選項(xiàng)是否為統(tǒng)計(jì)顯著性模式;以及在生 長(zhǎng)樹結(jié)構(gòu)的步驟后重復(fù)這些步驟,直到該樹結(jié)構(gòu)的級(jí)別達(dá)到預(yù)定義的階限制或者不能再生 成子結(jié)點(diǎn)。
[0016] 根據(jù)本發(fā)明第三方面,提供了一種包括用于統(tǒng)計(jì)顯著性模式的搜索大數(shù)據(jù)空間的 程序代碼的計(jì)算機(jī)可讀介質(zhì)。該程序代碼執(zhí)行以下步驟:從具有多個(gè)觀察數(shù)據(jù)的數(shù)據(jù)集合 中采集具有屬性的原始事件;通過(guò)設(shè)置虛擬根,并以排序順序?qū)⒉煌瑢傩缘脑际录鳛?虛擬根的下一級(jí)別的葉結(jié)點(diǎn),初始化樹結(jié)構(gòu);通過(guò)每次選擇結(jié)點(diǎn)中的一個(gè)葉結(jié)點(diǎn),并將被選 擇葉結(jié)點(diǎn)右側(cè)的兄弟結(jié)點(diǎn)變成其下一級(jí)別的子結(jié)點(diǎn),使樹結(jié)構(gòu)生長(zhǎng)到下一級(jí)別;通過(guò)從虛 擬根遍歷到葉結(jié)點(diǎn),從樹結(jié)構(gòu)中生成具有至少兩個(gè)具有不同屬性的原始事件的復(fù)合事件; 驗(yàn)證每個(gè)復(fù)合事件是否滿足預(yù)先確定的標(biāo)準(zhǔn);如果該復(fù)合事件不能滿足預(yù)先確定的標(biāo)準(zhǔn), 則將包含該不符合條件的復(fù)合事件的其他復(fù)合事件從樹結(jié)構(gòu)中取消;如果該復(fù)合事件滿足 預(yù)先確定的標(biāo)準(zhǔn),則它變成模式候選項(xiàng),然后驗(yàn)證該候選項(xiàng)是否為統(tǒng)計(jì)顯著性模式;在生長(zhǎng) 樹結(jié)構(gòu)的步驟后重復(fù)這些步驟,直到該樹結(jié)構(gòu)的級(jí)別達(dá)到預(yù)定義的階限制或者不能再生成 子結(jié)點(diǎn)。
[0017] 通過(guò)下文詳細(xì)描述并結(jié)合附圖,本發(fā)明的特征和有益效果會(huì)更加明顯。從這方面 講,在詳細(xì)解釋本發(fā)明至少一個(gè)實(shí)施例之前,需要理解本發(fā)明的應(yīng)用并僅不限于下文描述 及其提供的示例中,或者附圖描述中提出的結(jié)構(gòu)細(xì)節(jié)以及元件的布置。本發(fā)明可能根據(jù)其 他實(shí)施例實(shí)現(xiàn),并且可以多種方式實(shí)現(xiàn)和執(zhí)行。此外,應(yīng)該理解此處采用的用語(yǔ)和術(shù)語(yǔ)僅做 描述和協(xié)助理解的目的,不作為對(duì)本發(fā)明的限制。
【附圖說(shuō)明】
[0018] 圖1A-1D描述了根據(jù)本發(fā)明一實(shí)施例的一種生成樹結(jié)構(gòu)的方法,其可用于通過(guò)提 取給定原始事件的所有組合以生成復(fù)合事件;
[0019] 圖2為描述利用自組織候選項(xiàng)樹和截?cái)喾桨赴l(fā)現(xiàn)統(tǒng)計(jì)模式的
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1