像的深度學習模型,可利用空間關系 減少需要學習的參數數目W提高一般前向BP算法的訓練性能。由于CNN的特征檢測層通過 訓練數據進行學習,所W在使用C順時,避免了顯式的特征抽取,而隱式地從訓練數據中進 行學習;并且卷積神經網絡W其局部權值共享的特殊結構在圖像處理方面有著獨特的優(yōu)越 性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性,特別是多維輸入 向量的圖像可W直接輸入網絡運一特點避免了特征提取和分類過程中數據重建的復雜度。
[0031] 最后,由于深度卷積神經網絡模型的卷積層計算量大,全連接層參數多,可將一個 完整深度卷積網絡的計算拆分到多個GPU上進行合理調度來并行地執(zhí)行,通過模型并行和 數據并行運兩個數據/計算組織層次上來加速訓練,同時能快速針對特定污染物目標的識 另IJ、檢測、跟蹤和行為分析。
[0032] 本發(fā)明所采用的關鍵技術如下:
[0033] -、海量遙感影像數據分布式處理關鍵技術
[0034] 構建一個TB級甚至PB級的海量遙感影像數據分布式存儲與處理系統(tǒng),需要有自適 應的數據劃分方式、良好的負載均衡策略來滿足數據、用戶規(guī)模的不斷增長需求。同時,在 保證系統(tǒng)可靠性的同時,需要權衡數據一致性與數據可用性,來滿足互聯(lián)網應用低延時、高 吞吐率的特點。因此本發(fā)明主要從數據劃分、數據一致性與可用性、負載均衡、容錯機制等 四個主要方面來構建一個高可靠、可擴展的海量數據存儲系統(tǒng)。
[0035] 在分布式環(huán)境下,數據存儲需要跨越多個存儲單元。如何進行數據的劃分是影響 擴展性,負載平衡,W及系統(tǒng)性能的關鍵問題。為了提供低延時的系統(tǒng)響應,抑制系統(tǒng)性能 的瓶頸,系統(tǒng)必須在用戶請求到來時將請求進行合理分發(fā)。在數據劃分方面,采用一致性哈 希的方式進行劃分。主要通過Consistent化shing算法進行。Κ巧經過hash函數哈希得到 值,按照值域首尾相接形成一個ring。運個化sh值形成的ring被劃分成不同的范圍,分配給 集群系統(tǒng)中的不同節(jié)點進行管理。當對數據進行請求(讀取/插入)時,通過計算該key/ value中k巧的hash值,定位到相應的節(jié)點進行服務請求。整個過程如附圖2所示。
[0036] 采用一致性哈希進行數據劃分的優(yōu)勢還在于,一致性哈希最大限度地抑制了節(jié)點 變化(添加/移除)時數據需要進行遷移重新分布的數量,運有利于系統(tǒng)的擴展性。如附圖3 所示,當前系統(tǒng)訪問壓力過大時,通過增加新的節(jié)點可W緩解壓力;而此時,新節(jié)點的加入 僅僅影響它的鄰居節(jié)點,避免了大量數據進行遷移的開銷。
[0037] 數據可用性是分布式環(huán)境下數據存儲的基石;而數據一致性模型則保證數據操作 的正確性。在分布式環(huán)境下,將采用副本冗余、日志等方式來解決數據的可用性問題;但是 副本冗余存儲會帶來了數據一致性的問題。在采用副本冗余方式的分布式系統(tǒng)中,數據一 致性與系統(tǒng)性能是一對不可調和的矛盾:需要犧牲系統(tǒng)的性能來保證數據的嚴格一致性, 或者犧牲一致性來保證系統(tǒng)的性能(響應時間等)。在視頻數據的挖掘應用中,可W采用第 二種手段來調和運種矛盾,即允許系統(tǒng)通過弱化一致性模型來保證高效的系統(tǒng)響應,同時 通過異步復制的手段來保證數據的可用性。
[0038] 有效的數據劃分方式為系統(tǒng)擴展性提供了一個基礎,但是同時也給系統(tǒng)帶來了負 載均衡的問題。負載均衡是分布式環(huán)境下進行高效數據管理的關鍵問題。它主要包括數據 的均衡和訪問壓力的均衡運兩個方面。在訪問壓力均衡方面,采用虛擬節(jié)點技術,通過虛擬 化的手段將節(jié)點的服務能力單元化,將訪問壓力較大的虛擬節(jié)點映射到服務能力較強的物 理節(jié)點,W達到訪問壓力的均衡目的。訪問壓力的均衡伴同時伴隨著數據的均衡。為了使數 據均衡過程中,數據遷移的開銷盡可能小,可采用同樣的虛擬化技術,量化節(jié)點的存儲能 力,將虛擬后的存儲節(jié)點相對均勻地分散到集群哈希環(huán)上,避免數據均衡過程中全環(huán)的數 據移動。在非集中式系統(tǒng)中,運些均衡操作可W由任一節(jié)點發(fā)起,通過gossip通訊機制與集 群中的其他節(jié)點協(xié)調完成。通過虛擬化節(jié)點或者表分裂等方式改變數據分布格局,均衡訪 問負載的同時,將盡可能減少存儲數據遷移量或者避免數據遷移。
[0039] 容錯是分布式系統(tǒng)健壯性的標志。通過制定節(jié)點的失效偵測方法W及失效恢復方 法可保證系統(tǒng)的可用性、可靠性。在失效偵測方面,非集中式系統(tǒng)中,各節(jié)點之間定期進行 交互W 了解節(jié)點的活動狀態(tài),從而偵測失效的存在;而在系統(tǒng)偵測到失效節(jié)點的存在后,需 要一定的恢復策略來完成對失效節(jié)點的恢復,保證系統(tǒng)的可用性和可靠性。在分布式系統(tǒng) 中,節(jié)點的失效分為臨時失效(如網絡分區(qū)等)和永久失效(如節(jié)點巖機、磁盤損壞等)兩種 情況。在副本冗余存儲的分布式系統(tǒng)中,失效通常會造成了多副本之間的數據不一致,運時 候需要對失效節(jié)點的數據進行同步來完成失效的恢復。同時,永久失效通常會造成失效節(jié) 點內存中數據的丟失,日志重做通常是解決運類問題的一種辦法。當然,具體的失效恢復策 略在不同的系統(tǒng)中又各有特色。在此,臨時失效和永久失效被區(qū)別對待。在臨時失效發(fā)生 時,將會把數據暫時放置在臨時節(jié)點,待節(jié)點從臨時失效中恢復過來后,數據將歸還給目標 節(jié)點。對于永久失效帶來的數據不一致,通過對失效節(jié)點的數據進行同步來完成失效恢復。
[0040] 二、面向遙感影像的深度學習模型-卷積神經網絡CNN
[0041] 卷積神經網絡是人工神經網絡的一種,它的權值共享網絡結構使之更類似于生物 神經網絡,降低了網絡模型的復雜度,減少了權值的數量。其優(yōu)點在網絡的輸入是多維圖像 時表現(xiàn)的更為明顯,使圖像可w直接作為網絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征 提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,運種網 絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
[0042] 其核屯、思想是將:局部感受野、權值共享(或者權值復制)W及時間或空間亞采樣 運Ξ種結構思想結合起來獲得了某種程度的位移、尺度、形變不變性。
[0043] 卷積神經網絡是一個多層的神經網絡,每層由多個二維平面組成,而每個平面由 多個獨立神經元組成。
[0044] 如附圖4所示,卷積神經網絡訓練過程:輸入圖像通過和Ξ個可訓練的濾波器和可 加偏置進行卷積,濾波過程如,卷積后在C1層產生Ξ個特征映射圖,然后特征映射圖中每組 的四個像素再進行求和,加權值,加偏置,通過一個Sigmoid函數得到Ξ個S2層的特征映射 圖。運些映射圖再進過濾波得到C3層。運個層級結構再和S2-樣產生S4。最終,運些像素值 被光柵化,并連接成一個向量輸入到傳統(tǒng)的神經網絡,得到輸出。
[0045] 通常,C層為特征提取層,每個神經元的輸入與前一層的局部感受野相連,并提取 該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來;S 層是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射為一個平面,平面 上所有神經元的權值相等。特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡 的激活函數,使得特征映射具有位移不變性。
[0046] 此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數的個數,降 低了網絡參數選擇的復雜度。卷積神經網絡中的每一個特征提取層(C-層)都緊跟著一個用 來求局部平均與二次提取的計算層(S-層),運種特有的兩次特征提取結構使網絡在識別時 對輸入樣本有較高的崎變容忍能力。
[0047] 假設如果當前有1000x1000像素的圖像,有1百萬個隱層神經元,那么全連接的話 (每個隱層神經元都連接圖像的每一個像素點),就有1〇〇〇*1〇〇〇*1〇〇〇〇〇〇 = 1〇12個連接,也 就是1〇12個權值參數。然而圖像的空間聯(lián)系是局部的,每一個神經元都不需要對全局圖像做 感受,每個神經元只感受局部的圖像區(qū)域,然后在更高層,將運些感受不同局部的神經元綜 合起來就可W