亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向物聯(lián)網智能感知的數(shù)據索引建立與查詢方法

文檔序號:6377825閱讀:305來源:國知局
專利名稱:面向物聯(lián)網智能感知的數(shù)據索引建立與查詢方法
技術領域
本發(fā)明涉及物聯(lián)網、傳感器數(shù)據管理、搜索引擎、信息檢索等領域,提出了一種能夠實時反映采樣數(shù)據狀態(tài)動態(tài)變化的、支持多種搜索模式(包括關鍵詞搜索、時空搜索、狀態(tài)值搜索)的物聯(lián)網搜索引擎方法。
背景技術
物聯(lián)網是目前國際和國內新興的一項熱門技術。物聯(lián)網可以將各類物品通過射頻識別(RFID)、傳感器件與設備、全球定位系統(tǒng)等種種裝置與互聯(lián)網結合起來并形成一個巨大的網絡,從而實現(xiàn)智能化的識別和管理,進而實現(xiàn)各類物品的遠程感知和控制,由此生成一個更加智慧的生產和生活體系。物聯(lián)網廣泛適用于智能交通、基礎測量、工程測量、國土資源調查、工業(yè)監(jiān)測、地災 監(jiān)測、環(huán)境保護、城市規(guī)劃、施工建設、政府工作、公共安全、智能消防等多個領域,被公認為是繼計算機、互聯(lián)網與移動通信網之后的世界信息產業(yè)第三次浪潮,開發(fā)應用前景巨大。據美國權威研究機構Forrester預測,物聯(lián)網所帶來的產業(yè)價值要比互聯(lián)網大30倍,將會形成下一個萬億元級別的信息通信技術業(yè)務。目前,世界各國對物聯(lián)網都進行了相關的研究,并部署了相應的研究計劃。然而,目前物聯(lián)網的研究與產業(yè)化還存在著諸多的局限性,大部分的工作還集中在物聯(lián)網中單個傳感器或小型傳感器網絡方面(如智能傳感器技術、壓縮傳感技術等),或者集中在物聯(lián)網硬件和網絡層面(如新型網絡互連技術、高通量服務器技術等),而對于物聯(lián)網欲與互聯(lián)網相比肩所面臨的核心問題,即海量異構傳感器數(shù)據的存儲與搜索技術的研究還比較有限??傮w上講,目前的物聯(lián)網技術尚處于發(fā)展的初級階段。從搜索引擎的角度來看,雖然目前的搜索引擎技術如目錄式搜索、關鍵詞搜索、多媒體搜索、對等搜索、智能搜索等已經比較成熟并獲得了非常成功的應用,但它們主要針對靜態(tài)或慢速變化的、主要由文本信息組成的網頁信息,并不適合于數(shù)據頻繁變化的、涉及多種非文本屬性的物聯(lián)網環(huán)境。具體說來,物聯(lián)網搜索引擎面臨的挑戰(zhàn)性問題如下(I)物聯(lián)網實時搜索的挑戰(zhàn)。物聯(lián)網環(huán)境下的數(shù)據主要是傳感器及監(jiān)控設備動態(tài)采集的監(jiān)控數(shù)據,這些數(shù)據呈現(xiàn)持續(xù)變化的動態(tài)特征,而傳統(tǒng)的搜索引擎一般采用周期性的、緩慢的索引更新方式,因此無法根據監(jiān)控對象的最新狀態(tài)搜索到所需要的數(shù)據。(2)物聯(lián)網時空搜索的挑戰(zhàn)。時空特性是物聯(lián)網數(shù)據的一個基本屬性,表現(xiàn)為每個采樣值都對應于一個采樣時間和一個采樣地點。因此,時空搜索是物聯(lián)網搜索的一個重要類型,如“查找所有在t時刻位于污染區(qū)域A中的車輛”、“查找所有位于區(qū)域G的溫度傳感器并報告它們的當前狀態(tài)”等?;跁r空條件的搜索并不是簡單的關鍵詞匹配,需要在搜索的過程中進行復雜的時空比較和計算。而目前的搜索引擎技術主要是基于關鍵詞匹配完成搜索過程的,因此無法提供對時空搜索的支持;(3)物聯(lián)網狀態(tài)值搜索的挑戰(zhàn)。物聯(lián)網中的傳感器采樣數(shù)據大部分是數(shù)值型的,如溫度采樣值、壓力采樣值、GPS采樣值等。基于狀態(tài)值的搜索是物聯(lián)網搜索的另一個重要類型,如“以時刻t和溫度值V為參考值,查找所有其采樣值與參考值近似的溫度傳感器”。在基于狀態(tài)值的搜索中,所查找的結果與給定的參考值t、V之間并不是完全的關鍵詞匹配關系,而是要通過相似度距離的計算,找出靠近參考值的匹配對象。上述基于值的相似度距離的匹配方式,使得傳統(tǒng)的基于關鍵詞精確匹配的搜索方法不能滿足要求。為了應對上述挑戰(zhàn),人們已經進行了一些嘗試性的工作,但是這些工作還非常的初步,具有諸多的局限。下面進行具體的分析(I)目前在實時搜索引擎方面所做的工作,如Snoogle、Microsearch、MAX等實驗系統(tǒng),均是基于傳感器所附加的文本信息進行搜索的,不能支持傳感器時空搜索和狀態(tài)值搜索。其原因在于,這些系統(tǒng)所采用的索引仍然是傳統(tǒng)搜索引擎系統(tǒng)中所采用的一維關鍵詞索引(通常是B+樹),當傳感器的文本信息發(fā)生變化時,通過對關鍵詞索引進行動態(tài)更新,從而實現(xiàn)對傳感器信息的實時搜索。在上述實時搜索引擎中,由于沒有建立時空索引和基于狀態(tài)值的索引,因此不能支持時空搜索和狀態(tài)值搜索。(2)目前在傳感器時空搜索引擎方面所做的工作,還只能支持對查詢時刻(即當前時刻)傳感器位置的搜索,而不能支持歷史位置的搜索。其原因在于,這些搜索引擎中只保留了傳感器的當前最新位置,而沒有保留其歷史位置隨時間變化的全過程。在物聯(lián)網搜索引擎中,僅僅支持當前時刻的位置是不夠的,許多時候我們需要針對傳感器歷史位置進行搜索。例如當發(fā)生一起車禍需要尋找目擊證人時,就需要針對過去的歷史位置信息進行搜索。然而,對歷史位置的存儲和搜索需要處理三維時空空間(即XXYXT三維空間,其中Χ、γ、τ分別為經度、緯度、時間的取值域)中的采樣點序列,這比單純地處理二維XXY平面上的地理位置點要復雜得多,因此增加了搜索引擎的實現(xiàn)難度,導致目前尚沒有能夠支持歷史位置的搜索引擎。(3)雖然在歷史與當前位置的存儲與查詢方面,可以部分借用移動對象數(shù)據庫領域的時空軌跡索引方法。但是,時空軌跡索引方法并不能不加改造地應用于物聯(lián)網環(huán)境下傳感器歷史位置的存儲與搜索,其原因在于移動對象數(shù)據庫中的時空軌跡對應于XXYXT空間中的一段曲線,其采集需要移動對象遵循一定的位置跟蹤協(xié)議、進行相對密集的數(shù)據采集,從而保證上述曲線與移動對象的實際位置相符,這在物聯(lián)網環(huán)境下是較難辦到的。例如,對于帶RFID或條形碼標簽的監(jiān)控對象來說,其位置采集是非常稀疏的,如果將相鄰采集點之間連接成線段,必將在推算采集點之間的位置時帶來很大的誤差。在物聯(lián)網環(huán)境下,由于位置信息的采集較為稀疏且并不遵循位置跟蹤協(xié)議,使得我們在搜索的過程中,只能以實際采集點為準,而不能將采集點連接成時空軌跡,從而導致了目前的移動對象軌跡索引方法不能直接適用于物聯(lián)網搜索引擎。(4)在傳感器狀態(tài)值的搜索方面,目前的工作僅能支持傳感器當前狀態(tài)值的搜索,不能支持歷史狀態(tài)值的搜索。其原因在于,這些搜索引擎中只保留了傳感器的當前最新狀態(tài)值,而沒有保留其歷史采樣值隨時間變化的全過程。在物聯(lián)網搜索引擎中,僅僅支持當前時刻的狀態(tài)是不夠的,許多時候我們需要針對傳感器歷史狀態(tài)進行搜索,從而實現(xiàn)對物理世界更加智能化的感知。例如為了分析某次化學品泄露事件所造成的影響,就需要對污染區(qū)域相關傳感器的歷史數(shù)據進行搜索和分析。然而,對歷史狀態(tài)值的存儲和搜索是一個巨大的挑戰(zhàn),因為每個采樣值加上時間屬性之后,就變成了 “采樣值X時間”(即VXT)平面中的一個點,使得搜索引擎中大量采用的一維索引方法(如B+樹等)不再適用,而必須采·用新的索引方法。綜合以上分析可以看出,目前基于物聯(lián)網智能感知的搜索引擎技術還非常的初步一方面,大部分實時搜索引擎方面的工作仍然基于傳統(tǒng)搜索引擎的關鍵詞搜索方法;另一方面,少量基于時空搜索、狀態(tài)值搜索的工作僅能支持對當前時刻位置及狀態(tài)的搜索,遠遠達不到物聯(lián)網智能感知的目的。
為了滿足物聯(lián)網智能感知對搜索引擎所提出的新要求,我們在本發(fā)明中提出一種實時的、支持時空、狀態(tài)值及關鍵詞等多種搜索條件的混合搜索引擎方法(簡稱“RSVK-IoT搜索引擎”)。該方法可以支持物聯(lián)網環(huán)境下多種搜索模式(包括關鍵詞搜索、時空搜索、基于狀態(tài)值的搜索)的、針對歷史及當前采樣數(shù)據及狀態(tài)的、實時的搜索。根據詳細的文獻調研與分析,目前在這方面的相關研究與產品研發(fā)均處于空白。

發(fā)明內容
針對目前物聯(lián)網搜索引擎所面臨的挑戰(zhàn)性問題,本發(fā)明提出一種實時的、支持時空、狀態(tài)值及關鍵詞等多種搜索條件的混合搜索引擎方法(簡稱為“RSVK-IoT搜索引擎”),目的是為物聯(lián)網海量感知數(shù)據的實時多模態(tài)搜索提供一種可行的解決方案。為了實現(xiàn)上述目的,本發(fā)明所采用的技術方案是(I)針對關鍵詞搜索方式,在物聯(lián)網傳感器所附帶的文本信息(主要包括監(jiān)控對象的標識及描述信息)的基礎上,通過抽詞處理,得到全文關鍵詞,并以抽取出的關鍵詞為基礎,建立由多個索引服務器組成的、分布式的全文關鍵詞B+樹(Full-Text KeywordB+-Tree,簡稱FTKB+-Tree)索引。與普通搜索引擎中的分布式關鍵詞索引不同,F(xiàn)TKB+-Tree索引將數(shù)據記錄的標識統(tǒng)一存放在標識數(shù)據塊中,從而降低了索引樹的大小。此外,為了支持實時的關鍵詞搜索,F(xiàn)TKB+-Tree索引是在數(shù)據記錄的文本信息發(fā)生增、刪、改等變化時實時地維護的。(2)針對時空搜索方式,在物聯(lián)網采樣數(shù)據的時空屬性的基礎上,建立包含監(jiān)控對象過去及當前位置的物聯(lián)網時空R樹(IoT Spatial-Temporal R-Tree,簡稱ISTR-Tree)索引。其中,對于位置不變的物聯(lián)網監(jiān)控對象(這類對象稱為靜止監(jiān)控對象),通過空間R樹建立其固定位置的索引;對于位置持續(xù)動態(tài)變化的監(jiān)控對象(這類對象稱為移動監(jiān)控對象),建立其歷史與當前時空位置索引(歷史與當前時空位置包含該對象帶時間戳的歷史與當前采樣位置序列)。與移動對象數(shù)據庫的時空軌跡索引不同,歷史與當前時空位置索引針對的是真實的采樣位置點,而不是采樣點之間的連線,因此更加適合于物聯(lián)網環(huán)境。為了支持實時的時空搜索,上述時空索引是隨著數(shù)據采集而動態(tài)更新的。由于數(shù)據采集的頻率較高,為了降低索引更新的開銷,我們提出格柵概略化的方法,將采樣時空點映射成標準格柵單元的中心點,從而摒棄了采樣時空點的變化細節(jié),降低了索引更新的頻率。(3)針對狀態(tài)值搜索方式,在歷史及當前采樣數(shù)據值的基礎上,建立采樣分量值符號化關鍵詞 B+樹(Sampling Component Value-Symbolized Keyword B+-Tree,簡稱SCVSKB+-Tree)索引。由于狀態(tài)值的搜索是相似度搜索而非精確匹配搜索,我們基于格柵劃分,將采樣值轉換成與格柵單元對應的符號化關鍵詞,并在符號化關鍵詞的基礎上建立由多個索引服務器組成的、分布式的B+樹索引。這種將帶有時間戳的歷史采樣值轉換成符號化關鍵詞、并在此基礎上進行關鍵詞匹配的搜索方法是本發(fā)明獨創(chuàng)的技術。為了支持對狀態(tài)值的實時搜索,SCVSKB+-Tree索引是隨著數(shù)據采集而動態(tài)更新的。由于格柵單元的粒度較粗,采樣值在同一個格柵單元內變化時,其符號化關鍵詞并不變化,因此上述方法可以有效地降低索引更新的頻率。與現(xiàn)有技術相比,本發(fā)明的積極效果為(I)針對物聯(lián)網中位置感知的需求,本發(fā)明支持對監(jiān)控對象歷史與當前采樣位置的實時搜索,突破了現(xiàn)有技術只能支持當前瞬間位置的搜索、或者要求移動對象遵循預定義位置跟蹤協(xié)議、進行相對密集數(shù)據采集的局限;(2)針對物聯(lián)網中狀態(tài)值感知的需求,本發(fā)明支持監(jiān)控對象歷史與當前狀態(tài)值的實時搜索,突破了現(xiàn)有技術只能對當前狀態(tài)值進行搜索的局限;(3)針對物聯(lián)網搜索中對實時性的要求,本發(fā)明支持面向多種搜索模式(含關鍵詞搜索、時空搜索、狀態(tài)值的搜索)的索引動態(tài)更新及實時搜索,突破了現(xiàn)有技術只能支持面向關鍵詞的實時搜索的局限。


圖I是RSVK-IoT搜索引擎的體系結構;圖2是全文關鍵詞B+樹(FTKB+-Tree)索引的結構;圖3是物聯(lián)網時空R樹(ISTR-Tree)索引的結構;圖4是移動監(jiān)控對象格柵概略化時空R樹(MOGSSTR-Tree)的結構;圖5是風向分量(winddir)的格柵化及采樣值符號化過程示意圖;圖6是RSVK-IoT搜索引擎的通用搜索過程圖示。
具體實施例方式下面分四個部分具體闡述本發(fā)明的主要內容。I. RSVK-IoT搜索引擎的體系結構RSVK-IoT搜索引擎的體系結構如圖I所示。RSVK-IoT搜索引擎分為三層傳感器與監(jiān)控設備層、采樣數(shù)據存儲層、索引層。下面對各層的工作機理分別進行說明。I. I傳感器與監(jiān)控設備層傳感器與監(jiān)控設備層包含物聯(lián)網系統(tǒng)所管理的各類傳感器及監(jiān)控設備,這些設備實現(xiàn)對各類物理目標狀態(tài)的感知與監(jiān)控。通常情況下,傳感器的采樣數(shù)據是數(shù)值型的,如溫度傳感器、壓力傳感器、GPS傳感器等所獲得的數(shù)據。但是,RSVK-IoT搜索引擎也允許多媒體設備(如視頻監(jiān)控設備、遙感成像設備、高空成像設備等)接入系統(tǒng)。多媒體設備所采集的數(shù)據是非結構化數(shù)據,因此無法對它們包含的內容直接進行搜索。但是,通過多媒體數(shù)據分析與識別,可以從這些數(shù)據中提取出有意義的信息。例如,通過高速公路入口處獲取的車輛照片,可以識別出車輛的牌照號碼、車輛型號、顏色、類型等信息;通過設置在機場的攝像頭獲取的視頻圖像,可以識別出旅客的性別、身高、年齡、步態(tài)特征等信息。上述過程稱為多媒體數(shù)據的“活化”。活化后得到的數(shù)據是文本型的信息,可以從這些文本信息中抽取出關鍵詞,并進而實現(xiàn)針對多媒體數(shù)據的關鍵詞搜索。I. 2采樣數(shù)據存儲層采樣數(shù)據存儲層包含一系列的原始采樣數(shù)據存儲服務器(Raw Sampling DataStorage Server,簡稱RD-Store),每個RD-Store可以接收和管理大量傳感器與監(jiān)控設備所上傳的采樣數(shù)據。在采樣數(shù)據存儲層,傳感器及監(jiān)控設備采集的數(shù)據是以“原子監(jiān)控對象(AtomicMonitored Ob ject,簡稱監(jiān)控對象)”為單位進行組織的,而不是以傳感器或監(jiān)控設備為單位。同一個監(jiān)控對象的所有傳感器采樣數(shù)據按照采樣時間順序組織在一起,形成該監(jiān)控對象的“采樣值序列”,并作為一個屬性值存放在該監(jiān)控對象的數(shù)據記錄中。在一般情況下,一個監(jiān)控對象即對應于一個傳感器或監(jiān)控設備,如太湖中的一個溫度傳感器可看成是一個監(jiān)控對象,對應于一個具體的溫度監(jiān)測點,因此太湖中可包含大量的監(jiān)控對象;又如每個多媒體監(jiān)控設備也可以看成是一個監(jiān)控對象。但是,帶有身份標簽的監(jiān)控對象則屬于例外情況,這類監(jiān)控對象與傳感器設備之間不具有一一對應的關系,如RFID傳感器與所監(jiān)控的帶RFID標簽的車輛與貨物之間并沒有固定的對應關系-帶有RFID 標簽的監(jiān)控對象的采樣值序列是由整個系統(tǒng)中的多個RFID傳感器所采集的數(shù)據匯總而成的;另外,帶條形碼的監(jiān)控對象也具有同樣的性質。根據監(jiān)控對象的位置是否移動,我們可以將它們分為兩大類靜止監(jiān)控對象(如太湖中固定布設的溫度傳感器、車庫中的剩余車位計數(shù)器等)和移動監(jiān)控對象(如GPS傳感器、帶RFID標簽的車輛與貨物、公交車或特種車輛上布設的視頻監(jiān)控設備等)。每個監(jiān)控對象對應于一個數(shù)據記錄,該記錄存儲在某個RD-Store中(該RD-Store稱為監(jiān)控對象的宿主RD-Store)。監(jiān)控對象的數(shù)據記錄包含了其某個時間段內所有的采樣值,這些值根據采樣時間的順序被組織成一個序列(稱為該監(jiān)控對象的采樣值序列)。關于具體的數(shù)據存儲方法的描述請見第2部分。I. 3索引層索引層對采樣數(shù)據存儲層中各RD-Store所存儲的監(jiān)控對象數(shù)據記錄進行索引。由于物聯(lián)網系統(tǒng)中含有大量的監(jiān)控對象,因此索引層包含多個索引服務器,這些索引服務器組織成一種樹形結構,其中主結點稱為索引主服務器,其他結點稱為索引從服務器,如圖I的上部分所示。在RSVK-IoT搜索引擎中,一共包含三個索引全文關鍵詞B+樹(Full-TextKeyword B+-Tree,簡稱 FTKB+-Tree)索弓丨、物聯(lián)網時空 R 樹(IoT Spatial-TemporalR-Tree,簡稱ISTR-Tree)索弓I、采樣分量值符號化關鍵詞B+樹(Sampling ComponentValue-Symbolized Keyword B+-Tree,簡稱SCVSKB+-Tree)索引。這三個索引分別以不同的索引記錄組織方式來支持物聯(lián)網搜索中的不同搜索模式。關于具體的索引組織方法的描述請見第3部分。2.采樣數(shù)據存儲層中的數(shù)據組織方法在本部分,我們闡述物聯(lián)網采樣數(shù)據是如何在RSVK-IoT搜索引擎的采樣數(shù)據存儲層中進行組織的。為了方便討論,我們設DInstant、DP_d、DP()int為_、DstHng分別為時間點、時間段、空間點、空間區(qū)域、字符串的取值域。在RSVK-IoT搜索引擎中,可以接入各種異構的傳感器或監(jiān)控設備。每一種類型的設備所獲得的采樣數(shù)據可以具有不同的數(shù)據格式,但它們的共同特點是均具有時空特性即每個采樣數(shù)據對應于一個具體的采樣時間t和一個具體的采集地點pos。此外,為了實現(xiàn)快速的查詢和分析計算,傳感器采樣數(shù)據需要以監(jiān)控對象為單位進行組織,表現(xiàn)出序列性和動態(tài)變化的流式特性。定義I (物聯(lián)網采樣值)在物聯(lián)網中,各類傳感器與監(jiān)控設備所采集的單個采樣值SamplingValue可以大致分為兩大類,即數(shù)值型采樣值(如溫度傳感器、壓力傳感器、GPS傳感器、RFID傳感器等所采集的數(shù)據)和多媒體采樣值(如視頻監(jiān)控圖像、高空及地質勘探遙感圖像、音頻監(jiān)測信號等),它們可以統(tǒng)一地表示為如下格式SamplingValue = (t,pos, schema,value)其中,te Dlnstant U Dperitjd和pos e Dpoint U DKegim分別是該采樣數(shù)據所對應的采樣時間和采樣地點(大多數(shù)情況下采樣地點pos為一個點,但是當采集值是移動過程中持續(xù)一段時間得到的、或者是由遍布某個區(qū)域的一群個體匯總產生的(如通過無線傳感器網絡匯總產生的)時,采樣地點pos是一個區(qū)域)schema e Dstong是采樣數(shù)據所包含的數(shù)據 項以及各數(shù)據項的數(shù)據類型,value e Dstaing是具體的采樣數(shù)據值。由于schema和value均可能包含多個分量,因此需要用括號對它們的邊界進行劃分。表I給出了幾種典型采樣數(shù)據的例子(設tl t4和periodl分別為時間點和時間段,表示采樣時間;pointl point4和regionl分別為空間點和空間區(qū)域值,表示采樣地點;filel file2分別為多媒體文件。注意GPS傳感器獲得的經緯度信息已經包含在采樣地點(即pos屬性)中了,而不用表示在value屬性中)。表I :傳感器和監(jiān)控設備米樣值的例子
設備類型采抒機(SamplingValue)
溫/. 傳感器(/I,(temperature: real), (27.5))
GPS 傳感器(/2, point!, (speed: real, direction: real), (62.5, 22))
風速風|丨'丨_| 傳感器 (/3, poinB, (windspeed: real, winddir: real), (62.5, 22))
父:池流I冬IJ (/4, poimA, (snapshot: picture), ///^ I)
遞感-視頻{j)eriod\, region I, (movingCam: vedio),y//c2)數(shù)值型的采樣值可以包含一個或多個分量,其中每個分量描述監(jiān)控對象物理狀態(tài)的一個方面。例如,在表I中,溫度傳感器的采樣值包含一個分量temperature (溫度),而風速風向傳感器的采樣值則包含兩個分量windspeed(風速)和winddir (風向)。分量的值用“采樣分量值”進行表示。定義2 (米樣分量值)任一米樣值(t, pos, schema, value)可以包含一個或多個分量,其中每個采樣分量值SamplingComponentValue表示為如下形式SamplingComponentValue = (cName cType, cValue, t)其中,cName e Dstring和cType e Dstring分別為該分量的名稱及類型,cValue e Dstaing是該分量的值,t是采樣時間。例如,在表I中,風速風向傳感器的采樣值所包含的兩個采樣分量值分別為(windspeed real,62. 5,t3)和(winddir real,22,t3)。定義3(采樣值序列)在RSVK-IoT搜索引擎中,采樣數(shù)據是以監(jiān)控對象為單位存儲的,同一個監(jiān)控對象的歷次采樣值按照采樣時間順序排列,構成該監(jiān)控對象的采樣值序列SamplingSequence。根據監(jiān)控對象是否移動,SamplingSequence有兩種不同的表示格式
權利要求
1.一種面向物聯(lián)網智能感知的數(shù)據索引建立與查詢方法,其步驟為 1)數(shù)據監(jiān)控單元對所監(jiān)控的監(jiān)控對象進行采樣,并將采樣值存儲到物聯(lián)網的采樣數(shù)據存儲服務器 RD-Store ;其中,米樣值 SamplingValue = (t, pos, schema, value), schema 是采樣數(shù)據所包含的數(shù)據項以及各數(shù)據項的數(shù)據類型,value是具體的采樣數(shù)據值,t為采樣時間,pos為采樣地點,schema包含一個或多個分量,value包含一個或多個分量;所述分量的格式為SampIingComponentValue = (cName cType, cValue, t) ;cName e Dstring 為分量的名稱,cType e DstringS分量的類型,cValue e Dstaing是分量的值。在上述表述中,Dstring為字符串的取值域; 2)采樣數(shù)據服務器將同一個監(jiān)控對象的所有采樣值按照采樣時間順序組織在一起,形成該監(jiān)控對象的采樣值序列,并作為一個屬性值存放在該監(jiān)控對象的數(shù)據記錄中; 3)建立一樹形結構索引層,用于對物聯(lián)網各采樣數(shù)據存儲服務器所存儲的監(jiān)控對象數(shù)據記錄進行索引;所述樹形結構索引層包括多個索引服務器,其中主結點稱為索引主服務器,其他結點稱為索引從服務器;所述樹形結構索引層包括全文關鍵詞B+樹索引、物聯(lián)網時空R樹索引、采樣分量值符號化關鍵詞B+樹索引SCVSKB+-Tree ;其中,所述采樣分量值符號化關鍵詞B+樹索引SCVSKB+-Tree的建立方法為 31)將每一分量名對應的分量值設置一取值范圍; 32)將每個分量名所對應的TXV平面劃分成等距格柵,格柵單元統(tǒng)一編號成CelKTno, Rno)的形式,并將分量名的格柵劃分結果發(fā)送給索引主服務器進行存儲;其中,T為時間域,V是分量值的取值范圍,Tno為格柵單元在T軸上對應的區(qū)間序號,Vno為格柵單元在V軸上對應的區(qū)間序號; 33)RD-Store 每收到一個新的米樣分量值 cv* = (cName* :cType*, cValue*, t*)時,計算其編號并根據編號得到cv*的符號化關鍵詞symKey* ; 34)如果cv*是監(jiān)控對象的第一個分量名為cName*的采樣分量值,則RD-Store生成一條索引記錄〈symKey*, rdStoreID, objID>并將其發(fā)送給索引主服務器;如果symKey*在SCVSKB+-Tree中不存在,則索引主服務器將該索引記錄作為一個新的索引記錄插入到SCVSKB+-Tree中;如果symKey*存在于SCVSKB+-Tree中,則只需將該索引記錄中的(rdStoreID,objID)合并到對應索引記錄的標識數(shù)據塊中;其中,rdStoreID是RD-Store的標識,objID是發(fā)送cv*的監(jiān)控對象的標識; 35)如果cv*不是監(jiān)控對象的第一個分量名為cName*的采樣分量值,設該監(jiān)控對象已上傳到RD-Store的最后一個分量名為cName*的采樣分量值所對應符號化關鍵詞為SymKeylast ;如果SymKeylast = symKey*,則RD-Store不需要對索引進行處理;如果aymKeylast幸symKey*,則生成一條新的索引記錄〈symKey*, rdStoreID, objID〉并將之發(fā)送給索引主服務器,如果symKey*在SCVSKB+-Tree中不存在,則索引主服務器將該索引記錄作為一個新的索引記錄插入到SCVSKB+-Tree中;如果symKey*存在于SCVSKB+-Tree中,貝丨J只需將該索引記錄中的(rdStoreID, objID)合并到對應索引記錄的標識數(shù)據塊中; 4)索引主服務器接收針對物聯(lián)網數(shù)據的查詢,并判斷所接收查詢的類型,然后,根據查詢類型調用相應的索引返回查詢結果。
2.如權利要求I所述的方法,其特征在于獲取所述符號化關鍵詞symKey*的方法為RD-Store 每收到一個新的米樣分量值 cv* = (cName* :cType*, cValue*, t*)時,計算(t*,cValue*)所位于的格柵單元,設其編號為Cell (Tno*, Vno*),根據該編號得到cv*的符號化關鍵詞為 symKey* = cName*-Tno*_Vno*。
3.如權利要求I或2所述的方法,其特征在于如果監(jiān)控對象的采樣數(shù)據為非結構化數(shù)據,則對非結構化數(shù)據進行信息提取,得到非結構化數(shù)據的文本型信息作為該監(jiān)控對象的采樣值。
4.如權利要求I或2所述的方法,其特征在于如果schema或value包含多個分量SamplingComponentValue,則用括號對分量的邊界進行劃分。
5.如權利要求I所述的方法,其特征在于所述監(jiān)控對象包括靜止監(jiān)控對象和移動監(jiān)控對象;移動監(jiān)控對象的采樣值序列格式為SampHngSequence = (schcma, ((/ pos,,value));,),靜止監(jiān)控對象的采樣值序列格式為:Samp/ingSeqnence = {schema^ pos, ((/ value,))r;^ );其中,i = Ρ··η,η 為采樣值序列中采樣值的總數(shù)。
6.如權利要求5所述的方法,其特征在于每一所述采樣數(shù)據存儲服務器存儲多個監(jiān)控對象的數(shù)據記錄ObjectDataRecord,其數(shù)據格式為ObjectDataRecord =(ObjID, ObjDescript, Samplings, PhyAddr);其中,ObjID e Dstring 為監(jiān)控對象的標識,ObjDescript e Dstaing 為監(jiān)控對象的文本描述,Samplings e DSamplingSequenee 是監(jiān)控對象的歷次采樣值所構成的序列,Dsamplingsequence為采樣值序列SamplingSequence的取值域,PhyAddr e Dstaing是多媒體監(jiān)控設備的物理訪問地址。
7.如權利要求I所述的方法,其特征在于所述全文關鍵詞B+樹索引,用于對監(jiān)控對象數(shù)據記錄中的文本屬性所抽取出來的關鍵詞進行索引;其中,所述全文關鍵詞B+樹索引中,根據關鍵詞對索引記錄進行合并,使得每一個關鍵詞只對應于一個索引記錄,而含有該關鍵詞的所有記錄的標識均集中存放在一標識數(shù)據塊中;所述全文關鍵詞B+樹索引中的葉子結點的記錄格式為〈key,set ((rdStoreID,ObjID))〉,rdStoreID和ObjID分別是含有關鍵詞key的數(shù)據記錄所在的RD-Store標識及對應的監(jiān)控對象標識。
8.如權利要求I所述的方法,其特征在于所述物聯(lián)網時空R樹索引,用于針對物聯(lián)網采樣數(shù)據中的時空屬性進行索引;其構建方法為1)在索引主服務器上建立一地理區(qū)域分區(qū)表,每一地理區(qū)域與一索引從服務器對應;2)各索引從服務器針對本區(qū)域的采樣值建立采樣值序列時空索引樹S3T-Tree,用以對屬于本區(qū)域的采樣值序列的時空屬性進行索引;所述時空索引樹S3T-Tree包括一靜止監(jiān)控對象空間R樹和一移動監(jiān)控對象格柵概略化時空R樹 MOGSSTR-Tree ;其中, 靜止監(jiān)控對象空間R樹的葉結點記錄格式為〈pos,rdStoreID, ObjID〉,ObjID和rdStoreID分別為監(jiān)控對象的標識和其數(shù)據記錄所在的RD-Store標識; 移動監(jiān)控對象格柵概略化時空R樹MOGSSTR-Tree的根結點及中間結點的記錄格式為<mbr, pointer), mbr是最小包容矩形,pointer是指向子結點的指針;葉結點的記錄格式為<gmp, set ((rdStoreID, ObjID))〉,gmp 是采樣值的時空格柵映射點,ObjID 和 rdStoreID 是其采樣值的時空格柵映射點中含有gmp的所有移動監(jiān)控對象的標識及其數(shù)據記錄所在的RD-Store 標識。
9.如權利要求8所述的方法,其特征在于所述移動監(jiān)控對象格柵概略化時空R樹建立及更新移動監(jiān)控對象索引記錄的方法為1)在移動對象初始建立時,發(fā)送一條索引記錄(gmpUd, x0, y0), ObjID, rdStoreID)給索引主服務器;其中,設移動對象初始的時間和位置分別為h和(Xci, yj ,函數(shù)gmp(t, x, y)用于返回(t, x, y)所位于的格柵之中心點坐標;索引主服務器根據該索引記錄中的空間屬性將該記錄轉發(fā)給相應的索引從服務器進行索引;2)在移動監(jiān)控對象移動過程中,將新采樣的數(shù)據值發(fā)送給相應RD-Store進行存儲;RD-Store收到新采樣數(shù)據值時,如果gmp(tlast, Xlast, ylast) = gmp(t*, x*, y*),則不需要對索引進行任何操作;如果 gmp (tlast, xlast, ylast) Φ gmp (t*, x*, y*),則 RD-Store 生成一條新的索引記錄〈gmp (t*, X*, y*), ObjID, rdStoreID〉,并將該索引記錄經索引主服務器轉發(fā)給地理區(qū)域與gmp(t*,X*,y*)相交的索引從服務器,該索引從服務器收到該索引記錄之后對MOGSSTR-Tree進行判斷如果gmp(t*,x*,y*)在MOGSSTR-Tree中不存在,則將這條索引記錄作為新索引記錄插入到MOGSSTR-Tree中;如果MOGSSTR-Tree中已經存在gmp (t*, x*,y*),則將ObjID,rdStoreID合并到對應葉子結點的標識數(shù)據塊中;其中新采樣數(shù)據值對應的采樣時間與地點分別為t*和(x*,y*) ,RD-Store中的最后一個采樣值對應的時間和地點分力 1J 為 tlast 和(Xlast, Ylast)。
10.如權利要求I所述的方法,其特征在于在所述采樣分量值符號化關鍵詞B+樹索引 SCVSKB+-Tree 中,葉子結點的記錄格式為<symKey, set ((rdStoreID, objID))>,根結點及中間結點的記錄格式為 <symKey, serverlD, pagePointer〉;其中,set ((rdStoreID,objID))存儲在標識數(shù)據塊中,serverlD是符號化關鍵詞symKey所對應的子結點所位于的索引服務器標識,pagePointer是符號化關鍵詞symKey在索引服務器上的具體存儲地址。
全文摘要
本發(fā)明公開了一種面向物聯(lián)網智能感知的數(shù)據索引建立與查詢方法,本方法為1)數(shù)據監(jiān)控單元進行采樣,并存儲到物聯(lián)網的采樣數(shù)據存儲服務器;2)采樣數(shù)據服務器將同一個監(jiān)控對象的所有采樣值按照采樣時間順序組織在一起,形成該監(jiān)控對象的采樣值序列,并作為一個屬性值存放在該監(jiān)控對象的數(shù)據記錄中;3)建立一樹形結構索引層,對物聯(lián)網各采樣數(shù)據存儲服務器所存儲的監(jiān)控對象數(shù)據記錄進行索引;樹形結構索引層包括多個索引服務器,其中主結點稱為索引主服務器,其他結點稱為索引從服務器;樹形結構索引層包括全文關鍵詞B+樹索引,物聯(lián)網時空R樹索引,采樣分量值符號化關鍵詞B+樹索引。本發(fā)明提供了物聯(lián)網海量感知數(shù)據的實時多模態(tài)搜索。
文檔編號G06F17/30GK102915346SQ20121036472
公開日2013年2月6日 申請日期2012年9月26日 優(yōu)先權日2012年9月26日
發(fā)明者丁治明 申請人:中國科學院軟件研究所
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1