本發(fā)明屬于電力調度控制系統(tǒng)多源異構數據融合技術領域,特別是提供了一種電力調控系統(tǒng)多源異構數據融合中的字符串匹配方法。
背景技術:
近年來,隨著電力信息化的推進與智能電網的發(fā)展,電力系統(tǒng)運行、調度與控制中數據來源十分廣泛,同時,數據的規(guī)模越來越大和種類也在快速增長。其中,這些數據的數據源不僅包括用電信息采集系統(tǒng)、營銷系統(tǒng)、廣域監(jiān)測系統(tǒng)(wideareameasurementsystem,wams)、配電管理系統(tǒng)、生產管理系統(tǒng)、能量管理系統(tǒng)(energymanagementsystem,ems)、設備檢測和監(jiān)測系統(tǒng)、客戶服務系統(tǒng)、財務管理系統(tǒng)等內部數據源,還包括氣象信息系統(tǒng)、地理信息系統(tǒng)、公共服務部門等外部數據源。這些電力系統(tǒng)運行與控制中產生的數據具有如下特征:①數據規(guī)模大,②數據類型多樣化,③數據產生的速率快,④數據的價值密度低,⑤數據安全性高。這些數據之間并非完全獨立,不同系統(tǒng)、類型的數據之間存在著復雜的相關性。面對海量的復雜電力大數據,傳統(tǒng)的數據共享技術、數據處理技術在數據存儲、查詢與分析等方面遇到瓶頸,因此,亟需開展研究應用于電力大數據共享、融合、存儲、查詢、數據挖掘分析等方面的大數據相關技術。電力調度控制系統(tǒng)是電力企業(yè)中的主要系統(tǒng)之一。電力調度控制系統(tǒng)的數據來自于10余套獨立的應用系統(tǒng),同樣面臨著數據量龐大、存在信息異構問題以及“數據共享不暢,數據集成程度不夠”的挑戰(zhàn)。
為了解決電力調度控制系統(tǒng)數據的信息異構和集成程度低問題,實現調控大數據共享和數據融合,需要研究基于大數據技術的多源異構數據融合技術。在異構數據融合過程中,涉及到了各種類型數據匹配問題。數字型、字符型的數據比較相對容易匹配,但是在匹配字符串類型數據時遇到了各種挑戰(zhàn)——依據jarodistance、jaro-winklerdistance和kmp等傳統(tǒng)的字符串匹配算法匹配電力調控字符串數據時,會出現字符串數據匹配不上或者錯誤匹配等問題,嚴重影響了調控多源異構數據的融合過程,造成數據分析挖掘的結果的錯誤,干擾了電力系統(tǒng)調度計劃的制定。
技術實現要素:
本發(fā)明的目的在于提供一種電力調控系統(tǒng)多源異構數據融合中的字符串匹配方法用于解決電力調度控制系統(tǒng)多源異構數據融合中的字符串匹配問題。針對電力調度控制系統(tǒng)多源異構數據融合過程中存在的字符串匹配問題,為調控系統(tǒng)多源異構數據的融合提供了有力的技術支撐??煽焖佟蚀_的計算電力調度控制系統(tǒng)字符串數據匹配結果。
本發(fā)明首先依據電力調度控制系統(tǒng)數據特點制定了字符串匹配規(guī)則,其次給出了一種字符串匹配度計算方法,最后字符串匹配結果綜合考慮匹配規(guī)則和匹配度得出。具體提出的字符串匹配方法如下:
根據電力調度控制系統(tǒng)數據特點,提取了調度控制系統(tǒng)數據關鍵詞;
調控數據關鍵詞是電力調控系統(tǒng)數據中專業(yè)的公共詞語,根據電力調度控制系統(tǒng)數據信息和歷史數據特點提取得到;
電力調控數據關鍵詞包括變電站、變、站、電壓、電壓等級、kv、kv電壓、交流、母線、線路、線、開關、刀閘、隔離開關、斷路器、電抗器、電流互感器、電壓互感器、電容器;
針對調度控制系統(tǒng)數據關鍵詞中存在的多詞同義問題,提出了一種關鍵詞等價規(guī)則,將表示同種意思的關鍵詞以等價關系進行處理;
數字類數據匹配規(guī)則為:
對于調控字符串數據中出現的阿拉伯數字、希臘字母等數字型數據,如果連續(xù)出現若干個阿拉伯數字,則將這若干個連續(xù)數字轉換為數字型數據,并按照數字型數據匹配方法計算匹配結果;若匹配成功,則進行下一步匹配工作;若匹配失敗,則判定整個字符串不匹配。同理,若出現希臘數字,則需要將連續(xù)的希臘數字單獨取出,并判斷希臘數字對應部分是否相等。若相等,則進行下一步匹配工作;若不相等,則判定整個字符串不匹配。
針對調控字符串數據中出現的連續(xù)若干個阿拉伯數字或者希臘數字是否匹配直接影響字符串匹配結果的問題,制定了數字類數據匹配規(guī)則,將若干個連續(xù)數字轉換為數字型數據處理;
根據電力調度控制系統(tǒng)數據特點和字符串匹配規(guī)則,提出了一種字符串匹配度計算方法;
根據電力調度控制系統(tǒng)數據特點、字符串匹配度計算方法以及關鍵詞、數字型數據匹配規(guī)則,制定了電力調度控制系統(tǒng)字符串數據匹配總規(guī)則。
優(yōu)選的,上述電力調度控制系統(tǒng)多源異構數據的字符串匹配方法中,所述電力調度控制系統(tǒng)字符串數據匹配總規(guī)則包括:
關鍵詞匹配規(guī)則、數字型數據匹配過程、計算字符串匹配度和字符串匹配結果判定規(guī)則。
優(yōu)選的,上述電力調度控制系統(tǒng)多源異構數據的字符串匹配方法中,所述調度控制系統(tǒng)數據關鍵詞的提取方式為:
根據電力調度控制系統(tǒng)數據信息和歷史數據特點,從調控系統(tǒng)數據中提取專業(yè)的公共詞語,從而得到關鍵詞。電力調控系統(tǒng)數據關鍵詞主要包括變電站、變、站、電壓、電壓等級、kv、kv電壓、交流、母線、線路、線、開關、刀閘、隔離開關、斷路器、電抗器、電流互感器、電壓互感器、電容器等。
優(yōu)選的,上述電力調度控制系統(tǒng)多源異構數據的字符串匹配方法中,所述關鍵詞等價規(guī)則為:
給定關鍵詞集合a={a1,a2,…ai,…an}上的一個二元關系r=a×a,設mr=(mij)n×n為r的關系矩陣,當ai與aj等價時,mij=1,否者mij=0。
在電力調度控制系統(tǒng)數據的關鍵詞中,同種語義可能使用不同的詞語進行表達。比如,變電站可用“變電站”、“變”或“站”進行表示,電壓可用“kv”、“kv電壓”或“電壓等級”進行表示。為了解決同種語義多種表達的問題,采用等價規(guī)則對關鍵詞進行匹配。電力調度控制系統(tǒng)數據的關鍵詞集合a={變電站,變,站,電壓,電壓等級,kv、kv電壓、交流,母線,線路,開關,刀閘,隔離開關,斷路器,電抗器,電流互感器,電壓互感器,電容器}。則關鍵詞集合a中關鍵詞的等價關系矩陣mr可以表示為
為了實現字符串的合理匹配,需要將等價的關鍵詞進行唯一標識。根據關系矩陣mr將a劃分為不同的等價子集ak,選擇ak中的元素tk作為ak的代表元素,構建唯一標識集t={tk},k=1,2,…。根據電力調度控制系統(tǒng)數據,得出了關鍵詞唯一標識集t={變,電壓,交流,母線,線路,開關,刀閘,隔離開關,斷路器,電抗器,電流互感器,電壓互感器,電容器,…}。
優(yōu)選的,上述電力調度控制系統(tǒng)多源異構數據的字符串匹配方法中,所述字符串匹配度計算方法為:
比較待匹配的兩個字符串的字符長度,定義字符數較長的字符串為s1,作為主串,定義字符數較短的字符串s2,作為模式串。模式串s2從s1的一個字符開始向右移動,每移動一個字符計算一次當前字符串匹配度dw。如果移動了l個字符,則字符串匹配結果記作dwl。直到模式串s2的第1個字符移動到主串s1的最后一個字符為止。最后選取最大的dwmax作為字符串匹配度,即dwmax=max{dw0,dw1,…,dwl,…}。
上述方法中,dw的計算方法為:
假設待匹配的字符串為s1、s2,根據字符串的匹配字符數和交換字符數確定兩個字符串的基本相似度ds,計算公式是:
式中,m是匹配的字符數,x是依據匹配窗口mw計算得到交換字符數目,為不同順序的匹配字符的數目的一半;|s1|、|s2|分別為字符串的字符數目,匹配窗口mw為
根據調控數據特征,存在連續(xù)相同字符的兩個字符串通常是對同一事物的描述,因此應提高該情況下的字符串匹配度。在基本相似度ds的基本上,定義了一個范圍因子β和當前字符串匹配度dw。若字符串s1、s2連續(xù)相同字符的最大數目為l,則字符串匹配度dw為
dw=ds+l*β(1-dj)(4)
式中,β為范圍因子,取值范圍為(0,0.2),一般取0.1。
制定字符串匹配總規(guī)則;
所述電力調度控制系統(tǒng)字符串數據匹配總規(guī)則包括關鍵詞匹配規(guī)則、數字型數據匹配過程、計算字符串匹配度和字符串匹配結果判定規(guī)則;
字符串數據匹配總規(guī)則如下:
①關鍵詞匹配規(guī)則:當兩個字符串中關鍵詞經過等價規(guī)則之后,存在不一致情況,直接判斷字符串不匹配;當關鍵詞完全一致,則按照數字型數據匹配規(guī)則繼續(xù)進行匹配;
②數字型數據匹配過程:關鍵詞匹配成功之后,依據數字型數據匹配規(guī)則對數字型數據進行匹配;若數字型數據匹配不成功,則直接判定兩個字符串不匹配;否則,繼續(xù)計算字符串匹配度;
③計算字符串匹配度:關鍵詞和數字型數據都匹配后,則按照字符串匹配算法計算字符串匹配度;但是,無論關鍵詞含有幾個字符,一律按照一個字符計算,“電壓”和“母線”都按照一個字符進行計算;數字型數據也按照一個字符計算;
④字符串匹配結果判定規(guī)則:若字符串、的字符串匹配度滿足
dw≥α(5)
式中,代表字符串匹配度閾值,則判定字符串、是匹配的;否則,兩個字符串不匹配。
本發(fā)明的有益效果是:
本發(fā)明根據電力調度控制系統(tǒng)數據的特點,提取了調控數據關鍵詞,為了準確快速的匹配字符串,制定了調控字符串數據的關鍵詞等價規(guī)則、數字類數據匹配規(guī)則以及字符串匹配總規(guī)則,并在字符串匹配規(guī)則的基礎上提出了一種字符串匹配度計算方法,通過字符串的匹配度判斷字符串是否匹配。本發(fā)明可有效的對電力調控系統(tǒng)多源異構數據中的字符串數據進行匹配,解決了調控多源異構數據融合中的字符串匹配問題,促進調控多源異構數據的融合,對保證調控數據的合理挖掘分析和電網安全可靠運行具有重要意義。
附圖說明
圖1為本發(fā)明電力調度控制系統(tǒng)多源異構數據融合中的字符串匹配方法流程示意圖。
圖2為字符串數據中非關鍵詞部分示意圖。
圖3為字符串數據中關鍵詞匹配規(guī)則圖。
圖4為字符串s2移動過程示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
在本發(fā)明的實施例中,根據圖1中所示電力調度控制系統(tǒng)多源異構數據融合中的字符串匹配方法流程示意圖,所述電力調度控制系統(tǒng)多源異構數據融合中的字符串匹配方法包括:
步驟1,確定調控數據關鍵詞
根據電力調度控制系統(tǒng)數據建模規(guī)則和歷史數據特點,發(fā)現字符串中會存在一些專業(yè)的公共詞語,比如變電站、電壓、kv、母線等詞語。為了更好的識別電力調控系統(tǒng)中的字符串數據,將電力調度控制系統(tǒng)數據中常用的公共詞語定義為電力調控系統(tǒng)數據關鍵詞(簡稱調控數據關鍵詞)。調控數據關鍵詞可以通過研究分析電力調度控制系統(tǒng)數據信息和歷史數據特點,從調控數據中提取,如表1所示。電力調控系統(tǒng)數據關鍵詞主要包括變電站、變、站、電壓、電壓等級、kv、kv電壓、交流、母線、線路、線、開關、刀閘、隔離開關、斷路器、電抗器、電流互感器、電壓互感器等。將關鍵詞整合到一個集合中,組成關鍵詞集。
表1依據調控數據提取的關鍵詞
在字符串中,可能包括1個或者多個調控數據關鍵詞。例如,如果字符串只含有一個關鍵詞,可以是變電站、電壓或者具體的設備、其他屬性,如“釜山變電站”;如果含有兩個關鍵詞,可以是變電站、電壓或者電壓、具體設備或者其他屬性,如“釜山變電站4002刀閘”、“李村變546開關”;如果字符串內包含三個關鍵詞,則應該包括變電站、電壓以及其他具體屬性,如“趙莊站10kv#ⅱ母線”。
步驟2,制定關鍵詞等價規(guī)則
在調控數據關鍵詞中,存在多詞同義的情況,比如電壓、kv、kv電壓都表示電壓。針對該問題,本發(fā)明提出了一種關鍵詞等價規(guī)則,該規(guī)則將表示同種意思的關鍵詞以等價關系進行處理。規(guī)則具體內容如下:
給定關鍵詞集合a={a1,a2,…ai,…an}上的一個二元關系r=a×a,設mr=(mij)n×n為r的關系矩陣,當ai與aj等價時,mij=1,否者mij=0。
在電力調度控制系統(tǒng)數據的關鍵詞中,同種語義可能使用不同的詞語進行表達。比如,變電站可用“變電站”、“變”或“站”進行表示,電壓可用“kv”、“kv電壓”或“電壓等級”進行表示。為了解決同種語義多種表達的問題,采用等價規(guī)則對關鍵詞進行匹配。電力調度控制系統(tǒng)數據的關鍵詞集合a={變電站,變,站,電壓,電壓等級,kv、kv電壓、交流,母線,線路,開關,刀閘,隔離開關,斷路器,電抗器,電流互感器,電壓互感器,電容器}。則關鍵詞集合a中關鍵詞的等價關系矩陣mr可以表示為
為了實現字符串的合理匹配,需要將等價的關鍵詞進行唯一標識。根據關系矩陣mr將a劃分為不同的等價子集ak,選擇ak中的元素tk作為ak的代表元素,構建唯一標識集t={tk},k=1,2,…。根據電力調度控制系統(tǒng)數據,則調控數據關鍵詞子集與唯一標識關鍵詞之間的映射關系如表2所示,因此,可得到關鍵詞唯一標識集t={變,電壓,交流,母線,線路,開關,刀閘,隔離開關,斷路器,電抗器,電流互感器,電壓互感器,電容器,…}。
表2調控數據關鍵詞與唯一標識關鍵詞的映射關系
步驟3,制定數字類數據匹配規(guī)則
字符串中的關鍵詞通過等價規(guī)則和映射關系都轉換為唯一標識關鍵詞之后,需要比較字符串中關鍵詞以外的數據,如圖2中灰色背景部分。關鍵詞之外的數據可能包含漢字、數字、希臘字母等類型的數據。例如,變電站的定語一般為多個漢字,電壓的定語一般為數字,母線的定語一般為希臘字母或者漢字。
如果連續(xù)出現若干個阿拉伯數字,則將這若干個連續(xù)數字轉換為數字型數據,并按照數字型數據匹配方法計算匹配結果。若匹配成功,則進行下一步匹配工作;若匹配失敗,則判定整個字符串不匹配。同時,若出現希臘數字,則需要將連續(xù)的希臘數字單獨取出,并判斷希臘數字對應部分是否相等。若相等,則進行下一步匹配工作;若不相等,則判定整個字符串不匹配。
步驟4,制定字符串匹配總規(guī)則
在調度控制系統(tǒng)數據的兩個字符串匹配過程中,為了加快字符串匹配速度和匹配的準確度,本文制定了對字符串匹配總規(guī)則。規(guī)則如下:
(1)關鍵詞匹配規(guī)則:如果兩個字符串中關鍵詞經過等價規(guī)則之后,存在不一致情況,直接判斷字符串不匹配;如果關鍵詞完全一致,則按照規(guī)則(2)繼續(xù)進行匹配。
(2)數字型數據匹配過程:關鍵詞匹配成功之后,依據數字型數據匹配規(guī)則對數字型數據進行匹配。若數字型數據匹配不成功,則直接判定兩個字符串不匹配;否則,按照規(guī)則(3)繼續(xù)進行匹配。
(3)計算字符串匹配度:關鍵詞和數字型數據都匹配后,則按照字符串匹配算法計算字符串匹配度。但是,無論關鍵詞含有幾個字符,一律按照一個字符計算,如圖3虛線框所示,“電壓”和“母線”都按照一個字符進行計算;數字型數據也按照一個字符計算。
(4)字符串匹配結果判定規(guī)則:若字符串s1、s2的字符串匹配度dw滿足
dw≥α(5)
式中,α代表字符串匹配度閾值,則判定字符串s1、s2是匹配的;否則,兩個字符串不匹配。
步驟5,計算字符串匹配度
假設待匹配的字符串為s1、s2,根據字符串的匹配字符數和交換字符數確定兩個字符串的基本相似度ds,基本相似度ds由基本匹配度
式中,m是匹配的字符數,x是依據匹配窗口mw計算得到交換字符數目,為不同順序的匹配字符的數目的一半;|s1|、|s2|分別為字符串的字符數目,匹配窗口mw為
根據調控數據特征,存在連續(xù)相同字符的兩個字符串通常是對同一事物的描述,因此應提高該情況下的字符串匹配度。在基本相似度ds的基本上,定義了一個范圍因子β和當前字符串匹配度dw。若字符串s1、s2連續(xù)相同字符的最大數目為l,則字符串匹配度dw為
dw=ds+l*β(1-dj)(4)
式中,β為范圍因子,取值范圍為(0,0.2),一般取0.1。
比較待匹配的兩個字符串的字符長度,定義字符數較長的字符串為s1,作為主串,定義字符數較短的字符串s2,作為模式串。模式串s2從s1的一個字符開始向右移動,每移動一個字符計算一次當前字符串匹配度dw。如果移動了l個字符,則字符串匹配結果記作dwl。直到模式串s2的第1個字符移動到主串s1的最后一個字符為止。最后選取最大的dwmax作為字符串匹配度,即dwmax=max{dw0,dw1,…,dwl,…}。
為了驗證本發(fā)明算法的性能,以山西晉城電力調度控制系統(tǒng)多源異構數據作為實驗數據,以jarodistance和jaro-winklerdistance字符串匹配算法作為比較算法。其中,本發(fā)明的字符串匹配度計算過程中的范圍因子β=0.1,字符串匹配度閾值α=0.80,而兩種字符串匹配比較算法中的范圍因子p=0.1。從電力調度控制系統(tǒng)數據庫中選取待比較的字符串s1、s2,不同算法計算得到的字符串匹配度情況如表3所示。
表3不同算法下字符串匹配度
根據步驟4中的字符串匹配結果判定規(guī)則和字符串匹配度閾值α=0.80,可以判定表3中字符串的匹配結果,如表4所示。從表4中可得,在存在阿拉伯數字或者希臘數字的字符串數據中,jarodistance和jaro-winklerdistance算法錯誤匹配的概率較大,而本發(fā)明可以正確處理這類字符串匹配問題;同時,也可以合理、正確的處理不包含數字型數據的字符串匹配問題。因此,本發(fā)明可以解決電力調度控制系統(tǒng)多源異構數據融合中的字符串匹配問題,促進調控多源異構數據的融合,為調控數據分析挖掘提供正確的數據。
表4不同算法下字符串匹配結果
以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍。凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換,或直接或簡介運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。