本發(fā)明涉及對時間序列數(shù)據(jù)進(jìn)行檢索的技術(shù)。
背景技術(shù):
在發(fā)電成套設(shè)備、化學(xué)成套設(shè)備、鋼鐵成套設(shè)備、上下水道成套設(shè)備等中,導(dǎo)入用于對成套設(shè)備的工藝進(jìn)行控制的控制系統(tǒng)。在樓宇或工廠等的設(shè)備中,也導(dǎo)入用于對空調(diào)、電氣、照明和給排水等進(jìn)行控制的控制系統(tǒng)。并且,在工廠的生產(chǎn)線的設(shè)備、汽車和鐵道車輛中搭載有記錄設(shè)備狀態(tài)的日志系統(tǒng),以掌握設(shè)備狀態(tài)。
在這些系統(tǒng)中,通過安裝于設(shè)備的傳感器,蓄積隨著時間經(jīng)過而得到的各種時間序列數(shù)據(jù)。
如下所述對時間序列數(shù)據(jù)進(jìn)行分析。
對從最近的時間序列數(shù)據(jù)即測試時間序列數(shù)據(jù)中提取出的部分時間序列數(shù)據(jù)和從過去的時間序列數(shù)據(jù)即訓(xùn)練時間序列數(shù)據(jù)中提取出的部分時間序列數(shù)據(jù)進(jìn)行比較,檢索與訓(xùn)練時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)相似的測試時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)。然后,在該相似的測試時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)中,檢測與訓(xùn)練時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)最不相似的測試時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)作為奇點。然后,通過奇點的檢測來檢測設(shè)備的異常。
部分時間序列數(shù)據(jù)是以滑動時間窗幅度的長度從時間序列數(shù)據(jù)中提取出的數(shù)據(jù),稱作區(qū)段。
按照測試時間序列數(shù)據(jù)的每個區(qū)段提取距離最近的訓(xùn)練時間序列數(shù)據(jù)的區(qū)段,與訓(xùn)練時間序列數(shù)據(jù)的區(qū)段之間的距離最遠(yuǎn)的測試時間序列數(shù)據(jù)的區(qū)段是奇點。作為區(qū)段間的距離的種類,廣泛利用歐幾里得距離和dtw距離。dtw是dynamictimewarping(動態(tài)時間規(guī)整)的簡稱。
這里,將上述奇點檢測方式稱作樸素方式。
在樸素方式中,利用訓(xùn)練時間序列數(shù)據(jù)的區(qū)段與測試時間序列數(shù)據(jù)的區(qū)段的全部組合求出距離,因此,計算量大幅增加。
非專利文獻(xiàn)1提出了如下方式:與計算區(qū)段間的距離相比,使用計算量較少的指標(biāo)完成距離的計算,由此削減計算量。
非專利文獻(xiàn)2提出了如下方式:對測試時間序列數(shù)據(jù)的區(qū)段與標(biāo)本區(qū)段進(jìn)行比較,由此削減計算量。標(biāo)本區(qū)段稱作exemplar,是從訓(xùn)練時間序列數(shù)據(jù)中集中相似的區(qū)段而生成的。
在非專利文獻(xiàn)2的方式中,如果能夠充分縮小標(biāo)本區(qū)段的數(shù)量,則與樸素方式和非專利文獻(xiàn)1的方式相比,能夠大幅削減計算量。
但是,非專利文獻(xiàn)2的方式是通過對訓(xùn)練時間序列數(shù)據(jù)進(jìn)行標(biāo)本化來求出近似解的方式,因此,需要注意其誤差即近似誤差。
在非專利文獻(xiàn)2的方式中,只要存在與標(biāo)本區(qū)段之間的距離為閾值以下的測試區(qū)段,就反復(fù)進(jìn)行該測試區(qū)段與標(biāo)本區(qū)段的耦合。其結(jié)果是,近似誤差增加,無法保證近似誤差收斂在容許范圍內(nèi)。
并且,無法定量地求出標(biāo)本區(qū)段中包含的近似誤差,因此,無法對檢索結(jié)果中包含的誤差進(jìn)行評價。
作為區(qū)段間距離的閾值判定中使用的特征量,非專利文獻(xiàn)3公開了復(fù)雜度。
現(xiàn)有技術(shù)文獻(xiàn)
非專利文獻(xiàn)
非專利文獻(xiàn)1:rakthanmanon,etal.,searchingandminingtrillionsoftimeseriessubsequencesunderdynamictimewarping,kdd’12proceedingsofthe18thacmsigkddinternationalconferenceonknowledgediscoveryanddataminingpages262-270.
非專利文獻(xiàn)2:mjones,etal.,anomalydetectioninreal-valuedmultidimensionaltimeseries,asestanforduniversityconference,may2014;paperno.027.
非專利文獻(xiàn)3:jesinzakaria,developingefficientalgorithmsfordatamininglargescalehighdimensionaldata,ucriversideelectronicthesesanddissertations,2013.,https://escholarship.org/uc/item/660316zp
技術(shù)實現(xiàn)要素:
發(fā)明要解決的課題
本發(fā)明的目的在于,在保證近似誤差收斂在容許范圍內(nèi)的基礎(chǔ)上,能夠高速地生成時間序列數(shù)據(jù)的檢索中使用的標(biāo)本區(qū)段集合。
用于解決課題的手段
本發(fā)明的時間序列數(shù)據(jù)檢索裝置具有:初始區(qū)段集合生成部,其生成多個按照時間序列的順序從由以時間序列排列的多個數(shù)據(jù)值構(gòu)成的訓(xùn)練時間序列數(shù)據(jù)中提取w個數(shù)據(jù)值而得到的訓(xùn)練區(qū)段,生成多個由按照時間序列的順序排列的一個以上的訓(xùn)練區(qū)段構(gòu)成的訓(xùn)練臨時區(qū)段集合,按照每個訓(xùn)練臨時區(qū)段集合計算表示如下的坐標(biāo)值的w個數(shù)據(jù)值作為初始區(qū)段,生成由每個訓(xùn)練臨時區(qū)段集合的初始區(qū)段構(gòu)成的初始區(qū)段集合,其中,所述坐標(biāo)值是將訓(xùn)練臨時區(qū)段集合的各個訓(xùn)練區(qū)段中包含的w個數(shù)據(jù)值當(dāng)作w維坐標(biāo)系的坐標(biāo)值時的訓(xùn)練臨時區(qū)段集合的重心的坐標(biāo)值;以及標(biāo)本區(qū)段集合生成部,其將所述初始區(qū)段集合分割成由如下的初始區(qū)段構(gòu)成的初始臨時區(qū)段集合,生成按照每個初始臨時區(qū)段集合包含標(biāo)本區(qū)段的標(biāo)本區(qū)段集合,其中,所述初始區(qū)段由按照具有條件半徑的每個w維圖形表示圖形中包含的坐標(biāo)值的數(shù)據(jù)值構(gòu)成,所述標(biāo)本區(qū)段由表示初始臨時區(qū)段集合的圖形的重心的坐標(biāo)值的、w個數(shù)據(jù)值構(gòu)成,所述條件半徑是半徑的條件。
發(fā)明效果
根據(jù)本發(fā)明,能夠高速地生成時間序列數(shù)據(jù)的檢索中使用的標(biāo)本區(qū)段集合。
附圖說明
圖1是實施方式1中的時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)圖。
圖2是實施方式1中的時間序列數(shù)據(jù)檢索裝置100的硬件結(jié)構(gòu)圖。
圖3是實施方式1中的時間序列數(shù)據(jù)檢索方法的流程圖。
圖4是實施方式1中的初始區(qū)段集合生成處理(s110)的流程圖。
圖5是實施方式1中的標(biāo)本區(qū)段集合生成處理(s130)的流程圖。
圖6是實施方式1中的標(biāo)本區(qū)段集合生成處理(s130)的第2循環(huán)處理(s132)的流程圖。
圖7是實施方式1中的檢索結(jié)果距離計算處理(s150)的流程圖。
圖8是實施方式7中的初始區(qū)段集合生成處理(s110)的流程圖。
圖9是實施方式7中的標(biāo)本區(qū)段集合生成處理(s130)的流程圖。
圖10是實施方式7中的標(biāo)本區(qū)段集合生成處理(s130)的第2循環(huán)處理(s132)的流程圖。
圖11是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
圖12是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
圖13是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
圖14是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
圖15是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
圖16是與各實施方式中的標(biāo)本區(qū)段有關(guān)的概念圖。
具體實施方式
實施方式1
根據(jù)圖1~圖7對高速地生成時間序列數(shù)據(jù)的檢索中使用的標(biāo)本區(qū)段集合的方式進(jìn)行說明。
對時間序列數(shù)據(jù)的相似檢索的思路進(jìn)行說明。
通過幅度w的窗從時間序列數(shù)據(jù)中切出的部分時間序列數(shù)據(jù)能夠視為w維的向量。由此,求出訓(xùn)練時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)即訓(xùn)練區(qū)段與測試時間序列數(shù)據(jù)的部分時間序列數(shù)據(jù)即測試區(qū)段之間的距離的處理能夠視為求出w維空間的2點的坐標(biāo)間的距離的處理。
并且,測試時間序列數(shù)據(jù)的奇點檢測能夠視為尋找最遠(yuǎn)離訓(xùn)練區(qū)段集合的測試區(qū)段的處理。
而且,時間序列數(shù)據(jù)的相似檢索能夠視為w維空間的附近檢索。
對時間序列數(shù)據(jù)具有的第1特性~第3特性進(jìn)行說明。
第1特性是數(shù)據(jù)值的連續(xù)性。溫度等物理現(xiàn)象的計測值大多連續(xù)變化。并且,以機械方式控制的設(shè)備的計測值不會急劇變化。例如,急劇的電壓變化成為設(shè)備故障的原因,因此,施加給設(shè)備的電壓逐漸變化。
第2特性是數(shù)據(jù)值的周期性。設(shè)備的動作與人的活動或氣象現(xiàn)象具有較強的相關(guān)性。這種設(shè)備的時間序列數(shù)據(jù)以一日、一周或一年等為單位具有周期性。并且,在根據(jù)程序而反復(fù)動作的設(shè)備的時間序列數(shù)據(jù)中也反復(fù)出現(xiàn)相同的模式。
第3特性是數(shù)據(jù)值的局限性。被控制的設(shè)備的時間序列數(shù)據(jù)中包含的計測值是規(guī)定范圍的值。這種時間序列數(shù)據(jù)的區(qū)段集中在多維空間的有限區(qū)域內(nèi)。例如,被控制成計測值為正值的設(shè)備的時間序列數(shù)據(jù)的區(qū)段包含在多維空間的全部維度的正區(qū)域內(nèi)。
***結(jié)構(gòu)的說明***
根據(jù)圖1對時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)進(jìn)行說明。
時間序列數(shù)據(jù)檢索裝置100具有時間序列數(shù)據(jù)取得部110、參數(shù)取得部111、初始區(qū)段集合生成部120、初始區(qū)段集合排序部130、標(biāo)本區(qū)段集合生成部140。進(jìn)而,時間序列數(shù)據(jù)檢索裝置100具有標(biāo)本區(qū)段集合排序部150、檢索結(jié)果距離計算部160、檢索結(jié)果距離輸出部161、數(shù)據(jù)存儲部190。
時間序列數(shù)據(jù)取得部110取得被輸入到時間序列數(shù)據(jù)檢索裝置100的訓(xùn)練時間序列數(shù)據(jù)s和測試時間序列數(shù)據(jù)t。
訓(xùn)練時間序列數(shù)據(jù)s和測試時間序列數(shù)據(jù)t是由以時間序列排列的多個數(shù)據(jù)值構(gòu)成的時間序列數(shù)據(jù)。
參數(shù)取得部111對被輸入到時間序列數(shù)據(jù)檢索裝置100的滑動幅度w和近似誤差ε進(jìn)行輸入。
滑動幅度w是從訓(xùn)練時間序列數(shù)據(jù)s中提取出的訓(xùn)練區(qū)段和從測試時間序列數(shù)據(jù)t中提取出的測試區(qū)段中包含的數(shù)據(jù)值的個數(shù)。滑動幅度w也稱作滑動時間窗幅度。
近似誤差ε是可容許的誤差的大小。參數(shù)取得部111也可以使用用于計算近似誤差ε的參數(shù)來計算近似誤差ε。
初始區(qū)段集合生成部120生成多個按照時間序列的順序從訓(xùn)練時間序列數(shù)據(jù)s中提取w個數(shù)據(jù)值而得到的訓(xùn)練區(qū)段,生成多個由按照時間序列的順序排列的一個以上的訓(xùn)練區(qū)段構(gòu)成的訓(xùn)練臨時區(qū)段集合。初始區(qū)段集合生成部120按照每個訓(xùn)練臨時區(qū)段集合計算初始區(qū)段。初始區(qū)段是表示將訓(xùn)練臨時區(qū)段集合的各個訓(xùn)練區(qū)段中包含的w個數(shù)據(jù)值當(dāng)作w維坐標(biāo)系的坐標(biāo)值時的訓(xùn)練臨時區(qū)段集合的重心的坐標(biāo)值的、w個數(shù)據(jù)值。而且,初始區(qū)段集合生成部120生成由每個訓(xùn)練臨時區(qū)段集合的初始區(qū)段構(gòu)成的初始區(qū)段集合f。
在訓(xùn)練臨時區(qū)段集合中包含多個訓(xùn)練區(qū)段的情況下,多個訓(xùn)練區(qū)段中的時間序列順序的開頭的訓(xùn)練區(qū)段與其余的訓(xùn)練區(qū)段之間的距離為條件半徑ε/2以下。
初始區(qū)段集合排序部130按照初始區(qū)段集合f中包含的每個初始區(qū)段,使用初始區(qū)段中包含的數(shù)據(jù)值計算初始區(qū)段的特征量。然后,初始區(qū)段集合排序部130按照特征量的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
標(biāo)本區(qū)段集合生成部140將初始區(qū)段集合f分割成一個以上的初始臨時區(qū)段集合。初始臨時區(qū)段集合由初始區(qū)段構(gòu)成,所述初始區(qū)段由按照具有條件半徑ε/2的每個w維圖形(后述球b)表示圖形中包含的坐標(biāo)值的數(shù)據(jù)值構(gòu)成,所述條件半徑是半徑的條件。然后,標(biāo)本區(qū)段集合生成部140生成包含每個初始臨時區(qū)段集合的標(biāo)本區(qū)段的標(biāo)本區(qū)段集合e。標(biāo)本區(qū)段由表示初始臨時區(qū)段集合的圖形的重心的坐標(biāo)值的、w個數(shù)據(jù)值構(gòu)成。圖形的重心也可以換言之為圖形的中心。
初始臨時區(qū)段集合由第1圖形中包含的一個以上的初始區(qū)段構(gòu)成。第1圖形是包含排序后的初始區(qū)段集合f中的開頭的初始區(qū)段表示的坐標(biāo)值的圖形。
通過初始區(qū)段判定,除了開頭的初始區(qū)段之外對包含在第1初始臨時區(qū)段集合中的初始區(qū)段進(jìn)行判定。初始區(qū)段判定是從開頭的初始區(qū)段的下一個初始區(qū)段起依次判定初始區(qū)段是否包含在第1圖形內(nèi)的處理。
在特征量差包含在作為特征量差條件的特征量差范圍內(nèi)的情況下,對選擇出的初始區(qū)段進(jìn)行初始區(qū)段判定。該特征量差是從下一個初始區(qū)段起依次選擇出的初始區(qū)段的特征量與根據(jù)第1圖形的重心即第1重心的坐標(biāo)值計算出的第1重心的特征量之差。
在特征量差未包含在特征量差范圍內(nèi)的情況下,不對從選擇出的初始區(qū)段起的初始區(qū)段進(jìn)行初始區(qū)段判定。
在針對選擇出的初始區(qū)段的初始區(qū)段判定中,選擇出的初始區(qū)段表示的坐標(biāo)值的坐標(biāo)與第1重心的坐標(biāo)之間的距離為條件半徑ε/2以下的情況下,判定為選擇出的初始區(qū)段包含在第1圖形內(nèi)。
初始區(qū)段的特征量是初始區(qū)段中包含的數(shù)據(jù)值的平均值。
第1重心的特征量是將第1圖形的重心的坐標(biāo)值作為w個數(shù)據(jù)值進(jìn)行處理時的數(shù)據(jù)值的平均值。
標(biāo)本區(qū)段集合排序部150按照標(biāo)本區(qū)段集合e中包含的每個標(biāo)本區(qū)段,使用標(biāo)本區(qū)段中包含的數(shù)據(jù)值計算標(biāo)本區(qū)段的特征量。然后,標(biāo)本區(qū)段集合排序部150按照特征量的順序?qū)?biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段進(jìn)行排序。
檢索結(jié)果距離計算部160生成多個按照時間序列的順序從測試時間序列數(shù)據(jù)t中提取w個數(shù)據(jù)值而得到的測試區(qū)段。檢索結(jié)果距離計算部160按照測試區(qū)段與標(biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段的每個組合,計算測試區(qū)段與標(biāo)本區(qū)段之間的區(qū)段間距離。然后,檢索結(jié)果距離計算部160按照每個測試區(qū)段,選擇測試區(qū)段與任意標(biāo)本區(qū)段之間的區(qū)段間距離作為檢索結(jié)果距離z。
檢索結(jié)果距離z是最小的區(qū)段間距離。
檢索結(jié)果距離輸出部161輸出每個測試區(qū)段的檢索結(jié)果距離。
數(shù)據(jù)存儲部190存儲時間序列數(shù)據(jù)檢索裝置100使用、生成或輸入輸出的數(shù)據(jù)。
根據(jù)圖2對時間序列數(shù)據(jù)檢索裝置100的硬件結(jié)構(gòu)例進(jìn)行說明。
時間序列數(shù)據(jù)檢索裝置100是具有處理器901、輔助存儲裝置902、存儲器903、通信裝置904、輸入接口905、顯示器接口906這樣的硬件的計算機。
處理器901經(jīng)由信號線910而與其它硬件連接。輸入接口905經(jīng)由纜線911而與輸入裝置907連接。顯示器接口906經(jīng)由纜線912而與顯示器908連接。
處理器901是進(jìn)行處理的ic(integratedcircuit:集成電路),對其它硬件進(jìn)行控制。例如,處理器901是cpu(centralprocessingunit:中央處理單元)、dsp(digitalsignalprocessor:數(shù)字信號處理器)、gpu(graphicsprocessingunit:圖形處理單元)。
輔助存儲裝置902例如是rom(readonlymemory:只讀存儲器)、閃存、hdd(harddiskdrive:硬盤驅(qū)動器)。
存儲器903例如是ram(randomaccessmemory:隨機存取存儲器)。
通信裝置904具有接收數(shù)據(jù)的接收機9041和發(fā)送數(shù)據(jù)的發(fā)送機9042。例如,通信裝置904是通信芯片或nic(networkinterfacecard:網(wǎng)絡(luò)接口卡)。
輸入接口905是連接纜線911的端口,端口的一例是usb(universalserialbus:通用串行總線)端子。
顯示器接口906是連接纜線912的端口,端口的一例是usb端子或hdmi(highdefinitionmultimediainterface:高分辨率多媒體接口)端子。hdmi是注冊商標(biāo)。
輸入裝置907例如是鼠標(biāo)、鍵盤或觸摸面板。
顯示器908例如是lcd(liquidcrystaldisplay:液晶顯示器)。
在輔助存儲裝置902中存儲有os(operatingsystem:操作系統(tǒng))。并且,在輔助存儲裝置902中存儲有實現(xiàn)時間序列數(shù)據(jù)檢索裝置100具有的時間序列數(shù)據(jù)取得部110、參數(shù)取得部111、初始區(qū)段集合生成部120、初始區(qū)段集合排序部130、標(biāo)本區(qū)段集合生成部140、標(biāo)本區(qū)段集合排序部150、檢索結(jié)果距離計算部160、檢索結(jié)果距離輸出部161這樣的“部”的功能的程序。
os的至少一部分被加載到存儲器903,處理器901執(zhí)行os,并且執(zhí)行實現(xiàn)“部”的功能的程序。實現(xiàn)“部”的功能的程序被載入到存儲器903,被處理器901讀入,由處理器901來執(zhí)行。
另外,也可以是,時間序列數(shù)據(jù)檢索裝置100具有多個處理器901,多個處理器901協(xié)作執(zhí)行實現(xiàn)“部”的功能的程序。
表示“部”的處理的結(jié)果的數(shù)據(jù)、信息、信號值和變量值等存儲在存儲器903、輔助存儲裝置902、處理器901內(nèi)的寄存器或處理器901內(nèi)的緩存中。
也可以利用“電路系統(tǒng)(circuitry)”來安裝“部”?!安俊币部梢愿膶懗伞半娐贰?、“步驟”、“進(jìn)程”或“處理”。
“電路”和“電路系統(tǒng)”是包含處理器901、邏輯ic、ga(gatearray:門陣列)、asic(applicationspecificintegratedcircuit:面向特定用途的集成電路)、fpga(field-programmablegatearray:現(xiàn)場可編程門陣列)這樣的處理電路的概念。
***動作的說明***
根據(jù)圖3對構(gòu)成時間序列數(shù)據(jù)檢索裝置100的時間序列數(shù)據(jù)檢索方法的各處理的概要進(jìn)行說明。然后,對各處理進(jìn)行詳細(xì)說明。
s110是初始區(qū)段集合生成處理。
在s110中,初始區(qū)段集合生成部120根據(jù)訓(xùn)練時間序列數(shù)據(jù)s生成初始區(qū)段集合f。
s120是初始區(qū)段集合排序處理。
在s120中,初始區(qū)段集合排序部130按照初始區(qū)段集合f中包含的每個初始區(qū)段計算特征量,按照特征量的升序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
s130是標(biāo)本區(qū)段集合生成處理。
在s130中,標(biāo)本區(qū)段集合生成部140根據(jù)排序后的初始區(qū)段集合f生成標(biāo)本區(qū)段集合e。
s140是標(biāo)本區(qū)段排序處理。
在s140中,標(biāo)本區(qū)段集合排序部150按照標(biāo)本區(qū)段集合e中包含的每個標(biāo)本區(qū)段計算特征量,按照特征量的升序?qū)?biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段進(jìn)行排序。
s150是檢索結(jié)果距離計算處理。
在s150中,檢索結(jié)果距離計算部160使用標(biāo)本區(qū)段集合e,計算測試時間序列數(shù)據(jù)t中包含的每個測試區(qū)段的檢索結(jié)果距離z。
s160是檢索結(jié)果距離輸出處理。
在s160中,檢索結(jié)果距離輸出部161輸出每個測試區(qū)段的檢索結(jié)果距離z。
對以后的說明中使用的表記進(jìn)行說明。
使用數(shù)據(jù)長度m,利用s={s[0],s[1],…,s[m-1]}表示訓(xùn)練時間序列數(shù)據(jù)s。即,訓(xùn)練時間序列數(shù)據(jù)s由s[0]~s[m-1]這m個數(shù)據(jù)值構(gòu)成。
使用滑動幅度w,利用si=s[i:i+w-1]表示第i個訓(xùn)練區(qū)段si。即,第i個訓(xùn)練區(qū)段si由s[i]~s[i+w-1]這w個數(shù)據(jù)值構(gòu)成。
使用數(shù)據(jù)長度n,利用t={t[0],t[1],…,t[n-1]}表示測試時間序列數(shù)據(jù)t。即,測試時間序列數(shù)據(jù)t由t[0]~t[n-1]這n個數(shù)據(jù)值構(gòu)成。
使用滑動幅度w,利用ti=t[i:i+w-1]表示第i個測試區(qū)段ti。即,第i個測試區(qū)段ti由t[i]~t[i+w-1]這w個數(shù)據(jù)值構(gòu)成。
根據(jù)圖4對初始區(qū)段集合生成處理(s110)進(jìn)行說明。
在s111中,初始區(qū)段集合生成部120對初始區(qū)段集合f進(jìn)行初始化。初始化后的初始區(qū)段集合f不包含初始區(qū)段。
在變量i的值從0起每次增加1而成為m-w+1之前,反復(fù)執(zhí)行s112~s116的處理。訓(xùn)練區(qū)段si是變量i的值表示的編號的訓(xùn)練區(qū)段。m-w+1是最終的訓(xùn)練區(qū)段的編號。在圖4中,設(shè)s112~s117的處理的循環(huán)為第1循環(huán)。
在s112中,初始區(qū)段集合生成部120對訓(xùn)練臨時區(qū)段集合us進(jìn)行初始化,在訓(xùn)練臨時區(qū)段集合us中追加訓(xùn)練區(qū)段si。此時,訓(xùn)練臨時區(qū)段集合us僅包含訓(xùn)練區(qū)段si。
在變量j的值從i+1起每次增加1而成為m-w+1之前,反復(fù)執(zhí)行s113~s115的處理。訓(xùn)練區(qū)段sj是變量j的值表示的編號的訓(xùn)練區(qū)段。在圖4中,將s113~s115的處理的循環(huán)稱作第2循環(huán)。
在s113中,初始區(qū)段集合生成部120計算訓(xùn)練區(qū)段si與訓(xùn)練區(qū)段sj之間的區(qū)段間距離d。該區(qū)段間距離d的種類是歐幾里得距離。
在s114中,初始區(qū)段集合生成部120判定區(qū)段間距離d是否為ε/2以下。
在區(qū)段間距離d為ε/2以下的情況下(是),處理進(jìn)入s115。
在區(qū)段間距離d大于ε/2的情況下(否),處理進(jìn)入s116。
在s115中,初始區(qū)段集合生成部120在訓(xùn)練臨時區(qū)段集合us中追加訓(xùn)練區(qū)段sj。
在s116中,初始區(qū)段集合生成部120計算訓(xùn)練臨時區(qū)段集合us中包含的各個訓(xùn)練區(qū)段表示的坐標(biāo)的重心。表示該重心的坐標(biāo)的w個數(shù)據(jù)值是初始區(qū)段。
利用以下的式<1>求出訓(xùn)練臨時區(qū)段集合us的重心cent(us)。
在式<1>中,us是{s0,s1,…,sh},|us|是數(shù)據(jù)長度(h+1)。并且,fn[j]是初始區(qū)段fn的第j個元素。
【數(shù)學(xué)式1】
cent(us)={fn[0],fn[1],…,fn[w-1]}…<1>
然后,初始區(qū)段集合生成部120在初始區(qū)段集合f中追加初始區(qū)段。
在s116之后,處理脫離第2循環(huán),進(jìn)入s117。
在s117中,初始區(qū)段集合生成部120將變量i的值更新成變量j的值。
通過圖4的處理,僅從開頭朝向末尾在一個方向上掃描訓(xùn)練時間序列數(shù)據(jù)s,就能夠生成初始區(qū)段集合f。
初始區(qū)段集合生成處理(s110)是利用時間序列數(shù)據(jù)的第1特性即數(shù)據(jù)值的連續(xù)性的處理,假設(shè)連續(xù)的區(qū)段彼此的坐標(biāo)的距離較近。由此,僅搜索連續(xù)的區(qū)段,也能夠?qū)ふ蚁嗨频膮^(qū)段。
而且,從開頭掃描訓(xùn)練時間序列數(shù)據(jù)s,提取半徑為ε/2的球中包含的訓(xùn)練區(qū)段的集合即訓(xùn)練臨時區(qū)段集合us,計算訓(xùn)練臨時區(qū)段集合us的重心作為初始區(qū)段。
對初始區(qū)段集合排序處理(s120)進(jìn)行說明。
初始區(qū)段集合排序部130按照初始區(qū)段集合f中包含的每個初始區(qū)段計算特征量,按照特征量的升序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
初始區(qū)段的特征量是初始區(qū)段中包含的w個數(shù)據(jù)值的平均值。
在利用fn={fn[0],fn[1],…,fn[w-1]}表示初始區(qū)段fn的情況下,能夠利用以下的式<2>表示初始區(qū)段fn的平均值mean(fn)。
初始區(qū)段fn的平均值mean(fn)意味著初始區(qū)段fn的坐標(biāo)位于由以下的式<3>定義的w維空間的平面內(nèi)。在式<3>中,xi是第i個坐標(biāo)軸中的坐標(biāo)值。該w維空間的平面是通過w個坐標(biāo){(w*mean(fn),0,…,0)、(0,w*mean(fn),…,0)、…、(0,0,…,w*mean(fn))}的平面。
【數(shù)學(xué)式2】
x0+x1+…+xw-1=w*mean(fn)…<3>
初始區(qū)段集合排序處理(s120)是利用時間序列數(shù)據(jù)的第2特性即數(shù)據(jù)值的周期性的處理。
通過按照平均值的升序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序,能夠較近地排列時間上不近但距離上較近的初始區(qū)段彼此。
根據(jù)圖5對標(biāo)本區(qū)段集合生成處理(s130)進(jìn)行說明。
在s130-1中,標(biāo)本區(qū)段集合生成部140對標(biāo)本區(qū)段集合e進(jìn)行初始化。初始化后的標(biāo)本區(qū)段集合e不包含標(biāo)本區(qū)段。
在變量i的值從0起每次增加1而成為值r之前,反復(fù)執(zhí)行s131-1~s131-6的處理。值r是初始區(qū)段集合f中包含的最終的初始區(qū)段的編號。但是,在變量i的值是從初始區(qū)段集合f中去除的初始區(qū)段的編號的情況下,跳過針對所去除的初始區(qū)段的處理,變量i的值增加1。
初始區(qū)段fi是變量i的值表示的編號的初始區(qū)段。在圖5中,設(shè)s131-1~s131-6的處理的循環(huán)為第1循環(huán)。
在s131-1中,標(biāo)本區(qū)段集合生成部140決定包含初始區(qū)段fi的球b的重心c。球b的半徑為ε/2。
作為球b的重心c,可舉出以下的(1)~(3)所示的重心c。
(1)初始區(qū)段fi表示的坐標(biāo)值是重心c。
(2)在初始區(qū)段fi的坐標(biāo)值與初始區(qū)段fk的坐標(biāo)值之間的區(qū)段間距離d為ε以下的情況下,初始區(qū)段fi的坐標(biāo)值與初始區(qū)段fk的坐標(biāo)值的中間坐標(biāo)值是重心c。初始區(qū)段fk是滿足后述區(qū)段間距離的條件的最初的初始區(qū)段或最后的初始區(qū)段。初始區(qū)段fk也可以是滿足區(qū)段間距離的條件的初始區(qū)段中的最大的區(qū)段間距離的初始區(qū)段。另外,初始區(qū)段fk是初始區(qū)段fi之后的初始區(qū)段。
(3)時間序列數(shù)據(jù)具有上述第3特性即數(shù)據(jù)值的局限性。因此,可認(rèn)為在w維空間內(nèi),區(qū)段的坐標(biāo)分布在通過原點和坐標(biāo)(1,1,…,1)的基本向量v的周邊。該情況下,沿著通過初始區(qū)段fi的坐標(biāo)且與基本向量v平行的向量從初始區(qū)段fi的坐標(biāo)向正方向前進(jìn)ε/2的坐標(biāo)的坐標(biāo)值是重心c。該重心c是初始區(qū)段fi[l](0≤l<w)加上ε/(2*√w)而得到的值。
在s131-1中決定球b的重心c后,標(biāo)本區(qū)段集合生成部140計算重心c的特征量d(c)。
計算重心c的特征量d(c)的方法與在s120中計算初始區(qū)段fn的特征量的方法相同。但是,在上述的式<2>中,fn被置換成c。
在s131-2中,標(biāo)本區(qū)段集合生成部140對初始臨時區(qū)段集合uf進(jìn)行初始化,在初始臨時區(qū)段集合uf中追加初始區(qū)段fi。此時,初始臨時區(qū)段集合uf僅包含初始區(qū)段fi。
在s131-3中,標(biāo)本區(qū)段集合生成部140從初始區(qū)段集合f中去除初始區(qū)段fi。
在s131-4中,標(biāo)本區(qū)段集合生成部140在變量skip中設(shè)定-1。變量skip是表示球b中未包含的最初的初始區(qū)段fi的編號的變量。
在s132中,標(biāo)本區(qū)段集合生成部140進(jìn)行第2循環(huán)處理。第2循環(huán)處理(s132)容后再述。
在s131-5中,標(biāo)本區(qū)段集合生成部140在標(biāo)本區(qū)段集合e中追加重心c。
在s131-6中,標(biāo)本區(qū)段集合生成部140對變量i的值進(jìn)行更新。
在變量skip的值為正值的情況下,變量i的值被更新成變量skip的值。
在變量skip的值為負(fù)值(-1)的情況下,變量i的值被更新成第2循環(huán)處理(s132)中設(shè)定的變量j的值。
根據(jù)圖6對第2循環(huán)處理(s132)進(jìn)行說明。
在變量j的值從i+1起每次增加1而成為值r之前,反復(fù)執(zhí)行s132-1~s132-7的處理。但是,在變量j的值是從初始區(qū)段集合f中去除的初始區(qū)段的編號的情況下,跳過針對所去除的初始區(qū)段的處理,變量j的值增加1。
初始區(qū)段fj是變量j的值表示的編號的初始區(qū)段。在圖6中,設(shè)s132-1~s132-6的處理的循環(huán)為第2循環(huán)。
在s132-1中,標(biāo)本區(qū)段集合生成部140判定初始區(qū)段fj的特征量d(fj)與重心c的特征量d(c)的特征量差是否大于ε/(2*√w)(區(qū)段間距離的條件)。初始區(qū)段fj的特征量d(fj)是在初始區(qū)段集合排序處理(s120)中計算出的值。
在特征量差大于ε/(2*√w)的情況下,包含初始區(qū)段fj的坐標(biāo)的平面與包含重心c的坐標(biāo)的平面之間的距離超過ε/2,因此,初始區(qū)段fj的坐標(biāo)位于球b的外側(cè)。因此,不直接計算初始區(qū)段fj的坐標(biāo)與重心c的坐標(biāo)之間的距離,也能夠判定位于球b外側(cè)的坐標(biāo)的初始區(qū)段fj。
根據(jù)以下的式<4>和式<5>得到s132-1中的條件式|d(fi)-d(c)|>ε/(2*√w)。
式<4>是在w維空間內(nèi)求出包含平均值為d1的第1坐標(biāo)的平面與包含平均值為d2的第2坐標(biāo)的平面之間的距離的式子。
因此,為了使第1坐標(biāo)與第2坐標(biāo)之間的距離為dε以下,需要滿足式<5>。
【數(shù)學(xué)式3】
在特征量差大于ε/(2*√w)的情況下(是),處理脫離第2循環(huán),進(jìn)入s131-5(參照圖5)。
在特征量差為ε/(2*√w)以下的情況下(否),處理進(jìn)入s132-2。
在s132-2中,標(biāo)本區(qū)段集合生成部140計算重心c的坐標(biāo)與初始區(qū)段fj的坐標(biāo)之間的距離即區(qū)段間距離d。該區(qū)段間距離d的種類是歐幾里得距離。
在s132-3中,標(biāo)本區(qū)段集合生成部140判定區(qū)段間距離d是否為ε/2以下。
在區(qū)段間距離d為ε/2以下的情況下(是),處理進(jìn)入s132-4。
在區(qū)段間距離d大于ε/2的情況下(否),處理進(jìn)入s132-6。
在s132-4中,標(biāo)本區(qū)段集合生成部140在初始臨時區(qū)段集合uf中追加初始區(qū)段fj。
在s132-5中,標(biāo)本區(qū)段集合生成部140從初始區(qū)段集合f中去除初始區(qū)段fj。
在s132-6中,在變量skip為負(fù)值(-1)的情況下,標(biāo)本區(qū)段集合生成部140在變量skip中設(shè)定變量j的值。在負(fù)值以外的情況下,不進(jìn)行任何動作。
通過圖5和圖6的處理,僅從開頭朝向末尾在一個方向上掃描初始區(qū)段集合f,就能夠生成標(biāo)本區(qū)段集合e。
對標(biāo)本區(qū)段排序處理(s140)進(jìn)行說明。
標(biāo)本區(qū)段集合排序部150按照標(biāo)本區(qū)段集合e中包含的每個標(biāo)本區(qū)段計算特征量,按照特征量的升序?qū)?biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段進(jìn)行排序。
計算標(biāo)本區(qū)段en的特征量的方法與在s120中計算初始區(qū)段fn的特征量的方法相同。但是,在上述的式<2>中,fn被置換成en。
根據(jù)圖7對檢索結(jié)果距離計算處理(s150)進(jìn)行說明。
在變量i的值從0起每次增加1而成為n-w+1之前,反復(fù)執(zhí)行s151~s154的處理。測試區(qū)段ti是變量i的值表示的編號的測試區(qū)段。n-w+1是最終的測試區(qū)段的編號。檢索結(jié)果距離z[i]是測試區(qū)段ti的檢索結(jié)果距離z。在圖7中,設(shè)s151~s154的處理的循環(huán)為第1循環(huán)。
在s151中,檢索結(jié)果距離計算部160在檢索結(jié)果距離z[i]中設(shè)定無限大。
在變量j的值從0起每次增加1而成為值e之前,反復(fù)執(zhí)行s152~s154的處理。值e是標(biāo)本區(qū)段集合e中包含的最終的標(biāo)本區(qū)段的編號。在圖7中,設(shè)s152~s154的處理的循環(huán)為第2循環(huán)。
在s152中,檢索結(jié)果距離計算部160計算測試區(qū)段ti與標(biāo)本區(qū)段ej之間的區(qū)段間距離d。該區(qū)段間距離d的種類是歐幾里得距離。但是,該區(qū)段間距離d的種類也可以是dtw距離或其它種類的距離。
在s153中,檢索結(jié)果距離計算部160判定區(qū)段間距離d是否小于檢索結(jié)果距離z[i]。
在區(qū)段間距離d小于檢索結(jié)果距離z[i]的情況下(是),處理進(jìn)入s154。
在區(qū)段間距離d為檢索結(jié)果距離z[i]以上的情況下(否),不進(jìn)行s154的處理。
在s154中,檢索結(jié)果距離計算部160利用區(qū)段間距離d對檢索結(jié)果距離z[i]進(jìn)行更新。
對檢索結(jié)果距離輸出處理(s160)進(jìn)行說明。
檢索結(jié)果距離輸出部161輸出每個測試區(qū)段的檢索結(jié)果距離z。
在測試區(qū)段的檢索結(jié)果距離z較大的情況下,該測試區(qū)段不與任何標(biāo)本區(qū)段相似。換言之,該測試區(qū)段不與任何訓(xùn)練區(qū)段相似。
因此,在與其它區(qū)段相比,測試區(qū)段的檢索結(jié)果距離z相對較大的情況下,該測試區(qū)段能夠視為測試時間序列數(shù)據(jù)t的奇點。
在時間序列數(shù)據(jù)檢索方法中,通過求出半徑為ε/2的球作為初始區(qū)段的初始區(qū)段集合生成處理(s110)以及對半徑為ε/2的同一球中包含的初始區(qū)段進(jìn)行耦合來求出標(biāo)本區(qū)段的標(biāo)本區(qū)段集合生成處理(s130)這2個階段的處理,求出代表具有近似誤差ε作為半徑的球中包含的坐標(biāo)的區(qū)段的標(biāo)本區(qū)段。
在w維空間內(nèi),標(biāo)本區(qū)段是具有近似誤差ε作為半徑的多維超球的重心,代表表示該球中包含的坐標(biāo)的訓(xùn)練區(qū)段。即,測試區(qū)段與標(biāo)本區(qū)段之間的區(qū)段間距離d意味著測試區(qū)段與訓(xùn)練區(qū)段之間的區(qū)段距離包含在d±ε的范圍內(nèi)。
另一方面,在不使用標(biāo)本區(qū)段來計算測試區(qū)段與訓(xùn)練區(qū)段之間的區(qū)段間距離的情況下,需要較多的計算量。例如,在測試區(qū)段和訓(xùn)練區(qū)段各自的個數(shù)為n的情況下,需要計算n2個區(qū)段間距離。因此,以使標(biāo)本區(qū)段的數(shù)量最小的方式選擇標(biāo)本區(qū)段是理想的。換言之,選擇具有最佳半徑的最佳球是理想的,但是,為了從多維空間內(nèi)選擇具有最佳半徑的最佳球,需要調(diào)查區(qū)段的密度分布等,需要較多的計算量。關(guān)于最佳球的選擇,除了選擇最終的標(biāo)本區(qū)段的數(shù)量最小的球以外,還意味著選擇球中包含的標(biāo)本區(qū)段的數(shù)量最大的球。
在實施方式中,與選擇最佳球相比,優(yōu)先削減計算量。
***效果的說明***
作為嚴(yán)格具有近似誤差ε作為半徑的球中包含的訓(xùn)練區(qū)段的集合的代表,時間序列數(shù)據(jù)檢索裝置100能夠生成標(biāo)本區(qū)段。由此,能夠保證相似檢索中的近似誤差ε。
并且,時間序列數(shù)據(jù)檢索裝置100僅從開頭掃描一次訓(xùn)練時間序列數(shù)據(jù)s,就能夠生成初始區(qū)段集合f,僅從開頭掃描一次初始區(qū)段集合f,就能夠生成標(biāo)本區(qū)段集合e。
因此,能夠從訓(xùn)練時間序列數(shù)據(jù)s中高速地提取保證了近似誤差ε的標(biāo)本區(qū)段。
實施方式2
對使用與平均值不同的特征量的方式進(jìn)行說明。但是,省略與實施方式1重復(fù)的說明。
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140與實施方式1不同。
在s120中,初始區(qū)段fi的特征量d(fi)是初始區(qū)段fi表示的坐標(biāo)值的坐標(biāo)與基準(zhǔn)點之間的距離。
基準(zhǔn)點是w維空間的原點0={0,0,…,0}。該情況下,初始區(qū)段fi位于具有d(fi)作為半徑的球面上。但是,基準(zhǔn)點也可以是原點0以外的坐標(biāo)。
在s130中,重心c的特征量d(c)是重心c與基準(zhǔn)點之間的距離。
在s132-1(參照圖6)中,判定特征量d(fi)與特征量d(c)的特征量差是否大于ε/2。根據(jù)以下的式<6>和式<7>得到該條件式|d(fi)-d(c)|>ε/2。
式<6>是在w維空間內(nèi)求出距基準(zhǔn)點的距離為d1的第1坐標(biāo)與距基準(zhǔn)點的距離為d2的第2坐標(biāo)之間的距離的最小值的式子。
因此,為了使第1坐標(biāo)與第2坐標(biāo)之間的距離為dε以下,需要滿足式<7>。
【數(shù)學(xué)式4】
|d1-d2|…<6>
|d1-d2|≤dε…<7>
在基準(zhǔn)點為原點0的情況下,能夠利用以下的式<8>表示初始區(qū)段fi的坐標(biāo)與重心c的坐標(biāo)之間的距離的范圍。
式<8>意味著,在由于初始區(qū)段fi分散而使初始區(qū)段fi與基準(zhǔn)點之間的距離往往超過|d(fi)+d(c)|的情況下,能夠在s132-1中更快地完成搜索。
【數(shù)學(xué)式5】
|d(fi)-d(c)|≤dist(c,fi)≤|d(fi)+d(c)|…<8>
在s140中,標(biāo)本區(qū)段ei的特征量d(ei)是標(biāo)本區(qū)段ei表示的坐標(biāo)值的坐標(biāo)與基準(zhǔn)點之間的距離。
***效果的說明***
在初始區(qū)段分散的情況下,時間序列數(shù)據(jù)檢索裝置100能夠較快地完成用于生成標(biāo)本區(qū)段的搜索,高速地生成標(biāo)本區(qū)段集合。
實施方式3
對使用與平均值不同的特征量的方式進(jìn)行說明。但是,省略與實施方式1重復(fù)的說明。
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120和s140與實施方式1不同。
在s120中,初始區(qū)段的特征量是對從初始區(qū)段中提取出的初始部分區(qū)段中包含的數(shù)據(jù)值進(jìn)行平均而得到的部分平均值。即,按照部分平均值的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
作為提取初始部分區(qū)段的方法,可舉出以下的(1)和(2)的方法。
(1)提取初始區(qū)段fi[i:i+w-1]的前半部分fi(f)[i:(i+w-1)/2]或后半部分fi(b)[(i+w-1)/2:i+w-1]作為初始部分區(qū)段。
(2)提取對初始區(qū)段fi[i:i+w-1]進(jìn)行四等分而得到的第1部分fi(1)[i:(i+w-1)/4]和第3部分fi(3)[(i+w-1)/2:(i+w-1)*3/4]作為初始部分區(qū)段?;蛘?,提取第2部分fi(2)[(i+w-1)/4:(i+w-1)/2]和第4部分fi(4)[(i+w-1)*3/4:i+w-1]作為初始部分區(qū)段。
在s140中,標(biāo)本區(qū)段的特征量是對從標(biāo)本區(qū)段中提取出的標(biāo)本部分區(qū)段中包含的數(shù)據(jù)值進(jìn)行平均而得到的部分平均值。即,按照部分平均值的順序?qū)?biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段進(jìn)行排序。
s130中的初始區(qū)段的特征量d(fi)和重心的特征量d(c)與實施方式1相同。
即,初始區(qū)段的特征量d(fi)是對初始區(qū)段中包含的數(shù)據(jù)值進(jìn)行平均而得到的整體平均值,重心的特征量d(c)是對將重心的坐標(biāo)值作為w個數(shù)據(jù)值進(jìn)行處理時的數(shù)據(jù)值進(jìn)行平均而得到的重心平均值。并且,初始區(qū)段的特征量d(fi)與重心特征量d(c)的特征量差是整體平均值與重心平均值之差。
s132-1(參照圖6)中的條件式與實施方式1相同,是|d(fi)-d(c)|>ε/(2*√w)。
***效果的說明***
在存在整體平均值接近的大量初始區(qū)段的情況下,通過按照部分平均值的順序?qū)Τ跏紖^(qū)段集合進(jìn)行排序,也能夠抑制初始區(qū)段的搜索范圍的擴大,高速地生成標(biāo)本區(qū)段集合。
實施方式4
對使用與平均值不同的特征量的方式進(jìn)行說明。但是,省略與實施方式1重復(fù)的說明。
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140的內(nèi)容與實施方式1不同。
在s120中,初始區(qū)段fi的特征量d(fi)是初始區(qū)段fi的復(fù)雜度。根據(jù)初始區(qū)段fi中連續(xù)包含的每2個數(shù)據(jù)值的數(shù)據(jù)值之差計算該復(fù)雜度。
利用以下的式<9>計算初始區(qū)段fi的復(fù)雜度comp(fi)。
【數(shù)學(xué)式6】
在s130中,重心c的特征量d(c)是重心區(qū)段的復(fù)雜度。根據(jù)將重心c的坐標(biāo)值作為由w個數(shù)據(jù)值構(gòu)成的重心區(qū)段進(jìn)行處理時的重心區(qū)段中連續(xù)包含的每2個數(shù)據(jù)值的數(shù)據(jù)值之差計算該復(fù)雜度。
計算重心區(qū)段的復(fù)雜度comp(c)的方法與在s120中計算初始區(qū)段fi的復(fù)雜度comp(fi)的方法相同。但是,在上述式<9>中,fi被置換成c。
在s132-1(參照圖6)中,判定特征量d(fi)與特征量d(c)的特征量差是否大于ε。根據(jù)以下的式<10>和式<11>得到該條件式|d(fi)-d(c)|>ε。
第1標(biāo)本區(qū)段e1的坐標(biāo)與第2標(biāo)本區(qū)段e2的坐標(biāo)之間的歐幾里得距離dist(e1,e2)滿足式<10>的范圍。
因此,為了使第1標(biāo)本區(qū)段e1的坐標(biāo)與第2標(biāo)本區(qū)段e2的坐標(biāo)之間的距離為dε以下,需要滿足式<11>。
【數(shù)學(xué)式7】
在s140中,標(biāo)本區(qū)段ei的特征量d(ei)是標(biāo)本區(qū)段ei的復(fù)雜度。
計算標(biāo)本區(qū)段ei的復(fù)雜度comp(ei)的方法與在s120中計算初始區(qū)段fi的復(fù)雜度comp(fi)的方法相同。但是,在上述式<9>中,fi被置換成ei。
***效果的說明***
與實施方式1同樣,能夠從訓(xùn)練時間序列數(shù)據(jù)s中高速地提取保證了近似誤差ε的標(biāo)本區(qū)段。
實施方式5
對使用與平均值不同的特征量的方式進(jìn)行說明。但是,省略與實施方式1重復(fù)的說明。
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140與實施方式1不同。
在s120中,初始區(qū)段的特征量是初始最短距離。即,按照初始最短距離的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
初始最短距離是初始區(qū)段用的基準(zhǔn)平面與w維空間的原點o之間的最短距離。
初始區(qū)段用的基準(zhǔn)平面是利用實施方式1的式<3>表示的平面。
利用以下的式<12>計算初始區(qū)段fi的初始最短距離featm(fi)。
【數(shù)學(xué)式8】
在s130中,初始區(qū)段fi的特征量d(fi)是初始最短距離和初始指標(biāo)值。初始指標(biāo)值是根據(jù)初始區(qū)段的每個坐標(biāo)軸的坐標(biāo)值與初始區(qū)段用的基準(zhǔn)平面的每個坐標(biāo)軸的坐標(biāo)值之差計算出的值。
利用以下的式<13>計算初始區(qū)段fi的初始指標(biāo)值featr(fi)。
【數(shù)學(xué)式9】
初始最短距離是到從w維空間的原點下引到初始區(qū)段用的基準(zhǔn)平面的垂線的垂足之間的距離。初始指標(biāo)值是由從w維空間的原點下引到初始區(qū)段用的基準(zhǔn)平面的垂線的垂足到初始區(qū)段表示的坐標(biāo)值之間的距離。直觀地講,初始指標(biāo)值表示基準(zhǔn)平面上的初始區(qū)段表示的坐標(biāo)值的偏移。
并且,重心c的特征量d(c)是重心最短距離和重心指標(biāo)值。
重心最短距離是w維空間的原點o與重心用的基準(zhǔn)平面之間的最短距離。重心用的基準(zhǔn)平面是利用實施方式1的式<3>表示的平面。但是,在式<3>中,fn被置換成c。利用上述式<12>計算重心c的重心最短距離featm(c)。但是,在式<12>中,fi被置換成c。
重心指標(biāo)值是根據(jù)重心的每個坐標(biāo)軸的坐標(biāo)值與重心用的基準(zhǔn)平面的每個坐標(biāo)軸的坐標(biāo)值之差計算出的值。利用上述式<13>計算重心c的重心指標(biāo)值featr(c)。但是,在式<13>中,fi被置換成c。
在s132-1(參照圖6)中,判定特征量d(fi)與特征量d(c)的特征量差是否大于ε/2。該特征量差是初始最短距離與重心最短距離之差和初始指標(biāo)值與重心指標(biāo)值之差的合計。根據(jù)以下的式<14>和式<15>得到s132-1中的條件式|d(fi)-d(c)|>ε/2。
第1標(biāo)本區(qū)段e1的坐標(biāo)與第2標(biāo)本區(qū)段e2的坐標(biāo)之間的歐幾里得距離dist(e1,e2)滿足式<14>的范圍。
因此,為了使第1標(biāo)本區(qū)段e1的坐標(biāo)與第2標(biāo)本區(qū)段e2的坐標(biāo)之間的距離為dε以下,需要滿足式<15>。
【數(shù)學(xué)式10】
在s140中,標(biāo)本區(qū)段的特征量是標(biāo)本最短距離。即,按照標(biāo)本最短距離的順序?qū)?biāo)本區(qū)段集合e中包含的標(biāo)本區(qū)段進(jìn)行排序。
標(biāo)本最短距離是標(biāo)本區(qū)段表示的坐標(biāo)值的坐標(biāo)與初始區(qū)段用的基準(zhǔn)平面之間的最短距離。標(biāo)本區(qū)段用的基準(zhǔn)平面是利用實施方式1的式<3>表示的平面。但是,在式<3>,fn被置換成en。利用上述的式<12>計算標(biāo)本區(qū)段ei的標(biāo)本最短距離featm(ei)。但是,在式<12>中,fi被置換成ei。
另外,實施方式1中說明的基于平均值的判定方法也可以換言之為基于2個平面間的距離的判定。即,在實施方式1中,|d(fi)-d(c)|能夠置換成以下的式<16>。
【數(shù)學(xué)式11】
|featm(ej)-featm(ei)|…<16>
***效果的說明***
通過考慮從取2個平面間的最短距離的點起的偏移,能夠嚴(yán)格地判定距離。而且,能夠較快地完成初始區(qū)段的搜索,高速地提取標(biāo)本區(qū)段。
實施方式6
對根據(jù)條件來選擇特征量的種類的方式進(jìn)行說明。但是,省略與實施方式1~實施方式5重復(fù)的說明。
<實施例1>
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,在僅正數(shù)據(jù)值和負(fù)數(shù)據(jù)值中的任意數(shù)據(jù)值包含在訓(xùn)練時間序列數(shù)據(jù)s中的情況下與正數(shù)據(jù)值和負(fù)數(shù)據(jù)值雙方包含在訓(xùn)練時間序列數(shù)據(jù)s中的情況下,初始區(qū)段的特征量的種類不同。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140與實施方式1不同。
在s120中,初始區(qū)段集合排序部130計算實施方式1~實施方式5中分別說明的種類的特征量。
并且,初始區(qū)段集合排序部130判定正負(fù)雙方的數(shù)據(jù)值是否包含在訓(xùn)練時間序列數(shù)據(jù)s中。通過與特征量的計算同時進(jìn)行該判定,能夠減小判定的間接費用。
在正負(fù)雙方的數(shù)據(jù)值包含在訓(xùn)練時間序列數(shù)據(jù)s中的情況下,初始區(qū)段集合排序部130選擇實施方式1、實施方式3、實施方式4或?qū)嵤┓绞?中說明的種類的特征量。
在正負(fù)任意的數(shù)據(jù)值包含在訓(xùn)練時間序列數(shù)據(jù)s中的情況下,初始區(qū)段集合排序部130選擇實施方式2或?qū)嵤┓绞?中說明的種類的特征量。
然后,初始區(qū)段集合排序部130按照選擇出的特征量的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
s130和s140與對選擇出的種類的特征量進(jìn)行說明的實施方式相同。
<實施例2>
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,在根據(jù)每個訓(xùn)練區(qū)段的指標(biāo)值計算出的分散值包含在作為分散值條件的分散值范圍內(nèi)的情況下與分散值未包含在分散值范圍內(nèi)的情況下,初始區(qū)段的特征量的種類不同。
訓(xùn)練區(qū)段的指標(biāo)值是根據(jù)訓(xùn)練區(qū)段的每個坐標(biāo)軸的坐標(biāo)值與訓(xùn)練區(qū)段用的基準(zhǔn)平面的每個坐標(biāo)軸的坐標(biāo)值之差計算出的值。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140與實施方式1不同。
在s120中,初始區(qū)段集合排序部130計算實施方式1~實施方式5中分別說明的種類的特征量。
并且,初始區(qū)段集合排序部130按照每個訓(xùn)練區(qū)段si計算featr(si)作為特征量。該特征量是實施方式5中說明的指標(biāo)值。
進(jìn)而,初始區(qū)段集合排序部130計算每個訓(xùn)練區(qū)段的特征量的分散值,使用閾值判定分散值是否包含在分散值范圍內(nèi)。
在分散值為閾值以下的情況下,初始區(qū)段集合排序部130選擇實施方式1、實施方式3或?qū)嵤┓绞?中說明的種類的特征量。
在分散值大于閾值的情況下,初始區(qū)段集合排序部130選擇實施方式2、實施方式4或?qū)嵤┓绞?中說明的種類的特征量。
然后,初始區(qū)段集合排序部130按照選擇出的特征量的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
s130和s140與對選擇出的種類的特征量進(jìn)行說明的實施方式相同。
該實施例2是使用實施方式5中說明的featr(ei)的方法。
根據(jù)時間序列數(shù)據(jù)的第3特性,認(rèn)為數(shù)據(jù)值的變化平緩的時間序列數(shù)據(jù)的區(qū)段分布在w維空間的基本向量的周邊?;鞠蛄縱是通過原點0和點(1,1,…,1)的向量。該featr(ei)成為表示標(biāo)本區(qū)段ei表示的標(biāo)本向量el與基本向量v之間的偏移的指標(biāo)。然后,導(dǎo)出實施例2。
<實施例3>
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,在根據(jù)每個訓(xùn)練區(qū)段的指標(biāo)值計算出的最大值包含在作為最大值條件的最大值范圍內(nèi)的情況下與最大值未包含在最大值范圍內(nèi)的情況下,初始區(qū)段的特征量的種類不同。
訓(xùn)練區(qū)段的指標(biāo)值是根據(jù)訓(xùn)練區(qū)段的每個坐標(biāo)軸的坐標(biāo)值與訓(xùn)練區(qū)段用的基準(zhǔn)平面的每個坐標(biāo)軸的坐標(biāo)值之差計算出的值。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,s120~s140是在<實施例2>的s120~s140中將分散值置換成最大值的處理。
<實施例4>
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,在根據(jù)每個訓(xùn)練區(qū)段的指標(biāo)值計算出的分散值包含在作為分散值條件的分散值范圍內(nèi)的情況下與分散值未包含在分散值范圍內(nèi)的情況下,初始區(qū)段的特征量的種類不同。
訓(xùn)練區(qū)段的指標(biāo)值是示出表示訓(xùn)練區(qū)段的坐標(biāo)值的向量偏角大小的值。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s120~s140與實施方式1不同。
在s120中,初始區(qū)段集合排序部130計算實施方式1~實施方式5中分別說明的種類的特征量。
并且,初始區(qū)段集合排序部130按照每個訓(xùn)練區(qū)段si計算偏角
利用以下的式<17>和式<18>計算偏角
【數(shù)學(xué)式12】
進(jìn)而,初始區(qū)段集合排序部130計算每個訓(xùn)練區(qū)段的特征量的分散值,使用閾值判定分散值是否包含在分散值范圍內(nèi)。
在分散值為閾值以下的情況下,初始區(qū)段集合排序部130選擇實施方式1、實施方式3或?qū)嵤┓绞?中說明的種類的特征量。
在分散值大于閾值的情況下,初始區(qū)段集合排序部130選擇實施方式2、實施方式4或?qū)嵤┓绞?中說明的種類的特征量。
然后,初始區(qū)段集合排序部130按照選擇出的特征量的順序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
s130和s140與對選擇出的種類的特征量進(jìn)行說明的實施方式相同。
<實施例5>
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,在根據(jù)每個訓(xùn)練區(qū)段的指標(biāo)值計算出的最大值包含在作為最大值條件的最大值范圍內(nèi)的情況下與最大值未包含在最大值范圍內(nèi)的情況下,初始區(qū)段的特征量的種類不同。
訓(xùn)練區(qū)段的指標(biāo)值是示出表示訓(xùn)練區(qū)段的坐標(biāo)值的向量偏角大小的值。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,s120~s140是在<實施例4>的s120~s140中將分散值置換成最大值的處理。
***效果的說明***
在初始區(qū)段的距離判定中,在實施方式1~實施方式4中使用1個特征量,在實施方式5中使用2個特征量。一般情況下,當(dāng)特征量的數(shù)量增加時,能夠進(jìn)行嚴(yán)格的判定,但是計算量增加。
因此,在實施方式6中,在與計算量的增加量相比希望基于嚴(yán)格判定的搜索范圍的削減量更大的情況下,使用2個特征量。
即,實施方式6根據(jù)時間序列數(shù)據(jù)的特性來選擇特征量,能夠高效地執(zhí)行用于生成標(biāo)本區(qū)段的初始區(qū)段的搜索。
實施方式7
根據(jù)圖8~圖10對從初始臨時區(qū)段集合uf包含的初始區(qū)段中選擇標(biāo)本區(qū)段的方式進(jìn)行說明。但是,省略與實施方式1重復(fù)的說明。
***結(jié)構(gòu)的說明***
時間序列數(shù)據(jù)檢索裝置100的功能結(jié)構(gòu)與實施方式1的圖1相同。
但是,初始區(qū)段集合生成部120如下所述發(fā)揮功能。
初始區(qū)段集合生成部120生成多個按照時間序列的順序從訓(xùn)練時間序列數(shù)據(jù)s中提取w個數(shù)據(jù)值而得到的訓(xùn)練區(qū)段,生成多個表示按照時間序列的順序排列的一個以上的訓(xùn)練區(qū)段的訓(xùn)練臨時區(qū)段集合。然后,初始區(qū)段集合生成部120按照每個訓(xùn)練臨時區(qū)段集合生成表示訓(xùn)練臨時區(qū)段集合作為初始區(qū)段的初始區(qū)段集合f。
在訓(xùn)練臨時區(qū)段集合中包含多個訓(xùn)練區(qū)段的情況下,多個訓(xùn)練區(qū)段中的時間序列順序的開頭的訓(xùn)練區(qū)段與其余的訓(xùn)練區(qū)段之間的距離為條件半徑ε/2以下。
并且,標(biāo)本區(qū)段集合生成部140如下所述發(fā)揮功能。
標(biāo)本區(qū)段集合生成部140將初始區(qū)段集合f分割成一個以上的初始臨時區(qū)段集合。初始臨時區(qū)段集合由初始區(qū)段構(gòu)成,所述初始區(qū)段由按照具有條件半徑ε/2的每個w維圖形(球b)表示圖形中包含的坐標(biāo)值的數(shù)據(jù)值構(gòu)成,所述條件半徑是半徑的條件。然后,標(biāo)本區(qū)段集合生成部140根據(jù)初始臨時區(qū)段集合的圖形的重心的坐標(biāo)值,從初始臨時區(qū)段集合中選擇訓(xùn)練區(qū)段作為標(biāo)本區(qū)段,生成表示每個初始臨時區(qū)段集合的標(biāo)本區(qū)段的標(biāo)本區(qū)段集合e。
***動作的說明***
時間序列數(shù)據(jù)檢索方法的處理流程與實施方式1的圖3相同。
但是,如下所述,s110~s130與實施方式1不同。
根據(jù)圖8對初始區(qū)段集合生成處理(s110)進(jìn)行說明。對與實施方式1不同的處理的步驟編號標(biāo)注標(biāo)號b。
在s111中,初始區(qū)段集合生成部120對初始區(qū)段集合f進(jìn)行初始化。
在s112b中,初始區(qū)段集合生成部120對訓(xùn)練臨時區(qū)段集合us進(jìn)行初始化,不是將訓(xùn)練區(qū)段si本身,而是將識別訓(xùn)練區(qū)段si的索引i追加到訓(xùn)練臨時區(qū)段集合us中。索引i是變量i的值。以后,顯而易見,在需要訓(xùn)練區(qū)段si的情況下,能夠根據(jù)索引i和訓(xùn)練時間序列數(shù)據(jù)對訓(xùn)練區(qū)段si進(jìn)行復(fù)原。
在s113中,初始區(qū)段集合生成部120計算訓(xùn)練區(qū)段si與訓(xùn)練區(qū)段sj之間的區(qū)段間距離d。
在s114中,初始區(qū)段集合生成部120判定區(qū)段間距離d是否為ε/2以下。
在s115b中,初始區(qū)段集合生成部120在訓(xùn)練臨時區(qū)段集合us中追加索引j。索引j是變量j的值。
在s116b中,初始區(qū)段集合生成部120在初始區(qū)段集合f中追加訓(xùn)練臨時區(qū)段集合us。
在s117中,初始區(qū)段集合生成部120將變量i的值更新成變量j的值。
通過圖8的處理,能夠生成由初始區(qū)段的索引構(gòu)成的初始區(qū)段集合f。初始區(qū)段集合f通過索引來識別初始區(qū)段。
在s120中,初始區(qū)段集合排序部130按照初始區(qū)段集合f中包含的每個初始區(qū)段,計算由初始區(qū)段中包含的索引識別的各個訓(xùn)練區(qū)段表示的坐標(biāo)的重心。
初始區(qū)段集合排序部130按照每個初始區(qū)段計算重心的特征量。在計算出每個初始區(qū)段的特征量后,從存儲器丟棄每個初始區(qū)段的重心。
然后,初始區(qū)段集合排序部130按照特征量的升序?qū)Τ跏紖^(qū)段集合f中包含的初始區(qū)段進(jìn)行排序。
根據(jù)圖9對標(biāo)本區(qū)段集合生成處理(s130)進(jìn)行說明。對與實施方式1不同的處理的步驟編號標(biāo)注標(biāo)號b。
在s130-1中,標(biāo)本區(qū)段集合生成部140對標(biāo)本區(qū)段集合e進(jìn)行初始化。
在s131b-1中,標(biāo)本區(qū)段集合生成部140決定包含初始區(qū)段fi的重心的球b的重心c。球b的半徑為ε/2。
在s131b-2中,標(biāo)本區(qū)段集合生成部140對初始臨時區(qū)段集合uf進(jìn)行初始化,在初始臨時區(qū)段集合uf中追加初始區(qū)段[fi]。
初始區(qū)段[fi]意味著由初始區(qū)段fi中包含的索引識別的訓(xùn)練區(qū)段。
在s131-3中,標(biāo)本區(qū)段集合生成部140從初始區(qū)段集合f中去除初始區(qū)段fi。
在s131-4中,標(biāo)本區(qū)段集合生成部140在變量skip中設(shè)定-1。
在s131b-5中,標(biāo)本區(qū)段集合生成部140計算初始臨時區(qū)段集合uf的重心ctrue。通過索引調(diào)出uf中包含的訓(xùn)練區(qū)段,與式<1>同樣地進(jìn)行計算,由此能夠計算ctrue。
標(biāo)本區(qū)段集合生成部140按照初始臨時區(qū)段集合uf中包含的每個訓(xùn)練區(qū)段,計算訓(xùn)練區(qū)段的坐標(biāo)與重心ctrue的坐標(biāo)之間的距離σ。
然后,標(biāo)本區(qū)段集合生成部140在標(biāo)本區(qū)段集合e中追加距離σ最小的訓(xùn)練區(qū)段的索引作為標(biāo)本區(qū)段的重心cpseudo。
訓(xùn)練區(qū)段成為標(biāo)本區(qū)段,因此,不存儲w維向量而存儲訓(xùn)練區(qū)段的索引即可。
并且,通過存儲重心ctrue與標(biāo)本區(qū)段之間的距離σ,能夠表示最終的距離的誤差在ε+σ以內(nèi)。
根據(jù)圖10對標(biāo)本區(qū)段集合生成處理(s130)的第2循環(huán)處理(s132)進(jìn)行說明。對與實施方式1不同的處理的步驟編號標(biāo)注標(biāo)號b。
在s132-1中,標(biāo)本區(qū)段集合生成部140判定初始區(qū)段fj的特征量d(fj)與重心c的特征量d(c)的特征量差是否大于ε/(2*√w)。
在s132b-2中,標(biāo)本區(qū)段集合生成部140計算初始區(qū)段fj的重心cj。
然后,標(biāo)本區(qū)段集合生成部140計算重心c的坐標(biāo)與重心cj的坐標(biāo)之間的距離即區(qū)段間距離d。
在s132-3中,標(biāo)本區(qū)段集合生成部140判定區(qū)段間距離d是否為ε/2以下。
在s132b-4中,標(biāo)本區(qū)段集合生成部140在初始臨時區(qū)段集合uf中追加初始區(qū)段[fj]。
在s132-5中,標(biāo)本區(qū)段集合生成部140從初始區(qū)段集合f中去除初始區(qū)段fj。
在s132-6中,在變量skip為負(fù)值(-1)的情況下,標(biāo)本區(qū)段集合生成部140在變量skip中設(shè)定變量j的值。
通過代替w維的區(qū)段而使用成為標(biāo)本區(qū)段的訓(xùn)練區(qū)段的索引,能夠?qū)?biāo)本區(qū)段的存儲所需要的存儲容量削減到大約1/w。即,能夠提高存儲效率。
***補充說明***
根據(jù)圖11~圖16進(jìn)行與標(biāo)本區(qū)段有關(guān)的補充說明。
在圖11中,從時間序列數(shù)據(jù)提取出的長度w的區(qū)段對應(yīng)于w維空間上的坐標(biāo)。圖中的w為2。
在圖12中,使用w維空間上的坐標(biāo)的平均值a,可以說其坐標(biāo)位于利用x1+x2+···+xw=a*w表示的基準(zhǔn)平面上。在w=2的情況下,基準(zhǔn)平面相當(dāng)于直線。
在圖13中,坐標(biāo)p的基準(zhǔn)平面與x1軸的交點p’的距離為w*a。從原點o到坐標(biāo)p的基準(zhǔn)平面的距離為a*√w。即,意味著a越大,則坐標(biāo)位于與原點o越遠(yuǎn)的平面上。
坐標(biāo)p與坐標(biāo)q之間的距離(dist(p,q))為坐標(biāo)p的基準(zhǔn)平面與坐標(biāo)q的基準(zhǔn)平面之間的距離以上,因此,dist(p,q)≧|mean(p)*√w-mean(q)*√w|成立。
由此,為了使dist(p,q)≦ε/2,需要滿足|mean(p)*√w-mean(q)*√w|≦ε/2,即|mean(p)-mean(q)|≦ε/(2*√w)。
在圖14中,初始區(qū)段集合包含在半徑為ε/2的球內(nèi)。初始區(qū)段集合是距開頭的訓(xùn)練區(qū)段的距離為ε/2以下的訓(xùn)練區(qū)段的集合。
在圖15中,當(dāng)匯集以重心c為中心、半徑為ε/2的球中包含的初始區(qū)段集合的重心時,匯集后的訓(xùn)練區(qū)段全部包含在以c為中心、半徑為ε的球內(nèi)。
由此,在某個測試區(qū)段與重心c之間的距離為d的情況下,該測試區(qū)段與以重心c為中心的球內(nèi)的訓(xùn)練區(qū)段之間的距離包含在d±ε的范圍內(nèi)。
圖中的(1)~(6)分別是重心,按照平均值接近c的平均值的重心(1)→(2)→(3)的順序調(diào)查距離。然后,在與c的平均值之差為ε/2的重心(4)之前,成為作為標(biāo)本區(qū)段合并的對象的候選。但是,與c的平均值之差大于ε/2的重心(5)不是合并的對象。然后,在重心(5)處超過閾值,因此,不需要調(diào)查(6)以后的重心。
在圖16中,featm對應(yīng)于從坐標(biāo)系的原點到基準(zhǔn)平面的距離。featr對應(yīng)于從垂線的垂足(a,…,a)到實際的重心的偏移幅度。垂線的垂足是從原點下引到基準(zhǔn)平面的垂線的端點。
dist(p,q)比圖中的(1)的距離長。這相當(dāng)于式<14>的前半部分。并且,dist(p,q)比圖中的(2)的距離短。這相當(dāng)于式<14>的后半部分。
各實施方式是優(yōu)選方式的例示,并不意圖限制本發(fā)明的技術(shù)范圍。各實施方式可以部分地實施,也可以與其它實施方式組合實施。
使用流程圖等說明的處理順序是時間序列數(shù)據(jù)檢索裝置、時間序列數(shù)據(jù)檢索方法和時間序列數(shù)據(jù)檢索程序的處理順序的一例。
標(biāo)號說明
100:時間序列數(shù)據(jù)檢索裝置;110:時間序列數(shù)據(jù)取得部;111:參數(shù)取得部;120:初始區(qū)段集合生成部;130:初始區(qū)段集合排序部;140:標(biāo)本區(qū)段集合生成部;150:標(biāo)本區(qū)段集合排序部;160:檢索結(jié)果距離計算部;161:檢索結(jié)果距離輸出部;190:數(shù)據(jù)存儲部;901:處理器;902:輔助存儲裝置;903:存儲器;904:通信裝置;9041:接收機;9042:發(fā)送機;905:輸入接口;906:顯示器接口;907:輸入裝置;908:顯示器;910:信號線;911:纜線;912:纜線;s:訓(xùn)練時間序列數(shù)據(jù);t:測試時間序列數(shù)據(jù);w:滑動幅度;ε:近似誤差;f:初始區(qū)段集合;e:標(biāo)本區(qū)段集合;z:檢索結(jié)果距離。