動態(tài)離群值偏倚減少系統(tǒng)和方法

文檔序號：6538211閱讀：200來源：國知局

動態(tài)離群值偏倚減少系統(tǒng)和方法
【專利摘要】本申請涉及動態(tài)離群值偏倚減少系統(tǒng)和方法。這里描述了用于進行數(shù)據(jù)過濾以減少功能性和趨勢線離群值偏倚的系統(tǒng)和方法。通過客觀統(tǒng)計方法從數(shù)據(jù)集合中去除離群值?；诮^對誤差、相對誤差或兩者確定偏倚。根據(jù)數(shù)據(jù)、模型系數(shù)或趨勢線計算來計算誤差值。當誤差值大于或等于用戶提供的標準時，去除離群數(shù)據(jù)記錄。對于優(yōu)化方法或其他迭代計算，去除的數(shù)據(jù)在每次迭代中被重應用到模型以計算新結(jié)果。利用完整數(shù)據(jù)集的模型值，計算新誤差值并且重應用離群值偏倚減少過程。以迭代方式對于模型系數(shù)和離群值去除數(shù)據(jù)最小化整體誤差，直到達到用戶定義的誤差改進限度為止。經(jīng)過濾的數(shù)據(jù)可用于驗證、離群值偏倚減少和數(shù)據(jù)質(zhì)量操作。
【專利說明】動態(tài)離群值偏倚減少系統(tǒng)和方法
[0001] 相關(guān)申請的交叉引用
[0002] 此部分繼續(xù)專利申請要求2011年8月19日遞交的標題為"Dynamic Outlier Bias Reduction System and Method"、序列號為13/213, 780的美國非臨時專利申請的權(quán)益和優(yōu) 先權(quán)，這里通過引用將該美國申請全部并入。

【技術(shù)領(lǐng)域】
[0003] 本發(fā)明涉及對數(shù)據(jù)的分析，其中離群元素被從分析開發(fā)中去除(或過濾掉)。分析可與簡單統(tǒng)計量的計算或者在其開發(fā)中涉及使用數(shù)據(jù)的數(shù)學模型的更復雜操作有關(guān)。離群數(shù)據(jù)過濾的目的可以是執(zhí)行數(shù)據(jù)質(zhì)量和數(shù)據(jù)驗證操作，或者計算能夠應用于后續(xù)分析、回歸分析、時間序列分析中的代表性標準、統(tǒng)計量、數(shù)據(jù)群組或者用于數(shù)學模型開發(fā)的合格數(shù) 據(jù)。

【背景技術(shù)】
[0004] 在標準或數(shù)據(jù)驅(qū)動模型開發(fā)中去除離群數(shù)據(jù)是分析前工作的一個重要部分，用來確保從底層數(shù)據(jù)開發(fā)出有代表性的且合理的分析。例如，為二氧化碳（co 2)、臭氧（03)、水蒸氣（H20)、氫氟碳（HFC)、全氟化碳（PFC)、含氯氟烴（CFC)、六氟化硫（SF 6)、甲烷（CH4)、一氧化二氮（N20)、一氧化碳（C0)、氧化氮（NOx)以及非甲烷揮發(fā)性有機化合物（NMV0C)排放的溫室氣體標準開發(fā)公正的基準要求在標準開發(fā)中使用的所收集的工業(yè)數(shù)據(jù)表現(xiàn)出某些屬性。少數(shù)幾個工業(yè)場所的極好或極壞的性能不應當導致為其他場所計算的標準的偏倚?？?以判斷將這種性能結(jié)果包括在標準計算中是不合理或者沒有代表性的。過去，經(jīng)由一種要求主觀輸入的半定量過程來去除性能離群值（outlier)。本系統(tǒng)和方法是一種數(shù)據(jù)驅(qū)動的方案，該方案把此任務作為模型開發(fā)的一個組成部分來執(zhí)行，而不是在分析前或模型開發(fā) 前階段執(zhí)行。
[0005] 偏倚（bias)的去除可以是一個主觀過程，其中以某種形式記錄認為恰當?shù)睦碛梢?證實數(shù)據(jù)變化。然而，任何形式的離群值去除都是一種帶著改變計算結(jié)果的潛在可能性的數(shù)據(jù)審查。這種數(shù)據(jù)過濾可能減少或不減少計算中的偏倚或誤差，并且本著完全分析公開的精神，嚴格的數(shù)據(jù)去除指導方針和去除離群值的證明材料需要與分析結(jié)果包括在一起。因此，在現(xiàn)有技術(shù)中需要提供一種新的系統(tǒng)和方法，用于利用一種對于數(shù)據(jù)質(zhì)量操作、數(shù)據(jù) 驗證、統(tǒng)計計算或數(shù)學模型開發(fā)等等有用的動態(tài)統(tǒng)計過程來客觀地去除離群數(shù)據(jù)偏倚。離群值偏倚去除系統(tǒng)和方法還可用于將數(shù)據(jù)分組成代表性類別，其中數(shù)據(jù)被應用到為每個群組定制的數(shù)學模型開發(fā)。在優(yōu)選實施例中，系數(shù)被定義為數(shù)學模型中的乘法和加法因子以及在性質(zhì)上非線性的其他數(shù)值參數(shù)。例如，在數(shù)學模型f (X，y, Z)=a*x+b*ye+d*sin(ez)+f 中，a、b、c、d、e和f全都被定義為系數(shù)。這些項的值可以固定或者是數(shù)學模型的開發(fā)的一部分。

【發(fā)明內(nèi)容】

[0006] 優(yōu)選實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：選擇偏倚標準；提供數(shù)據(jù)集合；提供模型系數(shù)的集合；選擇目標值的集合；（1)為完整數(shù)據(jù)集合生成預測值的集合；（2)為數(shù)據(jù)集生成誤差集合；（3)基于誤差集合和偏倚標準生成誤差閾值的集合；（4)由處理器基于誤差集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合；（5)由處理器生成新模型系數(shù)的集合；（6)使用新模型系數(shù)的集合，重復步驟（1)- (5)，除非滿足了審查性能終止標準。在優(yōu)選實施例中，可基于數(shù)據(jù)集合和模型系數(shù)的集合來生成預測值的集合。在優(yōu)選實施例中，誤差集合可包括基于預測值的集合和目標值的集合生成的絕對誤差的集合和相對誤差的集合。在另一實施例中，誤差集合可包括作為預測值的集合與目標值的集合之間的差異計算出的值。在另一實施例中，生成新系數(shù)的集合的步驟還可包括最小化預測值的集合與實際值的集合之間的誤差的集合的步驟，這可利用線性或非線性優(yōu)化模型來實現(xiàn)。在優(yōu)選實施例中，審查性能終止標準可基于標準誤差（standard error)和石角定系數(shù)（coefficient of determination)。
[0007] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：選擇誤差標準；選擇數(shù)據(jù)集合；選擇實際值的集合；選擇模型系數(shù)的初始集合；基于完整數(shù)據(jù)集合和模型系數(shù)的初始集合生成模型預測值的集合；（1)對于完整數(shù)據(jù)集，基于模型預測值和實際值的集合生成誤差的集合；（2)對于完整數(shù)據(jù)集合，基于誤差的完整集合和誤差標準生成誤差閾值的集合；（3)生成離群值被去除的數(shù)據(jù)集合，其中過濾基于完整數(shù)據(jù)集合和誤差閾值的集合；（4)基于經(jīng)過濾的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合，其中新系數(shù)的集合的生成由計算機處理器執(zhí)行；（5)基于經(jīng)過濾的數(shù)據(jù)集合和新模型系數(shù)的集合生成離群值偏倚減少模型預測值的集合，其中離群值偏倚減少模型預測值的集合的生成由計算機處理器執(zhí)行；（6)基于模型預測值和實際值的集合生成模型性能值的集合；在用新系數(shù)的集合替代來自先前迭代的系數(shù)的集合的同時，重復步驟（1)- (6)，除非：滿足性能終止標準；并且將模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0008] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：為設施選擇目標變量；選擇目標變量的實際值的集合；為設施識別與目標變量有關(guān)的多個變量；為設施獲得數(shù)據(jù)集合，該數(shù)據(jù)集合包括多個變量的值；選擇偏倚標準；選擇模型系數(shù)的集合；（1)基于完整數(shù)據(jù)集合和模型系數(shù)的集合生成預測值的集合；（2)基于預測值的集合和實際值的集合生成審查模型性能值的集合；（3)對于目標變量，基于預測值的集合和實際值的集合生成誤差集合；（4)基于誤差集合和偏倚標準生成誤差閾值的集合；（5) 由處理器基于數(shù)據(jù)集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合；（6)由處理器基于經(jīng)審查的數(shù)據(jù)集合和模型系數(shù)的集合生成新模型系數(shù)的集合；（7)由處理器基于數(shù)據(jù)集合和新模型系數(shù)的集合生成新預測值的集合；（8)基于新預測值的集合和實際值的集合生成新審查模型性能值的集合；使用新系數(shù)的集合，重復步驟（1)- (8)，除非滿足了審查性能終止標準；以及將新模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0009] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：為設施選擇目標變量，其中目標變量是關(guān)于工業(yè)設施的度量，與其生產(chǎn)、金融性能或排放有關(guān)；為設施識別多個變量，其中多個變量包括：設施的影響目標變量的多個直接變量；以及設施的經(jīng)變換變量的集合，每個經(jīng)變換變量是影響目標變量的至少一個直接設施變量的函數(shù)；選擇誤差標準，包括：絕對誤差，以及相對誤差；為設施獲得數(shù)據(jù)集合，其中數(shù)據(jù)集合包括多個變量的值；選擇目標變量的實際值的集合；選擇模型系數(shù)的初始集合；基于完整數(shù)據(jù)集合和模型系數(shù)的初始集合生成模型預測值的集合；基于模型預測值的集合和實際值的集合生成誤差的完整集合，其中相對誤差是利用如下公式計算的：相對誤差">=((預測值 m -實際值m) /實際值m)2,其中"m"是參考編號，并且其中絕對誤差是利用如下公式計算的：絕對誤差 m=(預測值m_實際值m)2 ;基于模型預測值的集合和實際值的集合生成模型性能值的集合，其中整體模型性能值的集合包括：第一標準誤差，以及第一確定系數(shù)；（1)對于完整數(shù)據(jù)集合，基于模型預測值和實際值的集合生成誤差的集合；（2)對于完整數(shù)據(jù)集合，基于誤差的完整集合和誤差標準生成誤差閾值的集合；（3)通過去除具有大于或等于誤差閾值的誤差值的數(shù)據(jù)生成離群值被去除的數(shù)據(jù)集合，其中過濾是基于完整數(shù)據(jù)集合和誤差閾值的集合的；（4)通過利用線性優(yōu)化模型和非線性優(yōu)化模型中的至少一個，最小化預測值的集合與實際值的集合之間的誤差，來基于離群值被去除的數(shù)據(jù)集合和模型系數(shù)的集合生成離群值偏倚減少模型預測值的集合，其中新模型預測值的生成是由計算機處理器執(zhí)行的；（5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合，其中新系數(shù)的集合的生成是由計算機處理器執(zhí)行的；（6)基于新預測模型值的集合和實際值的集合生成整體模型性能值的集合，其中模型性能值的集合包括：第二標準誤差，以及第二確定系數(shù)；在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時，重復步驟（1) - (6)，除非：滿足了性能終止標準，其中性能終止標準包括：標準誤差終止值和確定系數(shù)終止值，并且其中滿足性能終止標準包括：標準誤差終止值大于第一和第二標準誤差之間的差異，并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異；以及將新模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0010] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：選擇誤差標準；選擇數(shù)據(jù)集合；選擇實際值的集合；選擇模型預測值的初始集合；基于模型預測值的集合和實際值的集合確定誤差的集合；（1)基于誤差的完整集合和誤差標準確定誤差閾值的集合；（2)生成離群值被去除的數(shù)據(jù)集合，其中過濾基于數(shù)據(jù)集合和誤差閾值的集合；（3)基于離群值被去除的數(shù)據(jù)集合和先前模型預測值生成離群值偏倚減少模型預測值的集合，其中離群值偏倚減少模型預測值的集合的生成由計算機處理器執(zhí)行； (4)基于新模型預測值的集合和實際值的集合確定誤差的集合；在用新模型預測值的集合替代來自先前迭代的模型預測值的集合的同時，重復步驟（1)- (4)，除非：滿足了性能終止標準；以及將離群值偏倚減少模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0011] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法，包括以下步驟：為設施選擇目標變量；為設施識別多個變量，其中多個變量包括：設施的影響目標變量的多個直接變量；以及設施的經(jīng)變換變量的集合，每個經(jīng)變換變量是影響目標變量的至少一個直接設施變量的函數(shù)；選擇誤差標準，包括：絕對誤差，以及相對誤差；獲得數(shù)據(jù)集合，其中數(shù)據(jù)集合包括多個變量的值，以及選擇目標變量的實際值的集合；選擇模型系數(shù)的初始集合；通過將模型系數(shù)的集合應用到數(shù)據(jù)集合來生成模型預測值的集合；基于模型預測值的集合和實際值的集合確定性能值的集合，其中性能值的集合包括：第一標準誤差，以及第一確定系數(shù)；（1)對于完整數(shù)據(jù)集合，基于模型預測值的集合和實際值的集合生成誤差的集合，其中相對誤差是利用如下公式計算的：相對誤差">=((預測值 m-實際值m)/實際值 m)2,其中"m"是參考編號，并且其中絕對誤差是利用如下公式計算的：絕對誤差 m=(預測值 m_實際值m)2 ;(2)對于完整數(shù)據(jù)集合，基于誤差的完整集合和誤差標準生成誤差閾值的集合；（3)通過去除具有大于或等于誤差閾值的集合的誤差值的數(shù)據(jù)來生成離群值被去除的數(shù)據(jù)集合，其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的；（4)基于離群值被去除的數(shù)據(jù) 集合和先前系數(shù)的集合生成新系數(shù)的集合；（5)通過利用線性優(yōu)化模型和非線性優(yōu)化模型中的至少一個，最小化預測值的集合與實際值的集合之間的誤差，來基于離群值被去除的數(shù)據(jù)集合和新模型系數(shù)的集合生成離群值偏倚減少模型預測值的集合，其中模型預測值的生成是由計算機處理器執(zhí)行的；（6)基于離群值偏倚減少模型預測值的集合和實際值的集合生成經(jīng)更新的性能值的集合，其中經(jīng)更新的性能值的集合包括：第二標準誤差，以及第二確定系數(shù)；在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時，重復步驟（1)- (6)，除非：滿足了性能終止標準，其中性能終止標準包括：標準誤差終止值，以及確定系數(shù)終止值，并且其中滿足性能終止標準包括：標準誤差終止值大于第一和第二標準誤差之間的差異，并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異；以及將離群值偏倚減少因子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0012] 另一實施例包括一種用于評估數(shù)據(jù)集合用于開發(fā)模型的可行性的由計算機實現(xiàn) 的方法，包括以下步驟：提供包括多個數(shù)據(jù)值的目標數(shù)據(jù)集合；基于目標數(shù)據(jù)集合生成隨機目標數(shù)據(jù)集合；選擇偏倚標準值的集合；由處理器基于數(shù)據(jù)集合和每個所選擇的偏倚標準值生成離群值偏倚減少目標數(shù)據(jù)集合；由處理器基于隨機數(shù)據(jù)集合和每個所選偏倚標準值生成離群值偏倚減少隨機數(shù)據(jù)集合；對于離群值偏倚減少數(shù)據(jù)集合和離群值偏倚減少隨機數(shù)據(jù)集合計算誤差值的集合；對于離群值偏倚減少數(shù)據(jù)集合和離群值偏倚減少隨機數(shù)據(jù) 集合計算相關(guān)系數(shù)的集合；基于所選偏倚標準值和相應的誤差值和相關(guān)系數(shù)為數(shù)據(jù)集合和隨機數(shù)據(jù)集合生成偏倚標準曲線；以及將數(shù)據(jù)集合的偏倚標準曲線與隨機數(shù)據(jù)集合的偏倚標準曲線相比較。離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合是利用動態(tài)離群值偏倚去除方法生成的。隨機目標數(shù)據(jù)集合可包括從多個數(shù)據(jù)值的范圍內(nèi)的值開發(fā)出來的隨機化數(shù)據(jù)值。另外，誤差值的集合可包括標準誤差的集合，并且其中相關(guān)系數(shù) 的集合包括確定系數(shù)值的集合。另一實施例還可包括以下步驟：基于將目標數(shù)據(jù)集合的偏倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比較，生成關(guān)于目標數(shù)據(jù)集合支持所開發(fā)的模型以及所開發(fā)的模型支持目標數(shù)據(jù)集合的可行性的自動化建議?？苫诜治稣哌x擇的參數(shù)一例如相關(guān)系數(shù)閾值和/或誤差閾值一來生成建議。另外一個實施例還包括以下步驟：提供實際數(shù)據(jù)集合，其包括與模型預測值相對應的多個實際數(shù)據(jù)值；基于實際數(shù) 據(jù)集合生成隨機實際數(shù)據(jù)集合；由處理器基于實際數(shù)據(jù)集合和每個所選偏倚標準值生成離群值偏倚減少實際數(shù)據(jù)集合；由處理器基于隨機實際數(shù)據(jù)集合和每個所選偏倚標準生成離群值偏倚減少隨機實際數(shù)據(jù)集合；對于每個所選偏倚標準，基于離群值偏倚減少隨機目標數(shù)據(jù)集合和離群值偏倚減少隨機實際數(shù)據(jù)生成隨機數(shù)據(jù)圖線；對于每個所選偏倚標準，基于離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少實際目標數(shù)據(jù)集合生成真實數(shù)據(jù)圖線；以及將與每個所選偏倚標準相對應的隨機數(shù)據(jù)圖線與真實數(shù)據(jù)圖線相比較。
[0013] 優(yōu)選實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：數(shù)據(jù)集合；以及由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：選擇偏倚標準；提供模型系數(shù)的集合；選擇目標值的集合；（1)為數(shù)據(jù)集合生成預測值的集合；（2)為數(shù)據(jù)集生成誤差集合；（3)基于誤差集合和偏倚標準生成誤差閾值的集合；（4)基于誤差集合和誤差閾值的集合生成經(jīng) 審查的數(shù)據(jù)集合；（5)生成新模型系數(shù)的集合；以及（6)使用新模型系數(shù)的集合，重復步驟 (1)-(5)，除非滿足了審查性能終止標準。在優(yōu)選實施例中，可基于數(shù)據(jù)集合和模型系數(shù)的集合來生成預測值的集合。在優(yōu)選實施例中，誤差集合可包括基于預測值的集合和目標值的集合生成的絕對誤差的集合和相對誤差的集合。在另一實施例中，誤差集合可包括作為預測值的集合與目標值的集合之間的差異計算出的值。在另一實施例中，生成新系數(shù)的集合的步驟還可包括最小化預測值的集合與實際值的集合之間的誤差的集合的步驟，這可利用線性或非線性優(yōu)化模型來實現(xiàn)。在優(yōu)選實施例中，審查性能終止標準可基于標準誤差和確定系數(shù)。
[0014] 本發(fā)明的另一實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：數(shù)據(jù)集合；以及由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：選擇誤差標準；選擇實際值的集合；選擇系數(shù)的初始集合；從數(shù)據(jù)集合和系數(shù)的初始集合生成模型預測值的完整集合； (1)對于完整數(shù)據(jù)集合，基于模型預測值和實際值的集合生成誤差的集合；（2)對于完整數(shù) 據(jù)集合，基于誤差的完整集合和誤差標準生成誤差閾值的集合；（3)生成離群值被去除的數(shù)據(jù)集合，其中過濾基于完整數(shù)據(jù)集合和誤差閾值的集合；（4)基于離群值被去除的數(shù)據(jù) 集合和系數(shù)的集合生成離群值偏倚減少模型預測值的集合，其中離群值偏倚減少模型預測值的集合的生成由計算機處理器執(zhí)行；（5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合，其中新系數(shù)的集合的生成由計算機處理器執(zhí)行；（6)基于離群值偏倚減少模型預測值和實際值的集合生成模型性能值的集合；在用新系數(shù)的集合替代來自先前迭代的系數(shù)的集合的同時，重復步驟（1) - (6)，除非：滿足性能終止標準；并且將整體離群值偏倚減少模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0015] 另一實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：設施的目標變量；目標變量的實際值的集合；設施的與目標變量有關(guān)的多個變量；設施的數(shù)據(jù)集合，該數(shù)據(jù)集合包括多個變量的值；以及由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：選擇偏倚標準；選擇模型系數(shù)的集合；（1)基于數(shù)據(jù)集合和模型系數(shù)的集合生成預測值的集合；（2) 基于預測值的集合和實際值的集合生成審查模型性能值的集合；（3)對于目標變量，基于預測值的集合和實際值的集合生成誤差集合；（4)基于誤差集合和偏倚標準生成誤差閾值的集合；（5)基于數(shù)據(jù)集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合；（6)基于經(jīng)審查的數(shù) 據(jù)集合和模型系數(shù)的集合生成新模型系數(shù)的集合；（7)基于數(shù)據(jù)集合和新模型系數(shù)的集合生成新預測值的集合；（8)基于新預測值的集合和實際值的集合生成新審查模型性能值的集合；使用新系數(shù)的集合，重復步驟（1)- (8)，除非滿足了審查性能終止標準；以及將新模型預測值的集合存儲在存儲子系統(tǒng)中。
[0016] 另一實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：設施的數(shù)據(jù)集合；以及由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：確定目標變量；識別多個變量，其中多個變量包括：設施的影響目標變量的多個直接變量；以及設施的經(jīng)變換變量的集合，每個經(jīng)變換變量是影響目標變量的至少一個直接變量的函數(shù)；選擇誤差標準，包括：絕對誤差，以及相對誤差；選擇目標變量的實際值的集合；選擇系數(shù)的初始集合；基于數(shù)據(jù)集合和系數(shù)的初始集合生成模型預測值的集合；基于模型預測值的集合和實際值的集合生成誤差的集合，其中相對誤差是利用如下公式計算的：相對誤差^以預測值 m-實際值m)/實際值m)2,其中"m"是參考編號，并且其中絕對誤差是利用如下公式計算的：絕對誤差 m=(預測值111-實際值m)2 ;基于模型預測值的集合和實際值的集合確定性能值的集合；其中性能值的集合包括：第一標準誤差，以及第一確定系數(shù)；（1)基于模型預測值和實際值的集合生成誤差的集合；（2)對于完整數(shù)據(jù)集合，基于誤差的完整集合和誤差標準生成誤差閾值的集合；（3)通過過濾掉具有誤差閾值的集合以外的誤差值的數(shù)據(jù)來生成離群值被去除的數(shù)據(jù) 集合，其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的；（4)通過利用線性優(yōu)化模型和非線性優(yōu)化模型中的至少一個，最小化模型預測值的集合與實際值的集合之間的誤差，來基于離群值被去除的數(shù)據(jù)集合和系數(shù)的集合生成新模型預測值的集合，其中離群值偏倚減少模型預測值的生成是由計算機處理器執(zhí)行的；（5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù) 的集合生成新系數(shù)的集合，其中新系數(shù)的集合的生成是由計算機處理器執(zhí)行的；（6)基于新預測模型值的集合和實際值的集合生成性能值的集合，其中模型性能值的集合包括：第二標準誤差，以及第二確定系數(shù)；在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時，重復步驟（1)- (6)，除非：滿足了性能終止標準，其中性能終止標準包括：標準誤差，以及確定系數(shù)，并且其中滿足性能終止標準包括：標準誤差終止值大于第一和第二標準誤差之間的差異，并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異；以及將新模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0017] 本發(fā)明的另一實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：數(shù)據(jù)集合，由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：選擇誤差標準；選擇數(shù)據(jù)集合；選擇實際值的集合；選擇模型預測值的初始集合；基于模型預測值的集合和實際值的集合確定誤差的集合；（1)基于誤差的完整集合和誤差標準確定誤差閾值的集合；（2)生成離群值被去除的數(shù)據(jù)集合，其中過濾基于數(shù)據(jù)集合和誤差閾值的集合；（3)基于離群值被去除的數(shù)據(jù)集合和模型預測值的完整集合生成離群值偏倚減少模型預測值的集合，其中離群值偏倚減少模型預測值的集合的生成由計算機處理器執(zhí)行；（4)基于離群值偏倚減少模型預測值的集合和實際值的相應集合確定誤差的集合；在用離群值偏倚減少模型預測值的集合替代模型預測值的集合的同時，重復步驟（1)- (4)，除非：滿足了性能終止標準；以及將離群值偏倚減少因子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0018] 本發(fā)明的另一實施例包括一種系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：數(shù)據(jù)集合，由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：確定目標變量；為設施識別多個變量，其中多個變量包括：設施的影響目標變量的多個直接變量；以及設施的經(jīng)變換變量的集合，每個經(jīng)變換變量是影響目標變量的至少一個主設施變量的函數(shù)；選擇誤差標準，包括：絕對誤差，以及相對誤差；獲得數(shù)據(jù)集合，其中數(shù)據(jù)集合包括多個變量的值，以及選擇目標變量的實際值的集合；選擇系數(shù)的初始集合；通過將模型系數(shù)的集合應用到數(shù)據(jù)集合來生成模型預測值的集合；基于模型預測值的集合和實際值的集合確定性能值的集合，其中性能值的集合包括：第一標準誤差，以及第一確定系數(shù)；（1)基于模型預測值的集合和實際值的集合確定誤差的集合，其中相對誤差是利用如下公式計算的：相對誤差k=((預測值 k -實際值k) /實際值k)2,其中"k"是參考編號，并且其中絕對誤差是利用如下公式計算的：絕對誤差 k=(預測值k -實際值k)2 ; (2)對于完整數(shù)據(jù)集合，基于誤差的集合和誤差標準確定誤差閾值的集合；（3)通過去除具有大于或等于誤差閾值的誤差值的數(shù)據(jù)來生成離群值被去除的數(shù)據(jù)集合，其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的；（4)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合；（5)通過利用線性優(yōu)化模型和非線性優(yōu)化模型中的至少一個，最小化預測值的集合與實際值的集合之間的誤差，來基于離群值被去除的數(shù)據(jù)集合和系數(shù)的集合生成離群值偏倚減少模型值的集合；（5)基于離群值偏倚減少模型預測值的集合和實際值的集合確定經(jīng)更新的性能值的集合，其中經(jīng)更新的性能值的集合包括：第二標準誤差，以及第二確定系數(shù)；在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時，重復步驟（1)- (5)，除非：滿足了性能終止標準，其中性能終止標準包括：標準誤差終止值，以及確定系數(shù)終止值，并且其中滿足性能終止標準包括：標準誤差終止值大于第一和第二標準誤差之間的差異，并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異；以及將離群值偏倚減少因子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0019] 另一實施例包括一種用于評估數(shù)據(jù)集合用于開發(fā)模型的可行性的系統(tǒng)，其包括：服務器，其包括：處理器，以及存儲子系統(tǒng)；由存儲子系統(tǒng)存儲的數(shù)據(jù)庫，其包括：目標數(shù)據(jù) 集合，其包括多個模型預測值；由存儲子系統(tǒng)存儲的計算機程序，其包括當被執(zhí)行時使得處理器進行以下操作的指令：生成隨機目標數(shù)據(jù)集合；選擇偏倚標準值的集合；基于目標數(shù) 據(jù)集合和每個所選擇的偏倚標準值生成離群值偏倚減少數(shù)據(jù)集合；基于隨機目標數(shù)據(jù)集合和每個所選偏倚標準值生成離群值偏倚減少隨機目標數(shù)據(jù)集合；對于離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合計算誤差值的集合；對于離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合計算相關(guān)系數(shù)的集合；對于每個所選偏倚標準，基于相應的誤差值和相關(guān)系數(shù)，對于目標數(shù)據(jù)集合和隨機目標數(shù)據(jù)集合生成偏倚標準曲線；以及將目標數(shù)據(jù)集合的偏倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比較。處理器利用動態(tài)離群值偏倚去除方法來生成離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合。隨機目標數(shù)據(jù)集合可包括從多個數(shù)據(jù)值的范圍內(nèi)的值開發(fā)出來的隨機化數(shù)據(jù)值。另外，誤差值的集合可包括標準誤差的集合，并且相關(guān)系數(shù)的集合包括確定系數(shù)值的集合。在另一實施例中，該程序還包括在被執(zhí)行時使得處理器進行以下操作的指令：基于將目標數(shù)據(jù)集合的偏倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比較，生成自動化建議?？苫诜治稣哌x擇的參數(shù)一例如相關(guān)系數(shù)閾值和/或誤差閾值一來生成建議。在另外一個實施例中，系統(tǒng)的數(shù)據(jù)庫還包括實際數(shù)據(jù)集合，其包括與模型預測值相對應的多個實際數(shù)據(jù)值，并且程序還包括當被執(zhí)行時使得處理器進行以下操作的指令：基于實際數(shù)據(jù)集合生成隨機實際數(shù)據(jù)集合；基于實際數(shù)據(jù)集合和每個所選偏倚標準值生成離群值偏倚減少實際數(shù)據(jù)集合；基于隨機實際數(shù)據(jù)集合和每個所選偏倚標準生成離群值偏倚減少隨機實際數(shù)據(jù)集合；對于每個所選偏倚標準，基于離群值偏倚減少隨機目標數(shù)據(jù)集合和離群值偏倚減少隨機實際數(shù)據(jù)生成隨機數(shù)據(jù)圖線；對于每個所選偏倚標準，基于離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少實際目標數(shù)據(jù)集合生成真實數(shù)據(jù)圖線；以及將與每個所選偏倚標準相對應的隨機數(shù)據(jù)圖線與真實數(shù)據(jù)圖線相比較。
[0020] 其他實施例包括一種用于減少為設施測量的目標變量中的離群值偏倚的系統(tǒng)，包括：計算單元，用于處理數(shù)據(jù)集合，該計算單元包括處理器和存儲子系統(tǒng)；輸入單元，用于輸入要處理的數(shù)據(jù)集合，該輸入單元包括用于測量給定的目標變量并用于提供相應的數(shù)據(jù) 集合的測量設備；輸出單元，用于輸出經(jīng)處理的數(shù)據(jù)集合；由存儲子系統(tǒng)存儲的計算機程序，包括在被執(zhí)行時使得處理器執(zhí)行以下步驟的指令：為設施選擇目標變量；為設施識別與目標變量有關(guān)的多個變量；為設施獲得數(shù)據(jù)集合，該數(shù)據(jù)集合包括多個變量的值；選擇偏倚標準；選擇模型系數(shù)的集合；（1)為數(shù)據(jù)集合生成預測值的集合；（2)為數(shù)據(jù)集合生成誤差集合；（3)基于誤差集合和偏倚標準生成誤差閾值的集合；（4)基于誤差集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合；（5)生成新模型系數(shù)的集合；以及（6)使用新模型系數(shù)的集合，重復步驟（1)- (5)，除非滿足了審查性能終止標準。
[0021] 此外，其他實施例包括一種用于減少為金融工具測量的目標變量中的離群值偏倚的系統(tǒng)，其中金融工具例如是股票(例如普通股）或衍生工具合約(例如遠期合約、期貨、期權(quán)和互惠信貸等等)，該系統(tǒng)包括：計算單元，用于處理數(shù)據(jù)集合，該計算單元包括處理器和存儲子系統(tǒng)；輸入單元，用于接收要處理的數(shù)據(jù)集合，該輸入單元包括用于存儲關(guān)于目標變量(例如股票價格）的數(shù)據(jù)并用于提供相應的數(shù)據(jù)集合的存儲設備；輸出單元，用于輸出經(jīng) 處理的數(shù)據(jù)集合；由存儲子系統(tǒng)存儲的計算機程序，包括在被執(zhí)行時使得處理器執(zhí)行以下步驟的指令：為金融工具選擇目標變量；為該工具識別與目標變量有關(guān)的多個變量(例如，股息、收益、現(xiàn)金流等等）；為金融工具獲得數(shù)據(jù)集合，該數(shù)據(jù)集合包括多個變量的值；選擇偏倚標準；選擇模型系數(shù)的集合；（1)為數(shù)據(jù)集合生成預測值的集合；（2)為數(shù)據(jù)集合生成誤差集合；（3)基于誤差集合和偏倚標準生成誤差閾值的集合；（4)基于誤差集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合；（5)生成新模型系數(shù)的集合；以及（6)使用新模型系數(shù)的集合，重復步驟（1)- (5)，除非滿足了審查性能終止標準。

【專利附圖】

【附圖說明】
[0022] 圖1是示出數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0023] 圖2是示出用于數(shù)據(jù)質(zhì)量操作的數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0024] 圖3是示出用于數(shù)據(jù)驗證的數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0025] 圖4是用于實現(xiàn)本發(fā)明的方法的說明性節(jié)點。
[0026] 圖5是數(shù)據(jù)集合的定量評估的說明性圖線。
[0027] 圖6A和6B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線，分別示出了整個數(shù)據(jù)集合的隨機化和真實數(shù)據(jù)集合。
[0028] 圖7A和7B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線，分別示出了在將30%的數(shù)據(jù)作為離群值去除之后的隨機化和真實數(shù)據(jù)集合。
[0029] 圖8A和8B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線，分別示出了在將50%的數(shù)據(jù)作為離群值去除之后的隨機化和真實數(shù)據(jù)集合。
[0030] 圖9示出了用于減少為設施測量的目標變量中的離群值偏倚的示范性系統(tǒng)。

【具體實施方式】
[0031] 以下公開提供了許多不同實施例，或者示例，用于實現(xiàn)用于訪問和管理結(jié)構(gòu)化內(nèi) 容的系統(tǒng)和方法的不同特征。描述了組件、過程和實現(xiàn)方式的具體示例來幫助闡明本發(fā)明。這些只是示例，而并不打算偏離權(quán)利要求中所述地限制本發(fā)明。公知的元素在沒有詳細描述的情況下給出，以免以不必要的細節(jié)模糊本發(fā)明的優(yōu)選實施例。大多數(shù)情況下，省略了獲得對本發(fā)明的優(yōu)選實施例的完整理解所不必要的細節(jié)，因為這樣的細節(jié)在相關(guān)領(lǐng)域的普通技術(shù)人員的技能范圍內(nèi)。
[0032] 動態(tài)離群值偏倚減少的一個實施例的數(shù)學描述如下所示：
[0033] 術(shù)語：
[0034] -所有數(shù)據(jù)記錄的集合：? = tfc f fa，其中：
[0035] 4 -第k次迭代的接受數(shù)據(jù)記錄的集合
[0036] fa -第k次迭代的離群(去除）數(shù)據(jù)記錄的集合
[0037] & -對于足:計算出的模型預測值的集合
[0038] L -對于數(shù)據(jù)記錄知的離群模型預測值的集合
[0039] J -模型所基于的實際值（目標值）的集合
[0040] -作為使用鳥1的模型計算的結(jié)果計算出的第k+Ι次迭代時的模型系數(shù)的集合
[0041]

【權(quán)利要求】
1. 一種用于減少為設施測量的目標變量中的離群值偏倚的系統(tǒng)，包括：計算單元，用于處理數(shù)據(jù)集合，該計算單元包括處理器和存儲子系統(tǒng)；輸入單元，用于輸入要處理的數(shù)據(jù)集合，該輸入單元包括用于為所述設施測量目標變量并用于提供相應的數(shù)據(jù)集合的測量設備；輸出單元，用于輸出經(jīng)處理的數(shù)據(jù)集合；由所述存儲子系統(tǒng)存儲的計算機程序，包括在被執(zhí)行時使得所述處理器執(zhí)行以下步驟的指令：為所述設施選擇目標變量；選擇所述目標變量的實際值的集合；為所述設施識別與所述目標變量有關(guān)的多個變量；為所述設施獲得數(shù)據(jù)集合，該數(shù)據(jù)集合包括所述多個變量的值；選擇偏倚標準；選擇模型系數(shù)的集合； (1) 為所述數(shù)據(jù)集合生成預測值的集合； (2) 為所述數(shù)據(jù)集合生成誤差集合； (3) 基于所述誤差集合和所述偏倚標準生成誤差閾值的集合； (4) 基于所述誤差集合和所述誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合； (5) 生成新模型系數(shù)的集合；以及 (6) 使用所述新模型系數(shù)的集合，重復步驟（1)- (5)，除非滿足了審查性能終止標準。
2. 如權(quán)利要求1所述的系統(tǒng)，其中，所述測量設備包括一個或多個傳感器。
3. 如權(quán)利要求2所述的系統(tǒng)，其中，所述傳感器為所述設施檢測并量化化合物。
4. 一種用于減少為金融工具測量的目標變量中的離群值偏倚的系統(tǒng)，包括：計算單元，用于處理數(shù)據(jù)集合，該計算單元包括處理器和存儲子系統(tǒng)；輸出單元，用于輸出經(jīng)處理的數(shù)據(jù)集合；由所述存儲子系統(tǒng)存儲的計算機程序，包括在被執(zhí)行時使得所述處理器執(zhí)行以下步驟的指令：為所述金融工具選擇目標變量；選擇所述目標變量的實際值的集合；為所述金融工具識別與所述目標變量有關(guān)的多個變量；為所述金融工具獲得數(shù)據(jù)集合，該數(shù)據(jù)集合包括所述多個變量的值；選擇偏倚標準；選擇模型系數(shù)的集合； (1) 為所述數(shù)據(jù)集合生成預測值的集合； (2) 為所述數(shù)據(jù)集合生成誤差集合； (3) 基于所述誤差集合和所述偏倚標準生成誤差閾值的集合； (4) 基于所述誤差集合和所述誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合； (5) 生成新模型系數(shù)的集合；以及 (6) 使用所述新模型系數(shù)的集合，重復步驟（1)- (5)，除非滿足了審查性能終止標準。
5. 如權(quán)利要求4所述的系統(tǒng)，其中，所述金融工具是普通股，并且所述目標變量是所述普通股的價格。
6.如權(quán)利要求5所述的系統(tǒng)，其中，所述金融工具的與所述目標變量有關(guān)的多個變量包括以下各項中的至少一個：股息、收益、現(xiàn)金流、每股收益、本益比、增長率。
【文檔編號】G06F17/18GK104090861SQ201410058245
【公開日】2014年10月8日申請日期:2014年2月20日優(yōu)先權(quán)日:2013年2月20日
【發(fā)明者】R·B·瓊斯申請人:哈佛蒸汽鍋爐檢驗和保險公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：R·B·瓊斯
技術(shù)所有人：哈佛蒸汽鍋爐檢驗和保險公司
我是此專利的發(fā)明人

上一篇：一種圖像文字變形動畫的生成方法
上一篇：云計算環(huán)境下服務的自適應組合優(yōu)化方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

dnf跨界系統(tǒng)材料減少相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

動態(tài)離群值偏倚減少系統(tǒng)和方法