專利名稱:一種基于xbrl實例文檔的數據挖掘方法
技術領域:
本發(fā)明涉及數據挖掘方法領域,特別涉及一種在XBRUeXtensibleBusiness Reporting Language,可擴展商業(yè)報告語言)實例文檔中進行數據挖掘的方法。
背景技術:
數據挖掘(Data mining),又譯為數據采礦、數據挖掘。它是數據庫知識發(fā)現 (Knowledge-Discovery in Databases,簡稱KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性(屬于Association rule learning) 的信息的過程。數據挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
隨著信息技術、網絡技術和通信技術的發(fā)展,企業(yè)信息化程度越來越高,越來越多的企業(yè)應用了電子商務、CRM和ERP等業(yè)務系統(tǒng),產生了大量的財務數據。但與之相配合的數據分析和知識提取技術的發(fā)展卻相對緩慢,使得存儲的大量財務數據得不到充分利用, 不能轉化成指導生產的“知識”,數據挖掘技術正好解決了這方面的問題。數據挖掘將高級智能計算技術應用于大量數據中,讓計算機在有人或無人指導的情況下從海量數據中發(fā)現潛在的,而且能夠發(fā)現未知的知識,得到的知識是“顯式”的,既能為人所理解,又便于應用和分析比較。
數據挖掘與傳統(tǒng)的數據分析(如查詢、報表、聯機應用分析等)的區(qū)別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現知識的。數據挖掘所得到的信息應具有先前未知、有效和實用3個特征。先前未知的信息是指該信息是預先未曾預料到的,挖掘出的信息越是出乎意料,就可能越有價值。
到目前為止,大多數數據挖掘是借用人工智能的各種方法來挖掘數據中存在的知識。但是,正如人工智能本身的發(fā)展研究現狀一樣,數據挖掘還不能很好地理解數據中存在的知識。XML技術的出現,不僅為互聯網上的電子數據交換提供了一個標準,而且XML技術從數據的角度提供了一個可以更好地表示數據內容以及數據所代表意義的手段。可擴展商業(yè)報告語言(eXtensibleBusiness ReportingLanguage,XBRL)作為XML在網絡財務報告語言上的應用,對財務數據的表示提供了統(tǒng)一的規(guī)范和標準,從而為在大量的財務數據中挖掘有用的知識和模式提供了技術基礎。
數據挖掘主要包括以下的特點
—、待挖掘的數據量非常巨大,人們首先的要求是自己所需要的信息查找范圍如此巨大,如何能快速、高效并準確地找到它,這是數據挖掘首先要考慮的問題。
二、待挖掘的數據是已經現有的數據,而且這些數據是隱藏著的,它已經是存在了的。只是這些已經現存的數據是相對陳舊的,既這些數據沒有同步得到更新。
三、一個好的數據挖掘技術有著重要的標準,這些技術要揭示待挖掘數據的內在關系,要求挖掘算法具有快捷性和實效性。
XBRL是基于XML (可擴展的標記語言,Extensible Markup Language)框架,專為公司公布財務報告而開發(fā)的語言,目前已有越來越多的公司把XBRL作為財務報告的統(tǒng)一標準。由于XBRL在所有的軟件格式和輸出通道之間提供了更大的互用性,從而使人們能夠進行更強、更有效力的分析及更快地發(fā)現問題。XBRL使用的標簽以標準化的會計業(yè)內定義為基礎,以描述和識別財務信息的每個項目,如純收入等。它為每個財務項目定義標簽,這使財務報告標準趨向統(tǒng)一,而這正是目前的財務報告所缺乏的。憑借出色的搜索性能,XBRL 使財務信息更加一致,更易理解,而且無需公司改變他們公布財務情況的方式。
XBRL遵循標準的XML技術框架
XBRL是一個基于XML標準的應用模式,它可以用來編制、發(fā)布各種不同樣式的財務信息,也可以在網絡中毫無限制地傳遞、交換、分析信息。XML與HTML不同,HTML著重是對文檔在瀏覽器上顯示時的格式進行標記,而XML是對文檔的內容和結構進行標記。一個是對格式標記,一個是對文意進行標記。因此,XML更適合計算機閱讀,通過計算機對樹狀結構的文檔分析,用戶可以更好地對文檔的內容進行檢索。由于XBRL是一個基于XML的跨平臺的數據傳輸標準,是一個以標記語言編寫的文本文件,只要用戶的瀏覽器支持XML,用戶就可以向瀏覽HTML格式的網頁一樣,瀏覽和下載需要的財務信息。對于一家公司來講, 當其需要將其財務信息在網絡上發(fā)布的時候,只要將原來報表的電子文檔格式轉換成XBRL 的標準格式即可,不論原始的報表的格式是WORD或EXCEL,還是HTMl格,甚至由企業(yè)會計信息系統(tǒng)數據庫直接產生的報表格式。最重要的是,財務信息使用者可以直接對下載的財務數據進行分析、利用,而不用進行第二次輸入。
XBRL的技術架構
XBRL 主要有 XBRL 規(guī)格書(Specification) ,XBRL 分類標準(Taxonomy)和 XBRL 實例文檔(anstance)構成。
XBRL規(guī)格書是定義XBRL專用術語的一個文件,描述如何根據XBRL規(guī)格書創(chuàng)建財務報表。
XBRL分類標準是對會計報告內容標準的描述與分類,可視為XML模式(Schema)的擴展。
XBRL實例文檔是一個包含企業(yè)報告信息的XML文檔,代表了運用分類標準標記的財務實例的集合。
XBRL的這種技術結構使得XBRL具有良好的動態(tài)分析功能,當搜索引擎找到所需的信息時,它能進一步追蹤下去找到數據的最初來源及其它與該信息有關的資料。唯一性是計算機之間儲存、檢索、分析、共享與再利用信息的前提。具有完善的定義與唯一的XBRL 要素可以使信息減少模糊性,而這正是銀行、投資者、政府機構于其它財務信息利用相關者所需求的。
基于XBRL的數據挖掘可以從不同系統(tǒng)中收集數據,進行組織和分析,這使得企業(yè)可以確認財務報表數據的格式,因此能夠改進內部控制有效性和財務信息的準確度。XBRL 不但可讓財務信息更有效的利用,而且可確保資料搜尋結果的正確性與相關性。XBRL提供的電子文檔格式的財務信息,可以幫助投資者及其它財務信息使用者。
因為XBRL是在XML語言基礎上開發(fā)的,所以它具有XML語言的特點。首先XBRL 給電子數據定義標簽,在該電子標簽中,XBRL表示標簽內容所表達的數據間的邏輯關系和內在含義。如僅給出一個數字“1000”,而沒有關于“1000”的其他描述,這個數字幾乎沒有什么實際意義。要使該數字成為有用的信息,必須知道1000所反映的更多含義,如單位 “萬元”。這些伴隨著數字的相關信息我們定義為“元數據”,元數據是準確描述這類數據的文字數據,是對文字的具體文字說明。這種語言是計算機可以理解的符號語言。如給數字 “1000 “定義明確的元數據,相關語義就非常清楚Z’A公司2010年度的負責為1000萬元“, 數據所描述的信息就非常明確了,信息的準確性和可用性也大為提高了。
與此同時,XBRL與XML—樣,是一種跨平臺語言,這給用戶的使用帶來了很大的方便,在XBRL作用下,用戶的同一份文檔可以在不同軟件中使用,也可以在不同的操作系統(tǒng)中使用,也可以在不同的操作系統(tǒng)中使用,這樣就提高了 XBRL文檔的通用性、高效性和準確性。
一、輸入財務數據的簡捷性
為了減少數據錯誤,在數據挖掘中,同一數據要盡可能少的次數輸入,這樣才能使發(fā)生錯誤的可能性減小。XBRL具有這樣的特點,數據采用XBRL格式后,因其數據放在樣式單中,以特有的顯示格式存放。因此相關數據用戶不需要輸入多次就可以重復使用,而且還可以為用戶呈現為各種格式的相關報告。
因此,XBRL的使用,不但降低了用戶發(fā)布各種電子報告的成本,還節(jié)省了大量的輸入成本,同時也降低了重新錄入數據而產生更多的錯誤,這樣不但為用戶節(jié)省了大量的時間,而且提高了數據的準確性和工作效率。
二、查找信息的準確性
在XBRL格式的文件中,由于其電子標簽的特性,這些標記不僅對數據內容進行標記,而且對其顯示格式進行描述,同時對數據賦予特定含義進行準確的描述,呈現數據的相關性、結構性以及這些數據間的相互關系,并把這些信息進行互相連接。這種連接機制不僅得到相應電子數據,還能得到相應數據所表示的其它信息,而這些信息也是用戶需要了解的,這樣就使我們挖掘的數據更加方便使用。
三、數據挖掘的關聯性
XBRL不僅能提供及時的、準確的不同數據,能進行格式轉換,而且XBRL更具有良好的動態(tài)查找功能,當用戶進行查找時,它能進一步追蹤下去找到數據的最初情況及其它與該信息相關的資料。正是XBRL這種動態(tài)分析功能,非常高效的滿足了不同用戶的不同需求,有效地實現了電子數據的可移植性,可以下載性和可追蹤性。
基于XBRL的數據挖掘還有一個顯著的特點,它可以從不同系統(tǒng)中收集用戶所需要的數據,并進行組織和分析,從而使得到的信息更加全面有效。
XBRL的使用,極大降低了不同部門和不同用戶重復輸入的勞動力資源,大大減少了資料重復使用的安全和錯誤風險,同時還由于XBRL有快速過濾功能,也就是它能從大量的電子數據中過濾掉用戶所不需要的信息,能快速地使用用戶從海量的數據中找到自己需要的信息,同時XBRL還具有多種語種識別和輸入功能、數據加密和數字防偽等功能,這樣就從多個角度保證了挖掘數據的真實性、完整性和科學性,提高了信息的安全性、準確性和可靠性。
XBRL的這些特點為在大量的數據中挖掘有用的知識和模式提供了技術基礎和技術保證。
XBRL在數據挖掘方面有很大的優(yōu)勢,其流程圖1所示
XBRL的層次結構特點為電子數據的挖掘提供了極大的方便,這也是XBRL得到廣泛推崇的原動力之一。XBRL在數據挖掘方面的主要優(yōu)勢如下
一、使用的通用性
由于XBRL采用了 XML技術,因此,它是夸操作系統(tǒng)的,如在不同的操作系統(tǒng)中, XBRL文件都可以直接使用,在不同的應用軟件中,也可以實現數據的互用和交換。跨平臺使用的關鍵在于XBRL的結構特征,因為這在XBRL結構中主要體現在XBIU的語義規(guī)則分層, 從而使得XBRL在不同的操作平臺中能夠互相使用。
二、數據的跟蹤性
XBRL可在不同的信息之間建立有效的鏈接,能夠按照事先定義的信息線索進行有效跟蹤,逐層搜索直到定義的電子數據的底層。
XBRL具有良好的動態(tài)分析功能,可以讀懂XBRL標記的具體含義,而且用戶也可以很公用的根據XBRL系統(tǒng)從電子文檔中獲取有價值的其它相關信息。同時,完善與唯一的 XBRL樹形特征,使用戶挖掘的信息減少了模糊性,增加了準確性和科學性。
三、搜索的快捷性
在用XBRL進行數據搜索時,不是像其它軟件那樣只是根據字面內容進行搜索,而是根據標簽的不同語義從幾個不同角度來進行定位,這樣XBRL軟件就能夠按照用戶的需要快速、準確地找到用戶所需的特定信息,而且這些信息是全面的。同時,由于XBRL對電子數據進行標簽式標記,可以通過XBRL建立的應用程序對數據挖掘結果中的不同類型的電子進行處理,包括電子數據的分類和匯總。其效率遠遠高于其它文件格式,比如目前網絡上的PDF、WORD和HTML等常用的文件格式。
XBRL是基于XMl的財務語言,其表示的財務數據具有以下特點
一、XBRL財務數據處理需采用世界通用的會計記賬方法一復式記賬法。
二、數據綜合性強XBRL財務數據是企業(yè)最主要的信息,相對應企業(yè)的其它業(yè)務數據,XBRL財務數據具有很強的綜合性和概括性。數據以貨幣為主要計量單位,從價值的視角綜合、全面、系統(tǒng)地反映企業(yè)供產銷和人財物的信息。
三、數據實時性強XBRL財務數據是企業(yè)資金流的動態(tài)反映,數據的使用者需要隨時通過財務數據這一信息流來了解企業(yè)的財務狀況和經營成果。如果財務數據提供不及時,勢必影響其使用效果。
四、數據準確性要求高XBRL財務信息要提供給投資者、債權人、管理人員、財政部門、稅務部門和銀行等,因此,必須保證財務數據處理的正確性,保證財務結果的真實性, 否則,虛假的財務信息定會誤導有關部門和人員的決策。
財務數據量大隨著企業(yè)會計電算化工作的深入開展,電子商務和ERP等系統(tǒng)的廣泛應用,企業(yè)的會計核算工作越來越細,這使企業(yè)在管理過程中積累了大量的財務數據。 要使這些財務數據的價值真正得以發(fā)揮,依靠手工或簡單的數據處理工具是做不到的,必須借助于數據挖掘工具,才能在大量的財務數據中,挖掘出財務信息“金塊”。
目前,還沒有合適的數據挖掘工具。發(fā)明內容
本發(fā)明的目的是設計適合XBRL數據特性的數據挖掘算方法,并在金融行業(yè)中得6到應用,從大量的XBRL財務數據中對XBRL業(yè)務數據進行抽取、轉換、分析和其他模型化處理,從中提取出數據中揭示隱含的、先前未知的并有潛在價值的關鍵數據,來鋪助金融企業(yè)進行商業(yè)決策。
本發(fā)明為了實現其發(fā)明目的所采用的技術方案是一種基于XBRL實例文檔的數據挖掘方法,包括以下步驟
步驟A、準備XBRL財務數據源;
步驟B、將所述的財務數據源的各種形式的XBRL財務數據經過XBRL隧道進行預處理,使其轉換成符合XBRL規(guī)范的財務數據,并裝入到XBRL財務數據倉庫;
步驟C、通過采用聚類分析、統(tǒng)計方法、關聯規(guī)則、決策樹方法、神經網絡方法中的至少一種方法,從所述的XBRL財務數據倉庫的具有統(tǒng)一 XBRL格式的財務數據中挖掘出潛在的、有用的知識或模式;
步驟D、將挖掘出潛在的、有用的知識或模式進行可視化的表示。
進一步的,上述的一種基于XBRL實例文檔的數據挖掘方法中所述的XBRL財務數據源包括本地XBRL財務數據和互聯網上的XBRL財務數據。
進一步的,上述的一種基于XBRL實例文檔的數據挖掘方法中所述的XBRL財務數據的表現形式包括傳統(tǒng)的關系型數據庫、文本形式的數據、電子表格、會計信息系統(tǒng)報表格式數據、面向對象數據庫以及Web數據庫。
進一步的,上述的一種基于XBRL實例文檔的數據挖掘方法中所述的XBRL隧道包括以下步驟
步驟B01、對XBRL描述的財務數據源進行規(guī)范性檢測;
步驟B02、對非XBRL描述的財務數據進行XBRL封裝。
進一步的,上述的一種基于)(BRL實例文檔的數據挖掘方法中所述的預處理包括數據的抽取、清理和轉換。
進一步的,上述的一種基于XBRL實例文檔的數據挖掘方法中所述的數據抽取, 是從XBRL財務數據數據源中抽取模型分析需要的上下文,時間,維度和單位數據,并對這些XBRL財務數據根據XBRL分類標準進行數據分類,抽取相關的XBRL數據,之后按照關系型數據關系存入數據倉庫表中。
進一步的,上述的一種基于)(BRL實例文檔的數據挖掘方法中所述的數據清洗是對缺失值、異常值的處理,包括以下步驟
C01、確定是否是由于數據處理過程中的錯誤造成的,如果是這種情況,則轉向步驟C02,否則轉向步驟C03 ;
步驟C02、按照數據的正確值對缺失值或異常值進行修正;
C03、對于樣本數據中出現的缺失值不進行處理,或者根據需要用樣本均值或出現頻度最高的值代替;對樣本數據的異常值采用中位數加四分位數極差1. 5倍的方式確定正常值的范圍或者采用2σ或3σ的標準確定正常值的范圍,然后用邊界值代替異常值。
進一步的,上述的一種基于XBRL實例文檔的數據挖掘方法中所述的數據轉換 包括描述性數據的數值化、生成新變量、連續(xù)變量到分類變量的轉換、減少分類變量取值的數量和變量的數學變換。
進一步的,上述的一種基于)(BRL實例文檔的數據挖掘方法中所述的可視化的表示包括專家系統(tǒng)知識規(guī)則、決策樹規(guī)則和在數據挖掘中的關聯規(guī)則以及分類規(guī)則。
本發(fā)明的XBRL數據挖掘方法可以在金融企業(yè)中得到以下應用
一、知識發(fā)現通過XBRL數據挖掘算法,在大量的XBRL財務數據中挖掘出適合金融企業(yè)需要的信息模式和知識,指導金融企業(yè)進行營銷、銷售和競爭。
二、決策支持面向金融企業(yè)的決策者,解決半結構化問題,突出支持而非代替決策者的決策行為。
三、智能化XBRL數據挖掘在金融企業(yè)中幫助企業(yè)實現決策支持的“智能化”,企業(yè)對XBRL信息進行收集、分析和管理,以使金融企業(yè)的決策者獲得洞察力,促使他們做出對企業(yè)更有利的決策。
四、金融監(jiān)管XBRL數據挖掘可以應用于金融領域的犯罪案件調查、詐騙監(jiān)測、洗錢認證、犯罪組織分析等方面。
附圖1是目前XBRL財務數據挖掘的一般流程。
附圖2是本發(fā)明進行XBRL財務數據挖掘流程。
附圖3是本發(fā)明XBRL財務數據挖掘系統(tǒng)模型。
具體實施方式
本實施例的XBRL財務數據挖掘的主要過程如圖2所示,主要包括財務數據源、財務數據的集成和變換、財務數據倉庫、財務數據挖掘以及知識表達等部分。
各部分的功能與實現過程如下
一、XBRL財務數據源。XBRL財務數據的來源可以有多種,可以是本地XBRL財務數據,也可以是互聯網上的XBRL財務數據。
二、XBRL財務數據集成和變換。所有各種形式的XBRL財務數據經過集成和變換, 去除冗余,即可轉換成符合一定格式的數據,并準備裝入XBRL財務數據倉庫。
三、XBRL財務數據倉庫。XBRL財務數據倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的財務數據集合,用于支持管理決策。
四、XBRL財務數據挖掘。財務數據挖掘是整個過程的核心部分,其目的是從大量的財務數據中挖掘出潛在的。有用的知識或模式。
五、知識表達。XBRL財務數據挖掘的根本目的是從財務數據中發(fā)現有用的知識或模式,而知識的表示始終是人工智能領域中一個重要的,尚未得到很好解決的研究課題。
XBRL基于XML (extensible Markup Language,可擴展標記語言)框架,專為公司發(fā)布財務報告而開發(fā)的語言,目前已有越來越多的公司采用XBRL發(fā)布財務報告。由于XBRL 在所有的軟件格式和輸出通道之間提供了更大的互用性,從而使人們能夠進行更有效的分析并更快地發(fā)現問題。XBRL使用的標簽以標準化的會計業(yè)內定義為基礎,以描述和識別財務數據的每一個項目。它為每個財務數據項目定義標簽。這使財務報告標準趨向統(tǒng)一,而這正是目前的財務報告所缺乏的。憑借出色的搜索性能,XBRL使財務數據更加一致,更易理解,而且無需公司改變他們發(fā)布財務報告的方式。
在XBRL格式的文件中,所有數據都有相對應的標記,這些標記不僅對顯示格式進7/10 頁行描述,還對所要表現的數據賦予特定含義,并且相關數據呈現結構性,把有關的信息互相連接。例如,固定資產與資產負債表及折舊相連,搜索工具能立刻指向用戶所需的特定目標數據。
XBRL不僅能及時提供準確的財務數據,而且增強了使用者在不同應用程序之間交換電子數據的能力。XBRL更具有良好的動態(tài)分析功能,當搜索引擎找到所需的信息時,它能進一步追蹤下去找到數據的最初來源及其他與該信息有關的資料。例如,用XBRL標記的財務報告通過適當運用搜索工具,信息使用者可以向下挖掘數據源直至相關的支持這些數據的文件。正是這種動態(tài)分析功能,實現了財務數據的可下載性、可移植性、可分析性和可追蹤性?;赬BRL的財務數據挖掘可以從不同系統(tǒng)中收集財務數據,進行組織和分析,從而使財務信息得到更有效的利用。
基于XBRL的財務數據挖掘模型如圖3所示,主要包括財務數據獲取模塊、XBRL隧道、財務數據挖掘以及基于XBRL描述的知識庫。各部分之間的信息流動和數據交換都是基于XBRL進行的。
一、XBRL數據獲取模塊。XBRL數據獲取模塊的主要功能是獲取XBRL財務數據源,財務數據的來源可以有多種,可以是本地數據也可以是互聯網上的數據。XBRL財務數據又可以有多種表現形式,可以是傳統(tǒng)的關系型數據庫、文本形式的數據、電子表格、會計信息系統(tǒng)報表格式數據、面向對象數據庫以及Web數據庫等;從數據組織形式上看,可以將財務數據分為基于XBRL描述的財務數據源與非XBRL描述的財務數據源。所有財務數據經過XBRL隧道的預處理,轉換為符合XBRL規(guī)范的財務數據。對于數據挖掘過程來說, 可以處理各種可能組織形式的數據源,但從數據挖掘的意義角度看,對基于XBRL描述的財務數據挖掘與對非XBRL描述的財務數據挖掘是不可能在同一個層次上進行的。因為基于 XBRL描述的財務數據本身就含有一定的描述數據自身意義的信息,而一般的財務數據沒有這種能力。XBRL已經是一種規(guī)范化的網絡財務報告語言,包括Specification(規(guī)范), Taxonomies (標準)、hstanceDocument (實例文檔)等。因此對一般財務數據進行挖掘, 應先作相應的處理,將其變?yōu)橐訶BRL描述的財務數據。
二、XBRL隧道?;赬BRL的財務數據挖掘,其數據源是符合XBRL規(guī)范的財務數據,因此在進行財務數據挖掘之前,所有財務數據都要經過預處理,轉換成符合XBRL規(guī)范的形式,這一過程需要通過XBRL隧道來實現。根據數據的組織形式,XBRL隧道的主要功能分為兩個部分一是對XBRL描述的財務數據源進行規(guī)范性檢測;二是對非XBRL描述的財務數據進行XBRL封裝。
對于數據挖掘過程來說,可以處理各種可能組織形式的數據源,但從數據挖掘的意義角度看,對基于XBRL描述的財務數據挖掘與對非XBRL描述的財務數據挖掘是不可能在同一個層次上進行的。因為基于XBRL描述的財務數據本身就含有一定的描述數據自身意義的信息,而一般的財務數據沒有這種能力。因此在進行一般的財務數據挖掘之前需要通過XBRL隧道把財務數據進行預處理,轉換成符合XBRL規(guī)范的形式。
XBRL隧道是對一般財務數據根據相關分類標準的定義和XBRL規(guī)范,采用文檔對象模型技術,即DOM處理技術,給相關的財務數據添加上XBRL標簽和相關上下文,將其轉變?yōu)橐訶BRL描述的財務數據。
三、基于XBRL的財務數據挖掘模塊。此模塊是財務數據挖掘的核心部分。通過采9用聚類分析、統(tǒng)計方法、關聯規(guī)則、決策樹方法、神經網絡等數據挖掘方法,從大量的具有統(tǒng)一 XBRL格式的財務數據中挖掘出潛在的、有用的知識或模式。這一部分的功能主要涉及兩個方面一方面是數據處理機制,由于所處理的財務數據源來自XBRL隧道,所有的財務數據格式從表示形式上看具有統(tǒng)一的XBRL格式,處理這種數據可以采用文檔對象模型技術, 即Dom處理技術,然后在Dom基礎上進行下面的財務數據挖掘過程另一方面是基于XBRL 的財務數據挖掘過程,既然數據源是符合XBRL規(guī)范的財務數據,因此在財務數據挖掘的過程中,所使用的處理技術也是符合XBRL規(guī)范的,其中XBRL本身的Specif ication (規(guī)范) 和Taxonomies (標準)為此提供了很好的基礎。
四、基于XBRL的知識表達模塊。知識表達模塊的主要功能是對在數據挖掘模塊中發(fā)現的知識進行可視化的表示,以便于非專業(yè)管理人員理解。財務數據挖掘的根本目的是從財務數據中發(fā)現有用的知識或模式,在知識的表示形式上,目前較好的且應用較多的有專家系統(tǒng)知識規(guī)則、決策樹規(guī)則和在數據挖掘中的關聯規(guī)則以及分類規(guī)則等。財務數據挖掘結果不僅要有利于人的理解,而且更主要的是要有利于計算機的理解,因此在數據挖掘完成之后,要將所得到的知識,形成符合XBRL規(guī)范的知識庫。
數據抽取主要是從XBRL財務數據數據源中抽取模型分析需要的各項數據,并進行適當的加工處理,得到分析所用的各項數據,除此之外,需要重新采集的數據以及其他在業(yè)務分析中認為重要的數據。
數據清洗包括對缺失值、異常值的處理,對于數據中出現的缺失值和異常值,首先要確定是否是由于數據處理過程中的錯誤造成的,如果是這種情況,應該按照數據的正確值對缺失值或異常值進行修正,如果不是由于錯誤造成的,則常用的方法有
一、對于樣本數據中出現的缺失值可以不進行處理,也可以根據需要用樣本均值或出現頻度最高的值代替;
二、對樣本數據的異常值的確認,首先要結合業(yè)務分析的結果進行確定,其次可以采用統(tǒng)計學中常用的一些方法,例如可以采用中位數加四分位數極差1. 5倍的方式確定正常值的范圍或者采用2 σ或3σ的標準確定正常值的范圍,然后用邊界值代替異常值等等;
數據轉換是根據業(yè)務分析的經驗和結果對原始變量進行適當的轉換,形成新的綜合變量。常用的數據變換包括
—、描述性數據的數值化把原始數據中一些用文字進行描述的數據用數值化的方式進行表達。
二、生成新變量數據源所提供的原始數據變量往往不能滿足分析模型的需要,因此要對原有的變量進行適當的轉換,產生新的變量,如交易頻率、最近一次交易的時間等數據需要通過對原始數據的統(tǒng)計得到。
三、連續(xù)變量到分類變量的轉換,其好處是忽略了某些變量的細節(jié),使數據的集中趨勢和特征更為明顯。
四、減少分類變量取值的數量,對于某些分類變量,由于變量所取的值比較多,往往使數據的特征不夠明顯,通過減少變量取值的個數,把小類按照類別之間的相近程度歸并成一些大類,從而使數據的特征更加明顯。
五、變量的數學變換由于有些模型的使用條件對數據的分布情況有一定的要求,而實際的數據往往不能滿足這些要求,因此就需要對原始變量進行適當的數學變換以滿足模型的要求,常用的變換有對數變換,指數變換,倒數變換等等,例如某些模型使用的變量需要滿足正態(tài)分布的要求,實際數據往往不能滿足這種要求,而通過對數或倒數變換卻能滿足這種要求,因此就要對原始數據進行相應的變換以達到模型的使用條件。
除了以上提到的各種變換之外,在建模過程中還需要用到一些其他的變換,例如通過某些數據或指標的組合往往可能達到很好的預測效果,而這些變換方法和過程往往比較復雜,需要通過實際數據的分析和檢驗才能得到,需要在項目實際進行中加以靈活運用。
數據的初步分析主要是采用統(tǒng)計的手段對變量進行分析,了解每個變量的基本數據特征和以及變量之間的相互關系,從而篩選出適當的變量進行建模,常用的方法有
一、變量的描述性統(tǒng)計運用基本的數據統(tǒng)計量,譬如均數、方差、最大值、最小值和百分位數等等顯示變量的數字特征。通過變量的描述性統(tǒng)計,可以對變量的基本情況有一個基本的把握,并且可以獲得變量變換和標準化的各項數據,為數據的進一步分析打下基礎,而且通過對基本統(tǒng)計量的觀察,可以發(fā)現一些基本的數據規(guī)律,為模型和變量的選擇提供幫助,對于數據質量不佳的數據,需要進行額外的處理;
二、變量的圖形分析除了數字以外,還可以通過圖形化的方式對數據的分布情況進行分析,變量的圖形分析是通過直觀的方式對數據進行觀察,同樣是為了加深對變量的理解,例如,通過散點圖可以發(fā)現兩個變量之間存在的某種線性關系等等;
三、變量的相關分析變量的相關分析包括獨立變量之間的相關分析和獨立變量與目標變量間的相關分析。獨立變量之間的相關分析是為了發(fā)現獨立變量之間的相關性, 從而減少獨立變量的數目。否則信息冗余會影響模型的精度。獨立變量與目標變量的相關分析是為了發(fā)現獨立變量與目標變量之間的相關關系,從而初步確定是哪些變量決定了目標變量,也就是說是哪些因素決定了客戶的流失等狀況。指標相關分析的方法主要有相關系數分析、回歸分析、卡方分析、均數比較和方差分析等等。如果采用相關系數分析和回歸分析,則相關系數和回歸系數的絕對值的大小表示了變量相關程度的高低,相關系數的符號表示了相關的方式,正號為正相關,負號為負相關。
通過數據變量的初步分析,特別是變量的相關分析,可以初步確定建立公司治理評級模型的相關獨立變量的范圍,所選擇的變量就是模型的基本變量,需要指出的是,以上變量的選擇只是初步選擇,對于不同的分析方法和分析模型,需要根據模型進行進一步的選擇,由于不同模型之間變量選擇的算法和結果不盡相同,所以在不同模型的變量之間需要不斷的比較借鑒,不斷改進。
XBRL分類標準模型屬于分類模型,分類模型常見的算法有Logistic回歸,神經網絡,決策樹。由于神經網絡模型處理非線性關系由于很好的預測性和穩(wěn)定性,但由于采用了連續(xù)變量分箱來處理連續(xù)變量的非線性問題,加上神經網絡模型的結果為黑匣子,不利于模型的解釋和應用。而在建立模型開始,先采用了決策樹的方法挑選候選變量。綜上,這些都能理論上保證使用Logistic回歸建立的預測模型是最優(yōu)的、最利于模型部署的模型。因此使用Logistic回歸建立流失預測模型。
Logistic曲線對應logistic模型。該曲線是(0,1)區(qū)間的S形曲線,并且在 & — _①的情況下E(Yi) —0,在& —+ c 時E(Yi) — 1。該模型可以用公式£仄)=~—表示,這里Yi是第i個響應變量,對于響應來說該值為1,對于不響應來說該值為0。 logistic回歸模型的區(qū)間在(0,1)范圍內。Logistic回歸模型的主要假設在于響應概率月艮從logistic分布。
Logistic回歸模型的一般形式為
H-^-) = a ^fj P1X1
其中Ρ是流失概率,α代表截距大小,β為回歸系數,X代表獨立變量。
XBRL實例文檔模型屬于聚類模型,聚類模型常見的算法有系統(tǒng)聚類法(分層聚類)、非系統(tǒng)聚類法和兩步聚類法。根據目標和數據的實際情況,采用非系統(tǒng)聚類中的 k-Means算法建立分群模型。
k-Means聚類是非系統(tǒng)聚類中的最常用的方法,其算法原理如下
一、按照指定的分類數目n,按某種方法選擇某些觀測量,設為{Z1,Z2,…&ι},作為初始聚心。
二、計算每個觀測量到各個聚心的歐氏距離。即按就近原則將每個觀測量選入一個類中,然后計算各個類的中心位置,即均值,作為新的聚心。
三、使用計算出來的新聚心重新進行分類,分類完畢后繼續(xù)計算各類的中心位置, 作為新的聚心,如此反復操作,直到兩次迭代計算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數時,或者到達迭代次數的上限時,停止迭代。
同時,因為聚類模型自身的特點,把實例文檔分群結果作為建立綜合偏好模型的一個變量,以此對XBRL數據進行綜合特征分群。
可以將模型的結果發(fā)布到數據庫或文件中,或者通過瀏覽器進行瀏覽??梢詫⒛P驼系綉孟到y(tǒng)中,對XBRL數據挖掘的結果用web界面的形式展現,方便業(yè)務人員找出并分析目標客戶。
數據挖掘模型并非開發(fā)后就一成不變,隨著時間的推移,外界環(huán)境可能發(fā)生了變化,欺詐的手法、模式也可能發(fā)生了變化,這些都會導致模型的適用性降低,因此,模型上線以后要持續(xù)的跟蹤,根據模型的反饋結果對模型進行調整,這是一個不斷反復的過程。
權利要求
1.一種基于XBRL實例文檔的數據挖掘方法,特征在于包括以下步驟步驟A、準備XBRL財務數據源;步驟B、將所述的財務數據源的各種形式的XBRL財務數據經過XBRL隧道進行預處理, 使其轉換成符合XBRL規(guī)范的財務數據,并裝入到XBRL財務數據倉庫;步驟C、通過采用聚類分析、統(tǒng)計方法、關聯規(guī)則、決策樹方法、神經網絡方法中的至少一種方法,從所述的XBRL財務數據倉庫的具有統(tǒng)一 XBRL格式的財務數據中挖掘出潛在的、 有用的知識或模式;步驟D、將挖掘出潛在的、有用的知識或模式進行可視化的表示。
2.根據權利要求1所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的XBRL財務數據源包括本地XBRL財務數據和互聯網上的XBRL財務數據。
3.根據權利要求2所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的XBRL財務數據的表現形式包括傳統(tǒng)的關系型數據庫、文本形式的數據、電子表格、會計信息系統(tǒng)報表格式數據、面向對象數據庫以及Web數據庫。
4.根據權利要求1所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的XBRL隧道包括以下步驟步驟B01、對XBRL描述的財務數據源進行規(guī)范性檢測;步驟B02、對非XBRL描述的財務數據進行XBRL封裝。
5.根據權利要求1所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的預處理包括數據的抽取、清理和轉換。
6.根據權利要求5所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的數據抽取,是從XBRL財務數據數據源中抽取模型分析需要的上下文,時間,維度和單位數據,并對這些XBRL財務數據根據XBRL分類標準進行數據分類,抽取相關的XBRL數據,之后按照關系型數據關系存入數據倉庫表中。
7.根據權利要求5所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的數據清洗是對缺失值、異常值的處理,包括以下步驟C01、確定是否是由于數據處理過程中的錯誤造成的,如果是這種情況,則轉向步驟 C02,否則轉向步驟C03 ;步驟C02、按照數據的正確值對缺失值或異常值進行修正;C03、對于樣本數據中出現的缺失值不進行處理,或者根據需要用樣本均值或出現頻度最高的值代替;對樣本數據的異常值采用中位數加四分位數極差1. 5倍的方式確定正常值的范圍或者采用2σ或3σ的標準確定正常值的范圍,然后用邊界值代替異常值。
8.根據權利要求5所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的數據轉換包括描述性數據的數值化、生成新變量、連續(xù)變量到分類變量的轉換、減少分類變量取值的數量和變量的數學變換。
9.根據權利要求1所述的一種基于XBRL實例文檔的數據挖掘方法,其特征在于所述的可視化的表示包括專家系統(tǒng)知識規(guī)則、決策樹規(guī)則和在數據挖掘中的關聯規(guī)則以及分類規(guī)則。
全文摘要
本發(fā)明公開了一種基于XBRL實例文檔的數據挖掘方法,包括準備XBRL財務數據源;裝入到XBRL財務數據倉庫;挖掘出潛在的、有用的知識或模式;進行可視化的表示。等四個步驟。本發(fā)明的XBRL數據挖掘方法可以在金融企業(yè)中得到知識發(fā)現、決策支持、智能化、金融監(jiān)管等方面的應用。
文檔編號G06F17/30GK102508860SQ201110301080
公開日2012年6月20日 申請日期2011年9月29日 優(yōu)先權日2011年9月29日
發(fā)明者曾令祝, 楊杰, 梁永宏, 王權, 胡至微, 芮慶忠 申請人:廣州中浩控制技術有限公司