本發(fā)明涉及股票數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及一種基于類似關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的股票預(yù)測(cè)方法。
背景技術(shù):
股票市場(chǎng)高風(fēng)險(xiǎn)和高收益并存,因此對(duì)于股票數(shù)據(jù)的知識(shí)發(fā)現(xiàn)的研究一直受到人們的關(guān)注。近年來,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和存儲(chǔ)能力的大大提高,使得這一方面的研究有了很大的發(fā)展。
在股票交易事務(wù)處理中,每天有大量的交易信息數(shù)據(jù)匯入數(shù)據(jù)倉庫,這些數(shù)據(jù)無疑有益于股民了解股市的走勢(shì),做出正確的投資決策,然后如何從海量數(shù)據(jù)中提取或識(shí)別有效的、新穎的、潛在有用的并最終可理解的模式是投資者們最為關(guān)心的問題。股票數(shù)據(jù)挖掘的目標(biāo)就是通過對(duì)歷史數(shù)據(jù)的分析統(tǒng)計(jì)得出用戶感興趣的結(jié)果。
針對(duì)股票預(yù)測(cè)問題,學(xué)者們提出一些股票價(jià)格預(yù)測(cè)模型,可以將這些預(yù)測(cè)模型劃分為兩類:一類基于統(tǒng)計(jì)學(xué)的股票價(jià)格預(yù)測(cè)模型,假設(shè)股票價(jià)格呈線性變化,這與股票價(jià)格復(fù)雜、時(shí)變等特性不相符,因此預(yù)測(cè)精度不高;另一類是基于機(jī)器學(xué)習(xí)算法的非線性股票價(jià)格預(yù)測(cè)模型,可以對(duì)股票價(jià)格的變化特點(diǎn)進(jìn)行描述,股票價(jià)格的預(yù)測(cè)精度得以提高。
本發(fā)明提出的基于類似關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的股票預(yù)測(cè)方法是一種機(jī)器學(xué)習(xí)方法,可以對(duì)股票第二日的漲跌幅和漲跌概率進(jìn)行預(yù)測(cè),從而為股民的決策提供較大的指導(dǎo)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明公開了一種基于類似關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的股票預(yù)測(cè)方法。方法類似于關(guān)聯(lián)規(guī)則的思想,可稱為股票關(guān)聯(lián)規(guī)則,對(duì)股票數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和預(yù)測(cè)。方法把所有股票的漲跌幅量化后的值看作是關(guān)聯(lián)規(guī)則中項(xiàng)的集合,把單只股票近期小段時(shí)間序列的量化值看作是一個(gè)交易事務(wù),在對(duì)所有股票進(jìn)行關(guān)聯(lián)規(guī)則的挖掘統(tǒng)計(jì)后,對(duì)股票下一交易日漲跌幅度和漲跌概率的預(yù)測(cè)則類似于尋找滿足支持度要求且置信度較高的后件。方法可用于下一交易日的預(yù)測(cè),可為股票短線操作提供決策支持。
本發(fā)明方法分為兩個(gè)階段:規(guī)則學(xué)習(xí)階段、規(guī)則匯總階段和規(guī)則應(yīng)用階段。在規(guī)則學(xué)習(xí)階段,對(duì)每只單只股票進(jìn)行規(guī)則的統(tǒng)計(jì)學(xué)習(xí);在規(guī)則匯總階段,將每只股票的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行匯總,形成全局的規(guī)則;在規(guī)則應(yīng)用階段,根據(jù)每只股票近期的漲跌幅數(shù)據(jù),套用全局規(guī)則,從而預(yù)測(cè)下一交易日的各種可能漲跌幅及其相應(yīng)的漲跌概率。
本發(fā)明方法的步驟如下:
一、規(guī)則學(xué)習(xí)階段
(1)對(duì)每只股票的漲跌幅值進(jìn)行量化;
(2)每只股票獨(dú)立統(tǒng)計(jì)相鄰交易日組合k-項(xiàng)集的頻繁度,k取值[1,5];
二、規(guī)則匯總階段
(3)對(duì)所有股票的學(xué)習(xí)規(guī)則根據(jù)k-項(xiàng)集分別進(jìn)行匯總,計(jì)算頻次占比,形成各項(xiàng)集的全局匯總表和前件匯總表;
三、規(guī)則應(yīng)用階段
(4)獲取待預(yù)測(cè)股票的近期漲跌幅并進(jìn)行量化;
(5)分別以不同長(zhǎng)度的量化值作為前件,套用全局的匯總規(guī)則,計(jì)算規(guī)則置信度,輸出預(yù)測(cè)結(jié)果。
其中,步驟(1)的對(duì)每只股票的漲跌幅值進(jìn)行量化,是指獲取某個(gè)時(shí)間點(diǎn)以來(如2005年1月1日)的數(shù)據(jù),對(duì)漲跌幅值進(jìn)行四舍五入的操作,形成整數(shù)值。
其中,步驟(2)對(duì)每只股票進(jìn)行k-項(xiàng)集的頻度統(tǒng)計(jì),包括1-項(xiàng)集統(tǒng)計(jì)、2-項(xiàng)集統(tǒng)計(jì)、3-項(xiàng)集統(tǒng)計(jì)、4-項(xiàng)集統(tǒng)計(jì)和5-項(xiàng)集統(tǒng)計(jì)。1-項(xiàng)集統(tǒng)計(jì)是對(duì)每個(gè)交易日的量化漲跌幅值的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì);2-項(xiàng)集統(tǒng)計(jì)是對(duì)股票相鄰兩個(gè)交易日的量化漲跌幅值共同出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì);3-項(xiàng)集、4-項(xiàng)集、5-項(xiàng)集以此類推。
其中,步驟(3) 對(duì)所有股票的k-項(xiàng)集統(tǒng)計(jì)結(jié)果分別進(jìn)行匯總,包括1-項(xiàng)集匯總、2-項(xiàng)集匯總、3-項(xiàng)集匯總、4-項(xiàng)集匯總和5-項(xiàng)集匯總。除1-項(xiàng)集僅有全部項(xiàng)的匯總外,每種項(xiàng)集的匯總分為兩種:全部項(xiàng)的匯總和前件項(xiàng)的匯總。全部項(xiàng)的匯總是指對(duì)步驟(2)中每只股票的項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能的項(xiàng)組合計(jì)算該組合出現(xiàn)的頻次和頻次的占比情況。前件項(xiàng)的匯總則是指根據(jù)合并后的數(shù)組除去最后一列后,對(duì)項(xiàng)集中的可能的項(xiàng)組合計(jì)算該組合出現(xiàn)的頻次和頻次的占比情況。
其中,步驟(4) 獲取待預(yù)測(cè)股票近k個(gè)交易日的漲跌幅數(shù)據(jù),k的取值依賴于前面學(xué)習(xí)階段所進(jìn)行的n項(xiàng)集統(tǒng)計(jì),由于步驟(2)進(jìn)行了5-項(xiàng)集統(tǒng)計(jì),因此k取n-1,即k=4。量化過程類似步驟1。取值量化結(jié)果記為D4,D3,D2,D1,分別代表股票近四個(gè)交易日的近似整數(shù)漲跌幅。
其中,步驟(5) 分別以不同長(zhǎng)度的量化值作為前件,套用全局的匯總規(guī)則,即以D4,D3,D2,D1搜索5-項(xiàng)集的匯總規(guī)則;以D3,D2,D1搜索4-項(xiàng)集的匯總規(guī)則,以此類推。套用過程中,對(duì)前件項(xiàng)匯總表的搜索僅有一個(gè)匹配,匹配得到的頻次占比即為該輸出規(guī)則的支持度,同時(shí)匹配得到的項(xiàng)出現(xiàn)頻次則作為輸出置信度的分子;對(duì)全部項(xiàng)匯總表的搜索會(huì)有多個(gè)匹配,取頻次值最大的前L個(gè)項(xiàng)的頻次作為輸出置信度的分母。不同長(zhǎng)度的前件各輸出L個(gè)匹配的規(guī)則,作為可能漲跌幅及其相應(yīng)的漲跌概率的預(yù)測(cè)結(jié)果。
附圖說明
圖1 是本發(fā)明基于類似關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的股票預(yù)測(cè)方法的流程圖。上半部分為規(guī)則的學(xué)習(xí)階段和規(guī)則的匯總階段,下半部分為規(guī)則的應(yīng)用階段。
圖2 是基于本發(fā)明方法輸出的某一股票在下一交易日的預(yù)測(cè)結(jié)果。每個(gè)前件數(shù)規(guī)則的獲取僅取置信度最高的3種結(jié)果進(jìn)行展示,圖中D4,D3,D2,D1分別代表該股票近四個(gè)交易日的近似漲跌幅,D0代表下一交易日可能的近似漲跌幅。支持度代表前件在總樣本規(guī)模中的出現(xiàn)概率;置信度代表在前件出現(xiàn)的條件下,后件出現(xiàn)的概率;分子為前件后件同時(shí)出現(xiàn)的次數(shù);分母為前件出現(xiàn)的次數(shù)。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)例,對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,X和Y分別稱為關(guān)聯(lián)規(guī)則的前件和后件。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和置信度。關(guān)聯(lián)規(guī)則定義為:假設(shè)I={I1,I2,….Im}是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫D,其中每個(gè)事務(wù)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的TID對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是D中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值,則認(rèn)為關(guān)聯(lián)規(guī)則是有趣的。
把所有股票的漲跌幅數(shù)值量化后,這些值看作是關(guān)聯(lián)規(guī)則中項(xiàng)的集合;而單只股票近期小段時(shí)間序列的量化值則可看作是一個(gè)事務(wù)交易,對(duì)該股票下一交易日漲跌幅度和漲跌概率的預(yù)測(cè)類似于尋找滿足支持度要求且置信度較高的后件。
本發(fā)明方法結(jié)合股票實(shí)際,以類似于關(guān)聯(lián)規(guī)則的思想,稱為股票關(guān)聯(lián)規(guī)則,對(duì)股票數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和預(yù)測(cè)。方法可以預(yù)測(cè)股票下一交易日的各種可能漲跌幅及其相應(yīng)的漲跌概率。
假設(shè)股票列表為S,S=[S1, S2,…,Si,…,Sm],m為股票池中股票的數(shù)量,如中國上市股票的數(shù)量或美國上市股票的數(shù)量。方法針對(duì)所有股票學(xué)習(xí)共同的規(guī)則。方法分為三個(gè)階段,規(guī)則學(xué)習(xí)階段、規(guī)則匯總階段和規(guī)則應(yīng)用階段。
一、規(guī)則學(xué)習(xí)階段。
該步驟主要是對(duì)每只股票統(tǒng)計(jì)日漲跌幅及其相鄰交易日漲跌幅組合的項(xiàng)集的頻繁度。對(duì)于每只股票,假設(shè)當(dāng)前股票為Si,i=1,…,m ,則該股票各種組合項(xiàng)集的統(tǒng)計(jì)過程如下。
1.1 對(duì)股票的漲跌幅值進(jìn)行量化。
首先獲取某個(gè)時(shí)間點(diǎn)以來(如2005年1月1日)的數(shù)據(jù),然后對(duì)股票的漲跌幅數(shù)據(jù)進(jìn)行量化,即對(duì)漲跌幅值進(jìn)行四舍五入操作,形成整數(shù)值;這樣最后形成了一個(gè)股票漲跌幅整數(shù)值的數(shù)組。
1.2 進(jìn)行1-項(xiàng)集統(tǒng)計(jì)。
1-項(xiàng)集統(tǒng)計(jì)實(shí)際上是對(duì)每個(gè)交易日的量化漲跌幅值出現(xiàn)次數(shù)的統(tǒng)計(jì)。由于股票有漲跌幅限制,上一步驟量化后的整數(shù)值有21種情況,即[-10,10]區(qū)間的整數(shù),因此設(shè)置一個(gè)有21槽的數(shù)組,遍歷股票漲跌幅整數(shù)值數(shù)組,根據(jù)漲跌幅整數(shù)值的出現(xiàn)次數(shù)進(jìn)行累加統(tǒng)計(jì),并放入對(duì)應(yīng)的槽中。
1.3 進(jìn)行2-項(xiàng)集統(tǒng)計(jì)。
2-項(xiàng)集的統(tǒng)計(jì)是對(duì)股票相鄰兩個(gè)交易日量化漲跌幅出現(xiàn)次數(shù)的統(tǒng)計(jì)。具體統(tǒng)計(jì)過程如下:首先設(shè)置一個(gè)21X21的二維數(shù)組,遍歷股票漲跌幅整數(shù)值數(shù)組,每次取相鄰的兩個(gè)值,對(duì)這兩個(gè)值的共同出現(xiàn)的次數(shù)進(jìn)行累加統(tǒng)計(jì),并放入二維數(shù)組對(duì)應(yīng)的槽中。
1.4 進(jìn)行3-項(xiàng)集統(tǒng)計(jì)。
3-項(xiàng)集的統(tǒng)計(jì)是對(duì)股票相鄰三個(gè)交易日量化漲跌幅出現(xiàn)次數(shù)的統(tǒng)計(jì)。具體統(tǒng)計(jì)過程如下:首先設(shè)置一個(gè)21X21 X21的三維數(shù)組,遍歷股票漲跌幅整數(shù)值數(shù)組,每次取相鄰的三個(gè)值,對(duì)這三個(gè)值的共同出現(xiàn)的次數(shù)進(jìn)行累加統(tǒng)計(jì),并放入三維數(shù)組對(duì)應(yīng)的槽中。
1.5 進(jìn)行4-項(xiàng)集統(tǒng)計(jì)。
4-項(xiàng)集的統(tǒng)計(jì)是對(duì)股票相鄰四個(gè)交易日量化漲跌幅出現(xiàn)次數(shù)的統(tǒng)計(jì)。具體統(tǒng)計(jì)過程如下:首先設(shè)置一個(gè)21X21 X21 X21的四維數(shù)組,遍歷股票漲跌幅整數(shù)值數(shù)組,每次取相鄰的四個(gè)值,對(duì)這四個(gè)值的共同出現(xiàn)的次數(shù)進(jìn)行累加統(tǒng)計(jì),并放入四維數(shù)組對(duì)應(yīng)的槽中。
1.6 進(jìn)行5-項(xiàng)集統(tǒng)計(jì)。
5-項(xiàng)集的統(tǒng)計(jì)是對(duì)股票相鄰五個(gè)交易日量化漲跌幅出現(xiàn)次數(shù)的統(tǒng)計(jì)。具體統(tǒng)計(jì)過程如下:首先設(shè)置一個(gè)21X21 X21 X21 X21的五維數(shù)組,遍歷股票漲跌幅整數(shù)值數(shù)組,每次取相鄰的五個(gè)值,對(duì)這五個(gè)值的共同出現(xiàn)的次數(shù)進(jìn)行累加統(tǒng)計(jì),并放入五維數(shù)組對(duì)應(yīng)的槽中。
以此類推進(jìn)行多元項(xiàng)集的統(tǒng)計(jì)。但是由于股票數(shù)據(jù)有限,一般進(jìn)行到5-項(xiàng)集統(tǒng)計(jì)時(shí),共現(xiàn)元組的出現(xiàn)頻率就已經(jīng)很小了,統(tǒng)計(jì)得到的高維數(shù)組已經(jīng)很稀疏,因此沒有再進(jìn)行下去的必要。至此一只股票的規(guī)則學(xué)習(xí)完成。對(duì)其他股票進(jìn)行類似的統(tǒng)計(jì),完成所有股票的規(guī)則學(xué)習(xí)。
二、規(guī)則匯總階段。
該步驟對(duì)每只股票的學(xué)習(xí)規(guī)則根據(jù)k-項(xiàng)集分別進(jìn)行匯總。
2.1 進(jìn)行1-項(xiàng)集匯總。
對(duì)所有股票的1-項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能整數(shù)值(僅一項(xiàng))進(jìn)行分類匯總,最后形成1-項(xiàng)集匯總表T1,
T1={項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent},
其中,項(xiàng)出現(xiàn)頻次ItemCount是所有股票的相應(yīng)項(xiàng)Item出現(xiàn)頻次的總和,頻次占比ItemPercent是指項(xiàng)出現(xiàn)頻次ItemCount占所有股票所有可能項(xiàng)出現(xiàn)頻次總和的比例。
2.2 進(jìn)行2-項(xiàng)集匯總。
2-項(xiàng)集的匯總分成2種:全部項(xiàng)的匯總和前件項(xiàng)的匯總。
全部項(xiàng)的匯總:對(duì)所有股票的2-項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能整數(shù)值(2項(xiàng)組合)進(jìn)行分類匯總,最后形成2-項(xiàng)集匯總表T2,
T2={項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
前件項(xiàng)的匯總:根據(jù)合并后的數(shù)組除去最后一列后,對(duì)項(xiàng)集中的可能整數(shù)值(僅1項(xiàng))進(jìn)行分類匯總,最后形成2-項(xiàng)集的前件匯總表T2-Left,
T2-Left={前件項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
2.3 進(jìn)行3-項(xiàng)集匯總。
3-項(xiàng)集的匯總分成2種:全部項(xiàng)的匯總和前件項(xiàng)的匯總。
全部項(xiàng)的匯總:對(duì)所有股票的3-項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能整數(shù)值(3項(xiàng)組合)進(jìn)行分類匯總,最后形成3-項(xiàng)集匯總表T3,
T3={項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
前件項(xiàng)的匯總:根據(jù)合并后的數(shù)組除去最后一列后,對(duì)項(xiàng)集中的可能整數(shù)值(有2項(xiàng))進(jìn)行分類匯總,最后形成3-項(xiàng)集的前件匯總表T3-Left,
T3-Left={前件項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
2.4 進(jìn)行4-項(xiàng)集匯總。
4-項(xiàng)集的匯總分成2種:全部項(xiàng)的匯總和前件項(xiàng)的匯總。
全部項(xiàng)的匯總:對(duì)所有股票的4-項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能整數(shù)值(4項(xiàng)組合)進(jìn)行分類匯總,最后形成4-項(xiàng)集匯總表T4,
T4={項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
前件項(xiàng)的匯總:根據(jù)合并后的數(shù)組除去最后一列后,對(duì)項(xiàng)集中的可能整數(shù)值(有3項(xiàng))進(jìn)行分類匯總,最后形成4-項(xiàng)集的前件匯總表T4-Left,
T4-Left={前件項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
2.5 進(jìn)行5-項(xiàng)集匯總。
5-項(xiàng)集的匯總分成2種:全部項(xiàng)的匯總和前件項(xiàng)的匯總。
全部項(xiàng)的匯總:對(duì)所有股票的5-項(xiàng)集統(tǒng)計(jì)數(shù)組進(jìn)行合并,合并后根據(jù)項(xiàng)集中的可能整數(shù)值(5項(xiàng)組合)進(jìn)行分類匯總,最后形成5-項(xiàng)集匯總表T5,
T5={項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
前件項(xiàng)的匯總:根據(jù)合并后的數(shù)組除去最后一列后,對(duì)項(xiàng)集中的可能整數(shù)值(有4項(xiàng))進(jìn)行分類匯總,最后形成5-項(xiàng)集的前件匯總表T5-Left,
T5-Left={前件項(xiàng)Item,項(xiàng)出現(xiàn)頻次ItemCount,頻次占比ItemPercent}。
最終學(xué)習(xí)規(guī)則匯總完成,得到5個(gè)匯總表T1,T2,T3,T4,T5和4個(gè)前件匯總表T2-Left,T3-Left,T4-Left,T5-Left。
三、規(guī)則應(yīng)用階段。
該階段應(yīng)用上一階段的規(guī)則匯總結(jié)果,結(jié)合股票的近期漲跌幅數(shù)據(jù),預(yù)測(cè)下一交易日的各種可能漲跌幅及其相應(yīng)的漲跌概率。
對(duì)于每只股票,假設(shè)當(dāng)前股票為Si,i=1,…,m ,則該股票下一交易日的預(yù)測(cè)過程如下。
3.1股票近期漲跌幅數(shù)據(jù)的獲取和量化。
首先獲取股票近k個(gè)交易日的漲跌幅數(shù)據(jù),k的取值依賴于前面學(xué)習(xí)階段所進(jìn)行的n項(xiàng)集統(tǒng)計(jì),如前面進(jìn)行了5-項(xiàng)集統(tǒng)計(jì),則k取n-1,即k=4。然后對(duì)這k日的漲跌幅數(shù)據(jù)進(jìn)行量化,即對(duì)漲跌幅值進(jìn)行四舍五入操作,形成整數(shù)值,記為D4,D3,D2,D1,分別代表股票近四個(gè)交易日的近似整數(shù)漲跌幅。
3.2 進(jìn)行4個(gè)前件的規(guī)則獲取。
以D4,D3,D2,D1搜索前件匯總表T5-Left,僅有一個(gè)匹配,匹配得到的頻次占比ItemPercent即為支持度,同時(shí)匹配得到項(xiàng)出現(xiàn)頻次ItemCount,記為CountX,作為分子。
以D4,D3,D2,D1搜索匯總表T5,將有多個(gè)匹配,獲取頻次值最大的前L個(gè)項(xiàng)出現(xiàn)頻次ItemCountj,記為CountXYj,j=1…L,作為分母。對(duì)于L個(gè)匹配,每個(gè)匹配元組的最后一列即為下一交易日D0可能的近似漲跌幅,其相應(yīng)置信度為:
100*CountXYj/CountX %。
3.3 進(jìn)行3個(gè)前件的規(guī)則獲取。
以D3,D2,D1搜索前件匯總表T4-Left,僅有一個(gè)匹配,匹配得到的頻次占比ItemPercent即為支持度,同時(shí)匹配得到項(xiàng)出現(xiàn)頻次ItemCount,記為CountX,作為分子。
以D3,D2,D1搜索匯總表T4,將有多個(gè)匹配,獲取頻次值最大的前L個(gè)項(xiàng)出現(xiàn)頻次ItemCountj,記為CountXYj,j=1…L,作為分母。對(duì)于L個(gè)匹配,每個(gè)匹配元組的最后一列即為下一交易日D0可能的近似漲跌幅,其相應(yīng)置信度為:
100*CountXYj/CountX %。
3.4 進(jìn)行2個(gè)前件的規(guī)則獲取。
以D2,D1搜索前件匯總表T3-Left,僅有一個(gè)匹配,匹配得到的頻次占比ItemPercent即為支持度,同時(shí)匹配得到項(xiàng)出現(xiàn)頻次ItemCount,記為CountX,作為分子。
以D2,D1搜索匯總表T3,將有多個(gè)匹配,獲取頻次值最大的前L個(gè)項(xiàng)出現(xiàn)頻次ItemCountj,記為CountXYj,j=1…L,作為分母。對(duì)于L個(gè)匹配,每個(gè)匹配元組的最后一列即為下一交易日D0可能的近似漲跌幅,其相應(yīng)置信度為:
100*CountXYj/CountX %。
3.5 進(jìn)行1個(gè)前件的規(guī)則獲取。
以D1搜索前件匯總表T2-Left,僅有一個(gè)匹配,匹配得到的頻次占比ItemPercent即為支持度,同時(shí)匹配得到項(xiàng)出現(xiàn)頻次ItemCount,記為CountX,作為分子。
以D1搜索匯總表T2,將有多個(gè)匹配,獲取頻次值最大的前L個(gè)項(xiàng)出現(xiàn)頻次ItemCountj,記為CountXYj,j=1…L,作為分母。對(duì)于L個(gè)匹配,每個(gè)匹配元組的最后一列即為下一交易日D0可能的近似漲跌幅,其相應(yīng)置信度為:
100*CountXYj/CountX %。
在k前件的規(guī)則獲取的過程中,如果近期的近似漲跌幅沒有匹配上前件匯總表里面高維數(shù)組的數(shù)值,則跳過該k前件規(guī)則的獲取。對(duì)所有其他股票進(jìn)行類似的計(jì)算,完成所有股票的規(guī)則應(yīng)用。
綜上所述,本發(fā)明提出了一種基于類似關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的股票預(yù)測(cè)方法。方法以類似于關(guān)聯(lián)規(guī)則統(tǒng)計(jì)的思想,即股票關(guān)聯(lián)規(guī)則,對(duì)股票數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和預(yù)測(cè)。方法可以預(yù)測(cè)股票下一交易日的各種可能漲跌幅及其相應(yīng)的漲跌概率。
本發(fā)明方法同樣可應(yīng)用于證券類具有時(shí)間序列特征的數(shù)據(jù),如基金、期貨等。因此,盡管為說明目的公開了本發(fā)明的具體實(shí)施例和附圖,其目的在于幫助理解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)力要求的精神和范圍內(nèi),各種替換、變化和修改都是不可能的。因此,本發(fā)明不應(yīng)局限于最佳實(shí)施例和附圖所公開的內(nèi)容。當(dāng)前公開的實(shí)施例在所有方面應(yīng)被理解為說明性的而非對(duì)其請(qǐng)求保護(hù)的范圍的限制。