專利名稱:電子商品異常交易過(guò)程的確定方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及基于互聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)電子商品交易的技術(shù)領(lǐng)域,尤其是涉及一種預(yù)測(cè)電子商品交易量的方法及其裝置,以及一種電子商品異常交易過(guò)程的確定方法及其裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于互聯(lián)網(wǎng)環(huán)境進(jìn)行電子商品交易的處理技術(shù)越來(lái)越受到重視。其中,以電子商品的交易處理記錄信息為核心的誠(chéng)信評(píng)價(jià)體系是整個(gè)互聯(lián)網(wǎng)電子商品對(duì)象良性交易的基礎(chǔ),相反地,炒作信用則會(huì)嚴(yán)重破壞整個(gè)基于互聯(lián)網(wǎng)環(huán)境為平臺(tái)的電子商務(wù)交易處理產(chǎn)業(yè)的健康良性發(fā)展。具體地,誠(chéng)信評(píng)價(jià)是指在基于互聯(lián)網(wǎng)環(huán)境為平臺(tái)的電子商務(wù)交易處理過(guò)程中,每 一筆電子數(shù)據(jù)交易處理完成之后,購(gòu)買方和賣方都有權(quán)使用電子投票信息或發(fā)帖等形式,對(duì)賣方出售的電子商品的具體情況做出自己認(rèn)為的好、中、差等評(píng)價(jià)。即針對(duì)一個(gè)出售電子商品的賣家,其積累的好的信用評(píng)價(jià)越多,就代表該賣方的服務(wù)質(zhì)量、商品質(zhì)量等越好,這樣這個(gè)賣方提供的電子商品信息就會(huì)越來(lái)越多地受到其他買方的歡迎,從而使其能夠獲得更多的收益。具體地,炒作信用是指單純采用以增加電子商品賣方的信用為目的的虛假交易方式,從形式上提高電子商品賣方的好的信用評(píng)價(jià),從而基于這些虛假的信用評(píng)價(jià)去吸引更多的商品購(gòu)買方的注意,進(jìn)而達(dá)到獲得更多收益的目的。例如電子商品的賣方通過(guò)一些虛假手段進(jìn)行多次虛假電子交易處理,其具體可以為自己同時(shí)注冊(cè)多個(gè)不同的買家賬戶,分別使用其注冊(cè)的不同買家賬號(hào)進(jìn)行多次購(gòu)買自己出售的電子商品信息,也可以與周邊朋友間相互購(gòu)買各自提供的電子商品信息,通過(guò)這些虛假的交易處理手段就可以從表面上提高自己的信用評(píng)價(jià),以達(dá)到信用炒作的目的。由于大量信用炒作的情況存在,因此對(duì)電子商品交易的良性發(fā)展造成了十分不良的影響,所以如何從大量的電子交易處理數(shù)據(jù)信息中去主動(dòng)發(fā)現(xiàn)異常的電子商品交易處理過(guò)程,已經(jīng)成為一個(gè)現(xiàn)在越來(lái)越受到關(guān)注的課題。目前,通常采用如下方式從大量的電子交易處理數(shù)據(jù)信息中去主動(dòng)發(fā)現(xiàn)異常的電子商品交易處理過(guò)程I、在互聯(lián)網(wǎng)平臺(tái)記錄的大量電子交易處理數(shù)據(jù)信息中,收集大量經(jīng)過(guò)人工判別的電子交易處理數(shù)據(jù);2、預(yù)先人為設(shè)計(jì)各種電子商品交易處理特征;3、通過(guò)對(duì)收集到的大量經(jīng)過(guò)人工判別的電子交易處理數(shù)據(jù)進(jìn)行分析,得到預(yù)先設(shè)計(jì)的每種處理特征分別在正常交易處理過(guò)程中與異常交易處理過(guò)程中的分布情況;4、根據(jù)得到的每種處理特征分別在正常交易處理過(guò)程中與異常交易處理過(guò)程中的分布情況,找出其中分布情況區(qū)分度比較大的特征;5、根據(jù)找出的這些特征,建立相應(yīng)規(guī)則,基于建立的相應(yīng)規(guī)則去發(fā)現(xiàn)電子交易過(guò)程中的異常交易過(guò)程。
以一個(gè)例子來(lái)說(shuō)明上述的發(fā)現(xiàn)異常電子商品交易處理的過(guò)程,首先通過(guò)人工的方法隨機(jī)挑選1000個(gè)電子商品信息,然后人工審核這1000個(gè)電子商品信息,人工識(shí)別出里面有參與虛假交易(異常交易)的電子商品信息。并預(yù)先設(shè)計(jì)兩種電子商品交易處理特征,具體包括針對(duì)一個(gè)電子商品交易過(guò)程中從交易創(chuàng)建到交易完成的平均時(shí)長(zhǎng),電子商品交易的平均購(gòu)買量。計(jì)算上述人工審核過(guò)的1000個(gè)電子商品的這兩種處理特征的值,然后根據(jù)計(jì)算結(jié)果,分析這兩個(gè)處理特征的值在電子商品的異常交易過(guò)程中和正常交易過(guò)程中各自的平均值。如果根據(jù)計(jì)算得到的平均值,發(fā)現(xiàn)大部分異常交易處理過(guò)程的平均交易處理時(shí)長(zhǎng)比正常交易平均處理時(shí)長(zhǎng)要短的多,通常異交易處理的平均交易處理時(shí)長(zhǎng)在2小時(shí)以內(nèi),而正常交易處理的平均交易處理時(shí)長(zhǎng)在2天以上,則證明平均交易處理時(shí)長(zhǎng)這個(gè)處理特征值在電子商品的正常交易過(guò)程中和異常交易過(guò)程中的區(qū)分度比較大;而電子商品的平均購(gòu)買量這個(gè)處理特征值在異常交易處理過(guò)程中和正常交易處理過(guò)程的區(qū)分度不明顯。所以根據(jù)上面的發(fā)現(xiàn),這里可以制定一條規(guī)則,具體為如果針對(duì)某個(gè)電子商品的平均交易處理時(shí)長(zhǎng)低于2小時(shí),則可以判定該電子商品屬于異常交易處理的電子商品。從上述現(xiàn)有技術(shù)的介紹可以看出,現(xiàn)有的在電子商品交易過(guò)程中發(fā)現(xiàn)異常交易處理過(guò)程的方法,主要存在兩個(gè)問(wèn)題第一,需要人工判別大量電子商品交易數(shù)據(jù),因此需要消耗的人力資源比較多,從而影響了發(fā)現(xiàn)異常交易處理過(guò)程的效率;第二,在分析具體處理·特征值在正常交易處理過(guò)程中和異常交易處理過(guò)程中的區(qū)分度時(shí),通常是在單一維度下進(jìn)行分析,即一般僅選擇一個(gè)處理特征值,并根據(jù)該特征值在正常交易中和異常交易中的區(qū)分度設(shè)定相應(yīng)的規(guī)則,并基于這個(gè)規(guī)則根據(jù)交易處理數(shù)據(jù)在該維特征值是否超過(guò)閾值來(lái)判定是否有異常交易處理。但是由于在現(xiàn)實(shí)的電子商品交易過(guò)程中,海量的交易處理數(shù)據(jù)信息有著極其復(fù)雜的表現(xiàn)形式,因此僅通過(guò)單一維度處理特征發(fā)現(xiàn)異常交易處理,其準(zhǔn)確性還有待于提高,通常按照這種單一維度特征發(fā)現(xiàn)異常交易處理會(huì)漏掉很多實(shí)屬異常的交易處理過(guò)程,不利于電子商品交易技術(shù)在互聯(lián)網(wǎng)環(huán)境中的良性發(fā)展。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供一種電子商品異常交易過(guò)程的確定方法及其裝置,用以提高發(fā)現(xiàn)電子商品交易過(guò)程中的異常交易行為的效率和準(zhǔn)確性。相應(yīng)地,本申請(qǐng)實(shí)施例還提供了一種預(yù)測(cè)電子商品交易量的方法及其裝置。本申請(qǐng)實(shí)施例提出的技術(shù)方案具體如下一種預(yù)測(cè)電子商品交易量的方法,包括在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),其中每一個(gè)歷史交易數(shù)據(jù)對(duì)應(yīng)一個(gè)商品在交易過(guò)程中的歷史交易數(shù)據(jù);根據(jù)提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行下述商品交易量預(yù)測(cè)處理根據(jù)預(yù)先規(guī)定的需提取的各交易特征,針對(duì)提取的每一個(gè)歷史交易數(shù)據(jù),提取該歷史交易數(shù)據(jù)中對(duì)應(yīng)的交易特征值,構(gòu)成對(duì)應(yīng)該歷史交易數(shù)據(jù)的交易特征值集合;根據(jù)針對(duì)每個(gè)歷史交易數(shù)據(jù)分別提取構(gòu)成的交易特征值集合,按照預(yù)先設(shè)定的不同數(shù)據(jù)分類原則,將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類,其中各交易特征需同時(shí)滿足相應(yīng)條件時(shí)構(gòu)成一個(gè)數(shù)據(jù)分類原則;針對(duì)分類得到的每一類歷史交易數(shù)據(jù),根據(jù)該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息,預(yù)測(cè)對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。一種電子商品異常交易過(guò)程確定方法,包括針對(duì)每一個(gè)電子商品,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù);根據(jù)預(yù)先規(guī)定需提取的各交易特征,在提取的該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù)中提取對(duì)應(yīng)的交易特征值;根據(jù)提取的交易特征值同時(shí)滿足的相應(yīng)條件對(duì)應(yīng)的數(shù)據(jù)分類原則,將針對(duì)該數(shù)據(jù)分類原則對(duì)應(yīng)的一類歷史交易數(shù)據(jù)預(yù)測(cè)的商品交易量,作為該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量;在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量;根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易。一種預(yù)測(cè)電子商品交易量的裝置,包括訓(xùn)練數(shù)據(jù)提取單元,用于在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),其中每一個(gè)歷史交易數(shù)據(jù)對(duì)應(yīng)一個(gè)商品在交易過(guò)程中的歷史交易數(shù)據(jù);訓(xùn)練特征提取單元,用于根據(jù)訓(xùn)練數(shù)據(jù)提取單元提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行根據(jù)預(yù)先規(guī)定的需提取的各交易特征,針對(duì)提取的每一個(gè)歷史交易數(shù)據(jù),提取該歷史交易數(shù)據(jù)中對(duì)應(yīng)的交易特征值,構(gòu)成對(duì)應(yīng)該歷史交易數(shù)據(jù)的交易特征值集合;數(shù)據(jù)分類單元,用于根據(jù)訓(xùn)練特征提取單元針對(duì)每個(gè)歷史交易數(shù)據(jù)分別提取構(gòu)成的交易特征值集合,按照預(yù)先設(shè)定的不同數(shù)據(jù)分類原則,將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類,其中各交易特征需同時(shí)滿足相應(yīng)條件時(shí)構(gòu)成一個(gè)數(shù)據(jù)分類原則;第一交 易量預(yù)測(cè)單元,用于針對(duì)數(shù)據(jù)分類單元分類得到的每一類歷史交易數(shù)據(jù),根據(jù)該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息,預(yù)測(cè)對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。一種電子商品異常交易過(guò)程確定裝置,包括交易數(shù)據(jù)提取單元,用于針對(duì)每一個(gè)電子商品,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù),并提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量;交易特征提取單元,用于根據(jù)預(yù)先規(guī)定需提取的各交易特征,在交易數(shù)據(jù)提取單元提取的該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù)中提取對(duì)應(yīng)的交易特征值;商品交易量預(yù)測(cè)單元,用于根據(jù)交易特征提取單元提取的交易特征值同時(shí)滿足的相應(yīng)條件對(duì)應(yīng)的數(shù)據(jù)分類原則,將針對(duì)該數(shù)據(jù)分類原則對(duì)應(yīng)的一類歷史交易數(shù)據(jù)預(yù)測(cè)的商品交易量,作為該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量;交易狀態(tài)確定單元,用于根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易。由于伴隨著電子商務(wù)的迅速發(fā)展,異常交易即虛假交易作為伴隨其中的灰色產(chǎn)業(yè)鏈,已經(jīng)對(duì)整個(gè)電子商務(wù)的健康發(fā)展起到了很大的危害作用。有鑒于此,本申請(qǐng)實(shí)施例提出了一種在海量的歷史交易數(shù)據(jù)里主動(dòng)發(fā)現(xiàn)異常交易的方案,首先對(duì)每類商品交易數(shù)據(jù)建立交易量預(yù)測(cè)模型,基于建立的交易量預(yù)測(cè)模型,可以預(yù)測(cè)每個(gè)商品在過(guò)去一段時(shí)間內(nèi)的期望交易量,然后將每個(gè)商品的預(yù)測(cè)交易量與實(shí)際交易量做比較,找出其中實(shí)際交易量明顯高于預(yù)測(cè)交易量的商品,作為存在異常交易的商品。由于在建立交易量預(yù)測(cè)模型時(shí)是根據(jù)海量歷史交易數(shù)據(jù)中的多個(gè)交易特征來(lái)建立交易預(yù)測(cè)模型的,因此相對(duì)現(xiàn)有技術(shù)中僅采用單一維度進(jìn)行分析和定位異常交易的過(guò)程,可以更為準(zhǔn)確定的定位異常交易;此外由于本申請(qǐng)方案是自動(dòng)建立交易量預(yù)測(cè)模型,并基于這些模型自動(dòng)發(fā)現(xiàn)異常商品交易過(guò)程的,因此相對(duì)于現(xiàn)有技術(shù)中要依賴于較多人為分析的過(guò)程,可以較好地提高定位異常交易過(guò)程的效率。
為了更加詳盡的論述本申請(qǐng)實(shí)施例的具體實(shí)現(xiàn),下面將結(jié)合各個(gè)附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳盡闡述,在各附圖中圖I為本申請(qǐng)實(shí)施例提出的預(yù)測(cè)電子商品交易量的方法的實(shí)現(xiàn)原理流程圖;圖2為本申請(qǐng)實(shí)施例基于CART原理對(duì)多個(gè)商品的歷史交易數(shù)據(jù)進(jìn)行劃分處理的一個(gè)示例示意圖;圖3為本申請(qǐng)實(shí)施例提出的電子商品異常交易過(guò)程的確定方法的實(shí)施處理過(guò)程示意圖;圖4為本申請(qǐng)實(shí)施例提供的預(yù)測(cè)電子商品交易量的裝置的具體組成結(jié)構(gòu)示意圖;
圖5為本申請(qǐng)實(shí)施例提供的電子商品異常交易過(guò)程的確定裝置的具體組成結(jié)構(gòu)示意圖。
具體實(shí)施例方式首先介紹本申請(qǐng)技術(shù)方案的基本實(shí)現(xiàn)原理,具體如下I、在商品交易數(shù)據(jù)庫(kù)中收集大量商品的歷史交易數(shù)據(jù),并提取每個(gè)商品的歷史交易數(shù)據(jù)中的各類交易特征;2、可以但不限于通過(guò)分類回歸樹(shù)(CART)方法與bagging方法,根據(jù)提取的每個(gè)商品的歷史交易數(shù)據(jù)中的各類交易特征,分別為每類商品歷史交易數(shù)據(jù)建立一個(gè)對(duì)應(yīng)的交易量預(yù)測(cè)模型;3、利用建立好的各種模型,預(yù)測(cè)每個(gè)商品在過(guò)去一段時(shí)間內(nèi)的預(yù)測(cè)交易量;4、比較每個(gè)商品的預(yù)測(cè)交易量與實(shí)際交易量,找出其中實(shí)際交易量遠(yuǎn)高于預(yù)測(cè)交易量的商品。由此可見(jiàn),本申請(qǐng)實(shí)施例首先自動(dòng)通過(guò)對(duì)現(xiàn)有已經(jīng)記錄的歷史交易數(shù)據(jù)進(jìn)行收集以及提取相應(yīng)的交易特征,并基于提取的交易特征建立交易量預(yù)測(cè)模型,不需要人工判定的過(guò)程,所以極大的節(jié)省了人力,并提高了發(fā)現(xiàn)異常交易過(guò)程的效率。其次,在交易量預(yù)測(cè)模型的建立過(guò)程中,是通過(guò)自動(dòng)對(duì)提取的所有交易特征進(jìn)行綜合分析,來(lái)得到每類商品交易數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)模型的,所以在最后的異常數(shù)據(jù)分析中,只需要比較商品的預(yù)測(cè)交易量與實(shí)際交易量的差異即可定位異常交易處理,因此在提高定位效率的同時(shí),也可以提高定位異常交易過(guò)程的準(zhǔn)確性。此外,本申請(qǐng)技術(shù)方案還可以在針對(duì)一定數(shù)量的商品分別判斷其是否屬于異常交易的商品后,統(tǒng)計(jì)分析異常交易的商品數(shù)量占該一定數(shù)量的商品總數(shù)的比值,并通過(guò)對(duì)該比值的分析,判斷當(dāng)前已經(jīng)建立的各個(gè)商品交易量預(yù)測(cè)模型是否已經(jīng)失效,如果失效,則需要根據(jù)當(dāng)前記錄的歷史交易數(shù)據(jù)重新訓(xùn)練數(shù)據(jù),并基于重新訓(xùn)練的數(shù)據(jù)重新建立新的交易量預(yù)測(cè)模型;如何沒(méi)有失效,則直接輸出被確定的屬于異常交易的商品的信息。如圖I所示,為本申請(qǐng)實(shí)施例提出的預(yù)測(cè)電子商品交易量的方法的實(shí)現(xiàn)原理流程圖,在介紹本申請(qǐng)實(shí)施例提出的預(yù)測(cè)電子商品交易量的實(shí)現(xiàn)過(guò)程之前,這里先介紹商品交易數(shù)據(jù)庫(kù)的實(shí)現(xiàn)原理和功能,對(duì)于每個(gè)電子商品的交易過(guò)程,它的每筆交易從買家已經(jīng)買下開(kāi)始,到買家已付款,賣家發(fā)出商品,直至交易完成等各階段中,其成交量,成交金額等各種交易特征信息都會(huì)記錄到相應(yīng)的商品交易數(shù)據(jù)庫(kù)中,相關(guān)商品交易數(shù)據(jù)庫(kù)會(huì)周期性的(比如每天)把記錄的歷史交易數(shù)據(jù)導(dǎo)入到計(jì)算平臺(tái)(比如Hadoop)中。基于上述已經(jīng)介紹的商品交易數(shù)據(jù)庫(kù)的實(shí)現(xiàn)原理和功能,下面接著介紹本申請(qǐng)實(shí)施例提出的預(yù)測(cè)電子商品交易量的實(shí)現(xiàn)過(guò)程,其具體實(shí)現(xiàn)過(guò)程如下步驟10,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),其中,每一個(gè)歷史交易數(shù)據(jù)對(duì)應(yīng)一個(gè)商品在交易過(guò)程中的歷史交易數(shù)據(jù)。這個(gè)過(guò)程就是一個(gè)在商品交易數(shù)據(jù)庫(kù)中選擇商品交易訓(xùn)練數(shù)據(jù)的過(guò)程,即訓(xùn)練數(shù)據(jù)就是一組商品的歷史交易數(shù)據(jù),由于在現(xiàn)實(shí)情況中,絕大部分商品的銷量可能為零或很少,所以如果隨機(jī)在商品交易數(shù)據(jù)庫(kù)中抽取訓(xùn)練數(shù)據(jù),會(huì)導(dǎo)致高交易量的商品交易數(shù)據(jù)無(wú)法得到較好的預(yù)測(cè)效果。因此較佳地,本申請(qǐng)實(shí)施例中采用如下優(yōu)選方式在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取歷史交易數(shù)據(jù)根據(jù)商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中分別包含的商品銷量信息的高低,將商品交易數(shù)據(jù)庫(kù)中記錄的歷史交易數(shù)據(jù)劃分為不同組;分別在劃分得到的每組歷史交易數(shù)據(jù)中提取相應(yīng)數(shù)目的歷史交易數(shù)據(jù),由從不同組歷史交易數(shù)據(jù)中分別提取的相應(yīng)數(shù)目的歷史交易數(shù)據(jù)構(gòu)成需要提取的歷史交易數(shù)據(jù)?!み@里即根據(jù)商品的交易量信息對(duì)所有商品的歷史交易數(shù)據(jù)進(jìn)行劃分處理,合理分配低交易量商品的歷史交易數(shù)據(jù)和高交易量商品的歷史交易數(shù)據(jù),使之達(dá)到一個(gè)適當(dāng)?shù)谋壤?,然后從劃分得到的不同的歷史交易數(shù)據(jù)中分別抽取交易數(shù)據(jù),從而使得處于每個(gè)交易量檔次的商品交易數(shù)據(jù)都能得到較好的預(yù)測(cè)效果。例如根據(jù)不同商品的交易量,可以將所有商品的歷史交易數(shù)據(jù)劃分為三檔商品交易量等于I的歷史交易數(shù)據(jù),商品交易量等于2的歷史交易數(shù)據(jù),商品交易量大于2的歷史交易數(shù)據(jù),在每一檔商品的歷史交易數(shù)據(jù)中隨機(jī)選取1000件商品的歷史交易數(shù)據(jù),則這3000件商品的歷史交易數(shù)據(jù)就組成了這里需要得到的訓(xùn)練數(shù)據(jù)。步驟11,根據(jù)預(yù)先規(guī)定的需提取的各交易特征,針對(duì)上述提取的每一個(gè)歷史交易數(shù)據(jù),提取該歷史交易數(shù)據(jù)中對(duì)應(yīng)的交易特征值,構(gòu)成對(duì)應(yīng)該歷史交易數(shù)據(jù)的交易特征值集合。即在上述抽取出訓(xùn)練數(shù)據(jù)后,需要分別將每一個(gè)商品對(duì)應(yīng)的歷史交易數(shù)據(jù)轉(zhuǎn)化為交易特征值集合的形成,集合中的每一個(gè)元素值,對(duì)應(yīng)某一維交易特征的值。交易特征可以但不限于可以分為標(biāo)稱、序數(shù)、區(qū)間、比率這四種類型。其中,標(biāo)稱用于提供信息來(lái)區(qū)分商品對(duì)象,比如郵政編碼,性別等等;序數(shù)用于提供商品對(duì)象的銷售順序信息,比如很差、較差、一般、較好、很好等;區(qū)間用于提供數(shù)據(jù)與數(shù)據(jù)之間差的操作,例如溫度、日期等;比率用于提供數(shù)據(jù)與數(shù)據(jù)之間的差和比的操作,例如重量、長(zhǎng)度等。以上提到的四類交易特征類型都可以分別作為交易數(shù)據(jù)的某一維交易特征。例如,某個(gè)商品的賣家所在地是上海,這個(gè)賣家的服務(wù)質(zhì)量是好賣家,這個(gè)商品的上架日期是2010年9月29日,這個(gè)商品的價(jià)格是100元,這個(gè)商品的點(diǎn)擊量是80,這個(gè)商品的已有交易量是10。那么這里可以在該商品的歷史交易數(shù)據(jù)中提取如下六個(gè)規(guī)定的交易特征值{賣家所在地,賣家的服務(wù)質(zhì)量,商品上架時(shí)間與2010年9月30日相差的天數(shù),商品的價(jià)格,商品的點(diǎn)擊量,商品的交易量},則在這個(gè)商品的歷史交易數(shù)據(jù)中就可以抽取一個(gè)對(duì)應(yīng)的交易特征值集合{上海,好,1,100,80,10},如此類推,針對(duì)抽取的其他每個(gè)商品的歷史交易數(shù)據(jù)都可以按照這種方法來(lái)提取對(duì)應(yīng)的交易特征值集合。步驟12,根據(jù)上述針對(duì)每個(gè)歷史交易數(shù)據(jù)分別提取構(gòu)成的交易特征值集合,按照預(yù)先設(shè)定的不同數(shù)據(jù)分類原則,將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類,其中,各交易特征需同時(shí)滿足相應(yīng)條件時(shí)構(gòu)成一個(gè)數(shù)據(jù)分類原則。這里在介紹將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類處理的詳細(xì)實(shí)現(xiàn)過(guò)程之前,先簡(jiǎn)單介紹分類回歸樹(shù)(CART)方法的基本原理,分類回歸樹(shù)(CART)是一種決策樹(shù)算法,可以用來(lái)做數(shù)據(jù)的分類和回歸處理。它的特點(diǎn)是在計(jì)算過(guò)程中利用二叉樹(shù)的特點(diǎn),在一定的分割準(zhǔn)則下將根節(jié)點(diǎn)分為兩個(gè)子節(jié)點(diǎn),然后在每個(gè)子節(jié)點(diǎn)上繼續(xù)上面的分割過(guò)程,直到分割后最后一層子節(jié)點(diǎn)滿足相應(yīng)的停止準(zhǔn)則為止。這里簡(jiǎn)要介紹一下CART方法的大致實(shí)現(xiàn)步驟(I)首先設(shè)定初始值;(2)按照下面的方式反復(fù)分裂節(jié)點(diǎn),直到最后一層子節(jié)點(diǎn)滿足停止條件為止
(2. I)建立損失函數(shù),計(jì)算每個(gè)節(jié)點(diǎn)的各種劃分,并計(jì)算該劃分的損失函數(shù)的值。(2. 2)找出損失函數(shù)最大的的劃分,并按照該劃分方法分裂節(jié)點(diǎn),將樣本劃入子節(jié)點(diǎn)中。(2. 3)更新劃分后每個(gè)子節(jié)點(diǎn)的估計(jì)值。為了避免樹(shù)在劃分過(guò)程中生長(zhǎng)的過(guò)于龐大,這樣會(huì)導(dǎo)致樹(shù)的過(guò)擬合,影響最終效果,所以需要對(duì)所生成的決策樹(shù)做一些剪枝工作。CART算法在損失函數(shù)中加入了與節(jié)點(diǎn)數(shù)有關(guān)的懲罰因子,這樣就可以生成一組節(jié)點(diǎn)數(shù)依次降低的樹(shù)序列。有了所生成的樹(shù)序列,就可以通過(guò)交叉驗(yàn)證的方法,即提取部分訓(xùn)練數(shù)據(jù)來(lái)評(píng)估樹(shù)序列中,哪一棵樹(shù)可以達(dá)到最優(yōu)效果。這樣就可以找出最優(yōu)的決策樹(shù)?;谏鲜鼋榻B的CART實(shí)現(xiàn)原理,接著介紹將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類處理的詳細(xì)實(shí)現(xiàn)過(guò)程,具體過(guò)程如下開(kāi)始,將所有提取的歷史交易數(shù)據(jù)都?xì)w屬于樹(shù)的根節(jié)點(diǎn)t,然后尋找第一個(gè)拆分規(guī)貝U,也就是建立根節(jié)點(diǎn)的第一個(gè)分支條件,方法是對(duì)每個(gè)歷史交易數(shù)據(jù)分別抽取的交易特征值集合中的每一維特征的每一種可能取值逐一掃描,如果該特征是連續(xù)變量,則選擇一個(gè)變量a,這樣提取的所有歷史交易數(shù)據(jù)就將被分為兩類,具體為R1和R2,其中R1表示所有該維特征值小于等于a的數(shù)據(jù),R2表示所有該維特征值大于a的數(shù)據(jù)。如果該特征是離散變量,則選擇一個(gè)該離散變量的一個(gè)子集I (例如服務(wù)質(zhì)量這個(gè)特征,一共有好,中,差三個(gè)值,則可以選擇其中一個(gè)作為子集),這樣提取的所有歷史交易數(shù)據(jù)也將被分為兩類,具體為R1和R2,其中R1表示所有該維特征值屬于子集I的數(shù)據(jù),R2表示所有該維特征值不屬于子集I的數(shù)據(jù)。這里可以定義如下函數(shù)
權(quán)利要求
1.一種預(yù)測(cè)電子商品交易量的方法,其特征在于,包括 在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),其中每一個(gè)歷史交易數(shù)據(jù)對(duì)應(yīng)一個(gè)商品在交易過(guò)程中的歷史交易數(shù)據(jù); 根據(jù)提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行下述商品交易量預(yù)測(cè)處理 根據(jù)預(yù)先規(guī)定的需提取的各交易特征,針對(duì)提取的每一個(gè)歷史交易數(shù)據(jù),提取該歷史交易數(shù)據(jù)中對(duì)應(yīng)的交易特征值,構(gòu)成對(duì)應(yīng)該歷史交易數(shù)據(jù)的交易特征值集合; 根據(jù)針對(duì)每個(gè)歷史交易數(shù)據(jù)分別提取構(gòu)成的交易特征值集合,按照預(yù)先設(shè)定的不同數(shù)據(jù)分類原則,將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類,其中各交易特征需同時(shí)滿足相應(yīng)條件時(shí)構(gòu)成一個(gè)數(shù)據(jù)分類原則; 針對(duì)分類得到的每一類歷史交易數(shù)據(jù),根據(jù)該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息,預(yù)測(cè)對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),具體包括 根據(jù)商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中分別包含的商品銷量信息的高低,將商品交易數(shù)據(jù)庫(kù)中記錄的歷史交易數(shù)據(jù)劃分為不同組; 分別在劃分得到的每組歷史交易數(shù)據(jù)中提取相應(yīng)數(shù)目的歷史交易數(shù)據(jù),由從不同組歷史交易數(shù)據(jù)中分別提取的相應(yīng)數(shù)目的歷史交易數(shù)據(jù)構(gòu)成需要提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù)。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息,預(yù)測(cè)對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量,具體包括 確定該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息的平均值,作為預(yù)測(cè)得到的對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行商品交易量預(yù)測(cè)處理,具體包括 在提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù)中,隨機(jī)抽取至少兩個(gè)歷史交易數(shù)據(jù)子集;以及 針對(duì)隨機(jī)抽取的每個(gè)歷史交易數(shù)據(jù)子集,分別執(zhí)行一次商品交易量預(yù)測(cè)處理; 所述方法還包括 將針對(duì)隨機(jī)抽取的每個(gè)歷史交易數(shù)據(jù)子集分別預(yù)測(cè)得到的對(duì)應(yīng)同一類歷史交易數(shù)據(jù)的商品交易量的平均值,作為最終預(yù)測(cè)得到的對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。
5.一種基于I 4任一權(quán)利要求所述的預(yù)測(cè)電子商品交易量的方法的電子商品異常交易過(guò)程確定方法,其特征在于,包括 針對(duì)每一個(gè)電子商品,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù); 根據(jù)預(yù)先規(guī)定需提取的各交易特征,在提取的該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù)中提取對(duì)應(yīng)的交易特征值; 根據(jù)提取的交易特征值同時(shí)滿足的相應(yīng)條件對(duì)應(yīng)的數(shù)據(jù)分類原則,將針對(duì)該數(shù)據(jù)分類原則對(duì)應(yīng)的一類歷史交易數(shù)據(jù)預(yù)測(cè)的商品交易量,作為該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量;在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量; 根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易,具體包括 在確定出該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量大于第一規(guī)定閾值時(shí),且該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量與預(yù)測(cè)交易量的比值大于第二規(guī)定閾值時(shí),確定該商品為在過(guò)去規(guī)定時(shí)長(zhǎng)的異常交易商品。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括 根據(jù)分別針對(duì)規(guī)定數(shù)量的電子商品中,確定的每一個(gè)電子商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易的情況,判斷存在異常交易的電子商品的數(shù)量與規(guī)定數(shù)量的比值是否在規(guī)定的閾值區(qū)間范圍內(nèi); 如果是,則分別輸出每個(gè)被確定為在過(guò)去規(guī)定時(shí)長(zhǎng)的異常交易商品的商品信息; 如果否,則重新執(zhí)行在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),并根據(jù)提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行商品交易量預(yù)測(cè)處理的過(guò)程。
8.一種預(yù)測(cè)電子商品交易量的裝置,其特征在于,包括 訓(xùn)練數(shù)據(jù)提取單元,用于在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取規(guī)定數(shù)目的歷史交易數(shù)據(jù),其中每一個(gè)歷史交易數(shù)據(jù)對(duì)應(yīng)一個(gè)商品在交易過(guò)程中的歷史交易數(shù)據(jù); 訓(xùn)練特征提取單元,用于根據(jù)訓(xùn)練數(shù)據(jù)提取單元提取的規(guī)定數(shù)目的歷史交易數(shù)據(jù),執(zhí)行根據(jù)預(yù)先規(guī)定的需提取的各交易特征,針對(duì)提取的每一個(gè)歷史交易數(shù)據(jù),提取該歷史交易數(shù)據(jù)中對(duì)應(yīng)的交易特征值,構(gòu)成對(duì)應(yīng)該歷史交易數(shù)據(jù)的交易特征值集合; 數(shù)據(jù)分類單元,用于根據(jù)訓(xùn)練特征提取單元針對(duì)每個(gè)歷史交易數(shù)據(jù)分別提取構(gòu)成的交易特征值集合,按照預(yù)先設(shè)定的不同數(shù)據(jù)分類原則,將提取的各個(gè)歷史交易數(shù)據(jù)進(jìn)行分類,其中各交易特征需同時(shí)滿足相應(yīng)條件時(shí)構(gòu)成一個(gè)數(shù)據(jù)分類原則; 第一交易量預(yù)測(cè)單元,用于針對(duì)數(shù)據(jù)分類單元分類得到的每一類歷史交易數(shù)據(jù),根據(jù)該類歷史交易數(shù)據(jù)中的每一個(gè)歷史交易數(shù)據(jù)中分別包含的商品交易量信息,預(yù)測(cè)對(duì)應(yīng)該類歷史交易數(shù)據(jù)的商品交易量。
9.一種基于權(quán)利要求8所述的預(yù)測(cè)電子商品交易量的裝置的電子商品異常交易過(guò)程確定裝置,其特征在于,包括 交易數(shù)據(jù)提取單元,用于針對(duì)每一個(gè)電子商品,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù),并提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量; 交易特征提取單元,用于根據(jù)預(yù)先規(guī)定需提取的各交易特征,在交易數(shù)據(jù)提取單元提取的該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù)中提取對(duì)應(yīng)的交易特征值; 商品交易量預(yù)測(cè)單元,用于根據(jù)交易特征提取單元提取的交易特征值同時(shí)滿足的相應(yīng)條件對(duì)應(yīng)的數(shù)據(jù)分類原則,將針對(duì)該數(shù)據(jù)分類原則對(duì)應(yīng)的一類歷史交易數(shù)據(jù)預(yù)測(cè)的商品交易量,作為該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量; 交易狀態(tài)確定單元,用于根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述交易狀態(tài)確定單元,具體用于在確定出該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量大于第一規(guī)定閾值時(shí),且該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量與預(yù)測(cè)交易量的比值大于第二規(guī)定閾值時(shí),確定該商品為在過(guò)去規(guī)定時(shí)長(zhǎng)的異常交易商品。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括 異常交易數(shù)量比例確定單元,用于根據(jù)交易狀態(tài)確定單元分別針對(duì)規(guī)定數(shù)量的電子商品中,確定的每一個(gè)電子商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易的情況,判斷存在異常交易的電子商品的數(shù)量與規(guī)定數(shù)量的比值是否在規(guī)定的閾值區(qū)間范圍內(nèi); 異常交易信息輸出單元,用于在異常交易數(shù)量比例確定單元的判斷結(jié)果為是時(shí),分別輸出每個(gè)被確定為在過(guò)去規(guī)定時(shí)長(zhǎng)的異常交易商品的商品信息; 交易量重新預(yù)測(cè)觸發(fā)單元,用于在異常交易數(shù)量比例確定單元的判斷結(jié)果為否時(shí),重新觸發(fā)所述預(yù)測(cè)電子商品交易量的裝置重新執(zhí)行商品交易量預(yù)測(cè)處理的過(guò)程。
全文摘要
本申請(qǐng)公開(kāi)了一種電子商品異常交易過(guò)程確定方法,包括針對(duì)每一個(gè)電子商品,在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù);根據(jù)預(yù)先規(guī)定需提取的各交易特征,在提取的該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的歷史交易數(shù)據(jù)中提取對(duì)應(yīng)的交易特征值;根據(jù)提取的交易特征值同時(shí)滿足的相應(yīng)條件對(duì)應(yīng)的數(shù)據(jù)分類原則,將針對(duì)該數(shù)據(jù)分類原則對(duì)應(yīng)的一類歷史交易數(shù)據(jù)預(yù)測(cè)的商品交易量,作為該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量;在商品交易數(shù)據(jù)庫(kù)記錄的歷史交易數(shù)據(jù)中提取該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的實(shí)際交易量;根據(jù)該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)的預(yù)測(cè)交易量和實(shí)際交易量,確定該商品在過(guò)去規(guī)定時(shí)長(zhǎng)內(nèi)是否存在異常交易。
文檔編號(hào)G06Q30/00GK102890803SQ20111020521
公開(kāi)日2013年1月23日 申請(qǐng)日期2011年7月21日 優(yōu)先權(quán)日2011年7月21日
發(fā)明者潘健民 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司