專利名稱::移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別是涉及移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法。
背景技術(shù):
:在運營企業(yè)細(xì)分市場、力求提供差別服務(wù)的時代,國內(nèi)電信運營商面對的是日益增加的市場競爭壓力,能否擁有一套迅速靈敏、功能強(qiáng)大的分析系統(tǒng),有針對性地制定政策,適時拿出各種企業(yè)策略,顯得越來越重要。近幾年,國內(nèi)電信運營商相繼在CRM和計費系統(tǒng)引入了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘系統(tǒng),并取得了成功。數(shù)據(jù)挖掘(DataMining)就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts)、規(guī)貝l」(Rules)、規(guī)律(Regularities)、模式(Pattems)等形式。數(shù)據(jù)挖掘利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型與數(shù)據(jù)間的關(guān)系,這些模型和關(guān)系可以用來做預(yù)測。數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前瞻的,基于知識的決策。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)是數(shù)據(jù)挖掘中最成功和最重要的一項任務(wù),它的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)集中所有的頻繁模式。關(guān)聯(lián)規(guī)則的挖掘是一個兩步的過程(1)根據(jù)最小支持度找出事務(wù)數(shù)據(jù)庫D中所有的頻繁項目集。(2)由頻繁項目集和最小置信度產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,也可以使用附加的興趣度來對規(guī)則進(jìn)行度量。關(guān)聯(lián)規(guī)則挖掘的基本模型如圖l所示。圖1中,D為輸入的事務(wù)數(shù)據(jù)庫,第一步根據(jù)搜索算法找出頻繁項目集,第二步從頻繁項目集中產(chǎn)生有用的關(guān)聯(lián)規(guī)則,最后輸出挖掘出的關(guān)聯(lián)規(guī)則集合。用戶可以通過指定最小支持度(minsup)和最低置信度(minconf)分別與兩個子步驟進(jìn)行交互,并通過與輸出集合的交互對結(jié)果進(jìn)行解釋和評估。在國外,關(guān)聯(lián)規(guī)則挖掘已經(jīng)投入應(yīng)用領(lǐng)域,而國內(nèi)主要集中于算法本身的研究和度量規(guī)則的優(yōu)化,迄今為止,尚未提出一種針對移動通信業(yè)務(wù)的、關(guān)聯(lián)規(guī)則挖掘的系統(tǒng)化的流程、實時自動化的方法。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法。本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,包括以下步驟(1).根據(jù)移動通信業(yè)務(wù)需求,從移動通信業(yè)務(wù)數(shù)據(jù)倉庫構(gòu)建面向業(yè)務(wù)主題的業(yè)務(wù)數(shù)據(jù)集市;(2).基于業(yè)務(wù)數(shù)據(jù)集市,調(diào)用數(shù)據(jù)挖掘工具,選定關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集,構(gòu)建多個關(guān)聯(lián)規(guī)則模型;(3).對上述的多個關(guān)聯(lián)規(guī)則模型進(jìn)行評估和檢驗,選擇最優(yōu)的關(guān)聯(lián)規(guī)則模型,并將該模型寫入模型庫;(4).發(fā)布、應(yīng)用模型庫中的模型。所述的步驟(l)進(jìn)一步包括(11).根據(jù)移動通信業(yè)務(wù)需求,確定數(shù)據(jù)挖掘的業(yè)務(wù)主題;(12).選擇業(yè)務(wù)主題對應(yīng)的業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;(13).關(guān)聯(lián)業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;(14).將關(guān)聯(lián)后的數(shù)據(jù)進(jìn)行預(yù)處理,得到業(yè)務(wù)數(shù)據(jù)集市。所述的步驟(3)進(jìn)一步包括(31).根據(jù)各關(guān)聯(lián)規(guī)則模型的評估檢驗參數(shù),選出最優(yōu)關(guān)聯(lián)規(guī)則模型;(32).調(diào)用腳本,將最優(yōu)關(guān)聯(lián)規(guī)則模型實時寫入模型庫。所述的移動通信業(yè)務(wù)包括移動手機(jī)電視業(yè)務(wù)、移動彩鈴業(yè)務(wù)、移動振鈴業(yè)務(wù)、移動全曲業(yè)務(wù)。所述的預(yù)處理包括對相關(guān)數(shù)據(jù)維表中的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、濾重;將清洗、濾重后的業(yè)務(wù)數(shù)據(jù)的格式轉(zhuǎn)換為關(guān)聯(lián)規(guī)則模型所適用的數(shù)據(jù)格式。所述的數(shù)據(jù)集市包括預(yù)處理過的日業(yè)務(wù)數(shù)據(jù)、月業(yè)務(wù)數(shù)據(jù)和周業(yè)務(wù)數(shù)據(jù)。與現(xiàn)有技術(shù)相比,本發(fā)明能很好的針對移動通信業(yè)務(wù),進(jìn)行關(guān)聯(lián)規(guī)則模型的挖掘。圖1為本發(fā)明的關(guān)聯(lián)規(guī)則挖掘的基本原理;圖2為本發(fā)明的流程圖。具體實施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步說明。如圖2所示,移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,包括以下步驟(1).根據(jù)移動通信業(yè)務(wù)需求,從移動通信業(yè)務(wù)數(shù)據(jù)倉庫構(gòu)建面向業(yè)務(wù)主題的業(yè)務(wù)數(shù)據(jù)集市;(2).基于業(yè)務(wù)數(shù)據(jù)集市,調(diào)用數(shù)據(jù)挖掘工具,選定關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集,構(gòu)建多個關(guān)聯(lián)規(guī)則模型;(3).對上述的多個關(guān)聯(lián)規(guī)則模型進(jìn)行評估和檢驗,選擇最優(yōu)的關(guān)聯(lián)規(guī)則模型,并將該模型寫入模型庫;(4).發(fā)布、應(yīng)用模型庫中的模型。所述的步驟(l)進(jìn)一步包括根據(jù)移動通信業(yè)務(wù)需求,確定數(shù)據(jù)挖掘的業(yè)務(wù)主題;選擇業(yè)務(wù)主題對應(yīng)的業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;關(guān)聯(lián)業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;將關(guān)聯(lián)后的數(shù)據(jù)進(jìn)行預(yù)處理,得到業(yè)務(wù)數(shù)據(jù)集市。所述的步驟(3)進(jìn)一步包括根據(jù)各關(guān)聯(lián)規(guī)則模型的評估檢驗參數(shù),選出最優(yōu)關(guān)聯(lián)規(guī)則模型;調(diào)用腳本,將最優(yōu)關(guān)聯(lián)規(guī)則模型實時寫入模型庫;所述的移動通信業(yè)務(wù)包括移動手機(jī)電視業(yè)務(wù)、移動彩鈴業(yè)務(wù)、移動振鈴業(yè)務(wù)、移動全曲業(yè)務(wù);所述的預(yù)處理包括對相關(guān)數(shù)據(jù)維表中的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、濾重;將清洗、濾重后的業(yè)務(wù)數(shù)據(jù)的格式轉(zhuǎn)換為關(guān)聯(lián)規(guī)則模型所適用的數(shù)據(jù)格式;所述的數(shù)據(jù)集市包括預(yù)處理過的日業(yè)務(wù)數(shù)據(jù)、月業(yè)務(wù)數(shù)據(jù)和周業(yè)務(wù)數(shù)據(jù)。本發(fā)明選擇世界上最通用的方法論CRISP^DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流)作為指導(dǎo),提出移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,通過該流程方法,連接數(shù)據(jù)倉庫,調(diào)度無縫集成的數(shù)據(jù)挖掘工具,對移動通信業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,找出數(shù)據(jù)集中項之間的有意義的關(guān)聯(lián)規(guī)則,進(jìn)行模型的評估、發(fā)布和應(yīng)用,從而為下一步的營銷活動提供決策支持。整個過程可定時調(diào)度執(zhí)行,完全自動化完成模型的更新與發(fā)布。移動通信業(yè)務(wù),具體到關(guān)聯(lián)規(guī)則挖掘,具體包括移動手機(jī)電視業(yè)務(wù)、移動彩鈴業(yè)務(wù)、移動振鈴業(yè)務(wù)、移動全曲業(yè)務(wù);手機(jī)電視業(yè)務(wù),根據(jù)用戶訪問方式,分為直播、非直播、點播、下載,其中非直播數(shù)據(jù)是點播和下載的并集。構(gòu)建面向業(yè)務(wù)主題的數(shù)據(jù)集市,是根據(jù)移動通信業(yè)務(wù)的需求,連接數(shù)據(jù)倉庫,得到業(yè)務(wù)明細(xì)表及相關(guān)維表,進(jìn)行數(shù)據(jù)的預(yù)處理,得到關(guān)聯(lián)規(guī)則所需數(shù)據(jù)集;數(shù)據(jù)預(yù)處理,是指對數(shù)據(jù)業(yè)務(wù)表與維表的關(guān)聯(lián)、清洗、濾重、格式轉(zhuǎn)換;關(guān)聯(lián)規(guī)則模型使用的數(shù)據(jù)可以是交易格式或表格格式,此處,選用交易格式;模型寫入模型庫,是指調(diào)用寫入程序,將關(guān)聯(lián)規(guī)則模型實時寫入模型庫中,模型各規(guī)則的組成包括規(guī)則的前因、規(guī)則的后果、規(guī)則的匹配度、規(guī)則的置信度、規(guī)則的最大關(guān)聯(lián)數(shù);模型的應(yīng)用,是指將模型應(yīng)用到目標(biāo)數(shù)據(jù)集上,得到應(yīng)用結(jié)果。所述模型和模型應(yīng)用結(jié)果的發(fā)布,是指模型本身的發(fā)布、模型在某個數(shù)據(jù)集上應(yīng)用結(jié)果的發(fā)布,用戶可將模型以及模型應(yīng)用結(jié)果下載。本發(fā)明的方法的詳細(xì)過程(一)構(gòu)建面向業(yè)務(wù)主題的數(shù)據(jù)集市確定數(shù)據(jù)挖掘的業(yè)務(wù)主題理解業(yè)務(wù)需求,確定數(shù)據(jù)挖掘的主題;選擇數(shù)據(jù)選擇業(yè)務(wù)主題的業(yè)務(wù)明細(xì)表及相關(guān)數(shù)據(jù)維表;關(guān)聯(lián)事實表和維表將業(yè)務(wù)主題的業(yè)務(wù)明細(xì)表(事實表)與相關(guān)維表關(guān)聯(lián)起來。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗、濾重,消除噪聲、推導(dǎo)計算缺值數(shù)據(jù),移動業(yè)務(wù)的相關(guān)數(shù)據(jù)數(shù)據(jù)量極大,更新頻率高,每個時間尺度上的數(shù)據(jù)反映了不同的現(xiàn)實、提供了不同信息,在此,具體到每個業(yè)務(wù)主題,準(zhǔn)備三個時間尺度的數(shù)據(jù)月、周、日;提取三個時間尺度的數(shù)據(jù)時,需對數(shù)據(jù)進(jìn)行濾重,消除重復(fù)記錄,例如,某用戶訪問同一個電視節(jié)目多次,對應(yīng)在數(shù)據(jù)庫里有多條記錄,濾重后,合并為一條記錄;轉(zhuǎn)換數(shù)據(jù)格式,將數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)規(guī)則模型使用的數(shù)據(jù)格式,關(guān)聯(lián)規(guī)則模型使用的數(shù)據(jù)可以是交易格式或表格格式,此處,選用交易格式。(二)構(gòu)建關(guān)聯(lián)規(guī)則模型應(yīng)用無縫集成的數(shù)據(jù)挖掘工具,基于選定的關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集,實現(xiàn)業(yè)務(wù)及數(shù)據(jù)驅(qū)動的參數(shù)優(yōu)選,構(gòu)建關(guān)聯(lián)規(guī)則模型。找出頻繁項目集根據(jù)最小支持度找出事務(wù)數(shù)據(jù)集中所有的頻繁項目集;產(chǎn)生規(guī)則由頻繁項目集和最小置信度產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。三)模型評估及優(yōu)選模型評估根據(jù)置信度差、置信度率等參數(shù),選出最優(yōu)模型;模型入庫調(diào)用腳本(寫入程序),將生成的關(guān)聯(lián)規(guī)則模型實時寫入模型庫中,模型的具體內(nèi)容包括規(guī)則的前因、規(guī)則的后果、規(guī)則的匹配度、規(guī)則的置信度、規(guī)則的最大關(guān)聯(lián)數(shù)。(四)模型的發(fā)布及應(yīng)用模型發(fā)布在系統(tǒng)的前臺發(fā)布關(guān)聯(lián)規(guī)則模型,用戶可以看到模型所有規(guī)則的詳細(xì)信息,包括前因、后果、匹配度、置信度、最大關(guān)聯(lián)數(shù);模型應(yīng)用選擇某一規(guī)則,選擇目標(biāo)數(shù)據(jù)集,對數(shù)據(jù)集應(yīng)用規(guī)則,找到數(shù)據(jù)集中存在前因但不存在后果的所有記錄;模型應(yīng)用結(jié)果發(fā)布在系統(tǒng)前臺實時發(fā)布關(guān)聯(lián)規(guī)則的應(yīng)用結(jié)果,用戶可以査看及下載應(yīng)用結(jié)果。實施例此處以某移動公司手機(jī)電視節(jié)目關(guān)聯(lián)分析、具體選擇直播業(yè)務(wù)為例,完成整個關(guān)聯(lián)規(guī)則挖掘過程。(1)業(yè)務(wù)理解及數(shù)據(jù)選擇此處對某移動公司手機(jī)電視直播業(yè)務(wù)進(jìn)行節(jié)目的關(guān)聯(lián)分析,選擇業(yè)務(wù)主題的業(yè)務(wù)明細(xì)表及相關(guān)數(shù)據(jù)維表。(2)數(shù)據(jù)處理將業(yè)務(wù)主題的明細(xì)表與相關(guān)維表連接起來,通過數(shù)據(jù)的清洗、濾重、格式轉(zhuǎn)換,得到月、周、日三個時間尺度的交易格式的數(shù)據(jù)。處理結(jié)果為日時間尺度數(shù)據(jù)表(DM—AR—DAY_ZB)、周時間尺度數(shù)據(jù)表DM—AR一WEEK—ZB、月時間尺度數(shù)據(jù)表DM—AR_MONTH—ZB。三張表的字段相同,字段列表如表l:字段字段含義MS工SDN電話號碼CONTENT_ID節(jié)百編碼CONTENT—NAME節(jié)目名稱NAME—STR節(jié)目說明USE—FLAG觀看次數(shù)表l(3)生成關(guān)聯(lián)規(guī)則模型根據(jù)日尺度數(shù)據(jù)集得到模型結(jié)果如表2:<table>tableseeoriginaldocumentpage8</column></row><table>表2模型匯總信息如表3:分析規(guī)則數(shù)78有效事務(wù)數(shù)1,538最小支持度1.105%最大支持度1.691%最小置信度94.444%最大置信度100.0%IDMSISDN內(nèi)容—T^_AM^_STR_一—_——使用分區(qū)數(shù)據(jù)假最大前項數(shù)5最低條件支持度1.1最低規(guī)則置信度94.4優(yōu)化速度只顯示值為真的標(biāo)志變量真g易塾據(jù)真———雨函算法Apriori模型類型關(guān)聯(lián)構(gòu)建日期08-5-15下午2:15應(yīng)用系統(tǒng)集成工具模型構(gòu)建所用時間0小時,1分鐘,6秒鐘表3<table>tableseeoriginaldocumentpage8</column></row><table>表4選擇模型應(yīng)用數(shù)據(jù)集,應(yīng)用規(guī)則,分析結(jié)果表5:138氺承氺氺氺氺**138氺氺氺氺沐沐*承138氺水氺承承氺氺*138氺氺承求承承氺氺權(quán)利要求1.移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,包括以下步驟(1).根據(jù)移動通信業(yè)務(wù)需求,從移動通信業(yè)務(wù)數(shù)據(jù)倉庫構(gòu)建面向業(yè)務(wù)主題的業(yè)務(wù)數(shù)據(jù)集市;(2).基于業(yè)務(wù)數(shù)據(jù)集市,調(diào)用數(shù)據(jù)挖掘工具,選定關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集,構(gòu)建多個關(guān)聯(lián)規(guī)則模型;(3).對上述的多個關(guān)聯(lián)規(guī)則模型進(jìn)行評估和檢驗,選擇最優(yōu)的關(guān)聯(lián)規(guī)則模型,并將該模型寫入模型庫;(4).發(fā)布、應(yīng)用模型庫中的模型。2.根據(jù)權(quán)利要求1所述的移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,所述的步驟(l)進(jìn)一步包括(11).根據(jù)移動通信業(yè)務(wù)需求,確定數(shù)據(jù)挖掘的業(yè)務(wù)主題;(12).選擇業(yè)務(wù)主題對應(yīng)的業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;(13).關(guān)聯(lián)業(yè)務(wù)明細(xì)表和相關(guān)數(shù)據(jù)維表;(14).將關(guān)聯(lián)后的數(shù)據(jù)進(jìn)行預(yù)處理,得到業(yè)務(wù)數(shù)據(jù)集市。3.根據(jù)權(quán)利要求1所述的移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,所述的步驟(3)進(jìn)一步包括(31).根據(jù)各關(guān)聯(lián)規(guī)則模型的評估檢驗參數(shù),選出最優(yōu)關(guān)聯(lián)規(guī)則模型;(32).調(diào)用腳本,將最優(yōu)關(guān)聯(lián)規(guī)則模型實時寫入模型庫。4.根據(jù)權(quán)利要求1所述的移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,所述的移動通信業(yè)務(wù)包括移動手機(jī)電視業(yè)務(wù)、移動彩鈴業(yè)務(wù)、移動振鈴業(yè)務(wù)、移動全曲業(yè)務(wù)。5.根據(jù)權(quán)利要求2所述的移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,所述的預(yù)處理包括對相關(guān)數(shù)據(jù)維表中的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、濾重;將清洗、濾重后的業(yè)務(wù)數(shù)據(jù)的格式轉(zhuǎn)換為關(guān)聯(lián)規(guī)則模型所適用的數(shù)據(jù)格式。6.根據(jù)權(quán)利要求2所述的移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,其特征在于,所述的數(shù)據(jù)集市包括預(yù)處理過的日業(yè)務(wù)數(shù)據(jù)、月業(yè)務(wù)數(shù)據(jù)和周業(yè)務(wù)數(shù)據(jù)。全文摘要本發(fā)明涉及移動通信業(yè)數(shù)據(jù)業(yè)務(wù)的產(chǎn)品關(guān)聯(lián)分析方法,包括以下步驟構(gòu)建數(shù)據(jù)集,構(gòu)建多個關(guān)聯(lián)規(guī)則模型,評估和檢驗多個關(guān)聯(lián)規(guī)則模型,選擇最優(yōu)的關(guān)聯(lián)規(guī)則模型,發(fā)布和應(yīng)用模型。與現(xiàn)有技術(shù)相比,本發(fā)明能很好的針對移動通信業(yè)務(wù),進(jìn)行關(guān)聯(lián)規(guī)則模型的挖掘。文檔編號G06F17/30GK101620597SQ20081003988公開日2010年1月6日申請日期2008年6月30日優(yōu)先權(quán)日2008年6月30日發(fā)明者謐馮申請人:上海全成通信技術(shù)有限公司