一種數(shù)據(jù)挖掘處理方法
【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)挖掘處理方法,通過設(shè)置字段等過濾條件,對原始數(shù)據(jù)中每篇文檔中的關(guān)鍵信息單元進(jìn)行提取,并形成相應(yīng)的數(shù)據(jù)記錄,并將各個數(shù)據(jù)記錄存儲存儲于數(shù)據(jù)庫中,在此基礎(chǔ)上,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,擴(kuò)展出目標(biāo)信息的關(guān)聯(lián)信息和對應(yīng)的關(guān)聯(lián)路徑。本發(fā)明可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要分析出海量目標(biāo)信息背后隱含的關(guān)聯(lián)關(guān)系。本發(fā)明方法為數(shù)據(jù)信息的深度挖掘和應(yīng)用提供了一種十分可靠便捷的途徑,目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險預(yù)測和防控等提供了有效技術(shù)支撐。
【專利說明】
一種數(shù)據(jù)挖掘處理方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)挖掘處理方法。
【背景技術(shù)】
[0002]隨著社會的發(fā)展和科技的進(jìn)步,個體或者團(tuán)體之間的聯(lián)系變得更加緊密,緊密的聯(lián)系促進(jìn)了信息的快速傳播和增長,而當(dāng)今世界早就進(jìn)入了信息時代,隨著信息的爆發(fā)式增長和積累,大數(shù)據(jù)時代已近來臨,大數(shù)據(jù)的基本特征可以用4個“V”來描述,即數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity);作為其中最重要的特點(diǎn):數(shù)據(jù)量大和價值密度低卻是困擾如此海量數(shù)據(jù)信息挖掘利用的難題,在海量的數(shù)據(jù)里面,如何精確的獲得人們關(guān)心的信息,就如同海底撈針困難重重;與此同時面對海量的信息,如何去分析某類信息之間的相關(guān)性,并以此分析出信息背后隱含價值,大數(shù)據(jù)中關(guān)聯(lián)關(guān)系比因果關(guān)系更加重要,關(guān)聯(lián)關(guān)系在很多領(lǐng)域有著重要的應(yīng)用,比如目標(biāo)背景分析,但是面對如此海量的數(shù)據(jù),想要快速準(zhǔn)確的分析出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,十分困難。
[0003]針對特定的信息目標(biāo),如何分析該目標(biāo)與其他目標(biāo)之間的關(guān)聯(lián)關(guān)系在很多領(lǐng)域具有更加實(shí)際的意義,因?yàn)榫哂嘘P(guān)聯(lián)關(guān)系的目標(biāo)在進(jìn)行各種活動時往往比單獨(dú)的簡單個體具有更大的影響面;而且具有關(guān)聯(lián)關(guān)系的目標(biāo)在對外建立各種活動時,受到內(nèi)部的關(guān)聯(lián)關(guān)系的相互牽制或者支持,會比簡單目標(biāo)的活動軌跡更加復(fù)雜。而在現(xiàn)實(shí)生活中,原始的信息數(shù)量規(guī)模龐大,信息目標(biāo)之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,而且一般是隱藏的,人們并不能通過表面活動或者表面信息察覺到,更加不易找出該目標(biāo)是否和其他目標(biāo)具有關(guān)聯(lián)關(guān)系,或者是何種關(guān)聯(lián)關(guān)系。在這樣的情況下,這些隱含的關(guān)聯(lián)關(guān)系會對人們的社會經(jīng)濟(jì)活動帶來很多潛在的價值或者風(fēng)險。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供一種數(shù)據(jù)挖掘處理方法,在數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)中根據(jù)需要設(shè)置字段,將不同信息文檔中的對應(yīng)信息提取出來,形成相應(yīng)的數(shù)據(jù)記錄;然后利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標(biāo)信息之間的關(guān)聯(lián)信息和關(guān)聯(lián)路徑;本發(fā)明方法系統(tǒng)可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要設(shè)置分析目標(biāo),進(jìn)而分析出與目標(biāo)具有隱含聯(lián)系的關(guān)聯(lián)情況(關(guān)聯(lián)信息和關(guān)聯(lián)路徑),信息簡明精確。通過這樣的數(shù)據(jù)分析處理,為目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險預(yù)測和防控等提供了一種新型的有效途徑。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供一種數(shù)據(jù)挖掘處理方法:根據(jù)不同數(shù)據(jù)記錄中所包含相同的信息單元,擴(kuò)展出目標(biāo)信息的N度關(guān)聯(lián)信息。
[0006]具體的,所述發(fā)明方法包含以下實(shí)現(xiàn)步驟:
[0007](I)從原始數(shù)據(jù)中的每條基礎(chǔ)數(shù)據(jù)中,根據(jù)設(shè)置的字段提取信息,形成相應(yīng)的數(shù)據(jù)記錄;
[0008](2)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;將所述第三信息擴(kuò)展成第一信息的二度關(guān)聯(lián)信息,并且擴(kuò)展出所述第一信息經(jīng)第二信息到第三信息的關(guān)聯(lián)路徑;
[0009](3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,將所述第四信息擴(kuò)展成第一信息的三度關(guān)聯(lián)信息,并且展出第一信息經(jīng)第二信息到第三信息到第四信息的關(guān)聯(lián)路徑;
[0010]依次類推,擴(kuò)展出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息,及對應(yīng)的關(guān)聯(lián)路徑,其中N多
1
[0011]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標(biāo)信息為起點(diǎn)(起點(diǎn)的選擇根據(jù)分析需要來設(shè)置),逐級查找出與目標(biāo)相關(guān)聯(lián)的N度信息和對應(yīng)的關(guān)聯(lián)路徑。此外用戶根據(jù)擴(kuò)展出的關(guān)聯(lián)路徑,可以簡單清楚的分析出關(guān)聯(lián)關(guān)系的來源和內(nèi)容,為相關(guān)的問題追蹤、分析和解決提供了清晰的依據(jù)。
[0012]本發(fā)明中的原始數(shù)據(jù)存儲于數(shù)據(jù)庫中,所述原始數(shù)據(jù)的來源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進(jìn)行深度處理,為信息的精細(xì)化處理,和深度應(yīng)用提供一種全新的途徑。
[0013]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計算過程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計算,計算邏輯清晰,運(yùn)行過程簡單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0014]進(jìn)一步的,所述步驟(I)中提取出來的數(shù)據(jù)信息可以先通過清洗進(jìn)行數(shù)據(jù)預(yù)處理。
[0015]進(jìn)一步的,所述步驟(I)中的各條數(shù)據(jù)記錄按照統(tǒng)一的格式進(jìn)行存儲,保證各條數(shù)據(jù)結(jié)構(gòu)的一致性,便于進(jìn)行一度關(guān)聯(lián)關(guān)系構(gòu)建時的數(shù)據(jù)提取和計算。
[0016]進(jìn)一步的,將所述步驟(I)中提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對:其中字段作為“鍵”,而字段對應(yīng)的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個字段對應(yīng)的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(diǎn)(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對應(yīng)的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計算。一度關(guān)聯(lián)信息的計算是后續(xù)N度關(guān)聯(lián)信息計算的基礎(chǔ)。
[0017]進(jìn)一步的,所述步驟(2)中形成的二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記,通過相應(yīng)的標(biāo)記,將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,關(guān)聯(lián)度數(shù)的標(biāo)記方便關(guān)聯(lián)信息逐級計算時的數(shù)據(jù)提取和區(qū)分。
[0018]進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記。作為一種優(yōu)選,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息以數(shù)據(jù)表的形式進(jìn)行存儲,以數(shù)據(jù)表形式存儲的數(shù)據(jù),存儲結(jié)構(gòu)規(guī)范,便于查詢和進(jìn)一步計笪并ο
[0019]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲于非關(guān)系型數(shù)據(jù)庫中,比如說Hbase、Cassandra、CouchDB、Mongodb等。;本發(fā)明中涉及的數(shù)據(jù)格式的結(jié)構(gòu)化程度不高,多為半結(jié)構(gòu)或者無結(jié)構(gòu)的數(shù)據(jù),更加適合存儲于非關(guān)系型數(shù)據(jù)庫中。同時與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、源碼公開、隨時下載、應(yīng)用成本低等特點(diǎn);并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時,比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0020]進(jìn)一步的,所述關(guān)聯(lián)信息和關(guān)聯(lián)路徑數(shù)據(jù)存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS),HDFS作為云計算平臺Hadoop下面的分布式文件系統(tǒng),具有高度容錯性,適合部署在廉價的機(jī)器上,運(yùn)行和維護(hù)成本較低。同時HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0021]進(jìn)一步的,本發(fā)明中所形成的每條關(guān)聯(lián)路徑可以數(shù)據(jù)表或者關(guān)系圖譜(有向或者無向關(guān)系圖譜)的形式進(jìn)行存儲和顯示。當(dāng)用數(shù)據(jù)表進(jìn)行顯示或者存儲時,所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符進(jìn)行連接:例如A-B-C-E。當(dāng)采用關(guān)系圖譜進(jìn)行關(guān)聯(lián)路徑顯示或者存儲時,每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息節(jié)點(diǎn)之間用連接符進(jìn)行連接。這種關(guān)聯(lián)路徑的顯示方法,簡潔明了路徑清晰。
[0022]進(jìn)一步的,所述關(guān)聯(lián)路徑可以有向關(guān)系圖譜的方式予以存儲或者顯示。其中以有向圖的方式能夠更好的展示出關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)方式和邏輯。
[0023]進(jìn)一步的,在所述方法的基礎(chǔ)上提供一種目標(biāo)背景信息分析方法,上述基于云計算平臺的大數(shù)據(jù)分析處理方法尤其適合用于目標(biāo)背景情況分析,用戶根據(jù)需要設(shè)置分析字段從相關(guān)的網(wǎng)頁中提取數(shù)據(jù),形成相應(yīng)的數(shù)據(jù)記錄在形成數(shù)據(jù)記錄的基礎(chǔ)上,采用本發(fā)明方法,逐級搜索和擴(kuò)展出目標(biāo)信息的N度關(guān)聯(lián)方信息,形成目標(biāo)信息的關(guān)聯(lián)背景數(shù)據(jù),挖掘目標(biāo)的背景信息,為相關(guān)商業(yè)投資,風(fēng)險防控提供可靠參考。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明的一種數(shù)據(jù)挖掘處理方法,從海量的基礎(chǔ)數(shù)據(jù)中,根據(jù)需要設(shè)置字段,提取出需要進(jìn)行分析的關(guān)鍵信息;在此基礎(chǔ)上利用不同數(shù)據(jù)記錄中相同的信息單元,將具有隱含聯(lián)系的相關(guān)信息逐級挖掘出來,根據(jù)關(guān)聯(lián)的度數(shù)將信息之間的關(guān)聯(lián)遠(yuǎn)近程度進(jìn)行量化,為相關(guān)問題追蹤和背景查找提供了一種快速可靠的通道;而且根據(jù)關(guān)聯(lián)路徑,可以簡單清楚的分析出關(guān)聯(lián)關(guān)系的來源和內(nèi)容,為相關(guān)的問題追蹤、分析和解決提供了清晰的依據(jù)。本發(fā)明方法為海量數(shù)據(jù)信息的深度挖掘和應(yīng)用提供了一種全新的處理分析方式,為目標(biāo)信息背景分析,市場推廣,市場細(xì)分,風(fēng)險預(yù)測和風(fēng)險防控等提供了有效技術(shù)支撐,在目標(biāo)背景分析等信息挖掘領(lǐng)域有廣泛的應(yīng)用。
【附圖說明】
:
[0025]圖1是本數(shù)據(jù)挖掘處理方法的流程示意簡圖。
[0026]圖2是本數(shù)據(jù)挖掘處理方法的實(shí)現(xiàn)流程示意圖。
[0027]圖3是本數(shù)據(jù)挖掘處理方法的關(guān)聯(lián)算法示意圖。
[0028]圖4是實(shí)施例1中的步驟(I)中提取出的3條數(shù)據(jù)記錄示意圖。
[0029]圖5是實(shí)施例1中的步驟(2)中形成一度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0030]圖6是實(shí)施例1中的步驟(3)中形成的二度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0031 ]圖7是實(shí)施例1中三度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0032]圖8是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖D
[0033]圖9是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖。
[0034]圖10是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖。
[0035]圖11是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0036]圖12是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0037]圖13是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0038]圖14是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的二度關(guān)聯(lián)關(guān)系路徑不意圖。
[0039]圖15是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的三度關(guān)聯(lián)關(guān)系路徑示意圖。
[0040]圖16是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的三度關(guān)聯(lián)關(guān)系路徑示意圖。
[0041]應(yīng)該理解本發(fā)明附圖均為示意性的,不代表具體的步驟和路徑。
【具體實(shí)施方式】
[0042]下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0043]本發(fā)明提供一種數(shù)據(jù)挖掘處理方法,在數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)中根據(jù)需要設(shè)置字段,將不同信息文檔中的對應(yīng)信息提取出來,形成相應(yīng)的數(shù)據(jù)記錄;然后利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標(biāo)信息之間的關(guān)聯(lián)信息和關(guān)聯(lián)路徑;本發(fā)明方法系統(tǒng)可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要設(shè)置分析目標(biāo),進(jìn)而分析出與目標(biāo)具有隱含聯(lián)系的關(guān)聯(lián)情況(關(guān)聯(lián)信息和關(guān)聯(lián)路徑),信息簡明精確。通過這樣的數(shù)據(jù)分析處理,為目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險預(yù)測和防控等提供了一種新型的有效途徑。
[0044]為實(shí)現(xiàn)上述目的,本發(fā)明提供數(shù)據(jù)挖掘處理方法一種數(shù)據(jù)挖掘處理方法:如圖1過程所示:通過設(shè)置字段等過濾條件,對原始數(shù)據(jù)每篇文檔中的關(guān)鍵信息單元進(jìn)行提取,將提取出的關(guān)鍵信息單元按照設(shè)定的順序排列成一條數(shù)據(jù)記錄,并將各條數(shù)據(jù)記錄存儲于數(shù)據(jù)庫中(通常為非關(guān)系型數(shù)據(jù)庫),在此基礎(chǔ)上,根據(jù)不同數(shù)據(jù)記錄中所包含相同的信息單元,逐級擴(kuò)展出信息單元之間的關(guān)聯(lián)關(guān)系(包括關(guān)聯(lián)信息和對應(yīng)關(guān)聯(lián)路徑)。
[0045]具體的,所述發(fā)明方法包含如圖2所示的實(shí)現(xiàn)步驟:
[0046](I)從原始數(shù)據(jù)中的每條基礎(chǔ)數(shù)據(jù)中,根據(jù)設(shè)置的字段提取出對應(yīng)的信息,形成相應(yīng)的數(shù)據(jù)記錄;
[0047](2)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;將所述第三信息擴(kuò)展成第一信息的二度關(guān)聯(lián)信息;并且擴(kuò)展出所述第一信息經(jīng)第二信息到第三信息的關(guān)聯(lián)路徑;
[0048](3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,將所述第四信息擴(kuò)展成第一信息的三度關(guān)聯(lián)信息,并且展出第一信息經(jīng)第二信息到第三信息到第四信息的關(guān)聯(lián)路徑;
[0049]依次類推,擴(kuò)展出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息,其中N多I。關(guān)聯(lián)信息的計算過程如圖3所示;
[0050]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標(biāo)信息為起點(diǎn)(起點(diǎn)的選擇根據(jù)分析需要來設(shè)置),逐級查找出與目標(biāo)相關(guān)聯(lián)的其他信息和關(guān)聯(lián)度數(shù)。
[0051]本發(fā)明中的原始數(shù)據(jù)存儲于數(shù)據(jù)庫中,所述原始數(shù)據(jù)的來源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進(jìn)行深度處理,為信息的精細(xì)化處理,和深度應(yīng)用提供一種全新的途徑。
[0052]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計算過程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計算,計算邏輯清晰,運(yùn)行過程簡單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0053]進(jìn)一步的,所述步驟(I)中提取出來的數(shù)據(jù)信息可以先通過清洗進(jìn)行數(shù)據(jù)預(yù)處理,從基礎(chǔ)數(shù)據(jù)中根據(jù)字段提取出來的數(shù)據(jù)信息一般為JSON型,其數(shù)據(jù)的相關(guān)性不強(qiáng),而且可能存在一些數(shù)據(jù)結(jié)構(gòu)不規(guī)范,數(shù)據(jù)清潔程度不夠(包含一些不相關(guān)、無用或者錯誤的數(shù)據(jù))的情況,即是所謂的弱結(jié)構(gòu);想要將這些弱結(jié)構(gòu)數(shù)據(jù)信息擴(kuò)展成一度關(guān)聯(lián)信息,需要先將這些數(shù)據(jù)進(jìn)行相應(yīng)的整理,這個整理的過程就是數(shù)據(jù)預(yù)處理過程,所述數(shù)據(jù)預(yù)處理可采用包括字段過濾、字段派生、空值處理、數(shù)據(jù)抽樣記錄篩選、記錄匯總、記錄附加、記錄合并和記錄排序等方法,對數(shù)據(jù)預(yù)處理可以解決數(shù)據(jù)中的缺值、冗余和數(shù)據(jù)不一致等問題;總之所述數(shù)據(jù)清洗就是根據(jù)分析的需要對基礎(chǔ)數(shù)據(jù)實(shí)現(xiàn)ETL(提取-轉(zhuǎn)換-加載)的過程。
[0054]進(jìn)一步的,所述步驟(I)中形成的數(shù)據(jù)記錄以統(tǒng)一的格式進(jìn)行存儲,比如說按照第一字段內(nèi)容,第二字段內(nèi)容,第三字段內(nèi)容......的順序進(jìn)行存儲,統(tǒng)一的存儲格式,保證了數(shù)據(jù)結(jié)構(gòu)的穩(wěn)定和一致性,便于通過SQL語句來查找相關(guān)信息,便于設(shè)置分析目標(biāo)計算一度關(guān)聯(lián)關(guān)系。
[0055]進(jìn)一步的,將所述步驟(I)中提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對:其中字段作為“鍵”,而字段對應(yīng)的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個字段對應(yīng)的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(diǎn)(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對應(yīng)的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計算。一度關(guān)聯(lián)信息的計算是后續(xù)N度關(guān)聯(lián)?目息計算的基礎(chǔ)。
[0056]進(jìn)一步的,將所述步驟(2)中形成的一度關(guān)聯(lián)信息按照設(shè)定的結(jié)構(gòu)順序,進(jìn)行存儲。將一度關(guān)聯(lián)信息按照設(shè)定的結(jié)構(gòu)和順序進(jìn)行存儲,使得不同目標(biāo)所形成的一度關(guān)聯(lián)信息數(shù)據(jù)存儲格式統(tǒng)一,便于后續(xù)步驟的數(shù)據(jù)處理。
[0057]進(jìn)一步的,所述步驟(2)中形成的一度關(guān)聯(lián)信息,可以按照目標(biāo)(起點(diǎn)信息)、一度關(guān)聯(lián)信息、關(guān)系標(biāo)簽的結(jié)構(gòu)順序進(jìn)行存儲。所述關(guān)聯(lián)標(biāo)簽是對該一度關(guān)聯(lián)信息與目標(biāo)信息之間的關(guān)聯(lián)關(guān)系的描述,可以為關(guān)聯(lián)數(shù)據(jù)的查詢提供簡潔直觀的描述。
[0058]進(jìn)一步的,所述步驟2)中形成的二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記,一度關(guān)聯(lián)關(guān)系和二度關(guān)聯(lián)關(guān)系的內(nèi)部的數(shù)據(jù)存儲結(jié)構(gòu)與上一步結(jié)構(gòu)相同;通過相應(yīng)的標(biāo)記,可以很方便的將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,方便關(guān)聯(lián)信息逐級計算時的數(shù)據(jù)提取和區(qū)分。
[0059]進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記。
[0060]作為一種優(yōu)選,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息以數(shù)據(jù)表的形式進(jìn)行存儲,以數(shù)據(jù)表形式存儲的數(shù)據(jù),存儲結(jié)構(gòu)規(guī)范,便于查詢和進(jìn)一步計算。
[0061]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲于非關(guān)系型數(shù)據(jù)庫中,比如說Hbase、CouchDB、Cassandra、Mongodb等非關(guān)系型數(shù)據(jù)庫中。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、完全免費(fèi)、源碼公開、隨時下載、應(yīng)用成本低等特點(diǎn);并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時,比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0062]進(jìn)一步的,所述步驟(2)、(3)中形成的關(guān)聯(lián)關(guān)系存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯性,對部署機(jī)器要求不高,運(yùn)行和維護(hù)成本較低。同時HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0063]進(jìn)一步的,本發(fā)明中所形成的每條關(guān)聯(lián)路徑可以數(shù)據(jù)表或者關(guān)系圖譜的形式進(jìn)行存儲和顯示。當(dāng)用數(shù)據(jù)表進(jìn)行顯示或者存儲時,所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符進(jìn)行連接:例如A-B-C-E。當(dāng)采用關(guān)系圖譜進(jìn)行關(guān)聯(lián)路徑顯示或者存儲時,每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息節(jié)點(diǎn)之間用連接符進(jìn)行連接。這種關(guān)聯(lián)路徑的顯示方法,簡潔明了路徑清晰。
[0064]進(jìn)一步的,所述關(guān)聯(lián)路徑可以有向關(guān)系圖譜的方式予以存儲或者顯示。其中以有向圖的方式能夠更好的展示出關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)方式和邏輯。
[0065]進(jìn)一步的,在所述方法的基礎(chǔ)上提供一種目標(biāo)背景信息分析方法,上述基于云計算平臺的大數(shù)據(jù)分析處理方法尤其適合用于目標(biāo)背景情況分析,用戶根據(jù)需要設(shè)置分析字段從相關(guān)的網(wǎng)頁中提取數(shù)據(jù),形成相應(yīng)的數(shù)據(jù)記錄在形成數(shù)據(jù)記錄的基礎(chǔ)上,采用本發(fā)明方法,逐級搜索和擴(kuò)展出目標(biāo)信息的N度關(guān)聯(lián)方信息,形成目標(biāo)信息的關(guān)聯(lián)背景數(shù)據(jù),挖掘目標(biāo)的背景信息,為相關(guān)商業(yè)投資,風(fēng)險防控提供可靠參考。
[0066]實(shí)施例1
[0067]下面以其中3條數(shù)據(jù)作為一個小示例,說明關(guān)聯(lián)關(guān)系的分析過程。假設(shè)在原始數(shù)據(jù)中經(jīng)過字段(設(shè)置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出來的數(shù)據(jù)中包含如圖4所示的3條數(shù)據(jù)記錄,其中第一數(shù)據(jù)記錄包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:A、B、D以及E;第二條數(shù)據(jù)記錄中包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:C、B、F以及G;第三條信息中包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:H、F、I。假設(shè)將第一字段對應(yīng)的內(nèi)容作為關(guān)聯(lián)分析的起點(diǎn),則第一數(shù)據(jù)記錄可形成:A-B、A-D、A-E的一度關(guān)聯(lián)關(guān)系,其中B、D、E均為A的一度關(guān)聯(lián)信息,同時A也為B、D、E的一度關(guān)聯(lián)信息;第二數(shù)據(jù)記錄可形成C-B、C-F、C-G的一度關(guān)聯(lián)關(guān)系,其中B、F、G均為C的一度關(guān)聯(lián)信息,同時C也為B、F、G的一度關(guān)聯(lián)信息;第三數(shù)據(jù)記錄可形成:H-F、H-1的一度關(guān)聯(lián)關(guān)系,其中F、I為H的一度關(guān)聯(lián)信息,同時H也為F、I的一度關(guān)聯(lián)信息。將一度關(guān)聯(lián)關(guān)系以表結(jié)構(gòu)的存儲格式進(jìn)行存儲,則可形成如圖5所述的結(jié)構(gòu)化的兩列。
[0068]在上述一度關(guān)聯(lián)的基礎(chǔ)上,根據(jù)A-B和C-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將C擴(kuò)展成A的二度關(guān)聯(lián)信息,以A為起點(diǎn),形成A-B-C的關(guān)聯(lián)路徑。根據(jù)C-B和A-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將A擴(kuò)展成C的二度關(guān)聯(lián)信息,以C為起點(diǎn),形成C-B-A的關(guān)聯(lián)路徑。根據(jù)C-F和H-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將H擴(kuò)展成C的二度關(guān)聯(lián)信息;以C為起點(diǎn),形成C-F-H的關(guān)聯(lián)路徑。根據(jù)H-F和C-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將C擴(kuò)展成H的二度關(guān)聯(lián)信息;以H為起點(diǎn),形成H-F-C的關(guān)聯(lián)路徑。形成二度關(guān)聯(lián)關(guān)系的關(guān)聯(lián)數(shù)據(jù)存儲以數(shù)據(jù)表形式可采用如圖6所示的存儲結(jié)構(gòu)。
[0069]進(jìn)一步的,在上述一■度關(guān)聯(lián)以及一度關(guān)聯(lián)關(guān)系的基礎(chǔ)上,以A為起點(diǎn)根據(jù)A的一■度關(guān)聯(lián)ig息C的一度關(guān)聯(lián)ig息,可擴(kuò)展出A-B-C-F,A-B-C-G的關(guān)聯(lián)路徑,其中F和G為A的二度關(guān)聯(lián)信息。以C為起點(diǎn),根據(jù)C的二度關(guān)聯(lián)信息A和H的一度關(guān)聯(lián)信息,可擴(kuò)展出,C-B-A-E,C-B-A-D,C-F-H-1的關(guān)聯(lián)路徑,其中D、E、I為C的三度關(guān)聯(lián)信息。同樣以H為起點(diǎn),根據(jù)其二度關(guān)聯(lián)?目息C的一度關(guān)聯(lián)彳目息,可形成H-F-C-B,H-F-C-G的關(guān)聯(lián)路徑,其中B和G為H的二度關(guān)聯(lián){目息。三度關(guān)聯(lián)信息的存儲數(shù)據(jù)表如圖7所示;本實(shí)施例中的以A、C、H為起點(diǎn)的一度關(guān)聯(lián)路徑關(guān)系圖譜分別如圖8、圖9、圖10所示;2度關(guān)聯(lián)路徑關(guān)系圖譜如圖11、圖12、圖13所示;3度關(guān)聯(lián)關(guān)系關(guān)系圖譜如圖14、圖15、圖16所示,由以上關(guān)聯(lián)路徑示意圖可以清晰的顯示出具有關(guān)聯(lián)關(guān)系的信息的具體關(guān)聯(lián)渠道為相關(guān)問題追蹤的分析提供參考。
[0070]值得注意的是在關(guān)聯(lián)信息計算過程中需要去除閉合路徑,以此來避免計算中的錯誤循環(huán)。
[0071]盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化時顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項】
1.一種數(shù)據(jù)挖掘處理方法,其特征在于,包含以下實(shí)現(xiàn)過程: (1)從原始數(shù)據(jù)中的每條基礎(chǔ)數(shù)據(jù)中,根據(jù)設(shè)置的字段提取出對應(yīng)的信息,形成相應(yīng)的數(shù)據(jù)記錄; (2)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在另一條數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;將所述第三信息擴(kuò)展成第一信息的二度關(guān)聯(lián)信息,并且擴(kuò)展出第一信息經(jīng)第二信息到第三信息的關(guān)聯(lián)路徑; (3)在第三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,將所述第四信息擴(kuò)展成第一信息的三度關(guān)聯(lián)信息,并且展出第一信息經(jīng)第二信息到第三信息到第四信息的關(guān)聯(lián)路徑; 依次類推,擴(kuò)展出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息,及對應(yīng)的關(guān)聯(lián)路徑,其中N多I。2.如權(quán)利要求1所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述關(guān)聯(lián)信息的擴(kuò)展過程中,所述第一信息的第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。3.如權(quán)利要求1或2所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述數(shù)據(jù)記錄通過字段過濾、字段派生、空值處理、數(shù)據(jù)抽樣記錄篩選、記錄匯總、記錄附加、記錄合并和,或記錄排序方式進(jìn)行預(yù)處理。4.如權(quán)利要求3所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述步驟(I)中,數(shù)據(jù)記錄以統(tǒng)一的格式進(jìn)行存儲。5.如權(quán)利要求4所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述關(guān)聯(lián)信息按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲,并將屬于不同關(guān)聯(lián)度的信息打上對應(yīng)的標(biāo)記。6.如權(quán)利要求5所述的數(shù)據(jù)挖掘處理方法,其特征在于,將N度關(guān)聯(lián)數(shù)據(jù)分別存儲于不同的數(shù)據(jù)庫的分布式文件系統(tǒng)中。7.如權(quán)利要求6所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述關(guān)聯(lián)路徑以數(shù)據(jù)表的形式進(jìn)行存儲或顯示。8.如權(quán)利要求7所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符依次進(jìn)行連接。9.如權(quán)利要求1或2所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述關(guān)聯(lián)路徑以無向或者有向關(guān)系圖譜的形式進(jìn)行顯示。10.如權(quán)利要求9所述的數(shù)據(jù)挖掘處理方法,其特征在于,所述每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,節(jié)點(diǎn)之間用無向或者有向連接符依次進(jìn)行連接。11.一種目標(biāo)背景信息分析方法,其特征在于,采用如權(quán)利要求1-10之一所述的方法來實(shí)現(xiàn)目標(biāo)背景分析。
【文檔編號】G06F17/30GK105930465SQ201610256831
【公開日】2016年9月7日
【申請日】2016年4月21日
【發(fā)明人】范東來, 何宏靖
【申請人】成都數(shù)聯(lián)銘品科技有限公司