亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法

文檔序號(hào):10534938閱讀:234來(lái)源:國(guó)知局
大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法
【專利摘要】本發(fā)明實(shí)現(xiàn)了一種大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,對(duì)于大數(shù)據(jù)挖掘(BDM),不該也不能延續(xù)海量數(shù)據(jù)挖掘(DM)主流發(fā)展軌跡??高效可擴(kuò)展性算法及其應(yīng)用的研究,因存在著算法運(yùn)行要依據(jù)的過(guò)程模型和內(nèi)在機(jī)理;更宏大的軟硬件運(yùn)行與數(shù)據(jù)存儲(chǔ)環(huán)境;以及全新的數(shù)據(jù)前處理與知識(shí)后處理的研究。基于此,本發(fā)明在20余年DM研究基礎(chǔ)上,在拓展基本上共識(shí)的BDM定義并嚴(yán)格界定BDM與大數(shù)據(jù)分析區(qū)別的前提下,在與實(shí)驗(yàn)科學(xué)、理論推演、模擬仿真這三種科研范式相輔相成的第四范式背景下,實(shí)現(xiàn)與其有本質(zhì)差別的BDM機(jī)理與模型的突破,即得到BDM本體的內(nèi)在規(guī)律,進(jìn)而給出較為系統(tǒng)、完備的過(guò)程模型整體架構(gòu),為后續(xù)算法研究奠定基礎(chǔ)。
【專利說(shuō)明】
大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明在近20余年DM研究的基礎(chǔ)上,力求在第四范式背景下實(shí)現(xiàn)與其有本質(zhì)差別 的BDM過(guò)程模型的突破,給出較為系統(tǒng)、完備的過(guò)程模型的總體架構(gòu);旨在為后續(xù)具體環(huán)節(jié) 上探索性、引領(lǐng)性的方法論研究奠定基礎(chǔ),并以此為突破口演繹出BDM算法與應(yīng)用研究的核 心技術(shù)。BDM總體過(guò)程模型圖如圖2所示。
【背景技術(shù)】
[0002] -、數(shù)據(jù)挖掘技術(shù):
[0003] 數(shù)據(jù)挖掘(知識(shí)發(fā)現(xiàn)或KDD)是國(guó)際學(xué)術(shù)前沿多學(xué)科交叉的新興邊緣學(xué)科,它是指 從海量信息中發(fā)現(xiàn)新穎的、潛在有用、最終可被用戶理解的知識(shí)。它融合了人工智能、機(jī)器 學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、計(jì)算機(jī)網(wǎng)絡(luò)、自然語(yǔ)言處理等眾多學(xué)科的內(nèi)容,它是針對(duì) 生成收集數(shù)據(jù)的能力迅猛發(fā)展,而對(duì)信息的處理仍然采用數(shù)據(jù)統(tǒng)計(jì)等傳統(tǒng)的方法,這一矛 盾而產(chǎn)生的,并迅速發(fā)展起來(lái)的。
[0004] KDD是從海量數(shù)據(jù)中提取可信的、新穎的、有效的、最終被用戶所理解的模式的非 平凡提取過(guò)程。(DM是KDD的關(guān)鍵步驟或處理階段)
[0005] 隨時(shí)間推移,知識(shí)發(fā)現(xiàn)(數(shù)據(jù)挖掘)概念內(nèi)涵與外延產(chǎn)生了重要擴(kuò)展,粗略地可劃 分為四個(gè)階段:結(jié)構(gòu)化數(shù)據(jù)挖掘DM--復(fù)雜類型數(shù)據(jù)挖掘CDM(Web與多媒體數(shù)據(jù)構(gòu)成的大 型異質(zhì)異構(gòu)數(shù)據(jù)庫(kù))--面向系統(tǒng)挖掘(動(dòng)態(tài)一在線一分布式一并行一網(wǎng)絡(luò)等系統(tǒng))-- 基于知識(shí)庫(kù)的知識(shí)發(fā)現(xiàn)(KDK).據(jù)此,KDD(DM)有如下描述性定義:
[0006] 在現(xiàn)實(shí)世界中,針對(duì)客觀存在的具有海量性、不確定性、不完全性的量的、質(zhì)的、復(fù) 雜形態(tài)的知識(shí)源,挖掘其中潛在的、先前未知的、用戶感興趣的、最終可被用戶理解的模式 的非平凡提取過(guò)程。大數(shù)據(jù)特征如圖3所示
[0007] Gartner公司發(fā)布的新興技術(shù)成熟度曲線,引起了研究者的思考:從科學(xué)角度而 論,大數(shù)據(jù)的意義何在?WSDM2015為此舉行了一場(chǎng)熱烈而尖銳的圓桌討論。這場(chǎng)討論,由谷 歌公司的安德烈研究員組織和主持。專家們基本認(rèn)同大數(shù)據(jù)既不是"喧嘩與騷動(dòng)",也不僅 僅是現(xiàn)有技術(shù)的放大。超大規(guī)模的數(shù)據(jù)確實(shí)能夠?yàn)樾畔z索與數(shù)據(jù)挖掘帶來(lái)新的概念和挑 戰(zhàn),雖然這種突破還達(dá)不到愛因斯坦相對(duì)論與牛頓力學(xué)的程度。
[0008]當(dāng)前應(yīng)清醒地覺察到:大數(shù)據(jù)的火熱并不意味著對(duì)于大數(shù)據(jù)的了解深入,反而表 明大數(shù)據(jù)存在過(guò)度炒作的危險(xiǎn)。大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對(duì)其利用上均存在很多 疑問(wèn)和爭(zhēng)議。作為大數(shù)據(jù)的核心專題與熱點(diǎn)問(wèn)題之一的BDM正處于相當(dāng)初級(jí)的階段。
[0009]由于大數(shù)據(jù)本體的固有特性、原有傳統(tǒng)的DM的現(xiàn)實(shí)發(fā)展和人類認(rèn)知的局限,邏輯 必然地導(dǎo)致BDM面臨的若干難以突破的理論瓶頸和應(yīng)用困境。然而,當(dāng)前BDM發(fā)展的基本態(tài) 勢(shì)可能再現(xiàn)了2003年8月27日華盛頓會(huì)議(KD&DM)上,科學(xué)家們對(duì)傳統(tǒng)的DM經(jīng)14年發(fā)展做出 的科學(xué)論斷Fayyad指出:"從科學(xué)發(fā)展的長(zhǎng)遠(yuǎn)來(lái)看,最大的伴腳石是基礎(chǔ)理論的缺乏以 及所面臨的問(wèn)題和挑戰(zhàn)的清晰明白的闡述。..;R.Uthurusamy也認(rèn)為"Web的使用和生產(chǎn) 廠家的大肆宣傳等都會(huì)在短時(shí)期內(nèi)影響本領(lǐng)域的發(fā)展,...,KDD的基礎(chǔ)研究必須消除這些 干擾而去努力解決KDD的真正的根本問(wèn)題。"實(shí)應(yīng)汲取此訓(xùn)。
[0010] 基于以上背景,我們?cè)诨旧线_(dá)到共識(shí)的大數(shù)據(jù)與BDM定義,以及界定BDM與大數(shù) 據(jù)分析(BDA)區(qū)別的前提下;在與實(shí)驗(yàn)科學(xué)、理論推演、模擬仿真這三種科研范式相輔相成 的科學(xué)研究第四范式。
[0011] 二、KDD過(guò)程模型
[0012] 通過(guò)數(shù)據(jù)挖掘(KDD,Knowledge Discovery in Database)過(guò)程,感興趣的知識(shí)或 高層信息可以從數(shù)據(jù)庫(kù)相關(guān)數(shù)據(jù)集中抽取出來(lái)并從不同角度進(jìn)行研究。目前絕大部分KDD 的算法沒有將KDD作為認(rèn)知的復(fù)雜系統(tǒng)對(duì)其內(nèi)在的規(guī)律性加以研究,且都沒有深層次地考 慮知識(shí)庫(kù),挖掘出來(lái)的許多假設(shè)規(guī)則與知識(shí)庫(kù)中的已有知識(shí)是重復(fù)的和冗余的,甚至是不 相容的,并且僅靠人機(jī)交互形成聚焦,而沒有體現(xiàn)系統(tǒng)自身的認(rèn)知自主性,因此對(duì)KDD定義 中要求的新穎性和有效性就無(wú)法體現(xiàn)出來(lái)。為此,KDD*過(guò)程模型從知識(shí)發(fā)現(xiàn)、認(rèn)知科學(xué)與智 能系統(tǒng)交叉結(jié)合的角度,提出了雙庫(kù)協(xié)同機(jī)制。構(gòu)建了將KDD與雙庫(kù)協(xié)同機(jī)制相結(jié)合的KDD* 過(guò)程模型,從而改變了KDD固有的運(yùn)行機(jī)制,在結(jié)構(gòu)與功能上形成了相對(duì)于KDD而言的一個(gè) 開放的、優(yōu)化的擴(kuò)體。雙庫(kù)協(xié)同機(jī)制的引入使得KDD在功能上得到了進(jìn)一步的完善,KDD*過(guò) 程模型的結(jié)構(gòu)如圖1所示。

【發(fā)明內(nèi)容】

[0013] -、本發(fā)明的目的在于,根據(jù)在第四范式背景下實(shí)現(xiàn)的與其有本質(zhì)差別的BDM過(guò)程 模型的突破,給出較為系統(tǒng)、完備的過(guò)程模型的總體架構(gòu);旨在為后續(xù)具體環(huán)節(jié)上探索性、 引領(lǐng)性的方法論研究奠定基礎(chǔ),并以此為突破口演繹出BDM算法與應(yīng)用研究的核心技術(shù)。 [0014]二、本發(fā)明的技術(shù)方案為:
[0015] 構(gòu)造BDM總體過(guò)程模型(總體流程)主要取決于下列五點(diǎn):
[0016] 1)BDM的內(nèi)在機(jī)理;
[0017] 2)BDM的創(chuàng)新理念,特別是大數(shù)據(jù)本身所具有的4V特征,及其矛盾分析的結(jié)果; [0018] 3)BDM技術(shù)架構(gòu)與基礎(chǔ)設(shè)施;
[0019] 4)現(xiàn)代研究表明:分層遞階結(jié)構(gòu)是降低系統(tǒng)復(fù)雜度的最有效的處理手段,而有序 的粒度空間理論是建立復(fù)雜系統(tǒng)的分層遞階結(jié)構(gòu)最有效的手段之一;
[0020] 5)直接或間接地做了部分的實(shí)驗(yàn)驗(yàn)證。
[0021 ]基于此,提出全新的、與海量數(shù)據(jù)挖掘有著本質(zhì)區(qū)別的BDM過(guò)程模型的總體架構(gòu)。 如圖2所示。
[0022] 1)虛擬協(xié)同過(guò)濾(篩)層:本層綜合了流過(guò)濾、數(shù)據(jù)場(chǎng)篩、信息熵篩和因果關(guān)系鏈篩 技術(shù);
[0023] 流過(guò)濾:布隆過(guò)濾技術(shù)就是通過(guò)哈希操作,可去掉不滿足選擇準(zhǔn)則的大部分元祖; Web網(wǎng)頁(yè)過(guò)濾就是通過(guò)迭代計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)威度與導(dǎo)航度,以決取舍。
[0024] 數(shù)據(jù)場(chǎng)篩:數(shù)據(jù)場(chǎng)篩就是在數(shù)據(jù)場(chǎng)中,通過(guò)數(shù)據(jù)集的規(guī)模與輻射系數(shù)建立函數(shù)關(guān) 系,以達(dá)到對(duì)數(shù)據(jù)進(jìn)行篩選的目的。
[0025] 信息熵篩:熱力學(xué)熵適合于研究海量粒子的分布規(guī)律,一個(gè)系統(tǒng)的熵值是與其無(wú) 規(guī)程度相關(guān)的,一個(gè)系統(tǒng)無(wú)規(guī)程度越高則其熵值越大,因此,熵值是一個(gè)系統(tǒng)有序度的度 量。用熵這個(gè)度量無(wú)組織程度的參量經(jīng)轉(zhuǎn)化為知識(shí)信息熵后,對(duì)數(shù)據(jù)挖掘中數(shù)據(jù)向知識(shí)的 轉(zhuǎn)化情況進(jìn)行描述。通過(guò)它與規(guī)則強(qiáng)度的關(guān)系,達(dá)到預(yù)測(cè)挖掘效果、找到供挖掘的最小數(shù)據(jù) 量的目標(biāo)。
[0026] 因果關(guān)系鏈篩:在各種不同的因果變態(tài)之間定義一種偏序關(guān)系,從而構(gòu)成"因果變 態(tài)鏈表"。我們視數(shù)據(jù)元素為"因",視挖掘目標(biāo)為"果";利用執(zhí)果索因方法,得到n個(gè)視角判 定各自主因的序列一一對(duì)挖掘目標(biāo)影響較大的數(shù)據(jù)序列,留之棄它。
[0027] 2)數(shù)據(jù)分流分類層:依據(jù)區(qū)分類型論思想。對(duì)于類別屬性和取值范圍不寬的離散 型數(shù)值屬性,可以將每個(gè)屬性值映射到相應(yīng)語(yǔ)言變量的語(yǔ)言值;但對(duì)于連續(xù)型屬性、取值范 圍很寬的離散型屬性,必須將其分為若干區(qū)間,然后將每個(gè)區(qū)間映射為一個(gè)相應(yīng)的語(yǔ)言值。 [0028] 3)基礎(chǔ)架構(gòu)與設(shè)施層:本分流后按形態(tài)遞進(jìn)新理念,各類數(shù)據(jù)分別落在Hadoop服 務(wù)器和大規(guī)模集群計(jì)算機(jī)各自的存儲(chǔ)器內(nèi);
[0029] 4)數(shù)據(jù)集"大化小"層:本層主要設(shè)計(jì)傾向"磁效應(yīng)法"、"信息熵法"、"交際法"及 "聚焦法"四類方法,另外在這三類方法的基礎(chǔ)上,還可利用若干可用、有效的數(shù)據(jù)壓縮、空 間降維、屬性約簡(jiǎn)、記錄約簡(jiǎn)等技術(shù)。
[0030] 5)數(shù)據(jù)挖掘進(jìn)程層:本層主要任務(wù),就是挖掘任務(wù)(場(chǎng)景設(shè)想)-預(yù)處理4多元聚 焦-各類過(guò)程模型-各類算法-后處理
[0031] 三、本發(fā)明技術(shù)方案的特征與優(yōu)勢(shì):
[0032] 由所構(gòu)造的BDM總體過(guò)程模型的各層功能與方法的分析可知,具有以下特征與優(yōu) 勢(shì):
[0033] 1)-套從硬件到軟件的全新的IT系統(tǒng)。在現(xiàn)實(shí)發(fā)展中,可在原有的數(shù)據(jù)平臺(tái)基礎(chǔ) 上,做漸近式改進(jìn),逐步使其具備分析和處理大數(shù)據(jù)的能力。對(duì)于網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái),可據(jù)實(shí) 情搭建:本體的、企業(yè)日常事務(wù)的、流數(shù)據(jù)的、電子商務(wù)的幾類。
[0034] 2)領(lǐng)域知識(shí)驅(qū)動(dòng):不就數(shù)據(jù)庫(kù)論BDM,而借助知識(shí)庫(kù)這一"外力"驅(qū)動(dòng)之,具體地實(shí) 現(xiàn):"采用領(lǐng)域知識(shí)輔助初始發(fā)現(xiàn)的聚焦,限制性的搜索(1992,6.?13丨681^-51^口;[1'0)、"使 用正反兩方面的例子來(lái)發(fā)現(xiàn)新舊知識(shí)的協(xié)調(diào)一致;知識(shí)與數(shù)據(jù)庫(kù)同步進(jìn)化"(1993, Jong P. Yoon與Larry Kerschberg)、"用戶的先驗(yàn)知識(shí)與先前發(fā)現(xiàn)的知識(shí)可以親合到發(fā)現(xiàn)過(guò)程 *"(1996,SarabjotS.Anand)0
[0035] 3)形態(tài)遞進(jìn):采取結(jié)構(gòu)化數(shù)據(jù)一一Web數(shù)據(jù)一一多媒體數(shù)據(jù)的挖掘進(jìn)程。
[0036] 4)抓主要矛盾:大數(shù)據(jù)的主要特征:規(guī)模大(記A)、種類多(記B)、速度快(記C)、價(jià) 值密度低(記D)。矛盾分析:數(shù)據(jù)以一個(gè)或多個(gè)流的方式到來(lái),不及時(shí)處理或存儲(chǔ),則永失 之。存在是第一性的!(C);速度極快,以致將其全部存于活動(dòng)存儲(chǔ)器或在選定時(shí)間交互是不 可能的,且"拋廢物,輕負(fù)擔(dān)"。(D);再區(qū)別類型論(B);再逐類進(jìn)行"大化小"(A)。故處理序 為:C、D-B-A。(這一點(diǎn)將在后面"BDM總體流程圖"中呈現(xiàn)出來(lái))。
[0037] 5)抓矛盾的主要方面:BDM本質(zhì)上是數(shù)據(jù)"模型"的發(fā)現(xiàn)過(guò)程,實(shí)現(xiàn)"三個(gè)不":不采 取隨機(jī)采樣而采用全體數(shù)據(jù);不竭求精確化而力求混雜性;不竭求發(fā)現(xiàn)因果關(guān)系而力求發(fā) 現(xiàn)相關(guān)關(guān)系。
[0038] 6)批判的繼承性與累積性--自然科學(xué)發(fā)展規(guī)律之一。BDM與傳統(tǒng)的DM有本質(zhì)區(qū) 別也有聯(lián)系;在"大化小"的前提下,有些DM算法仍可在BDM中使用;當(dāng)然還需創(chuàng)新算法。
[0039] 7)邦弗朗尼原理:給出一個(gè)在統(tǒng)計(jì)上可行的方法,來(lái)避免在搜索數(shù)據(jù)時(shí)出現(xiàn)的大 部分"臆造"正響應(yīng)。(避免將隨機(jī)出現(xiàn)看成真正出現(xiàn))。
[0040] 8)必須開發(fā)數(shù)據(jù)密集型挖掘技術(shù),以有效處理大數(shù)據(jù)(特別是TB級(jí)別或者PB級(jí)別 規(guī)模的數(shù)據(jù))。數(shù)據(jù)密集型挖掘技術(shù)的應(yīng)用背景很廣闊,包括信息網(wǎng)絡(luò)分析、移動(dòng)對(duì)象數(shù)據(jù) 分析等諸多領(lǐng)域。
[0041 ] 9 )BDM的四項(xiàng)策略:盡量設(shè)想挖掘場(chǎng)景;盡量多方面收集數(shù)據(jù);盡量整合數(shù)據(jù);悉心 觀察數(shù)據(jù)特征。
[0042] 10)云計(jì)算是BDM的基礎(chǔ)平臺(tái)與支撐技術(shù)。
【附圖說(shuō)明】
[0043] 圖1為KDD*的總體結(jié)構(gòu)圖;
[0044] 圖2為BDM總體過(guò)程模型圖;
[0045] 圖3為大數(shù)據(jù)特征圖;
[0046] 圖4為知識(shí)子庫(kù)與數(shù)據(jù)子庫(kù)的對(duì)應(yīng)結(jié)構(gòu)圖,給出了知識(shí)子庫(kù)中"知識(shí)結(jié)點(diǎn)"與相應(yīng) 數(shù)據(jù)子庫(kù)中"數(shù)據(jù)子類結(jié)構(gòu)"中的層之間的一一對(duì)應(yīng)關(guān)系;
[0047] 圖5輻射系數(shù)〇與數(shù)據(jù)集規(guī)模的關(guān)系圖
【具體實(shí)施方式】 [0048] 一、理論基礎(chǔ):
[0049] 1、知識(shí)表示方法一語(yǔ)言場(chǎng)與語(yǔ)言值結(jié)構(gòu)
[0050] 定義1<=〈0,1,^吣,若滿足下列條件:
[0051 ] (1 )D為基礎(chǔ)變量論域R上交叉閉區(qū)間的集合,D+為其對(duì)應(yīng)開集;
[0052] (2)N辛〇為語(yǔ)言值的有限集;
[0053] (3)彡N為N上的全序關(guān)系;
[0054] (4)I:N-D為標(biāo)準(zhǔn)值映射,滿足保序性,即:Vnl,n2GN(nl乒n2Anl彡N n2-I (nl)<I(n2)),(<為偏序關(guān)系);則稱C為語(yǔ)言場(chǎng)。
[0055] 定義2:對(duì)于語(yǔ)言場(chǎng)C =〈D,I,N,彡N>,稱F =〈D,W,K>為C的語(yǔ)言值結(jié)構(gòu),如果:(1)C 滿足定義1;
[0056] (2)K為自然數(shù);
[0057] (3)W:N-Rk 滿足:
[0058] ¥ lll,n2GN(nl^N n2^ff(nl)^dicff(n2)),
[0059] V 111,n2 GN(nl辛n2-W(nl)辛W(n2))。
[0060] 其中,<dic為[0,l]k上的字典序,即(al,…。,ak)<dic(bl,…。,bk)當(dāng)且僅當(dāng)存 在h,使得當(dāng)(X j〈h時(shí)aj=bj,ah<bh。
[0061 ] 2、挖掘庫(kù)與知識(shí)庫(kù)之間泛同倫關(guān)系的建立:
[0062] 1)知識(shí)結(jié)點(diǎn):
[0063] 定義3:在相關(guān)于論域X的知識(shí)子庫(kù)中,稱按如下形式表達(dá)的知識(shí)為不確定性規(guī)則 型知識(shí):
[0064] {l)P(X') Q(X)
[0065] ⑵ i°(T) => A(Z) /=! 3 n
[0066] (3)AP,.(J)=^g.(J) i-1. ^ n m
[0067] (4) A Pj(X) ^ A 2 i=l j=l J
[0068] 其中?(乂),?1(1),〇0),〇」0)分別為"屬性詞"(或"狀態(tài)詞")+ "程度詞"的形式。
[0069] 定義4:在定義3中,P(X)與Pi(x)稱為知識(shí)始結(jié)點(diǎn),Q(X)與Qj(X)稱為知識(shí)終結(jié)點(diǎn), ? m 并分別稱為知識(shí)素結(jié)點(diǎn);,分別稱為知識(shí)合結(jié)點(diǎn);兩者統(tǒng)稱為知識(shí)結(jié)點(diǎn)。 iM >1 J
[0070] 2)數(shù)據(jù)子類(結(jié)構(gòu)):
[0071] 定義5:對(duì)于論域X,在相應(yīng)于知識(shí)子庫(kù)的數(shù)據(jù)子庫(kù)中,與每個(gè)知識(shí)素結(jié)點(diǎn)相應(yīng)的結(jié) 構(gòu)3 =〈1]小,1,1>稱為數(shù)據(jù)子類結(jié)構(gòu)。其中,1]辛(&,1]={111,112,"_},(11;[是數(shù)據(jù)集,由下述的1 形成),它是在特定的語(yǔ)言場(chǎng)與語(yǔ)言值結(jié)構(gòu)下,表征相應(yīng)于知識(shí)素結(jié)點(diǎn)"屬性詞"或"狀態(tài)詞" 的數(shù)據(jù)集的類(稱為數(shù)據(jù)子類);N#0為語(yǔ)言值的有限集,它是刻劃相應(yīng)于知識(shí)素結(jié)點(diǎn)"程 度詞"的語(yǔ)言值的集合;
[0072] I:N-U,它是按語(yǔ)言值將數(shù)據(jù)集的類U進(jìn)行劃分的映射。在數(shù)據(jù)連續(xù)分布時(shí),通常 劃分為若干交叉區(qū)間(即:^ ;
[0073] W:N-[0,l]K(k 為正整數(shù))滿足:
[0074] V nl,n2GN(nl彡N n2-W(nl)彡dicW(n2)),
[0075] V ll 丨.,n2 GN(nl辛n2-W(nl)辛W(n2))。
[0076] 3) "知識(shí)結(jié)點(diǎn)"與"數(shù)據(jù)子類(結(jié)構(gòu))"的關(guān)系:
[0077] 定義6:設(shè)X與Y是任意的拓?fù)淇臻g,稱連續(xù)映射
[0078] F:XX[0,l]n^Y為X到Y(jié)的映射的泛同倫。(通常意義下同倫概念的擴(kuò)展)。
[0079]定義7:設(shè)f,g為從拓?fù)淇臻gX到Y(jié)的連續(xù)映射,若存在泛同倫F(x,t)=ft(x),使得 對(duì)于任意點(diǎn)xGX均有f(x)=F(x,(0,…,0)),8(1)=?(1,(1,"_,1)),則稱8泛同倫于;^并稱 F為連續(xù)映射f與映射g的泛同倫,記作f~g。
[0080]定義8:設(shè)給定兩個(gè)拓?fù)淇臻g,若至少存在一個(gè)空間到另一個(gè)空間的一個(gè)泛同倫等 價(jià)的映射,則稱這兩個(gè)空間為同一泛同倫型的空間。
[0081 ]由上述分析可知:在把一個(gè)空間換成同一個(gè)泛同倫型的空間時(shí),泛同倫類集合的 結(jié)構(gòu)并無(wú)改變,所以在同倫理論里,可以把同一泛同倫型的空間看做是相同的。給出了知識(shí) 子庫(kù)中"知識(shí)結(jié)點(diǎn)"與相應(yīng)數(shù)據(jù)子庫(kù)中"數(shù)據(jù)子類結(jié)構(gòu)"中的層之間的一一對(duì)應(yīng)關(guān)系,如圖4 所示。
[0082] 3、廣義細(xì)胞自動(dòng)機(jī)
[0083]定義9:在離散化的歐幾里德時(shí)空條件下,1^=〈1],!^,11>稱為細(xì)胞自動(dòng)機(jī)。其中,1] 是狀態(tài)空間U,其元素 u稱為狀態(tài);T是時(shí)間序列,其元素 t稱為時(shí)刻;E是細(xì)胞集合,其元素 e稱 為細(xì)胞(即空間區(qū)域);11={(P!,(p2,.}是映射集合,元素(pi: ExT -U稱為賦態(tài)映 射。
[0084] 定義io: n=〈u,->稱為因果細(xì)胞自動(dòng)機(jī),若因果必然性規(guī)律(pi (N (e):, t) -(pj (e,t)滿足下列三個(gè)條件:
[0085] (l)有限變化原理一自然界的因果必然性規(guī)律是構(gòu)筑在適于描述任何時(shí)空區(qū)域的 有限集合基礎(chǔ)上,每個(gè)時(shí)空區(qū)域都可作為這些性質(zhì)的描述對(duì)象;
[0086] (2)因果存在性原理一規(guī)律支配某時(shí)空區(qū)域,則對(duì)自動(dòng)機(jī)大部分區(qū)域也適用(適于 似決定論的細(xì)胞自動(dòng)機(jī));
[0087] (3)因果一致性原理一該規(guī)律不僅適于某時(shí)空區(qū)域,而且適于整個(gè)細(xì)胞自動(dòng)機(jī),即 整個(gè)可達(dá)性時(shí)空區(qū)域(適于決定論的細(xì)胞自動(dòng)機(jī));
[0088] 定義11:歸納邏輯因果模型是滿足下列條件的語(yǔ)義結(jié)構(gòu)x =〈s,n>
[0089] (l)S=(Sa,Si,……SMhSi為受因果必然性規(guī)律所支配的可能的因果世界,Sa為現(xiàn) 實(shí)的世界;……),V^表示組成51的不同的歷史,每個(gè)歷史是不同時(shí)空段的世 界。
[0090] (2) n是滿足定義10的因果細(xì)胞自動(dòng)機(jī);每個(gè)可能的因果世界都用相應(yīng)的因果細(xì) 胞自動(dòng)機(jī)來(lái)描述。
[0091] 定義1 2 : r * =< n ' 4 >稱為廣義細(xì)胞自動(dòng)機(jī),若因果必然性規(guī)律 ff / (e, 〇滿足定義1 〇,和下述條件:
[0092] (1)因果狀(變)態(tài)原理一在連續(xù)、漸變的因果聯(lián)系過(guò)程中,對(duì)于任意樣本空間而 言,細(xì)胞e在時(shí)刻V的所有可能的狀(變)態(tài)(作為結(jié)果)必然是由前一時(shí)刻t細(xì)胞e的鄰域N (e)取"正"(如語(yǔ)言值"小")與"反"(如語(yǔ)言值"不小")兩類狀態(tài)作為原因所導(dǎo)致的。
[0093] (2)(變態(tài)與狀態(tài)轉(zhuǎn)換原理)當(dāng)原因與結(jié)果所取變態(tài)與狀態(tài)的語(yǔ)言場(chǎng)同構(gòu)時(shí),對(duì)于 因果變態(tài)聯(lián)系的規(guī)律同樣適用于因果狀態(tài)聯(lián)系的規(guī)律,反之亦然。
[0094] 4、知識(shí)短缺
[0095]啟發(fā)型協(xié)調(diào)器的功能是模擬"創(chuàng)見意象"這一認(rèn)知心理特征,從而實(shí)現(xiàn)系統(tǒng)自身發(fā) 現(xiàn)知識(shí)短缺(短缺知識(shí)就是知識(shí)庫(kù)中到當(dāng)前為止還沒有的知識(shí))。在經(jīng)典KDD進(jìn)程中,系統(tǒng)的 聚焦通常是由用戶提供感興趣方向,大量數(shù)據(jù)中的潛在有用的信息往往被用戶忽略。為幫 助KDD盡可能多的搜索到對(duì)用戶有用的信息,以彌補(bǔ)用戶或領(lǐng)域?qū)<易陨淼木窒扌裕岣?機(jī)器的認(rèn)知自主性,我們構(gòu)造了啟發(fā)型協(xié)調(diào)器。這樣,知識(shí)發(fā)現(xiàn)系統(tǒng)在原有的用戶聚焦的基 礎(chǔ)上,又增加了系統(tǒng)自身提供聚焦方向的功能。
[0096]那么何為"知識(shí)短缺"呢?我們要做如下的限定:
[0097] (1)短缺知識(shí)只考慮單個(gè)后件的規(guī)則;
[0098] (2)同一屬性的屬性程度詞不同時(shí)出現(xiàn)在同一規(guī)則的前件和后件中;
[0099] (3)根據(jù)具體問(wèn)題確定短缺知識(shí)最多的前件個(gè)數(shù),因?yàn)榍凹€(gè)數(shù)過(guò)多勢(shì)必造成規(guī) 則難于理解。
[0100] (4)對(duì)某條規(guī)則ei八e2八…八em-h,其規(guī)則長(zhǎng)度為m+1:
[0101 ] (5)如果知識(shí)庫(kù)中已有了 A-B和B-C,則規(guī)則A-C就不是短缺的知識(shí)。
[0102]如何發(fā)現(xiàn)"知識(shí)短缺"呢?如果知識(shí)庫(kù)中只考慮單前件和單后件的知識(shí),我們可以 把規(guī)則的前件和后件看作圖的頂點(diǎn),利用圖論中求解可達(dá)關(guān)系的方法來(lái)發(fā)現(xiàn)"知識(shí)短缺"。 但知識(shí)庫(kù)中的規(guī)則很多都具有多個(gè)條件,為此,我們定義了有向超圖來(lái)解決這個(gè)問(wèn)題。
[0103]定義13: -個(gè)超圖是一個(gè)二元組<V,E>,其中V= {pi,p2,"_pn}是一個(gè)非空集合,它 的元素稱為有向圖的頂點(diǎn);E= {ei,e2,…,em}是超邊的集合,其中任意的ei(i = l,2,…,m) 都是V的一個(gè)子集。
[0104]定義14: 一個(gè)有向超圖是一個(gè)二元組<V,E>,其中V= {口1,口2,"_口11}是素知識(shí)結(jié)點(diǎn)的 集合作為圖的頂點(diǎn),E = {ei,e2,…,em}是知識(shí)庫(kù)中規(guī)則所對(duì)應(yīng)的有向邊。如一條規(guī)則ri = P1 Ap2八…八Pk-Pj,則有向邊ei =《pi,p2,…,Pk),pj>是一個(gè)序偶,其第一個(gè)元素是V的一個(gè) 子集,與規(guī)則的前件相對(duì)應(yīng),其第二個(gè)元素是V的一個(gè)元素,與規(guī)則的后件相對(duì)應(yīng)。
[0105]定義15:我們稱與同一條超邊關(guān)聯(lián)的頂點(diǎn)互相鄰接;若兩條超邊有一公共頂點(diǎn),則 稱這兩條有向超邊鄰接。
[0106]我們使用關(guān)聯(lián)規(guī)則的支持度(support)的概念來(lái)描述規(guī)則強(qiáng)度的客觀方面。即規(guī) 貝1JA-B的支持度是數(shù)據(jù)庫(kù)事務(wù)的集合中同時(shí)包含A和B的百分比。
[0107]定義16:感興趣度(interestingness)是指對(duì)數(shù)據(jù)庫(kù)中的各屬性或?qū)傩猿潭仍~的 感興趣程度,也就是用戶對(duì)知識(shí)庫(kù)中知識(shí)素結(jié)點(diǎn)的感興趣程度。在預(yù)處理階段,首先由用戶 給出每個(gè)屬性程度詞的感興趣度,即對(duì)知識(shí)素結(jié)點(diǎn)ek的感興趣程度,記為Interestingness (e k),其值域?yàn)閇0,1],該值越大,說(shuō)明用戶對(duì)該知識(shí)素結(jié)點(diǎn)越感興趣。對(duì)于知識(shí)合結(jié)點(diǎn)F = ei Ae2八…八em,其感興趣度為各知識(shí)素結(jié)點(diǎn)的感興趣度的平均值,即 m
[0108] Interesting(F )= ^ Intcresimgmssie^} / m /-I
[0109] 對(duì)于一條規(guī)則ri:F-h,它的感興趣度為 m
[0110] /nter 微 /細(xì)gn 微微成段,)十/財(cái)狀微
[0111] 其中,Len(ri)是規(guī)則ri的長(zhǎng)度。
[0112]定義17:規(guī)則強(qiáng)度(Intensity)包含對(duì)規(guī)則的客觀的支持度和主觀的感興趣度兩 方面。對(duì)規(guī)則n: F-h,其規(guī)則強(qiáng)度為
[0113] Intensity(ri) = [Interestingness(ri)+support(ri)]/2
[0114] 規(guī)則強(qiáng)度同時(shí)考慮了主觀和客觀兩方面。一方面,即使支持度較小,只要用戶對(duì)該 規(guī)則特別感興趣,則規(guī)則強(qiáng)度就不會(huì)太小,從而該知識(shí)還可以被聚焦;另一方面,如果用戶 對(duì)某一規(guī)則不太感興趣,只有該規(guī)則具有很高的支持度才有可能被聚焦。
[0115] 維護(hù)型協(xié)調(diào)器的功能是模擬"心理信息修復(fù)"這一認(rèn)知心理特征,從而實(shí)現(xiàn)知識(shí)庫(kù) 的實(shí)時(shí)維護(hù)。由于維護(hù)型協(xié)調(diào)器對(duì)KDD過(guò)程的介入,可以在對(duì)于重復(fù)性、矛盾、冗余性給予準(zhǔn) 確定義的基礎(chǔ)上,利用超圖等理論工具,實(shí)時(shí)地、盡早地將重復(fù)、矛盾、冗余的知識(shí)進(jìn)行處 理,從而做到只對(duì)那些有可能成為新知識(shí)的假設(shè)進(jìn)行評(píng)價(jià),最大限度地減少了評(píng)價(jià)工作量; 同時(shí),可對(duì)知識(shí)庫(kù)進(jìn)行實(shí)時(shí)維護(hù)。在實(shí)際的專家系統(tǒng)中,最終成為新知識(shí)的假設(shè)占原假設(shè)的 比例是很小的,大量假設(shè)會(huì)是重復(fù)和冗余的,因此維護(hù)型協(xié)調(diào)器的引入將提高KDD的效率。 在這里,首先給出知識(shí)重復(fù)、矛盾和冗余的定義,然后給出維護(hù)型協(xié)調(diào)算法。
[01 1 6] 定義18 :若在可達(dá)矩陣中p ( fil,fi2,…,fis ),j) = 1,則稱知識(shí)R: fil八fi2八…八fis -j是重復(fù)的。
[0117] 定義19:知識(shí)R:fuAfi2八…八fis-j是矛盾的當(dāng)且僅當(dāng)在知識(shí)庫(kù)中存在一個(gè)知識(shí) T:fii,fi2,…,fis-i且attr(pi) =attr(ps) 〇
[0118] 定義20:知識(shí)R:fuAfi2八…八fis-j是冗余的當(dāng)且僅當(dāng)在知識(shí)庫(kù)中存在一個(gè)知識(shí) T: fn,fi2,…,fis-i和知識(shí)K: j。
[0119] 5、雙庫(kù)對(duì)應(yīng)原理
[0120] Neisser把認(rèn)知心理學(xué)定義為"由感官獲取的信息的傳輸、簡(jiǎn)約、分散、存儲(chǔ)、恢復(fù) 和使用的全過(guò)程",這與數(shù)據(jù)挖掘認(rèn)知過(guò)程驚人地相似。于是我們利用認(rèn)知心理學(xué)的兩個(gè)重 要特征(即"創(chuàng)建意象"與"心理信息修復(fù)")來(lái)研究數(shù)據(jù)挖掘的兩個(gè)重要主題,:(1)通過(guò)模擬 "創(chuàng)建意象"來(lái)實(shí)現(xiàn)系統(tǒng)自主發(fā)現(xiàn)知識(shí)短缺,實(shí)施啟發(fā)式的聚焦(除用戶感興趣式的聚焦 外);(2)通過(guò)模擬"心理信息修復(fù)"來(lái)實(shí)現(xiàn)知識(shí)庫(kù)的實(shí)時(shí)維護(hù)。即對(duì)于BDM而言,不能僅就數(shù) 據(jù)庫(kù)論數(shù)據(jù)挖掘,而要利用其"外力"一知識(shí)庫(kù),即領(lǐng)域知識(shí)驅(qū)動(dòng)數(shù)據(jù)挖掘;實(shí)現(xiàn)"用戶的先 驗(yàn)知識(shí)與先前發(fā)現(xiàn)的知識(shí)可以耦合到發(fā)現(xiàn)過(guò)程中"。
[0121] 在巨大的數(shù)據(jù)集面前,要實(shí)現(xiàn)上述兩個(gè)主題,就必須避免的全局搜索和全局挖掘, 而要采取"定向搜索"和"定向挖掘";從而,等效地縮小搜索空間、降低算法的復(fù)雜度。為此, 必須在數(shù)據(jù)挖掘進(jìn)程中、數(shù)據(jù)庫(kù)和知識(shí)庫(kù)的特定構(gòu)造下,建立二者之間的某種對(duì)應(yīng)關(guān)系。
[0122] 我們有如下結(jié)果:
[0123] 定義21:論域X的知識(shí)結(jié)點(diǎn)集N連同其元素間的推理關(guān)系r構(gòu)成一個(gè)范疇。把N連同 其元素間的推理關(guān)系r構(gòu)成的范疇,稱為論域X的推理范疇,記為Cr(N)。
[0124] 定義22:論域X的數(shù)據(jù)子類結(jié)構(gòu)集<)',沢(丫)>連同其元素間的可達(dá)關(guān)系"cx"構(gòu)成一 個(gè)范疇(證略)。把<丫,貨(Y)>連同"~"構(gòu)成的范疇稱為X的數(shù)據(jù)子類結(jié)構(gòu)可達(dá)范疇,記為 Ck<y,洱(丫)>;相應(yīng)的本原數(shù)據(jù)子類結(jié)構(gòu)可達(dá)范疇記為〇^<丫,9^(丫)>;完全數(shù)據(jù)子類結(jié) 構(gòu)可達(dá)范疇記為Cx<y, sJ{c(y)>。
[0125] 定義23:論域X的推理范疇Cr(N)到本原數(shù)據(jù)子類結(jié)構(gòu)(完全數(shù)據(jù)子類結(jié)構(gòu))可達(dá)范 疇C〇c<U)?p(y)> ( Oo/JMyP*)之間存在函子。
[0126] 證:首先,我們建立論域X的知識(shí)結(jié)點(diǎn)集N到數(shù)據(jù)子類結(jié)構(gòu)集<Y,汧(Y)>之間的自然 的i-i映射:rotgM: <y,況(y)>,其中,f和g的意義分別為映射。當(dāng)把數(shù)據(jù)子 類結(jié)構(gòu)集換成本原數(shù)據(jù)子類結(jié)構(gòu)集< 丫,兩>(丫)>或完全數(shù)據(jù)子類結(jié)構(gòu)集<Y3c(Y)>時(shí),F(xiàn)0的 意義不變。
[0127] 對(duì)任意(n-k) GHomCr(N),在元組集別(11)中任取u,必有a(u) GiKf-l(n)),也即 u/n。但由于u是本原數(shù)據(jù)庫(kù)中的元組,故它必須滿足論域X本身所固有的屬性間的相關(guān)規(guī) 律。由規(guī)則的定義,可得u/k,從而a(u) G f-1 (iHk)),即He州f-l(k))。于是, 沢(FO (n))[沢(FO (k)),從而<f-l⑴),、J?(f-l(n))>x<f-丨(k),鄧 k,就有上式成立。于是,我們由這個(gè)關(guān)系得到了一個(gè)從正規(guī)則集到可達(dá)關(guān)系集的映射FH: FH(n->k) =
[0128] (<f-1 (n),s.R(f-1 (n))>)x<f-1 (k),s.H(f-1 (k))>) 〇
[0129] 下面我們證明映射對(duì)(F〇,F(xiàn)H)是一個(gè)函子。
[0130] 設(shè)任意q,GGHomCr(N),q= (m-n),G = (n-k) ?由F0的定義, FO (n)=<f-丨㈨,州f-l(ii))>, FO (k戶<f-l(k),叫 (FO,F(xiàn)H)滿足函子的4個(gè)條件:FO(dom(n)) =dom(FH(n))。由FH的定義,顯然成立。FO(cod (n))=c〇d(ra(n)) ?由FH的定義,顯然成立。
[0131] 因?yàn)閏〇mp(n〇 eH〇mCr( N ),所以comjXFHCrjhFFKQjeHomCocUHptyp^ 于是,F(xiàn)'fKcomph,〇) = FH(comp(m4n,n-k)) = FH(m-k) = (F0(m) °cF0(k)) = comp(F0(m) ^FO(n),F(xiàn)0(n) ^FO(k)) =comp(ra(q),冊(cè)(〇)。
[0132] 對(duì)知識(shí)結(jié)點(diǎn)n,必有n-n,因此有F0(n)^F0(n) ?也就是說(shuō),F(xiàn)H(l(n)) = l(F0(n))。
[0133] 故(F0,F(xiàn)H)是 Cr (N)到 Cx<y,y?p(y)> 的一個(gè)函子。證畢。
[0134] 從定義23可見,若Cr( N )中m到n的推理關(guān)系存在,則在Ccc<y,沢p(y)>*F0(m)到 F0(n)的可達(dá)關(guān)系存在,但反之卻不一定成立。因此,進(jìn)一步地,我們給出雙庫(kù)對(duì)應(yīng)原理中 最重要的范疇等價(jià)定理:
[0135] 定義24:(結(jié)構(gòu)對(duì)應(yīng)定理)論域X的推理范疇Cr(N)與完全數(shù)據(jù)子類結(jié)構(gòu)可達(dá)范疇 C〇c<y, s.H c(j)> 等價(jià)。
[0136] 證:假設(shè)函子(F0 FH)的意義如引理3所述。由引理3的證明知:F0是一個(gè)1-1映射, 故F0-1存在。下面再證明也是一個(gè)--映射。
[0137] 取Cgc<Y,c(X)>中的任意一個(gè)態(tài)射(FO(m)aF〇( n)),我們要證明m-n。反證:若 不然,則m X -n .由完全數(shù)據(jù)庫(kù)汧C(X)的定義,至少存在一個(gè)元組u,使得u/m且uAn,即 1 (m))但u在州f-丨(n)),也即關(guān)系1丨(m))[汧(f-丨(n))不成立,從而F0(m) 0cF0 (n)不成立。這與假設(shè)(F0(m)aF0(n))是態(tài)射矛盾。因此, m-n.所以FH-1存在。
[0138] 容易證明,(F0-1,F(xiàn)H-1)是C^ccy,識(shí)C(Y)>.到Cr ( N )的一個(gè)函子。所以Cr ( N )與 0」<)',沉(:(丫)>等價(jià)。
[0139] 6、信息擴(kuò)張?jiān)?br>[0140] (1)基于認(rèn)知物理學(xué)的"語(yǔ)言場(chǎng)理論"(筆者獨(dú)立提出)與"信息擴(kuò)散原理",發(fā)現(xiàn)了 關(guān)聯(lián)規(guī)則的特類一一意外規(guī)則參數(shù)演化的規(guī)律;解決了動(dòng)態(tài)和在線挖掘過(guò)程中知識(shí)評(píng)價(jià)與 取舍等難題。
[0141] 參數(shù)演化定理:在KDD的動(dòng)態(tài)挖掘進(jìn)程中的某一時(shí)間段內(nèi),在對(duì)實(shí)時(shí)數(shù)據(jù)庫(kù)DB實(shí)施 分庫(kù)和每種參數(shù)只考慮上升、平行、下降三種演化情況的前提下,對(duì)于特類關(guān)聯(lián)規(guī)則(意外 規(guī)則)而言,其組態(tài)空間可劃歸為3={〈0,0,0,0,0>,〈0,0,0,1,-1>,〈0,0,0,-1,1>,〈-1,0,-1,0,0>,〈-1,0,-1,1,-1>,〈-1,0,-1,-1,1>,〈0,1,-1,0,1>,〈0,1,-1,-1,1>,〈0,1,-1,1,0>, <0,1,-1,1,1>,<0,1,-1,1,-1>,<-1,1,-1,0,1>,<-1,1,-1,-1,1>,<-1,1,-1,1,0>,<-1,1,-1,1,1>,〈-1,1,-1,1,-1>}。(對(duì)波動(dòng)型的情形,利用模糊論的信息擴(kuò)散原理,可得規(guī)則參數(shù) 波動(dòng)變化的781種狀態(tài))。
[0142] 利用之,可實(shí)現(xiàn)"知識(shí)與數(shù)據(jù)庫(kù)同步進(jìn)化"。
[0143] (2)信息量定理:如果
表示任何一個(gè)元素在&中出現(xiàn)的概率,I」是對(duì)&中的任 何一個(gè)元素分類所需要的平均信息量,則對(duì)樣本空間中任一個(gè)元素分類所需要的信息量 為:
[0144] 利用之,可在BDM的前處理中,對(duì)大數(shù)據(jù)流進(jìn)行價(jià)值密度低劣數(shù)據(jù)的過(guò)濾。
[0145] 7、生態(tài)演化原理
[0146] 在BDM中,生態(tài)形式可對(duì)應(yīng)歸結(jié)為:個(gè)體(生物)<->數(shù)據(jù);個(gè)體群<->同類數(shù)據(jù)集 (結(jié)構(gòu)的,Web的,多媒體的等);群落――由前者歸并的各類數(shù)據(jù)簇;生態(tài)系統(tǒng)――混雜型數(shù) 據(jù)簇構(gòu)成的大數(shù)據(jù)系統(tǒng)。
[0147] (1)種群自然調(diào)節(jié):在環(huán)境無(wú)明顯變化的條件下,數(shù)據(jù)集(指由同類數(shù)據(jù)組成的數(shù) 據(jù)集)的數(shù)量有保持穩(wěn)定的趨勢(shì)。
[0148] (2)演替:數(shù)據(jù)在挖掘過(guò)程中,不斷地由知識(shí)庫(kù)等環(huán)境輸入知識(shí)信息等驅(qū)動(dòng)挖掘過(guò) 程,同時(shí)又向其輸出挖掘出并經(jīng)評(píng)價(jià)過(guò)的知識(shí);而被數(shù)據(jù)改變的知識(shí)庫(kù)等又反過(guò)來(lái)影響著 數(shù)據(jù)或?qū)?shù)據(jù)的選擇(聚焦)。
[0149] (3)免疫進(jìn)化:a.把新增加的數(shù)據(jù)作為抗原,把已有的知識(shí)作為抗體;通過(guò)抗體對(duì) 抗原的識(shí)別,依據(jù)其結(jié)合強(qiáng)度的大小,實(shí)現(xiàn)抗體的增值、分化、變異;通過(guò)記錄知識(shí)的持續(xù) 數(shù),表征知識(shí)的衰減和保持。在動(dòng)態(tài)挖掘進(jìn)程和生物免疫進(jìn)化過(guò)程協(xié)同原理的基礎(chǔ)上,按照 哈肯協(xié)同學(xué)思想,若把每次挖掘的結(jié)果看成是一個(gè)微觀層次的子系統(tǒng),則整個(gè)動(dòng)態(tài)挖掘進(jìn) 程就是在已有的結(jié)果上再進(jìn)一步給予宏觀上研究,形成整體認(rèn)識(shí)和評(píng)價(jià),有效地防止上一 次挖掘的結(jié)果的不確定性所帶來(lái)的影響。b.結(jié)合雙庫(kù)對(duì)應(yīng)原理中的啟發(fā)型和維護(hù)型協(xié)調(diào) 器,把常識(shí)、用戶與專家知識(shí)作為疫苗,實(shí)現(xiàn)對(duì)抗體的接種,形成定向挖掘,提高抗體的適應(yīng) 性以及獲取新的知識(shí)的能力。對(duì)獲得的新規(guī)則不急于作為記憶保存,而是先評(píng)價(jià)。期望去除 矛盾知識(shí),但是重復(fù)或冗余的知識(shí)要記憶;在形成新的應(yīng)答抽取初始抗體群時(shí),重復(fù)的知識(shí) 被抽取的可能性更大,宜于實(shí)現(xiàn)知識(shí)庫(kù)(記憶庫(kù))的實(shí)時(shí)維護(hù)和奉行。
[0150] (4)利用生態(tài)演化原理,對(duì)以前經(jīng)常挖掘出的知識(shí),在一次挖掘中不因?yàn)槠洳荒軡M 足參數(shù)閾值要求就隨意拋棄,而是加以保護(hù)(但持續(xù)數(shù)降低),這避免了由于數(shù)據(jù)的隨機(jī)分 布而帶來(lái)對(duì)挖掘結(jié)果的過(guò)大影響。
[0151] 8、泛互克性原理
[0152]美國(guó)控制論專家、模糊數(shù)學(xué)創(chuàng)始人查德教授提出互克性原理:當(dāng)系統(tǒng)的復(fù)雜性日 益增長(zhǎng)時(shí),我們作出系統(tǒng)特性的精密而有意義的描述能力將相應(yīng)降低,直至達(dá)到這樣一個(gè) 界限,其精密性和有意義(或適當(dāng)性)變成互相排斥的特性。
[0153] (1)拓展邊界效用遞減原理,顯見BDM系統(tǒng)相對(duì)于海量數(shù)據(jù)挖掘系統(tǒng)而言復(fù)雜性猛 增,因此原來(lái)意義下挖掘結(jié)果的精度與單純度在大數(shù)據(jù)顯現(xiàn)的特征面前越發(fā)顯得無(wú)意義; 代之以不竭求精確化而力求混雜性。
[0154] (2)進(jìn)一步深入的推論是:不采取隨機(jī)采樣而采用全體數(shù)據(jù)(據(jù)邦弗朗尼原理);不 竭求發(fā)現(xiàn)因果關(guān)系而力求發(fā)現(xiàn)相關(guān)關(guān)系。[7]
[0155] (3)在許多場(chǎng)景中,算法需在處理的實(shí)時(shí)性與準(zhǔn)確性間獲取一平衡。
[0156] 二、本發(fā)明的具體技術(shù)方案:
[0157] 大數(shù)據(jù)挖掘過(guò)程模型總體框架包括虛擬協(xié)同過(guò)濾(篩)層、數(shù)據(jù)分流分類層、分流 分類層、基礎(chǔ)架構(gòu)與設(shè)施層、數(shù)據(jù)集"大化小"層、數(shù)據(jù)挖掘進(jìn)程層。虛擬協(xié)同過(guò)濾層主要應(yīng) 用流過(guò)濾、數(shù)據(jù)場(chǎng)篩技術(shù)、信息熵篩以及因果關(guān)系鏈篩;分流分類層主要應(yīng)用區(qū)分類型論思 想;基礎(chǔ)架構(gòu)與設(shè)施層主要是根據(jù)分流后按形態(tài)遞進(jìn)新理念,各類數(shù)據(jù)分別落在Hadoop服 務(wù)器和大規(guī)模集群計(jì)算機(jī)各自的存儲(chǔ)器內(nèi);數(shù)據(jù)集"大化小"層主要應(yīng)用磁效應(yīng)法、交集法、 聚焦法以及其他數(shù)據(jù)壓縮、空間降維、屬性約簡(jiǎn)、記錄約簡(jiǎn)等技術(shù);數(shù)據(jù)挖掘進(jìn)程層主要功 能是利用各類過(guò)程模型和算法對(duì)數(shù)據(jù)進(jìn)行處理。
[0158] 下面分別論述大數(shù)據(jù)挖掘過(guò)程模型總體框架中各層次主要涉及的具體技術(shù)的實(shí) 現(xiàn)方案:
[0159] 1、數(shù)據(jù)場(chǎng)篩技術(shù)的實(shí)現(xiàn)有兩個(gè)步驟組成:
[0160] 第一步,在數(shù)據(jù)場(chǎng)中,根據(jù)數(shù)據(jù)集規(guī)模與輻射系數(shù)〇之間的關(guān)系(如圖5所示)以及〇 與節(jié)點(diǎn)間歐式距離,可計(jì)算任意結(jié)點(diǎn)勢(shì)函數(shù)值,如下公式所示
[0162] 對(duì)于數(shù)據(jù)流中某個(gè)節(jié)點(diǎn)位置的勢(shì)函數(shù)值較高者,可形成獲準(zhǔn)結(jié)構(gòu);較低者形成剔 除結(jié)構(gòu)。
[0163] 第二步,讓所有鍵值在S中的流元素通過(guò),而阻擋大部分鍵值不在S中的流元素通 過(guò)。(即對(duì)應(yīng)的位值全部為1,則允許流元素通過(guò);否則拒絕通過(guò)。)
[0164] 2、信息熵篩技術(shù):
[0165] 在信息熵篩技術(shù)中,利用了在統(tǒng)計(jì)力學(xué)中的物理學(xué)原理:在一定的宏觀條件下,一 個(gè)熱力學(xué)系統(tǒng)的熵值對(duì)應(yīng)于在滿足給定的宏觀條件下組成該熱力系統(tǒng)的粒子的最可幾分 布,也就是滿足該宏觀條件的最無(wú)規(guī)的分布。熱力學(xué)理論的研究還證實(shí):一個(gè)系統(tǒng)的熵值是 與其無(wú)規(guī)程度相關(guān)的,一個(gè)系統(tǒng)無(wú)規(guī)程度越高則其熵值越大,因此,熵值是一個(gè)系統(tǒng)有序度 的度量。一個(gè)系統(tǒng)有序度越高,關(guān)于這個(gè)系統(tǒng)可獲得的知識(shí)就越多,一個(gè)系統(tǒng)若處于完全無(wú) 序的狀態(tài),則其蘊(yùn)含的知識(shí)量就越小。把這一思想應(yīng)用到布爾型數(shù)據(jù)庫(kù)中,如果一個(gè)布爾型 數(shù)據(jù)庫(kù)中的交易分布是最無(wú)規(guī)的,那么關(guān)于該數(shù)據(jù)庫(kù)的各交易之間的關(guān)系就找不到什么規(guī) 律,因此,也就不可能從中挖掘出任何知識(shí)。數(shù)據(jù)庫(kù)中之所以蘊(yùn)含有規(guī)則(或知識(shí))正是因?yàn)?數(shù)據(jù)的分布偏離了無(wú)規(guī)分布,與最無(wú)規(guī)分布的偏離越大,則它蘊(yùn)含的知識(shí)就越多。以知識(shí)庫(kù) 的信息蘊(yùn)含量來(lái)恒量其知識(shí)蘊(yùn)含量,一個(gè)數(shù)據(jù)庫(kù),其信息蘊(yùn)含量越高則從中可以發(fā)現(xiàn)的知 識(shí)量就越大。
[0166] 步驟1:在原始數(shù)據(jù)庫(kù)中抽取樣本;
[0167] 步驟2:根據(jù)抽取的樣本計(jì)算該數(shù)據(jù)庫(kù)的熵值;
[0168] 步驟3:將最無(wú)規(guī)分布下的布爾型數(shù)據(jù)庫(kù)的熵值與計(jì)算出的熵值做差比較;
[0169] 步驟4:判斷比較值。如果差值大于零,該數(shù)據(jù)庫(kù)具有有效信息量;如果差值小于 零,該數(shù)據(jù)庫(kù)不具有有效信息量。
[0170] 步驟5:程序終止,輸出結(jié)果。
[0171] 其中:
[0172] 最無(wú)規(guī)分布下的布爾型數(shù)據(jù)庫(kù)的熵值公式為:
[0173] = -1) n~l
[0174] 公式中的n為數(shù)據(jù)庫(kù)中的數(shù)據(jù)組合,K為數(shù)據(jù)量,Pn為數(shù)據(jù)組合出現(xiàn)的概率。
[0175] -般認(rèn)為這一熵值對(duì)應(yīng)的分布為有效信息量為零的分布
[0176] 計(jì)算數(shù)據(jù)庫(kù)熵值公式為:
[0178]差值的公式為:
[0180] 差值反映了數(shù)據(jù)庫(kù)中的交易分布與最無(wú)規(guī)分布的偏離程度即為交易數(shù)據(jù)庫(kù)的有 效信息量。U勺最小值為零,只有當(dāng)交易數(shù)據(jù)庫(kù)的U直大于零時(shí),才可能從中挖掘出關(guān)聯(lián)規(guī) 貝1J,并且從統(tǒng)計(jì)意義上說(shuō),該值越大則數(shù)據(jù)庫(kù)中所含規(guī)則量就越大。
[0181] 3、因果關(guān)系鏈篩技術(shù):
[0182] 在因果關(guān)系鏈篩技術(shù)中,由于一個(gè)結(jié)果的產(chǎn)生是受多個(gè)原因制約的,在復(fù)雜系統(tǒng) 中,當(dāng)對(duì)其中一個(gè)原因進(jìn)行擾動(dòng)時(shí),其它的原因也可能會(huì)受到影響,這樣在判定主因的過(guò)程 中就會(huì)遇到一些困難。在用擾動(dòng)策略來(lái)解決因果關(guān)系問(wèn)題上,下面將從另一個(gè)方面入手,即 給結(jié)果一個(gè)微弱擾動(dòng)后,考察各種原因變化的情況,運(yùn)用執(zhí)果索因的因果關(guān)系主因判定方 法進(jìn)行主因的判定。
[0183] 因果關(guān)系鏈篩技術(shù)實(shí)現(xiàn)步驟為:
[0184] 步驟1:取出各個(gè)原因和結(jié)果的樣本,按照組合情況獲得對(duì)應(yīng)的原因和結(jié)果的變化 值;將變化值進(jìn)行歸一化處理,這樣便于比較和處理;
[0185] 步驟2:將各種變化值根據(jù)語(yǔ)言場(chǎng)理論進(jìn)行量化,確定它們所屬的變態(tài)的語(yǔ)言值類 型;
[0186] 步驟3:當(dāng)給結(jié)果一個(gè)擾動(dòng)后,計(jì)算各種原因變化的情況:①.針對(duì)不同的原因,確 定大前提(可得該原因相應(yīng)的Fuzzy條件語(yǔ)句);②.運(yùn)用模糊關(guān)系方程求解或求最優(yōu)近似解 的方法,求出在上述情況下該原因的因變態(tài)變化區(qū)間值。
[0187] 步驟4:通過(guò)分析找出果變態(tài)下,對(duì)應(yīng)的原因的最小變態(tài)值,查因果變態(tài)表,經(jīng)過(guò)近 似比對(duì)后,確定該因變態(tài)所屬的類型號(hào);
[0188] 步驟5:根據(jù)"因果變態(tài)鏈"判定各個(gè)因變態(tài)類型在整個(gè)鏈中的位置。其中對(duì)應(yīng)位置 在最右邊的那個(gè)原因就是在給定論域上影響結(jié)果變化最大的主因。
[0189] 4、磁效應(yīng)法技術(shù)分析:
[0190] ①若給定挖掘任務(wù)T及精度5,則存在"最小"數(shù)據(jù)子集K<D(D為真實(shí)數(shù)據(jù)集),其勢(shì) 為Q〈 ID |),使得在K中實(shí)施挖掘任務(wù)T至少具有精度S,且Q是可估的,稱K是D的"核集"。 K本質(zhì)上是數(shù)據(jù)場(chǎng)中重質(zhì)量數(shù)據(jù)構(gòu)成的,Q極大可能通過(guò)優(yōu)化兩個(gè)目標(biāo)函數(shù)(二次規(guī)劃)來(lái) 獲得,即min J(語(yǔ)言場(chǎng)下)、max Iv(信息熵下)。
[0191 ]②K的構(gòu)造性算法:根據(jù)估計(jì)值Q,可通過(guò)對(duì)若干初始數(shù)據(jù)樣本(稱為"核吸引子") 做有限次擴(kuò)展(利用"語(yǔ)義測(cè)度"實(shí)施"磁吸引"),直到其勢(shì)達(dá)到Q為止。
[0192] 5、信息熵法技術(shù)分析:
[0193] 通過(guò)知識(shí)信息熵與規(guī)則強(qiáng)度的關(guān)系,找到達(dá)到預(yù)測(cè)挖掘效果、供挖掘的最小數(shù)據(jù) 量的目標(biāo)(如可至TB級(jí));然后采用"基于最小包含球的大數(shù)據(jù)集快速
[0194] 聚類算法"等尋求聚類中心,再用"核吸引子"方法形成挖據(jù)數(shù)據(jù)集。
[0195] 6、交集法技術(shù)分析:
[0196]據(jù)"雙庫(kù)協(xié)同機(jī)制",在給定挖掘任務(wù)的語(yǔ)言值描述下:i)將涉及相應(yīng)語(yǔ)言值的知 識(shí)結(jié)點(diǎn)所對(duì)應(yīng)的數(shù)據(jù)子類結(jié)構(gòu)的層(數(shù)值集)取交集;ii)依此交集(數(shù)值集)所對(duì)應(yīng)的關(guān)系 數(shù)據(jù)庫(kù)中的記錄,再造新的挖掘數(shù)據(jù)集。
[0197] 7、聚焦法技術(shù)分析:
[0198] 用戶興趣(或0LAP等)與"知識(shí)短缺"(通過(guò)有向超圖關(guān)聯(lián)矩陣一大型稀疏矩陣求 得)兩者存在且相同時(shí),所對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫(kù)中的記錄集,構(gòu)成挖掘數(shù)據(jù)子集。
[0199] 8、多元聚焦技術(shù)分析:主要利用興趣度、0LAP、知識(shí)短缺等技術(shù)。
[0200] 9、各類具體算法分析:
[0201]①"大化小"處理后,可沿用傳統(tǒng)的DM的若干算法;
[0202] ②大數(shù)據(jù)背景下的若干創(chuàng)新性算法初探。
[0203] 10、后處理分析:利用知識(shí)融合技術(shù)、可視化技術(shù)等。
[0204] 11、針對(duì)結(jié)構(gòu)化數(shù)據(jù)挖掘的KDD*模型。
[0205]結(jié)構(gòu)化數(shù)據(jù)挖掘的KDD*模型就是KDD+雙庫(kù)協(xié)同機(jī)制。
[0206]其中,符號(hào)"+"表示在KDD技術(shù)的基礎(chǔ)上融入雙庫(kù)協(xié)同機(jī)制的機(jī)理,即構(gòu)建數(shù)據(jù)庫(kù) 與基礎(chǔ)知識(shí)庫(kù)的內(nèi)在聯(lián)系"通道",從而用基礎(chǔ)知識(shí)庫(kù)去制約與驅(qū)動(dòng)KDD的挖掘過(guò)程,改變 KDD固有的運(yùn)行機(jī)制,在結(jié)構(gòu)與功能上形成了相對(duì)于KDD而言的一個(gè)開放的、優(yōu)化的擴(kuò)體。 [0207]該模型中主要包括如下幾方面:
[0208] (1)預(yù)處理:對(duì)原始數(shù)據(jù)進(jìn)行包括數(shù)據(jù)凈化、數(shù)值化與特定轉(zhuǎn)換等在內(nèi)的處理,形 成挖掘數(shù)據(jù)庫(kù)DMDB,以供數(shù)據(jù)挖掘過(guò)程使用。
[0209] (2)聚焦:即從挖掘數(shù)據(jù)庫(kù)里進(jìn)行數(shù)據(jù)的選擇。進(jìn)行聚焦的方法主要是利用聚類分 析和判別分析。指導(dǎo)數(shù)據(jù)聚焦的方式有:①通過(guò)人機(jī)交互由專家提出感興趣的內(nèi)容,讓專家 來(lái)指導(dǎo)數(shù)據(jù)挖掘的方向。②利用啟發(fā)式協(xié)調(diào)器進(jìn)行定向的數(shù)據(jù)挖掘。
[0210] (3)求取假設(shè)規(guī)則:這是KDD的核心,它是針對(duì)真實(shí)數(shù)據(jù)庫(kù)(具有大數(shù)據(jù)量、不完全 性、不確定性、結(jié)構(gòu)性、稀疏性等特點(diǎn))中數(shù)據(jù)所隱藏的、先前未知的及具有潛在應(yīng)用價(jià)值的 信息進(jìn)行非平凡抽取。在本系統(tǒng)中主要是抽取因果關(guān)聯(lián)規(guī)則,從而進(jìn)一步豐富基礎(chǔ)知識(shí)庫(kù)。 使用的挖掘方法是統(tǒng)計(jì)歸納推理法與因果關(guān)系定性推理法。
[0211] (4)雙庫(kù)協(xié)同機(jī)制:即采用維護(hù)型協(xié)調(diào)器、啟發(fā)型協(xié)調(diào)器,分別對(duì)所獲得的假設(shè)規(guī) 則進(jìn)行處理和利用關(guān)聯(lián)強(qiáng)度激發(fā)數(shù)據(jù)聚焦進(jìn)行數(shù)據(jù)挖掘。這是我們的主要?jiǎng)?chuàng)新點(diǎn),將在下 面的幾節(jié)中加以介紹。
[0212] (5)評(píng)價(jià):這一環(huán)節(jié)主要用于對(duì)所獲得的假設(shè)規(guī)則進(jìn)行評(píng)價(jià),以決定所得的規(guī)則是 否存入知識(shí)庫(kù)。使用的方法主要有:1)由規(guī)則的關(guān)聯(lián)強(qiáng)度,通過(guò)設(shè)定一定的閾值,由計(jì)算機(jī) 來(lái)實(shí)現(xiàn);2)通過(guò)人機(jī)交互界面由專家來(lái)評(píng)價(jià),也可利用可視化工具所提供的各類圖形和分 析資料進(jìn)行評(píng)價(jià)。將經(jīng)評(píng)價(jià)認(rèn)可的規(guī)則作為新知識(shí)存入衍生知識(shí)庫(kù)中。
[0213] 12、針對(duì)非(半)結(jié)構(gòu)化數(shù)據(jù)挖掘的DFSSM模型。
[0214]非(半)結(jié)構(gòu)化數(shù)據(jù)挖掘的DFSSM模型是通過(guò)Hilbert子空間構(gòu)造,將特征抽取、變 換與映射過(guò)程融為一體,使挖掘?qū)ο蠓秶訌V泛,同時(shí)簡(jiǎn)約了特征子空間的選取過(guò)程,提 高了挖掘效率。
[0215] DFSSM主要分為如下幾個(gè)部分:
[0216] (1)復(fù)雜類型數(shù)據(jù)的知識(shí)表示及數(shù)據(jù)預(yù)處理過(guò)程
[0217]為了全面地表征待挖掘?qū)ο螅柙诟呔S空間中構(gòu)建其表示方式。由于Hilbert空間 可以很好地描述和刻畫挖掘?qū)ο笤跔顟B(tài)空間中的性質(zhì)和結(jié)構(gòu),所以在此空間進(jìn)行特征抽 取、特征變化及特征子空間的選取等一系列的操作;最終用模式來(lái)表征復(fù)雜類型數(shù)據(jù),使得 后續(xù)的各種處理過(guò)程可以參考結(jié)構(gòu)化知識(shí)發(fā)現(xiàn)過(guò)程。
[0218]在數(shù)據(jù)預(yù)處理階段,首先判斷復(fù)雜數(shù)據(jù)的類型(如文本數(shù)據(jù)、多媒體數(shù)據(jù)、空間數(shù) 據(jù)及時(shí)序數(shù)據(jù)等),然后選擇合適的特征抽取工具,進(jìn)行復(fù)雜數(shù)據(jù)對(duì)象的特征抽取操作,形 成原始的特征表征方式。該數(shù)據(jù)表征方式是構(gòu)建在高維數(shù)據(jù)空間(Hilbert空間)中,由 Hilbert空間定義可知Hilbert空間是一個(gè)完備的線性賦范空間,所以它必然是一個(gè)線性空 間。在線性空間中存在線性變換,通過(guò)線性變換可以構(gòu)建子空間,并可以利用子空間來(lái)對(duì)原 始空間進(jìn)行描述。其中空間變換成為從不同的角度分析和觀察原始空間的有益工具。同時(shí) 從原始空間到子空間,其維數(shù)將減少,更加適合于知識(shí)發(fā)現(xiàn)過(guò)程。在此提出了發(fā)現(xiàn)特征子 空間模型DFSSM方法。相對(duì)于傳統(tǒng)的向量空間模型VSM方法而言,它將特征表征中的特征抽 取、變換及映射過(guò)程融合成一個(gè)整體;其適用的挖掘?qū)ο蠓秶訌V泛;同時(shí)簡(jiǎn)約了特征子 集的選取過(guò)程,提高了挖掘效率。
[0219] DFSSM方法主要通過(guò)在高維的Hilbert空間進(jìn)行特征抽取,形成原始數(shù)據(jù)集;然后 在此基礎(chǔ)上進(jìn)行特征變換(對(duì)于文本數(shù)據(jù)類型、多媒體等數(shù)據(jù)類型可以采用空間層次分解 方法,如小波分析處理),構(gòu)造維數(shù)適中的特征子空間;在該特征子空間可以利用矩陣的奇 異值分解變化和近似計(jì)算方法來(lái)構(gòu)造模式。
[0220] (2)復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)過(guò)程
[0221] 基于模式的知識(shí)發(fā)現(xiàn)同形象思維十分相似,它包含著比較、研究、推測(cè)、預(yù)測(cè)并遵 從抽象化和具體化的法則。利用不同層次的模式可獲得反映事物的共性或本質(zhì)的規(guī)律,通 過(guò)模式操作來(lái)形成分類、聚類、相似等形式以反映事物內(nèi)在的本質(zhì)或規(guī)律。
[0222] 在關(guān)系數(shù)據(jù)庫(kù)R中,對(duì)于規(guī)范化以后的數(shù)據(jù)庫(kù)模式來(lái)說(shuō),任何一個(gè)非主屬性的完全 函數(shù)依賴于每個(gè)候選關(guān)鍵字,并且不存在任何非主屬性傳遞函數(shù)依賴于R的某個(gè)候選關(guān)鍵 字;屬性與屬性之間則是相互獨(dú)立的。結(jié)構(gòu)化的知識(shí)發(fā)現(xiàn)就是建立在此基礎(chǔ)之上。知識(shí)發(fā)現(xiàn) 過(guò)程中是以屬性為基本的信息單元參與知識(shí)發(fā)現(xiàn)的全過(guò)程,并以屬性與屬性之間的關(guān)系來(lái) 表征知識(shí)。
[0223] 但是對(duì)于文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)等復(fù)雜類型的數(shù)據(jù)來(lái)說(shuō),難以用 獨(dú)立的屬性來(lái)對(duì)其進(jìn)行表征,而是用屬性的集合以及集合之間的關(guān)系來(lái)進(jìn)行描述。模式可 以很好地表征這種數(shù)據(jù)的集合及其元素之間的關(guān)系。由于模式表示的是一個(gè)相對(duì)來(lái)說(shuō)獨(dú)立 的概念,模式可以同客觀對(duì)象的組織結(jié)構(gòu)建立聯(lián)系,也可以表示十分抽象的概念更具有可 理解性。在復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)過(guò)程中模式(或子模式)作為一個(gè)整體,參與知識(shí)發(fā)現(xiàn) 的過(guò)程。同結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)相類似,基于模式可以進(jìn)行關(guān)聯(lián)、分類和聚類以及預(yù)測(cè)等 類型的知識(shí)發(fā)現(xiàn)。
[0224] 基于模式的知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)發(fā)現(xiàn)新模式或?qū)δJ竭M(jìn)行某種確證的過(guò)程。由 于模式是定義在Hilbert空間中,因而基于模式的知識(shí)發(fā)現(xiàn)同空間變換緊密地聯(lián)系在一起。 可同分類、聚類、相似模式等收斂型的知識(shí)發(fā)現(xiàn)算法及預(yù)測(cè)、時(shí)序等發(fā)散型的知識(shí)發(fā)現(xiàn)算法 相結(jié)合,來(lái)完成各種類型的知識(shí)發(fā)現(xiàn)。同樣,在結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)中,運(yùn)用模式可以發(fā) 現(xiàn)不同抽象層次的知識(shí)。
[0225] (3)模式的評(píng)價(jià)
[0226] 經(jīng)過(guò)數(shù)據(jù)挖掘處理后將形成大量假設(shè)模式集,它們需要進(jìn)行相應(yīng)的評(píng)價(jià)才能夠存 放到知識(shí)庫(kù)中,并為模式的使用奠定基礎(chǔ)。
[0227] 評(píng)價(jià)過(guò)程需要構(gòu)造模式評(píng)價(jià)函數(shù),同時(shí)結(jié)合評(píng)價(jià)的主客觀標(biāo)準(zhǔn),采用定量的方式 來(lái)評(píng)估結(jié)果模式集中有效的、新穎的、潛在可用的及最終可理解的模式,并把它存放到知識(shí) 庫(kù)中。
[0228] 對(duì)于文本挖掘來(lái)說(shuō),其評(píng)價(jià)函數(shù)可以采用查全率、查準(zhǔn)率及信息估值等客觀指標(biāo), 也可以定義用戶感興趣度等主觀指標(biāo)。
[0229] (4)模式的解釋與呈現(xiàn)
[0230]由于模式本身的可視性不強(qiáng),不能夠讓用戶快速、準(zhǔn)確地從模式集合中獲取其所 需要的知識(shí)。因此,對(duì)于知識(shí)庫(kù)中的模式進(jìn)行解釋和呈現(xiàn)就成為用戶獲取知識(shí)的一種有效 方式。
[0231]在此,結(jié)合超圖模型來(lái)表示相應(yīng)的模式,用圖形的方式直觀地反映模式集。超圖模 型不僅可以用形象化的方式來(lái)表示知識(shí)結(jié)構(gòu),簡(jiǎn)化復(fù)雜的知識(shí)結(jié)構(gòu),使得領(lǐng)域?qū)<彝ㄟ^(guò)可 視化途徑進(jìn)行模式的操作;同時(shí)模式的超圖模型同面向?qū)ο蠹夹g(shù)有著很好的對(duì)應(yīng)關(guān)系,易 于采用面向?qū)ο蠹夹g(shù)編程實(shí)現(xiàn)模式的可視化。
[0232]對(duì)于文本挖掘來(lái)說(shuō),采用可視化信息導(dǎo)航機(jī)制給用戶提供簡(jiǎn)明、多視角的知識(shí)獲 取方法;使得用戶能夠更快的接受信息,并根據(jù)自己的興趣度對(duì)所反饋的挖掘結(jié)果進(jìn)行有 目的的查詢和瀏覽。
[0233] (5)雙庫(kù)協(xié)同機(jī)制一一兩個(gè)協(xié)調(diào)器的構(gòu)建
[0234] 提出了基于復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)系統(tǒng)的雙庫(kù)協(xié)同機(jī)制(包括啟發(fā)型協(xié)調(diào)器和 維護(hù)型協(xié)調(diào)器的構(gòu)建),這是雙庫(kù)協(xié)同機(jī)制的適用性從結(jié)構(gòu)化數(shù)據(jù)挖掘向非(半)結(jié)構(gòu)化數(shù) 據(jù)挖掘的重要拓展與體現(xiàn)。
[0235] 啟發(fā)型協(xié)調(diào)器的主要目的是為系統(tǒng)的聚焦提供另一個(gè)途徑。在經(jīng)典知識(shí)發(fā)現(xiàn)進(jìn)程 中,系統(tǒng)的聚焦通常是由用戶提供感興趣方向,知識(shí)發(fā)現(xiàn)系統(tǒng)沿此方向進(jìn)行挖掘。但如果僅 沿此方向行進(jìn),大量數(shù)據(jù)中的潛在的、也許會(huì)對(duì)用戶有用的信息往往會(huì)被忽略掉。為盡可能 多地搜索到對(duì)用戶有用的信息,以彌補(bǔ)用戶或領(lǐng)域?qū)<易陨淼木窒扌?,提高機(jī)器的認(rèn)知自 主性,而構(gòu)造了啟發(fā)型協(xié)調(diào)器。啟發(fā)型協(xié)調(diào)器是通過(guò)啟發(fā)協(xié)調(diào)算法來(lái)實(shí)現(xiàn)的,算法的實(shí)質(zhì)是 通過(guò)尋求知識(shí)短缺產(chǎn)生創(chuàng)見意向,使系統(tǒng)產(chǎn)生自動(dòng)聚焦與定向挖掘。
[0236] 維護(hù)型協(xié)調(diào)器的主要目的是實(shí)時(shí)地、盡早地將重復(fù)、冗余、矛盾的知識(shí)進(jìn)行處理, 從而做到只對(duì)那些有可能成為新知識(shí)的假設(shè)進(jìn)行評(píng)價(jià),最大限度地減少了評(píng)價(jià)工作量。傳 統(tǒng)的知識(shí)發(fā)現(xiàn)系統(tǒng),對(duì)KDD過(guò)程產(chǎn)生的假設(shè)直接進(jìn)行評(píng)價(jià),被接受的知識(shí)歸并到知識(shí)庫(kù)時(shí), 由知識(shí)庫(kù)管理系統(tǒng)負(fù)責(zé)對(duì)知識(shí)庫(kù)的重復(fù)性、冗余性、一致性進(jìn)行檢查與處理,形成新的知識(shí) 庫(kù)。此方式的缺點(diǎn)是:形成許多無(wú)意義的假設(shè)評(píng)價(jià)和由于問(wèn)題的大量積累而加重檢查的負(fù) 擔(dān)。在實(shí)際的專家系統(tǒng)中,最終成為新知識(shí)的假設(shè)占原假設(shè)的比例是很小的(發(fā)現(xiàn)新知識(shí)是 困難的),大量假設(shè)會(huì)是重復(fù)和冗余的,因此維護(hù)型協(xié)調(diào)器的引入將提高知識(shí)發(fā)現(xiàn)系統(tǒng)的效 率,利于知識(shí)庫(kù)的實(shí)時(shí)維護(hù)。
[0237] 以上【具體實(shí)施方式】?jī)H用于說(shuō)明本發(fā)明,而非用于限定本發(fā)明。
【主權(quán)項(xiàng)】
1. 大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于:包括虛擬協(xié)同過(guò)濾(篩)層、 數(shù)據(jù)分流分類層、基礎(chǔ)架構(gòu)與設(shè)施層、數(shù)據(jù)集"大化小"層、數(shù)據(jù)挖掘進(jìn)程層; 1) 虛擬協(xié)同過(guò)濾(篩)層:本層綜合了流過(guò)濾、數(shù)據(jù)場(chǎng)篩、信息熵篩和因果關(guān)系鏈篩技 術(shù); 流過(guò)濾:布隆過(guò)濾技術(shù)就是通過(guò)哈希操作,可去掉不滿足選擇準(zhǔn)則的大部分元祖;Web 網(wǎng)頁(yè)過(guò)濾就是通過(guò)迭代計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)威度與導(dǎo)航度,以決取舍; 數(shù)據(jù)場(chǎng)篩:數(shù)據(jù)場(chǎng)篩就是在數(shù)據(jù)場(chǎng)中,通過(guò)數(shù)據(jù)集的規(guī)模與輻射系數(shù)建立函數(shù)關(guān)系,以 達(dá)到對(duì)數(shù)據(jù)進(jìn)行篩選的目的; 信息熵篩:熱力學(xué)熵適合于研究海量粒子的分布規(guī)律,一個(gè)系統(tǒng)的熵值是與其無(wú)規(guī)程 度相關(guān)的,一個(gè)系統(tǒng)無(wú)規(guī)程度越高則其熵值越大,因此,熵值是一個(gè)系統(tǒng)有序度的度量,用 熵這個(gè)度量無(wú)組織程度的參量經(jīng)轉(zhuǎn)化為知識(shí)信息熵后,對(duì)數(shù)據(jù)挖掘中數(shù)據(jù)向知識(shí)的轉(zhuǎn)化情 況進(jìn)行描述,通過(guò)它與規(guī)則強(qiáng)度的關(guān)系,達(dá)到預(yù)測(cè)挖掘效果、找到供挖掘的最小數(shù)據(jù)量的目 標(biāo); 因果關(guān)系鏈篩:在各種不同的因果變態(tài)之間定義一種偏序關(guān)系,從而構(gòu)成"因果變態(tài)鏈 表",我們視數(shù)據(jù)元素為"因",視挖掘目標(biāo)為"果";利用執(zhí)果索因方法,得到η個(gè)視角判定各 自主因的序列一一對(duì)挖掘目標(biāo)影響較大的數(shù)據(jù)序列,留之棄它; 2) 數(shù)據(jù)分流分類層:依據(jù)區(qū)分類型論思想,對(duì)于類別屬性和取值范圍不寬的離散型數(shù) 值屬性,可以將每個(gè)屬性值映射到相應(yīng)語(yǔ)言變量的語(yǔ)言值;但對(duì)于連續(xù)型屬性、取值范圍很 寬的離散型屬性,必須將其分為若干區(qū)間,然后將每個(gè)區(qū)間映射為一個(gè)相應(yīng)的語(yǔ)言值; 3) 基礎(chǔ)架構(gòu)與設(shè)施層:本分流后按形態(tài)遞進(jìn)新理念,各類數(shù)據(jù)分別落在Hadoop服務(wù)器 和大規(guī)模集群計(jì)算機(jī)各自的存儲(chǔ)器內(nèi); 4) 數(shù)據(jù)集"大化小"層:本層主要設(shè)計(jì)傾向"磁效應(yīng)法"、"信息熵法"、"交際法"及"聚焦 法"四類方法,另外在這三類方法的基礎(chǔ)上,還可利用若干可用、有效的數(shù)據(jù)壓縮、空間降 維、屬性約簡(jiǎn)、記錄約簡(jiǎn)等技術(shù); 5) 數(shù)據(jù)挖掘進(jìn)程層:本層主要任務(wù),就是挖掘任務(wù)(場(chǎng)景設(shè)想)-預(yù)處理-多元聚焦- 各類過(guò)程模型-各類算法-后處理。2. 如權(quán)利要求1所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 數(shù)據(jù)場(chǎng)篩技術(shù)的實(shí)現(xiàn)有兩個(gè)步驟組成: 第一步,在數(shù)據(jù)場(chǎng)中,根據(jù)數(shù)據(jù)集規(guī)模與輻射系數(shù)σ之間的關(guān)系以及σ與節(jié)點(diǎn)間歐式距 離,可計(jì)算任意結(jié)點(diǎn)勢(shì)函數(shù)值,如下公式所示對(duì)于數(shù)據(jù)流中某個(gè)節(jié)點(diǎn)位置的勢(shì)函數(shù)值較高者,可形成獲準(zhǔn)結(jié)構(gòu);較低者形成剔除結(jié) 構(gòu); 第二步,讓所有鍵值在S中的流元素通過(guò),而阻擋大部分鍵值不在S中的流元素通過(guò)(即 對(duì)應(yīng)的位值全部為1,則允許流元素通過(guò);否則拒絕通過(guò))。3. 如權(quán)利要求1所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 信息熵篩技術(shù): 在信息熵篩技術(shù)中,利用了在統(tǒng)計(jì)力學(xué)中的物理學(xué)原理:在一定的宏觀條件下,一個(gè)熱 力學(xué)系統(tǒng)的熵值對(duì)應(yīng)于在滿足給定的宏觀條件下組成該熱力系統(tǒng)的粒子的最可幾分布,也 就是滿足該宏觀條件的最無(wú)規(guī)的分布,熱力學(xué)理論的研究還證實(shí):一個(gè)系統(tǒng)的熵值是與其 無(wú)規(guī)程度相關(guān)的,一個(gè)系統(tǒng)無(wú)規(guī)程度越高則其熵值越大,因此,熵值是一個(gè)系統(tǒng)有序度的度 量,一個(gè)系統(tǒng)有序度越高,關(guān)于這個(gè)系統(tǒng)可獲得的知識(shí)就越多,一個(gè)系統(tǒng)若處于完全無(wú)序的 狀態(tài),則其蘊(yùn)含的知識(shí)量就越小,把這一思想應(yīng)用到布爾型數(shù)據(jù)庫(kù)中,如果一個(gè)布爾型數(shù)據(jù) 庫(kù)中的交易分布是最無(wú)規(guī)的,那么關(guān)于該數(shù)據(jù)庫(kù)的各交易之間的關(guān)系就找不到什么規(guī)律, 因此,也就不可能從中挖掘出任何知識(shí),數(shù)據(jù)庫(kù)中之所以蘊(yùn)含有規(guī)則(或知識(shí))正是因?yàn)閿?shù) 據(jù)的分布偏離了無(wú)規(guī)分布,與最無(wú)規(guī)分布的偏離越大,則它蘊(yùn)含的知識(shí)就越多,以知識(shí)庫(kù)的 信息蘊(yùn)含量來(lái)恒量其知識(shí)蘊(yùn)含量,一個(gè)數(shù)據(jù)庫(kù),其信息蘊(yùn)含量越高則從中可以發(fā)現(xiàn)的知識(shí) 量就越大; 因果關(guān)系鏈篩技術(shù): 在因果關(guān)系鏈篩技術(shù)中,由于一個(gè)結(jié)果的產(chǎn)生是受多個(gè)原因制約的,在復(fù)雜系統(tǒng)中,當(dāng) 對(duì)其中一個(gè)原因進(jìn)行擾動(dòng)時(shí),其它的原因也可能會(huì)受到影響,這樣在判定主因的過(guò)程中就 會(huì)遇到一些困難,在用擾動(dòng)策略來(lái)解決因果關(guān)系問(wèn)題上,下面將從另一個(gè)方面入手,即給結(jié) 果一個(gè)微弱擾動(dòng)后,考察各種原因變化的情況,運(yùn)用執(zhí)果索因的因果關(guān)系主因判定方法進(jìn) 行主因的判定。4.如權(quán)利要求1所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 信息熵篩技術(shù)實(shí)現(xiàn)步驟為: 步驟1:在原始數(shù)據(jù)庫(kù)中抽取樣本; 步驟2:根據(jù)抽取的樣本計(jì)算該數(shù)據(jù)庫(kù)的熵值; 步驟3:將最無(wú)規(guī)分布下的布爾型數(shù)據(jù)庫(kù)的熵值與計(jì)算出的熵值做差比較; 步驟4:判斷比較值,如果差值大于零,該數(shù)據(jù)庫(kù)具有有效信息量;如果差值小于零,該 數(shù)據(jù)庫(kù)不具有有效信息量; 步驟5:程序終止,輸出結(jié)果; 其中: 最無(wú)規(guī)分布下的布爾型數(shù)據(jù)庫(kù)的熵值公式為:公式中的η為數(shù)據(jù)庫(kù)中的數(shù)據(jù)組合,K為數(shù)據(jù)量,Pn為數(shù)據(jù)組合出現(xiàn)的概率, 一般認(rèn)為這一熵值對(duì)應(yīng)的分布為有效信息量為零的分布 計(jì)算數(shù)據(jù)庫(kù)熵值公式為: 差值的公式為:差值反映了數(shù)據(jù)庫(kù)中的交易分布與最無(wú)規(guī)分布的偏離程度即為交易數(shù)據(jù)庫(kù)的有效信 息量,的最小值為零,只有當(dāng)交易數(shù)據(jù)庫(kù)的U直大于零時(shí),才可能從中挖掘出關(guān)聯(lián)規(guī)則,并 且從統(tǒng)計(jì)意義上說(shuō),該值越大則數(shù)據(jù)庫(kù)中所含規(guī)則量就越大。5. 如權(quán)利要求1所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 因果關(guān)系鏈篩技術(shù)實(shí)現(xiàn)步驟為: 步驟1:取出各個(gè)原因和結(jié)果的樣本,按照組合情況獲得對(duì)應(yīng)的原因和結(jié)果的變化值; 將變化值進(jìn)行歸一化處理,這樣便于比較和處理; 步驟2:將各種變化值根據(jù)語(yǔ)言場(chǎng)理論進(jìn)行量化,確定它們所屬的變態(tài)的語(yǔ)言值類型; 步驟3:當(dāng)給結(jié)果一個(gè)擾動(dòng)后,計(jì)算各種原因變化的情況:①針對(duì)不同的原因,確定大前 提(可得該原因相應(yīng)的Fuzzy條件語(yǔ)句);②運(yùn)用模糊關(guān)系方程求解或求最優(yōu)近似解的方法, 求出在上述情況下該原因的因變態(tài)變化區(qū)間值; 步驟4:通過(guò)分析找出果變態(tài)下,對(duì)應(yīng)的原因的最小變態(tài)值,查因果變態(tài)表,經(jīng)過(guò)近似比 對(duì)后,確定該因變態(tài)所屬的類型號(hào); 步驟5:根據(jù)"因果變態(tài)鏈"判定各個(gè)因變態(tài)類型在整個(gè)鏈中的位置,其中對(duì)應(yīng)位置在最 右邊的那個(gè)原因就是在給定論域上影響結(jié)果變化最大的主因。6. 如權(quán)利要求4所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 磁效應(yīng)法技術(shù)分析: ① 若給定挖掘任務(wù)T及精度δ,則存在"最小"數(shù)據(jù)子集K<D(D為真實(shí)數(shù)據(jù)集),其勢(shì)為Ω (Ω〈 I D I ),使得在K中實(shí)施挖掘任務(wù)T至少具有精度δ,且Ω是可估的,稱K是D的"核集",K本 質(zhì)上是數(shù)據(jù)場(chǎng)中重質(zhì)量數(shù)據(jù)構(gòu)成的,Ω極大可能通過(guò)優(yōu)化兩個(gè)目標(biāo)函數(shù)(二次規(guī)劃)來(lái)獲 得,即min J(語(yǔ)言場(chǎng)下)、max Iv(信息熵下); ② K的構(gòu)造性算法:根據(jù)估計(jì)值Ω,可通過(guò)對(duì)若干初始數(shù)據(jù)樣本(稱為"核吸引子")做有 限次擴(kuò)展(利用"語(yǔ)義測(cè)度"實(shí)施"磁吸引"),直到其勢(shì)達(dá)到Ω為止; 信息熵法技術(shù)分析: 通過(guò)知識(shí)信息熵與規(guī)則強(qiáng)度的關(guān)系,找到達(dá)到預(yù)測(cè)挖掘效果、供挖掘的最小數(shù)據(jù)量的 目標(biāo)(如可至TB級(jí));然后采用"基于最小包含球的大數(shù)據(jù)集快速聚類算法"等尋求聚類中 心,再用"核吸引子"方法形成挖據(jù)數(shù)據(jù)集; 交集法技術(shù)分析: 據(jù)"雙庫(kù)協(xié)同機(jī)制",在給定挖掘任務(wù)的語(yǔ)言值描述下:i)將涉及相應(yīng)語(yǔ)言值的知識(shí)結(jié) 點(diǎn)所對(duì)應(yīng)的數(shù)據(jù)子類結(jié)構(gòu)的層(數(shù)值集)取交集;ii)依此交集(數(shù)值集)所對(duì)應(yīng)的關(guān)系數(shù)據(jù) 庫(kù)中的記錄,再造新的挖掘數(shù)據(jù)集; 聚焦法技術(shù)分析: 用戶興趣(或OLAP等)與"知識(shí)短缺"(通過(guò)有向超圖關(guān)聯(lián)矩陣一大型稀疏矩陣求得)兩 者存在且相同時(shí),所對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫(kù)中的記錄集,構(gòu)成挖掘數(shù)據(jù)子集。7. 如權(quán)利要求5所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 多元聚焦技術(shù)分析:主要利用興趣度、OLAP、知識(shí)短缺等技術(shù); 各類具體算法分析: ① "大化小"處理后,可沿用傳統(tǒng)的DM的若干算法; ② 大數(shù)據(jù)背景下的若干創(chuàng)新性算法初探; 后處理分析:利用知識(shí)融合技術(shù)、可視化技術(shù)等。8. 如權(quán)利要求5所述的大數(shù)據(jù)挖掘過(guò)程模型總體框架的構(gòu)造方法,其特征在于: 各類具體結(jié)構(gòu)模型分析: 第一個(gè)模型,針對(duì)結(jié)構(gòu)化數(shù)據(jù)挖掘的KDD*模型; 結(jié)構(gòu)化數(shù)據(jù)挖掘的KDD*模型就是KDD+雙庫(kù)協(xié)同機(jī)制; 其中,符號(hào)"+"表示在KDD技術(shù)的基礎(chǔ)上融入雙庫(kù)協(xié)同機(jī)制的機(jī)理,即構(gòu)建數(shù)據(jù)庫(kù)與基 礎(chǔ)知識(shí)庫(kù)的內(nèi)在聯(lián)系"通道",從而用基礎(chǔ)知識(shí)庫(kù)去制約與驅(qū)動(dòng)KDD的挖掘過(guò)程,改變KDD固 有的運(yùn)行機(jī)制,在結(jié)構(gòu)與功能上形成了相對(duì)于KDD而言的一個(gè)開放的、優(yōu)化的擴(kuò)體; 該模型中主要包括如下幾方面: (1) 預(yù)處理:對(duì)原始數(shù)據(jù)進(jìn)行包括數(shù)據(jù)凈化、數(shù)值化與特定轉(zhuǎn)換等在內(nèi)的處理,形成挖 掘數(shù)據(jù)庫(kù)DMDB,以供數(shù)據(jù)挖掘過(guò)程使用; (2) 聚焦:即從挖掘數(shù)據(jù)庫(kù)里進(jìn)行數(shù)據(jù)的選擇,進(jìn)行聚焦的方法主要是利用聚類分析和 判別分析。指導(dǎo)數(shù)據(jù)聚焦的方式有:①通過(guò)人機(jī)交互由專家提出感興趣的內(nèi)容,讓專家來(lái)指 導(dǎo)數(shù)據(jù)挖掘的方向;②利用啟發(fā)式協(xié)調(diào)器進(jìn)行定向的數(shù)據(jù)挖掘; (3) 求取假設(shè)規(guī)則:這是KDD的核心,它是針對(duì)真實(shí)數(shù)據(jù)庫(kù)(具有大數(shù)據(jù)量、不完全性、不 確定性、結(jié)構(gòu)性、稀疏性等特點(diǎn))中數(shù)據(jù)所隱藏的、先前未知的及具有潛在應(yīng)用價(jià)值的信息 進(jìn)行非平凡抽取,在本系統(tǒng)中主要是抽取因果關(guān)聯(lián)規(guī)則,從而進(jìn)一步豐富基礎(chǔ)知識(shí)庫(kù),使用 的挖掘方法是統(tǒng)計(jì)歸納推理法與因果關(guān)系定性推理法; (4) 雙庫(kù)協(xié)同機(jī)制:即采用維護(hù)型協(xié)調(diào)器、啟發(fā)型協(xié)調(diào)器,分別對(duì)所獲得的假設(shè)規(guī)則進(jìn) 行處理和利用關(guān)聯(lián)強(qiáng)度激發(fā)數(shù)據(jù)聚焦進(jìn)行數(shù)據(jù)挖掘,這是我們的主要?jiǎng)?chuàng)新點(diǎn),將在下面的 幾節(jié)中加以介紹; (5) 評(píng)價(jià):這一環(huán)節(jié)主要用于對(duì)所獲得的假設(shè)規(guī)則進(jìn)行評(píng)價(jià),以決定所得的規(guī)則是否存 入知識(shí)庫(kù),使用的方法主要有:1)由規(guī)則的關(guān)聯(lián)強(qiáng)度,通過(guò)設(shè)定一定的閾值,由計(jì)算機(jī)來(lái)實(shí) 現(xiàn);2)通過(guò)人機(jī)交互界面由專家來(lái)評(píng)價(jià),也可利用可視化工具所提供的各類圖形和分析資 料進(jìn)行評(píng)價(jià),將經(jīng)評(píng)價(jià)認(rèn)可的規(guī)則作為新知識(shí)存入衍生知識(shí)庫(kù)中; 第二個(gè)模型,針對(duì)非(半)結(jié)構(gòu)化數(shù)據(jù)挖掘的DFSSM模型; 非(半)結(jié)構(gòu)化數(shù)據(jù)挖掘的DFSSM模型是通過(guò)Hilbert子空間構(gòu)造,將特征抽取、變換與 映射過(guò)程融為一體,使挖掘?qū)ο蠓秶訌V泛,同時(shí)簡(jiǎn)約了特征子空間的選取過(guò)程,提高了 挖掘效率; DFSSM主要分為如下幾個(gè)部分: (1)復(fù)雜類型數(shù)據(jù)的知識(shí)表示及數(shù)據(jù)預(yù)處理過(guò)程 為了全面地表征待挖掘?qū)ο?,需在高維空間中構(gòu)建其表示方式,由于Hilbert空間可以 很好地描述和刻畫挖掘?qū)ο笤跔顟B(tài)空間中的性質(zhì)和結(jié)構(gòu),所以在此空間進(jìn)行特征抽取、特 征變化及特征子空間的選取等一系列的操作;最終用模式來(lái)表征復(fù)雜類型數(shù)據(jù),使得后續(xù) 的各種處理過(guò)程可以參考結(jié)構(gòu)化知識(shí)發(fā)現(xiàn)過(guò)程; 在數(shù)據(jù)預(yù)處理階段,首先判斷復(fù)雜數(shù)據(jù)的類型(如文本數(shù)據(jù)、多媒體數(shù)據(jù)、空間數(shù)據(jù)及 時(shí)序數(shù)據(jù)等),然后選擇合適的特征抽取工具,進(jìn)行復(fù)雜數(shù)據(jù)對(duì)象的特征抽取操作,形成原 始的特征表征方式,該數(shù)據(jù)表征方式是構(gòu)建在高維數(shù)據(jù)空間(Hilbert空間)中,由Hilbert 空間定義可知Hilbert空間是一個(gè)完備的線性賦范空間,所以它必然是一個(gè)線性空間,在線 性空間中存在線性變換,通過(guò)線性變換可以構(gòu)建子空間,并可以利用子空間來(lái)對(duì)原始空間 進(jìn)行描述,其中空間變換成為從不同的角度分析和觀察原始空間的有益工具,同時(shí)從原始 空間到子空間,其維數(shù)將減少,更加適合于知識(shí)發(fā)現(xiàn)過(guò)程,在此提出了發(fā)現(xiàn)特征子空間模型 DFSSM方法,相對(duì)于傳統(tǒng)的向量空間模型VSM方法而言,它將特征表征中的特征抽取、變換及 映射過(guò)程融合成一個(gè)整體;其適用的挖掘?qū)ο蠓秶訌V泛;同時(shí)簡(jiǎn)約了特征子集的選取 過(guò)程,提高了挖掘效率; DFSSM方法主要通過(guò)在高維的Hilbert空間進(jìn)行特征抽取,形成原始數(shù)據(jù)集;然后在此 基礎(chǔ)上進(jìn)行特征變換(對(duì)于文本數(shù)據(jù)類型、多媒體等數(shù)據(jù)類型可以采用空間層次分解方法, 如小波分析處理),構(gòu)造維數(shù)適中的特征子空間;在該特征子空間可以利用矩陣的奇異值分 解變化和近似計(jì)算方法來(lái)構(gòu)造模式; (2) 復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)過(guò)程 基于模式的知識(shí)發(fā)現(xiàn)同形象思維十分相似,它包含著比較、研究、推測(cè)、預(yù)測(cè)并遵從抽 象化和具體化的法則,利用不同層次的模式可獲得反映事物的共性或本質(zhì)的規(guī)律,通過(guò)模 式操作來(lái)形成分類、聚類、相似等形式以反映事物內(nèi)在的本質(zhì)或規(guī)律; 在關(guān)系數(shù)據(jù)庫(kù)R中,對(duì)于規(guī)范化以后的數(shù)據(jù)庫(kù)模式來(lái)說(shuō),任何一個(gè)非主屬性的完全函數(shù) 依賴于每個(gè)候選關(guān)鍵字,并且不存在任何非主屬性傳遞函數(shù)依賴于R的某個(gè)候選關(guān)鍵字;屬 性與屬性之間則是相互獨(dú)立的,結(jié)構(gòu)化的知識(shí)發(fā)現(xiàn)就是建立在此基礎(chǔ)之上,知識(shí)發(fā)現(xiàn)過(guò)程 中是以屬性為基本的信息單元參與知識(shí)發(fā)現(xiàn)的全過(guò)程,并以屬性與屬性之間的關(guān)系來(lái)表征 知識(shí); 但是對(duì)于文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)等復(fù)雜類型的數(shù)據(jù)來(lái)說(shuō),難以用獨(dú)立 的屬性來(lái)對(duì)其進(jìn)行表征,而是用屬性的集合以及集合之間的關(guān)系來(lái)進(jìn)行描述,模式可以很 好地表征這種數(shù)據(jù)的集合及其元素之間的關(guān)系,由于模式表示的是一個(gè)相對(duì)來(lái)說(shuō)獨(dú)立的概 念,模式可以同客觀對(duì)象的組織結(jié)構(gòu)建立聯(lián)系,也可以表示十分抽象的概念更具有可理解 性,在復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)過(guò)程中模式(或子模式)作為一個(gè)整體,參與知識(shí)發(fā)現(xiàn)的過(guò) 程,同結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)相類似,基于模式可以進(jìn)行關(guān)聯(lián)、分類和聚類以及預(yù)測(cè)等類型 的知識(shí)發(fā)現(xiàn); 基于模式的知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)發(fā)現(xiàn)新模式或?qū)δJ竭M(jìn)行某種確證的過(guò)程,由于模式 是定義在Hilbert空間中,因而基于模式的知識(shí)發(fā)現(xiàn)同空間變換緊密地聯(lián)系在一起,可同分 類、聚類、相似模式等收斂型的知識(shí)發(fā)現(xiàn)算法及預(yù)測(cè)、時(shí)序等發(fā)散型的知識(shí)發(fā)現(xiàn)算法相結(jié) 合,來(lái)完成各種類型的知識(shí)發(fā)現(xiàn),同樣,在結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)中,運(yùn)用模式可以發(fā)現(xiàn)不 同抽象層次的知識(shí); (3) 模式的評(píng)價(jià) 經(jīng)過(guò)數(shù)據(jù)挖掘處理后將形成大量假設(shè)模式集,它們需要進(jìn)行相應(yīng)的評(píng)價(jià)才能夠存放到 知識(shí)庫(kù)中,并為模式的使用奠定基礎(chǔ); 評(píng)價(jià)過(guò)程需要構(gòu)造模式評(píng)價(jià)函數(shù),同時(shí)結(jié)合評(píng)價(jià)的主客觀標(biāo)準(zhǔn),采用定量的方式來(lái)評(píng) 估結(jié)果模式集中有效的、新穎的、潛在可用的及最終可理解的模式,并把它存放到知識(shí)庫(kù) 中; 對(duì)于文本挖掘來(lái)說(shuō),其評(píng)價(jià)函數(shù)可以采用查全率、查準(zhǔn)率及信息估值等客觀指標(biāo),也可 以定義用戶感興趣度等主觀指標(biāo); (4) 模式的解釋與呈現(xiàn) 由于模式本身的可視性不強(qiáng),不能夠讓用戶快速、準(zhǔn)確地從模式集合中獲取其所需要 的知識(shí),因此,對(duì)于知識(shí)庫(kù)中的模式進(jìn)行解釋和呈現(xiàn)就成為用戶獲取知識(shí)的一種有效方式; 在此,結(jié)合超圖模型來(lái)表示相應(yīng)的模式,用圖形的方式直觀地反映模式集,超圖模型不 僅可以用形象化的方式來(lái)表示知識(shí)結(jié)構(gòu),簡(jiǎn)化復(fù)雜的知識(shí)結(jié)構(gòu),使得領(lǐng)域?qū)<彝ㄟ^(guò)可視化 途徑進(jìn)行模式的操作;同時(shí)模式的超圖模型同面向?qū)ο蠹夹g(shù)有著很好的對(duì)應(yīng)關(guān)系,易于采 用面向?qū)ο蠹夹g(shù)編程實(shí)現(xiàn)模式的可視化; 對(duì)于文本挖掘來(lái)說(shuō),采用可視化信息導(dǎo)航機(jī)制給用戶提供簡(jiǎn)明、多視角的知識(shí)獲取方 法;使得用戶能夠更快的接受信息,并根據(jù)自己的興趣度對(duì)所反饋的挖掘結(jié)果進(jìn)行有目的 的查詢和瀏覽; (5)雙庫(kù)協(xié)同機(jī)制一一兩個(gè)協(xié)調(diào)器的構(gòu)建 提出了基于復(fù)雜類型數(shù)據(jù)的知識(shí)發(fā)現(xiàn)系統(tǒng)的雙庫(kù)協(xié)同機(jī)制(包括啟發(fā)型協(xié)調(diào)器和維護(hù) 型協(xié)調(diào)器的構(gòu)建),這是雙庫(kù)協(xié)同機(jī)制的適用性從結(jié)構(gòu)化數(shù)據(jù)挖掘向非(半)結(jié)構(gòu)化數(shù)據(jù)挖 掘的重要拓展與體現(xiàn); 啟發(fā)型協(xié)調(diào)器的主要目的是為系統(tǒng)的聚焦提供另一個(gè)途徑,在經(jīng)典知識(shí)發(fā)現(xiàn)進(jìn)程中, 系統(tǒng)的聚焦通常是由用戶提供感興趣方向,知識(shí)發(fā)現(xiàn)系統(tǒng)沿此方向進(jìn)行挖掘,但如果僅沿 此方向行進(jìn),大量數(shù)據(jù)中的潛在的、也許會(huì)對(duì)用戶有用的信息往往會(huì)被忽略掉。為盡可能多 地搜索到對(duì)用戶有用的信息,以彌補(bǔ)用戶或領(lǐng)域?qū)<易陨淼木窒扌?,提高機(jī)器的認(rèn)知自主 性,而構(gòu)造了啟發(fā)型協(xié)調(diào)器,啟發(fā)型協(xié)調(diào)器是通過(guò)啟發(fā)協(xié)調(diào)算法來(lái)實(shí)現(xiàn)的,算法的實(shí)質(zhì)是通 過(guò)尋求知識(shí)短缺產(chǎn)生創(chuàng)見意向,使系統(tǒng)產(chǎn)生自動(dòng)聚焦與定向挖掘; 維護(hù)型協(xié)調(diào)器的主要目的是實(shí)時(shí)地、盡早地將重復(fù)、冗余、矛盾的知識(shí)進(jìn)行處理,從而 做到只對(duì)那些有可能成為新知識(shí)的假設(shè)進(jìn)行評(píng)價(jià),最大限度地減少了評(píng)價(jià)工作量,傳統(tǒng)的 知識(shí)發(fā)現(xiàn)系統(tǒng),對(duì)KDD過(guò)程產(chǎn)生的假設(shè)直接進(jìn)行評(píng)價(jià),被接受的知識(shí)歸并到知識(shí)庫(kù)時(shí),由知 識(shí)庫(kù)管理系統(tǒng)負(fù)責(zé)對(duì)知識(shí)庫(kù)的重復(fù)性、冗余性、一致性進(jìn)行檢查與處理,形成新的知識(shí)庫(kù)。 此方式的缺點(diǎn)是:形成許多無(wú)意義的假設(shè)評(píng)價(jià)和由于問(wèn)題的大量積累而加重檢查的負(fù)擔(dān)。 在實(shí)際的專家系統(tǒng)中,最終成為新知識(shí)的假設(shè)占原假設(shè)的比例是很小的(發(fā)現(xiàn)新知識(shí)是困 難的),大量假設(shè)會(huì)是重復(fù)和冗余的,因此維護(hù)型協(xié)調(diào)器的引入將提高知識(shí)發(fā)現(xiàn)系統(tǒng)的效 率,利于知識(shí)庫(kù)的實(shí)時(shí)維護(hù)。
【文檔編號(hào)】G06F17/30GK105893483SQ201610187348
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】楊炳儒
【申請(qǐng)人】天津貝德曼科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1