亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種大數(shù)據(jù)分析系統(tǒng)及方法與流程

文檔序號:12177230閱讀:322來源:國知局
一種大數(shù)據(jù)分析系統(tǒng)及方法與流程

本發(fā)明涉及計算機科學(xué)技術(shù)領(lǐng)域,特別涉及一種大數(shù)據(jù)分析系統(tǒng)及方法。



背景技術(shù):

當(dāng)前,互聯(lián)網(wǎng)把所有入網(wǎng)的計算機全部相連,從根本上影響了人們的生產(chǎn)生活,這是目前獲取各種數(shù)據(jù)的首選。通過互聯(lián)網(wǎng)由客戶端到服務(wù)器獲取數(shù)據(jù)的模式可以概括為“請求”+“響應(yīng)”的模式。這是互聯(lián)網(wǎng)應(yīng)用協(xié)議的基本模式。

點擊鼠標(biāo)就是在發(fā)送命令,然后進行訪問,每個人的訪問記錄都詳細(xì)地記錄在瀏覽日志中,包括時間、請求內(nèi)容、地址等具體數(shù)據(jù)?;ヂ?lián)網(wǎng)上的數(shù)據(jù)都是由這些訪問記錄連在一起共同組成的,這跟獵人通過追蹤痕跡捕捉獵物是同樣的道理,訪問日志蘊藏著巨大的價值。因此,這也是大數(shù)據(jù)的重要來源之一。

世界最大的幾家互聯(lián)網(wǎng)企業(yè)如Google、Amazon、Facebook、Twitter等正稱霸著全球的互聯(lián)網(wǎng)行業(yè),它們之所以如此成功都有一個共同的因素,那就是超強的數(shù)據(jù)分析能力。這些企業(yè)每天分析處理大量的數(shù)據(jù)信息,以大數(shù)據(jù)為手段,發(fā)掘其中的商業(yè)機會,Google是這些企業(yè)中最典型的代表。據(jù)統(tǒng)計,Google每月的搜索達上千億次,并對搜索信息進行分析和處理,所處理的數(shù)據(jù)量達到600PB(1PB=100萬GB,這個信息量據(jù)說相當(dāng)于100萬年新聞早報的總和)。所有通過谷歌搜索引擎搜索的內(nèi)容和數(shù)據(jù)信息都會被其分析使用。比如,在用Google進行搜索時,在搜索框中鍵入關(guān)鍵詞,會顯示出跟搜索內(nèi)容相關(guān)的信息,如果輸入“大數(shù)據(jù)”,搜索結(jié)果會提示“大數(shù)據(jù)概念”、“大數(shù)據(jù)時代”、“大數(shù)據(jù)技術(shù)”等內(nèi)容。這是在大量歷史搜索信息的基礎(chǔ)上利用大數(shù)據(jù)技術(shù)進行分析的結(jié)果。此外,如果輸入的是錯誤信息,或直接以拼音方式輸入,谷歌會自動修正搜索內(nèi)容,然后給出正確的建議,這種搜索功能運用了同樣的搜索理論。

與傳統(tǒng)的企業(yè)經(jīng)營數(shù)據(jù)相比,大數(shù)據(jù)有兩個不同之處。

第一,數(shù)據(jù)量龐大,但與傳統(tǒng)的銷售額、庫存量等數(shù)據(jù)信息不同,Google、Facebook等互聯(lián)網(wǎng)企業(yè)對網(wǎng)站點擊產(chǎn)生的數(shù)據(jù)進行處理時在分析和管理方法上差別很大。大數(shù)據(jù)處理的核心,不是結(jié)構(gòu)化數(shù)據(jù),而是上述的網(wǎng)站點擊流數(shù)據(jù)和社交網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù),以及傳感器數(shù)據(jù)上存儲的數(shù)據(jù),無法存儲在數(shù)據(jù)庫里,統(tǒng)稱為非結(jié)構(gòu)化數(shù)據(jù)。

第二,從數(shù)據(jù)處理的企業(yè)類型來看,真正掌握龐大數(shù)據(jù)存儲和分析技術(shù)的不是傳統(tǒng)的實體行業(yè),而是新興的互聯(lián)網(wǎng)企業(yè)(Google)、社交網(wǎng)絡(luò)(Facebook)和電商企業(yè)(Amazon)等。前者可以委托后者為其進行大數(shù)據(jù)信息分析和處理服務(wù)。

Facebook可以產(chǎn)生30PB的數(shù)據(jù)量,而沃爾瑪產(chǎn)生的數(shù)據(jù)量只有2.5PB,不僅在數(shù)據(jù)量上,同時在數(shù)據(jù)的多樣性和產(chǎn)生的速度上差別也很大。由上可知,大型互聯(lián)網(wǎng)企業(yè)在互聯(lián)網(wǎng)蓬勃發(fā)展的時期,對于其它企業(yè)容易忽

視的數(shù)據(jù)價值,能夠及時開發(fā)出低成本存儲和處理的技術(shù),并將其中有價值的信息提取出來,整合運用到業(yè)務(wù)流程中,逐漸形成了自身的競爭優(yōu)勢,在互聯(lián)網(wǎng)企業(yè)中脫穎而出。目前,隨著這些互聯(lián)網(wǎng)企業(yè)的影響越來越大,更多的企業(yè)開始重視大數(shù)據(jù)的分析,利用大數(shù)據(jù)通過提供新型服務(wù),來提升客戶滿意度,進而提高企業(yè)的競爭優(yōu)勢。

大數(shù)據(jù)以迅猛的發(fā)展態(tài)勢在短短兩三年內(nèi)迅速滲透到不同行業(yè)、不同領(lǐng)域中,使生產(chǎn)效率得到大幅提高,大數(shù)據(jù)的發(fā)展趨勢與生產(chǎn)力的提高息息相關(guān)。

數(shù)據(jù)量呈現(xiàn)指數(shù)級增長。很多研究機構(gòu)共同的研究成果表明,全球數(shù)據(jù)總量將在未來數(shù)年內(nèi)呈現(xiàn)指數(shù)級增長。據(jù)美國咨詢機構(gòu)麥肯錫估計,2010年全球企業(yè)存儲的新數(shù)據(jù)量已超過7EB,用戶個人電腦上存儲了超過6EB的新數(shù)據(jù)。

不同行業(yè)的大數(shù)據(jù)強度和內(nèi)容各有不同。各個行業(yè)存儲的數(shù)據(jù)量都不相同,大數(shù)據(jù)的增長根據(jù)行業(yè)的不同,產(chǎn)生和存儲的數(shù)據(jù)類型也不相同。數(shù)據(jù)存儲量最大的領(lǐng)域有證券、投資咨詢以及銀行等金融機構(gòu),通信公司、媒體中介以及政府事業(yè)單位等部門產(chǎn)生的數(shù)據(jù)規(guī)模也很大。這些擁有數(shù)據(jù)資產(chǎn)的行業(yè)在大數(shù)據(jù)利用方面有著很大的價值潛力。

現(xiàn)有趨勢將繼續(xù)推動數(shù)據(jù)增長。在不同的地區(qū)和行業(yè)之間,相關(guān)企業(yè)都在加快速度收集數(shù)據(jù),同時也推動了傳統(tǒng)的事務(wù)數(shù)據(jù)庫的增長;多媒體在醫(yī)療衛(wèi)生等民生領(lǐng)域的廣泛應(yīng)用,大幅增加了大數(shù)據(jù)的產(chǎn)生;網(wǎng)絡(luò)社交的普遍應(yīng)用和物聯(lián)網(wǎng)在生產(chǎn)生活中的廣泛應(yīng)用都在推動著大數(shù)據(jù)的不斷增長,這些不同行業(yè)的交叉應(yīng)用進一步刺激了大數(shù)據(jù)的增長和數(shù)據(jù)池的迅速擴張。

大數(shù)據(jù)是未來推動生產(chǎn)力發(fā)展的新的技術(shù)前沿。大數(shù)據(jù)要想成為具有較強的競爭力、生產(chǎn)力、創(chuàng)新能力,需要有適當(dāng)?shù)恼咄苿?,這也是創(chuàng)造消費者盈余的關(guān)鍵要素。在醫(yī)療衛(wèi)生行業(yè),充分利用大數(shù)據(jù),可以降低運作成本,避免不必要的治療,減少治療事故發(fā)生的概率,改進和提升醫(yī)療服務(wù)質(zhì)量;在公共管理領(lǐng)域,稅收部門可以利用大數(shù)據(jù)來推動稅收工作的開展,提高相關(guān)納稅部門的工作效率;在零售行業(yè),提高和改善行業(yè)的效率可以通過供應(yīng)鏈和業(yè)務(wù)的大數(shù)據(jù)應(yīng)用來實現(xiàn);在市場營銷領(lǐng)域,充分利用大數(shù)據(jù),為消費者以更合適的價格找到符合其需求的產(chǎn)品,提高服務(wù)的附加值。

現(xiàn)今,數(shù)據(jù)也是一種資產(chǎn),可以比肩物質(zhì)資產(chǎn)和人力資本,同時它也是一種生產(chǎn)要素。隨著社會生活中多媒體、物聯(lián)網(wǎng)等新興行業(yè)的發(fā)展,企業(yè)將從這些媒介中收集到更多的信息,從而帶來數(shù)據(jù)的迅速增長。大數(shù)據(jù)在商業(yè)服務(wù)和為消費者創(chuàng)造價值上都能發(fā)揮出巨大的潛力。



技術(shù)實現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題在于,提供了一種大數(shù)據(jù)分析系統(tǒng)及方法。本發(fā)明大數(shù)據(jù)分析方法中,采用混合索引結(jié)合用并延續(xù)了B+樹和倒排索引二者的優(yōu)點,同時又避開了它們各自的缺點。提高索引構(gòu)建的速度和存儲利用率的同時還能實現(xiàn)了對數(shù)值型數(shù)據(jù)的范圍查詢功能。本發(fā)明數(shù)據(jù)濾出通過項目向量壓縮的手段提取各項目的評分特征,有效地解決了推薦系統(tǒng)中的稀疏性問題,同時極大地提高了項目相似性的計算效率。最后,通過實驗對均模型的改進效果進行了驗證,實驗結(jié)果表明本發(fā)明改進后的均模型對于評分較少的項目擁有更好的推薦效果,更符合實際系統(tǒng)的應(yīng)用需求。

為解決上述技術(shù)問題,本發(fā)明提供了一種大數(shù)據(jù)分析系統(tǒng),包括:數(shù)據(jù)檢索模塊,數(shù)據(jù)濾出模塊,數(shù)據(jù)聚類模塊,和,信息提取模塊。

所述數(shù)據(jù)檢索模塊,用于數(shù)據(jù)檢索,將數(shù)據(jù)集中的數(shù)據(jù)屬性和屬性值劃分開來,構(gòu)建雙層索引結(jié)構(gòu)。

所述據(jù)檢索模塊,首先為數(shù)據(jù)集中數(shù)據(jù)的屬性建立上層索引;

其次對上層屬性所對應(yīng)的數(shù)據(jù)值建立索引,如果是數(shù)值型數(shù)據(jù)就構(gòu)建B+樹索引結(jié)構(gòu),如果是字符型數(shù)據(jù)就構(gòu)建倒排索引。

所述數(shù)據(jù)濾出模塊,用于數(shù)據(jù)檢索后的數(shù)據(jù)濾出;所述數(shù)據(jù)濾出,采取以下均模型的變換形式:假設(shè)待變換項目i的評分向量為Ii={r1i,r2i,r3i,…,rmi}經(jīng)均模型變換,向量Ii轉(zhuǎn)換為均模型表示形式:

I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…};

其中,t0為均模型第0層的唯一元素,(t10,t11)為第1層的兩個元素,(t20,t21,t22,t23)為第2層的四個元素;以此類推,將項目評分向量轉(zhuǎn)換為指定層數(shù)的均模型。

所述數(shù)據(jù)聚類模塊,用于數(shù)據(jù)濾出后的數(shù)據(jù)聚類分析;

所述數(shù)據(jù)聚類分析,采用預(yù)測強度的分析方法;所述預(yù)測強度方法如下:

(1)將待聚類原始數(shù)據(jù)隨機分成訓(xùn)練集和測試集;

(2)取聚類數(shù)為k,對上述兩個子集進行聚類,聚類結(jié)果記為I型聚類;

(3)用訓(xùn)練集的聚類結(jié)果對測試集進行判別,結(jié)果記為II型聚類;

(4)在測試集自身聚成的第個類中,考查任一對樣本點i和i’是否在II型聚類中被錯分在不同的類,并記錄被正確劃分的比例;

(5)在這k個比例構(gòu)成中,最小者即為當(dāng)前聚類數(shù)k下的預(yù)測強度。

為解決上述技術(shù)問題,本發(fā)明還提供了一種大數(shù)據(jù)分析方法,包括:數(shù)據(jù)檢索的步驟,數(shù)據(jù)濾出的步驟,數(shù)據(jù)聚類的步驟,和,信息提取的步驟。

所述數(shù)據(jù)檢索的步驟,用于數(shù)據(jù)檢索,將數(shù)據(jù)集中的數(shù)據(jù)屬性和屬性值劃分開來,構(gòu)建雙層索引結(jié)構(gòu)。

所述據(jù)檢索的步驟,首先為數(shù)據(jù)集中數(shù)據(jù)的屬性建立上層索引;

其次對上層屬性所對應(yīng)的數(shù)據(jù)值建立索引,如果是數(shù)值型數(shù)據(jù)就構(gòu)建B+樹索引結(jié)構(gòu),如果是字符型數(shù)據(jù)就構(gòu)建倒排索引。

所述數(shù)據(jù)濾出的步驟,用于數(shù)據(jù)檢索后的數(shù)據(jù)濾出;所述數(shù)據(jù)濾出,采取以下均模型的變換形式:假設(shè)待變換項目i的評分向量為Ii={r1i,r2i,r3i,…,rmi}經(jīng)均模型變換,向量Ii轉(zhuǎn)換為均模型表示形式:

I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…};

其中,t0為均模型第0層的唯一元素,(t10,t11)為第1層的兩個元素,(t20,t21,t22,t23)為第2層的四個元素;以此類推,將項目評分向量轉(zhuǎn)換為指定層數(shù)的均模型。

所述數(shù)據(jù)聚類的步驟,用于數(shù)據(jù)濾出后的數(shù)據(jù)聚類分析;

所述數(shù)據(jù)聚類分析,采用預(yù)測強度的分析方法;所述預(yù)測強度方法如下:

(1)將待聚類原始數(shù)據(jù)隨機分成訓(xùn)練集和測試集;

(2)取聚類數(shù)為k,對上述兩個子集進行聚類,聚類結(jié)果記為I型聚類;

(3)用訓(xùn)練集的聚類結(jié)果對測試集進行判別,結(jié)果記為II型聚類;

(4)在測試集自身聚成的第個類中,考查任一對樣本點i和i’是否在II型聚類中被錯分在不同的類,并記錄被正確劃分的比例;

(5)在這k個比例構(gòu)成中,最小者即為當(dāng)前聚類數(shù)k下的預(yù)測強度。

本發(fā)明有益的技術(shù)效果在于:

(1)本發(fā)明混合索引結(jié)合用并延續(xù)了B+樹和倒排索引二者的優(yōu)點,同時又避開了它們各自的缺點。提高索引構(gòu)建的速度和存儲利用率的同時還能實現(xiàn)了對數(shù)值型數(shù)據(jù)的范圍查詢功能。

(2)本發(fā)明均模型數(shù)據(jù)濾出通過項目向量壓縮的手段提取各項目的評分特征,有效地解決了推薦系統(tǒng)中的稀疏性問題,同時極大地提高了項目相似性的計算效率。最后,通過實驗對均模型的改進效果進行了驗證,實驗結(jié)果表明本發(fā)明改進后的均模型對于評分較少的項目擁有更好的推薦效果,更符合實際系統(tǒng)的應(yīng)用需求。

(3)本發(fā)明基于改進預(yù)測強度的k-均值聚類方法對實例中大數(shù)據(jù)的聚類結(jié)果是可信且有實際意義的。在k-均值聚類算法的基礎(chǔ)上,引入了改進的預(yù)測強度,并以此確定聚類變量和聚類數(shù)。對大數(shù)據(jù)網(wǎng)站欄目平均停留時間的聚類分析表明,這種改進的大數(shù)據(jù)聚類方法的聚類縛果具有較為明確的實際意義,本發(fā)明聚類方法較常規(guī)聚類方法更適宜用來進行大數(shù)據(jù)的聚類分析。

附圖說明

圖1為本發(fā)明實施例所述雙層混合大數(shù)據(jù)索引結(jié)構(gòu)圖;

圖2為本發(fā)明實施例所述用戶項目評分矩陣-向量壓縮示意圖;

圖3為本發(fā)明實施例所述降維的用戶項目評分矩陣-向量壓縮示意圖;

圖4為本發(fā)明實施例所述均模型向量轉(zhuǎn)換過程圖;

圖5為本發(fā)明實施例所述均模型算法評估圖(100K);

具體實施方式

以下將結(jié)合實施例來詳細(xì)說明本發(fā)明的實施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。

需要說明的是,為節(jié)省說明書撰寫篇幅,避免不必要的重復(fù)和浪費,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。

一、數(shù)據(jù)檢索

本發(fā)明提出一種基于倒排索引和B+樹的混合索引結(jié)構(gòu)。B+樹的葉子結(jié)點是有序的,這使得它在對數(shù)值型數(shù)據(jù)進行范圍檢索時具有明顯的優(yōu)勢,能承受大量的工作負(fù)載,具有較為穩(wěn)定的I/O開銷。倒排索引不能對完成數(shù)值型數(shù)據(jù)的范圍檢索提供很好的支持,但因其實現(xiàn)相對簡單、查詢速度快,檢索可以一次定位,對字符型數(shù)據(jù)的索引構(gòu)建提供良好的支持。

在傳統(tǒng)索引的基礎(chǔ)上,引入了層次化索引的思想,將數(shù)據(jù)集中的數(shù)據(jù)屬性和屬性值劃分開來,構(gòu)建雙層索引結(jié)構(gòu)。首先為數(shù)據(jù)集中數(shù)據(jù)的屬性建立上層索引。其次對上層屬性所對應(yīng)的數(shù)據(jù)值建立索引,如果是數(shù)值型數(shù)據(jù)就構(gòu)建B+樹索引結(jié)構(gòu),如果是字符型數(shù)據(jù)就構(gòu)建倒排索引。這樣,不是所有數(shù)據(jù)都建立樹型結(jié)構(gòu)索引減小了由結(jié)點分裂所引起存儲空間浪費的問題,除此之外,也減少了在結(jié)點分裂過程中所產(chǎn)生的臨時結(jié)點所占的用額外存儲空間,加快了構(gòu)建索引的速率,提升了存儲空間的利用率。當(dāng)對數(shù)值型數(shù)據(jù)進行范圍查詢時,就會直接定位到下層的樹形索引完成,減小數(shù)據(jù)查詢時間和成本。

本發(fā)明設(shè)計的混合索引結(jié)合用并延續(xù)了B+樹和倒排索引二者的優(yōu)點,同時又避開了它們各自的缺點。提高索引構(gòu)建的速度和存儲利用率的同時還能實現(xiàn)了對數(shù)值型數(shù)據(jù)的范圍查詢功能。

本發(fā)明的雙層混合大數(shù)據(jù)索引結(jié)構(gòu)如圖1所示:

上層的樹形索引結(jié)構(gòu)是主要是針對數(shù)據(jù)集中所包含的屬性建立的,在該層索引中數(shù)據(jù)的具體屬性全部存儲在非葉子結(jié)點中,而B+樹的所有葉子結(jié)點中則存儲三部分信息Ai、PType、Pointer,表示的含義分別為:

(1)Ai是索引數(shù)據(jù)集的具體屬性,其中n為所有屬性的個數(shù),i∈[1,n];

(2)PType表示的是指針類型,具體類型有PType{Inverted_index,B+樹};

(3)Pointer為指向下層索引的指針,根據(jù)數(shù)據(jù)類型的不同,該指針指向不同的索引結(jié)構(gòu),即指向倒排表表頭或B+樹的根結(jié)點。

第2層索引是為第1層的屬性所對應(yīng)的數(shù)據(jù)值所構(gòu)建的索引,包括為數(shù)值型數(shù)據(jù)建立的B+樹索引結(jié)構(gòu)和為字符型數(shù)據(jù)建立的倒排表索引。具體的數(shù)據(jù)值均存儲在B+樹索引結(jié)構(gòu)的非葉子結(jié)點中,且葉子結(jié)點都是有序排列的且包含索引文件的三部分信息ARVS、Loc、Doc,分別表示的含義是:

(1)ARVS為第R個屬性的第S個屬性值,R∈[1,n2]、S∈[1,p],n2為數(shù)據(jù)集中包含的數(shù)值屬性的個數(shù),P為第R個屬性的數(shù)據(jù)個數(shù)。

(2)Loc為包含此屬性值的文件所在的位置信息。

(3)Doc為包含查詢關(guān)鍵詞的文件編號,Doc是唯一的。

倒排索引分為兩個部分,一個是“詞典”,是一個由不同索引詞構(gòu)成的索引表,記錄了不同的中文關(guān)鍵字以及它們的相關(guān)信息。另一個是“記錄表”,記錄了出現(xiàn)過每個索引詞的文檔集合以及它們的存儲地址等相關(guān)信息。第二層的倒排索引結(jié)構(gòu)中具體包含AiVj、Doc、Loc、F四部分信息,表示的含義分別為:

(1)AiVj為第i個屬性的第j個屬性值,i∈[1,n1]、j∈[1,m],

n1為字符屬性的個數(shù),m為第i個屬性包含的屬性值的個數(shù)。

(2)Doc為包含查詢關(guān)鍵詞的文件編號,Doc是唯一的。

(3)Loc為包含查詢關(guān)鍵詞文件所在的位置。

(4)F為查詢關(guān)鍵詞在數(shù)據(jù)集中出現(xiàn)的頻率。

索引的創(chuàng)建過程:

Step1首先分析要為其建立索引的數(shù)據(jù),如果已構(gòu)建的索引中沒有該數(shù)據(jù),則在混合索引的第一層構(gòu)建一個新的索引結(jié)點。

Step2判斷新添數(shù)據(jù)的屬性值類型,若是數(shù)值型數(shù)據(jù),則為其創(chuàng)建B+樹索引;若是字符型屬性則為其建立倒排索引結(jié)構(gòu)。

Step3重復(fù)執(zhí)行Step1,之前構(gòu)建的索引中如果存在當(dāng)前屬性,則不再向索引第一層增加新的結(jié)點,只把該屬性的數(shù)據(jù)添加到第二層相應(yīng)的索引中。

Step4重復(fù)以上步驟,直到為所有的數(shù)據(jù)建立索引完成為止。

索引查詢方法:

首先分析查詢條件得到關(guān)鍵詞,把查詢關(guān)鍵詞轉(zhuǎn)交給索引詞典,如果索引標(biāo)志位為Fales,返回空值表示索引文件中不存在所要查詢的數(shù)據(jù),如果為True則判斷該查詢詞返回結(jié)果的數(shù)據(jù)類型,根據(jù)不同類型定位到不同索引,讀取該詞匯的編號以及包含詞匯文檔數(shù)目,通過這些得到查詢條件的相關(guān)信息。再根據(jù)詞匯編號讀取B+樹索引或倒排索引中的內(nèi)容,整合得到的檢索內(nèi)容,最后與檢索條件進行相關(guān)性比較,對查詢結(jié)果排序得到最終結(jié)果返回給用戶。將數(shù)據(jù)表中的鍵值term_id作為查詢算法的輸入值,輸出為布爾值,具體過程如下:

(1-1)將root、term_id、layer作為輸入?yún)?shù),調(diào)用查找函數(shù)treeSearch(root,term_id,layer),將查找結(jié)果賦值給葉子頁記錄record。

(1-2)如果record為空,則直接返回空值;否則,返回真正的查找結(jié)果rid。

將當(dāng)前頁currentPage作為查找函數(shù)treeSearch的輸入,key為查找鍵和layer為初始層數(shù),可能包含查找鍵key的葉子記錄leafRecord作為函數(shù)的輸出,具體過程如下:

(2-1)如果當(dāng)前所在的是葉子頁,則采用二分查找算法查找key鍵,并給出查找結(jié)果。

(2-2)如果當(dāng)前頁不是葉子頁,則執(zhí)行步驟(2-3)到(2-6)。

(2-3)按currentPage和key值,選擇含有鍵值的子樹,獲得子節(jié)點的頁號pageNo。

(2-4)在緩沖區(qū)中根據(jù)頁號讀出它所包含的子節(jié)點頁subTreePage。

(2-5)如果找到的子節(jié)點頁是葉子頁,那么返回(2-1)。

(2-6)如果該子節(jié)點頁為分支頁,則將subTreePage、key、layer均減1作為新的輸入,遞歸調(diào)用函數(shù)返回輸出結(jié)果。

混合索引的有效性驗證

索引構(gòu)建的好壞將會直接影響到數(shù)據(jù)的組織效果和查詢結(jié)果效率,本發(fā)明提出的雙層混合索引結(jié)構(gòu)在有效性驗證時,從索引構(gòu)建的時間性能上進行了比較和分析。

時間性能分析與比較

設(shè)n1、n2分別為數(shù)據(jù)集中數(shù)值型屬性的個數(shù)和其屬性值的平均個數(shù),n3、n4分別為字符型屬性的個數(shù)以及屬性值的平均個數(shù)。則屬性值的總個數(shù)為N=n1×n2+n3×n4。假設(shè)第一層為k階B+樹索引,第二層為m階B+樹索引。

混合索引結(jié)構(gòu)的第一層B+樹高度為logk(n1+n3),假設(shè)B+樹除葉子節(jié)點外每個節(jié)點都有k個子結(jié)點。此時第一層B+樹索引需要進行分裂的節(jié)點就有FBdiv,由公式(3-1)計算得出:

第二層B+樹的高度為logm n2,假設(shè)B+樹索引除葉子節(jié)點外每個節(jié)點都有m個子結(jié)點。此時B+樹需要進行分裂的節(jié)點有SBdiv個,由公式(3-2)計算得出:

所有分裂結(jié)點的個數(shù)總共有:

如果數(shù)據(jù)集的整個索引都采用傳統(tǒng)的B+樹結(jié)構(gòu)進行索引,即為所有的屬性值都建立樹形索引索引,則分裂節(jié)點的總個數(shù)為:

將公式(3-3)和公式(3-4)進行比較可知,本發(fā)明混合索引結(jié)構(gòu)在索引創(chuàng)建時間上相對單一索引結(jié)構(gòu)而言具有較為明顯的優(yōu)越性。

二、數(shù)據(jù)濾出

傳統(tǒng)的協(xié)同過濾推薦算法雖然在實際應(yīng)用中已經(jīng)取得了不錯的效果,但是它依然存在稀疏性問題、運算效率低和可擴展性差等問題。本發(fā)明提出了基于均模型的數(shù)據(jù)濾出算法,該算法從Item向量過長入手,提出了一種均模型表示Item向量的方法,有效地縮短了項目相似性的計算時間提高了推薦系統(tǒng)對大數(shù)據(jù)的處理效率,可較好地應(yīng)用在大規(guī)模數(shù)據(jù)集上。

均模型的基本原理

均模型的本質(zhì)是通過分層的評分均值,提取了項目的主要評分特征,在保證推薦精度的同時,壓縮了項目評分向量長度,從而大幅提高了推薦效率。均模型對用戶-項目評分矩陣的壓縮過程分別如圖2,圖3所示,其中m>>t。

定義3.1均模型通過分層均值提取項目評分特征的向量轉(zhuǎn)換模型,表現(xiàn)形式為一棵有序的完全二叉樹。當(dāng)項目無相應(yīng)評分信息時,為一棵空樹,否則在該二叉樹中左子節(jié)點均小于父節(jié)點,右子節(jié)點均大于父節(jié)點,各個子樹也均滿足以上規(guī)律。

定義3.2在均模型的層次劃分中,二叉樹的根節(jié)點為均模型的第0層,為項目評分向量的總均值,代表用戶對該項目評分的總體水平,視為項目的主要評分特征;以此類推,均模型的其他層次均值代表項目評分的各個分特征。

均模型變換形式:

假設(shè)待變換項目i的評分向量為Ii={r1i,r2i,r3i,…,rmi}經(jīng)均模型變換,向量Ii轉(zhuǎn)換為均模型表示形式:

I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…}。

其中,t0為均模型第0層的唯一元素,(t10,t11)為第1層的兩個元素,(t20,t21,t22,t23)為第2層的四個元素。以此類推,便能將項目評分向量轉(zhuǎn)換為指定層數(shù)的均模型。

均模型變換公式為:

其中,F(xiàn)k為第k(k≥0)層的轉(zhuǎn)換公式,card(Ii)為項目i的評分?jǐn)?shù)。均模型向量轉(zhuǎn)換流程如圖4所示。

均模型轉(zhuǎn)換算法

輸入:原始項目評分向量Ii={r1i,r2i,r3i,…,rmi},轉(zhuǎn)換層數(shù)k。

輸出:均模型項目向量I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…}。

步驟:

(1)第0層,

(2)首先,根據(jù)t0將向量Ii分為兩個向量:

(3)然后計算均模型第1層的兩個元素:

(4)同理根據(jù)t10和t11分別將向量I10i和I11i分為向量I20i、I21i和I22i、I23i,然后分別計算均模型第2層的四個元素t20,t21,t22,t23;

(5)以此類推,得到均模型向量

I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…}。

為充分驗證本發(fā)明均模型的效果,本發(fā)明采用MovieLens 100K和MovieLens 1M(見表1)兩個經(jīng)典數(shù)據(jù)集對均模型的改進效果做對比實驗。在實驗過程中將數(shù)據(jù)集隨機分為5等份,采用五折交叉驗證的方式進行實驗。

表1實驗數(shù)據(jù)采集

本發(fā)明實施例通過MAE值、召回率和NDCG三個評測指標(biāo),分別評測本發(fā)明均模型(Improved MM)的預(yù)測準(zhǔn)確度、分類準(zhǔn)確度和排序準(zhǔn)確度。

首先,通過MAE值對比分析兩層均模型(level1,包含第0層與第1層)和三層均模型(level2,包含第0層至第2層)在改進前與改進后的推薦精度。然后,通過召回率和NDCG對比分析改進后均模型(Improved MM)、云模型(Cloud_Model)以及經(jīng)典算法Cosine算法在IBCF算法中的應(yīng)用效果,從而從對Improved MM進行多角度的輔助評測。

如圖5所示,level1_Improved MM和level2_Improved MM與改進前對應(yīng)層數(shù)的均模型相比,在推薦精度上都有比較明顯的提升。然而,在1M數(shù)據(jù)集上,均模型的改進效果相對較小,甚至level1_Improved MM與level1_MM的推薦效果幾乎相同。實驗的結(jié)果是,本發(fā)明均模型在100K數(shù)據(jù)集上的改進效果明顯,但是在1M數(shù)據(jù)集上的改進效果減弱。

三、數(shù)據(jù)聚類

聚類是數(shù)據(jù)挖掘中的重要問題,也是大數(shù)據(jù)分析的核也問題之一。均值聚類算法是一種簡單有效的距離算法,因而應(yīng)用十分廣泛。與層次聚類算法不同,改算法需要每次都計算任意兩點之間的距離,所以它比層次距離具有更快的收斂速度。但k-均值聚類算法有兩個缺陷,一是需要事先確定聚類數(shù),二是受初始聚類中也的影響較大。

本發(fā)明提出了一種基于預(yù)測強度的聚類數(shù)確定方法。

預(yù)測強度的定義為

其中,Xtr,Xte,分別表示對原始數(shù)據(jù)進行隨機劃分所得的訓(xùn)練集和測試集;c(Xtr,k)表示訓(xùn)練集的聚類過程,共聚成k類;Ak1,Ak2,…,Akk心表示測試集自身聚成的k類,i,i’是同一個類中的樣本點,nkj是Akj中樣本點的個數(shù);D[C(Xtr,k),Xte]表示一個k x k矩陣,其第i行和第i’列的元素取0或1,取值0表示不在同一類,取值1表示用訓(xùn)練集對:i和i’進行聚類;ps(k)表示聚類數(shù)為k時聚類結(jié)果的預(yù)測強度,取值區(qū)間為[0,1]。

預(yù)測強度計算過程如下:

(1)將待聚類原始數(shù)據(jù)隨機分成訓(xùn)練集和測試集;

(2)取聚類數(shù)為k,對上述兩個子集進行聚類,聚類結(jié)果記為I型聚類;

(3)用訓(xùn)練集的聚類結(jié)果對測試集進行判別,結(jié)果記為II型聚類;

(4)在測試集自身聚成的第個類中,考查任一對樣本點i和i’是否在II型聚類中被錯分在不同的類,并記錄被正確劃分的比例;

(5)在這k個比例構(gòu)成中,最小者即為當(dāng)前聚類數(shù)k下的預(yù)測強度。

顯然,預(yù)測強度的直觀含義是當(dāng)前聚類結(jié)果能正確預(yù)測新樣本點的能力。在實際中,可W預(yù)測強度為目標(biāo)函數(shù),W聚類數(shù)和變量子集為影響預(yù)測強度的因素,通過選擇逼當(dāng)?shù)木垲悢?shù)和變量子集,使預(yù)測強度最大化。

在預(yù)測強度的計算過程中,因為訓(xùn)練集和測試集是隨化劃分的,所W某些偶然因素可能對預(yù)測強度的計算結(jié)果產(chǎn)生較大影響。為了降低偶然因素的影響,本發(fā)明采用一種改進方法計算預(yù)測強度,具體做法為:首先將數(shù)據(jù)集隨機分為若干等分,將每一等分輪流作為測試集,求出各自的預(yù)測強度后,再取其平均值為這一聚類數(shù)下的預(yù)測強度。

基于改進預(yù)測強度的k-均值聚類方法對實例中大數(shù)據(jù)的聚類結(jié)果是可信且有實際意義的。在k-均值聚類算法的基礎(chǔ)上,引入了改進的預(yù)測強度,并以此確定聚類變量和聚類數(shù)。對大數(shù)據(jù)網(wǎng)站欄目平均停留時間的聚類分析表明,這種改進的大數(shù)據(jù)聚類方法的聚類縛果具有較為明確的實際意義,本發(fā)明方法較常規(guī)聚類方法更適宜用來進行大數(shù)據(jù)的聚類分析。

四、信息提取

信息提取其實就是常說的信息抽取(Information Extraction:IE),也就是把需要提取的數(shù)據(jù)源里面的信息進行一些結(jié)構(gòu)化的處理并且能夠組織成便于人們查詢利用的形式。在實際生活和工作當(dāng)中,信息源具有廣泛性,它所表現(xiàn)出來的形式也是千變?nèi)f化錯綜復(fù)雜的,特別是在這個大數(shù)據(jù)時代,往往不能正確地利用信息源并且做出決策。所以有必要對這些復(fù)雜的信息源進行有效的信息提取。

對于聚類分析處理好的網(wǎng)頁信息源,首先是對用戶無用的標(biāo)簽去除,把一些錯誤或者不規(guī)則的標(biāo)簽進行修復(fù)整理,比如注釋標(biāo)簽"<script>"等腳本文件。如今大量的網(wǎng)頁都是運用TABLE或DIV標(biāo)簽來進行整合的,所以本發(fā)明在進行數(shù)據(jù)處理時就按照這兩種當(dāng)中的一種標(biāo)簽來構(gòu)造樹,其中的HTML文件就是樹的根節(jié)點,送兩種標(biāo)簽相應(yīng)的網(wǎng)頁塊即是子節(jié)點。

然后對幾部分內(nèi)容中間包含的語義進行分析。步驟是,先是對根節(jié)點中的標(biāo)簽樹包含的DIV或者TABLE節(jié)點進行數(shù)據(jù)收集,當(dāng)然提取信息時只會提取這個層的節(jié)點內(nèi)容。

在提取到的同層次標(biāo)簽中,需要對其進行進一步檢測。也就是說,如果提取的子標(biāo)簽中在進行語義檢測之后還是能檢測出來其包含的內(nèi)容與用戶需求的內(nèi)容關(guān)系程度不大或者根本用戶根本不關(guān)也,那么可以視其為信息冗余部分,可以直接將冗余內(nèi)容丟棄刪除。

接下來進行分隔條檢測步驟,用戶在對標(biāo)簽的處理時使用分層處理方法的,也就是說之前已經(jīng)刪除了那些與用戶期望無關(guān)的數(shù)據(jù)信息,這樣對于檢測的數(shù)據(jù)信息塊的數(shù)量就相對很少,提高了工作效率以及數(shù)據(jù)處理速度。

在經(jīng)過以上步驟以后,網(wǎng)頁內(nèi)容已經(jīng)被劃分成以DIV或者TABLE標(biāo)簽標(biāo)示的相對不統(tǒng)一的語義塊信息,如果需要對這些語義塊信息進行更深層次的處理就需要把它們轉(zhuǎn)化為完整的DOM數(shù)形式,運用逐級遞歸法對包含各自不同內(nèi)容的DOM樹進行數(shù)據(jù)信息提取。

提取數(shù)據(jù)塊的主要內(nèi)容時可以運用詞頻共現(xiàn)方法對DOM樹包含的所有標(biāo)簽進行遍歷,在遍歷過程當(dāng)中如果發(fā)現(xiàn)有些信息塊內(nèi)容與用戶期望的數(shù)據(jù)信息關(guān)系程度不大,也就是信息冗余部分,那么可以將其去除并保留用戶期望獲取的數(shù)據(jù)信息。

所有上述的首要實施這一知識產(chǎn)權(quán),并沒有設(shè)定限制其他形式的實施這種新產(chǎn)品和/或新方法。本領(lǐng)域技術(shù)人員將利用這一重要信息,上述內(nèi)容修改,以實現(xiàn)類似的執(zhí)行情況。但是,所有修改或改造基于本發(fā)明新產(chǎn)品屬于保留的權(quán)利。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1