一種數(shù)據(jù)挖掘分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種數(shù)據(jù)挖掘分析系統(tǒng),包括輸入輸出模塊,為用戶提供查詢輸入和結(jié)果輸出;興趣信息存儲模塊,用于存放用戶興趣數(shù)據(jù)信息;查詢分析模塊,根據(jù)用戶查詢請求進(jìn)行分析形成新的查詢請求;Web處理模塊,通過并行的方式調(diào)用多個網(wǎng)頁數(shù)據(jù);結(jié)果預(yù)處理模塊,對Web處理模塊的數(shù)據(jù)信息進(jìn)行整合處理后發(fā)送給查詢過濾模塊;查詢過濾模塊,根據(jù)興趣信息存儲模塊內(nèi)的數(shù)據(jù)信息對結(jié)果預(yù)處理模塊中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序,并將查詢結(jié)果通過輸入輸出模塊輸出給用戶。本發(fā)明通過分析返回的搜索結(jié)果并進(jìn)行加工處理,再向用戶返回針對性的搜索結(jié)果,提高了檢索效率。
【專利說明】一種數(shù)據(jù)挖掘分析系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種數(shù)據(jù)挖掘分析系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息爆炸式的增長,人們通過分析檢索到的信息不是太少,而是太多了,且大多數(shù)都是與查詢請求無關(guān)的信息。傳統(tǒng)分析及一般的元分析系統(tǒng)已經(jīng)越來越不能滿足人們的需求,因而數(shù)據(jù)挖掘技術(shù)日益成為檢索領(lǐng)域研宄的熱點(diǎn)問題。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。但現(xiàn)有技術(shù)不能根據(jù)用戶輸入的搜索關(guān)鍵詞及時返回有效搜索結(jié)果。用戶對數(shù)據(jù)挖掘分析的返回結(jié)果進(jìn)行滿意度評價后,現(xiàn)有系統(tǒng)不會對用戶的滿意度反饋信息進(jìn)行學(xué)習(xí)分析,搜索結(jié)果針對性差。另外,現(xiàn)有系統(tǒng)結(jié)構(gòu)模型不利于保證后臺數(shù)據(jù)的安全性和保證處理的一致性。因此,為了避免現(xiàn)有技術(shù)中存在的缺點(diǎn),有必要對現(xiàn)有技術(shù)作出改進(jìn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的缺點(diǎn)與不足,提供一種可向用戶返回針對性搜索結(jié)果的數(shù)據(jù)挖掘分析系統(tǒng)。
[0004]本發(fā)明是通過以下的技術(shù)方案實現(xiàn)的:
[0005]一種數(shù)據(jù)挖掘分析系統(tǒng),包括:
[0006]輸入輸出模塊,為用戶提供可視化的查詢輸入和結(jié)果輸出;
[0007]興趣信息存儲模塊,用于存放用戶興趣數(shù)據(jù)信息;
[0008]查詢分析模塊,根據(jù)興趣信息存儲模塊的數(shù)據(jù)信息對用戶查詢請求進(jìn)行分析,并對查詢語句進(jìn)行擴(kuò)展形成新的更長、更準(zhǔn)確的查詢請求;
[0009]Web處理模塊,通過并行的方式調(diào)用多個網(wǎng)頁數(shù)據(jù),以獲得所需的網(wǎng)頁數(shù)據(jù)并將網(wǎng)頁數(shù)據(jù)發(fā)送給結(jié)果預(yù)處理模塊;
[0010]結(jié)果預(yù)處理模塊,對Web處理模塊的數(shù)據(jù)信息進(jìn)行整合處理后發(fā)送給查詢過濾模塊;
[0011]查詢過濾模塊,根據(jù)興趣信息存儲模塊內(nèi)的數(shù)據(jù)信息對結(jié)果預(yù)處理模塊中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序,并將查詢結(jié)果通過輸入輸出模塊輸出給用戶。
[0012]所述興趣信息存儲模塊中的用戶興趣數(shù)據(jù)信息為用戶訪問網(wǎng)頁歷史記錄中的提取信息。
[0013]所述結(jié)果輸出為一個線性的文檔列表。
[0014]所述查詢過濾模塊包括接收處理模塊和數(shù)據(jù)分析模塊,所述接收處理模塊接收用戶查詢請求得到的索引文件,通過數(shù)據(jù)分析模塊對所述索引文件進(jìn)行分析并給出查詢結(jié)果;所述數(shù)據(jù)分析模塊根據(jù)用戶興趣數(shù)據(jù)信息分析得到新的查詢語句,根據(jù)新的查詢語句在所述索引文件中獲取所需的目標(biāo)索引文件。
[0015]所述查詢分析模塊分析用戶行為得到用戶興趣數(shù)據(jù)信息。
[0016]所述用戶行為包括用戶瀏覽網(wǎng)頁的選擇性、用戶瀏覽網(wǎng)頁的局部性及用戶點(diǎn)擊率。
[0017]所述用戶點(diǎn)擊率包括頁面被訪問次數(shù)或頁面被搜索次數(shù)。
[0018]所述數(shù)據(jù)挖掘分析系統(tǒng)還包括滿意度評價模塊,所述滿意度評價模塊根據(jù)用戶對查詢結(jié)果的滿意度信息返回給興趣信息存儲模塊,供所述查詢過濾模塊對結(jié)果預(yù)處理模塊中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序。
[0019]所述數(shù)據(jù)挖掘分析系統(tǒng)具有三層結(jié)構(gòu),包括表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層。
[0020]相對于現(xiàn)有技術(shù),本發(fā)明能根據(jù)用戶輸入的搜索關(guān)鍵詞及時返回搜索結(jié)果,并能根據(jù)用戶對搜索結(jié)果的反饋信息進(jìn)行學(xué)習(xí)分析,向用戶返回針對性的搜索結(jié)果,實現(xiàn)數(shù)據(jù)挖掘分析,提高數(shù)據(jù)挖掘分析效率。數(shù)據(jù)挖掘分析的目的在于能夠根據(jù)用戶的背景、興趣愛好、研宄方向、檢索目的等,向用戶提供相應(yīng)的需求信息。
【專利附圖】
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明數(shù)據(jù)挖掘分析系統(tǒng)的原理圖;
[0023]圖2為本發(fā)明數(shù)據(jù)挖掘分析系統(tǒng)的查詢分析模塊原理圖;
[0024]圖3為本發(fā)明數(shù)據(jù)挖掘分析系統(tǒng)的三層結(jié)構(gòu)原理圖;
[0025]圖4為本發(fā)明數(shù)據(jù)挖掘分析系統(tǒng)的元分析原理圖。
[0026]圖中:
[0027]1.輸入輸出模塊;2.興趣信息存儲模塊;3.查詢分析模塊;4.Web處理模塊;5.結(jié)果預(yù)處理模塊;6.查詢過濾模塊;7.接收處理模塊;8.數(shù)據(jù)分析模塊;9.索引文件;10.目標(biāo)索引文件;11.知識庫;12.結(jié)果處理模塊;13.表示層;14.業(yè)務(wù)邏輯層;15.數(shù)據(jù)持久層O
【具體實施方式】
[0028]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]如圖1至圖4所示一種數(shù)據(jù)挖掘分析系統(tǒng),包括:
[0030]輸入輸出模塊1,為用戶提供可視化的查詢輸入和結(jié)果輸出;在查詢輸入中用戶可輸入一系列關(guān)鍵詞、一系列布爾操作符等,結(jié)果輸出為一個線性的文檔列表。
[0031]興趣信息存儲模塊2,用于存放用戶興趣數(shù)據(jù)信息;興趣信息存儲模塊2中的用戶興趣數(shù)據(jù)信息為用戶訪問網(wǎng)頁歷史記錄中的提取信息。興趣數(shù)據(jù)信息不僅要求客觀、全面表達(dá)用戶興趣數(shù)據(jù)知識,而且還要具備良好的后期興趣評估可操作性。
[0032]查詢分析模塊3,根據(jù)興趣信息存儲模塊2的數(shù)據(jù)信息對用戶查詢請求進(jìn)行分析,并對查詢語句進(jìn)行擴(kuò)展形成新的更長、更準(zhǔn)確的查詢請求;合理的設(shè)置查詢請求可以大大的減少搜索結(jié)果中的無效內(nèi)容,提高查詢效率。該查詢分析模塊3分析用戶行為得到用戶興趣數(shù)據(jù)信息。用戶行為包括用戶瀏覽網(wǎng)頁的選擇性、用戶瀏覽網(wǎng)頁的局部性及用戶點(diǎn)擊率。用戶瀏覽網(wǎng)頁的選擇性,用戶每次搜索時,分析都會返回成百上千個查詢結(jié)果,如果用戶點(diǎn)擊一個查詢結(jié)果,就可認(rèn)為用戶視此查詢結(jié)果質(zhì)量較高,被用戶點(diǎn)擊瀏覽的頁面被用戶認(rèn)為質(zhì)量較高的頁面。用戶瀏覽網(wǎng)頁的局部性,用戶點(diǎn)擊的URL相當(dāng)集中,大部分用戶點(diǎn)擊都落在前面幾頁,第一頁的用戶點(diǎn)擊率占總點(diǎn)擊的47%,而前面5頁的點(diǎn)擊率占總點(diǎn)擊的75%以上,不到總量1/3的頁面的點(diǎn)擊次數(shù)占到總點(diǎn)擊次數(shù)的2/3,這表明用戶點(diǎn)擊URL具有很強(qiáng)的局部性。用戶點(diǎn)擊率,由于網(wǎng)頁存在的時間越長,累計下來的訪問次數(shù)可能越多,故網(wǎng)頁被訪問的次數(shù)不能很好地反映一個網(wǎng)頁內(nèi)容的質(zhì)量。所以,應(yīng)使用網(wǎng)頁的用戶點(diǎn)擊率來反映頁面的質(zhì)量。用戶點(diǎn)擊率包括頁面被訪問次數(shù)或頁面被搜索次數(shù)。雖然每次用戶點(diǎn)擊都是在某查詢項下的點(diǎn)擊,但研宄結(jié)果表明,在大部分的查詢項下,URL的點(diǎn)擊頻率和在所有查詢項URL的點(diǎn)擊頻率基本一致。因此,在計算用戶點(diǎn)擊率時就不必考慮該點(diǎn)擊次數(shù)是在什么項目下的點(diǎn)擊次數(shù)。
[0033]Web處理模塊4,通過并行的方式調(diào)用多個網(wǎng)頁數(shù)據(jù),以獲得所需的網(wǎng)頁數(shù)據(jù)并將網(wǎng)頁數(shù)據(jù)發(fā)送給結(jié)果預(yù)處理模塊5 ;
[0034]結(jié)果預(yù)處理模塊5,對Web處理模塊4的數(shù)據(jù)信息進(jìn)行整合處理后發(fā)送給查詢過濾模塊3;對來自不同網(wǎng)頁數(shù)據(jù)分析的結(jié)果進(jìn)行整合,剔除重復(fù)、統(tǒng)一格式,檢驗鏈接有效性和分類等。
[0035]查詢過濾模塊6,根據(jù)興趣信息存儲模塊2內(nèi)的數(shù)據(jù)信息對結(jié)果預(yù)處理模塊5中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序,并將查詢結(jié)果通過輸入輸出模塊I輸出給用戶。該查詢過濾模塊6包括接收處理模塊7和數(shù)據(jù)分析模塊8,該接收處理模塊7接收用戶查詢請求得到的索引文件9,通過數(shù)據(jù)分析模塊8對所述索引文件9進(jìn)行分析并給出查詢結(jié)果;該數(shù)據(jù)分析模塊8根據(jù)用戶興趣數(shù)據(jù)信息分析得到新的查詢語句,根據(jù)新的查詢語句在索引文件9中獲取所需的目標(biāo)索引文件10。
[0036]數(shù)據(jù)挖掘分析系統(tǒng)還包括滿意度評價模塊,該滿意度評價模塊根據(jù)用戶對查詢結(jié)果的滿意度信息返回給興趣信息存儲模塊2,供查詢過濾模塊6對結(jié)果預(yù)處理模塊5中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序。用戶既是分析的直接使用者,也是服務(wù)質(zhì)量好壞的最終評判者。對用戶使用分析行為的調(diào)查是分析優(yōu)化尤為需要的,而分析為用戶找尋信息提供了指南。由于分析給網(wǎng)絡(luò)用戶帶來巨大便捷的同時也暴露出了不少問題,若要及時地解決這些問題,對分析進(jìn)行優(yōu)化,那么則需要大量的用戶信息。而用戶分析時給出的滿意和不滿意的評價,可獲得大量的用戶信息。
[0037]數(shù)據(jù)挖掘分析系統(tǒng)具有三層結(jié)構(gòu),包括表示層13、業(yè)務(wù)邏輯層14和數(shù)據(jù)持久層15。三層結(jié)構(gòu)可以保證用戶訪問不直接接觸后臺應(yīng)用以及數(shù)據(jù)資源,而是通過訪問中間層,來獲取后臺的數(shù)據(jù)資源,這樣即可以保證后臺數(shù)據(jù)的安全性,又可以保證處理的一致性。
[0038]數(shù)據(jù)挖掘分析指的是分析根據(jù)用戶搜索的歷史記錄,來返回更適合這個用戶的搜索結(jié)果。這些搜索歷史記錄包括用戶所搜索的關(guān)鍵詞,在搜索結(jié)果中的點(diǎn)擊情況,在各個網(wǎng)站的訪問情況,書簽情況等。分析掌握了這些用戶資料后進(jìn)行分析,在用戶搜索新的關(guān)鍵詞時,能返回更有針對性的搜索結(jié)果,從而提高用戶體驗。而分析,它就是以一定的技術(shù)和策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,并對信息進(jìn)行理解、提取和處理,為用戶提供Web搜索的服務(wù)。
[0039]元分析將現(xiàn)有的多個分析看成一個整體,為用戶提供一個統(tǒng)一的查詢界面,用戶的查詢請求由元分析根據(jù)知識庫11中的信息,轉(zhuǎn)換為多個分析所能識別的格式,然后分別發(fā)送給調(diào)用的各獨(dú)立分析,由這些分析完成實際的信息檢索,最后元分析再通過結(jié)果處理模塊10把各分析返回的結(jié)果收集起來,進(jìn)行比較分析,剔除冗余信息,以一定的格式返回給用戶。元分析是指在統(tǒng)一的用戶查詢接口與信息反饋形式下,共享多個分析的知識庫11為用戶提供信息服務(wù)的系統(tǒng)。
[0040]本發(fā)明根據(jù)用戶輸入的搜索關(guān)鍵詞,及時返回搜索結(jié)果,同時收集用戶搜索興趣數(shù)據(jù)信息,在以后的搜索中向用戶返回更具針對性的搜索結(jié)果。用戶對分析的返回結(jié)果進(jìn)行滿意度評價后,本發(fā)明會對用戶的滿意度反饋信息進(jìn)行學(xué)習(xí)分析,提高檢索效率。本發(fā)明根據(jù)用戶興趣數(shù)據(jù)信息優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容。
[0041]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)挖掘分析系統(tǒng),其特征在于,包括: 輸入輸出模塊,為用戶提供可視化的查詢輸入和結(jié)果輸出; 興趣信息存儲模塊,用于存放用戶興趣數(shù)據(jù)信息; 查詢分析模塊,根據(jù)興趣信息存儲模塊的數(shù)據(jù)信息對用戶查詢請求進(jìn)行分析,并對查詢語句進(jìn)行擴(kuò)展形成新的更長、更準(zhǔn)確的查詢請求; Web處理模塊,通過并行的方式調(diào)用多個網(wǎng)頁數(shù)據(jù),以獲得所需的網(wǎng)頁數(shù)據(jù)并將網(wǎng)頁數(shù)據(jù)發(fā)送給結(jié)果預(yù)處理模塊; 結(jié)果預(yù)處理模塊,對Web處理模塊的數(shù)據(jù)信息進(jìn)行整合處理后發(fā)送給查詢過濾模塊; 查詢過濾模塊,根據(jù)興趣信息存儲模塊內(nèi)的數(shù)據(jù)信息對結(jié)果預(yù)處理模塊中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序,并將查詢結(jié)果通過輸入輸出模塊輸出給用戶。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述興趣信息存儲模塊中的用戶興趣數(shù)據(jù)信息為用戶訪問網(wǎng)頁歷史記錄中的提取信息。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述結(jié)果輸出為一個線性的文檔列表。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述查詢過濾模塊包括接收處理模塊和數(shù)據(jù)分析模塊,所述接收處理模塊接收用戶查詢請求得到的索引文件,通過數(shù)據(jù)分析模塊對所述索引文件進(jìn)行分析并給出查詢結(jié)果;所述數(shù)據(jù)分析模塊根據(jù)用戶興趣數(shù)據(jù)信息分析得到新的查詢語句,根據(jù)新的查詢語句在所述索引文件中獲取所需的目標(biāo)索引文件。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述查詢分析模塊分析用戶行為得到用戶興趣數(shù)據(jù)信息。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述用戶行為包括用戶瀏覽網(wǎng)頁的選擇性、用戶瀏覽網(wǎng)頁的局部性及用戶點(diǎn)擊率。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述用戶點(diǎn)擊率包括頁面被訪問次數(shù)或頁面被搜索次數(shù)。
8.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述數(shù)據(jù)挖掘分析系統(tǒng)還包括滿意度評價模塊,所述滿意度評價模塊根據(jù)用戶對查詢結(jié)果的滿意度信息返回給興趣信息存儲模塊,供所述查詢過濾模塊對結(jié)果預(yù)處理模塊中的數(shù)據(jù)信息進(jìn)行相關(guān)度排序。
9.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘分析系統(tǒng),其特征在于:所述數(shù)據(jù)挖掘分析系統(tǒng)具有三層結(jié)構(gòu),包括表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層。
【文檔編號】G06F17/30GK104484367SQ201410736242
【公開日】2015年4月1日 申請日期:2014年12月5日 優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】魯銀剛 申請人:廣州招商速建互聯(lián)網(wǎng)信息科技有限公司