一種基于Hadoop平臺的Deep Web查詢接口聚類方法
【專利摘要】本發(fā)明公開了一種基于Hadoop平臺的Deep?Web查詢接口聚類方法,包括:通過本體對Deep?Web查詢接口進行語義擴展,并對Deep?Web查詢接口進行潛在語義分析;選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設(shè)計map函數(shù)、combine函數(shù)和reduce函數(shù)。所述方法還包括:配置用于減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量的數(shù)據(jù)壓縮函數(shù);搭建分布式平臺,在集群上運行。本發(fā)明通過構(gòu)建集群,充分利用并行處理的優(yōu)勢,將待聚類的查詢接口分發(fā)到多臺機器上,每臺機器進行初步聚類后匯總結(jié)果,再次分發(fā)待聚類數(shù)據(jù)到不同機器上,直到結(jié)果收斂。同時,能夠保證聚類結(jié)果的正確性與可靠性。解決了單機情況下遇到的難題。
【專利說明】—種基于Hadoop平臺的Deep Web查詢接口聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及服務(wù)計算【技術(shù)領(lǐng)域】,具體涉及一種基于Hadoop平臺的Deep Web查詢接口聚類方法。
【背景技術(shù)】
[0002]隨著計算機技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)應(yīng)用的日益普及。Web中蘊含的信息也在極速的擴張著。目前,主流的搜索引擎,如百度、Google等搜索引擎的搜索范圍僅僅覆蓋了“表層網(wǎng)”(Surface Web),而對蘊含信息量占網(wǎng)絡(luò)總信息量70%的“深層網(wǎng)”(De印Web)卻是束手無策。“深層網(wǎng)”具有如下4個特點:(I)用戶通過填寫表單來獲取信息;(2)蘊含的信息質(zhì)量高、信息量大;(3)領(lǐng)域特征明顯;(4)大部分信息,用戶可以免費獲取。由于“深層網(wǎng)”自身的特點,以及其蘊含信息的巨大的價值,學(xué)術(shù)界和商業(yè)界對“深層網(wǎng)”搜索技術(shù)展開了廣泛的研究。面對浩如煙海的Deep Web數(shù)據(jù),研究“深層網(wǎng)”搜索技術(shù)遇到各種困難,包括:(I)De印Web查詢接口數(shù)量巨大且增長速度快、呈現(xiàn)出海量的特性;(2)用戶只能通過填寫Form表單獲取信息;(3)用戶提交的查詢需求差異性大;(4)數(shù)據(jù)的獲取具有動態(tài)性;
(5)如何將用戶的請求轉(zhuǎn)化為具體的Deep Web數(shù)據(jù)源的請求。針對上面這5點難題,目前一種有效的策略是基于領(lǐng)域的Deep Web查詢接口集成,因為同一領(lǐng)域的Deep Web具有很強的共性。而如何對Deep Web查詢接口進行聚類便是這一策略需要解決的核心問題之一。傳統(tǒng)的單機的Deep Web查詢接口聚類處理方式在遇到海量的Deep Web查詢接口時,在時間復(fù)雜度和空間復(fù)雜度上遇到了瓶頸。
【發(fā)明內(nèi)容】
[0003]針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于Hadoop平臺的Deep Web查詢接口聚類方法,用戶可以輕松的搭建自己的分布式平臺,利用集群的計算和存儲能力完成海量數(shù)據(jù)的處理,并且能夠保證聚類結(jié)果的正確性與可靠性。
[0004]本發(fā)明的技術(shù)方案如下所述。
[0005]一種基于Hadoop平臺的Deep Web查詢接口聚類方法,包括:
[0006]通過本體對Deep Web查詢接口進行語義擴展,并對Deep Web查詢接口進行潛在語義分析;
[0007]選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設(shè)計map函數(shù)、combine函數(shù)和reduce函數(shù)。
[0008]所述通過本體對Deep Web查詢接口進行語義擴展的具體步驟包括:
[0009](I)確定領(lǐng)域本體的范圍,從Deep Web查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關(guān)系、每個領(lǐng)域的查詢接口屬性,選擇出現(xiàn)頻率高于10的屬性;
[0010](2)根據(jù)挖掘的屬性關(guān)系,構(gòu)建概念之間的部分與整體關(guān)系、繼承關(guān)系、概念與實例關(guān)系、概念與屬性關(guān)系;
[0011](3)使用本體描述語言構(gòu)建核心領(lǐng)域本體;[0012](4)根據(jù)核心領(lǐng)域本體的屬性,從結(jié)果頁面中定位所需的目標數(shù)據(jù)區(qū)域;
[0013](5)提取結(jié)果頁面的模式;
[0014](6)將結(jié)果頁面中的概念和實例合并入領(lǐng)域核心本體;
[0015](7)如果某一查詢接口中的屬性出現(xiàn)在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。
[0016]所述對Deep Web查詢接口進行潛在語義分析的具體步驟包括:
[0017](I)根據(jù)經(jīng)過語義擴展后的查詢接口集構(gòu)建De印Web查詢接口的向量空間模型,即“查詢接口-屬性”矩陣;
[0018](2)對第一步生成的“查詢接口 -屬性”矩陣進行矩陣分解,然后選取K值,得到低秩逼近矩陣Ck ;其中:K為聚類領(lǐng)域的個數(shù)。
[0019]另外,本發(fā)明所述方法還包括:配置用于減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量的數(shù)據(jù)壓縮函數(shù);搭建分布式平臺,在集群上運行。
[0020]本發(fā)明的有益效果:
[0021]本發(fā)明通過構(gòu)建集群,充分利用多臺計算機并行處理的優(yōu)勢,將待聚類的查詢接口分發(fā)到多臺機器上,每臺機器進行初步聚類后,匯總結(jié)果,再次分發(fā)待聚類數(shù)據(jù)到不同機器上,直到結(jié)果收斂。同時,在聚類之前引入本體語義擴展和潛在語義分析的方法,增加同一領(lǐng)域Deep Web查詢接口之間的語義相似度,最終解決了單機情況下遇到的難題。
【專利附圖】
【附圖說明】
[0022]圖1為本發(fā)明的拓撲結(jié)構(gòu)示意圖。
[0023]圖2為本發(fā)明的流程框圖。
【具體實施方式】
[0024]下面結(jié)合附圖和實施例對本發(fā)明做進一步詳細描述。
[0025]Hadoop是一個能夠?qū)A繑?shù)據(jù)進行分布式處理的軟件架構(gòu)。以Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性等優(yōu)點使得用戶可以將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapreduCe編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應(yīng)用程序。因此,用戶可以輕松的搭建自己的分布式平臺,利用集群的計算和存儲能力完成海量數(shù)據(jù)的處理。因此在對海量De印Web查詢接口聚類時,引入Hadoop平臺是一個極好的選擇。同時為了保證聚類結(jié)果的正確性與可靠性,在聚類之前,使用本體對Deep Web查詢接口進行語義擴展,并對De印Web查詢接口進行潛在語義分析(LSA)。
[0026]通過本體對Deep Web查詢接口語義擴展的具體步驟如下:
[0027]1.確定領(lǐng)域本體的范圍,從Deep Web查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關(guān)系。每個領(lǐng)域的查詢接口屬性,選擇出現(xiàn)頻率高于10的屬性;
[0028]2.根據(jù)挖掘的屬性關(guān)系,構(gòu)建概念之間的部分與整體關(guān)系、繼承關(guān)系、概念與實例關(guān)系、概念與屬性關(guān)系;
[0029]3.使用本體描述語言構(gòu)建核心領(lǐng)域本體;
[0030]4.根據(jù)核心領(lǐng)域本體的屬性,從結(jié)果頁面中定位所需的有用數(shù)據(jù)區(qū)域;[0031]5.提取結(jié)果頁面的模式;
[0032]6.將結(jié)果頁面中的概念和實例合并入領(lǐng)域核心本體;
[0033]7.如果某一查詢接口中的屬性出現(xiàn)在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。
[0034]基于LSA的Deep Web查詢接口聚類的具體步驟如下:
[0035]1.根據(jù)經(jīng)過語義擴展后的查詢接口集構(gòu)建De印Web查詢接口的向量空間模型,即“查詢接口-屬性”矩陣。
[0036]2.對第一步生成的矩陣進行SVD的分解,然后選取K值,得到低秩逼近矩陣Ck ;其中:K為聚類領(lǐng)域的個數(shù)。
[0037]3.選取K-Means算法,對Deep Web查詢接口進行聚類。
[0038]Hadoop平臺下Deep Web查詢接口聚類的具體步驟如下:
[0039]1.選取 K-Means 算法。
[0040]2.搭建分布式平臺,對平臺的正確性和可靠性進行測試。其中兩臺分別是名稱節(jié)點(NameNode)和備份名稱節(jié)點(seconderayNameNode),以防系統(tǒng)崩潰及用于數(shù)據(jù)恢復(fù)。
[0041]3.將K-Means算法進行并行化改造,分別設(shè)計map函數(shù)、combine函數(shù)和reduce函數(shù)。
[0042]4.配置數(shù)據(jù)壓縮函數(shù)減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量。
[0043]5.設(shè)置合理的reduce個數(shù)。
[0044]6.在集群上運行。
[0045]如圖1所示,基于Hadoop平臺的Deep Web查詢接口聚類方法,展示了整個系統(tǒng)的數(shù)據(jù)處理流程和拓撲結(jié)構(gòu)。Hadoop集群中的計算節(jié)點和NameNode之間通過高速網(wǎng)絡(luò)相連。數(shù)據(jù)在網(wǎng)絡(luò)傳輸之前先進行壓縮,減少網(wǎng)絡(luò)帶寬壓力,提高聚類的速度。
[0046]Hadoop數(shù)據(jù)處理具體步驟為:
[0047]1.名稱節(jié)點(NameNode)接收到輸入數(shù)據(jù),分片之后,將數(shù)據(jù)分發(fā)到數(shù)據(jù)節(jié)點(DataNode)上。
[0048]2.DataNode接收到數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為〈keylnit, valuelnit〉,隨后Map函數(shù)來處理〈keylnit, valuelnit〉輸入,然后計算產(chǎn)生一個中間的〈keyTmp, valueTmp〉對集合。
[0049]3.DataNode 上的 Combine 函數(shù)在本地將〈keyTmp, valueTmp〉根據(jù) keyTmp 值,合并成〈keyTmp, list (valueTmp) >,然后將〈keyTmp, list (valueTmp) > 進行壓縮后發(fā)送到運行Reduce函數(shù)的節(jié)點。
[0050]4.Reduce 函數(shù)處理接收到的〈keyTmp, list (valueTmp) >,根據(jù) keyTmp 排序后,進行進一步處理,得到最終的結(jié)果〈keyResult, valueResult〉,并輸出到分布式文件系統(tǒng)上。
【權(quán)利要求】
1.一種基于Hadoop平臺的Deep Web查詢接口聚類方法,包括: 通過本體對Deep Web查詢接口進行語義擴展,并對Deep Web查詢接口進行潛在語義分析; 選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設(shè)計map函數(shù)、combine函數(shù)和reduce函數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述通過本體對DeepWeb查詢接口進行語義擴展的具體步驟包括: (1)確定領(lǐng)域本體的范圍,從DeepWeb查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關(guān)系、每個領(lǐng)域的查詢接口屬性,選擇出現(xiàn)頻率高于10的屬性; (2)根據(jù)挖掘的屬性關(guān)系,構(gòu)建概念之間的部分與整體關(guān)系、繼承關(guān)系、概念與實例關(guān)系、概念與屬性關(guān)系; (3)使用本體描述語言構(gòu)建核心領(lǐng)域本體; (4)根據(jù)核心領(lǐng)域本體的屬性,從結(jié)果頁面中定位所需的目標數(shù)據(jù)區(qū)域; (5)提取結(jié)果頁面的模式; (6)將結(jié)果頁面中的概念和實例合并入領(lǐng)域核心本體; (7)如果某一查詢接口中的屬性出現(xiàn)在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。
3.根據(jù)權(quán)利要求1所述的方法,其中所述對DeepWeb查詢接口進行潛在語義分析的具體步驟包括: (1)根據(jù)經(jīng)過語義擴展后的查詢接口集構(gòu)建DeepWeb查詢接口的向量空間模型,S卩“查詢接口 -屬性”矩陣; (2)對第一步生成的“查詢接口-屬性”矩陣進行矩陣分解,然后選取K值,得到低秩逼近矩陣Ck ;其中:K為聚類領(lǐng)域的個數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其中所述的矩陣分解是采用SVD分解法分解。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其中所述的聚類算法是K-Means算法。
6.根據(jù)權(quán)利要求5所述的方法,還包括:搭建分布式平臺,在集群上運行。
7.根據(jù)權(quán)利要求6所述的方法,其中所述的分布式平臺包括名稱節(jié)點和備份名稱節(jié)點。
8.根據(jù)權(quán)利要求7所述的方法,還包括:配置用于減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量的數(shù)據(jù)壓縮函數(shù)。
【文檔編號】G06F17/30GK103678490SQ201310562974
【公開日】2014年3月26日 申請日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
【發(fā)明者】強保華 申請人:桂林電子科技大學(xué), 強保華