一種基于語義模型的wsdl半結(jié)構(gòu)化文檔相似性分析及分類方法
【專利摘要】本發(fā)明提出了一種基于語義模型的WSDL半結(jié)構(gòu)化文檔的相似性分析及分類方法,利用WordNet詞典建立WSDL半結(jié)構(gòu)化文檔語義模型,并通過最大熵模型消除詞語歧義,建立WSDL半結(jié)構(gòu)化文檔語料庫特征向量模型,生成WSDL半結(jié)構(gòu)化文檔的文檔特征矩陣,從而對兩個不同文檔進行內(nèi)容的分類與評估,最終得到服務(wù)功能的相似性比較。本發(fā)明所述方法提高了文檔相似性判斷準(zhǔn)確度,提升了文檔分類速度以及準(zhǔn)確度,并對向量空間有降維效果。
【專利說明】-種基于語義模型的WSDL半結(jié)構(gòu)化文檔相似性分析及分 類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及Web服務(wù)與信息檢索領(lǐng)域,特別涉及一種基于語義模型的WSDL半結(jié)構(gòu) 化文檔相似性分析及分類。
【背景技術(shù)】
[0002] 在信息檢索領(lǐng)域,相似性和相關(guān)性分析的文檔語料庫的實現(xiàn)需要相應(yīng)的表示不同 文檔的算法。典型的統(tǒng)計特征提取的方法包括TF-IDF基于詞法詞頻率和瓦哈?;谶B續(xù) 條件算法。TF-IDF是當(dāng)前比較實用的一個文檔分類算法,在基于向量空間模型的信息檢索 系統(tǒng)中,TF-IDF算法被廣泛的應(yīng)用在基于關(guān)鍵字的信息檢索中。同樣的,許多文檔分類方 法利用詞的統(tǒng)計數(shù)據(jù),比如Bag-of-Words和Minwise散列被視為統(tǒng)計措施文檔表示的特征 提取。然而,在信息檢索領(lǐng)域,忽視詞匯語義詞統(tǒng)計方法,使得文檔分析詞的水平停留字符 串基礎(chǔ)上而沒有通過消除歧義得到更準(zhǔn)確的特征提取。
[0003] WSDL是一個用于精確描述Web服務(wù)的文檔,WSDL文檔是一個遵循WSDL XML模式的 XML文檔。WSDL文檔將Web服務(wù)定義為服務(wù)訪問點或端口的集合。在WSDL中,由于服務(wù)訪 問點和消息的抽象定義已從具體的服務(wù)部署或數(shù)據(jù)格式綁定中分離出來,因此可以對抽象 定義進行再次使用:消息,指對交換數(shù)據(jù)的抽象描述;而端口類型,指操作的抽象集合。用 于特定端口類型的具體協(xié)議和數(shù)據(jù)格式規(guī)范構(gòu)成了可以再次使用的綁定。將Web訪問地址 與可再次使用的綁定相關(guān)聯(lián),可以定義一個端口,而端口的集合則定義為服務(wù)。一個WSDL 文檔通常包含 7 個重要的兀素,即 types、import、message、portType、operation、binding、 service元素。這些元素嵌套在definitions元素中,definitions是WSDL文檔的根元素。
[0004] 目前,許多文本分類算法依賴于基于統(tǒng)計的文檔特征向量,但是,這些算法忽略了 詞匯條款和凈化共同的信息,導(dǎo)致文本分類錯誤。
[0005] 因此急需提出這一種針對WSDL半結(jié)構(gòu)化文檔分析不同標(biāo)簽元素中同義不同詞的 情況。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供了一種基于語義模型的WSDL半結(jié)構(gòu)化的文檔相似性分析及分類方 法,其目的在于,克服現(xiàn)有技術(shù)中文檔相似性判斷忽略了同義不同詞的情況,從而導(dǎo)致判斷 結(jié)果準(zhǔn)確度不高,進而影響文檔分類的精度。
[0007] -種基于語義模型的WSDL半結(jié)構(gòu)化的文檔相似性分析方法,包括以下步驟:
[0008] 步驟1 :依次找出原文檔中的每個原文詞對應(yīng)的一個或多個詞根,利用WordNet詞 典獲得文檔中每個原文詞對應(yīng)的詞根的一個或多個同義詞集,并以每一個同義詞集作為一 個語義元素;
[0009] 步驟2 :對原文檔中的每個原文詞利用WordNet詞典找出的作為語義元素的同義 詞集,采用數(shù)據(jù)元結(jié)構(gòu)存儲至語義元素的相關(guān)信息至數(shù)據(jù)表中;
[0010] 步驟3 :從步驟2中得到的數(shù)據(jù)表中提取相關(guān)數(shù)據(jù)進行計算,利用最大商模型 fi(x,c)進行計算,以條件概率函數(shù)p(c|x)獲得的最大值選擇的詞根作為每個原文詞最匹 配的詞根,消除詞根歧義;
【權(quán)利要求】
1. 一種基于語義模型的WSDL半結(jié)構(gòu)化文檔相似性分析方法,其特征在于,包括以下步 驟: 步驟1 :依次找出原文檔中的每個原文詞對應(yīng)的一個或多個詞根,利用WordNet詞典獲 得文檔中每個原文詞對應(yīng)的詞根的一個或多個同義詞集,并以每一個同義詞集作為一個語 義元素; 步驟2 :對原文檔中的每個原文詞利用WordNet詞典找出的作為語義元素的同義詞集, 采用數(shù)據(jù)元結(jié)構(gòu)存儲至語義元素的相關(guān)信息至數(shù)據(jù)表中; 步驟3 :從步驟2中得到的數(shù)據(jù)表中提取相關(guān)數(shù)據(jù)進行計算,利用最大商模型& (X,c) 進行計算,以條件概率函數(shù)P(c|x)獲得的最大值選擇的詞根作為每個原文詞最匹配的詞 根,消除詞根歧義;
原文詞Λ映射^,且r被 語義元素i的鏈表記錄 其它 其中,p (c I X)條件概率函數(shù)是表示原文詞X被詞根c映射到的頻率,a i是原文詞X在 語義元素i中的頻率,K是詞根c涉及到的語義元素的個數(shù)總和,Z (X)是一個確保當(dāng)前原文 檔的所有條件概率的總和為1的設(shè)定值;X表示原文檔中的原文詞,c表示詞根,i為語義元 素編號,Si是語義元素i中包含的詞根個數(shù),P」是在一個語義元素中一個原文詞頻率與該 語義元素中所有原文詞頻率和值的比值,原文詞頻率是指作為語義元素的同義詞集在原文 檔中被語義元素中的同一詞根映射的次數(shù); 步驟4 :建立WSDL半結(jié)構(gòu)化文檔語料庫特征向量模型; 使用向量空間模型SVM對原文檔進行劃分得到m個標(biāo)簽元素,依據(jù)步驟3獲得的每 個原文詞對應(yīng)的唯一詞根,確定每個原文詞對應(yīng)的同義詞集,以同義詞集的個數(shù)作為每個 標(biāo)簽元素特征向量的行數(shù),以標(biāo)簽元素中的包含的段落數(shù)作為每個標(biāo)簽元素特征向量的列 數(shù),建立WSDL半結(jié)構(gòu)化文檔語料庫特征向量模型; 步驟5 :生成WSDL半結(jié)構(gòu)化文檔文本特征矩陣; 利用每個同義詞集在每個段落中出現(xiàn)的次數(shù)賦值到WSDL半結(jié)構(gòu)化文檔語料庫特征向 量模型中,得到各標(biāo)簽元素向量,即WSDL半結(jié)構(gòu)化文檔文本特征矩陣; 步驟6 :對兩個不同文檔按照步驟1-步驟5所述方法得到每個文檔的文本特征矩陣, 計算兩個文本特征矩陣之間的距離,判斷兩個文檔的相似性。
2. 根據(jù)權(quán)利要求1所述的基于語義模型的WSDL半結(jié)構(gòu)化文檔相似性分析方法,其特征 在于,所述步驟2中所述語義元素的數(shù)據(jù)元包括: Synset ID,同義詞集唯一標(biāo)識,從WordNet詞典獲得; Set of Synonym,同義詞集合,同義詞集中的所有詞根; Weight,同義詞集在原文檔中被原文詞映射的次數(shù); Sample ID,同義詞集所屬原文檔的原文檔唯一標(biāo)識,由用戶自行設(shè)定; Element ID,同義詞集對應(yīng)在原文檔中的XML元素編號; Semantic Member,語義成員鏈表,以鏈表形式記錄每個同義詞集對應(yīng)原文檔中的原文 詞和每個原文詞對應(yīng)的詞根; Semantic Members Frequency,語義成員頻率,包括語義成員鏈表中所涉及的每個原文 詞頻率,同義詞集在原文檔中被語義成員鏈表中所記錄的每個原文詞映射的次數(shù)。
3. 根據(jù)權(quán)利要求1或2所述的基于語義模型的WSDL半結(jié)構(gòu)化文檔相似性分析方法,其 特征在于,所述步驟6中兩個文本特征矩陣之間的距離為余弦距離。
4. 一種基于語義模型的WSDL半結(jié)構(gòu)化文檔分類方法,其特征在于,采用權(quán)利要求1-3 任一項所述的一種基于WSDL半結(jié)構(gòu)化文檔相似性分析方法,采用權(quán)重鄰居KNN計算公式 WSDL半結(jié)構(gòu)化文檔所屬類別的評估值,利用文檔所屬類別的評估值大小對文檔進行分類:
其中,函數(shù)score (d, q)計算得到將文檔d歸于分類q的評估值;函數(shù)Sim(d, dj)表示 文檔d與已知類別文檔&的相似度,采用向量余弦距離計算;Weigh、為分類權(quán)重設(shè)定值; 函數(shù)S (+,Ci)表示若文檔七屬于類別Ci,則該函數(shù)取值為1,否則,該函數(shù)取值為0 ;i表 示第i類文檔。
【文檔編號】G06F17/30GK104063502SQ201410322692
【公開日】2014年9月24日 申請日期:2014年7月8日 優(yōu)先權(quán)日:2014年7月8日
【發(fā)明者】龍軍, 張祖平, 王魯達, 李會玲 申請人:中南大學(xué)