本申請涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,尤其涉及一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法及裝置。
背景技術(shù):
:在大數(shù)據(jù)時代,數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的數(shù)據(jù)挖掘是從海量和隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有用的信息和知識的過程,也是一種決策支持過程。通過對大數(shù)據(jù)高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家和用戶調(diào)整市場政策并做出正確的決策。通過關(guān)聯(lián)分析進行數(shù)據(jù)挖掘是常用的方法之一,關(guān)聯(lián)分析可以發(fā)現(xiàn)隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。現(xiàn)有的關(guān)聯(lián)分析的方法,大多基于現(xiàn)有機器學習算法,如apriori算法和fpgrowth算法等。以apriori算法為例,首先找出所有一元頻繁項集,將所有一元頻繁項集的支持度與預先設置的最小支持度對比,如果有一元頻繁項集的支持度小于最小支持度,則該一元頻繁項集作為無效項集被剪枝,然后,再根據(jù)上一步中剩余的一元頻繁項集建立二元頻繁項集,將所有二元頻繁項集的支持度與最小支持度對比,如果有二元頻繁項集的支持度小于最小支持度,則該二元頻繁項集作為無效項集被剪枝,依此類推,直到得到理想頻繁項集,最后根據(jù)理想頻繁項集中各個非空子集的置信度,找到關(guān)聯(lián)性最強的數(shù)據(jù)關(guān)聯(lián)關(guān)系,理想頻繁項集是指項集中的元素數(shù)量符合要求。然而,上述這種方法雖然能夠分析出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,但是分析的過程中,會產(chǎn)生大量的頻繁項集,這些頻繁項集并不一定都是對分析結(jié)果有貢獻的數(shù)據(jù),例如上文中提到的無效項集。在分析時,這些無效項集也會對分析結(jié)果造成干擾,使得關(guān)聯(lián)分析方法不能保證絕對有效的定位有使用價值的關(guān)聯(lián)結(jié)果。技術(shù)實現(xiàn)要素:本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法及裝置,以解決目前的關(guān)聯(lián)分析算法不能保證絕對有效的定位有使用價值的關(guān)聯(lián)結(jié)果的問題。一方面,本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法,包括:獲取樣本數(shù)據(jù)和規(guī)則關(guān)聯(lián)模型,所述規(guī)則關(guān)聯(lián)模型包括n個元組,n為大于1的正整數(shù),每個所述元組包括至少一個概念;根據(jù)所述樣本數(shù)據(jù),建立上下文詞空間向量模型,所述上下文詞空間向量模型包括k個詞匯,k為大于1的正整數(shù);根據(jù)所述上下文詞空間向量模型,生成二元關(guān)系表達式,所述二元關(guān)系表達式包括2個詞匯;將所述二元關(guān)系表達式與所述規(guī)則關(guān)聯(lián)模型匹配,根據(jù)匹配結(jié)果,生成所述規(guī)則關(guān)聯(lián)模型的關(guān)聯(lián)關(guān)系表達式。可選的,所述根據(jù)樣本數(shù)據(jù),建立上下文詞空間向量模型之前,還包括:預處理所述樣本數(shù)據(jù),所述預處理包括:分詞和過濾停用詞。可選的,所述根據(jù)所述上下文詞空間向量模型,生成二元關(guān)系表達式的步驟包括:根據(jù)所述上下文詞空間向量模型,生成數(shù)個關(guān)系表達式,所述關(guān)系表達式由m個詞匯組成,m為大于或者等于1的正整數(shù);提取所述關(guān)系表達式中由2個詞匯組成的二元關(guān)系表達式??蛇x的,所述將二元關(guān)系表達式與所述規(guī)則關(guān)聯(lián)模型匹配,根據(jù)匹配結(jié)果,生成所述規(guī)則關(guān)聯(lián)模型的關(guān)聯(lián)關(guān)系表達式的步驟包括:將所述二元關(guān)系表達式中的詞匯與所述規(guī)則關(guān)聯(lián)模型中的概念匹配;如果匹配成功,則判斷所述二元關(guān)系表達式中的2個詞匯是否已經(jīng)在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系;如果所述二元關(guān)系表達式中的2個詞匯未在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系,則生成由二元關(guān)系表達式中的2個詞組成的關(guān)聯(lián)關(guān)系表達式。可選的,所述將二元關(guān)系表達式中的詞匯與所述規(guī)則關(guān)聯(lián)模型中的概念匹配的步驟包括:判斷所述二元關(guān)系表達式中的詞匯是否同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中;如果所述二元關(guān)系表達式中的詞匯同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中,則判斷所述詞匯所處的元組是否是相鄰的元組;如果所述詞匯所處的元組是相鄰的元組,則匹配成功。另一方面,本申請還提供了一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的裝置,包括:獲取模塊,用于獲取樣本數(shù)據(jù)和規(guī)則關(guān)聯(lián)模型,所述規(guī)則關(guān)聯(lián)模型包括n個元組,n為大于1的正整數(shù),每個所述元組包括至少一個概念;模型建立模塊,用于根據(jù)所述樣本數(shù)據(jù),建立上下文詞空間向量模型,所述上下文詞空間向量模型包括k個詞匯,k為大于1的正整數(shù);二元關(guān)系表達式生成模塊,用于根據(jù)所述上下文詞空間向量模型,生成二元關(guān)系表達式,所述二元關(guān)系表達式包括2個詞匯;匹配模塊,用于將所述二元關(guān)系表達式與所述規(guī)則關(guān)聯(lián)模型匹配,根據(jù)匹配結(jié)果,生成所述規(guī)則關(guān)聯(lián)模型的關(guān)聯(lián)關(guān)系表達式??蛇x的,所述裝置還包括:預處理模塊,用于預處理所述樣本數(shù)據(jù),所述預處理包括:分詞和過濾停用詞。可選的,所述二元關(guān)系表達式生成模塊還包括:關(guān)系表達式生成模塊,用于根據(jù)所述上下文詞空間向量模型,生成數(shù)個關(guān)系表達式,所述關(guān)系表達式由m個詞匯組成,m為大于或者等于1的正整數(shù);提取模塊,用于提取所述關(guān)系表達式中由2個詞匯組成的二元關(guān)系表達式。可選的,所述匹配模塊還包括:詞匯與概念匹配模塊,用于將所述二元關(guān)系表達式中的詞匯與所述規(guī)則關(guān)聯(lián)模型中的概念匹配;關(guān)聯(lián)關(guān)系判斷模塊,用于如果匹配成功,則判斷所述二元關(guān)系表達式中的2個詞匯是否已經(jīng)在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系;如果所述二元關(guān)聯(lián)表達式中的2個詞匯未在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系,則生成由二元關(guān)系表達式中的2個詞組成的關(guān)聯(lián)關(guān)系表達式??蛇x的,所述詞匯與概念匹配模塊還包括:詞匯狀態(tài)判斷模塊,用于判斷所述二元關(guān)系表達式中的詞匯是否同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中;相鄰元組判斷模塊,用于如果所述二元關(guān)系表達式中的詞匯同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中,則判斷所述詞匯所處的元組是否是相鄰的元組;如果所述詞匯所處的元組是相鄰的元組,則匹配成功。由以上技術(shù)方案可知,本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法及裝置,根據(jù)樣本數(shù)據(jù)建立上下文詞空間向量模型,參考關(guān)聯(lián)分析算法生成二元關(guān)系表達式,再將得到的二元關(guān)系表達式中的詞匯與獲取到的規(guī)則關(guān)聯(lián)模型中概念匹配,如果匹配成功,并且二元關(guān)系表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中也并未互相建立關(guān)聯(lián)關(guān)系,生成規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。利用規(guī)則關(guān)聯(lián)模型和生成的二元關(guān)聯(lián)關(guān)系表達式能準確的、有效的定位有使用價值的關(guān)聯(lián)結(jié)果,進而幫助企業(yè)、商家和用戶調(diào)整市場政策并做出正確的決策。附圖說明為了更清楚地說明本申請的技術(shù)方案,下面將對實施案例中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法的一個實施例的流程圖;圖2為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法的另一個實施例的流程圖;圖3為規(guī)則關(guān)聯(lián)模型的示意圖;圖4為補充后的規(guī)則關(guān)聯(lián)模型的示意圖;圖5為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的裝置的結(jié)構(gòu)圖;圖6為二元關(guān)聯(lián)表達式生成模塊的結(jié)構(gòu)圖;圖7為匹配模塊的結(jié)構(gòu)圖;圖8為詞匯與概念匹配模塊的結(jié)構(gòu)圖。具體實施方式下面結(jié)合說明書附圖,對本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法及裝置的具體實施方式進行說明。參見圖1,為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法的一個實施例的流程圖。本申請實施例提供了一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法,包括如下步驟:步驟101,獲取樣本數(shù)據(jù)和規(guī)則關(guān)聯(lián)模型,所述規(guī)則關(guān)聯(lián)模型包括n個元組,n為大于1的正整數(shù),每個所述元組包括至少一個概念。樣本數(shù)據(jù)是從具體企業(yè)、商家和用戶的業(yè)務數(shù)據(jù)中隨機抽取的,業(yè)務數(shù)據(jù)根據(jù)具體企業(yè)、商家和用戶所處的實際業(yè)務場景不同而有著不同的業(yè)務概念,例如,銀行的業(yè)務概念包括信用卡、利息、額度和口碑等詞匯,所以銀行的業(yè)務數(shù)據(jù)很大程度上是與信用卡、利息、額度和口碑等有關(guān)的數(shù)據(jù)。業(yè)務數(shù)據(jù)應與建立規(guī)則關(guān)聯(lián)模型的數(shù)據(jù)來源于相同的業(yè)務場景,例如,獲取的規(guī)則關(guān)聯(lián)模型如圖3所示,規(guī)則關(guān)聯(lián)模型中有3個元組,其中包括信用卡、黃金、額度、利息、利率、很低、較低、很高、較高等概念,本申請實施例中獲取的樣本數(shù)據(jù)包含但不僅僅包含信用卡、黃金、額度、利息、利率、很低、較低、很高、較高等詞匯。步驟102,根據(jù)所述樣本數(shù)據(jù),建立上下文詞空間向量模型,所述上下文詞空間向量模型包括k個詞匯,k為大于1的正整數(shù)。本實施例僅僅以樣本數(shù)據(jù)信用卡、黃金、額度、利息、利率、很低、較低、很高和較高為例,建立上下文詞空間向量模型。例如,根據(jù)上述的樣本數(shù)據(jù),參考現(xiàn)有的機器學習算法:apriori算法,可以建立的部分上下文詞空間向量模型如表1所示:表1步驟103,根據(jù)所述上下文詞空間向量模型,生成二元關(guān)系表達式,所述二元關(guān)系表達式包括2個詞匯。由于樣本數(shù)據(jù)包含有一定數(shù)量的詞匯,所以以此建立的上下文詞空間向量模型有多個,對每一個上下文詞空間向量模型進行關(guān)聯(lián)算法分析,可分析出具有關(guān)聯(lián)關(guān)系的兩個詞匯,并生成這兩個詞匯的二元關(guān)系表達式。本申請實施例在進行關(guān)聯(lián)關(guān)系分析的同時,也計算出每一個生成的二元關(guān)系表達式的支持度,支持度根據(jù)具有關(guān)聯(lián)關(guān)系的詞匯在樣本數(shù)據(jù)出現(xiàn)的概率,和出現(xiàn)該詞匯的樣本數(shù)據(jù)占總樣本數(shù)的百分比計算。支持度可以直觀地反映出二元關(guān)系表達式關(guān)聯(lián)關(guān)系的強度,為企業(yè)、商家和用戶提供調(diào)整和決策的依據(jù)。步驟104,將所述二元關(guān)系表達式與所述規(guī)則關(guān)聯(lián)模型匹配,根據(jù)匹配結(jié)果,生成所述規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。如果經(jīng)過步驟103之后,生成的二元關(guān)系表達式為“黃金-利息”,參見圖3,可見在規(guī)則關(guān)聯(lián)模型中,黃金和利息之間并未建立關(guān)聯(lián)關(guān)系,所以將“黃金”和“利息”建立圖3中規(guī)則關(guān)聯(lián)模型的關(guān)聯(lián)關(guān)系表達式。由以上技術(shù)方案可知,本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法,根據(jù)樣本數(shù)據(jù)建立上下文詞空間向量模型,參考關(guān)聯(lián)分析算法生成二元關(guān)系表達式,再將得到的二元關(guān)系表達式中的詞匯與獲取到的規(guī)則關(guān)聯(lián)模型中概念匹配,如果匹配成功,并且二元關(guān)系表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中也并未互相建立關(guān)聯(lián)關(guān)系,生成規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。利用規(guī)則關(guān)聯(lián)模型和生成的二元關(guān)聯(lián)關(guān)系表達式能準確的、有效的定位有使用價值的關(guān)聯(lián)結(jié)果,進而幫助企業(yè)、商家和用戶調(diào)整市場政策并做出正確的決策。參見圖2,為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法的另一個實施例的流程圖。本申請的另一種實施例提供了一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法,包括:步驟201,獲取樣本數(shù)據(jù)和規(guī)則關(guān)聯(lián)模型,所述規(guī)則關(guān)聯(lián)模型包括n個元組,n為大于1的正整數(shù),每個所述元組包括至少一個概念。樣本數(shù)據(jù)是從具體企業(yè)、商家和用戶的業(yè)務數(shù)據(jù)中隨機抽取的,業(yè)務數(shù)據(jù)根據(jù)具體企業(yè)、商家和用戶所處的實際業(yè)務場景不同而有著不同的業(yè)務概念,例如,銀行的業(yè)務概念包括信用卡、利息、額度和口碑等詞匯,所以銀行的業(yè)務數(shù)據(jù)很大程度上是與信用卡、利息、額度和口碑等有關(guān)的數(shù)據(jù)。業(yè)務數(shù)據(jù)應與建立規(guī)則關(guān)聯(lián)模型的數(shù)據(jù)來源于相同的業(yè)務場景,例如,獲取的規(guī)則關(guān)聯(lián)模型如圖3所示,規(guī)則關(guān)聯(lián)模型中有3個元組,其中包括信用卡、黃金、額度、利息、利率、很低、較低、很高、較高等概念,本申請實施例中獲取的樣本數(shù)據(jù)包含但不僅僅包含信用卡、黃金、額度、利息、利率、很低、較低、很高、較高等詞匯。步驟202,預處理所述樣本數(shù)據(jù),所述預處理包括:分詞和過濾停用詞。上述樣本數(shù)據(jù)中不僅僅包含單獨的詞匯,還可能包含文章、句子等,當樣本數(shù)據(jù)中含有文章、句子等數(shù)據(jù)時,需要對文章和句子進行分詞處理和停用詞過濾。分詞處理和停用詞過濾,即將文章或者句子中的關(guān)鍵詞匯提取出來,作為簡單的詞匯數(shù)據(jù)使用,停用詞即為明顯不能作為關(guān)鍵詞的詞,例如,樣本數(shù)據(jù)中包含“這家銀行有某某類型的信用卡,但是這種信用卡的額度很低。”,在這句話中,“的”、“這”和“但是”明顯不能作為關(guān)鍵詞,將這些詞作為停用詞過濾掉,再對剩余的詞匯進行分詞處理,則可以提取出“信用卡”、“額度”和“很低”三個關(guān)鍵詞。預處理可以快速排除非關(guān)鍵詞的干擾。步驟203,根據(jù)所述樣本數(shù)據(jù),建立上下文詞空間向量模型,所述上下文詞空間向量模型包括k個詞匯,k為大于1的正整數(shù)。本實施例僅僅以樣本數(shù)據(jù)信用卡、黃金、額度、利息、利率、很低、較低、很高和較高為例,建立上下文詞空間向量模型,可以建立的部分上下文詞空間向量模型如上述表1所示。進一步地,在建立上下文詞空間向量模型后,還要對每一個具有關(guān)聯(lián)關(guān)系的向量模型計算支持度,將支持度與預設的數(shù)值進行比較,保留符合要求的支持度對應的上下文詞空間向量模型做后續(xù)處理,例如,保留下來的上下文詞空間向量模型如表2所示:表2{信用卡,黃金,額度}{信用卡,黃金,利息}{黃金,額度,很低}{信用卡,黃金,很低}{黃金,利息,很高}{利息,利率,很高}步驟204,根據(jù)所述上下文詞空間向量模型,生成數(shù)個關(guān)系表達式,所述關(guān)系表達式由m個詞匯組成,m為大于或者等于1的正整數(shù)。進一步地,參考apriori算法,對上下文詞空間向量模型處理,首先找出上下文詞空間向量模型中所有一元頻繁項集,即一元關(guān)系表達式,并計算一元關(guān)系表達式的支持度,然后,再根據(jù)一元關(guān)系表達式建立二元關(guān)系表達式,并計算二元關(guān)系表達式的支持度,依此類推,得到m元關(guān)系表達式及對應的支持度。例如,對上述表2中上下文詞空間向量模型{信用卡,黃金,利息}進行處理,可以得到的關(guān)系表達式如表3所示:表3對上述表2中上下文詞空間向量模型{黃金,利息,很高}進行處理,可以得到的關(guān)系表達式如表4所示:表4步驟205,提取所述關(guān)系表達式中由2個詞匯組成的二元關(guān)系表達式。在步驟204中,經(jīng)過對上下文詞空間向量模型的處理后,每個上下文詞空間向量模型都可以得到一元關(guān)系表達式、二元關(guān)系表達和三元關(guān)系表達式,其中一元關(guān)系表達式如“信用卡”,二元關(guān)系表達式如“信用卡-黃金”,三元關(guān)系表達式如“信用卡-黃金-利息”,本申請實施例中只對二元關(guān)系表達式進行,所以只提取由2個詞匯組成的二元關(guān)系表達式。例如,對上述表3和表4中的關(guān)系表達式進行提取,得到的二元關(guān)系表達式如表5所示:表5信用卡-黃金信用卡-利息黃金-利息黃金-利息黃金-很高利息-很高步驟206,將所述二元關(guān)系表達式中的詞匯與所述規(guī)則關(guān)聯(lián)模型中的概念匹配。如圖3所示,規(guī)則關(guān)聯(lián)模型中的概念有:信用卡、黃金、額度、利息、利率、很低、較低、很高和較高。而組成二元關(guān)系表達式中的詞匯卻不僅僅限于這些詞匯,上述二元關(guān)系表達式僅是舉例說明,由于最初獲取的樣本數(shù)據(jù)的范圍大于建立規(guī)則關(guān)聯(lián)模型的概念范圍,所以步驟205篩選出的二元關(guān)系表達式中的詞匯也會有可能不在規(guī)則關(guān)聯(lián)模型中出現(xiàn),對于這種情況,本申請實施例步驟206需要將二元關(guān)系表達式中的詞匯與規(guī)則關(guān)聯(lián)模型中的概念匹配,判斷二元關(guān)系表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中是否有對應的概念存在。步驟207,如果匹配成功,則判斷所述二元關(guān)系表達式中的2個詞匯是否已經(jīng)在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系。步驟208,如果所述二元關(guān)系表達式中的2個詞匯未在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系,則生成由二元關(guān)系表達式中的2個詞組成的二元關(guān)聯(lián)關(guān)系表達式。例如,判斷上述的二元關(guān)系表達式“信用卡-利息”:如圖3所示,信用卡與利息已經(jīng)在規(guī)則關(guān)聯(lián)模型中建立關(guān)聯(lián)關(guān)系,則“信用卡-利息”是已經(jīng)存在關(guān)聯(lián)關(guān)系的關(guān)系表達式,這兩個詞匯之間不需要再次建立關(guān)聯(lián)關(guān)系。判斷上述二元關(guān)系表達式“利息-很高”:如圖3所示,利息和很高并未在規(guī)則關(guān)聯(lián)模型中建立關(guān)聯(lián)關(guān)系,則生成二元關(guān)聯(lián)關(guān)系表達式“利息-很高”。判斷上述二元關(guān)系表達式“黃金-利息”:如圖3所示,黃金和利息并未在規(guī)則關(guān)聯(lián)模型中建立關(guān)聯(lián)關(guān)系,則生成二元關(guān)聯(lián)關(guān)系表達式“黃金-利息”。所以,規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式為“黃金-利息”和“利息-很高”,補充后的規(guī)則關(guān)聯(lián)模型如圖4所示,并且計算得出相應的二元關(guān)聯(lián)關(guān)系表達式的支持度。由以上技術(shù)方案可知,本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法,根據(jù)樣本數(shù)據(jù)建立上下文詞空間向量模型,參考關(guān)聯(lián)分析算法生成二元關(guān)系表達式,再將得到的二元關(guān)系表達式中的詞匯與獲取到的規(guī)則關(guān)聯(lián)模型中概念匹配,如果匹配成功,并且二元關(guān)系表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中也并未互相建立關(guān)聯(lián)關(guān)系,生成規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。利用規(guī)則關(guān)聯(lián)模型和生成的二元關(guān)聯(lián)關(guān)系表達式能準確的、有效的定位有使用價值的關(guān)聯(lián)結(jié)果,進而幫助企業(yè)、商家和用戶調(diào)整市場政策并做出正確的決策??蛇x的,上述步驟206包括如下步驟:步驟301,判斷所述二元關(guān)系表達式中的詞匯是否同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中;步驟302,如果所述二元關(guān)系表達式中的詞匯同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中,則判斷所述詞匯所處的元組是否是相鄰的元組;步驟303,如果所述詞匯所處的元組是相鄰的元組,則匹配成功。如圖3所示,規(guī)則關(guān)聯(lián)模型中的概念有:信用卡、黃金、額度、利息、利率、很低、較低、很高和較高。而組成二元關(guān)聯(lián)表達式中的詞匯卻不僅僅限于這些詞匯,上述二元關(guān)聯(lián)表達式僅是舉例說明,由于最初獲取的樣本數(shù)據(jù)的范圍大于建立規(guī)則關(guān)聯(lián)模型的概念范圍,所以步驟205篩選出的二元關(guān)聯(lián)表達式中的詞匯也會有可能不在規(guī)則關(guān)聯(lián)模型中出現(xiàn),對于這種情況,本申請實施例步驟206需要將二元關(guān)聯(lián)表達式中的詞匯與規(guī)則關(guān)聯(lián)模型中的概念匹配,判斷二元關(guān)聯(lián)表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中是否有對應的概念存在。更進一步地,還要判斷二元關(guān)系表達式中的詞匯是否同時存在于規(guī)則關(guān)聯(lián)模型的不同元組中,比如,上述表5中的二元關(guān)系表達式“信用卡-黃金”,查找規(guī)則關(guān)聯(lián)模型可以發(fā)現(xiàn),此式中的兩個詞匯在規(guī)則關(guān)聯(lián)模型中處于同一個元組中,如圖3所示,所以,對于這種情況的二元關(guān)系表達式,判定為匹配失敗。再比如,上述表5中的二元關(guān)系表達式“黃金-很高”,查找規(guī)則關(guān)聯(lián)模型可以發(fā)現(xiàn),此式中的兩個詞匯在規(guī)則關(guān)聯(lián)模型中不處于同一個元組中,則進行下一步判斷,判斷“黃金”所在的元組與“很高”所在的元組是否為相鄰的元組,如圖3所示,這兩個元組并不是相鄰的元組,則匹配失敗。對于上述表5中的二元關(guān)系表達式“黃金-利息”和“利息-很高”,可判斷為匹配成功。需要注意的是,本申請實施例為了說明清楚,只列舉了與規(guī)則關(guān)聯(lián)模型中的概念相同的詞匯,并對這些詞匯采用一定的算法進行關(guān)聯(lián)關(guān)系的挖掘;再有,對于挖掘出的關(guān)系表達式,本申請實施例中也只是列舉了其中一部分進行說明,實際上的樣本數(shù)據(jù)與挖掘出的關(guān)系表達式并不限于上述列出的部分,在此不再贅述。參見圖5,為本申請實施例提供的一種挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的裝置,包括:獲取模塊501,用于獲取樣本數(shù)據(jù)和規(guī)則關(guān)聯(lián)模型,所述規(guī)則關(guān)聯(lián)模型包括n個元組,n為大于1的正整數(shù),每個所述元組包括至少一個概念;模型建立模塊503,用于根據(jù)所述樣本數(shù)據(jù),建立上下文詞空間向量模型,所述上下文詞空間向量模型包括k個詞匯,k為大于1的正整數(shù);二元關(guān)聯(lián)表達式生成模塊504,用于根據(jù)所述上下文詞空間向量模型,生成二元關(guān)系表達式,所述二元關(guān)系表達式包括2個詞匯匹配模塊505,用于將所述二元關(guān)系表達式與所述規(guī)則關(guān)聯(lián)模型匹配,根據(jù)匹配結(jié)果,生成所述規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。可選的,所述裝置還包括:預處理模塊502,用于預處理所述樣本數(shù)據(jù),所述預處理包括:分詞和過濾停用詞。可選的,參見圖6,所述二元關(guān)系表達式生成模塊504還包括:關(guān)聯(lián)表達式生成模塊601,用于根據(jù)所述上下文詞空間向量模型,生成數(shù)個關(guān)系表達式,所述關(guān)系表達式由m個詞匯組成,m為大于或者等于1的正整數(shù);提取模塊602,用于提取所述關(guān)系表達式中由2個詞匯組成的二元關(guān)系表達式??蛇x的,參見圖7,所述匹配模塊505還包括:詞匯與概念匹配模塊701,用于將所述二元關(guān)系表達式中的詞匯與所述規(guī)則關(guān)聯(lián)模型中的概念匹配;關(guān)聯(lián)關(guān)系判斷模塊702,用于如果匹配成功,則判斷所述二元關(guān)系表達式中的2個詞匯是否已經(jīng)在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系;如果所述二元關(guān)聯(lián)表達式中的2個詞匯未在所述關(guān)聯(lián)規(guī)則模型中建立關(guān)聯(lián)關(guān)系,則生成由二元關(guān)系表達式中的2個詞組成的二元關(guān)聯(lián)關(guān)系表達式??蛇x的,所述詞匯與概念匹配模塊701還包括:詞匯狀態(tài)判斷模塊801,用于判斷所述二元關(guān)系表達式中的詞匯是否同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中;相鄰元組判斷模塊802,用于如果所述二元關(guān)系表達式中的詞匯同時存在于所述規(guī)則關(guān)聯(lián)模型的不同元組中,則判斷所述詞匯所處的元組是否是相鄰的元組;如果所述詞匯所處的元組是相鄰的元組,則匹配成功。由以上技術(shù)方案可知,本申請?zhí)峁┝艘环N挖掘規(guī)則關(guān)聯(lián)模型未知關(guān)聯(lián)關(guān)系的方法及裝置,根據(jù)樣本數(shù)據(jù)建立上下文詞空間向量模型,參考關(guān)聯(lián)分析算法生成二元關(guān)系表達式,再將得到的二元關(guān)系表達式中的詞匯與獲取到的規(guī)則關(guān)聯(lián)模型中概念匹配,如果匹配成功,并且二元關(guān)系表達式中的詞匯在規(guī)則關(guān)聯(lián)模型中也并未互相建立關(guān)聯(lián)關(guān)系,生成規(guī)則關(guān)聯(lián)模型的二元關(guān)聯(lián)關(guān)系表達式。利用規(guī)則關(guān)聯(lián)模型和生成的二元關(guān)聯(lián)關(guān)系表達式能準確的、有效的定位有使用價值的關(guān)聯(lián)結(jié)果,進而幫助企業(yè)、商家和用戶調(diào)整市場政策并做出正確的決策。本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的申請后,將容易想到本申請的其它實施方案。本申請旨在涵蓋本申請的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本申請的一般性原理并包括本申請未公開的本
技術(shù)領(lǐng)域:
中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本申請的真正范圍由權(quán)利要求指出。應當理解的是,本申請并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。以上所述的本發(fā)明實施方式并不構(gòu)成對本發(fā)明保護范圍的限定。當前第1頁12