網(wǎng)頁(yè)數(shù)據(jù)分析方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁(yè)數(shù)據(jù)分析方法及裝置。該網(wǎng)頁(yè)數(shù)據(jù)分析方法包括:獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞;獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。通過本發(fā)明,實(shí)現(xiàn)了通過利用用戶需求決定的關(guān)鍵詞之間的依存關(guān)系對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行聚類,使聚類結(jié)果能準(zhǔn)確反映用戶需求的效果。
【專利說(shuō)明】網(wǎng)頁(yè)數(shù)據(jù)分析方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體而言,涉及一種網(wǎng)頁(yè)數(shù)據(jù)分析方法及裝置。
【背景技術(shù)】
[0002]用戶通常會(huì)抱有一定的目的和意圖瀏覽網(wǎng)站。對(duì)于網(wǎng)站而言,了解用戶訪問的真實(shí)意圖非常重要。網(wǎng)站通常會(huì)通過用戶瀏覽網(wǎng)站的行為軌跡構(gòu)造模型,訓(xùn)練分類器的方法對(duì)訪問網(wǎng)站的用戶進(jìn)行分類,或是通過網(wǎng)站站內(nèi)搜索詞(Query)的熱度對(duì)用戶需求進(jìn)行描述。
[0003]站內(nèi)搜索的方式是用戶主動(dòng)尋找信息的行為,可以一定程度上描述用戶需求。傳統(tǒng)的站內(nèi)搜索詞聚類技術(shù)依賴于搜索詞本身,通過詞語(yǔ)間字面上的重疊進(jìn)行計(jì)算,實(shí)現(xiàn)方案一般為:第一步:對(duì)關(guān)鍵詞進(jìn)行字面上的拆解(包括逐子或分詞),拆解以后的關(guān)鍵詞可以表示為詞(字)為單元的序列串;第二步:然后逐一計(jì)算每一對(duì)關(guān)鍵詞對(duì)的相似度(jaccard或編輯距離等),即比較兩個(gè)搜索詞的詞串的吻合程度,并返回相似度的度量;第三步:使用聚類算法進(jìn)行聚類,聚類算法包括k-means聚類或?qū)哟尉垲惖龋煌木垲愃惴▽?shí)現(xiàn)方式不同但實(shí)質(zhì)上并無(wú)差別。由于傳統(tǒng)技術(shù)是通過關(guān)鍵詞字面上的吻合程度來(lái)建立聯(lián)系,并不符合實(shí)際情況,僅僅是生硬的構(gòu)造一種相關(guān)依存關(guān)系,因此不能準(zhǔn)確的解釋用戶需求。比如“三星”和“蘋果”不包含任何字面上的匹配,但是相關(guān)性應(yīng)該很高,另外“本田”和“本源”是完全無(wú)關(guān)的兩類詞,但是字面上仍然存在著相關(guān)依存關(guān)系。并且,現(xiàn)有的站內(nèi)搜索詞聚類技術(shù)需要計(jì)算每?jī)蓚€(gè)關(guān)鍵詞之間的相似度,因此時(shí)間復(fù)雜度為ο (n2),不適用于大規(guī)模數(shù)據(jù)挖掘。
[0004]針對(duì)相關(guān)技術(shù)中網(wǎng)頁(yè)數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,從而導(dǎo)致的數(shù)據(jù)分析結(jié)果不能準(zhǔn)確解釋用戶需求的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]針對(duì)現(xiàn)有的網(wǎng)頁(yè)數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,導(dǎo)致數(shù)據(jù)分析結(jié)果不能準(zhǔn)確解釋用戶需求的問題而提出本發(fā)明,為此,本發(fā)明的主要目的在于提供一種網(wǎng)頁(yè)數(shù)據(jù)分析方法及裝置,以解決上述問題。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)數(shù)據(jù)分析方法。該方法包括:獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞;獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0007]進(jìn)一步地,獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞包括:在網(wǎng)頁(yè)加載腳本文件代碼;接收用戶在網(wǎng)頁(yè)的輸入行為;以及通過腳本文件代碼讀取網(wǎng)頁(yè)的輸入行為所攜帶的m個(gè)關(guān)鍵詞。
[0008]進(jìn)一步地,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:確定假設(shè)條件,其中,假設(shè)條件是假設(shè)的m個(gè)關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系;根據(jù)假設(shè)條件創(chuàng)建圖模型{G,S},其中,G代表m個(gè)關(guān)鍵詞的集合,S代表m個(gè)關(guān)鍵詞之間的依存關(guān)系的集合;以及通過圖模型,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0009]進(jìn)一步地,通過圖模型,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:根據(jù)m個(gè)關(guān)鍵詞之間的依存關(guān)系的強(qiáng)度計(jì)算轉(zhuǎn)移概率,其中,轉(zhuǎn)移概率是每個(gè)關(guān)鍵詞屬于與其存在依存關(guān)系的關(guān)鍵詞的概率;以及按照轉(zhuǎn)移概率對(duì)m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0010]進(jìn)一步地,按照轉(zhuǎn)移概率對(duì)m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:假設(shè)在進(jìn)行迭代之前第i個(gè)關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,簇是一類關(guān)鍵詞的集合,i = 1,2...m ;按照轉(zhuǎn)移概率對(duì)第i個(gè)關(guān)鍵詞進(jìn)行一次迭代,計(jì)算迭代后第i個(gè)關(guān)鍵詞屬于的第k關(guān)鍵詞族,其中,k e {1,2...1-1, i+1...m};判斷第i族和第k族的差異是否小于預(yù)設(shè)值,其中,預(yù)設(shè)值是預(yù)先設(shè)定的關(guān)鍵詞簇允許的誤差值;如果第i簇和第k簇的差異大于預(yù)設(shè)值,則繼續(xù)進(jìn)行迭代;以及如果第i簇和第k簇的差異小于或者等于預(yù)設(shè)值,則停止迭代,獲取第i個(gè)關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
[0011]進(jìn)一步地,將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞之后,方法還包括:對(duì)多個(gè)同一類關(guān)鍵詞分別進(jìn)行命名;以及按照每一類關(guān)鍵詞包含的關(guān)鍵詞的數(shù)量,對(duì)命名后的多個(gè)同一類關(guān)鍵詞進(jìn)行排序。
[0012]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁(yè)數(shù)據(jù)分析裝置,該裝置包括:第一獲取單元,用于獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞;第二獲取單元,用于獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及劃分單兀,用于將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0013]進(jìn)一步地,第一獲取單元包括:加載模塊,用于在網(wǎng)頁(yè)加載腳本文件代碼;接收模塊,用于接收用戶在網(wǎng)頁(yè)的輸入行為;以及讀取模塊,用于通過腳本文件代碼讀取網(wǎng)頁(yè)的輸入行為所攜帶的m個(gè)關(guān)鍵詞。
[0014]進(jìn)一步地,第二獲取單元包括:第一確定模塊,用于確定假設(shè)條件,其中,假設(shè)條件是假設(shè)的m個(gè)關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系;創(chuàng)建模塊,用于根據(jù)假設(shè)條件創(chuàng)建圖模型{G,S},其中,G代表m個(gè)關(guān)鍵詞的集合,S代表m個(gè)關(guān)鍵詞之間的依存關(guān)系的集合;以及第一獲取模塊,用于通過圖模型,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0015]進(jìn)一步地,第一獲取模塊包括:計(jì)算模塊,用于根據(jù)m個(gè)關(guān)鍵詞之間的依存關(guān)系的強(qiáng)度計(jì)算轉(zhuǎn)移概率,其中,轉(zhuǎn)移概率是每個(gè)關(guān)鍵詞屬于與其存在依存關(guān)系的關(guān)鍵詞的概率;以及第二獲取模塊,按照轉(zhuǎn)移概率對(duì)m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0016]進(jìn)一步地,第二獲取模塊包括:假設(shè)子模塊,用于假設(shè)在進(jìn)行迭代之前第i個(gè)關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,簇是一類關(guān)鍵詞的集合,i = l,2...m;計(jì)算子模塊,用于按照轉(zhuǎn)移概率對(duì)第i個(gè)關(guān)鍵詞進(jìn)行一次迭代,計(jì)算迭代后第i個(gè)關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,ke {1,2...1-1, i+1...m};判斷子模塊,用于判斷第i簇和第k簇的差異是否小于預(yù)設(shè)值,其中,預(yù)設(shè)值是預(yù)先設(shè)定的關(guān)鍵詞簇允許的誤差值;迭代子模塊,用于如果第i簇和第k簇的差異大于預(yù)設(shè)值,則繼續(xù)進(jìn)行迭代;以及獲取子模塊,用于如果第i簇和第k簇的差異小于或者等于預(yù)設(shè)值,則停止迭代,獲取第i個(gè)關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
[0017]進(jìn)一步地,該裝置還包括:命名單元,用于對(duì)多個(gè)同一類關(guān)鍵詞分別進(jìn)行命名;以及排序單元,用于按照每一類關(guān)鍵詞包含的關(guān)鍵詞的數(shù)量,對(duì)命名后的多個(gè)同一類關(guān)鍵詞進(jìn)行排序。
[0018]通過本發(fā)明,采用包括以下步驟的方法:獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞;獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞,解決了現(xiàn)有網(wǎng)頁(yè)數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,導(dǎo)致數(shù)據(jù)分析結(jié)果不能準(zhǔn)確解釋用戶需求的問題,進(jìn)而達(dá)到了通過利用用戶需求決定的關(guān)鍵詞之間的依存關(guān)系對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行聚類,從而通過聚類結(jié)果準(zhǔn)確反映用戶需求的效果。
【專利附圖】
【附圖說(shuō)明】
[0019]構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0020]圖1是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第一實(shí)施例的流程圖;
[0021]圖2是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第二實(shí)施例的流程圖;
[0022]圖3是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第三實(shí)施例的流程圖;
[0023]圖4是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第四實(shí)施例的流程圖;
[0024]圖5是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第五實(shí)施例的流程圖;
[0025]圖6是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第六實(shí)施例的流程圖;
[0026]圖7是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第一實(shí)施例的結(jié)構(gòu)框圖;
[0027]圖8是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第二實(shí)施例的結(jié)構(gòu)框圖;
[0028]圖9是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第三實(shí)施例的結(jié)構(gòu)框圖;以及
[0029]圖10是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第六實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0030]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0031]圖1是根據(jù)本發(fā)明的網(wǎng)頁(yè)數(shù)據(jù)分析方法的第一實(shí)施例的流程圖。如圖1所示,該方法包括如下步驟:
[0032]步驟S102,獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞。
[0033]用戶需求與用戶輸入的關(guān)鍵詞之間應(yīng)存在多對(duì)多的依存關(guān)系,即每個(gè)用戶需求可以通過用戶輸入的不同的關(guān)鍵詞來(lái)表示意圖,每個(gè)關(guān)鍵詞也可以表示多個(gè)不同的用戶需求意圖。為了簡(jiǎn)化問題,該方法定義用戶需求與用戶輸入的關(guān)鍵詞之間存在一對(duì)多的依存關(guān)系。通過對(duì)用戶在網(wǎng)站中輸入的關(guān)鍵詞進(jìn)行聚類的方式可以對(duì)用戶需求進(jìn)行識(shí)別。
[0034]步驟S104,獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系。
[0035]對(duì)于用戶的一次網(wǎng)頁(yè)數(shù)據(jù)搜索行為,往往搜索的各關(guān)鍵詞之間存在關(guān)系,這種關(guān)系不是各個(gè)關(guān)鍵詞字面上的相似性,而是關(guān)鍵詞體現(xiàn)的用戶需求相同。比如,用戶在進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)搜索時(shí),搜索的關(guān)鍵詞之間可能存在以下依存關(guān)系:一個(gè)關(guān)鍵詞是前個(gè)一關(guān)鍵詞的歸屬Gii = f Gv1)),或后一個(gè)關(guān)鍵詞是所有前面關(guān)鍵詞的歸屬(Iii = f (k^!, ki_2, ki_3,…,kD)等等。
[0036]步驟S106,將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0037]因?yàn)榫哂幸来骊P(guān)系的一類關(guān)鍵詞對(duì)應(yīng)同一用戶需求,因此按照依存關(guān)系可以將用戶輸入的關(guān)鍵詞分為幾類。通過這種聚類的方式,能夠挖掘出深層次的關(guān)鍵詞聚合關(guān)系,從而準(zhǔn)確地表示用戶需求。例如能發(fā)現(xiàn)“違章”、“電子眼”、“電子jin”和“電子敬察”之間的關(guān)系。
[0038]該實(shí)施例由于采取了以下步驟:獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞;獲取m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞;以及將m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞,使得網(wǎng)頁(yè)數(shù)據(jù)分析是基于用戶需求決定的關(guān)鍵詞之間的依存關(guān)系,而不再片面地依賴關(guān)鍵詞之間的字面重疊程度。該方法突破了傳統(tǒng)query聚合過程基于query本身字面匹配假設(shè)的局限性,采用用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)建出更符合用戶需求的數(shù)學(xué)模型。
[0039]圖2是根據(jù)本發(fā)明的網(wǎng)頁(yè)數(shù)據(jù)分析方法的第二實(shí)施例的流程圖。該實(shí)施例可以作為圖1所示實(shí)施例的一種優(yōu)選實(shí)施方式,如圖2所示,該網(wǎng)頁(yè)數(shù)據(jù)分析方法包括:
[0040]步驟S201,在網(wǎng)頁(yè)加載腳本文件代碼。
[0041]腳本文件類似于DOS操作系統(tǒng)中的批處理文件,它可以將不同的命令組合起來(lái),并按確定的順序自動(dòng)連續(xù)地執(zhí)行。腳本程序相對(duì)一般程序開發(fā)來(lái)說(shuō)比較接近自然語(yǔ)言,可以不經(jīng)編譯而是解釋執(zhí)行。
[0042]腳本語(yǔ)言種類較多,一般的腳本語(yǔ)言的執(zhí)行只同具體的解釋執(zhí)行器有關(guān),所以只要系統(tǒng)上有相應(yīng)語(yǔ)言的解釋程序就可以做到跨平臺(tái)。優(yōu)選地,在該方法中可使用javascript,通過在網(wǎng)站中添加javascript代碼來(lái)獲取用戶在進(jìn)行網(wǎng)頁(yè)瀏覽時(shí)的行為數(shù)據(jù)。
[0043]步驟S202,接收用戶在網(wǎng)頁(yè)的輸入行為。
[0044]用戶在網(wǎng)站中進(jìn)行搜索,其輸入的數(shù)據(jù)可以通過javascript代碼監(jiān)測(cè)并實(shí)現(xiàn)動(dòng)態(tài)讀取。
[0045]步驟S204,通過腳本文件代碼讀取網(wǎng)頁(yè)的輸入行為所攜帶的m個(gè)關(guān)鍵詞。
[0046]用戶在一次會(huì)話中進(jìn)行的站內(nèi)搜索行為,能夠構(gòu)成一條站內(nèi)搜索的序列,表示為
[Keywordl, Keyword2, Keyword3,......]。用唯一鍵表示每條會(huì)話,能夠形成如下格式的數(shù)據(jù):
[0047]
【權(quán)利要求】
1.一種網(wǎng)頁(yè)數(shù)據(jù)分析方法,其特征在于,包括: 獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞; 獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在所述依存關(guān)系;以及 將所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞包括: 在所述網(wǎng)頁(yè)加載腳本文件代碼; 接收所述用戶在所述網(wǎng)頁(yè)的輸入行為;以及 通過腳本文件代碼讀取所述網(wǎng)頁(yè)的輸入行為所攜帶的m個(gè)關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 確定假設(shè)條件,其中,所述假設(shè)條件是假設(shè)的所述m個(gè)關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系; 根據(jù)所述假設(shè)條件創(chuàng)建圖模型{G,S},其中,所述G代表所述m個(gè)關(guān)鍵詞的集合,所述S代表所述m個(gè)關(guān)鍵詞之間的依存關(guān)系的集合;以及 通過所述圖模型,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過所述圖模型,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 根據(jù)所述m個(gè)關(guān)鍵詞之間的依存關(guān)系的強(qiáng)度計(jì)算轉(zhuǎn)移概率,其中,所述轉(zhuǎn)移概率是每個(gè)關(guān)鍵詞屬于與其存在所述依存關(guān)系的關(guān)鍵詞的概率;以及 按照所述轉(zhuǎn)移概率對(duì)所述m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,按照所述轉(zhuǎn)移概率對(duì)所述m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 假設(shè)在進(jìn)行所述迭代之前第i個(gè)關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,所述簇是一類關(guān)鍵詞的集合,所述i = 1,2...m ; 按照所述轉(zhuǎn)移概率對(duì)所述第i個(gè)關(guān)鍵詞進(jìn)行一次迭代,計(jì)算迭代后所述第i個(gè)關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,所述k e {1,2...1-1, i+1...m}; 判斷所述第i簇和所述第k簇的差異是否小于預(yù)設(shè)值,其中,所述預(yù)設(shè)值是預(yù)先設(shè)定的所述關(guān)鍵詞簇允許的誤差值; 如果所述第i簇和所述第k簇的差異大于所述預(yù)設(shè)值,則繼續(xù)進(jìn)行迭代;以及如果所述第i簇和所述第k簇的差異小于或者等于所述預(yù)設(shè)值,則停止迭代,獲取所述第i個(gè)關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞之后,所述方法還包括: 對(duì)多個(gè)所述同一類關(guān)鍵詞分別進(jìn)行命名;以及 按照每一類關(guān)鍵詞包含的所述關(guān)鍵詞的數(shù)量,對(duì)命名后的多個(gè)所述同一類關(guān)鍵詞進(jìn)行排序。
7.—種網(wǎng)頁(yè)數(shù)據(jù)分析裝置,其特征在于,包括: 第一獲取單元,用于獲取用戶在網(wǎng)頁(yè)上輸入的m個(gè)關(guān)鍵詞; 第二獲取單元,用于獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對(duì)應(yīng)的用戶需求相同的關(guān)鍵詞之間存在所述依存關(guān)系;以及 劃分單元,用于將所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一獲取單元包括: 加載模塊,用于在所述網(wǎng)頁(yè)加載腳本文件代碼; 接收模塊,用于接收所述用戶在所述網(wǎng)頁(yè)的輸入行為;以及 讀取模塊,用于通過腳本文件代碼讀取所述網(wǎng)頁(yè)的輸入行為所攜帶的m個(gè)關(guān)鍵詞。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二獲取單元包括: 第一確定模塊,用于確定假設(shè)條件,其中,所述假設(shè)條件是假設(shè)的所述m個(gè)關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系; 創(chuàng)建模塊,用于根據(jù)所述假設(shè)條件創(chuàng)建圖模型{G,S},其中,所述G代表所述m個(gè)關(guān)鍵詞的集合,所述S代表所述m個(gè)關(guān)鍵詞之間的依存關(guān)系的集合;以及 第一獲取模塊,用于通過所述圖模型,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一獲取模塊包括: 計(jì)算模塊,用于根據(jù)所述m個(gè)關(guān)鍵詞之間的依存關(guān)系的強(qiáng)度計(jì)算轉(zhuǎn)移概率,其中,所述轉(zhuǎn)移概率是每個(gè)關(guān)鍵詞屬于與其存在所述依存關(guān)系的關(guān)鍵詞的概率;以及 第二獲取模塊,按照所述轉(zhuǎn)移概率對(duì)所述m個(gè)關(guān)鍵詞進(jìn)行迭代,獲取所述m個(gè)關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
11.根據(jù)權(quán)利要求10所述的裝置,所述第二獲取模塊包括: 假設(shè)子模塊,用于假設(shè)在進(jìn)行所述迭代之前第i個(gè)關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,所述簇是一類關(guān)鍵詞的集合,所述i = 1,2...m ; 計(jì)算子模塊,用于按照所述轉(zhuǎn)移概率對(duì)所述第i個(gè)關(guān)鍵詞進(jìn)行一次迭代,計(jì)算迭代后所述第i個(gè)關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,所述k e {1,2...1-1, i+1...m}; 判斷子模塊,用于判斷所述第i簇和所述第k簇的差異是否小于預(yù)設(shè)值,其中,所述預(yù)設(shè)值是預(yù)先設(shè)定的所述關(guān)鍵詞簇允許的誤差值; 迭代子模塊,用于如果所述第i簇和所述第k簇的差異大于所述預(yù)設(shè)值,則繼續(xù)進(jìn)行迭代;以及 獲取子模塊,用于如果所述第i簇和所述第k簇的差異小于或者等于所述預(yù)設(shè)值,則停止迭代,獲取所述第i個(gè)關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 命名單元,用于對(duì)多個(gè)所述同一類關(guān)鍵詞分別進(jìn)行命名;以及 排序單元,用于按照每一類關(guān)鍵詞包含的所述關(guān)鍵詞的數(shù)量,對(duì)命名后的多個(gè)所述同一類關(guān)鍵詞進(jìn)行排序。
【文檔編號(hào)】G06F17/30GK104199969SQ201410487202
【公開日】2014年12月10日 申請(qǐng)日期:2014年9月22日 優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】何鑫 申請(qǐng)人:北京國(guó)雙科技有限公司