本發(fā)明涉及一種互聯(lián)網(wǎng)信息處理方法,尤其涉及一種互聯(lián)網(wǎng)信息收集及關聯(lián)方法。
背景技術:
隨著互聯(lián)網(wǎng)的快速發(fā)展以及數(shù)據(jù)收集技術的不斷發(fā)展,大數(shù)據(jù)時代早已到來。但隨著網(wǎng)絡的迅速發(fā)展而帶來的網(wǎng)上信息量的大幅增長,使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,這就是所謂的“信息超載”(informationoverload)問題。如何幫助用戶在海量的數(shù)據(jù)中快速找到對其有價值的信息,并讓網(wǎng)絡中的暗信息能夠被用戶獲得成為急需解決的問題。
目前,推薦系統(tǒng)是主動地從大量信息中找到用戶可能感興趣的信息的工具,是構(gòu)建支持用戶在線決策的系統(tǒng)。在信息爆炸時代,推薦系統(tǒng)是解決用戶“信息過載”的一種有效手段。隨著互聯(lián)網(wǎng)移動技術的發(fā)展,推薦系統(tǒng)已經(jīng)滲透到人們的衣食住行中。為用戶提供快捷訪問的優(yōu)質(zhì)推薦,正是推薦系統(tǒng)研究領域的主要目標。近年來,推薦系統(tǒng)被廣泛應用到很多領域,如電子商務、音頻視頻網(wǎng)站、音樂電臺、社交網(wǎng)絡、個性化閱讀、個性化廣告、基于位置的服務和移動推薦等,并催生了很多新興的推薦技術,涌現(xiàn)出一些著名的推薦系統(tǒng),如Amazon的個性化產(chǎn)品推薦、Netflix的視頻推薦、Pandora的音樂推薦、Facebook的好友推薦和Google Reader的個性化閱讀等。推薦系統(tǒng)廣泛應用在電子商務、大規(guī)模零售業(yè)和各種知識管理應用中,不僅給運營商帶來了利益,也給用戶帶來了諸多便利。推薦個性化、匹配度高的產(chǎn)品或項目是推薦系統(tǒng)領域的核心問題,它最早可追溯到認知科學、近似理論、信息檢索、預測理論、管理科學和市場中的客戶選擇模型等。鑒于推薦系統(tǒng)的理論和實際應用價值。近年來國際學術界與其相關的研究極為活躍。推薦系統(tǒng)研究的頂級會議是美國計算機學會(ACM)每年舉辦的RecSys年會,該會議自2007年以來已在世界各地舉辦了8屆,并成為全球關于推薦系統(tǒng)研究最重要的交流渠道和把脈其最新進展的重要窗口。最近一次ACM RecSys年會于2014年10月6~10日于美國硅谷(第8屆)舉辦,共收錄各國學者研究論文55篇,內(nèi)容基本涵蓋了當前RS研究的主流領域,既有對傳統(tǒng)領域的深入探討,也有對新領域的探索;既有對實踐和技術的應用研究,也有推薦基本理論和方法的探析。
傳統(tǒng)推薦系統(tǒng)的用戶畫像是通過網(wǎng)絡爬蟲收集數(shù)據(jù),先通過數(shù)據(jù)預處理,再通過權重,衰減因子的方式篩選出消費者,其權重因子的分配模糊,具有主觀性,導致篩選出的結(jié)果不盡人意;當屬性值很多時,權重的賦值變的更為困難,導致通過算法篩選出的結(jié)果不符合精準營銷的目的,即找不到潛在的消費者或者潛在的消費者在結(jié)果中所占比例很低。
技術實現(xiàn)要素:
本發(fā)明的目的就在于為了解決上述問題而提供一種精準度高的互聯(lián)網(wǎng)信息收集及關聯(lián)方法。
本發(fā)明通過以下技術方案來實現(xiàn)上述目的:
一種互聯(lián)網(wǎng)信息收集及關聯(lián)方法,包括以下步驟:
(1)構(gòu)建指標體系:先根據(jù)某個個體的互聯(lián)網(wǎng)信息確定各種分類指標信息并分別設定為x0*、x1*、x2*…xn*,這里的個體的互聯(lián)網(wǎng)信息包括基本信息、行為信息和偏好信息;
(2)根據(jù)漏斗模型求目標集:設h(x)是顧客的樣本空間(x0、x1、x2…xn),g(x)是假設空間(x0*、x1*、x2*…xn*),對于該個體的互聯(lián)網(wǎng)信息,可以根據(jù)如下公式求出總得分值:
其中,ll(·)是指示函數(shù),若·為真則取值1,否則取值0,
然后把不同得分值的個體分到不同的類別中去,把E=a,a[0,n],aI N*歸為一個集合,記為Ea,然后畫出得分值與有意愿個體數(shù)比例的x-y圖;
設定有意愿個體數(shù)閥值為b*,大于b*的Ea留下,小于的b*的Ea剔除,得到關于E的集合O1,設定有意愿個體數(shù)比例閥值為c*,大于c*的Ea留下,小于的c*的Ea剔除,得到關于E的集合O2;令Oa=O1I O2,求得Oa;
(3)關聯(lián)規(guī)則求目標集:包括以下步驟:
(3.1)找出所有頻繁項集:頻繁項集定義:項的集合稱為項集,包含k個項的項集稱為k-項集,項集的出現(xiàn)頻率是包含項集的事務數(shù),簡稱為項集的頻率、支持計數(shù)或計數(shù),如果項集滿足最小支持度閥值,即項集的出現(xiàn)頻率大于或等于支持度與數(shù)據(jù)庫事務集合中的事務總數(shù)的乘積,則稱它為頻繁項集,頻繁k-項集的集合記作Lk;利用Apriori算法找出所有頻繁項集;
(3.2)由頻繁項集產(chǎn)生關聯(lián)規(guī)則,具體方法如下:
(3.2.1)對于每個頻繁項集L,產(chǎn)生L的所有非空子集S;
(3.2.2)對于L的每個非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含頻繁項集L的事務數(shù),P(S)是包含非空子集S的事務數(shù),min_conf是最小置信度閾值,
則輸出關聯(lián)規(guī)則
其中,L-S表示在頻繁項集L中除去非空子集S后的項集;
(3.2.3)找到與關聯(lián)規(guī)則對應的個體集合Ob;
(4)獲取最終目標集:O=OaUOb;
(5)輸出目標集O=OaUOb。
具體地,所述步驟(3.1)中,利用Apriori算法找出所有頻繁項集的具體方法為:
(3.1.1)連接步:為找Lk,通過Lk-1與自己連接產(chǎn)生候選k-項集的集合,該候選項集的集合記作Ck,設l1和l2是Lk-1中的項集,記號li[j]表示li的第j項,假定事務或項集中的項按字典次序排序,執(zhí)行連接Lk-1I Lk-1,其中,Lk-1的元素是可連接的,如果它們前(k-2)個項相同,即,Lk-1的元素l1和l2是可連接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),條件(l1[k-1]<l2[k-1])是簡單地保證不產(chǎn)生重復,連接l1和l2產(chǎn)生的結(jié)果項集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成員可以是也可以不是頻繁的,但所有的頻繁k-項集都包含在Ck中,掃描數(shù)據(jù)庫,確定Ck中每個候選的計數(shù),從而確定Lk,為壓縮Ck,用以下方法使用Apriori性質(zhì):任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集,因此,如果一個候選k-項集的(k-1)-子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。
本發(fā)明的有益效果在于:
本發(fā)明采用漏斗模型并排除了傳統(tǒng)主觀賦值權重的影響,使得目標集最逼近客觀事實,使得本系統(tǒng)能很好抓取我們所需的目標集;本發(fā)明還采用關聯(lián)規(guī)則apriori算法,保證模型的支持度和置信度的情況下,邏輯嚴密,排出無關集合,保留全部目標集,從而找到符合我們意愿的目標集;漏斗模型和apriori算法兩種方法篩選數(shù)據(jù)具有單一規(guī)則無法比擬的優(yōu)勢,目標集更好地接近預期,顯著提高了互聯(lián)網(wǎng)信息收集及關聯(lián)的精準度。
附圖說明
圖1是本發(fā)明所述互聯(lián)網(wǎng)信息收集及關聯(lián)方法的流程圖;
圖2是實施例中得分值與有意愿人數(shù)的x-y圖;
圖3是實施例中得分值與有意愿人數(shù)比例的x-y圖。
具體實施方式
下面結(jié)合實施例和附圖對本發(fā)明作進一步說明:
為了便于理解,下面以“從顧客在購買汽車方面留下的互聯(lián)網(wǎng)信息中收集和關聯(lián)有用信息”為例,對本發(fā)明進行具體闡述。
如圖1所示,具體的互聯(lián)網(wǎng)信息收集及關聯(lián)方法包括以下步驟:
(1)構(gòu)建指標體系:先根據(jù)某個顧客的互聯(lián)網(wǎng)信息確定各種分類指標信息并分別設定為x0*、x1*、x2*…xn*,這里的個體的互聯(lián)網(wǎng)信息包括基本信息、行為信息和偏好信息;更具體地,指標體系構(gòu)建如下:
x0*=年齡:25《=年齡《=50,
x1*=收入:15《=收入,
x2*=“汽車”搜索行為,
x3*=“具體品牌”搜索行為,
x4*=“具體車系”搜索行為,
x5*=“具體車系詢價”行為,
x6*=“具體車型”搜索行為,
x7*=“具體車型”詢價行為,
x8*=“具體車型”參與pk行為,
x9*=網(wǎng)頁停留時間》=60s行為。
(2)根據(jù)漏斗模型求目標集:設h(x)是顧客的樣本空間(x0、x1、x2…x9),g(x)是假設空間(x0*、x1*、x2*…x9*),對于該個體的互聯(lián)網(wǎng)信息,可以根據(jù)如下公式求出總得分值:
其中,n取9,ll(·)是指示函數(shù),若·為真則取值1,否則取值0,
然后把不同得分值的個體分到不同的類別中去,把E=a,a[0,9],aI N*歸為一個集合,記為Ea,然后畫出得分值與有意愿人數(shù)的x-y圖,如圖2所示,以及得分值與有意愿人數(shù)比例的x-y圖,如圖3所示;
設定有意愿個體數(shù)閥值為b*,大于b*的Ea留下,小于的b*的Ea剔除,得到關于E的集合O1,設定有意愿個體數(shù)比例閥值為c*,大于c*的Ea留下,小于的c*的Ea剔除,得到關于E的集合O2;令Oa=O1I O2,求得Oa。
(3)關聯(lián)規(guī)則求目標集:包括以下步驟:
(3.1)找出所有頻繁項集:頻繁項集定義:項的集合稱為項集,包含k個項的項集稱為k-項集,項集的出現(xiàn)頻率是包含項集的事務數(shù),簡稱為項集的頻率、支持計數(shù)或計數(shù),如果項集滿足最小支持度閥值,即項集的出現(xiàn)頻率大于或等于支持度與數(shù)據(jù)庫事務集合D中的事務總數(shù)的乘積,則稱它為頻繁項集,頻繁k-項集的集合記作Lk;利用Apriori算法找出所有頻繁項集,其具體方法為:
(3.1.1)連接步:為找Lk,通過Lk-1與自己連接產(chǎn)生候選k-項集的集合,該候選項集的集合記作Ck,設l1和l2是Lk-1中的項集,記號li[j]表示li的第j項,假定事務或項集中的項按字典次序排序,執(zhí)行連接Lk-1I Lk-1,其中,Lk-1的元素是可連接的,如果它們前(k-2)個項相同,即,Lk-1的元素l1和l2是可連接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),條件(l1[k-1]<l2[k-1])是簡單地保證不產(chǎn)生重復,連接l1和l2產(chǎn)生的結(jié)果項集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成員可以是也可以不是頻繁的,但所有的頻繁k-項集都包含在Ck中,掃描數(shù)據(jù)庫,確定Ck中每個候選的計數(shù),從而確定Lk,為壓縮Ck,用以下方法使用Apriori性質(zhì):任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集,因此,如果一個候選k-項集的(k-1)-子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除;
(3.2)由頻繁項集產(chǎn)生關聯(lián)規(guī)則:
一旦由數(shù)據(jù)庫事務集合D中的事務找出頻繁項集,由它們產(chǎn)生強關聯(lián)規(guī)則是直接了當?shù)?,強關聯(lián)規(guī)則滿足最小支持度和最小置信度,對于置信度Confidence,可以用下獲取,其中條件概率用項集支持度計數(shù)表示:
其中,P(AB)是包含項集A和B的事務數(shù),P(A)是包含項集A的事務數(shù);根據(jù)該式,由頻繁項集產(chǎn)生關聯(lián)規(guī)則的具體方法如下:
(3.2.1)對于每個頻繁項集L,產(chǎn)生L的所有非空子集S;
(3.2.2)對于L的每個非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含頻繁項集L的事務數(shù),P(S)是包含非空子集S的事務數(shù),min_conf是最小置信度閾值,
則輸出關聯(lián)規(guī)則本例中即為S(購買汽車),
其中,L-S表示在頻繁項集L中除去非空子集S后的項集;
(3.2.3)找到與關聯(lián)規(guī)則對應的顧客集合Ob。
(4)獲取最終目標集:O=OaUOb;
(5)輸出目標集O=OaUOb。
為了便于理解Apriori算法的相關技術,下面作進一步介紹:
基本概念:
設I={i1,i2,...,im}是項的集合,設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事務集合,其中每個事務T是項的集合,使得每一個事務有一個標識符,稱作TID。設A是一個項集,事務T包含A當且僅當關聯(lián)規(guī)則是形如的蘊涵式,其中并且規(guī)則在事務集D中成立,具有支持度s,其中s是D中事務包A∩B(即A和B二者)的百分比,它是概率P(AB)。規(guī)則在事務集D中具有置信度c,如果D中包含A的事務同時也包含B的百分比是c,這是條件概率P(B|A),即:
support(支持度)
cinfidence(置信度)
同時滿足最小支持度閾值即min_sup和最小置信度閾值即min_conf的規(guī)則稱作強規(guī)則。為方便計,用0%和100%之間的值,而不是用0到1之間的值表示支持度和置信度。
項的集合稱為項集,包含k個項的項集稱為k-項集,項集的出現(xiàn)頻率是包含項集的事務數(shù),簡稱為項集的頻率、支持計數(shù)或計數(shù)。如果項集滿足最小支持度閥值min_sup,即項集的出現(xiàn)頻率大于或等于support(支持度)與D中事務總數(shù)的乘積,則稱它為頻繁項集;頻繁k-項集的集合通常記作Lk。
Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法;該算法的名字基于這樣的事實:算法使用頻繁項集性質(zhì)的先驗知識,正如我們將看到的。Apriori使用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合,該集合記作L1;L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需要一次數(shù)據(jù)庫掃描。
為提高頻繁項集逐層產(chǎn)生的效率,一種稱作Apriori性質(zhì)的重要性質(zhì)用于壓縮搜索空間,介紹該性質(zhì)如下:
Apriori性質(zhì):頻繁項集的所有非空子集都必須也是頻繁的;Apriori性質(zhì)基于如下觀察:根據(jù)定義,如果項集I不滿足最小支持度閾值s,則I不是頻繁的,即P(I)<s;如果項A添加到I,則結(jié)果項集即I∪A不可能比I更頻繁出現(xiàn)。因此,I∪A也不是頻繁的,即P(I∪A)<s。
該性質(zhì)屬于一種特殊的分類,稱作反單調(diào),意指如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。稱它為反單調(diào)的,因為在通不過測試的意義下,該性質(zhì)是單調(diào)的。
上述實施例只是本發(fā)明的較佳實施例,并不是對本發(fā)明技術方案的限制,只要是不經(jīng)過創(chuàng)造性勞動即可在上述實施例的基礎上實現(xiàn)的技術方案,均應視為落入本發(fā)明專利的權利保護范圍內(nèi)。