一種基于鼠標(biāo)行為的用戶分類方法
【專利摘要】本發(fā)明公開了一種基于鼠標(biāo)行為的用戶分類方法,包括下述步驟:S1、對電腦屏幕區(qū)域劃分,對不同尺寸的屏幕、分辨率進(jìn)行統(tǒng)一量化;S2、建立鼠標(biāo)熱點(diǎn)區(qū)域模型,然后根據(jù)鼠標(biāo)在某個區(qū)域內(nèi)出現(xiàn)的次數(shù)的多寡,來判斷該區(qū)域的熱點(diǎn)程度,同時通過比較不同類別用戶每個區(qū)域熱點(diǎn)程度的不同來進(jìn)行分類;S3、建立鼠標(biāo)活躍度模型,評定每個劃分好的區(qū)域內(nèi)用戶鼠標(biāo)移動的活躍程度,根據(jù)用戶每個區(qū)域鼠標(biāo)活躍度的異同特征,對用戶進(jìn)行分類。本發(fā)明完全是基于鼠標(biāo)行為,沒有依賴網(wǎng)頁內(nèi)容、IP、PV、UV等信息,完全通過用戶行為來進(jìn)行用戶屬性分類的方法。另外,本發(fā)明不但可以靈活地設(shè)置收集數(shù)據(jù)的區(qū)域位置大小,還支持多類別分類,可運(yùn)用于網(wǎng)站或各種操作系統(tǒng)上。
【專利說明】—種基于鼠標(biāo)行為的用戶分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析的【技術(shù)領(lǐng)域】,特別涉及一種基于鼠標(biāo)行為的用戶分類方法?!颈尘凹夹g(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的內(nèi)容也隨著越來越豐富,我們能獲得越來越多的信息,網(wǎng)絡(luò)已經(jīng)成為現(xiàn)代人生活中不可或缺的一部分。但是,對于個人來說,我們每天能夠用于上網(wǎng)的時間是有限的。所以,對于互聯(lián)網(wǎng)服務(wù)的提供者,特別是移動互聯(lián)網(wǎng),如何吸引用戶的注意力,為用戶提供更好的服務(wù),成為了互聯(lián)網(wǎng)服務(wù)提供者的一個值得深入研究的課題。時下,用于研究用戶行為信息主要有以下兩種方式:
[0003]一、基于網(wǎng)絡(luò)日志的用戶喜好挖掘。
[0004]作者在題目確定之初就已經(jīng)在中國知網(wǎng)等大型的論文數(shù)據(jù)庫里面進(jìn)行了長時間的文獻(xiàn)搜索。結(jié)果發(fā)現(xiàn),基本上所有針對于網(wǎng)絡(luò)上的用戶喜好的數(shù)據(jù)挖掘都是基于網(wǎng)絡(luò)日志,即只記錄了用戶的訪問日志,然后基于日志URL的數(shù)據(jù)進(jìn)行內(nèi)容級別的挖掘。
[0005]這種方法可以直接挖掘到用戶在最近一段時間內(nèi)關(guān)注的內(nèi)容,進(jìn)而能夠比較精確的確定用戶的喜好。但是每個網(wǎng)頁的信息并不局限于短短的URL,所以這種方法并不能具體而準(zhǔn)確地得知用戶關(guān)注的是網(wǎng)頁中的哪些內(nèi)容。
[0006]二,服務(wù)端對于用戶的一些基本的點(diǎn)擊信息的統(tǒng)計
[0007]現(xiàn)在很多人也利用挖掘到的一些IP (獨(dú)立IP數(shù))、PV (訪問量)、UV (獨(dú)立訪客)乃至于用戶訪問的深度、在網(wǎng)頁停留的時間等數(shù)據(jù)進(jìn)行用戶行為的挖掘。即通過用戶登陸一個網(wǎng)站后所做的一切有目的事情都記錄下來,進(jìn)而挖掘其本身內(nèi)在的意義。
[0008]這種方法主要是用于服務(wù)端的統(tǒng)計,可以知道對于網(wǎng)站本身哪些方面比較吸引訪問的用戶,結(jié)合前一種基于網(wǎng)絡(luò)日志的挖掘方法,可以很好地實(shí)現(xiàn)C/S模式上的挖掘互補(bǔ)。
[0009]但是,這些挖掘到的數(shù)據(jù)都是用戶已經(jīng)瀏覽的信息,對于用戶是否對已經(jīng)瀏覽過的信息來確定其依然對這方面的信息感興趣本來就值得懷疑的。而且,這些方式并沒有很好地研究用戶在進(jìn)入網(wǎng)站后的動作特征,并沒有很好第體現(xiàn)用戶的操作習(xí)慣。
[0010]利用鼠標(biāo)操作計算機(jī)是人類與計算機(jī)進(jìn)行溝通的一個重要行為。因此,對用戶使用鼠標(biāo)的行為進(jìn)行研究,能為我們提供針對不同人群的習(xí)慣以及喜好提供更多的有效依據(jù),并且可以更加迅速、實(shí)時、精準(zhǔn)地定位正在瀏覽網(wǎng)頁的用戶特征。
[0011]另外,網(wǎng)絡(luò)的虛擬世界已經(jīng)成為了人類人與人之間溝通、獲取信息的最重要途徑之一。時下充斥著“宅男”、“宅女”等流行詞語無不暗示著人們使用PC甚至手機(jī)接入互聯(lián)網(wǎng)的已經(jīng)成為了除了生活中最主要的一部分了。而且,在圖形界面下,人類與計算機(jī)最直接迅速的溝通行為就是鼠標(biāo)行為,使用鼠標(biāo)就如同我們直接地使用雙手去做事那樣子。所以,研究用戶的鼠標(biāo)行為能夠為網(wǎng)站提供更多有用的用戶信息。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種在客戶端收集數(shù)據(jù)并對用戶進(jìn)行分類的方法。
[0013]本發(fā)明的目的通過下述技術(shù)方案實(shí)現(xiàn):
[0014]一種基于鼠標(biāo)行為的用戶分類方法,包括下述步驟:
[0015]S1、對電腦屏幕區(qū)域劃分,對用戶不同尺寸的屏幕、分辨率進(jìn)行統(tǒng)一量化;
[0016]S2、建立鼠標(biāo)熱點(diǎn)區(qū)域模型,統(tǒng)計在規(guī)定時間間隔的鼠標(biāo)坐標(biāo)序列內(nèi),其落在每個已經(jīng)劃分好的區(qū)域的次數(shù),然后根據(jù)鼠標(biāo)在某個區(qū)域內(nèi)出現(xiàn)的次數(shù)的多寡,來判斷該區(qū)域的熱點(diǎn)程度,同時通過比較不同類別用戶每個區(qū)域熱點(diǎn)程度的不同來進(jìn)行分類;
[0017]S3、建立鼠標(biāo)活躍度模型,用于評定每個劃分好的區(qū)域內(nèi)用戶鼠標(biāo)移動的活躍程度,鼠標(biāo)的活躍程度是在一個時間段內(nèi)這個區(qū)域內(nèi)鼠標(biāo)坐標(biāo)分布的離散程度,離散程度越高,則說明這個區(qū)域的用戶的鼠標(biāo)動作越活躍,根據(jù)用戶每個區(qū)域鼠標(biāo)活躍度的異同特征,對用戶進(jìn)行分類。
[0018]優(yōu)選的,通過使用Windows提供的AP1、Linux的shelI腳本或者瀏覽器的Javascript腳本來讀取用戶屏幕的分辨率,并根據(jù)實(shí)際應(yīng)用情況來進(jìn)行區(qū)域的劃分。
[0019]優(yōu)選的,對于鼠標(biāo)熱點(diǎn)區(qū)域模型,在其實(shí)際投入運(yùn)行之前,需要收集并利用用戶的數(shù)據(jù)來對不同類別的人群進(jìn)行數(shù)據(jù)分析,挖掘其在電腦屏幕或者網(wǎng)頁內(nèi)熱點(diǎn)區(qū)域的異同,統(tǒng)計得出基于最大似然概率的分類先驗概率;熱點(diǎn)區(qū)域的判斷方法為:分類別導(dǎo)入某一類別的用戶的一定量基于時間序列的鼠標(biāo)坐標(biāo)數(shù)據(jù),判斷每個鼠標(biāo)坐標(biāo)所在區(qū)域,然后在其所在區(qū)域的熱點(diǎn)頻度上加一,當(dāng)數(shù)據(jù)導(dǎo)入完之后,頻率高的區(qū)域即為其熱點(diǎn)區(qū)域,通過控制導(dǎo)入不同類別用戶的數(shù)據(jù)集數(shù)據(jù)量,使得它們大小相等,從而進(jìn)行不同區(qū)域的頻率統(tǒng)計,把其頻率歸一化作為其分類的先驗性 概率。
[0020]優(yōu)選的,把頻率歸一化作為鼠標(biāo)行為用戶分類的先驗性概率的具體方法如下:
[0021]設(shè)每個導(dǎo)入的數(shù)據(jù)落在某個區(qū)域的事件為Ai,每個事件對應(yīng)的概率為P(Ai),所以,對于每個區(qū)域來說,它的概率之和為1:
【權(quán)利要求】
1.一種基于鼠標(biāo)行為的用戶分類方法,其特征在于,包括下述步驟: 51、對電腦屏幕區(qū)域劃分,對用戶不同尺寸的屏幕、分辨率進(jìn)行統(tǒng)一量化; 52、建立鼠標(biāo)熱點(diǎn)區(qū)域模型,統(tǒng)計在規(guī)定時間間隔的鼠標(biāo)坐標(biāo)序列內(nèi),其落在每個已經(jīng)劃分好的區(qū)域的次數(shù),然后根據(jù)鼠標(biāo)在某個區(qū)域內(nèi)出現(xiàn)的次數(shù)的多寡,來判斷該區(qū)域的熱點(diǎn)程度,同時通過比較不同類別用戶每個區(qū)域熱點(diǎn)程度的不同來進(jìn)行分類; 53、建立鼠標(biāo)活躍度模型,用于評定每個劃分好的區(qū)域內(nèi)用戶鼠標(biāo)移動的活躍程度,鼠標(biāo)的活躍程度是在一個時間段內(nèi)這個區(qū)域內(nèi)鼠標(biāo)坐標(biāo)分布的離散程度,離散程度越高,則說明這個區(qū)域的用戶的鼠標(biāo)動作越活躍,根據(jù)用戶每個區(qū)域鼠標(biāo)活躍度的異同特征,對用戶進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于,通過使用Windows提供的AP1、Linux的shell腳本或者瀏覽器的Javascript腳本來讀取用戶屏幕的分辨率,并根據(jù)實(shí)際應(yīng)用情況來進(jìn)行區(qū)域的劃分。
3.根據(jù)權(quán)利要求1所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于,對于鼠標(biāo)熱點(diǎn)區(qū)域模型,在其實(shí)際投入運(yùn)行之前,需要收集并利用用戶的數(shù)據(jù)來對不同類別的人群進(jìn)行數(shù)據(jù)分析,挖掘其在電腦屏幕或者網(wǎng)頁內(nèi)熱點(diǎn)區(qū)域的異同,統(tǒng)計得出基于最大似然概率的分類先驗概率;熱點(diǎn)區(qū)域的判斷方法為:分類別導(dǎo)入某一類別的用戶的一定量基于時間序列的鼠標(biāo)坐標(biāo)數(shù)據(jù),判斷每個鼠標(biāo)坐標(biāo)所在區(qū)域,然后在其所在區(qū)域的熱點(diǎn)頻度上加一,當(dāng)數(shù)據(jù)導(dǎo)入完之后,頻率高的區(qū)域即為其熱點(diǎn)區(qū)域,通過控制導(dǎo)入不同類別用戶的數(shù)據(jù)集數(shù)據(jù)量,使得它們大小 相等,從而進(jìn)行不同區(qū)域的頻率統(tǒng)計,把其頻率歸一化作為其分類的先驗性概率。
4.根據(jù)權(quán)利要求3所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于,把頻率歸一化作為鼠標(biāo)行為用戶分類的先驗性概率的具體方法如下: 設(shè)每個導(dǎo)入的數(shù)據(jù)落在 某個區(qū)域的事件為Ai,每個事件對應(yīng)的概率為P (Ai),所以,對于每個區(qū)域來說,它的概率之和為1:
5.根據(jù)權(quán)利要求4所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于,建立鼠標(biāo)熱點(diǎn)區(qū)域模型的步驟如下: 通過收集一個用戶按時間序列而產(chǎn)生的鼠標(biāo)坐標(biāo)輸入流,計算其輸入的數(shù)據(jù)流每一項數(shù)據(jù)的分類概率來對模型分類結(jié)果進(jìn)行訓(xùn)練,得到匯總的分類最大似然概率,類別i最大似然概率Psi的公式如下:
6.根據(jù)權(quán)利要求1所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于:對于鼠標(biāo)活躍度模型,利用統(tǒng)計學(xué)標(biāo)準(zhǔn)差來量化用戶的鼠標(biāo)移動的離散程度和活躍度;某個區(qū)域標(biāo)準(zhǔn)差越大,則表明用戶在該區(qū)域的的鼠標(biāo)活動越離散、活躍;使用標(biāo)準(zhǔn)差圓半徑來對標(biāo)準(zhǔn)差進(jìn)行數(shù)學(xué)描述,對于每一個區(qū)域來說,使用以下的計算公式:
7.根據(jù)權(quán)利要求1所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于:每個區(qū)域是獨(dú)立的,并且都對分類作出影響,所有區(qū)域的標(biāo)準(zhǔn)差圓半徑R都分別作為該區(qū)域分類的特征,由于分類的類別也可以是多種的,所以可以建立得到以下多分類Logisitic回歸模型: 假設(shè)所需要分辨的類別Y有e個取值[1,e],以Y=I為模型的參照組,協(xié)變量為該類各個區(qū)域的標(biāo)準(zhǔn)差圓半徑Ri= (Rn,Ri2,...,Rij):
8.根據(jù)權(quán)利要求6所述的基于鼠標(biāo)行為的用戶分類方法,其特征在于:首先在類別i的用戶數(shù)據(jù)集中抽取大小相等的數(shù)據(jù)塊,每個數(shù)據(jù)塊的數(shù)據(jù)為按時間序列收集到的用戶鼠標(biāo)坐標(biāo)(X,y),數(shù)量為N,然后根據(jù)標(biāo)準(zhǔn)差圓半徑R的計算方法,計算出這N個數(shù)據(jù)里面,每個區(qū)域?qū)?yīng)的標(biāo)準(zhǔn)差圓半徑Ru,通過導(dǎo)入大量數(shù)據(jù)作為先驗性參數(shù)計算的輸入:
Bi (Ri) = β ?ο+β IiRn+ β I2Ri2+-..+ β ijRij
來計算第i類的參數(shù):
β ?=(β ?ο.β il, β 12.....β ij), 把所得的參數(shù)β i代入Logisitic模型
【文檔編號】G06F3/033GK103440328SQ201310395555
【公開日】2013年12月11日 申請日期:2013年9月3日 優(yōu)先權(quán)日:2013年9月3日
【發(fā)明者】鄧玉輝, 鄧偉鴻 申請人:暨南大學(xué)