一種基于web和日志信息的app分類方法及其裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種基于WEB和日志信息的APP分類方法及其裝置,其中,該方法包括:將APP名字提交到搜索引擎,獲得前M條搜索片段;對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量;獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量;對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。在本發(fā)明實施例中,將APP的名字提交到WEB搜索引擎上,得到前幾個搜索片段,通過VSM模型得到文本特征,同時利用日志信息得到現(xiàn)實特征向量,采用MaxEnt模型訓(xùn)練APP分類,可以提高分類的準(zhǔn)確性和效率。
【專利說明】
一種基于WEB和日志信息的APP分類方法及其裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及移動應(yīng)用(APP)技術(shù)領(lǐng)域,尤其涉及一種基于WEB和日志信息的APP分類方法及其裝置。
【背景技術(shù)】
[0002]隨著移動終端的普及,適用于移動終端的應(yīng)用(APP)也越來越多,APP的分類直接影響用戶對移動終端的日常使用?,F(xiàn)有一種分類方法,在這方法中,利用移動終端所附帶的配置文件:移動終端連接應(yīng)用商店服務(wù)器,獲取并存儲應(yīng)用商店服務(wù)器提供的應(yīng)用類別與應(yīng)用特征數(shù)據(jù)庫;移動終端分析應(yīng)用附帶的配置文件,獲取配置文件包含的特征信息;將獲取的特征信息和應(yīng)用類別與應(yīng)用特征數(shù)據(jù)庫中存儲的特征信息比對,根據(jù)比對結(jié)果將應(yīng)用顯示到所屬應(yīng)用類別文件夾中。
[0003]移動終端連接應(yīng)用商店服務(wù)器,獲取并存儲應(yīng)用商店服務(wù)器提供的應(yīng)用類別與應(yīng)用特征數(shù)據(jù)庫;移動終端分析應(yīng)用附帶的配置文件,獲取配置文件包含的特征信息;將獲取的特征信息和應(yīng)用類別與應(yīng)用特征數(shù)據(jù)庫中存儲的特征信息比對,根據(jù)比對結(jié)果將應(yīng)用顯示到所屬應(yīng)用類別文件夾中。移動終端設(shè)置同步時間,自動連接應(yīng)用商店服務(wù)器,更新分類列表。
[0004]利用配置文件分類結(jié)果存在很大的不可靠性。由于應(yīng)用的分類完全由Manifest文件來控制,一旦Manifest文件是被更改過的,對應(yīng)的應(yīng)用分類也就隨之改變,很容易造成分類錯誤。而且在第三方服務(wù)平臺獲取這些配置信息有難度,App也可能來自不同的應(yīng)用商店,比如Apple store,google play,它們之間的分類標(biāo)準(zhǔn)也不一樣。
[0005]另有一種基于功耗的應(yīng)用分類方法,移動終端啟動飛行模式,保持屏幕常亮,獲取并記錄電池的初始電壓和初始時間,打開被測應(yīng)用后每隔預(yù)設(shè)時間獲取一次電池電壓及時間,并判斷當(dāng)前的時間是否為被測應(yīng)用的功耗穩(wěn)定時間點;若是,則記錄當(dāng)前的電池電壓和時間;根據(jù)當(dāng)前的電池電壓和時間,初始電壓和初始時間計算出被測應(yīng)用的功耗值,根據(jù)該功耗值對被測應(yīng)用進行功耗級別分類。這種分類方法存在一定的局限性,將應(yīng)用的分類完全由功耗來決定,雖然易于操作,但分類效果不是非常好。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于WEB和日志信息的APP分類方法及其裝置,基于WEB和日志信息對APP進行分類,可以提高分類的準(zhǔn)確性和效率。
[0007]為了解決上述問題,本發(fā)明提出了一種基于WEB和日志信息的APP分類方法,所述方法包括:
[0008]將APP名字提交到搜索引擎,獲得前M條搜索片段;
[0009]對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量;
[0010]獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量;
[0011]對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0012]優(yōu)選地,所述對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量的步驟,包括:
[0013]通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。
[0014]優(yōu)選地,所述通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量的步驟,包括:
[0015]根據(jù)APP分類目錄建立類型配置文件;
[0016]為每一個APP類型構(gòu)造規(guī)范化單詞向量;
[0017]獲取所述搜索片段中待分類APP的詞向量;
[0018]將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值;
[0019]選取相似值最大的搜索片段的文本向量。
[0020]優(yōu)選地,所述獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量的步驟,包括:
[0021 ]獲取所有用戶使用同一APP的使用日志信息;
[0022]為每個已經(jīng)分類的APP建立環(huán)境配置文件;
[0023]為每個APP類型建立上下文配置文件;
[0024]為每個APP類型建立上下文向量;
[0025]將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配;
[0026]選取相似值最大的APP的上下文向量。
[0027]優(yōu)選地,所述對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類的步驟,包括:
[0028]使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0029]相應(yīng)地,本發(fā)明還提供一種基于WEB和日志信息的APP分類裝置,所述裝置包括:
[0030]搜索模塊,用于將APP名字提交到搜索引擎,獲得前M條搜索片段;
[0031]匹配模塊,用于對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量;
[0032]日志信息處理模塊,用于獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量;
[0033]訓(xùn)練模塊,用于對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0034]優(yōu)選地,所述匹配模塊還用于通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。
[0035]優(yōu)選地,所述匹配模塊包括:
[0036]第一建立單元,用于根據(jù)APP分類目錄建立類型配置文件;
[0037]構(gòu)造單元,用于為每一個APP類型構(gòu)造規(guī)范化單詞向量;
[0038]第一獲取單元,用于獲取所述搜索片段中待分類APP的詞向量;
[0039]第一匹配單元,用于將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值;
[0040]第一選取單元,用于選取相似值最大的搜索片段的文本向量。
[0041 ]優(yōu)選地,所述日志信息處理模塊包括:
[0042]第二建立單元,用于獲取所有用戶使用同一APP的使用日志信息,為每個APP類型建立上下文配置文件,為每個APP類型建立上下文向量;
[0043]第二建立單元,用于為每個已經(jīng)分類的APP建立環(huán)境配置文件;
[0044]第二匹配單元,用于將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配;
[0045]第二選取單元,用于選取相似值最大的APP的上下文向量。
[0046]優(yōu)選地,所述訓(xùn)練模塊還用于使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0047]在本發(fā)明實施例中,將APP的名字提交到WEB搜索引擎上,得到前幾個搜索片段,通過VSM模型得到文本特征,同時利用日志信息得到現(xiàn)實特征向量,采用MaxEnt模型訓(xùn)練APP分類,可以提高分類的準(zhǔn)確性和效率。
【附圖說明】
[0048]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0049]圖1是本發(fā)明實施例的基于WEB和日志信息的APP分類方法的流程示意圖;
[0050]圖2是本發(fā)明實施例的基于WEB和日志信息的APP分類裝置的結(jié)構(gòu)組成示意圖。
【具體實施方式】
[0051]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0052]圖1是本發(fā)明實施例的基于WEB和日志信息的APP分類方法的流程示意圖,如圖1所示,該方法包括:
[0053]SI,將APP名字提交到搜索引擎,獲得前M條搜索片段;
[0054]S2,對搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量;
[0055]S3,獲取APP的使用日志信息,根據(jù)使用日志信息獲得APP的上下文向量;
[0056]S4,對文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0057]在S2中,通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。
[0058]進一步地,S2包括:
[0059]根據(jù)APP分類目錄建立類型配置文件;
[0060]為每一個APP類型構(gòu)造規(guī)范化單詞向量;
[0061 ]獲取所述搜索片段中待分類APP的詞向量;
[0062]將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值;
[0063]選取相似值最大的搜索片段的文本向量。
[0064]具體地,通過余弦公式進行相似匹配。
[0065]S3進一步包括:
[0066]獲取所有用戶使用同一APP的使用日志信息;
[0067]為每個已經(jīng)分類的APP建立環(huán)境配置文件;
[0068]為每個APP類型建立上下文配置文件;
[0069]為每個APP類型建立上下文向量;
[0070]將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配;
[0071]選取相似值最大的APP的上下文向量。
[0072]具體地,通過余弦公式進行相似匹配。
[0073]在S4中,使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。根據(jù)條件概率公式,得到不同的概率值,選取最大的。采用L_BFGS來模型訓(xùn)練,得到參數(shù)之后,就可以推測出App的分類。
[0074]相應(yīng)地,本發(fā)明實施例還提供一種基于WEB和日志信息的APP分類裝置,如圖2所示,該裝置包括:
[0075]搜索模塊I,用于將APP名字提交到搜索引擎,獲得前M條搜索片段;
[0076]匹配模塊2,用于對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量;
[0077]日志信息處理模塊3,用于獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量;
[0078]訓(xùn)練模塊4,用于對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0079]其中,匹配模塊2還用于通過VSM模型與APP分類樹的分類標(biāo)簽對搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。
[0080]匹配模塊2進一步包括:
[0081 ]第一建立單元,用于根據(jù)APP分類目錄建立類型配置文件;
[0082]構(gòu)造單元,用于為每一個APP類型構(gòu)造規(guī)范化單詞向量;
[0083]第一獲取單元,用于獲取所述搜索片段中待分類APP的詞向量;
[0084]第一匹配單元,用于將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值;
[0085]第一選取單元,用于選取相似值最大的搜索片段的文本向量。
[0086]日志信息處理模塊3進一步包括:
[0087]第二建立單元,用于獲取所有用戶使用同一APP的使用日志信息,為每個APP類型建立上下文配置文件,為每個APP類型建立上下文向量;
[0088]第二建立單元,用于為每個已經(jīng)分類的APP建立環(huán)境配置文件;
[0089]第二匹配單元,用于將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配;
[0090]第二選取單元,用于選取相似值最大的APP的上下文向量。
[0091]訓(xùn)練模塊4還用于使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
[0092]本發(fā)明的裝置實施例中各功能模塊的功能可參見本發(fā)明方法實施例中的流程處理,這里不再贅述。
[0093]在本發(fā)明實施例中,將APP的名字提交到WEB搜索引擎上,得到前幾個搜索片段,通過VSM模型得到文本特征,同時利用日志信息得到現(xiàn)實特征向量,采用MaxEnt模型訓(xùn)練APP分類,可以提高分類的準(zhǔn)確性和效率。
[0094]本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(R0M,Read Only Memory)、隨機存取存儲器(RAM,RandomAccess Memory)、磁盤或光盤等。
[0095]另外,以上對本發(fā)明實施例所提供的基于WEB和日志信息的APP分類方法及其裝置進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1.一種基于WEB和日志信息的APP分類方法,其特征在于,所述方法包括: 將APP名字提交到搜索引擎,獲得前M條搜索片段; 對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量; 獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量; 對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。2.如權(quán)利要求1所述的基于WEB和日志信息的APP分類方法,其特征在于,所述對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量的步驟,包括: 通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。3.如權(quán)利要求2所述的基于WEB和日志信息的APP分類方法,其特征在于,所述通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量的步驟,包括: 根據(jù)APP分類目錄建立類型配置文件; 為每一個APP類型構(gòu)造規(guī)范化單詞向量; 獲取所述搜索片段中待分類APP的詞向量; 將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值; 選取相似值最大的搜索片段的文本向量。4.如權(quán)利要求1所述的基于WEB和日志信息的APP分類方法,其特征在于,所述獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量的步驟,包括: 獲取所有用戶使用同一APP的使用日志信息; 為每個已經(jīng)分類的APP建立環(huán)境配置文件; 為每個APP類型建立上下文配置文件; 為每個APP類型建立上下文向量; 將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配; 選取相似值最大的APP的上下文向量。5.如權(quán)利要求1所述的基于WEB和日志信息的APP分類方法,其特征在于,所述對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類的步驟,包括: 使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。6.一種基于WEB和日志信息的APP分類裝置,其特征在于,所述裝置包括: 搜索模塊,用于將APP名字提交到搜索引擎,獲得前M條搜索片段; 匹配模塊,用于對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量; 日志信息處理模塊,用于獲取APP的使用日志信息,根據(jù)所述使用日志信息獲得APP的上下文向量; 訓(xùn)練模塊,用于對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。7.如權(quán)利要求6所述的基于WEB和日志信息的APP分類裝置,其特征在于,所述匹配模塊還用于通過VSM模型與APP分類樹的分類標(biāo)簽對所述搜索片段進行匹配,獲得相似值最大的搜索片段的文本向量。8.如權(quán)利要求7所述的基于WEB和日志信息的APP分類裝置,其特征在于,所述匹配模塊包括: 第一建立單元,用于根據(jù)APP分類目錄建立類型配置文件; 構(gòu)造單元,用于為每一個APP類型構(gòu)造規(guī)范化單詞向量; 第一獲取單元,用于獲取所述搜索片段中待分類APP的詞向量; 第一匹配單元,用于將規(guī)范化單詞向量和待分類APP的詞向量進行相似匹配,獲得每個搜索片段的相似值; 第一選取單元,用于選取相似值最大的搜索片段的文本向量。9.如權(quán)利要求6所述的基于WEB和日志信息的APP分類裝置,其特征在于,所述日志信息處理模塊包括: 第二建立單元,用于獲取所有用戶使用同一APP的使用日志信息,為每個APP類型建立上下文配置文件,為每個APP類型建立上下文向量; 第二建立單元,用于為每個已經(jīng)分類的APP建立環(huán)境配置文件; 第二匹配單元,用于將每個APP類型的上下文向量和待分類APP的上下文向量進行相似匹配; 第二選取單元,用于選取相似值最大的APP的上下文向量。10.如權(quán)利要求6所述的基于WEB和日志信息的APP分類裝置,其特征在于,所述訓(xùn)練模塊還用于使用Maximum Entropy分類模型對所述文本向量和上下文向量進行訓(xùn)練,獲得APP分類。
【文檔編號】G06F17/30GK105868394SQ201610242410
【公開日】2016年8月17日
【申請日】2016年4月19日
【發(fā)明人】陳湘萍, 周強, 魏相沛
【申請人】中山大學(xué)