本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,尤其涉及一種生成應(yīng)用類別標簽的方法及裝置。
背景技術(shù):
:應(yīng)用平臺上為了方便用戶瀏覽和下載應(yīng)用,通常為應(yīng)用平臺上的每個注冊的應(yīng)用設(shè)置類型標簽。而在傳統(tǒng)技術(shù)中,應(yīng)用平臺上為了規(guī)范發(fā)布的應(yīng)用的類型,通常自定義了一套應(yīng)用類型分類樹,在應(yīng)用平臺上注冊的應(yīng)用必須選擇應(yīng)用類型分類樹定義的類型標簽作為該應(yīng)用的標簽。而應(yīng)用的類型往往五花八門,應(yīng)用平臺上定義的應(yīng)用類型分類樹并不能很好地體現(xiàn)應(yīng)用的不同,往往屬于同一類別標簽的應(yīng)用其實類型并不一樣。在傳統(tǒng)技術(shù)的另一種實現(xiàn)方式中,應(yīng)用平臺將為應(yīng)用設(shè)置標簽的權(quán)利下放給了在應(yīng)用平臺上注冊應(yīng)用的第三方開發(fā)者,由第三方開發(fā)者在注冊時,自行填寫注冊的應(yīng)用的類別標簽,這就使得同一類型的應(yīng)用可能由于開發(fā)者表述方式的不同而貼上了不同的類別標簽。綜合上述兩種生成應(yīng)用類別標簽的方式可看出,傳統(tǒng)技術(shù)中的應(yīng)用的類別標簽,要么太單一,不能體現(xiàn)不同應(yīng)用的細微差別要么管理混亂,相同的應(yīng)用對應(yīng)不同的類別標簽,使得標簽失去了甄別的意義。因此,用戶再根據(jù)標簽查找時,或者應(yīng)用平臺在根據(jù)應(yīng)用的類別標簽選擇應(yīng)用推薦時,無法準確地查找到最適配的應(yīng)用,因此,傳統(tǒng)技術(shù)中生成應(yīng)用類別標簽的方式造成了查找應(yīng)用不準確的問題。技術(shù)實現(xiàn)要素:基于此,為解決傳統(tǒng)技術(shù)中平臺預(yù)設(shè)類別標簽和發(fā)布者自選類別標簽的方式所帶來的,類別標簽與應(yīng)用匹配度不足,而導(dǎo)致的后續(xù)根據(jù)類別標簽查找應(yīng)用不準確的技術(shù)問題,特提供了一種生成應(yīng)用類別標簽的方法。一種生成應(yīng)用類別標簽的方法,包括:獲取第一應(yīng)用數(shù)據(jù)源的第一類別信息,獲取第二應(yīng)用數(shù)據(jù)源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應(yīng)用數(shù)據(jù)源包括本地應(yīng)用平臺的數(shù)據(jù)源,所述第二應(yīng)用數(shù)據(jù)源包括第三方應(yīng)用平臺的數(shù)據(jù)源;獲取第一應(yīng)用數(shù)據(jù)源或第二應(yīng)用數(shù)據(jù)源的應(yīng)用信息,所述應(yīng)用信息中包含有樣本應(yīng)用標識和對應(yīng)的應(yīng)用描述信息;將所述應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應(yīng)用標識標注所述第三類別信息中的類別標簽;根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的特征向量,根據(jù)所述樣本應(yīng)用標識對應(yīng)的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器;根據(jù)所述訓(xùn)練的分類器為目標應(yīng)用標識標注所述第三類別信息中的類別標簽。在其中一個實施例中,所述將所述第一類別信息和所述第二類別信息整合成第三類別信息的步驟之后還包括:獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應(yīng)的所述第三類別信息中的類別標簽的映射關(guān)系;所述將所述應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配的步驟還包括:查找與所述應(yīng)用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應(yīng)的類別標簽作為所述應(yīng)用描述信息對應(yīng)的樣本應(yīng)用標識的類別標簽。在其中一個實施例中,所述根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的特征向量的步驟包括:根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的應(yīng)用屬性向量、用戶群組屬性向量、關(guān)鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。在其中一個實施例中,所述根據(jù)所述樣本應(yīng)用標識對應(yīng)的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器的步驟包括:獲取所述第三類別信息中類別標簽的個數(shù),根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器。在其中一個實施例中,所述根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器的步驟還包括:將根據(jù)所述類別標簽的個數(shù)生成對應(yīng)第一數(shù)量的分類器作為主分類器;對于每個主分類器,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量獲取每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例;根據(jù)所述每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例生成對應(yīng)第二數(shù)量的與該主分類器對應(yīng)子分類器;結(jié)合隨機重采樣和隨機欠采樣訓(xùn)練所述第二數(shù)量的子分類器。此外,為解決傳統(tǒng)技術(shù)中平臺預(yù)設(shè)類別標簽和發(fā)布者自選類別標簽的方式所帶來的,類別標簽與應(yīng)用匹配度不足,而導(dǎo)致的后續(xù)根據(jù)類別標簽查找應(yīng)用不準確的技術(shù)問題,特提供了一種生成應(yīng)用類別標簽的裝置。一種生成應(yīng)用類別標簽的裝置,包括:類別信息構(gòu)建模塊,用于獲取第一應(yīng)用數(shù)據(jù)源的第一類別信息,獲取第二應(yīng)用數(shù)據(jù)源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應(yīng)用數(shù)據(jù)源包括本地應(yīng)用平臺的數(shù)據(jù)源,所述第二應(yīng)用數(shù)據(jù)源包括第三方應(yīng)用平臺的數(shù)據(jù)源;樣本應(yīng)用獲取模塊,用于獲取第一應(yīng)用數(shù)據(jù)源或第二應(yīng)用數(shù)據(jù)源的應(yīng)用信息,所述應(yīng)用信息中包含有樣本應(yīng)用標識和對應(yīng)的應(yīng)用描述信息;樣本應(yīng)用標注模塊,用于將所述應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應(yīng)用標識標注所述第三類別信息中的類別標簽;分類器訓(xùn)練模塊,用于根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的特征向量,根據(jù)所述樣本應(yīng)用標識對應(yīng)的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器;目標應(yīng)用標注模塊,用于根據(jù)所述訓(xùn)練的分類器為目標應(yīng)用標識標注所述第三類別信息中的類別標簽。在其中一個實施例中,所述類別信息構(gòu)建模塊還用于獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應(yīng)的所述第三類別信息中的類別標簽的映射關(guān)系;所述樣本應(yīng)用標注模塊還用于查找與所述應(yīng)用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應(yīng)的類別標簽作為所述應(yīng)用描述信息對應(yīng)的樣本應(yīng)用標識的類別標簽。在其中一個實施例中,所述分類器訓(xùn)練模塊還用于根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的應(yīng)用屬性向量、用戶群組屬性向量、關(guān)鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。在其中一個實施例中,所述分類器訓(xùn)練模塊還用于獲取所述第三類別信息中類別標簽的個數(shù),根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器。在其中一個實施例中,所述分類器訓(xùn)練模塊還用于將根據(jù)所述類別標簽的個數(shù)生成對應(yīng)第一數(shù)量的分類器作為主分類器;對于每個主分類器,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量獲取每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例;根據(jù)所述每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例生成對應(yīng)第二數(shù)量的與該主分類器對應(yīng)子分類器;結(jié)合隨機重采樣和隨機欠采樣訓(xùn)練所述第二數(shù)量的子分類器。實施本發(fā)明實施例,將具有如下有益效果:采用了上述生成應(yīng)用類別標簽的方法和裝置之后,應(yīng)用平臺的類別信息得到了擴展,不僅包含了執(zhí)行本方法的本地應(yīng)用平臺的開發(fā)人員預(yù)先定義的類別信息,還整合了由第三方應(yīng)用平臺的應(yīng)用信息數(shù)據(jù)源抓取的其他應(yīng)用平臺、搜索記錄、其他應(yīng)用信息發(fā)布網(wǎng)站上對應(yīng)用的類別信息的描述,使得構(gòu)建的應(yīng)用平臺的類別信息更加全面。并且,先采集樣本應(yīng)用,并對樣本應(yīng)用進行類型標簽的樣本標注,然后將樣本應(yīng)用的特征向量輸入的分類器中進行機器學(xué)習(xí)訓(xùn)練,然后由訓(xùn)練好的分類器對目標應(yīng)用進行自動地分類,自動為目標應(yīng)用標注在擴展后的類別信息下的類型標簽,使得為應(yīng)用平臺上的目標應(yīng)用標注類型標簽的操作可自動化完成,且使得為目標應(yīng)用添加的類型標簽與目標應(yīng)用更加匹配,從而在根據(jù)類別標簽查找應(yīng)用時,查找結(jié)果更加準確。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。其中:圖1為一個實施例中一種生成應(yīng)用類別標簽的方法的流程圖;圖2為一個實施例中為樣本應(yīng)用標識進行標注過程示意圖;圖3為一個實施例中多層類別信息下為樣本應(yīng)用標注的過程示意圖;圖4為一個實施例中將主分類器劃分為多個子分類器進行機器學(xué)習(xí)分類的示意圖;圖5為一個實施例中一種生成應(yīng)用類別標簽的裝置的示意圖;圖6為一個實施例中運行前述生成應(yīng)用類別標簽的方法的計算機設(shè)備的結(jié)構(gòu)示意圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。為解決傳統(tǒng)技術(shù)中平臺預(yù)設(shè)類別標簽和發(fā)布者自選類別標簽的方式所帶來的,類別標簽與應(yīng)用匹配度不足,而導(dǎo)致的后續(xù)根據(jù)類別標簽查找應(yīng)用不準確的技術(shù)問題,在一個實施例中,特提供了一種生成應(yīng)用類別標簽的方法,該方法的實現(xiàn)可依賴于計算機程序,該計算機程序可運行于基于馮諾依曼體系的計算機系統(tǒng)之上,該計算機系統(tǒng)可以是運行應(yīng)用市場、在線游戲市場、應(yīng)用管理平臺等可對大量應(yīng)用進行管理的服務(wù)器程序的服務(wù)器設(shè)備。在本實施例中,該方法需要先創(chuàng)建分類叫細化的包含較多類型標簽的類別信息,該類別信息結(jié)合了由執(zhí)行本方法的應(yīng)用平臺預(yù)先設(shè)定的第一類別信息,以及由第三方網(wǎng)站的應(yīng)用信息、其他應(yīng)用平臺預(yù)設(shè)的類別信息等構(gòu)成的第二類別信息的第三類別信息。然后選取部分應(yīng)用作為樣本,先對樣本進行類型標簽的標注,然后將作為樣本的應(yīng)用的相關(guān)信息,例如應(yīng)用描述信息、應(yīng)用對應(yīng)的用戶屬性特征信息等信息投入預(yù)設(shè)的分類器進行機器學(xué)習(xí)訓(xùn)練,得到訓(xùn)練之后的分類器。后續(xù)對于應(yīng)用平臺上的其他應(yīng)用,即可將其他應(yīng)用的應(yīng)用信息投入該訓(xùn)練好的分類器中,即可為每個應(yīng)用自動添加類型標簽。具體的,如圖1所示,一種生成應(yīng)用類別標簽的方法,包括:步驟S102:獲取第一應(yīng)用數(shù)據(jù)源的第一類別信息,獲取第二應(yīng)用數(shù)據(jù)源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息。如前所述,在本實施例中,所述第一應(yīng)用數(shù)據(jù)源包括本地應(yīng)用平臺的數(shù)據(jù)源,本地應(yīng)用平臺為執(zhí)行本方法的應(yīng)用平臺,第一類別信息即為執(zhí)行本方法的應(yīng)用平臺預(yù)先設(shè)定的應(yīng)用的分類信息。該分類信息可以包含多個層級,例如,在一個應(yīng)用市場中,執(zhí)行本方法的應(yīng)用平臺的開發(fā)者或運營者可預(yù)先設(shè)定第一層分類,包括:游戲、音樂、視頻等類型標簽。設(shè)定“游戲”的第二層分類,包括:體育、動作、角色扮演等類型標簽。設(shè)定體育的第三層分類,包括:足球、籃球、棒球等類型標簽。第二應(yīng)用數(shù)據(jù)源包括第三方應(yīng)用平臺的數(shù)據(jù)源,第二類別信息即為執(zhí)行本方法的應(yīng)用平臺在第三方應(yīng)用平臺提供的數(shù)據(jù)源(例如網(wǎng)頁訪問接口,數(shù)據(jù)庫接口,應(yīng)用程序訪問接口等數(shù)據(jù)源,其中存儲著非本應(yīng)用平臺自身的應(yīng)用分類數(shù)據(jù))抓取的類別信息??梢杂傻谝粦?yīng)用數(shù)據(jù)源或第二應(yīng)用數(shù)據(jù)源抓取到各個應(yīng)用平臺(執(zhí)行本方法的應(yīng)用平臺或第三方應(yīng)用平臺)的分類信息、搜索記錄、應(yīng)用發(fā)布者添加的應(yīng)用描述信息等。例如,可抓取其他應(yīng)用市場各自對游戲app的分類,或者,抓取專業(yè)的游戲站點,因為游戲站點更為專業(yè),因此其對游戲app的分類與應(yīng)用市場相比,更精細,數(shù)據(jù)質(zhì)量相對較高。再例如,搜索是描述用戶需求的重要途徑,用戶有尋找某一類別游戲的需求,因此這種需求會通過在應(yīng)用市場中的搜索關(guān)鍵詞體現(xiàn)出來??梢酝ㄟ^挖掘用戶在執(zhí)行本方法的應(yīng)用平臺上的搜索記錄得到搜索關(guān)鍵詞,然后將部分搜索關(guān)鍵詞整合后作為類別表現(xiàn)。再例如,應(yīng)用的發(fā)布者在對應(yīng)用進行描述時,會在應(yīng)用描述信息中添加相應(yīng)的應(yīng)用類別的說明。例如游戲“開心消消樂”,發(fā)布者會在游戲的描述信息中添加“這是一款消除類的益智游戲”等信息??赏ㄟ^抓取該描述信息提取類型標簽。通過上述應(yīng)用信息數(shù)據(jù)源,再結(jié)合執(zhí)行本方法的應(yīng)用平臺預(yù)設(shè)的第一類型信息,則可獲得了一個較為豐富的類型標簽的集合,即包含多個類型標簽的第三類別信息。例如,若執(zhí)行本方法的應(yīng)用平臺中的預(yù)設(shè)的類型標簽為“體育”,而沒有對類型“體育”進行進一步的分類,而在其他應(yīng)用市場中,在“體育”標簽下還分類有“足球”、“籃球”、“棒球”、“桌球”,則在整合得到的第三類型信息中加入“足球”、“籃球”、“棒球”、“桌球”的類型標簽。然后通過語義分析過濾掉部分語義相似、表述不統(tǒng)一的情況,則可構(gòu)建一個有層次結(jié)構(gòu)豐富的應(yīng)用分類體系,即第三類別信息。步驟S104:獲取第一應(yīng)用數(shù)據(jù)源或第二應(yīng)用數(shù)據(jù)源的的應(yīng)用信息,所述應(yīng)用信息中包含有樣本應(yīng)用標識和對應(yīng)的應(yīng)用描述信息。步驟S106:將所述應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配,為樣本應(yīng)用標識標注第三類別信息中的類別標簽。步驟S104至步驟S106即為對作為訓(xùn)練樣本的應(yīng)用進行類型標簽的樣本標注的過程。如前所述,第一應(yīng)用數(shù)據(jù)源和第二應(yīng)用數(shù)據(jù)源可以包括本地應(yīng)用平臺和第三方應(yīng)用平臺的分類信息、搜索記錄、應(yīng)用發(fā)布者添加的應(yīng)用描述信息等。對樣本應(yīng)用進行類型標簽的樣本標注,即為建立樣本應(yīng)用標識與前述構(gòu)建的第三類別信息中的類型標簽之間的映射關(guān)系,且該映射關(guān)系為1對1或者1對多的關(guān)系(是否為1對1或1對多取決于該應(yīng)用實際對應(yīng)的類型標簽的個數(shù))。參考圖2所示,可以采用多種方式為樣本應(yīng)用標識添加第三類別信息中的類型標簽。首先,對于本地應(yīng)用平臺中已有的應(yīng)用信息,可根據(jù)本地應(yīng)用平臺為其添加的類型標簽在第三類別信息中查找對應(yīng)的類型標簽進行映射,從而完成標注。也可以本地應(yīng)用平臺上的搜索記錄中得到樣本類型標識與搜索關(guān)鍵字的映射,然后再第三類別信息中查找與搜索關(guān)鍵字對應(yīng)的類型標簽,從而通過搜索關(guān)鍵字建立樣本類型標識與第三類別信息中的類型標簽的映射,完成對樣本應(yīng)用標識的標注(即圖2中的原始關(guān)聯(lián)的方式)。對于第三方應(yīng)用平臺抓取的樣本應(yīng)用,可通過應(yīng)用標識建立抓取的樣本應(yīng)用與第三類別信息中的類型標簽的映射關(guān)系。在本實施例中,可以將樣本應(yīng)用的包名作為樣本應(yīng)用標識,若樣本應(yīng)用的包名無法獲取,例如第三方游戲網(wǎng)站中沒有公布應(yīng)用的包名,則也可以根據(jù)應(yīng)用名稱、應(yīng)用安裝信息、應(yīng)用發(fā)布者信息生成樣本應(yīng)用標識(結(jié)合了應(yīng)用名稱、應(yīng)用安裝信息、應(yīng)用發(fā)布者信息的字符串)。在對作為訓(xùn)練樣本的應(yīng)用進行類型標簽的樣本標注的過程中,可通過抓取信息元數(shù)據(jù)自動為樣本應(yīng)用添加標注,建立樣本應(yīng)用標識與第三類別信息中的類別標簽的映射關(guān)系。例如,可通過獲取站內(nèi)搜索記錄中搜索關(guān)鍵詞與樣本應(yīng)用標識的映射關(guān)系,其他應(yīng)用平臺上應(yīng)用與類型標簽的映射關(guān)系,其他網(wǎng)站上對于應(yīng)用的描述信息中匹配的類型標簽與描述信息對應(yīng)的樣本應(yīng)用標識的映射關(guān)系,以及通過元搜索補充得到的元搜索關(guān)鍵詞對應(yīng)的類型標簽與元搜索的結(jié)果中包含的樣本應(yīng)用標識的映射關(guān)系。在本實施例中,基于上述映射關(guān)系,可利用多數(shù)據(jù)源交叉驗證投票、類別互斥關(guān)系、數(shù)據(jù)源置信度等多種策略為樣本應(yīng)用標識進行類型標簽的樣本標注。元搜補充是指用類別標簽拼上一定的模板,拼接成搜索關(guān)鍵字。例如,將類別標簽“跑酷”拼接為“跑酷類游戲”,然后通過元搜索到多個其他應(yīng)用市場進行檢索,從而根據(jù)檢索結(jié)果建立起類型標簽到與元搜索到的應(yīng)用的關(guān)聯(lián)(即圖2中的應(yīng)用標識映射)。進一步的,將所述第一類別信息和所述第二類別信息整合成第三類別信息的步驟之后還可獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應(yīng)的所述第三類別信息中的類別標簽的映射關(guān)系(即圖2中的類別映射)。例如,若執(zhí)行本方法的應(yīng)用平臺中的預(yù)設(shè)的類型標簽為“冒險”,而抓取的其他應(yīng)用平臺的類型標簽包括“探險”、“advanture”,生成的第三類別信息中的類型標簽設(shè)置為“冒險”,則建立“冒險”與同義類型標簽“探險”和“advanture”的映射。再例如,若執(zhí)行本方法的應(yīng)用平臺中的預(yù)設(shè)的類型標簽為“桌球”,而抓取的其他應(yīng)用平臺的類型標簽包括“臺球”、“斯諾克”,生成的第三類別信息中的類型標簽設(shè)置為“桌球”,則建立“桌球”與同義類型標簽“臺球”、“斯諾克”的映射。而在本實施例中,將應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配的步驟則包括:查找與所述應(yīng)用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應(yīng)的類別標簽作為所述應(yīng)用描述信息對應(yīng)的樣本應(yīng)用標識的類別標簽。例如,若在其他應(yīng)用平臺抓取到的某個樣本應(yīng)用標識的應(yīng)用描述信息中包含“臺球”,則根據(jù)前述建立的第三類別信息中的類型標簽與同義類型標簽的映射查找得到同義類型標簽“臺球”對應(yīng)第三類別信息中的類型標簽“桌球”,可為該樣本應(yīng)用標識添加類型標簽的標注為“桌球”。從而可準確地自動地為樣本應(yīng)用進行標注,而不用通過人工標注耗費時間地進行樣本標注。需要說明的是,對于具有多個層級的第三類別信息,同一個樣本應(yīng)用標識可對應(yīng)多個層級下的某個類型標簽。參考圖3所示,經(jīng)前述的查找過程可得到“投籃高手”應(yīng)用的描述信息中包含有“籃球”關(guān)鍵字,因此可與類型標簽“籃球”建立映射關(guān)系,即可被標注為“籃球”標簽。而“籃球”標簽在第三類別信息中具有兩個上層類型標簽,分別為“球類”和“體育”,因此,在對樣本應(yīng)用“投籃高手”進行標注時,可將“籃球”、“球類”和“體育”均標注在“投籃高手”上。從而可使得樣本應(yīng)用標識的標注更加全面,提高準確度。步驟S108:根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的特征向量,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器。步驟S110:根據(jù)所述訓(xùn)練的分類器為目標應(yīng)用標識生成應(yīng)用類別標簽。在本實施例中,可根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的應(yīng)用屬性向量、用戶群組屬性向量、關(guān)鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。如表1所示,表1展示了一個實施例中用于進行機器學(xué)習(xí)訓(xùn)練分類器的樣本應(yīng)用的應(yīng)用信息的特征向量的種類和數(shù)量。表1特征維度說明應(yīng)用屬性向量13安裝包大小/下載量/更新時間等用戶屬性分布特征18下載用戶群屬性分布LDA向量160每維為對應(yīng)主題下的概率文檔doc2vec向量100利用doc2vec生成對應(yīng)文檔的100維向量關(guān)鍵詞匹配向量3000選取的3000個關(guān)鍵term其中,應(yīng)用屬性向量包含了安裝包大小、下載量、更新時間、開發(fā)商等與應(yīng)用自身屬性的信息。選擇應(yīng)用屬性向量作為特征向量的依據(jù)為,在某一方面具有共性的應(yīng)用通常應(yīng)用屬性具有一定的相似性。例如,一個開發(fā)“塔防”類游戲的開發(fā)商通常開發(fā)有多款“塔防”類的游戲。且相同類型的應(yīng)用通常安裝包的大小相似,不會出現(xiàn)一個游戲幾十mb的大小而另一個同一類的游戲卻幾百兆大小的情況。用戶屬性分布特征即為應(yīng)用信息中包含的與下載該應(yīng)用的用戶的屬性先關(guān)的信息。例如,用戶屬性可包括下載用戶的年齡段等信息,相同年齡的用戶在游戲應(yīng)用的喜好上具有一定的一致性?;蛘哂脩魧傩钥砂ㄏ螺d用戶的性別信息,女性喜好的游戲通常與男性喜好的游戲不同。文檔主題生成模型LDA(LatentDirichletAllocation)向量則為通過LDA算法對樣本應(yīng)用的應(yīng)用描述信息進行分析后得到的特征向量。LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(documentcollection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bagofwords)的方法,將每一個應(yīng)用描述信息視為一個詞頻向量,從而將應(yīng)用描述信息中的文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。每一個應(yīng)用描述信息代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。通過LDA算法,即可得到預(yù)設(shè)個數(shù)的文檔主題以及在應(yīng)用描述信息與每個文檔主題對應(yīng)的概率。也就是說,可將應(yīng)用描述信息按照LDA的方式進行聚類,生成聚類的個數(shù)即為預(yù)設(shè)的LDA類型的特征向量的個數(shù)(如表1中的160),然后將每個聚類對應(yīng)的文檔主題及其概率作為特征向量。文檔doc2vec向量(文檔深度表示模型)則為通過doc2vec算法對樣本應(yīng)用的應(yīng)用描述信息進行分析后得到的特征向量。doc2vec把對應(yīng)用描述信息中的文本內(nèi)容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。即doc2vec將應(yīng)用描述信息與其中的單詞產(chǎn)生映射的概率。也就是說,可將應(yīng)用描述信息按照doc2vec的方式進行聚類,生成聚類的個數(shù)即為預(yù)設(shè)的doc2vec類型的特征向量的個數(shù)(如表1中的100),然后將每個聚類對應(yīng)的單詞及其概率作為特征向量。關(guān)鍵詞匹配向量即為應(yīng)用描述信息中包含的與預(yù)設(shè)的關(guān)鍵字對應(yīng)的單詞的向量。例如可預(yù)先設(shè)置N個關(guān)鍵詞的集合,然后查找應(yīng)用描述信息中包含的屬于預(yù)先設(shè)置的N個關(guān)鍵詞集合中的關(guān)鍵詞,且查找上線為預(yù)設(shè)的特征向量數(shù)M(即表1中的3000個)。然后將查找到的關(guān)鍵詞作為特征向量。對于前述進行了樣本標注的每個樣本應(yīng)用標識,可按照上述方式提取每個樣本應(yīng)用標識對應(yīng)的特征向量,然后將其輸入預(yù)設(shè)的分類器,即可對分類器進行訓(xùn)練。在本實施例中,在使用分類器進行分類時,需要將一個特定的目標應(yīng)用分類到多個類別中,即可根據(jù)目標應(yīng)用的應(yīng)用信息為目標應(yīng)用添加一個或一個以上的類別標簽。傳統(tǒng)技術(shù)中,常見的做法是把多分類問題轉(zhuǎn)換為二分類問題,具體有兩種轉(zhuǎn)換方法:1VR(one-versus-rest)和1V1(one-versus-one),1V1模式是在任兩個類別間設(shè)計一個二分類器,這樣需要N*N*(N-1)/2個二分類器,當對一個用例預(yù)測時,進行投票,其中N為類型標簽的個數(shù)。而在第三類別信息中的類型標簽較多時,采用1V1模式,需要N*N*(N-1)/2個二分類器器,模型的訓(xùn)練將很耗時間和資源,預(yù)測時這些模型也需要跑一遍,速度慢。因此在本實施例中,選用了1VR模式,而對于每個具體的二分類器,采用了GBRT模型實現(xiàn)。也就是說,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器的步驟包括:獲取所述第三類別信息中類別標簽的個數(shù),根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器。也就是說,選擇1VR模式,可只使用N個二分類器,因此,在本實施例中,選擇1VR模式設(shè)置分類器,從而可加快訓(xùn)練速度。進一步的,根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器的步驟還包括:將根據(jù)所述類別標簽的個數(shù)生成對應(yīng)第一數(shù)量的分類器作為主分類器;對于每個主分類器,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量獲取每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例;根據(jù)所述每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例生成對應(yīng)第二數(shù)量的與該主分類器對應(yīng)子分類器;結(jié)合隨機重采樣和隨機欠采樣訓(xùn)練所述第二數(shù)量的子分類器。正樣本數(shù)即為在二分類器中投票選中符合類型標簽的樣本的個數(shù),負樣本數(shù)即為在二分類器中投票選中不符合類型標簽的樣本的個數(shù)(即為正樣本在樣本應(yīng)用個數(shù)的補集中元素的個數(shù))。如前所述,如圖4所示,在1VR模式中,設(shè)置了N個主分類器,即圖4中的C1(1VR)至Cn(1VR),每個主分類器對應(yīng)一個第三類別信息中的類型標簽,則根據(jù)特征向量進行投票后,符合某個類型標簽的樣本應(yīng)用的個數(shù)即為該類型標簽對應(yīng)的主分類器的正樣本數(shù),不符合該類型標簽的樣本應(yīng)用的個數(shù)即為該類型標簽對應(yīng)的主分類器的負樣本數(shù)。而對于分類器的訓(xùn)練,在某個主分類器的訓(xùn)練過程中,可全部選擇某個類型標簽對應(yīng)的正樣本,而隨機選取該類型標簽的等量的負樣本,則由于負樣本數(shù)可能比正樣本數(shù)數(shù)量超出較多,而造成模型泛化能力嚴重不足。例如,對于具有層級結(jié)構(gòu)的類別信息而言,較低層級的類型標簽(例如一級類型標簽“游戲”下的二級類型標簽“體育”下的三級類型標簽“足球”)的正樣本數(shù)目偏少,而負樣本數(shù)量很大,因此,根據(jù)Bagging的思想,可對某個類型標簽對應(yīng)的主分類器下的正負樣本進行多次隨機采樣,按照正樣本數(shù)和負樣本數(shù)的比例設(shè)置多個子分類器。即可結(jié)合隨機重采樣(randomoversampling)和隨機欠采樣(randomundersampling),重復(fù)多次采樣,按照正樣本數(shù)和負樣本數(shù)的比例設(shè)置多個子分類器。如圖4所示,主分類器C2(1VR)由多個子分類器C2_A、C2_B、…C2_K組成,子分類器C2_A、C2_B、…C2_K實現(xiàn)主分類器C2(1VR)的功能,其中子分類器的個數(shù)與正樣本數(shù)與負樣本數(shù)的比值對應(yīng)。對于輸入的目標應(yīng)用,則可結(jié)合該多個子分類器組合投票來決定最終的類型標簽。為解決傳統(tǒng)技術(shù)中平臺預(yù)設(shè)類別標簽和發(fā)布者自選類別標簽的方式所帶來的,類別標簽與應(yīng)用匹配度不足,而導(dǎo)致的后續(xù)根據(jù)類別標簽查找應(yīng)用不準確的技術(shù)問題,在一個實施例中,特提供了一種生成應(yīng)用類別標簽的裝置,如圖2所示,該裝置包括類別信息構(gòu)建模塊102、樣本應(yīng)用獲取模塊104、樣本應(yīng)用標注模塊106、分類器訓(xùn)練模塊108以及目標應(yīng)用標注模塊110,其中:類別信息構(gòu)建模塊102,用于獲取第一應(yīng)用數(shù)據(jù)源的第一類別信息,獲取第二應(yīng)用數(shù)據(jù)源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應(yīng)用數(shù)據(jù)源包括本地應(yīng)用平臺的數(shù)據(jù)源,所述第二應(yīng)用數(shù)據(jù)源包括第三方應(yīng)用平臺的數(shù)據(jù)源;樣本應(yīng)用獲取模塊104,用于獲取第一應(yīng)用數(shù)據(jù)源或第二應(yīng)用數(shù)據(jù)源的應(yīng)用信息,所述應(yīng)用信息中包含有樣本應(yīng)用標識和對應(yīng)的應(yīng)用描述信息;樣本應(yīng)用標注模塊106,用于將所述應(yīng)用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應(yīng)用標識標注所述第三類別信息中的類別標簽;分類器訓(xùn)練模塊108,用于根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的特征向量,根據(jù)所述樣本應(yīng)用標識對應(yīng)的類別標簽和對應(yīng)的特征向量訓(xùn)練分類器;目標應(yīng)用標注模塊110,用于根據(jù)所述訓(xùn)練的分類器為目標應(yīng)用標識標注所述第三類別信息中的類別標簽。在一個實施例中,類別信息構(gòu)建模塊102還用于獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應(yīng)的所述第三類別信息中的類別標簽的映射關(guān)系。在該實施例中,樣本應(yīng)用標注模塊106還用于查找與所述應(yīng)用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應(yīng)的類別標簽作為所述應(yīng)用描述信息對應(yīng)的樣本應(yīng)用標識的類別標簽。在一個實施例中,分類器訓(xùn)練模塊108還用于根據(jù)所述應(yīng)用信息提取相應(yīng)的樣本應(yīng)用標識對應(yīng)的應(yīng)用屬性向量、用戶群組屬性向量、關(guān)鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。在一個實施例中,分類器訓(xùn)練模塊108還用于獲取所述第三類別信息中類別標簽的個數(shù),根據(jù)所述類別標簽的個數(shù)生成對應(yīng)數(shù)量的分類器。在一個實施例中,分類器訓(xùn)練模塊108還用于將根據(jù)所述類別標簽的個數(shù)生成對應(yīng)第一數(shù)量的分類器作為主分類器;對于每個主分類器,根據(jù)所述樣本應(yīng)用標識的類別標簽和對應(yīng)的特征向量獲取每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例;根據(jù)所述每個主分類器對應(yīng)的正樣本數(shù)和負樣本數(shù)的比例生成對應(yīng)第二數(shù)量的與該主分類器對應(yīng)子分類器;結(jié)合隨機重采樣和隨機欠采樣訓(xùn)練所述第二數(shù)量的子分類器。實施本發(fā)明實施例,將具有如下有益效果:采用了上述生成應(yīng)用類別標簽的方法和裝置之后,應(yīng)用平臺的類別信息得到了擴展,不僅包含了執(zhí)行本方法的本地應(yīng)用平臺的開發(fā)人員預(yù)先定義的類別信息,還整合了由第三方應(yīng)用平臺的應(yīng)用信息數(shù)據(jù)源抓取的其他應(yīng)用平臺、搜索記錄、其他應(yīng)用信息發(fā)布網(wǎng)站上對應(yīng)用的類別信息的描述,使得構(gòu)建的應(yīng)用平臺的類別信息更加全面。并且,先采集樣本應(yīng)用,并對樣本應(yīng)用進行類型標簽的樣本標注,然后將樣本應(yīng)用的特征向量輸入的分類器中進行機器學(xué)習(xí)訓(xùn)練,然后由訓(xùn)練好的分類器對目標應(yīng)用進行自動地分類,自動為目標應(yīng)用標注在擴展后的類別信息下的類型標簽,使得為應(yīng)用平臺上的目標應(yīng)用標注類型標簽的操作可自動化完成,且使得為目標應(yīng)用添加的類型標簽與目標應(yīng)用更加匹配,從而在根據(jù)類別標簽查找應(yīng)用時,查找結(jié)果更加準確。在一個實施例中,如圖6所示,圖6展示了一種運行上述生成應(yīng)用類別標簽的方法的基于馮諾依曼體系的計算機系統(tǒng)的終端10。該計算機系統(tǒng)可以是智能手機、平板電腦、掌上電腦,筆記本電腦或個人電腦等終端設(shè)備。具體的,可包括通過系統(tǒng)總線連接的外部輸入接口1001、處理器1002、存儲器1003和輸出接口1004。其中,外部輸入接口1001可選的可至少包括網(wǎng)絡(luò)接口10012。存儲器1003可包括外存儲器10032(例如硬盤、光盤或軟盤等)和內(nèi)存儲器10034。輸出接口1004可至少包括顯示屏10042等設(shè)備。在本實施例中,本方法的運行基于計算機程序,該計算機程序的程序文件存儲于前述基于馮諾依曼體系的計算機系統(tǒng)10的外存儲器10032中,在運行時被加載到內(nèi)存儲器10034中,然后被編譯為機器碼之后傳遞至處理器1002中執(zhí)行,從而使得基于馮諾依曼體系的計算機系統(tǒng)10中形成邏輯上的類別信息構(gòu)建模塊102、樣本應(yīng)用獲取模塊104、樣本應(yīng)用標注模塊106、分類器訓(xùn)練模塊108以及目標應(yīng)用標注模塊110。且在上述生成應(yīng)用類別標簽的方法執(zhí)行過程中,輸入的參數(shù)均通過外部輸入接口1001接收,并傳遞至存儲器1003中緩存,然后輸入到處理器1002中進行處理,處理的結(jié)果數(shù)據(jù)或緩存于存儲器1003中進行后續(xù)地處理,或被傳遞至輸出接口1004進行輸出。以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。當前第1頁1 2 3