亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應(yīng)用聚類方法和裝置與流程

文檔序號(hào):12008832閱讀:166來源:國知局
一種應(yīng)用聚類方法和裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種應(yīng)用聚類方法和裝置。

背景技術(shù):
互聯(lián)網(wǎng)上的應(yīng)用資源數(shù)量龐大,而且不斷地得到更新、擴(kuò)充。而用戶面對這些紛繁復(fù)雜的應(yīng)用資源時(shí),如何方便、準(zhǔn)確地找到目標(biāo)類型的應(yīng)用資源是當(dāng)前面對的現(xiàn)實(shí)問題,而解決該問題的關(guān)鍵在于有效聚類同款應(yīng)用?,F(xiàn)有技術(shù)中,通常采用以下方法聚類同一款應(yīng)用:抓取具有相同名稱的應(yīng)用;簡單地去除應(yīng)用中可以識(shí)別的版本信息;根據(jù)相同的應(yīng)用名稱聚類所述應(yīng)用。但是,這種方法的缺陷在于,同一款應(yīng)用通常在不同站點(diǎn)所抓取的名稱差別很大,由此導(dǎo)致很多相同應(yīng)用并沒有被合理地識(shí)別為同一款應(yīng)用,導(dǎo)致用戶無法一次性獲取所需的應(yīng)用資源。另外,有些應(yīng)用雖然在不同站點(diǎn)所抓取的名稱相同或相似,但是實(shí)質(zhì)內(nèi)容存在很大區(qū)別,導(dǎo)致用戶下載某些應(yīng)用資源后,得到的并不是與應(yīng)用名稱相符的資源。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種應(yīng)用聚類方法和裝置,可以有效聚類相同應(yīng)用。根據(jù)本發(fā)明的一個(gè)方面,提供了一種應(yīng)用聚類方法,該方法包括以下步驟:初始化所需的信息資源,獲取待聚類的多個(gè)應(yīng)用外部名稱;基于已初始化的信息,下載應(yīng)用并對其進(jìn)行解析,獲取所解析的應(yīng)用內(nèi)部名稱;對所獲取的應(yīng)用外部名稱以及所解析的應(yīng)用內(nèi)部名稱分別進(jìn)行預(yù)處理;根據(jù)預(yù)處理結(jié)果,確定應(yīng)用聚類的方式并進(jìn)行應(yīng)用聚類。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種應(yīng)用聚類裝置,包括:信息初始化模塊,用于初始化所需的信息資源,獲取待聚類的多個(gè)應(yīng)用外部名稱;應(yīng)用獲取模塊,基于已初始化的信息,下載應(yīng)用并對其進(jìn)行解析,獲取所解析的應(yīng)用內(nèi)部名稱;名稱預(yù)處理模塊,用于對所獲取的應(yīng)用外部名稱以及所解析的應(yīng)用內(nèi)部名稱分別進(jìn)行預(yù)處理;應(yīng)用聚類模塊,根據(jù)預(yù)處理結(jié)果,確定應(yīng)用聚類的方式并進(jìn)行應(yīng)用聚類。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):1)本發(fā)明可以有效聚類相同的應(yīng)用,可以在有限的終端(如手機(jī)、pad)屏幕上展示更豐富的信息,優(yōu)化應(yīng)用搜索結(jié)果,尤其是游戲類應(yīng)用的搜索結(jié)果;2)本發(fā)明提供的聚類方法可以集合更多應(yīng)用相關(guān)信息,進(jìn)而可以抽取出信息量更高的數(shù)據(jù),提高檢索相關(guān)性。附圖說明通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:圖1為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的應(yīng)用聚類方法流程圖;圖2為根據(jù)本發(fā)明另一個(gè)優(yōu)選實(shí)施例的應(yīng)用聚類裝置的示意性框圖。具體實(shí)施方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。根據(jù)本發(fā)明的一個(gè)方面,提供了一種應(yīng)用聚類方法。請參考圖1,圖1為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的應(yīng)用聚類方法流程圖。如圖1所示,本發(fā)明所提供的應(yīng)用聚類方法包括以下步驟:步驟S101,初始化所需的信息資源,獲取待聚類的多個(gè)應(yīng)用外部名稱。具體地,所述信息資源包括諸如同義詞表、應(yīng)用信息列表、名稱映射表以及結(jié)果存儲(chǔ)表等類型的數(shù)據(jù)。所述初始化的步驟包括:a)加載同義詞表;其中,所述同義詞表是指其中包含有相同或相似含義的詞表數(shù)據(jù)庫,該數(shù)據(jù)庫可以由本實(shí)施例創(chuàng)建,也可以從第三方獲取。b)加載應(yīng)用信息列表,包括應(yīng)用外部名稱和應(yīng)用下載鏈接;其中,所述應(yīng)用信息列表通常由第三方提供(例如根據(jù)第三方提供的應(yīng)用信息抓取相應(yīng)的數(shù)據(jù)),包括應(yīng)用外部名稱(如新浪微博v1.0、新浪微博綠色版、sinaweibo等)、應(yīng)用下載鏈接信息等。其中,所述應(yīng)用外部名稱在此不作約束,在實(shí)際情況中,所述第三方提供的外部名稱可能與應(yīng)用信息列表所來自的站點(diǎn)描述不一致。c)初始化所述應(yīng)用外部名稱和所解析的應(yīng)用名稱的映射表;其中,所述解析的應(yīng)用名稱如下文所述,在未得到所解析的應(yīng)用名稱前,初始化所述應(yīng)用外部名稱和將要得到的解析后應(yīng)用名稱的映射表。通常,所述應(yīng)用外部名稱和所解析的應(yīng)用名稱是不一樣的,前者一般更具有描述性、內(nèi)容更豐富,后者一般比較精簡。d)初始化應(yīng)用聚類結(jié)果存儲(chǔ)表,并將該存儲(chǔ)表命名為cluster_map。步驟S102,基于已初始化的信息,下載所述應(yīng)用并對其進(jìn)行解析,獲取所解析的應(yīng)用名稱。具體地,從已初始化的信息中,獲取應(yīng)用信息列表并從中取出一個(gè)應(yīng)用條目,根據(jù)應(yīng)用信息列表中的應(yīng)用下載鏈接下載該應(yīng)用對應(yīng)的應(yīng)用包。進(jìn)一步地,對該應(yīng)用包進(jìn)行解析,從中獲取所述應(yīng)用解析后的內(nèi)部名稱,在本實(shí)施例中,對應(yīng)用包進(jìn)行解析的方式以及所使用的解析工具不做限定。步驟S103,對所獲取的應(yīng)用外部名稱以及所解析的應(yīng)用名稱分別進(jìn)行預(yù)處理。具體地,所述預(yù)處理具體包括:Ⅰ)分別過濾所述應(yīng)用外部名稱以及所解析的應(yīng)用名稱的版本信息;通常,所述由第三方提供的應(yīng)用外部名稱含有版本信息,如v1.0等。在本實(shí)施例中,無論是應(yīng)用外部名稱還是解析得到的應(yīng)用名稱,都對其進(jìn)行版本信息的過濾操作。過濾操作的方式包括但不限于利用模式匹配,查找并去除所述名稱中特定的版本信息(或特定字符串),如v1.0。Ⅱ)對所述已過濾的應(yīng)用外部名稱以及所解析的應(yīng)用名稱進(jìn)行切詞、去除停用詞或/和字詞替換處理。其中,在本實(shí)施例中,切詞的方法在此不作限制。切詞后,對其中的停用詞/無用詞做去除處理。例如,去掉其中含“版”的詞,如去除詞語“綠色版”。進(jìn)一步地,對于名稱中的某些詞,還需要進(jìn)行替換處理,例如,將名稱為“sinaweibo”的字符串替換成中文名稱“新浪微博”。Ⅲ)對所述經(jīng)過切詞處理并過濾的結(jié)果進(jìn)行散列計(jì)算,分別將經(jīng)過散列計(jì)算的結(jié)果命名為組id(組名稱標(biāo)識(shí))和內(nèi)部id(內(nèi)部名稱標(biāo)識(shí))。具體地,對經(jīng)過上述步驟Ⅱ)處理過的結(jié)果進(jìn)行散列計(jì)算,在本實(shí)施例中,對散列計(jì)算的方式在此不予限定,包括但不限于采用MD2、MD4、MD5或SHA-1散列算法。進(jìn)一步地,分別將經(jīng)過上述散列計(jì)算后的應(yīng)用外部名稱以及所解析的應(yīng)用名稱所對應(yīng)的結(jié)果命名為組id和內(nèi)部id。步驟S104,根據(jù)預(yù)處理結(jié)果,確定應(yīng)用聚類的方式并進(jìn)行應(yīng)用聚類。具體地,根據(jù)所述應(yīng)用外部名稱對所述多個(gè)應(yīng)用進(jìn)行聚類,以獲得第一聚類結(jié)果;然后,根據(jù)第一聚類結(jié)果中的所解析的應(yīng)用名稱,對所述第一聚類結(jié)果中的各類進(jìn)行合并,以獲得第二聚類結(jié)果。其中,所述聚類的方式包括但不限于:如果兩個(gè)類中的應(yīng)用具有相同的所解析的應(yīng)用名稱,則對這兩個(gè)類進(jìn)行聚類。即,根據(jù)組id聚類應(yīng)用,并將所有組id相同的數(shù)據(jù)標(biāo)記為同一類,并將其保存在所述映射表中。由此,多個(gè)不同的內(nèi)部id對應(yīng)同一組id,即組id值相同的應(yīng)用被標(biāo)記為同一組;進(jìn)一步根據(jù)內(nèi)部id聚類應(yīng)用,對于內(nèi)部id相同而對應(yīng)的組id不同的應(yīng)用,將其合并成一類應(yīng)用。進(jìn)一步地,本發(fā)明所述的方法還包括:遍歷所有的應(yīng)用列表,進(jìn)行步驟S101到步驟S104的操作,以完成對所有應(yīng)用列表中的應(yīng)用的聚類。當(dāng)然,所述領(lǐng)域的技術(shù)人員可以明白,本發(fā)明的上述方法或系統(tǒng)可以應(yīng)用于各類應(yīng)用的聚類。作為優(yōu)選的實(shí)施例,可以將上述方法或系統(tǒng)應(yīng)用于游戲應(yīng)用的聚類。與現(xiàn)有技術(shù)相比,本發(fā)明所提供的應(yīng)用聚類方法具有以下優(yōu)點(diǎn):1)本發(fā)明可以有效針對不同類型的應(yīng)用進(jìn)行有效地聚類,尤其是針對游戲類的應(yīng)用聚類,效果更明顯;2)本發(fā)明通過對應(yīng)用進(jìn)行聚類,可以提升用戶的檢索和下載體驗(yàn)。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種應(yīng)用聚類裝置。請參考圖2所示,圖2為根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的應(yīng)用聚類裝置示意圖。如圖2所示,該裝置包括:信息初始化模塊201,用于初始化所需的信息資源,獲取待聚類的多個(gè)應(yīng)用外部名稱;應(yīng)用獲取模塊202,基于已初始化的信息,下載應(yīng)用并對其進(jìn)行解析,獲取所解析的應(yīng)用名稱;名稱預(yù)處理模塊203,用于對所獲取的應(yīng)用外部名稱以及所解析的應(yīng)用名稱分別進(jìn)行預(yù)處理;應(yīng)用聚類模塊204,根據(jù)預(yù)處理結(jié)果,確定應(yīng)用聚類的方式并進(jìn)行應(yīng)用聚類。下面,將對本發(fā)明所提供的各模塊的具體工作過程進(jìn)行詳細(xì)說明。其中,所述信息初始化模塊201初始化的信息資源包括諸如同義詞表、應(yīng)用信息列表、名稱映射表以及結(jié)果存儲(chǔ)表等類型的數(shù)據(jù)。所述初始化的步驟包括:a)加載同義詞表;其中,所述同義詞表是指其中包含有相同或相似含義的詞表數(shù)據(jù)庫,該數(shù)據(jù)庫可以由本實(shí)施例創(chuàng)建,也可以從第三方獲取。b)加載應(yīng)用信息列表,包括應(yīng)用外部名稱和應(yīng)用下載鏈接;其中,所述應(yīng)用信息列表通常由第三方提供(例如根據(jù)第三方提供的應(yīng)用信息抓取相應(yīng)的數(shù)據(jù)),包括應(yīng)用外部名稱(如新浪微博v1.0、新浪微博綠色版、sinaweibo等)、應(yīng)用下載鏈接信息等。其中,所述應(yīng)用外部名稱在此不作約束,在實(shí)際情況中,所述第三方提供的外部名稱可能與應(yīng)用信息列表所來自的站點(diǎn)描述不一致。c)初始化所述應(yīng)用外部名稱和所解析的應(yīng)用名稱的映射表;其中,所述解析的應(yīng)用名稱如下文所述,在未得到所解析的應(yīng)用名稱前,初始化所述應(yīng)用外部名稱和將要得到的解析后應(yīng)用名稱的映射表。通常,所述應(yīng)用外部名稱和所解析的應(yīng)用名稱是不一樣的,前者一般更具有描述性、內(nèi)容更豐富,后者一般比較精簡。d)初始化應(yīng)用聚類結(jié)果存儲(chǔ)表,并將該存儲(chǔ)表命名為cluster_map。其中,所述應(yīng)用獲取模塊202從已初始化的信息中,獲取應(yīng)用信息列表并從中取出一個(gè)應(yīng)用條目,根據(jù)應(yīng)用信息列表中的應(yīng)用下載鏈接下載該應(yīng)用對應(yīng)的應(yīng)用包。進(jìn)一步地,所述應(yīng)用獲取模塊202對該應(yīng)用包進(jìn)行解析,從中獲取所述應(yīng)用解析后的內(nèi)部名稱,在本實(shí)施例中,對應(yīng)用包進(jìn)行解析的方式以及所使用的解析工具不做限定。其中,所述名稱預(yù)處理模塊203進(jìn)行的預(yù)處理操作具體包括:Ⅰ)分別過濾所述應(yīng)用外部名稱以及所解析的應(yīng)用名稱的版本信息;通常,所述由第三方提供的應(yīng)用外部名稱含有版本信息,如v1.0等。在本實(shí)施例中,無論是應(yīng)用外部名稱還是解析得到的應(yīng)用名稱,都對其進(jìn)行版本信息的過濾操作。過濾操作的方式包括但不限于利用模式匹配,查找并去除所述名稱中特定的版本信息(或特定字符串),如v1.0。Ⅱ)對所述已過濾的應(yīng)用外部名稱以及所解析的應(yīng)用名稱進(jìn)行切詞、去除停用詞或/和字詞替換處理。其中,在本實(shí)施例中,切詞的方法在此不作限制。切詞后,對其中的停用詞/無用詞做去除處理。例如,去掉其中含“版”的詞,如去除詞語“綠色版”。進(jìn)一步地,對于名稱中的某些詞,還需要進(jìn)行替換處理,例如,將名稱為“sinaweibo”的字符串替換成中文名稱“新浪微博”。Ⅲ)對所述經(jīng)過切詞處理并過濾的結(jié)果進(jìn)行散列計(jì)算,分別將經(jīng)過散列計(jì)算的結(jié)果命名為組id(組名稱標(biāo)識(shí))和內(nèi)部id(內(nèi)部名稱標(biāo)識(shí))。具體地,對經(jīng)過上述步驟Ⅱ)處理過的結(jié)果進(jìn)行散列計(jì)算,在本實(shí)施例中,對散列計(jì)算的方式在此不予限定,包括但不限于采用MD2、MD4、MD5或SHA-1散列算法。進(jìn)一步地,分別將經(jīng)過上述散列計(jì)算后的應(yīng)用外部名稱以及所解析的應(yīng)用名稱所對應(yīng)的結(jié)果命名為組id和內(nèi)部id。其中,所述應(yīng)用聚類模塊204根據(jù)所述應(yīng)用外部名稱對所述多個(gè)應(yīng)用進(jìn)行聚類,以獲得第一聚類結(jié)果;然后,根據(jù)第一聚類結(jié)果中的所解析的應(yīng)用名稱,對所述第一聚類結(jié)果中的各類進(jìn)行合并,以獲得第二聚類結(jié)果。其中,所述聚類的方式包括但不限于:如果兩個(gè)類中的應(yīng)用具有相同的所解析的應(yīng)用名稱,則對這兩個(gè)類進(jìn)行聚類。即,根據(jù)組id聚類應(yīng)用,并將所有組id相同的數(shù)據(jù)標(biāo)記為同一類,并將其保存在所述映射表中。由此,多個(gè)不同的內(nèi)部id對應(yīng)同一組id,即組id值相同的應(yīng)用被標(biāo)記為同一組;進(jìn)一步根據(jù)內(nèi)部id聚類應(yīng)用,對于內(nèi)部id相同而對應(yīng)的組id不同的應(yīng)用,將其合并成一類應(yīng)用。進(jìn)一步地,本發(fā)明提供的裝置還包括應(yīng)用遍歷模塊,用于遍歷所有的應(yīng)用列表。通過所述應(yīng)用遍歷模塊對所有應(yīng)用列表的遍歷,并通過上述其他各模塊的操作,可以完成所有應(yīng)用列表中的應(yīng)用聚類。本發(fā)明所提供的應(yīng)用聚類裝置具有以下優(yōu)點(diǎn):本發(fā)明提供的方案不依賴于應(yīng)用資源在不同站點(diǎn)所抓取的名稱,客觀聚類,滿足了應(yīng)用搜索結(jié)果的統(tǒng)一性,確保應(yīng)用資源的高效聚類,根據(jù)用戶的需求,得到準(zhǔn)確的聚類結(jié)果,提升搜索效率。以上所揭露的僅為本發(fā)明的較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1