本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種應(yīng)用查詢方法和裝置、相似應(yīng)用檢測(cè)方法和裝置。
背景技術(shù):
隨著終端配置的不斷升級(jí),終端的硬件能力越來(lái)越強(qiáng),可以支持?jǐn)?shù)量龐大、種類繁多的應(yīng)用,各軟件開發(fā)商不斷開發(fā)新的應(yīng)用或者對(duì)原有應(yīng)用進(jìn)行升級(jí),并通過(guò)應(yīng)用管理平臺(tái)發(fā)布,廣大用戶便可以從應(yīng)用管理平臺(tái)下載所需的應(yīng)用。應(yīng)用管理平臺(tái)也通常被稱為應(yīng)用商店。
目前,應(yīng)用管理平臺(tái)所發(fā)布的應(yīng)用數(shù)量龐大,而且不斷有新的應(yīng)用或者新版本的應(yīng)用更新。而一些惡意軟件開發(fā)商會(huì)選擇一些正版的應(yīng)用進(jìn)行仿冒,通過(guò)應(yīng)用管理平臺(tái)發(fā)布一些仿冒應(yīng)用,也稱為山寨應(yīng)用。仿冒應(yīng)用通常會(huì)攜帶有惡意代碼,用戶在終端上安裝仿冒應(yīng)用后終端會(huì)產(chǎn)生惡意扣費(fèi)、惡意消耗網(wǎng)絡(luò)流量或者惡意彈窗等損害用戶利益的行為。
然而,目前甄別仿冒應(yīng)用主要是在應(yīng)用發(fā)布時(shí)進(jìn)行人工審核,但應(yīng)用管理平臺(tái)上發(fā)布的應(yīng)用數(shù)量龐大,純?nèi)斯徍诵侍?,影響?yīng)用發(fā)布的及時(shí)性,且無(wú)法滿足應(yīng)用不斷更新的需求。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)目前甄別仿冒應(yīng)用通過(guò)發(fā)布應(yīng)用時(shí)進(jìn)行人工審核效率低的問(wèn)題,提供一種應(yīng)用查詢方法和裝置、相似應(yīng)用檢測(cè)方法和裝置。
一種應(yīng)用查詢方法,所述方法包括:
獲取應(yīng)用查詢請(qǐng)求;
根據(jù)所述應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度;
獲取滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息;
反饋所述第二應(yīng)用的信息,以使反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示;
獲取針對(duì)展示的第二應(yīng)用的信息的下線命令,以對(duì)所述下線命令所指定的第二應(yīng)用進(jìn)行下線處理。
一種應(yīng)用查詢裝置,所述裝置包括:
請(qǐng)求獲取模塊,用于獲取應(yīng)用查詢請(qǐng)求;
特征相似度獲取模塊,用于根據(jù)所述應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度;
相似應(yīng)用信息獲取模塊,用于獲取滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息;
相似應(yīng)用信息反饋模塊,用于反饋所述第二應(yīng)用的信息,以使反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示;
下線命令處理模塊,用于獲取針對(duì)展示的第二應(yīng)用的信息的下線命令,以對(duì)所述下線命令所指定的第二應(yīng)用進(jìn)行下線處理。
上述應(yīng)用查詢方法和裝置,獲取到應(yīng)用查詢請(qǐng)求后,對(duì)于第一應(yīng)用,獲取其與已發(fā)布的各第二應(yīng)用之間的特征相似度,從而獲取到滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息并反饋。反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示,這樣可以針對(duì)第一應(yīng)用,批量查詢相似的、滿足候選相似應(yīng)用條件的第二應(yīng)用的信息,用戶便可以對(duì)展示的第二應(yīng)用觸發(fā)下線指令,以對(duì)相應(yīng)的第二應(yīng)用進(jìn)行下線處理。通過(guò)批量查詢以及先發(fā)布再下線的處理方式,提高了甄別仿冒應(yīng)用的效率。
一種相似應(yīng)用檢測(cè)方法,所述方法包括:
確定待檢測(cè)的第一應(yīng)用;
獲取已發(fā)布的第二應(yīng)用構(gòu)成的比對(duì)應(yīng)用庫(kù);
從所述比對(duì)應(yīng)用庫(kù)中查找與所述第一應(yīng)用之間的特征相似度高于相似度閾 值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果;
根據(jù)所述查找結(jié)果輸出是否存在所述第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。
一種相似應(yīng)用檢測(cè)裝置,所述裝置包括:
待檢測(cè)應(yīng)用確定模塊,用于確定待檢測(cè)的第一應(yīng)用;
比對(duì)應(yīng)用庫(kù)獲取模塊,用于獲取已發(fā)布的第二應(yīng)用構(gòu)成的比對(duì)應(yīng)用庫(kù);
相似應(yīng)用查找模塊,用于從所述比對(duì)應(yīng)用庫(kù)中查找與所述第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果;
檢測(cè)結(jié)果輸出模塊,用于根據(jù)所述查找結(jié)果輸出是否存在所述第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。
上述相似應(yīng)用檢測(cè)方法和裝置,通過(guò)將待檢測(cè)的第一應(yīng)用和比對(duì)應(yīng)用庫(kù)中已發(fā)布的第二應(yīng)用進(jìn)行比較,獲得特征相似度高于相似度閾值的第二應(yīng)用,從而獲得是否存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。通過(guò)相似應(yīng)用檢測(cè),可以主動(dòng)地發(fā)現(xiàn)待檢測(cè)的第一應(yīng)用是否與已發(fā)布的第二應(yīng)用相沖突,也可以用來(lái)判斷第一應(yīng)用是否有仿冒已發(fā)布的第二應(yīng)用的可能性,可以在發(fā)布前避免仿冒應(yīng)用的出現(xiàn),提高了甄別仿冒應(yīng)用的效率。
附圖說(shuō)明
圖1為一個(gè)實(shí)施例中應(yīng)用管理系統(tǒng)的應(yīng)用環(huán)境圖;
圖2為一個(gè)實(shí)施例中用于實(shí)現(xiàn)應(yīng)用查詢方法的服務(wù)器的結(jié)構(gòu)示意圖;
圖3為一個(gè)實(shí)施例中應(yīng)用查詢方法的流程示意圖;
圖4為一個(gè)實(shí)施例中應(yīng)用管理平臺(tái)上第一應(yīng)用的詳情頁(yè)面的示意圖;
圖5為一個(gè)實(shí)施例中仿冒查詢結(jié)果展示頁(yè)面的示意圖;
圖6為另一個(gè)實(shí)施例中仿冒查詢結(jié)果展示頁(yè)面的示意圖;
圖7為一個(gè)實(shí)施例中根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度的步驟的流程示意圖;
圖8為一個(gè)實(shí)施例中應(yīng)用查詢方法的流程示意圖;
圖9為另一個(gè)實(shí)施例中根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度的步驟的流程示意圖;
圖10為一個(gè)實(shí)施例中生成視覺(jué)詞匯詞典以及生成視覺(jué)詞匯特征的過(guò)程的示意圖;
圖11為一個(gè)實(shí)施例中視覺(jué)詞匯詞典以及視覺(jué)詞匯特征的關(guān)系示意圖;
圖12為再一個(gè)實(shí)施例中根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度的步驟的流程示意圖;
圖13為一個(gè)實(shí)施例中根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度的步驟的流程示意圖;
圖14為一個(gè)實(shí)施例中應(yīng)用查詢裝置的結(jié)構(gòu)框圖;
圖15為一個(gè)實(shí)施例中特征相似度獲取模塊的結(jié)構(gòu)框圖;
圖16為另一個(gè)實(shí)施例中應(yīng)用查詢裝置的結(jié)構(gòu)框圖;
圖17為另一個(gè)實(shí)施例中特征相似度獲取模塊的結(jié)構(gòu)框圖;
圖18為再一個(gè)實(shí)施例中特征相似度獲取模塊的結(jié)構(gòu)框圖;
圖19為一個(gè)實(shí)施例中特征相似度獲取模塊的結(jié)構(gòu)框圖;
圖20為一個(gè)實(shí)施例中相似應(yīng)用檢測(cè)方法的流程示意圖;
圖21為一個(gè)實(shí)施例中從比對(duì)應(yīng)用庫(kù)中查找與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果的步驟的流程示意圖;
圖22為一個(gè)實(shí)施例中相似應(yīng)用檢測(cè)裝置的結(jié)構(gòu)框圖;
圖23為一個(gè)實(shí)施例中相似應(yīng)用查找模塊的結(jié)構(gòu)框圖;
圖24為一個(gè)實(shí)施例中終端的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,在一個(gè)實(shí)施例中,提供了一種應(yīng)用管理系統(tǒng),包括終端110和 服務(wù)器120。終端110可以是移動(dòng)終端或者臺(tái)式計(jì)算機(jī),移動(dòng)終端可以是手機(jī)、平板電腦或者個(gè)人數(shù)字助理(pda)等。服務(wù)器120可以是獨(dú)立的物理服務(wù)器或者服務(wù)器集群,服務(wù)器120可以包括cdn(contentdeliverynetwork,即內(nèi)容分發(fā)網(wǎng)絡(luò))服務(wù)器。
如圖2所示,在一個(gè)實(shí)施例中,提供了一種用于實(shí)現(xiàn)一種應(yīng)用查詢方法的服務(wù)器120,包括通過(guò)系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口。其中處理器具有計(jì)算功能和控制服務(wù)器120工作的功能,該處理器被配置為執(zhí)行一種應(yīng)用查詢方法。非易失性存儲(chǔ)介質(zhì)包括磁存儲(chǔ)介質(zhì)、光存儲(chǔ)介質(zhì)和閃存式存儲(chǔ)介質(zhì)中的至少一種,非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)和應(yīng)用查詢裝置。該應(yīng)用查詢裝置用于實(shí)施一種應(yīng)用查詢方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)。
如圖3所示,在一個(gè)實(shí)施例中,提供了一種應(yīng)用查詢方法,本實(shí)施例以該方法應(yīng)用于上述圖1中的服務(wù)器120來(lái)舉例說(shuō)明。該方法具體包括如下步驟:
步驟302,獲取應(yīng)用查詢請(qǐng)求。
具體地,服務(wù)器上運(yùn)行有應(yīng)用管理平臺(tái),普通用戶可訪問(wèn)應(yīng)用管理平臺(tái)以查詢以及下載應(yīng)用,平臺(tái)管理員賬號(hào)可登錄應(yīng)用管理平臺(tái),對(duì)應(yīng)用管理平臺(tái)上已發(fā)布的應(yīng)用進(jìn)行管理操作。管理操作包括查詢應(yīng)用的操作以及對(duì)應(yīng)用進(jìn)行下線處理的操作等。
進(jìn)一步地,終端向服務(wù)器發(fā)送訪問(wèn)應(yīng)用管理平臺(tái)的訪問(wèn)請(qǐng)求,服務(wù)器根據(jù)該訪問(wèn)請(qǐng)求向終端反饋應(yīng)用管理平臺(tái)的應(yīng)用管理頁(yè)面,終端在該應(yīng)用管理頁(yè)面中觸發(fā)應(yīng)用查詢請(qǐng)求并發(fā)送到服務(wù)器,服務(wù)器獲取到該應(yīng)用查詢請(qǐng)求。
參照?qǐng)D4,平臺(tái)管理員可在應(yīng)用管理平臺(tái)的應(yīng)用管理頁(yè)面訪問(wèn)第一應(yīng)用的詳情頁(yè)面,在該詳情頁(yè)面展示第一應(yīng)用的信息,比如應(yīng)用名稱、應(yīng)用別名、應(yīng)用標(biāo)識(shí)、自定義標(biāo)簽、應(yīng)用分類以及應(yīng)用開發(fā)商等信息。終端檢測(cè)在第一應(yīng)用的詳情頁(yè)面中觸發(fā)的應(yīng)用查詢操作,以觸發(fā)相應(yīng)的應(yīng)用查詢請(qǐng)求。應(yīng)用查詢操作可以是對(duì)如圖4中的仿冒查詢控件401的觸發(fā)操作或者預(yù)定義的在詳情頁(yè)面中進(jìn)行檢測(cè)的滑動(dòng)操作或者多點(diǎn)觸控操作等。觸發(fā)操作比如單擊操作或雙擊操作等。
步驟304,根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度。
其中,應(yīng)用查詢請(qǐng)求用于觸發(fā)查詢與該應(yīng)用查詢請(qǐng)求所指定的第一應(yīng)用,應(yīng)用查詢請(qǐng)求可通過(guò)攜帶第一應(yīng)用的第一應(yīng)用標(biāo)識(shí)來(lái)指定第一應(yīng)用。應(yīng)用標(biāo)識(shí)可唯一標(biāo)識(shí)出相應(yīng)的應(yīng)用,應(yīng)用管理平臺(tái)可向應(yīng)用管理平臺(tái)上的各應(yīng)用統(tǒng)一分配彼此相異的應(yīng)用標(biāo)識(shí)。
第二應(yīng)用是在應(yīng)用管理平臺(tái)上已經(jīng)發(fā)布的應(yīng)用,發(fā)布應(yīng)用是指將應(yīng)用在應(yīng)用管理平臺(tái)上公開,使得普通用戶可以搜索并下載該應(yīng)用。相對(duì)地,下線應(yīng)用則是發(fā)布應(yīng)用的逆操作,已發(fā)布的應(yīng)用被下線后,無(wú)法再被普通用戶搜索到并下載。
特征相似度是第一應(yīng)用和第二應(yīng)用各自特征信息的相似性度量,特征相似度越大表示第一應(yīng)用和相應(yīng)的第二應(yīng)用越相似。具體地,服務(wù)器在接收到應(yīng)用查詢請(qǐng)求后,從應(yīng)用查詢請(qǐng)求中提取第一應(yīng)用的第一應(yīng)用標(biāo)識(shí),根據(jù)第一應(yīng)用標(biāo)識(shí)獲取第一應(yīng)用的第一特征信息。獲取應(yīng)用管理平臺(tái)上已發(fā)布的全量的第二應(yīng)用標(biāo)識(shí),根據(jù)第二應(yīng)用標(biāo)識(shí)獲取第二應(yīng)用的第二特征信息,進(jìn)而計(jì)算第一特征信息與各第二特征信息之間的特征相似度。
步驟306,獲取滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息。
其中,候選相似應(yīng)用條件是根據(jù)特征相似度將第二應(yīng)用是第一應(yīng)用的應(yīng)用的可能性進(jìn)行量化的條件。在一個(gè)實(shí)施例中,候選相似應(yīng)用條件為大于等于預(yù)設(shè)閾值,則滿足候選相似應(yīng)用條件的特征相似度包括:大于等于預(yù)設(shè)閾值的特征相似度。
在另一個(gè)實(shí)施例中,候選相似應(yīng)用條件為特征相似度最高的預(yù)設(shè)數(shù)量的特征相似度,則滿足候選相似應(yīng)用條件的特征相似度包括:將獲取的所有特征相似度按照從高到低的順序排序后從首位開始預(yù)設(shè)數(shù)量的特征相似度,比如將特征相似度按照從高到低的順序排序后的前50的特征相似度。
具體地,對(duì)于滿足候選相似應(yīng)用條件的特征相似度,獲取該特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息。第二應(yīng)用的信息包括第二應(yīng)用標(biāo)識(shí),還可以包括第二 應(yīng)用的圖標(biāo)或者文本信息,文本信息包括應(yīng)用介紹信息、應(yīng)用截圖、應(yīng)用數(shù)字簽名、應(yīng)用開發(fā)商信息以及應(yīng)用版本信息等。
步驟308,反饋第二應(yīng)用的信息,以使反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示。
具體地,服務(wù)器向終端反饋第二應(yīng)用的信息,使得終端按照特征相似度從高到低的順序展示第二應(yīng)用的信息。當(dāng)獲取到的第二應(yīng)用的信息超過(guò)單頁(yè)容量時(shí),服務(wù)器可分頁(yè)返回第二應(yīng)用的信息,終端也可將反饋的第二應(yīng)用的信息分頁(yè)展示。
在一個(gè)實(shí)施例中,服務(wù)器可按照特征相似度從高到低的順序?qū)⒌诙?yīng)用的信息排序后進(jìn)行反饋,終端接收到反饋的經(jīng)過(guò)排序的第二應(yīng)用的信息,并將反饋的第二應(yīng)用的信息依排序展示在應(yīng)用管理平臺(tái)的仿冒查詢結(jié)果展示頁(yè)面中。
在一個(gè)實(shí)施例中,服務(wù)器也可以反饋第二應(yīng)用的信息以及相應(yīng)的特征相似度,終端則將反饋的第二應(yīng)用的信息按照相應(yīng)的特征相似度從高到低的順序進(jìn)行排序后展示到仿冒查詢結(jié)果展示頁(yè)面中。
在一個(gè)實(shí)施例中,若存在多種類型的特征相似度,終端則按照其中一種類型的特征相似度從高到低的順序排序展示相應(yīng)的第二應(yīng)用的信息;若該種類型的特征相似度相等,則再按照另一種特征相似度從高到低的順序排序展示相應(yīng)的第二應(yīng)用的信息。
在一個(gè)實(shí)施例中,終端展示的第二應(yīng)用的信息還可以包括相應(yīng)的特征相似度以及仿冒判斷參考信息。仿冒判斷參考信息比如可以包括應(yīng)用圖標(biāo)、應(yīng)用名稱、應(yīng)用檢查等級(jí)以及應(yīng)用來(lái)源等。應(yīng)用檢查等級(jí)可根據(jù)軟件開發(fā)商的歷史行為記錄生成。通過(guò)特征相似度結(jié)合仿冒判斷參考信息,可進(jìn)一步提高仿冒查詢的準(zhǔn)確性。
舉例說(shuō)明,參照?qǐng)D5,終端可按照?qǐng)D標(biāo)哈希序列相似度從高到低的順序展示第二應(yīng)用的信息,如果圖標(biāo)哈希序列相似度相同再按照?qǐng)D標(biāo)視覺(jué)詞匯特征相似度從高到低的順序展示第二應(yīng)用的信息。圖5中展示的第二應(yīng)用的信息包括第二應(yīng)用的圖標(biāo)、應(yīng)用名稱、檢查等級(jí)、來(lái)源、圖標(biāo)哈希序列相似度、圖標(biāo)視覺(jué)詞匯特征相似度以及文本哈希序列相似度。
步驟310,獲取針對(duì)展示的第二應(yīng)用的信息的下線命令,以對(duì)下線命令所指定的第二應(yīng)用進(jìn)行下線處理。
具體地,終端可檢測(cè)對(duì)展示的第二應(yīng)用的信息的操作,以選中該第二應(yīng)用,并進(jìn)入該第二應(yīng)用的詳情頁(yè)面,在該詳情頁(yè)面中展示下線控件。終端檢測(cè)到對(duì)該下線控件的預(yù)定義操作后觸發(fā)下線命令,該下線命令指定了需進(jìn)行下線處理的第二應(yīng)用。終端將該下線命令發(fā)送到服務(wù)器,使得服務(wù)器根據(jù)該下線命令對(duì)該下線命令所指定的第二應(yīng)用進(jìn)行下線處理,使得指定的第二應(yīng)用不可被普通用戶搜索以及下載。終端也可以根據(jù)特征相似度自動(dòng)觸發(fā)下線命令。
舉例說(shuō)明,參照?qǐng)D6,用戶點(diǎn)擊仿冒查詢結(jié)果展示頁(yè)面中展示的第二應(yīng)用的信息,則終端會(huì)展示相應(yīng)的第二應(yīng)用其它詳細(xì)的仿冒判斷參考信息,比如安裝包名、應(yīng)用標(biāo)識(shí)、安裝包標(biāo)識(shí)、版本信息、下載量、軟件開發(fā)商信息、應(yīng)用介紹信息以及應(yīng)用截圖等,用戶對(duì)詳細(xì)的仿冒判斷參考信息進(jìn)行操作,則終端會(huì)進(jìn)入該第二應(yīng)用的詳情頁(yè)面,在該詳情頁(yè)面中可觸發(fā)對(duì)該第二應(yīng)用進(jìn)行下線處理的下線命令。
上述應(yīng)用查詢方法,獲取到應(yīng)用查詢請(qǐng)求后,對(duì)于第一應(yīng)用,獲取其與已發(fā)布的各第二應(yīng)用之間的特征相似度,從而獲取到滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息并反饋。反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示,這樣可以針對(duì)第一應(yīng)用,批量查詢相似的、滿足候選相似應(yīng)用條件的第二應(yīng)用的信息,用戶便可以對(duì)展示的第二應(yīng)用觸發(fā)下線指令,以對(duì)相應(yīng)的第二應(yīng)用進(jìn)行下線處理。通過(guò)批量查詢以及先發(fā)布再下線的處理方式,提高了甄別仿冒應(yīng)用的效率。
如圖7所示,在一個(gè)實(shí)施例中,步驟304具體包括如下步驟:
步驟702,根據(jù)應(yīng)用查詢請(qǐng)求,獲取第一應(yīng)用的第一特征信息;第一特征信息包括第一應(yīng)用的圖標(biāo)特征和應(yīng)用文本特征中的至少一種。
具體地,服務(wù)器接收到應(yīng)用查詢請(qǐng)求后,從應(yīng)用查詢請(qǐng)求中提取第一應(yīng)用標(biāo)識(shí),從而獲取該第一應(yīng)用標(biāo)識(shí)所對(duì)應(yīng)的第一特征信息。應(yīng)用的圖標(biāo)是圖像,采用圖像特征;應(yīng)用的文本信息則是文本,采用文本特征。
在一個(gè)實(shí)施例中,服務(wù)器可定期計(jì)算并緩存全量應(yīng)用的特征信息,則步驟 702包括:判斷是否緩存有第一應(yīng)用的第一特征信息;若是,則直接獲取緩存的第一特征信息;若否,則即時(shí)提取第一應(yīng)用的第一特征信息。
其中,全量應(yīng)用是指應(yīng)用管理平臺(tái)上的所有應(yīng)用,應(yīng)用管理平臺(tái)不斷會(huì)有新增的應(yīng)用或者更新的應(yīng)用,這樣需要定期計(jì)算新增或更新應(yīng)用的特征信息,以更新全量應(yīng)用的特征信息。全量應(yīng)用的特征信息可存儲(chǔ)在cdn服務(wù)器中。
如果第一應(yīng)用是新增或者更新的應(yīng)用,且還沒(méi)有計(jì)算并緩存相應(yīng)的第一特征信息,則服務(wù)器可拉取第一應(yīng)用的信息,從而即時(shí)地從第一應(yīng)用的信息中提取第一特征信息。如果服務(wù)器緩存有第一特征信息,則服務(wù)器就可以在需要查詢應(yīng)用時(shí)即時(shí)獲取緩存的第一特征信息。本實(shí)施例通過(guò)定期計(jì)算并緩存全量應(yīng)用的特征信息可以顯著提高查詢仿冒應(yīng)用的效率。
步驟704,獲取已發(fā)布的第二應(yīng)用的第二特征信息;第二特征信息與第一特征信息的特征類型相同。
具體地,服務(wù)器可即時(shí)計(jì)算已發(fā)布的各第二應(yīng)用的第二特征信息,也可以查詢緩存的各第二應(yīng)用的第二特征信息。第二特征信息與第一特征信息的特征類型,比如第一特征信息為第一應(yīng)用的圖標(biāo)特征,則第二特征信息則為第二應(yīng)用的圖標(biāo)特征;若第一特征信息為第一應(yīng)用的應(yīng)用文本特征,則第二特征信息為第二應(yīng)用的應(yīng)用文本特征,依次類推。
步驟706,計(jì)算第一特征信息和第二特征信息的特征相似度。
具體地,根據(jù)第一特征信息和第二特征信息的特征類型,采用不同的計(jì)算方式來(lái)計(jì)算特征相似度。
本實(shí)施例中,服務(wù)器根據(jù)第一應(yīng)用和第二應(yīng)用之間的圖標(biāo)特征和應(yīng)用文本特征中的至少一種的特征相似度來(lái)進(jìn)行應(yīng)用的查詢,可以有效地檢測(cè)出可能存在仿冒行為的第二應(yīng)用,提高了查詢?cè)L問(wèn)應(yīng)用的準(zhǔn)確性。
舉例說(shuō)明,參照?qǐng)D8,服務(wù)器存儲(chǔ)有圖標(biāo)數(shù)據(jù)庫(kù)和應(yīng)用文本數(shù)據(jù)庫(kù),圖標(biāo)數(shù)據(jù)庫(kù)中存儲(chǔ)有應(yīng)用管理平臺(tái)全量應(yīng)用的圖標(biāo),應(yīng)用文本數(shù)據(jù)庫(kù)中存儲(chǔ)有應(yīng)用管理平臺(tái)全量應(yīng)用的文本信息。服務(wù)器定期從圖標(biāo)數(shù)據(jù)庫(kù)中讀取圖標(biāo),以及從應(yīng)用文本數(shù)據(jù)庫(kù)中讀取文本信息,并通過(guò)算法模塊提取圖標(biāo)特征和應(yīng)用文本特征這些特征信息,再將提取的特征信息緩存。服務(wù)器在接收到應(yīng)用查詢請(qǐng)求后, 從應(yīng)用查詢請(qǐng)求中提取第一應(yīng)用標(biāo)識(shí),從而根據(jù)第一應(yīng)用標(biāo)識(shí)從圖標(biāo)數(shù)據(jù)庫(kù)和/或應(yīng)用文本數(shù)據(jù)庫(kù)拉取第一應(yīng)用圖標(biāo)和第一文本信息中的至少一種,提取第一特征信息,并從緩存的特征信息中讀取已發(fā)布的第二應(yīng)用的第二特征信息,計(jì)算第一特征信息和第二特征信息的特征相似度,從而反饋仿冒查詢結(jié)果。仿冒查詢結(jié)果包括滿足應(yīng)用條件的應(yīng)用標(biāo)識(shí)以及相應(yīng)的特征相似度。
如圖9所示,在一個(gè)實(shí)施例中,步驟304具體包括如下步驟:
步驟902,根據(jù)應(yīng)用查詢請(qǐng)求,獲取第一應(yīng)用的第一圖標(biāo)所包括的視覺(jué)詞匯以及視覺(jué)詞匯的詞頻;獲取的視覺(jué)詞匯屬于根據(jù)應(yīng)用圖標(biāo)訓(xùn)練樣本生成的視覺(jué)詞匯詞典。
具體地,服務(wù)器可先根據(jù)應(yīng)用圖標(biāo)訓(xùn)練庫(kù)進(jìn)行訓(xùn)練,獲得視覺(jué)詞匯詞典。應(yīng)用圖標(biāo)訓(xùn)練庫(kù)可以包括應(yīng)用管理平臺(tái)上全量應(yīng)用的圖標(biāo)。視覺(jué)詞匯詞典是視覺(jué)詞匯的集合,視覺(jué)詞匯是通過(guò)訓(xùn)練獲得的用來(lái)組成應(yīng)用圖標(biāo)的基礎(chǔ)視覺(jué)元素,這樣一個(gè)應(yīng)用的圖標(biāo)組成便類似于一個(gè)文本的組成,可使用對(duì)文本單詞的處理方式來(lái)處理圖標(biāo)的視覺(jué)詞匯。
參照?qǐng)D10,服務(wù)器在訓(xùn)練獲得視覺(jué)詞匯詞典時(shí),具體可對(duì)應(yīng)用圖標(biāo)數(shù)據(jù)庫(kù)中的圖標(biāo)提取特征點(diǎn),從而根據(jù)提取的特征點(diǎn)生成特征向量,再對(duì)生成的特征向量進(jìn)行聚類,從而獲得視覺(jué)詞匯詞典。服務(wù)器獲取第一應(yīng)用的第一圖標(biāo)所包括的屬于視覺(jué)詞匯詞典的視覺(jué)詞匯,并獲取相應(yīng)視覺(jué)詞匯的詞頻。提取的特征點(diǎn)可以采用surf(speededuprobustfeatures,加速穩(wěn)健特征)或者sift(scale-invariantfeaturetransform,即尺度不變特征變換)等。聚類可采用k-means聚類算法或者層次聚類算法等。
步驟904,根據(jù)獲取的視覺(jué)詞匯和相應(yīng)的詞頻生成第一視覺(jué)詞匯特征。
具體地,參照?qǐng)D10,第一圖標(biāo)可以用視覺(jué)詞匯直方圖來(lái)表示。參照?qǐng)D11,生成的第一視覺(jué)詞匯特征用特征向量的形式來(lái)表示視覺(jué)詞匯直方圖,該特征向量與視覺(jué)詞匯詞典中的視覺(jué)詞匯對(duì)應(yīng),該特征向量中第一圖標(biāo)不包括的視覺(jué)詞匯對(duì)應(yīng)的值為0,第一圖標(biāo)包括的視覺(jué)詞匯對(duì)應(yīng)的值與相應(yīng)的詞頻正相關(guān)。由于第一圖標(biāo)僅包括視覺(jué)詞匯詞典中少部分視覺(jué)詞匯,因此可僅存儲(chǔ)詞頻大于0的關(guān)鍵點(diǎn),以達(dá)到壓縮矩陣的效果,緩存同樣數(shù)量圖標(biāo)的特征信息內(nèi)心消耗大幅 減少,而且計(jì)算余弦距離時(shí)復(fù)雜度顯著降低。其中第一視覺(jué)詞匯特征包括于第一特征信息,也包括于第一應(yīng)用的圖標(biāo)特征。
步驟906,獲取已發(fā)布的各第二應(yīng)用的第二視覺(jué)詞匯特征。
具體地,服務(wù)器可直接讀取緩存的第二視覺(jué)詞匯特征,也可以即時(shí)地生成第二視覺(jué)詞匯特征。其中,第二視覺(jué)詞匯特征包括于第二特征信息,也包括于第二應(yīng)用的圖標(biāo)特征。
步驟908,計(jì)算第一視覺(jué)詞匯特征和第二視覺(jué)詞匯特征的余弦距離,根據(jù)余弦距離獲得圖標(biāo)視覺(jué)詞匯特征相似度。
具體地,服務(wù)器可根據(jù)以下公式(1)來(lái)計(jì)算第一視覺(jué)詞匯特征和第二視覺(jué)詞匯特征的余弦距離:
其中,cosθ表示余弦距離,ai表示第一視覺(jué)詞匯特征各維度的值,bi表示第二視覺(jué)詞匯特征各維度的值,n表示第一視覺(jué)詞匯特征和第二視覺(jué)詞匯特征的向量維度數(shù)量,i表示第一視覺(jué)詞匯特征和第二視覺(jué)詞匯特征的中向量元素的位置編號(hào)。
本實(shí)施例中,通過(guò)圖標(biāo)視覺(jué)詞匯特征相似度來(lái)查詢應(yīng)用,對(duì)于含有固定物體(如游戲角色或者卡通形象)的圖標(biāo)的相似程度的衡量效果更優(yōu),即使固定物體的尺度或者位置有變化,也可以很好地衡量相似程度。而惡意軟件開發(fā)商在應(yīng)用時(shí)通常會(huì)保留正版應(yīng)用圖標(biāo)中的固定物體以欺騙普通用戶,通過(guò)圖標(biāo)視覺(jué)詞匯特征相似度來(lái)查詢應(yīng)用具有特別突出的效果。
如圖12所示,在一個(gè)實(shí)施例中,步驟304具體包括如下步驟:
步驟1202,根據(jù)應(yīng)用查詢請(qǐng)求將第一應(yīng)用的第一圖標(biāo)轉(zhuǎn)換為預(yù)設(shè)尺寸的灰度圖。
具體地,服務(wù)器根據(jù)應(yīng)用查詢請(qǐng)求,將第一應(yīng)用的第一圖標(biāo)轉(zhuǎn)化為灰度圖后縮放到預(yù)設(shè)尺寸,也可以將第一應(yīng)用的第一圖標(biāo)縮放到預(yù)設(shè)尺寸后轉(zhuǎn)化為灰度圖。預(yù)設(shè)尺寸比如8×8像素的尺寸。
在一個(gè)實(shí)施例中,服務(wù)器可將第一圖標(biāo)轉(zhuǎn)化為灰度圖后,縮放到大于預(yù)設(shè)尺寸的尺寸,再進(jìn)行離散余弦變換后,取信息熵高的低頻部分的預(yù)設(shè)尺寸的灰度圖。
步驟1204,求取灰度圖的平均值。
步驟1206,將縮放后的灰度圖的各灰度值與平均值比較,并根據(jù)比較結(jié)果將縮放后的灰度圖轉(zhuǎn)換為二值化的第一圖標(biāo)哈希序列。
具體地,服務(wù)器可遍歷灰度圖的灰度值,將灰度圖的每個(gè)灰度值與平均值比較,如果灰度值大于等于平均值則標(biāo)記為第一值,如果灰度值小于等于平均值則標(biāo)記為第二值,將標(biāo)記的值按照預(yù)定義的順序組織成二值化的哈希序列,該哈希序列便是第一圖標(biāo)哈希序列。其中,第一圖標(biāo)哈希序列包括于第一特征信息,也包括于第一應(yīng)用的圖標(biāo)特征。
步驟1208,獲取已發(fā)布的各第二應(yīng)用的第二圖標(biāo)哈希序列。
具體地,服務(wù)器可讀取緩存的第二圖標(biāo)哈希序列,也可以即時(shí)計(jì)算第二圖標(biāo)哈希序列。其中,第二圖標(biāo)哈希序列包括于第二特征信息,也包括于第二應(yīng)用的圖標(biāo)特征。
步驟1210,計(jì)算第一圖標(biāo)哈希序列和第二圖標(biāo)哈希序列的漢明距離,根據(jù)漢明距離獲得圖標(biāo)哈希序列相似度。
具體地,漢明距離表示兩個(gè)相同長(zhǎng)度的字符序列對(duì)應(yīng)位置的值不同的數(shù)量,比如100011與100010兩個(gè)字符序列的漢明距離為1。如果漢明距離為0,則表示這第一圖標(biāo)和第二應(yīng)用的第二圖標(biāo)非常相似;如果漢明距離小于5則表示第一圖標(biāo)和第二圖標(biāo)有些不同但比較接近;如果漢明距離大于10則表明第一圖標(biāo)和第二圖標(biāo)完全不同。服務(wù)器根據(jù)漢明距離獲得圖標(biāo)哈希序列相似度,具體可 將漢明距離輸入自變量和因變量負(fù)相關(guān)的函數(shù)后輸出的值作為圖標(biāo)哈希序列相似度。其中,圖標(biāo)哈希序列相似度包括于特征相似度。
本實(shí)施例中,通過(guò)圖標(biāo)哈希序列相似度來(lái)查詢應(yīng)用,對(duì)于特征點(diǎn)數(shù)量少的簡(jiǎn)單圖標(biāo)之間的相似程度的衡量效果突出,甚至優(yōu)于通過(guò)圖標(biāo)視覺(jué)詞匯特征相似度來(lái)查詢應(yīng)用。
在一個(gè)實(shí)施例中,可同時(shí)用圖標(biāo)視覺(jué)詞匯特征相似度和圖標(biāo)哈希序列相似度來(lái)進(jìn)行協(xié)同檢索,以實(shí)現(xiàn)查詢應(yīng)用的效果。由于圖標(biāo)視覺(jué)詞匯特征相似度更適合于含有固定物體的圖標(biāo)的應(yīng)用查詢,而圖標(biāo)哈希序列相似度則更適合于特征點(diǎn)數(shù)量少的簡(jiǎn)單圖標(biāo)的應(yīng)用查詢,兩者的協(xié)同檢索將使得應(yīng)用的查詢結(jié)果更加準(zhǔn)確。
如圖13所示,在一個(gè)實(shí)施例中,步驟304具體包括如下步驟:
步驟1302,根據(jù)應(yīng)用查詢請(qǐng)求獲取第一應(yīng)用的文本信息的關(guān)鍵詞以及相應(yīng)的權(quán)重。
具體地,服務(wù)器可將第一應(yīng)用的文本信息進(jìn)行分詞,并剔除掉停用詞表中的詞之后,獲得關(guān)鍵詞。關(guān)鍵詞的權(quán)重與該關(guān)鍵詞的詞頻相關(guān),關(guān)鍵詞的權(quán)重還可以與關(guān)鍵詞與上下文的語(yǔ)義關(guān)系相關(guān)。
步驟1304,將關(guān)鍵詞映射為固定長(zhǎng)度的哈希值。
步驟1306,將哈希值按照相應(yīng)的權(quán)重進(jìn)行加權(quán)累加。
具體地,服務(wù)器可將每個(gè)哈希值乘以相應(yīng)的權(quán)重后獲得加權(quán)哈希值,再將加權(quán)哈希值按位累加,獲得累加的哈希值。
步驟1308,根據(jù)累加獲得的哈希值獲得二值化的第一文本哈希序列。
具體地,服務(wù)器可將累加獲得的哈希值的每一位的值與0比較,若大于或等于0則將該位的值置為第一值,若小于0則將該位的值置為第二值,從而獲得二值化的第一文本哈希序列。其中,第一文本哈希序列包括于第一特征信息,也包括于第一應(yīng)用的文本描述特征。
步驟1310,獲取已發(fā)布的各第二應(yīng)用的第二文本哈希序列。
具體地,服務(wù)器可讀取緩存的第二文本哈希序列,也可以即時(shí)計(jì)算第二應(yīng)用的第二文本哈希序列。其中,第二文本哈希序列包括于第二特征信息,也包 括于第二應(yīng)用的文本描述特征。
步驟1312,計(jì)算第一文本哈希序列和第二文本哈希序列的漢明距離,根據(jù)漢明距離獲得文本哈希序列相似度。
具體地,服務(wù)器根據(jù)漢明距離獲得文本哈希序列相似度,具體可將該漢明距離輸入自變量和因變量負(fù)相關(guān)的函數(shù)后輸出的值作為圖標(biāo)哈希序列相似度。自變量和因變量負(fù)相關(guān)的函數(shù)比如y=-x或者y=1/x,其中x是自變量,y是因變量。其中,文本哈希序列相似度包括于特征相似度。
本實(shí)施例中,由于文本哈希序列可以有效地衡量文本之間的相似性,通過(guò)文本哈希序列相似度來(lái)查詢應(yīng)用,可查詢到在文本信息上進(jìn)行仿冒的應(yīng)用,而且效率非常高。如果與圖標(biāo)特征(視覺(jué)詞匯特征或者圖標(biāo)哈希序列)結(jié)合,可以從圖標(biāo)和文本信息兩個(gè)維度查詢應(yīng)用,進(jìn)一步提高應(yīng)用查詢的準(zhǔn)確性。
如圖14所示,在一個(gè)實(shí)施例中,提供了一種應(yīng)用查詢裝置1400,包括請(qǐng)求獲取模塊1410、特征相似度獲取模塊1420、相似應(yīng)用信息獲取模塊1430、相似應(yīng)用信息反饋模塊1440和下線命令處理模塊1450。
請(qǐng)求獲取模塊1410,用于獲取應(yīng)用查詢請(qǐng)求。
特征相似度獲取模塊1420,用于根據(jù)應(yīng)用查詢請(qǐng)求,獲取所述應(yīng)用查詢請(qǐng)求指定的第一應(yīng)用與已發(fā)布的各第二應(yīng)用之間的特征相似度。
相似應(yīng)用信息獲取模塊1430,用于獲取滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息。
相似應(yīng)用信息反饋模塊1440,用于反饋第二應(yīng)用的信息,以使反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示。
下線命令處理模塊1450,用于獲取針對(duì)展示的第二應(yīng)用的信息的下線命令,以對(duì)下線命令所指定的第二應(yīng)用進(jìn)行下線處理。
上述應(yīng)用查詢裝置1400,獲取到應(yīng)用查詢請(qǐng)求后,對(duì)于第一應(yīng)用,獲取其與已發(fā)布的各第二應(yīng)用之間的特征相似度,從而獲取到滿足候選相似應(yīng)用條件的特征相似度所對(duì)應(yīng)的第二應(yīng)用的信息并反饋。反饋的第二應(yīng)用的信息被按照特征相似度從高到低的順序展示,這樣可以針對(duì)第一應(yīng)用,批量查詢相似的、 滿足候選相似應(yīng)用條件的第二應(yīng)用的信息,用戶便可以對(duì)展示的第二應(yīng)用觸發(fā)下線指令,以對(duì)相應(yīng)的第二應(yīng)用進(jìn)行下線處理。通過(guò)批量查詢以及先發(fā)布再下線的處理方式,提高了甄別仿冒應(yīng)用的效率。
在一個(gè)實(shí)施例中,滿足候選相似應(yīng)用條件的特征相似度包括:大于等于預(yù)設(shè)閾值的特征相似度,或者,將獲取的所有特征相似度按照從高到低的順序排序后從首位開始預(yù)設(shè)數(shù)量的特征相似度。
如圖15所示,在一個(gè)實(shí)施例中,特征相似度獲取模塊1420包括第一特征信息獲取模塊1421、第二特征信息獲取模塊1422和特征相似度計(jì)算模塊1423。
第一特征信息獲取模塊1421,用于根據(jù)應(yīng)用查詢請(qǐng)求,獲取第一應(yīng)用的第一特征信息;第一特征信息包括第一應(yīng)用的圖標(biāo)特征和應(yīng)用文本特征中的至少一種。
第二特征信息獲取模塊1422,用于獲取已發(fā)布的第二應(yīng)用的第二特征信息;第二特征信息與第一特征信息的特征類型相同。
特征相似度計(jì)算模塊1423,用于計(jì)算第一特征信息和第二特征信息的特征相似度。
本實(shí)施例中,根據(jù)第一應(yīng)用和第二應(yīng)用之間的圖標(biāo)特征和應(yīng)用文本特征中的至少一種的特征相似度來(lái)進(jìn)行應(yīng)用的查詢,可以有效地檢測(cè)出可能存在仿冒行為的第二應(yīng)用,提高了查詢?cè)L問(wèn)應(yīng)用的準(zhǔn)確性。
如圖16所示,在一個(gè)實(shí)施例中,應(yīng)用查詢裝置1400還包括緩存模塊1460,用于定期計(jì)算并緩存全量應(yīng)用的特征信息;第一特征信息獲取模塊1421還用于判斷是否緩存有第一應(yīng)用的第一特征信息;若是,則直接獲取緩存的第一特征信息;若否,則即時(shí)提取第一應(yīng)用的第一特征信息。
本實(shí)施例中,如果第一應(yīng)用是新增或者更新的應(yīng)用,且還沒(méi)有計(jì)算并緩存相應(yīng)的第一特征信息,則服務(wù)器可拉取第一應(yīng)用的信息,從而即時(shí)地從第一應(yīng)用的信息中提取第一特征信息。如果服務(wù)器緩存有第一特征信息,則服務(wù)器就可以在需要查詢應(yīng)用時(shí)即時(shí)獲取緩存的第一特征信息。本實(shí)施例通過(guò)定期計(jì)算并緩存全量應(yīng)用的特征信息可以顯著提高查詢應(yīng)用的效率。
如圖17所示,在一個(gè)實(shí)施例中,特征相似度獲取模塊1420包括:第一視 覺(jué)詞匯特征獲取模塊1424、第二視覺(jué)詞匯特征獲取模塊1425和圖標(biāo)視覺(jué)詞匯特征相似度計(jì)算模塊1426。
第一視覺(jué)詞匯特征獲取模塊1424,用于根據(jù)應(yīng)用查詢請(qǐng)求,獲取第一應(yīng)用的第一圖標(biāo)所包括的視覺(jué)詞匯以及視覺(jué)詞匯的詞頻。根據(jù)獲取的視覺(jué)詞匯和相應(yīng)的詞頻生成第一視覺(jué)詞匯特征。獲取的視覺(jué)詞匯屬于根據(jù)應(yīng)用圖標(biāo)訓(xùn)練樣本生成的視覺(jué)詞匯詞典。
第二視覺(jué)詞匯特征獲取模塊1425,用于獲取已發(fā)布的各第二應(yīng)用的第二視覺(jué)詞匯特征。
圖標(biāo)視覺(jué)詞匯特征相似度計(jì)算模塊1426,用于計(jì)算第一視覺(jué)詞匯特征和第二視覺(jué)詞匯特征的余弦距離,根據(jù)余弦距離獲得圖標(biāo)視覺(jué)詞匯特征相似度。
本實(shí)施例中,通過(guò)圖標(biāo)視覺(jué)詞匯特征相似度來(lái)查詢應(yīng)用,對(duì)于含有固定物體(如游戲角色或者卡通形象)的圖標(biāo)的相似程度的衡量效果更優(yōu),即使固定物體的尺度或者位置有變化,也可以很好地衡量相似程度。而惡意軟件開發(fā)商在應(yīng)用時(shí)通常會(huì)保留正版應(yīng)用圖標(biāo)中的固定物體以欺騙普通用戶,通過(guò)圖標(biāo)視覺(jué)詞匯特征相似度來(lái)查詢應(yīng)用具有特別突出的效果。
如圖18所示,在一個(gè)實(shí)施例中,特征相似度獲取模塊1420包括:第一圖標(biāo)哈希序列獲取模塊1427、第二圖標(biāo)哈希序列獲取模塊1428和圖標(biāo)哈希序列相似度計(jì)算模塊1429。
第一圖標(biāo)哈希序列獲取模塊1427,用于根據(jù)應(yīng)用查詢請(qǐng)求將第一應(yīng)用的第一圖標(biāo)轉(zhuǎn)換為預(yù)設(shè)尺寸的灰度圖。求取灰度圖的平均值。將縮放后的灰度圖的各灰度值與平均值比較,并根據(jù)比較結(jié)果將縮放后的灰度圖轉(zhuǎn)換為二值化的第一圖標(biāo)哈希序列。
第二圖標(biāo)哈希序列獲取模塊1428,用于獲取已發(fā)布的各第二應(yīng)用的第二圖標(biāo)哈希序列。
圖標(biāo)哈希序列相似度計(jì)算模塊1429,用于計(jì)算第一圖標(biāo)哈希序列和第二圖標(biāo)哈希序列的漢明距離,根據(jù)漢明距離獲得圖標(biāo)哈希序列相似度。
本實(shí)施例中,通過(guò)圖標(biāo)哈希序列相似度來(lái)查詢應(yīng)用,對(duì)于特征點(diǎn)數(shù)量少的簡(jiǎn)單圖標(biāo)之間的相似程度的衡量效果突出,甚至優(yōu)于通過(guò)圖標(biāo)視覺(jué)詞匯特征相 似度來(lái)查詢應(yīng)用。
如圖19所示,在一個(gè)實(shí)施例中,特征相似度獲取模塊1420包括:第一文本哈希序列獲取模塊14210、第二文本哈希序列獲取模塊14211和文本哈希序列相似度計(jì)算模塊14212。
第一文本哈希序列獲取模塊14210,用于根據(jù)應(yīng)用查詢請(qǐng)求獲取第一應(yīng)用的文本信息的關(guān)鍵詞以及相應(yīng)的權(quán)重。將關(guān)鍵詞映射為固定長(zhǎng)度的哈希值。將哈希值按照相應(yīng)的權(quán)重進(jìn)行加權(quán)累加。根據(jù)累加獲得的哈希值獲得二值化的第一文本哈希序列。
第二文本哈希序列獲取模塊14211,用于獲取已發(fā)布的各第二應(yīng)用的第二文本哈希序列。
文本哈希序列相似度計(jì)算模塊14212,用于計(jì)算第一文本哈希序列和第二文本哈希序列的漢明距離,根據(jù)漢明距離獲得文本哈希序列相似度。
本實(shí)施例中,由于文本哈希序列可以有效地衡量文本之間的相似性,通過(guò)文本哈希序列相似度來(lái)查詢應(yīng)用,可查詢到在文本信息上進(jìn)行仿冒的應(yīng)用,而且效率非常高。如果與圖標(biāo)特征(視覺(jué)詞匯特征或者圖標(biāo)哈希序列)結(jié)合,可以從圖標(biāo)和文本信息兩個(gè)維度查詢應(yīng)用,進(jìn)一步提高應(yīng)用查詢的準(zhǔn)確性。
如圖20所示,在一個(gè)實(shí)施例中,提供了一種相似應(yīng)用檢測(cè)方法,本實(shí)施例以該方法應(yīng)用于上述圖1中的終端110來(lái)舉例說(shuō)明,終端110上可安裝相似應(yīng)用檢測(cè)程序,通過(guò)該相似應(yīng)用檢測(cè)程序來(lái)實(shí)施一種相似應(yīng)用檢測(cè)方法。該方法具體包括如下步驟:
步驟2002,確定待檢測(cè)的第一應(yīng)用。
其中待檢測(cè)的第一應(yīng)用是需要檢測(cè)是否存在相似應(yīng)用的應(yīng)用。具體地,終端可在請(qǐng)求發(fā)布某應(yīng)用前,將待發(fā)布的應(yīng)用確定為待檢測(cè)的第一應(yīng)用。終端也可以在對(duì)終端進(jìn)行安全檢測(cè)時(shí),將終端上已安裝或者正在安裝的某應(yīng)用確定為待檢測(cè)的第一應(yīng)用。
步驟2004,獲取已發(fā)布的第二應(yīng)用構(gòu)成的比對(duì)應(yīng)用庫(kù)。
具體地,終端可獲取終端上已安裝的應(yīng)用構(gòu)成比對(duì)應(yīng)用庫(kù),安裝在終端上 的應(yīng)用屬于已發(fā)布的第二應(yīng)用,這樣本實(shí)施例的相似應(yīng)用檢測(cè)方法可用來(lái)檢測(cè)已安裝或者正在安裝的第一應(yīng)用,是否在終端上已存在相似的應(yīng)用,從而提醒用戶避免重復(fù)安裝或者甄別仿冒應(yīng)用。終端還可以通過(guò)網(wǎng)絡(luò)拉取比對(duì)應(yīng)用庫(kù),具體可從應(yīng)用管理平臺(tái)拉取已發(fā)布的第二應(yīng)用從而構(gòu)成比對(duì)應(yīng)用庫(kù)。
步驟2006,從比對(duì)應(yīng)用庫(kù)中查找與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果。
具體地,終端可獲取第一應(yīng)用的第一特征信息,獲取比對(duì)應(yīng)用庫(kù)中的各第二應(yīng)用的第二特征信息,并計(jì)算第一特征信息和第二特征信息的特征相似度,從而從比對(duì)應(yīng)用庫(kù)中查找與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果。其中,第一特征信息包括第一應(yīng)用的圖標(biāo)特征和應(yīng)用文本特征中的至少一種;第二特征信息與第一特征信息的特征類型相同。為了提高查找效率,終端可先從比對(duì)應(yīng)用庫(kù)中與第一應(yīng)用屬于相同應(yīng)用分類的第二應(yīng)用中查找,再?gòu)呐c第一應(yīng)用不屬于相同分類的第二應(yīng)用中查找。
查找結(jié)果可以包括是否查找到與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用的結(jié)果,還可以進(jìn)一步包括查找到的第二應(yīng)用的信息。第二應(yīng)用的信息包括第二應(yīng)用標(biāo)識(shí),還可以包括第二應(yīng)用的圖標(biāo)或者文本信息,文本信息包括應(yīng)用介紹信息、應(yīng)用截圖、應(yīng)用數(shù)字簽名、應(yīng)用開發(fā)商信息以及應(yīng)用版本信息等。
步驟2008,根據(jù)查找結(jié)果輸出是否存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。
具體地,若查找結(jié)果表示查找到與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,則輸出存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果,還可以進(jìn)一步輸出查找到的第二應(yīng)用的信息。若查找結(jié)果表示未查找到與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,則輸出不存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。
上述相似應(yīng)用檢測(cè)方法,通過(guò)將待檢測(cè)的第一應(yīng)用和比對(duì)應(yīng)用庫(kù)中已發(fā)布的第二應(yīng)用進(jìn)行比較,獲得特征相似度高于相似度閾值的第二應(yīng)用,從而獲得是否存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。通過(guò)相似應(yīng)用檢測(cè),可以 主動(dòng)地發(fā)現(xiàn)待檢測(cè)的第一應(yīng)用是否與已發(fā)布的第二應(yīng)用相沖突,也可以用來(lái)判斷第一應(yīng)用是否有仿冒已發(fā)布的第二應(yīng)用的可能性,可以在發(fā)布前避免仿冒應(yīng)用的出現(xiàn),提高了甄別仿冒應(yīng)用的效率。
如圖21所示,在一個(gè)實(shí)施例中,步驟2006具體包括如下步驟:
步驟2102,獲取第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用之間的多種特征相似度;多種特征相似度包括圖標(biāo)視覺(jué)詞匯特征相似度、圖標(biāo)哈希序列相似度和文本哈希序列相似度中至少兩種的組合。
多種特征相似度的種類以及特征類型可預(yù)先設(shè)定,也可以通過(guò)相似應(yīng)用檢測(cè)程序進(jìn)行指定。多種特征相似度可以取自圖標(biāo)特征相似度和文本特征相似度中的至少一種。終端可在終端本地計(jì)算出多種特征相似度,也可以從服務(wù)器拉取多種特征相似度。
其中圖標(biāo)視覺(jué)詞匯特征相似度和圖標(biāo)哈希序列相似度的組合中,由于圖標(biāo)視覺(jué)詞匯特征相似度更適合于含有固定物體的圖標(biāo)的檢測(cè),而圖標(biāo)哈希序列相似度則更適合于特征點(diǎn)數(shù)量少的簡(jiǎn)單圖標(biāo)的檢測(cè),綜合之后使得相似應(yīng)用檢測(cè)結(jié)果更加準(zhǔn)確。圖標(biāo)特征和文本特征在不同的維度進(jìn)行相似應(yīng)用檢測(cè),也可以使得相似應(yīng)用檢測(cè)結(jié)果更加準(zhǔn)確。圖標(biāo)視覺(jué)詞匯特征相似度的計(jì)算可參照?qǐng)D9所示步驟,圖標(biāo)哈希序列相似度的計(jì)算可參照?qǐng)D12所示步驟,文本哈希序列相似度的計(jì)算可參照?qǐng)D13所示步驟。
步驟2104,根據(jù)獲取的多種特征相似度生成綜合特征相似度。
其中,綜合特征相似度反映了多種特征相似度中每種特征相似度的相似性,綜合特征相似度與多種特征相似度中的每種特征相似度正相關(guān)。終端具體可計(jì)算多種特征相似度的和、平均值、加權(quán)和或者加平均值作為綜合特征相似度。
步驟2106,查找具有高于相似度閾值的綜合特征相似度的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果。
具體地,終端可逐個(gè)地計(jì)算比對(duì)應(yīng)用庫(kù)中的第二應(yīng)用與第一應(yīng)用之間的綜合特征相似度,判斷計(jì)算出的綜合特征相似度是否高于相似度閾值,如果判斷為是則說(shuō)明查找到相似應(yīng)用;如果判斷為否則可繼續(xù)計(jì)算比對(duì)應(yīng)用庫(kù)中下一個(gè)第二應(yīng)用與第一應(yīng)用之間的綜合特征相似度,直至遍歷比對(duì)應(yīng)用庫(kù)所有的第二 應(yīng)用或者查找到相似應(yīng)用。
本實(shí)施例中,根據(jù)第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用之間的多種特征相似度來(lái)生成綜合特征相似度,使得綜合特征相似度能夠更好地反映出第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用的相似性,從而可以更加準(zhǔn)確地檢測(cè)出是否存在第一應(yīng)用的相似應(yīng)用,提高精確性,減少漏檢的情況。
如圖22所示,在一個(gè)實(shí)施例中,提供了一種相似應(yīng)用檢測(cè)裝置2200,包括:待檢測(cè)應(yīng)用確定模塊2201、比對(duì)應(yīng)用庫(kù)獲取模塊2202、相似應(yīng)用查找模塊2203和檢測(cè)結(jié)果輸出模塊2204。
待檢測(cè)應(yīng)用確定模塊2201,用于確定待檢測(cè)的第一應(yīng)用。
比對(duì)應(yīng)用庫(kù)獲取模塊2202,用于獲取已發(fā)布的第二應(yīng)用構(gòu)成的比對(duì)應(yīng)用庫(kù)。
相似應(yīng)用查找模塊2203,用于從比對(duì)應(yīng)用庫(kù)中查找與第一應(yīng)用之間的特征相似度高于相似度閾值的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果。
檢測(cè)結(jié)果輸出模塊2204,用于根據(jù)查找結(jié)果輸出是否存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。
上述相似應(yīng)用檢測(cè)裝置2200,通過(guò)將待檢測(cè)的第一應(yīng)用和比對(duì)應(yīng)用庫(kù)中已發(fā)布的第二應(yīng)用進(jìn)行比較,獲得特征相似度高于相似度閾值的第二應(yīng)用,從而獲得是否存在第一應(yīng)用的相似應(yīng)用的相似應(yīng)用檢測(cè)結(jié)果。通過(guò)相似應(yīng)用檢測(cè),可以主動(dòng)地發(fā)現(xiàn)待檢測(cè)的第一應(yīng)用是否與已發(fā)布的第二應(yīng)用相沖突,也可以用來(lái)判斷第一應(yīng)用是否有仿冒已發(fā)布的第二應(yīng)用的可能性,可以在發(fā)布前避免仿冒應(yīng)用的出現(xiàn),提高了甄別仿冒應(yīng)用的效率。
如圖23所示,在一個(gè)實(shí)施例中相似應(yīng)用查找模塊2203包括:特征相似度獲取模塊2203a、綜合特征相似度生成模塊2203b和查找執(zhí)行模塊2203c。
特征相似度獲取模塊2203a,用于獲取第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用之間的多種特征相似度。多種特征相似度包括圖標(biāo)視覺(jué)詞匯特征相似度、圖標(biāo)哈希序列相似度和文本哈希序列相似度中至少兩種的組合。
綜合特征相似度生成模塊2203b,用于根據(jù)獲取的多種特征相似度生成綜合特征相似度。
查找執(zhí)行模塊2203c,用于查找具有高于相似度閾值的綜合特征相似度的第二應(yīng)用,獲得相應(yīng)的查找結(jié)果。
本實(shí)施例中,根據(jù)第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用之間的多種特征相似度來(lái)生成綜合特征相似度,使得綜合特征相似度能夠更好地反映出第一應(yīng)用與比對(duì)應(yīng)用庫(kù)中第二應(yīng)用的相似性,從而可以更加準(zhǔn)確地檢測(cè)出是否存在第一應(yīng)用的相似應(yīng)用,提高精確性,減少漏檢的情況。
如圖24所示,在一個(gè)實(shí)施例中,提供了一種終端110,包括通過(guò)系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口。其中處理器具有計(jì)算功能和控制終端110工作的功能,該處理器被配置為執(zhí)行一種相似應(yīng)用檢測(cè)方法。非易失性存儲(chǔ)介質(zhì)包括磁存儲(chǔ)介質(zhì)、光存儲(chǔ)介質(zhì)和閃存式存儲(chǔ)介質(zhì)中的至少一種,非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)和相似應(yīng)用檢測(cè)裝置,該相似應(yīng)用檢測(cè)裝置用于實(shí)施一種相似應(yīng)用檢測(cè)方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)等非易失性存儲(chǔ)介質(zhì),或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)等。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。