本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)。
背景技術(shù):
近年來(lái)隨著互聯(lián)網(wǎng)的發(fā)展,人們對(duì)于軟件的需求不斷擴(kuò)大,軟件下載網(wǎng)站快速發(fā)展,比較知名的有太平洋下載中心,騰訊應(yīng)用寶,360手機(jī)助手網(wǎng),淘寶手機(jī)助手、pp助手等。這些網(wǎng)站的功能均是提供豐富的PC端或移動(dòng)無(wú)線(xiàn)端軟件,方便用戶(hù)下載,安裝,升級(jí)及卸載。在這些網(wǎng)站上,用戶(hù)選擇軟件時(shí)一般會(huì)參考軟件的下載量及口碑,下載量高、好評(píng)多的軟件往往會(huì)被用戶(hù)優(yōu)先下載,因此這兩個(gè)指標(biāo)能夠極大影響用戶(hù)的選擇。部分軟件推廣者就利用這一點(diǎn),通過(guò)一定非法手段進(jìn)行刷好評(píng)操作和刷量操作,從而誤導(dǎo)更多人下載其推廣的軟件,造成較為惡劣的影響。目前尚無(wú)專(zhuān)門(mén)檢測(cè)軟件推廣作弊問(wèn)題的技術(shù)方案。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供了一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng),以實(shí)現(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè),幫助用戶(hù)甄別軟件,能夠加強(qiáng)軟件下載安全防范。
根據(jù)本申請(qǐng)的第一方面,本申請(qǐng)?zhí)峁┮环N軟件推廣作弊的檢測(cè)方法,該方法包括:
獲取平臺(tái)上軟件的評(píng)論信息;
根據(jù)軟件的評(píng)論信息的相似度或信息增益,計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵;
根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì) 應(yīng)的判定閾值范圍,該判定閾值范圍是用于判定小概率事件的閾值范圍;
當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
根據(jù)本申請(qǐng)的第二方面,本申請(qǐng)?zhí)峁┝硪环N軟件推廣作弊的檢測(cè)方法,該方法包括:
獲取平臺(tái)上軟件的評(píng)論信息和下載量;
計(jì)算軟件的評(píng)論下載比,該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值;
根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍;該判定閾值范圍是用于判定小概率事件的閾值范圍;
當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷量推廣作弊軟件。
根據(jù)本申請(qǐng)的第三方面,本申請(qǐng)?zhí)峁┝艘环N軟件推廣作弊的檢測(cè)裝置,該裝置包括:
獲取單元,用于獲取平臺(tái)上軟件的評(píng)論信息;
第一計(jì)算單元,用于根據(jù)軟件的評(píng)論信息的相似度或信息增益,計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵;
第二計(jì)算單元,用于根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
設(shè)置單元,用于根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍,該判定閾值范圍是用于判定小概率事件的閾值范圍;
判定單元,用于當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
根據(jù)本申請(qǐng)的第四方面,本申請(qǐng)?zhí)峁┝肆硪环N軟件推廣作弊的檢測(cè)裝置, 該裝置包括:
獲取單元,用于獲取平臺(tái)上軟件的評(píng)論信息和下載量;
第一計(jì)算單元,用于計(jì)算軟件的評(píng)論下載比,該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值;
第二計(jì)算單元,用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
設(shè)置單元,用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍;該判定閾值范圍是用于判定小概率事件的閾值范圍;
判定單元,用于當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),判定該待檢測(cè)軟件是刷量推廣作弊軟件。
根據(jù)本申請(qǐng)的第五方面,本申請(qǐng)?zhí)峁┝艘环N軟件推廣作弊的檢測(cè)系統(tǒng),該系統(tǒng)包括:
數(shù)據(jù)抓取裝置、數(shù)據(jù)存儲(chǔ)裝置、反作弊分析平臺(tái),
所述反作弊分析平臺(tái)包括:上述兩種軟件推廣作弊檢測(cè)裝置;
所述數(shù)據(jù)抓取裝置,用于從平臺(tái)上抓取軟件的評(píng)論信息和下載量;
所述數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)軟件的評(píng)論信息和下載量;
所述數(shù)據(jù)抓取裝置通過(guò)數(shù)據(jù)接口層與所述數(shù)據(jù)存儲(chǔ)裝置進(jìn)行數(shù)據(jù)交互;
所述數(shù)據(jù)存儲(chǔ)裝置通過(guò)數(shù)據(jù)接口層與所述反作弊分析平臺(tái)進(jìn)行數(shù)據(jù)交互。
由上述實(shí)施例可以看出,與現(xiàn)有技術(shù)相比,本申請(qǐng)的優(yōu)點(diǎn)在于:
本申請(qǐng)分別從“刷好評(píng)作弊”和“刷量作弊”的角度提出了用于檢測(cè)軟件是否有作弊行為的技術(shù)方案。一方面從“刷好評(píng)作弊”的角度出發(fā),基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況,主要是以軟件評(píng)論信息的平均相似度或平均信息熵作為概率統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ),分析得到同一類(lèi)軟件的評(píng)論信息的概率統(tǒng)計(jì)分布參數(shù),然后基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍,使得該判定閾值范圍是用于判定小概率事件的閾值范圍,因此,當(dāng)待檢測(cè)軟件的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),表明該待檢測(cè)軟件具 有這些評(píng)論信息的事件屬于小概率事件,判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
另一方面從“刷量作弊”的角度出發(fā),基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況,主要是以評(píng)論下載比作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ),分析得到同一類(lèi)軟件的評(píng)論下載比的概率統(tǒng)計(jì)分布參數(shù),然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍,主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍,使得該判定閾值范圍是用于判定小概率事件的閾值范圍,因此,當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該判定閾值范圍時(shí),表明該待檢測(cè)軟件具有這樣的評(píng)論下載比的事件屬于小概率事件,判定該待檢測(cè)軟件是刷量推廣作弊軟件。
本申請(qǐng)的技術(shù)方案,基于概率統(tǒng)計(jì)分布和小概率事件的數(shù)學(xué)原理,以軟件的評(píng)論信息、下載量這些實(shí)際數(shù)據(jù)為統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ),能夠自適應(yīng)性的設(shè)置判定閾值范圍,能夠?qū)崿F(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè),幫助用戶(hù)甄別軟件,能夠加強(qiáng)軟件下載安全防范。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖;
圖2是本申請(qǐng)?zhí)峁┑牧硪环N軟件推廣作弊的檢測(cè)方法的流程圖;
圖3是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖;
圖4是本申請(qǐng)?zhí)峁┑牧硪环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖;
圖5是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)描述。
方法實(shí)施例
請(qǐng)參閱圖1,圖1示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖,該方法可以由用戶(hù)機(jī)器執(zhí)行,用戶(hù)機(jī)器可以是個(gè)人的PC機(jī),也可以是各種類(lèi)型的網(wǎng)站服務(wù)器,例如Web服務(wù)器,或者APP服務(wù)器。該方法例如可以包括以下步驟:
步驟101:獲取平臺(tái)上軟件的評(píng)論信息。
在本申請(qǐng)實(shí)施例中,平臺(tái)是指各個(gè)軟件推廣平臺(tái)或網(wǎng)站,可以利用爬蟲(chóng)爬取平臺(tái)上軟件的下載頁(yè)面,具體的可以利用“Jsoup”定點(diǎn)爬取技術(shù),將下載頁(yè)面上的特定信息爬取出來(lái),在本申請(qǐng)實(shí)施例中,主要用于爬取評(píng)論信息,也被稱(chēng)之為評(píng)語(yǔ);由于網(wǎng)站上記錄用戶(hù)的評(píng)語(yǔ)是按照發(fā)表時(shí)間先后排序的,因此,爬取到評(píng)論信息后,可以按照發(fā)表時(shí)間先后排序?qū)⑵浔4嬖跀?shù)據(jù)庫(kù)中。
在實(shí)際應(yīng)用中可以利用開(kāi)源的mysql數(shù)據(jù)庫(kù)或postgresql數(shù)據(jù)庫(kù),也可以利用其它數(shù)據(jù)庫(kù)。
步驟102:根據(jù)軟件的評(píng)論信息的相似度或信息增益,計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵。
下面對(duì)“根據(jù)軟件的評(píng)論信息的相似度,計(jì)算軟件的評(píng)論信息的平均相似度”的實(shí)現(xiàn)過(guò)程作解釋說(shuō)明。具體的,可以包括以下三個(gè)步驟:
對(duì)軟件的評(píng)論信息進(jìn)行分詞得到分詞向量,每個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量;
根據(jù)分詞向量和向量相似度的計(jì)算方法,計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度,將最大相似度作為第N條評(píng)論信息的相似度;所述N大于或等于1;以及
按照求取均值的方式,根據(jù)評(píng)論信息的相似度計(jì)算得到軟件的評(píng)論信息的平均相似度。
關(guān)于上述步驟“根據(jù)分詞向量和向量相似度的計(jì)算方法,計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度,將最大相似度作為第N條評(píng)論信息的相似度”,具體的可以有一種幾種實(shí)現(xiàn)方式:
第一種實(shí)現(xiàn)方式是,根據(jù)分詞向量和向量相似度的計(jì)算方法,計(jì)算軟件的第N條評(píng)論信息相比在其前面的N-1條評(píng)論信息的相似度,將最大相似度作為第N條評(píng)論信息的相似度。
可以看出:第一種實(shí)現(xiàn)方式是將每條評(píng)論信息與其前面所有的評(píng)論信息作對(duì)比計(jì)算相似度,遍歷性的處理,保證相似度的可靠性。
第二種實(shí)現(xiàn)方式是,根據(jù)分詞向量和向量相似度的計(jì)算方法,計(jì)算軟件的第N條評(píng)論信息相比在其前面的抽樣評(píng)論信息的相似度,將最大相似度作為第N條評(píng)論信息的相似度,其中,抽樣評(píng)論信息是指相似度小于預(yù)設(shè)閾值的評(píng)論信息。
可以看出:第二種實(shí)現(xiàn)方式是針對(duì)相似度大小情況,抽樣出滿(mǎn)足代表性要求的評(píng)論信息,僅需要將每條評(píng)論信息與其前面的被抽樣的評(píng)論信息作對(duì)比計(jì)算相似度,減小了計(jì)算量,無(wú)需全部遍歷性對(duì)比,由于這些被抽樣的評(píng)論信息具有典型性和代表性,因此,這種方式是在保證相似度的可靠性的基礎(chǔ)上,減小計(jì)算量,以提高計(jì)算效率。
對(duì)于評(píng)論信息個(gè)數(shù)較多的軟件,為了更快更高效的計(jì)算平均相似度,可以采用第二種實(shí)現(xiàn)方式,以評(píng)論抽樣的方法,抽樣的原則是取出有代表性的評(píng)論信息,即相對(duì)于前面的所有評(píng)論,取出相似度較小的評(píng)論信息,當(dāng)評(píng)論信息的相似度小于一定閾值時(shí),可以抽取該評(píng)論信息,而計(jì)算當(dāng)前評(píng)論信息的信息熵時(shí),僅需要和其前面被抽取的評(píng)論信息作比較,計(jì)算對(duì)應(yīng)的相似度。這樣通過(guò)抽樣的方式,減少了相似度的計(jì)算量,提高了平均相似度的計(jì)算效率。
為了進(jìn)一步說(shuō)明上述實(shí)現(xiàn)方式,下面以通過(guò)具體示例來(lái)說(shuō)明。
第一種實(shí)現(xiàn)方式的示例,第一條評(píng)論信息相似度為0(因?yàn)樗懊鏇](méi)有評(píng)論了),第二條評(píng)論信息相對(duì)第一條評(píng)論信息的相似度為0.8,第三條評(píng)論信息相對(duì)第一條評(píng)論信息的相似度為0.5,相對(duì)第二條評(píng)論信息的相似度為0.9,則取二者中最大的,即0.9。因此這三條評(píng)論的平均相似度為(0+0.8+0.9)/3=0.57,以此類(lèi)推計(jì)算一個(gè)軟件下的所有評(píng)論的平均相似度,作為該軟件的評(píng)論信息對(duì)應(yīng)的平均相似度。
關(guān)于“計(jì)算相似度”的實(shí)現(xiàn)過(guò)程,可以采用IK Analyzer、盤(pán)古分詞、Paoding等分詞工具,也可以采用基于語(yǔ)義依存的方法、基于詞典的方法等,將一條評(píng)論信息分解為多個(gè)有意義的詞匯;即,對(duì)評(píng)論信息作分詞處理得到分詞向量,一個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量;在分詞的過(guò)程中,還可以對(duì)近義詞 作一定的處理。分詞處理之后,再采用word2vec算法,計(jì)算評(píng)論信息中各詞匯的最大相似度,將計(jì)算得到的最大相似度作為該評(píng)論信息的相似度。
第二種實(shí)現(xiàn)方式的示例,假設(shè)預(yù)設(shè)閾值為a=0.6,第一條評(píng)論信息的相似度為0,0<a,因此抽取出第一條評(píng)論信息。第二條評(píng)論信息相對(duì)于第一條評(píng)論信息的相似度為0.8,0.8>a,因此,第二條評(píng)論信息就不被抽樣。在計(jì)算第三條評(píng)論信息相對(duì)于前面的評(píng)論信息的相似度時(shí),僅需要和被抽樣的評(píng)論信息進(jìn)行對(duì)比,在這里,也就僅需要和第一條評(píng)論信息進(jìn)行對(duì)比。假設(shè)第三條評(píng)論信息對(duì)于第一條評(píng)論信息的相似度為0.3,0.3<a,因此,第三條評(píng)論信息也被抽樣,這樣,前三條評(píng)論信息被抽樣出兩條,即第一條和第三條,以此類(lèi)推,可以抽樣出滿(mǎn)足條件的評(píng)論信息。這樣通過(guò)抽樣的方式,減少了信息增益的計(jì)算量,提高了平均相似度的計(jì)算效率。
下面對(duì)步驟“所述根據(jù)軟件的評(píng)論信息的信息熵,計(jì)算軟件的評(píng)論信息的平均信息熵”的實(shí)現(xiàn)過(guò)程作解釋說(shuō)明。具體的,可以包括以下兩個(gè)步驟:
按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益,選取最小的信息增益作為第N條評(píng)論信息的信息增益;所述N大于或等于1;以及,
按照求取均值的方式,根據(jù)評(píng)論信息的信息增益計(jì)算得到軟件的評(píng)論信息的平均信息熵。
關(guān)于步驟“按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益,選取最小的信息增益作為第N條評(píng)論信息的信息增益”,具體可以有以下兩種實(shí)現(xiàn)方式:
第一種實(shí)現(xiàn)方式是,按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的N-1條評(píng)論信息的信息增益,選取最小的信息增益作為第N條評(píng)論信息的信息增益。
第二種實(shí)現(xiàn)方式是,按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的抽樣評(píng)論信息的信息增益,選取最小的信息增益作為第N條評(píng)論信息的信息增益,其中,抽樣評(píng)論信息是指信息增益大于預(yù)設(shè)閾值的評(píng)論信息。
對(duì)第二種實(shí)現(xiàn)方式進(jìn)行舉例說(shuō)明,假設(shè)預(yù)設(shè)閾值為b=0.2,第一條評(píng)論信息的信息增益為1,1>b,因此抽取出第一條評(píng)論信息。第二條評(píng)論信息相對(duì)于 第一條評(píng)論信息的信息增益為0.1,0.1<b,因此,第二條評(píng)論信息就不被抽樣。在計(jì)算第三條評(píng)論信息相對(duì)于前面的評(píng)論信息的信息熵或相似度時(shí),僅需要和被抽樣的評(píng)論信息進(jìn)行對(duì)比,在這里,也就僅需要和第一條評(píng)論信息進(jìn)行對(duì)比。假設(shè)第三條評(píng)論信息對(duì)于第一條評(píng)論信息的信息增益為0.3,0.3>b,因此,第三條評(píng)論信息也被抽樣,這樣,前三條評(píng)論信息被抽樣出兩條,即第一條和第三條,以此類(lèi)推,可以抽樣出滿(mǎn)足條件的評(píng)論信息。這樣通過(guò)抽樣的方式,減少了信息增益的計(jì)算量,提高了平均信息熵的計(jì)算效率。
步驟103:根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
這個(gè)步驟主要是基于概率統(tǒng)計(jì)學(xué)的方法,分析同一類(lèi)軟件的評(píng)論信息中關(guān)于有效信息的數(shù)據(jù)分布情況。
軟件類(lèi)別主要是根據(jù)軟件屬性的進(jìn)行分類(lèi),如銀行應(yīng)用類(lèi)軟件、游戲類(lèi)軟件、購(gòu)物類(lèi)軟件、工具類(lèi)軟件、即時(shí)通訊類(lèi)軟件等等,當(dāng)然,也可以從其他角度來(lái)對(duì)軟件進(jìn)行分類(lèi)。在本申請(qǐng)中對(duì)如何分類(lèi)并不作具體限制,而是從用戶(hù)使用角度出發(fā),關(guān)注同一類(lèi)別的軟件的評(píng)論信息的概率統(tǒng)計(jì)分布情況。
該步驟主要是以平均相似度或平均信息熵作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ),使得統(tǒng)計(jì)得到的分布參數(shù)具有高度的自適應(yīng)性,能夠很好地適應(yīng)于同一類(lèi)別的軟件檢測(cè)環(huán)境中,使得檢測(cè)的可靠性較高。
該步驟在具體實(shí)現(xiàn)時(shí),可以利用以下任意一種方式實(shí)現(xiàn):
第一種方式是,將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵作為樣本,計(jì)算該樣本的期望和方差,將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
第二種方式是,根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況,選擇一種概率統(tǒng)計(jì)分布類(lèi)型;以及,針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
發(fā)明人發(fā)現(xiàn):在樣本數(shù)據(jù)量較大的情況下,第二種方式的計(jì)算量相比第一種方式的計(jì)算量較大,因此,在這種情況下,為了節(jié)省計(jì)算量可以選擇第一種方式;如果在某些場(chǎng)景下,對(duì)分布參數(shù)的精準(zhǔn)性和可靠性有著嚴(yán)格要求,那么在這些場(chǎng)景下,可以選擇第二種方式。
關(guān)于第二種方式中的“概率統(tǒng)計(jì)分布類(lèi)型”,可以通過(guò)分析樣本數(shù)據(jù)得到樣本數(shù)據(jù)分布圖,根據(jù)分布圖選擇對(duì)應(yīng)的概率統(tǒng)計(jì)分布類(lèi)型。例如,從數(shù)據(jù)分布圖可以看出數(shù)據(jù)分布接近指數(shù)分布,則可以選擇指數(shù)分布類(lèi)型;再例如,從數(shù)據(jù)分布圖可以看出數(shù)據(jù)分布接近泊松分布,則可以選擇泊松分布類(lèi)型。在實(shí)際應(yīng)用中對(duì)概率分布類(lèi)型不作限定,具體情況根據(jù)實(shí)際的樣本數(shù)據(jù)而定。
但,發(fā)明人通過(guò)研究發(fā)現(xiàn),很多類(lèi)別的軟件的評(píng)論信息和評(píng)論下載比的分布接近于正態(tài)分布。因此,在選擇概率分布類(lèi)型時(shí),可以直接選擇正態(tài)分布,則針對(duì)正態(tài)分布擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的分布參數(shù),該分布參數(shù)包括均值和標(biāo)準(zhǔn)差。
步驟104:根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍,該判定閾值范圍是用于判定小概率事件的閾值范圍。
步驟105:當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
這里需要說(shuō)明的是,如果判定閾值是根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)來(lái)設(shè)置的,則在實(shí)現(xiàn)步驟105時(shí),就需要將待檢測(cè)軟件的評(píng)論信息的平均相似度作為判斷因素,實(shí)現(xiàn)條件式判斷。
如果判定閾值是根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均信息熵計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)來(lái)設(shè)置的,則在實(shí)現(xiàn)步驟105時(shí),就需要將待檢測(cè)軟件的評(píng)論信息的平均信息熵作為判斷因素,實(shí)現(xiàn)條件式判斷。在概率統(tǒng)計(jì)學(xué)中,將概率很接近于0(概率很小)的事件稱(chēng)之為小概率事件,但是具體概率小到何種程度才算是小概率,在本申請(qǐng)中對(duì)其不作具體規(guī)定,而是在不同的場(chǎng)合有不同的標(biāo)準(zhǔn)。例如,當(dāng)步驟103選擇的是正態(tài)分布,以每個(gè)軟件各自對(duì)應(yīng)的平均信息熵為數(shù)據(jù)基礎(chǔ),計(jì)算得到的分布參數(shù)包括均值和標(biāo)準(zhǔn)差,基于這些分布參數(shù)可以設(shè)置對(duì)應(yīng)的判斷閾值范圍。由于軟件的評(píng)論信息的平均信息熵越小,說(shuō)明軟件評(píng)論信息中的有效信息量越小,其越有刷好評(píng)的嫌疑,因此,結(jié)合正態(tài)分布小概率事件的特征,可以根據(jù)經(jīng) 驗(yàn)值設(shè)置判定閾值范圍為(-∞,μ-1.96σ)其中μ是均值,σ是標(biāo)準(zhǔn)差。當(dāng)然,也可以設(shè)置判定閾值范圍為(-∞,μ-σ)、(-∞,μ-2σ)、(-∞,μ-2.58σ)等;然后通過(guò)該判斷閾值范圍和軟件的評(píng)論信息的平均信息熵來(lái)判斷軟件是否為刷好評(píng)作弊軟件;當(dāng)軟件的評(píng)論信息的平均信息熵落入該范圍時(shí),則判定該軟件為刷好評(píng)作弊軟件。
當(dāng)步驟103選擇的是正態(tài)分布,以每個(gè)軟件各自對(duì)應(yīng)的平均相似度為數(shù)據(jù)基礎(chǔ),計(jì)算的到的分布參數(shù)包括均值和標(biāo)準(zhǔn)差。由于軟件的評(píng)論信息的平均相似度越大,說(shuō)明軟件的評(píng)論信息表達(dá)內(nèi)容都類(lèi)似,而正常軟件的評(píng)論信息表達(dá)內(nèi)容都差異較大,沒(méi)有規(guī)律,五花八門(mén);這種情況,說(shuō)明該軟件越有刷好評(píng)的嫌疑,因此,結(jié)合正態(tài)分布小概率事件的特征,可以根據(jù)經(jīng)驗(yàn)值設(shè)置判定閾值范圍為(μ+1.96σ,+∞),其中μ是均值,σ是標(biāo)準(zhǔn)差。當(dāng)然,也可以設(shè)置判定閾值范圍為(μ+σ,+∞)、(μ+1.96σ,+∞)、(μ+2σ,+∞)或(μ+2.58σ,+∞)(μ+3σ,+∞)等,然后通過(guò)該判斷閾值范圍和軟件的評(píng)論信息的平均相似度來(lái)判斷軟件是否為刷好評(píng)作弊軟件;當(dāng)軟件的評(píng)論信息的平均相似度落入該范圍時(shí),則判定該軟件為刷好評(píng)作弊軟件。
上述判定閾值范圍的設(shè)置主要取決于判定的嚴(yán)謹(jǐn)程度,具體范圍大小可以根據(jù)需求而定并不局限于上述幾個(gè)閾值范圍。
例如,當(dāng)依據(jù)平均信息熵計(jì)算得到概率統(tǒng)計(jì)分布參數(shù),基于該概率統(tǒng)計(jì)分布參數(shù)設(shè)置的該類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍為(-∞,μ-1.96σ),則當(dāng)某個(gè)屬于該類(lèi)別的軟件的評(píng)論信息的平均信息熵落入該范圍時(shí),可以判定出這個(gè)軟件是“刷好評(píng)”推廣作弊軟件。
從上述本申請(qǐng)實(shí)施例可以看出,本申請(qǐng)從“刷好評(píng)作弊”的角度出發(fā),基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況,主要是以軟件評(píng)論信息的平均相似度或平均信息熵作為概率統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ),分析得到同一類(lèi)軟件的評(píng)論信息的概率統(tǒng)計(jì)分布參數(shù),然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍,主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍,使得該判定閾值范圍是用于判定小概率事件的閾值范圍,因此,當(dāng)待檢測(cè)軟件的平均相似度或者平均信息熵落入該待測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),表明該待檢測(cè)軟件具有評(píng)論信息的事件 屬于小概率事件,就能夠判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
另外,本申請(qǐng)還提供了一種軟件推廣作弊的檢測(cè)方法,該方法是從“刷量”推廣作弊的角度出發(fā)進(jìn)行檢測(cè)。
請(qǐng)參閱圖2,圖2示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖,該方法可以由用戶(hù)機(jī)器執(zhí)行,用戶(hù)機(jī)器可以是個(gè)人的PC機(jī),也可以是各種類(lèi)型的網(wǎng)站服務(wù)器,例如Web服務(wù)器,或者APP服務(wù)器。該方法例如可以包括以下步驟:
步驟201:獲取平臺(tái)上軟件的評(píng)論信息和下載量。
對(duì)于一般的網(wǎng)站,其推廣的軟件爬取點(diǎn)在HTML頁(yè)面中的標(biāo)簽位置是固定的,因此,可以通過(guò)Jsoup工具分析HTML頁(yè)面標(biāo)簽,提取下載量、評(píng)論信息、評(píng)論量等。
在具體實(shí)現(xiàn)時(shí),可以預(yù)先將軟件的評(píng)論信息以數(shù)據(jù)表的形式、將軟件的下載量以數(shù)據(jù)表的形式分別存儲(chǔ)在數(shù)據(jù)庫(kù)中。本申請(qǐng)實(shí)施例在具體實(shí)現(xiàn)時(shí),可以去數(shù)據(jù)庫(kù)中查找軟件對(duì)應(yīng)的數(shù)據(jù)表,以獲取對(duì)應(yīng)的評(píng)論信息和下載量。這樣,避免對(duì)網(wǎng)站產(chǎn)生過(guò)多的訪(fǎng)問(wèn)壓力。
步驟202:計(jì)算軟件的評(píng)論下載比,該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值。
發(fā)明人發(fā)現(xiàn),單純的查看軟件的下載量大小,無(wú)法體現(xiàn)其真實(shí)性,容易發(fā)生誤判,且發(fā)明人發(fā)現(xiàn)對(duì)于軟件推廣者往往使用工具自動(dòng)下載其推廣的軟件,短時(shí)間內(nèi)會(huì)積累大量的下載量,但是評(píng)論信息相對(duì)較少,這主要是因?yàn)橐话愕乃⒘寇浖疾痪邆渌⒑迷u(píng)功能,都不會(huì)去撰寫(xiě)評(píng)論信息,因此導(dǎo)致評(píng)論下載比就會(huì)很小,基于這一基礎(chǔ),發(fā)明人提出從評(píng)論下載比的角度來(lái)衡量下載量的真實(shí)性,去檢測(cè)軟件是否有刷量作弊行為。
步驟203:根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
關(guān)于步驟203可以有以下幾種實(shí)現(xiàn)方式:
第一種實(shí)現(xiàn)方式是,將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的評(píng)論下載比作為樣本,計(jì)算該樣本的期望和方差,將該樣本的期望和方差作為該同一類(lèi)別的 軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
第二種實(shí)現(xiàn)方式是,根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比的數(shù)據(jù)分布情況,選擇一種概率統(tǒng)計(jì)分布類(lèi)型;以及,
針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
步驟204:根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍;該判定閾值范圍是用于判定小概率事件的閾值范圍。
關(guān)于判定閾值范圍設(shè)定部分可以參照上述實(shí)施例中的描述,兩者類(lèi)似,此處不再贅述。
步驟205:當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷量推廣作弊軟件。
另外,發(fā)明人還提出,在檢測(cè)出軟件為刷量推廣作弊軟件之后,可以將檢測(cè)結(jié)果生成結(jié)果表,存儲(chǔ)在數(shù)據(jù)庫(kù)中,這樣,在用戶(hù)瀏覽軟件界面時(shí),可以從結(jié)果表中查詢(xún)?cè)撥浖臋z測(cè)結(jié)果,以快速為用戶(hù)展示結(jié)果,幫助用戶(hù)甄別軟件是否為推廣作弊軟件。
從上述本申請(qǐng)實(shí)施例可以看出,本申請(qǐng)從“刷量作弊”的角度出發(fā),基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況,主要是以評(píng)論下載比作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ),分析得到同一類(lèi)軟件的評(píng)論下載比的概率統(tǒng)計(jì)分布參數(shù),然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍,主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍,使得該判定閾值范圍是用于判定小概率事件的閾值范圍,因此,當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該判定閾值范圍時(shí),表明該待檢測(cè)軟件具有這樣的評(píng)論下載比的事件屬于小概率事件,判定該待檢測(cè)軟件是刷量推廣作弊軟件。
裝置實(shí)施例
與上述軟件推廣作弊的檢測(cè)方法相對(duì)應(yīng),本申請(qǐng)實(shí)施例還提供了軟件推廣作弊的檢測(cè)裝置。請(qǐng)參閱圖3,圖3示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖,該裝置用于檢測(cè)“刷好評(píng)”推廣作弊的軟件, 該裝置可以包括獲取單元301、第一計(jì)算單元302、第二計(jì)算單元303、設(shè)置單元304和判定單元305。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。
獲取單元301,用于獲取平臺(tái)上軟件的評(píng)論信息;
第一計(jì)算單元302,用于根據(jù)軟件的評(píng)論信息的相似度或信息增益,計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵;
第二計(jì)算單元303,用于根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
設(shè)置單元304,用于根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍,該判定閾值范圍是用于判定小概率事件的閾值范圍;
判定單元305,用于當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。
可選的,所述第一計(jì)算單元,包括:
分詞子單元,用于對(duì)軟件的評(píng)論信息進(jìn)行分詞得到分詞向量,每個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量;
相似度計(jì)算子單元,用于根據(jù)分詞向量和向量相似度的計(jì)算方法,計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度,將最大相似度作為第N條評(píng)論信息的相似度;所述N大于或等于1;
平均相似度計(jì)算子單元,用于按照求取均值的方式,根據(jù)評(píng)論信息的相似度計(jì)算得到軟件的評(píng)論信息的平均相似度。
可選的,所述第一計(jì)算單元,包括:
信息增益計(jì)算子單元,用于按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益,選取最小的信息增益作為第N條評(píng)論信息的信息增益;所述N大于或等于1;
平均信息熵計(jì)算子單元,用于按照求取均值的方式,根據(jù)評(píng)論信息的信息增益計(jì)算得到軟件的評(píng)論信息的平均信息熵。
可選的,所述第二計(jì)算單元,具體用于:
將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵作為樣本,計(jì)算該樣本的期望和方差,將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
可選的,所述第二計(jì)算單元,包括:
選擇子單元,用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況,選擇一種概率統(tǒng)計(jì)分布類(lèi)型;
擬合子單元,用于針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
可選的,所述選擇子單元,具體用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況,選擇正態(tài)分布類(lèi)型;
則擬合子單元,具體用于針對(duì)正態(tài)分布擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的分布參數(shù),該分布參數(shù)包括均值和標(biāo)準(zhǔn)差;
則所述設(shè)置單元,具體用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍為(-∞,μ-σ)、(-∞,μ-1.96σ)、(-∞,μ-2σ)、(-∞,μ-2.58σ)、(μ+σ,+∞)、(μ+1.96σ,+∞)、(μ+2σ,+∞)或(μ+2.58σ,+∞),其中μ是均值,σ是標(biāo)準(zhǔn)差。
另外,本申請(qǐng)?zhí)峁┝肆硪环N軟件推廣作弊的檢測(cè)裝置,請(qǐng)參閱圖4,圖4示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖,用于檢測(cè)“刷量”推廣作弊的軟件,該裝置可以包括獲取單元401、第一計(jì)算單元402、第二計(jì)算單元403、設(shè)置單元404和判定單元405。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。
獲取單元401,用于獲取平臺(tái)上軟件的評(píng)論信息和下載量;
第一計(jì)算單元402,用于計(jì)算軟件的評(píng)論下載比,該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值;
第二計(jì)算單元403,用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比,計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù);
設(shè)置單元404,用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍;該判定閾值范圍是用于判定小概率事件的閾值范圍;
判定單元405,用于當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí),判定該待檢測(cè)軟件是刷量推廣作弊軟件。
可選的,所述第二計(jì)算單元,具體用于:
將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的評(píng)論下載比作為樣本,計(jì)算該樣本的期望和方差,將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
可選的,所述第二計(jì)算單元,包括:
選擇子單元,用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比的數(shù)據(jù)分布情況,選擇一種概率統(tǒng)計(jì)分布類(lèi)型;
分布子單元,用于針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。
從上述本申請(qǐng)實(shí)施例可以看出,本申請(qǐng)?zhí)峁┑难b置基于概率統(tǒng)計(jì)分布和小概率事件的數(shù)學(xué)原理,以軟件的評(píng)論信息、下載量這些實(shí)際數(shù)據(jù)為統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ),能夠自適應(yīng)性的設(shè)置判定閾值范圍,能夠?qū)崿F(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè),幫助用戶(hù)甄別軟件,能夠加強(qiáng)軟件下載安全防范。
另外,需要說(shuō)明的是,在實(shí)際應(yīng)用中,為了全面的檢測(cè)軟件是否為推廣作弊軟件,可以通過(guò)使用上述用于檢測(cè)“刷好評(píng)”和“刷量”推廣作弊的方法或裝置。
系統(tǒng)實(shí)施例
最后,本申請(qǐng)還提供了一種軟件推廣作弊的檢測(cè)系統(tǒng),參見(jiàn)圖5,該系統(tǒng)包括:
數(shù)據(jù)抓取裝置501、數(shù)據(jù)存儲(chǔ)裝置502、反作弊分析平臺(tái)503,
數(shù)據(jù)抓取裝置、數(shù)據(jù)存儲(chǔ)裝置、反作弊分析平臺(tái),
所述反作弊分析平臺(tái)包括:上述兩個(gè)裝置實(shí)施例中的裝置,一個(gè)是用于檢測(cè)“刷好評(píng)”推廣作弊的檢測(cè)裝置5031和上述用于檢測(cè)“刷量”推廣作弊的檢測(cè)裝置5032;
所述數(shù)據(jù)抓取裝置,用于從平臺(tái)上抓取軟件的評(píng)論信息和下載量;
所述數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)軟件的評(píng)論信息和下載量;
所述數(shù)據(jù)抓取裝置通過(guò)數(shù)據(jù)接口層與所述數(shù)據(jù)存儲(chǔ)裝置進(jìn)行數(shù)據(jù)交互;
所述數(shù)據(jù)存儲(chǔ)裝置通過(guò)數(shù)據(jù)接口層與所述反作弊分析平臺(tái)進(jìn)行數(shù)據(jù)交互。
在數(shù)據(jù)存儲(chǔ)系統(tǒng)中,下載量、評(píng)論信息可以以數(shù)據(jù)表的形式進(jìn)行存儲(chǔ)。
其中,上述用于檢測(cè)“刷好評(píng)”推廣作弊的檢測(cè)裝置5031可以參見(jiàn)圖3所示的裝置結(jié)構(gòu)以及上文對(duì)應(yīng)的描述;上述用于檢測(cè)“刷量”推廣作弊的檢測(cè)裝置5032可以參見(jiàn)圖4所示的裝置結(jié)構(gòu)以及上文對(duì)應(yīng)的描述。
可選的,數(shù)據(jù)接口層可以采用HIBERNAT ORM框架,可以屏蔽底層數(shù)據(jù)庫(kù)操作,直接存儲(chǔ)含有數(shù)據(jù)的對(duì)象即可。
所述數(shù)據(jù)抓取裝置,可以包括:
抓取引擎模塊、抓取引擎管理模塊、抓取點(diǎn)管理模塊以及URL管理模塊;
其中,URL管理模塊,用于配置待抓取的網(wǎng)站前綴;通過(guò)網(wǎng)站前綴能夠映射待爬取的全站軟件。
抓取點(diǎn)管理模塊,用于配置軟件推廣的爬取點(diǎn)。一般對(duì)于網(wǎng)站而已,其推廣的軟件爬取點(diǎn)在HTML頁(yè)面中的標(biāo)簽位置是固定的,這樣,就可以通過(guò)Joup工具或者其他爬取工具,獲取軟件詳情頁(yè)面的基本信息,如下載量、評(píng)論信息等。
抓取引擎管理模塊,用于配置引擎狀態(tài),如配置全量抓取所有軟件,或者配置分層抓取部分軟件,還可以配置抓取頻率等。
抓取引擎模塊,用于根據(jù)抓取引擎管理模塊的配置情況,抓取軟件的下載量、評(píng)論信息。
另外,當(dāng)用于檢測(cè)“刷好評(píng)”推廣作弊軟件的裝置5031、上述用于檢測(cè)“刷量”推廣作弊軟件的裝置5032,得到檢測(cè)結(jié)果之后,可以通過(guò)數(shù)據(jù)接口層將檢測(cè)結(jié)果存儲(chǔ)于數(shù)據(jù)存儲(chǔ)系統(tǒng)中,例如,可以將檢測(cè)結(jié)果存儲(chǔ)在結(jié)果表中。這樣,當(dāng)用戶(hù)瀏覽軟件時(shí),可以直接從數(shù)據(jù)存儲(chǔ)系統(tǒng)中查找對(duì)應(yīng)的檢測(cè)結(jié)果,以幫助用甄別軟件是否為推廣作弊軟件。
在該系統(tǒng)工作時(shí),數(shù)據(jù)抓取裝置抓取軟件的評(píng)論信息和下載量,存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中,而反作弊分析平臺(tái)從數(shù)據(jù)存儲(chǔ)裝置中獲取相應(yīng)的數(shù)據(jù),如可以按照網(wǎng)站類(lèi)型、軟件類(lèi)型來(lái)獲取一個(gè)網(wǎng)站下同一類(lèi)別的軟件各自對(duì)應(yīng)的 下載量、評(píng)論信息等,基于獲取的信息,反作弊分析平臺(tái)檢測(cè)出軟件是否為推廣作弊軟件;反作弊分析平臺(tái)還可以通過(guò)數(shù)據(jù)接口層將檢測(cè)結(jié)果存儲(chǔ)于數(shù)據(jù)存儲(chǔ)裝置中,例如在數(shù)據(jù)存儲(chǔ)裝置中建立一個(gè)結(jié)果表,專(zhuān)門(mén)用于存儲(chǔ)檢測(cè)結(jié)果,該檢測(cè)結(jié)果能夠表征軟件是否為推廣作弊軟件。
所述領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述到的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性、機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),可以采用軟件功能單元的形式實(shí)現(xiàn)。
需要說(shuō)明的是,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
以上對(duì)本申請(qǐng)所提供的軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)進(jìn)行了詳 細(xì)介紹,本文中應(yīng)用了具體實(shí)施例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。