一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)與流程

文檔序號(hào)：12178542閱讀：385來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，特別是涉及一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)。

背景技術(shù)：

近年來(lái)隨著互聯(lián)網(wǎng)的發(fā)展，人們對(duì)于軟件的需求不斷擴(kuò)大，軟件下載網(wǎng)站快速發(fā)展，比較知名的有太平洋下載中心，騰訊應(yīng)用寶，360手機(jī)助手網(wǎng)，淘寶手機(jī)助手、pp助手等。這些網(wǎng)站的功能均是提供豐富的PC端或移動(dòng)無(wú)線(xiàn)端軟件，方便用戶(hù)下載，安裝，升級(jí)及卸載。在這些網(wǎng)站上，用戶(hù)選擇軟件時(shí)一般會(huì)參考軟件的下載量及口碑，下載量高、好評(píng)多的軟件往往會(huì)被用戶(hù)優(yōu)先下載，因此這兩個(gè)指標(biāo)能夠極大影響用戶(hù)的選擇。部分軟件推廣者就利用這一點(diǎn)，通過(guò)一定非法手段進(jìn)行刷好評(píng)操作和刷量操作，從而誤導(dǎo)更多人下載其推廣的軟件，造成較為惡劣的影響。目前尚無(wú)專(zhuān)門(mén)檢測(cè)軟件推廣作弊問(wèn)題的技術(shù)方案。

技術(shù)實(shí)現(xiàn)要素：

為了解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例提供了一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)，以實(shí)現(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè)，幫助用戶(hù)甄別軟件，能夠加強(qiáng)軟件下載安全防范。

根據(jù)本申請(qǐng)的第一方面，本申請(qǐng)?zhí)峁┮环N軟件推廣作弊的檢測(cè)方法，該方法包括：

獲取平臺(tái)上軟件的評(píng)論信息；

根據(jù)軟件的評(píng)論信息的相似度或信息增益，計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵；

根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì) 應(yīng)的判定閾值范圍，該判定閾值范圍是用于判定小概率事件的閾值范圍；

當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

根據(jù)本申請(qǐng)的第二方面，本申請(qǐng)?zhí)峁┝硪环N軟件推廣作弊的檢測(cè)方法，該方法包括：

獲取平臺(tái)上軟件的評(píng)論信息和下載量；

計(jì)算軟件的評(píng)論下載比，該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值；

根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍；該判定閾值范圍是用于判定小概率事件的閾值范圍；

當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷量推廣作弊軟件。

根據(jù)本申請(qǐng)的第三方面，本申請(qǐng)?zhí)峁┝艘环N軟件推廣作弊的檢測(cè)裝置，該裝置包括：

獲取單元，用于獲取平臺(tái)上軟件的評(píng)論信息；

第一計(jì)算單元，用于根據(jù)軟件的評(píng)論信息的相似度或信息增益，計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵；

第二計(jì)算單元，用于根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

設(shè)置單元，用于根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍，該判定閾值范圍是用于判定小概率事件的閾值范圍；

判定單元，用于當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

根據(jù)本申請(qǐng)的第四方面，本申請(qǐng)?zhí)峁┝肆硪环N軟件推廣作弊的檢測(cè)裝置，該裝置包括：

獲取單元，用于獲取平臺(tái)上軟件的評(píng)論信息和下載量；

第一計(jì)算單元，用于計(jì)算軟件的評(píng)論下載比，該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值；

第二計(jì)算單元，用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

設(shè)置單元，用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍；該判定閾值范圍是用于判定小概率事件的閾值范圍；

判定單元，用于當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，判定該待檢測(cè)軟件是刷量推廣作弊軟件。

根據(jù)本申請(qǐng)的第五方面，本申請(qǐng)?zhí)峁┝艘环N軟件推廣作弊的檢測(cè)系統(tǒng)，該系統(tǒng)包括：

數(shù)據(jù)抓取裝置、數(shù)據(jù)存儲(chǔ)裝置、反作弊分析平臺(tái)，

所述反作弊分析平臺(tái)包括：上述兩種軟件推廣作弊檢測(cè)裝置；

所述數(shù)據(jù)抓取裝置，用于從平臺(tái)上抓取軟件的評(píng)論信息和下載量；

所述數(shù)據(jù)存儲(chǔ)裝置，用于存儲(chǔ)軟件的評(píng)論信息和下載量；

所述數(shù)據(jù)抓取裝置通過(guò)數(shù)據(jù)接口層與所述數(shù)據(jù)存儲(chǔ)裝置進(jìn)行數(shù)據(jù)交互；

所述數(shù)據(jù)存儲(chǔ)裝置通過(guò)數(shù)據(jù)接口層與所述反作弊分析平臺(tái)進(jìn)行數(shù)據(jù)交互。

由上述實(shí)施例可以看出，與現(xiàn)有技術(shù)相比，本申請(qǐng)的優(yōu)點(diǎn)在于：

本申請(qǐng)分別從“刷好評(píng)作弊”和“刷量作弊”的角度提出了用于檢測(cè)軟件是否有作弊行為的技術(shù)方案。一方面從“刷好評(píng)作弊”的角度出發(fā)，基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況，主要是以軟件評(píng)論信息的平均相似度或平均信息熵作為概率統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ)，分析得到同一類(lèi)軟件的評(píng)論信息的概率統(tǒng)計(jì)分布參數(shù)，然后基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍，使得該判定閾值范圍是用于判定小概率事件的閾值范圍，因此，當(dāng)待檢測(cè)軟件的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，表明該待檢測(cè)軟件具有這些評(píng)論信息的事件屬于小概率事件，判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

另一方面從“刷量作弊”的角度出發(fā)，基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況，主要是以評(píng)論下載比作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ)，分析得到同一類(lèi)軟件的評(píng)論下載比的概率統(tǒng)計(jì)分布參數(shù)，然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍，主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍，使得該判定閾值范圍是用于判定小概率事件的閾值范圍，因此，當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該判定閾值范圍時(shí)，表明該待檢測(cè)軟件具有這樣的評(píng)論下載比的事件屬于小概率事件，判定該待檢測(cè)軟件是刷量推廣作弊軟件。

本申請(qǐng)的技術(shù)方案，基于概率統(tǒng)計(jì)分布和小概率事件的數(shù)學(xué)原理，以軟件的評(píng)論信息、下載量這些實(shí)際數(shù)據(jù)為統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ)，能夠自適應(yīng)性的設(shè)置判定閾值范圍，能夠?qū)崿F(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè)，幫助用戶(hù)甄別軟件，能夠加強(qiáng)軟件下載安全防范。

附圖說(shuō)明

為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖；

圖2是本申請(qǐng)?zhí)峁┑牧硪环N軟件推廣作弊的檢測(cè)方法的流程圖；

圖3是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖；

圖4是本申請(qǐng)?zhí)峁┑牧硪环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖；

圖5是本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)系統(tǒng)的結(jié)構(gòu)圖。

具體實(shí)施方式

為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)描述。

方法實(shí)施例

請(qǐng)參閱圖1，圖1示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖，該方法可以由用戶(hù)機(jī)器執(zhí)行，用戶(hù)機(jī)器可以是個(gè)人的PC機(jī)，也可以是各種類(lèi)型的網(wǎng)站服務(wù)器，例如Web服務(wù)器，或者APP服務(wù)器。該方法例如可以包括以下步驟：

步驟101：獲取平臺(tái)上軟件的評(píng)論信息。

在本申請(qǐng)實(shí)施例中，平臺(tái)是指各個(gè)軟件推廣平臺(tái)或網(wǎng)站，可以利用爬蟲(chóng)爬取平臺(tái)上軟件的下載頁(yè)面，具體的可以利用“Jsoup”定點(diǎn)爬取技術(shù)，將下載頁(yè)面上的特定信息爬取出來(lái)，在本申請(qǐng)實(shí)施例中，主要用于爬取評(píng)論信息，也被稱(chēng)之為評(píng)語(yǔ)；由于網(wǎng)站上記錄用戶(hù)的評(píng)語(yǔ)是按照發(fā)表時(shí)間先后排序的，因此，爬取到評(píng)論信息后，可以按照發(fā)表時(shí)間先后排序?qū)⑵浔４嬖跀?shù)據(jù)庫(kù)中。

在實(shí)際應(yīng)用中可以利用開(kāi)源的mysql數(shù)據(jù)庫(kù)或postgresql數(shù)據(jù)庫(kù)，也可以利用其它數(shù)據(jù)庫(kù)。

步驟102：根據(jù)軟件的評(píng)論信息的相似度或信息增益，計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵。

下面對(duì)“根據(jù)軟件的評(píng)論信息的相似度，計(jì)算軟件的評(píng)論信息的平均相似度”的實(shí)現(xiàn)過(guò)程作解釋說(shuō)明。具體的，可以包括以下三個(gè)步驟：

對(duì)軟件的評(píng)論信息進(jìn)行分詞得到分詞向量，每個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量；

根據(jù)分詞向量和向量相似度的計(jì)算方法，計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度，將最大相似度作為第N條評(píng)論信息的相似度；所述N大于或等于1；以及

按照求取均值的方式，根據(jù)評(píng)論信息的相似度計(jì)算得到軟件的評(píng)論信息的平均相似度。

關(guān)于上述步驟“根據(jù)分詞向量和向量相似度的計(jì)算方法，計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度，將最大相似度作為第N條評(píng)論信息的相似度”，具體的可以有一種幾種實(shí)現(xiàn)方式：

第一種實(shí)現(xiàn)方式是，根據(jù)分詞向量和向量相似度的計(jì)算方法，計(jì)算軟件的第N條評(píng)論信息相比在其前面的N－1條評(píng)論信息的相似度，將最大相似度作為第N條評(píng)論信息的相似度。

可以看出：第一種實(shí)現(xiàn)方式是將每條評(píng)論信息與其前面所有的評(píng)論信息作對(duì)比計(jì)算相似度，遍歷性的處理，保證相似度的可靠性。

第二種實(shí)現(xiàn)方式是，根據(jù)分詞向量和向量相似度的計(jì)算方法，計(jì)算軟件的第N條評(píng)論信息相比在其前面的抽樣評(píng)論信息的相似度，將最大相似度作為第N條評(píng)論信息的相似度，其中，抽樣評(píng)論信息是指相似度小于預(yù)設(shè)閾值的評(píng)論信息。

可以看出：第二種實(shí)現(xiàn)方式是針對(duì)相似度大小情況，抽樣出滿(mǎn)足代表性要求的評(píng)論信息，僅需要將每條評(píng)論信息與其前面的被抽樣的評(píng)論信息作對(duì)比計(jì)算相似度，減小了計(jì)算量，無(wú)需全部遍歷性對(duì)比，由于這些被抽樣的評(píng)論信息具有典型性和代表性，因此，這種方式是在保證相似度的可靠性的基礎(chǔ)上，減小計(jì)算量，以提高計(jì)算效率。

對(duì)于評(píng)論信息個(gè)數(shù)較多的軟件，為了更快更高效的計(jì)算平均相似度，可以采用第二種實(shí)現(xiàn)方式，以評(píng)論抽樣的方法，抽樣的原則是取出有代表性的評(píng)論信息，即相對(duì)于前面的所有評(píng)論，取出相似度較小的評(píng)論信息，當(dāng)評(píng)論信息的相似度小于一定閾值時(shí)，可以抽取該評(píng)論信息，而計(jì)算當(dāng)前評(píng)論信息的信息熵時(shí)，僅需要和其前面被抽取的評(píng)論信息作比較，計(jì)算對(duì)應(yīng)的相似度。這樣通過(guò)抽樣的方式，減少了相似度的計(jì)算量，提高了平均相似度的計(jì)算效率。

為了進(jìn)一步說(shuō)明上述實(shí)現(xiàn)方式，下面以通過(guò)具體示例來(lái)說(shuō)明。

第一種實(shí)現(xiàn)方式的示例，第一條評(píng)論信息相似度為0(因?yàn)樗懊鏇](méi)有評(píng)論了)，第二條評(píng)論信息相對(duì)第一條評(píng)論信息的相似度為0.8，第三條評(píng)論信息相對(duì)第一條評(píng)論信息的相似度為0.5，相對(duì)第二條評(píng)論信息的相似度為0.9，則取二者中最大的，即0.9。因此這三條評(píng)論的平均相似度為(0+0.8+0.9)/3＝0.57，以此類(lèi)推計(jì)算一個(gè)軟件下的所有評(píng)論的平均相似度，作為該軟件的評(píng)論信息對(duì)應(yīng)的平均相似度。

關(guān)于“計(jì)算相似度”的實(shí)現(xiàn)過(guò)程，可以采用IK Analyzer、盤(pán)古分詞、Paoding等分詞工具，也可以采用基于語(yǔ)義依存的方法、基于詞典的方法等，將一條評(píng)論信息分解為多個(gè)有意義的詞匯；即，對(duì)評(píng)論信息作分詞處理得到分詞向量，一個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量；在分詞的過(guò)程中，還可以對(duì)近義詞作一定的處理。分詞處理之后，再采用word2vec算法，計(jì)算評(píng)論信息中各詞匯的最大相似度，將計(jì)算得到的最大相似度作為該評(píng)論信息的相似度。

第二種實(shí)現(xiàn)方式的示例，假設(shè)預(yù)設(shè)閾值為a＝0.6，第一條評(píng)論信息的相似度為0，0＜a，因此抽取出第一條評(píng)論信息。第二條評(píng)論信息相對(duì)于第一條評(píng)論信息的相似度為0.8，0.8＞a，因此，第二條評(píng)論信息就不被抽樣。在計(jì)算第三條評(píng)論信息相對(duì)于前面的評(píng)論信息的相似度時(shí)，僅需要和被抽樣的評(píng)論信息進(jìn)行對(duì)比，在這里，也就僅需要和第一條評(píng)論信息進(jìn)行對(duì)比。假設(shè)第三條評(píng)論信息對(duì)于第一條評(píng)論信息的相似度為0.3，0.3＜a，因此，第三條評(píng)論信息也被抽樣，這樣，前三條評(píng)論信息被抽樣出兩條，即第一條和第三條，以此類(lèi)推，可以抽樣出滿(mǎn)足條件的評(píng)論信息。這樣通過(guò)抽樣的方式，減少了信息增益的計(jì)算量，提高了平均相似度的計(jì)算效率。

下面對(duì)步驟“所述根據(jù)軟件的評(píng)論信息的信息熵，計(jì)算軟件的評(píng)論信息的平均信息熵”的實(shí)現(xiàn)過(guò)程作解釋說(shuō)明。具體的，可以包括以下兩個(gè)步驟：

按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益，選取最小的信息增益作為第N條評(píng)論信息的信息增益；所述N大于或等于1；以及，

按照求取均值的方式，根據(jù)評(píng)論信息的信息增益計(jì)算得到軟件的評(píng)論信息的平均信息熵。

關(guān)于步驟“按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益，選取最小的信息增益作為第N條評(píng)論信息的信息增益”，具體可以有以下兩種實(shí)現(xiàn)方式：

第一種實(shí)現(xiàn)方式是，按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的N－1條評(píng)論信息的信息增益，選取最小的信息增益作為第N條評(píng)論信息的信息增益。

第二種實(shí)現(xiàn)方式是，按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的抽樣評(píng)論信息的信息增益，選取最小的信息增益作為第N條評(píng)論信息的信息增益，其中，抽樣評(píng)論信息是指信息增益大于預(yù)設(shè)閾值的評(píng)論信息。

對(duì)第二種實(shí)現(xiàn)方式進(jìn)行舉例說(shuō)明，假設(shè)預(yù)設(shè)閾值為b＝0.2，第一條評(píng)論信息的信息增益為1，1＞b，因此抽取出第一條評(píng)論信息。第二條評(píng)論信息相對(duì)于第一條評(píng)論信息的信息增益為0.1，0.1＜b，因此，第二條評(píng)論信息就不被抽樣。在計(jì)算第三條評(píng)論信息相對(duì)于前面的評(píng)論信息的信息熵或相似度時(shí)，僅需要和被抽樣的評(píng)論信息進(jìn)行對(duì)比，在這里，也就僅需要和第一條評(píng)論信息進(jìn)行對(duì)比。假設(shè)第三條評(píng)論信息對(duì)于第一條評(píng)論信息的信息增益為0.3，0.3＞b，因此，第三條評(píng)論信息也被抽樣，這樣，前三條評(píng)論信息被抽樣出兩條，即第一條和第三條，以此類(lèi)推，可以抽樣出滿(mǎn)足條件的評(píng)論信息。這樣通過(guò)抽樣的方式，減少了信息增益的計(jì)算量，提高了平均信息熵的計(jì)算效率。

步驟103：根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

這個(gè)步驟主要是基于概率統(tǒng)計(jì)學(xué)的方法，分析同一類(lèi)軟件的評(píng)論信息中關(guān)于有效信息的數(shù)據(jù)分布情況。

軟件類(lèi)別主要是根據(jù)軟件屬性的進(jìn)行分類(lèi)，如銀行應(yīng)用類(lèi)軟件、游戲類(lèi)軟件、購(gòu)物類(lèi)軟件、工具類(lèi)軟件、即時(shí)通訊類(lèi)軟件等等，當(dāng)然，也可以從其他角度來(lái)對(duì)軟件進(jìn)行分類(lèi)。在本申請(qǐng)中對(duì)如何分類(lèi)并不作具體限制，而是從用戶(hù)使用角度出發(fā)，關(guān)注同一類(lèi)別的軟件的評(píng)論信息的概率統(tǒng)計(jì)分布情況。

該步驟主要是以平均相似度或平均信息熵作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ)，使得統(tǒng)計(jì)得到的分布參數(shù)具有高度的自適應(yīng)性，能夠很好地適應(yīng)于同一類(lèi)別的軟件檢測(cè)環(huán)境中，使得檢測(cè)的可靠性較高。

該步驟在具體實(shí)現(xiàn)時(shí)，可以利用以下任意一種方式實(shí)現(xiàn)：

第一種方式是，將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵作為樣本，計(jì)算該樣本的期望和方差，將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

第二種方式是，根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況，選擇一種概率統(tǒng)計(jì)分布類(lèi)型；以及，針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

發(fā)明人發(fā)現(xiàn)：在樣本數(shù)據(jù)量較大的情況下，第二種方式的計(jì)算量相比第一種方式的計(jì)算量較大，因此，在這種情況下，為了節(jié)省計(jì)算量可以選擇第一種方式；如果在某些場(chǎng)景下，對(duì)分布參數(shù)的精準(zhǔn)性和可靠性有著嚴(yán)格要求，那么在這些場(chǎng)景下，可以選擇第二種方式。

關(guān)于第二種方式中的“概率統(tǒng)計(jì)分布類(lèi)型”，可以通過(guò)分析樣本數(shù)據(jù)得到樣本數(shù)據(jù)分布圖，根據(jù)分布圖選擇對(duì)應(yīng)的概率統(tǒng)計(jì)分布類(lèi)型。例如，從數(shù)據(jù)分布圖可以看出數(shù)據(jù)分布接近指數(shù)分布，則可以選擇指數(shù)分布類(lèi)型；再例如，從數(shù)據(jù)分布圖可以看出數(shù)據(jù)分布接近泊松分布，則可以選擇泊松分布類(lèi)型。在實(shí)際應(yīng)用中對(duì)概率分布類(lèi)型不作限定，具體情況根據(jù)實(shí)際的樣本數(shù)據(jù)而定。

但，發(fā)明人通過(guò)研究發(fā)現(xiàn)，很多類(lèi)別的軟件的評(píng)論信息和評(píng)論下載比的分布接近于正態(tài)分布。因此，在選擇概率分布類(lèi)型時(shí)，可以直接選擇正態(tài)分布，則針對(duì)正態(tài)分布擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的分布參數(shù)，該分布參數(shù)包括均值和標(biāo)準(zhǔn)差。

步驟104：根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍，該判定閾值范圍是用于判定小概率事件的閾值范圍。

步驟105：當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

這里需要說(shuō)明的是，如果判定閾值是根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)來(lái)設(shè)置的，則在實(shí)現(xiàn)步驟105時(shí)，就需要將待檢測(cè)軟件的評(píng)論信息的平均相似度作為判斷因素，實(shí)現(xiàn)條件式判斷。

如果判定閾值是根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均信息熵計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)來(lái)設(shè)置的，則在實(shí)現(xiàn)步驟105時(shí)，就需要將待檢測(cè)軟件的評(píng)論信息的平均信息熵作為判斷因素，實(shí)現(xiàn)條件式判斷。在概率統(tǒng)計(jì)學(xué)中，將概率很接近于0(概率很小)的事件稱(chēng)之為小概率事件，但是具體概率小到何種程度才算是小概率，在本申請(qǐng)中對(duì)其不作具體規(guī)定，而是在不同的場(chǎng)合有不同的標(biāo)準(zhǔn)。例如，當(dāng)步驟103選擇的是正態(tài)分布，以每個(gè)軟件各自對(duì)應(yīng)的平均信息熵為數(shù)據(jù)基礎(chǔ)，計(jì)算得到的分布參數(shù)包括均值和標(biāo)準(zhǔn)差，基于這些分布參數(shù)可以設(shè)置對(duì)應(yīng)的判斷閾值范圍。由于軟件的評(píng)論信息的平均信息熵越小，說(shuō)明軟件評(píng)論信息中的有效信息量越小，其越有刷好評(píng)的嫌疑，因此，結(jié)合正態(tài)分布小概率事件的特征，可以根據(jù)經(jīng) 驗(yàn)值設(shè)置判定閾值范圍為(－∞，μ－1.96σ)其中μ是均值，σ是標(biāo)準(zhǔn)差。當(dāng)然，也可以設(shè)置判定閾值范圍為(－∞，μ－σ)、(－∞，μ－2σ)、(－∞，μ－2.58σ)等；然后通過(guò)該判斷閾值范圍和軟件的評(píng)論信息的平均信息熵來(lái)判斷軟件是否為刷好評(píng)作弊軟件；當(dāng)軟件的評(píng)論信息的平均信息熵落入該范圍時(shí)，則判定該軟件為刷好評(píng)作弊軟件。

當(dāng)步驟103選擇的是正態(tài)分布，以每個(gè)軟件各自對(duì)應(yīng)的平均相似度為數(shù)據(jù)基礎(chǔ)，計(jì)算的到的分布參數(shù)包括均值和標(biāo)準(zhǔn)差。由于軟件的評(píng)論信息的平均相似度越大，說(shuō)明軟件的評(píng)論信息表達(dá)內(nèi)容都類(lèi)似，而正常軟件的評(píng)論信息表達(dá)內(nèi)容都差異較大，沒(méi)有規(guī)律，五花八門(mén)；這種情況，說(shuō)明該軟件越有刷好評(píng)的嫌疑，因此，結(jié)合正態(tài)分布小概率事件的特征，可以根據(jù)經(jīng)驗(yàn)值設(shè)置判定閾值范圍為(μ+1.96σ，+∞)，其中μ是均值，σ是標(biāo)準(zhǔn)差。當(dāng)然，也可以設(shè)置判定閾值范圍為(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)(μ+3σ，+∞)等，然后通過(guò)該判斷閾值范圍和軟件的評(píng)論信息的平均相似度來(lái)判斷軟件是否為刷好評(píng)作弊軟件；當(dāng)軟件的評(píng)論信息的平均相似度落入該范圍時(shí)，則判定該軟件為刷好評(píng)作弊軟件。

上述判定閾值范圍的設(shè)置主要取決于判定的嚴(yán)謹(jǐn)程度，具體范圍大小可以根據(jù)需求而定并不局限于上述幾個(gè)閾值范圍。

例如，當(dāng)依據(jù)平均信息熵計(jì)算得到概率統(tǒng)計(jì)分布參數(shù)，基于該概率統(tǒng)計(jì)分布參數(shù)設(shè)置的該類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍為(－∞，μ－1.96σ)，則當(dāng)某個(gè)屬于該類(lèi)別的軟件的評(píng)論信息的平均信息熵落入該范圍時(shí)，可以判定出這個(gè)軟件是“刷好評(píng)”推廣作弊軟件。

從上述本申請(qǐng)實(shí)施例可以看出，本申請(qǐng)從“刷好評(píng)作弊”的角度出發(fā)，基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況，主要是以軟件評(píng)論信息的平均相似度或平均信息熵作為概率統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ)，分析得到同一類(lèi)軟件的評(píng)論信息的概率統(tǒng)計(jì)分布參數(shù)，然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍，主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍，使得該判定閾值范圍是用于判定小概率事件的閾值范圍，因此，當(dāng)待檢測(cè)軟件的平均相似度或者平均信息熵落入該待測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，表明該待檢測(cè)軟件具有評(píng)論信息的事件屬于小概率事件，就能夠判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

另外，本申請(qǐng)還提供了一種軟件推廣作弊的檢測(cè)方法，該方法是從“刷量”推廣作弊的角度出發(fā)進(jìn)行檢測(cè)。

請(qǐng)參閱圖2，圖2示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)方法的流程圖，該方法可以由用戶(hù)機(jī)器執(zhí)行，用戶(hù)機(jī)器可以是個(gè)人的PC機(jī)，也可以是各種類(lèi)型的網(wǎng)站服務(wù)器，例如Web服務(wù)器，或者APP服務(wù)器。該方法例如可以包括以下步驟：

步驟201：獲取平臺(tái)上軟件的評(píng)論信息和下載量。

對(duì)于一般的網(wǎng)站，其推廣的軟件爬取點(diǎn)在HTML頁(yè)面中的標(biāo)簽位置是固定的，因此，可以通過(guò)Jsoup工具分析HTML頁(yè)面標(biāo)簽，提取下載量、評(píng)論信息、評(píng)論量等。

在具體實(shí)現(xiàn)時(shí)，可以預(yù)先將軟件的評(píng)論信息以數(shù)據(jù)表的形式、將軟件的下載量以數(shù)據(jù)表的形式分別存儲(chǔ)在數(shù)據(jù)庫(kù)中。本申請(qǐng)實(shí)施例在具體實(shí)現(xiàn)時(shí)，可以去數(shù)據(jù)庫(kù)中查找軟件對(duì)應(yīng)的數(shù)據(jù)表，以獲取對(duì)應(yīng)的評(píng)論信息和下載量。這樣，避免對(duì)網(wǎng)站產(chǎn)生過(guò)多的訪(fǎng)問(wèn)壓力。

步驟202：計(jì)算軟件的評(píng)論下載比，該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值。

發(fā)明人發(fā)現(xiàn)，單純的查看軟件的下載量大小，無(wú)法體現(xiàn)其真實(shí)性，容易發(fā)生誤判，且發(fā)明人發(fā)現(xiàn)對(duì)于軟件推廣者往往使用工具自動(dòng)下載其推廣的軟件，短時(shí)間內(nèi)會(huì)積累大量的下載量，但是評(píng)論信息相對(duì)較少，這主要是因?yàn)橐话愕乃⒘寇浖疾痪邆渌⒑迷u(píng)功能，都不會(huì)去撰寫(xiě)評(píng)論信息，因此導(dǎo)致評(píng)論下載比就會(huì)很小，基于這一基礎(chǔ)，發(fā)明人提出從評(píng)論下載比的角度來(lái)衡量下載量的真實(shí)性，去檢測(cè)軟件是否有刷量作弊行為。

步驟203：根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

關(guān)于步驟203可以有以下幾種實(shí)現(xiàn)方式：

第一種實(shí)現(xiàn)方式是，將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的評(píng)論下載比作為樣本，計(jì)算該樣本的期望和方差，將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

第二種實(shí)現(xiàn)方式是，根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比的數(shù)據(jù)分布情況，選擇一種概率統(tǒng)計(jì)分布類(lèi)型；以及，

針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

步驟204：根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍；該判定閾值范圍是用于判定小概率事件的閾值范圍。

關(guān)于判定閾值范圍設(shè)定部分可以參照上述實(shí)施例中的描述，兩者類(lèi)似，此處不再贅述。

步驟205：當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷量推廣作弊軟件。

另外，發(fā)明人還提出，在檢測(cè)出軟件為刷量推廣作弊軟件之后，可以將檢測(cè)結(jié)果生成結(jié)果表，存儲(chǔ)在數(shù)據(jù)庫(kù)中，這樣，在用戶(hù)瀏覽軟件界面時(shí)，可以從結(jié)果表中查詢(xún)?cè)撥浖臋z測(cè)結(jié)果，以快速為用戶(hù)展示結(jié)果，幫助用戶(hù)甄別軟件是否為推廣作弊軟件。

從上述本申請(qǐng)實(shí)施例可以看出，本申請(qǐng)從“刷量作弊”的角度出發(fā)，基于概率統(tǒng)計(jì)分布原理分析同一類(lèi)別的軟件的評(píng)論信息的分布情況，主要是以評(píng)論下載比作為概率統(tǒng)計(jì)分布的數(shù)據(jù)基礎(chǔ)，分析得到同一類(lèi)軟件的評(píng)論下載比的概率統(tǒng)計(jì)分布參數(shù)，然后根據(jù)該概率統(tǒng)計(jì)分布參數(shù)設(shè)置判定閾值范圍，主要是基于概率統(tǒng)計(jì)分布中小概率事件原理來(lái)設(shè)定該判定閾值范圍，使得該判定閾值范圍是用于判定小概率事件的閾值范圍，因此，當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該判定閾值范圍時(shí)，表明該待檢測(cè)軟件具有這樣的評(píng)論下載比的事件屬于小概率事件，判定該待檢測(cè)軟件是刷量推廣作弊軟件。

裝置實(shí)施例

與上述軟件推廣作弊的檢測(cè)方法相對(duì)應(yīng)，本申請(qǐng)實(shí)施例還提供了軟件推廣作弊的檢測(cè)裝置。請(qǐng)參閱圖3，圖3示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖，該裝置用于檢測(cè)“刷好評(píng)”推廣作弊的軟件，該裝置可以包括獲取單元301、第一計(jì)算單元302、第二計(jì)算單元303、設(shè)置單元304和判定單元305。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。

獲取單元301，用于獲取平臺(tái)上軟件的評(píng)論信息；

第一計(jì)算單元302，用于根據(jù)軟件的評(píng)論信息的相似度或信息增益，計(jì)算軟件的評(píng)論信息的平均相似度或平均信息熵；

第二計(jì)算單元303，用于根據(jù)同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

設(shè)置單元304，用于根據(jù)該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍，該判定閾值范圍是用于判定小概率事件的閾值范圍；

判定單元305，用于當(dāng)待檢測(cè)軟件的評(píng)論信息的平均相似度或平均信息熵落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，則判定該待檢測(cè)軟件是刷好評(píng)推廣作弊軟件。

可選的，所述第一計(jì)算單元，包括：

分詞子單元，用于對(duì)軟件的評(píng)論信息進(jìn)行分詞得到分詞向量，每個(gè)評(píng)論信息對(duì)應(yīng)有一個(gè)分詞向量；

相似度計(jì)算子單元，用于根據(jù)分詞向量和向量相似度的計(jì)算方法，計(jì)算軟件的第N條評(píng)論信息相比在其前面的一條或者多條評(píng)論信息的相似度，將最大相似度作為第N條評(píng)論信息的相似度；所述N大于或等于1；

平均相似度計(jì)算子單元，用于按照求取均值的方式，根據(jù)評(píng)論信息的相似度計(jì)算得到軟件的評(píng)論信息的平均相似度。

可選的，所述第一計(jì)算單元，包括：

信息增益計(jì)算子單元，用于按照香農(nóng)定理計(jì)算第N條評(píng)論信息相比在其前面的一條或多條評(píng)論信息的信息增益，選取最小的信息增益作為第N條評(píng)論信息的信息增益；所述N大于或等于1；

平均信息熵計(jì)算子單元，用于按照求取均值的方式，根據(jù)評(píng)論信息的信息增益計(jì)算得到軟件的評(píng)論信息的平均信息熵。

可選的，所述第二計(jì)算單元，具體用于：

將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的平均相似度或平均信息熵作為樣本，計(jì)算該樣本的期望和方差，將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

可選的，所述第二計(jì)算單元，包括：

選擇子單元，用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況，選擇一種概率統(tǒng)計(jì)分布類(lèi)型；

擬合子單元，用于針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

可選的，所述選擇子單元，具體用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的平均相似度或平均信息熵的數(shù)據(jù)分布情況，選擇正態(tài)分布類(lèi)型；

則擬合子單元，具體用于針對(duì)正態(tài)分布擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的分布參數(shù)，該分布參數(shù)包括均值和標(biāo)準(zhǔn)差；

則所述設(shè)置單元，具體用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍為(－∞，μ－σ)、(－∞，μ－1.96σ)、(－∞，μ－2σ)、(－∞，μ－2.58σ)、(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)，其中μ是均值，σ是標(biāo)準(zhǔn)差。

另外，本申請(qǐng)?zhí)峁┝肆硪环N軟件推廣作弊的檢測(cè)裝置，請(qǐng)參閱圖4，圖4示意性地示出了本申請(qǐng)?zhí)峁┑囊环N軟件推廣作弊的檢測(cè)裝置的結(jié)構(gòu)圖，用于檢測(cè)“刷量”推廣作弊的軟件，該裝置可以包括獲取單元401、第一計(jì)算單元402、第二計(jì)算單元403、設(shè)置單元404和判定單元405。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。

獲取單元401，用于獲取平臺(tái)上軟件的評(píng)論信息和下載量；

第一計(jì)算單元402，用于計(jì)算軟件的評(píng)論下載比，該評(píng)論下載比等于評(píng)論信息總個(gè)數(shù)與下載量的比值；

第二計(jì)算單元403，用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比，計(jì)算得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)；

設(shè)置單元404，用于根據(jù)同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)設(shè)置同一類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍；該判定閾值范圍是用于判定小概率事件的閾值范圍；

判定單元405，用于當(dāng)待檢測(cè)軟件的評(píng)論下載比落入該待檢測(cè)軟件所屬類(lèi)別的軟件對(duì)應(yīng)的判定閾值范圍時(shí)，判定該待檢測(cè)軟件是刷量推廣作弊軟件。

可選的，所述第二計(jì)算單元，具體用于：

將同一類(lèi)別的每個(gè)軟件各自對(duì)應(yīng)的評(píng)論下載比作為樣本，計(jì)算該樣本的期望和方差，將該樣本的期望和方差作為該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

可選的，所述第二計(jì)算單元，包括：

選擇子單元，用于根據(jù)同一類(lèi)別的軟件各自對(duì)應(yīng)的評(píng)論下載比的數(shù)據(jù)分布情況，選擇一種概率統(tǒng)計(jì)分布類(lèi)型；

分布子單元，用于針對(duì)該概率統(tǒng)計(jì)分布類(lèi)型擬合分布得到該同一類(lèi)別的軟件對(duì)應(yīng)的概率統(tǒng)計(jì)分布參數(shù)。

從上述本申請(qǐng)實(shí)施例可以看出，本申請(qǐng)?zhí)峁┑难b置基于概率統(tǒng)計(jì)分布和小概率事件的數(shù)學(xué)原理，以軟件的評(píng)論信息、下載量這些實(shí)際數(shù)據(jù)為統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ)，能夠自適應(yīng)性的設(shè)置判定閾值范圍，能夠?qū)崿F(xiàn)對(duì)軟件推廣作弊的自動(dòng)檢測(cè)，幫助用戶(hù)甄別軟件，能夠加強(qiáng)軟件下載安全防范。

另外，需要說(shuō)明的是，在實(shí)際應(yīng)用中，為了全面的檢測(cè)軟件是否為推廣作弊軟件，可以通過(guò)使用上述用于檢測(cè)“刷好評(píng)”和“刷量”推廣作弊的方法或裝置。

系統(tǒng)實(shí)施例

最后，本申請(qǐng)還提供了一種軟件推廣作弊的檢測(cè)系統(tǒng)，參見(jiàn)圖5，該系統(tǒng)包括：

數(shù)據(jù)抓取裝置501、數(shù)據(jù)存儲(chǔ)裝置502、反作弊分析平臺(tái)503，

數(shù)據(jù)抓取裝置、數(shù)據(jù)存儲(chǔ)裝置、反作弊分析平臺(tái)，

所述反作弊分析平臺(tái)包括：上述兩個(gè)裝置實(shí)施例中的裝置，一個(gè)是用于檢測(cè)“刷好評(píng)”推廣作弊的檢測(cè)裝置5031和上述用于檢測(cè)“刷量”推廣作弊的檢測(cè)裝置5032；

所述數(shù)據(jù)抓取裝置，用于從平臺(tái)上抓取軟件的評(píng)論信息和下載量；

所述數(shù)據(jù)存儲(chǔ)裝置，用于存儲(chǔ)軟件的評(píng)論信息和下載量；

所述數(shù)據(jù)抓取裝置通過(guò)數(shù)據(jù)接口層與所述數(shù)據(jù)存儲(chǔ)裝置進(jìn)行數(shù)據(jù)交互；

所述數(shù)據(jù)存儲(chǔ)裝置通過(guò)數(shù)據(jù)接口層與所述反作弊分析平臺(tái)進(jìn)行數(shù)據(jù)交互。

在數(shù)據(jù)存儲(chǔ)系統(tǒng)中，下載量、評(píng)論信息可以以數(shù)據(jù)表的形式進(jìn)行存儲(chǔ)。

其中，上述用于檢測(cè)“刷好評(píng)”推廣作弊的檢測(cè)裝置5031可以參見(jiàn)圖3所示的裝置結(jié)構(gòu)以及上文對(duì)應(yīng)的描述；上述用于檢測(cè)“刷量”推廣作弊的檢測(cè)裝置5032可以參見(jiàn)圖4所示的裝置結(jié)構(gòu)以及上文對(duì)應(yīng)的描述。

可選的，數(shù)據(jù)接口層可以采用HIBERNAT ORM框架，可以屏蔽底層數(shù)據(jù)庫(kù)操作，直接存儲(chǔ)含有數(shù)據(jù)的對(duì)象即可。

所述數(shù)據(jù)抓取裝置，可以包括：

抓取引擎模塊、抓取引擎管理模塊、抓取點(diǎn)管理模塊以及URL管理模塊；

其中，URL管理模塊，用于配置待抓取的網(wǎng)站前綴；通過(guò)網(wǎng)站前綴能夠映射待爬取的全站軟件。

抓取點(diǎn)管理模塊，用于配置軟件推廣的爬取點(diǎn)。一般對(duì)于網(wǎng)站而已，其推廣的軟件爬取點(diǎn)在HTML頁(yè)面中的標(biāo)簽位置是固定的，這樣，就可以通過(guò)Joup工具或者其他爬取工具，獲取軟件詳情頁(yè)面的基本信息，如下載量、評(píng)論信息等。

抓取引擎管理模塊，用于配置引擎狀態(tài)，如配置全量抓取所有軟件，或者配置分層抓取部分軟件，還可以配置抓取頻率等。

抓取引擎模塊，用于根據(jù)抓取引擎管理模塊的配置情況，抓取軟件的下載量、評(píng)論信息。

另外，當(dāng)用于檢測(cè)“刷好評(píng)”推廣作弊軟件的裝置5031、上述用于檢測(cè)“刷量”推廣作弊軟件的裝置5032，得到檢測(cè)結(jié)果之后，可以通過(guò)數(shù)據(jù)接口層將檢測(cè)結(jié)果存儲(chǔ)于數(shù)據(jù)存儲(chǔ)系統(tǒng)中，例如，可以將檢測(cè)結(jié)果存儲(chǔ)在結(jié)果表中。這樣，當(dāng)用戶(hù)瀏覽軟件時(shí)，可以直接從數(shù)據(jù)存儲(chǔ)系統(tǒng)中查找對(duì)應(yīng)的檢測(cè)結(jié)果，以幫助用甄別軟件是否為推廣作弊軟件。

在該系統(tǒng)工作時(shí)，數(shù)據(jù)抓取裝置抓取軟件的評(píng)論信息和下載量，存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中，而反作弊分析平臺(tái)從數(shù)據(jù)存儲(chǔ)裝置中獲取相應(yīng)的數(shù)據(jù)，如可以按照網(wǎng)站類(lèi)型、軟件類(lèi)型來(lái)獲取一個(gè)網(wǎng)站下同一類(lèi)別的軟件各自對(duì)應(yīng)的下載量、評(píng)論信息等，基于獲取的信息，反作弊分析平臺(tái)檢測(cè)出軟件是否為推廣作弊軟件；反作弊分析平臺(tái)還可以通過(guò)數(shù)據(jù)接口層將檢測(cè)結(jié)果存儲(chǔ)于數(shù)據(jù)存儲(chǔ)裝置中，例如在數(shù)據(jù)存儲(chǔ)裝置中建立一個(gè)結(jié)果表，專(zhuān)門(mén)用于存儲(chǔ)檢測(cè)結(jié)果，該檢測(cè)結(jié)果能夠表征軟件是否為推廣作弊軟件。

所述領(lǐng)域的技術(shù)人員可以清楚地了解到，為了描述的方便和簡(jiǎn)潔，上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程，可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程，在此不再贅述。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中，應(yīng)該理解到，所揭露的系統(tǒng)、裝置和方法，可以通過(guò)其它的方式實(shí)現(xiàn)。例如，以上所描述到的裝置實(shí)施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式，例如多個(gè)單元或組件可以結(jié)合或可以集成到另一個(gè)系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口，裝置或單元的間接耦合或通信連接，可以是電性、機(jī)械或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外，在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn)，可以采用軟件功能單元的形式實(shí)現(xiàn)。

需要說(shuō)明的是，本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read－Only Memory，ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory，RAM)等。

以上對(duì)本申請(qǐng)所提供的軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體實(shí)施例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本申請(qǐng)的思想，在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡于響
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

軟件檢測(cè)方法相關(guān)技術(shù)

聯(lián)想無(wú)線(xiàn)裝置設(shè)定軟件相關(guān)技術(shù)

化學(xué)實(shí)驗(yàn)裝置圖軟件相關(guān)技術(shù)

作弊檢測(cè)方法相關(guān)技術(shù)

汽車(chē)尾氣年檢作弊裝置相關(guān)技術(shù)

一種過(guò)磅防作弊裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)與流程

一種軟件推廣作弊的檢測(cè)方法、裝置及系統(tǒng)與流程