本發(fā)明實施例涉及信息處理技術(shù),尤其涉及一種資源平衡性的確定方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
搜索引擎(searchengine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),并將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng),其已經(jīng)成為廣大用戶獲取網(wǎng)絡(luò)信息的一項不可或缺的方式。
搜索資源是搜索引擎類產(chǎn)品的基石,一條資源(典型的,一個資源站點中更新的一個網(wǎng)頁)從產(chǎn)生到展現(xiàn)給搜索用戶要經(jīng)歷資源抓取、入庫(也即將資源收錄于資源庫中)、召回(也即資源的分發(fā))、排序、展現(xiàn)等一系列過程。其中資源的抓取、入庫是召回的基礎(chǔ);請求召回的資源數(shù)量的多少是對資源抓取、入庫質(zhì)量優(yōu)良的有效指標(biāo),也是影響用戶體驗的主要因素。在現(xiàn)有技術(shù)中,沒有對資源庫中資源的收錄與分發(fā)的平衡性進行衡量的方法。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種資源平衡性的確定方法、裝置、設(shè)備以及存儲介質(zhì),以有效衡量資源庫中資源的收錄與分發(fā)的平衡性。
第一方面,本發(fā)明實施例提供了一種資源平衡性的確定方法,包括:
在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量;
應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù);
其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
第二方面,本發(fā)明實施例還提供了一種資源平衡性的確定裝置,包括:
資源站點信息統(tǒng)計模塊,用于在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量;
資源平衡性參數(shù)計算模塊,用于應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù);
其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
第三方面,本發(fā)明實施例還提供了一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序所述處理器執(zhí)行所述程序時實現(xiàn)如本發(fā)明實施例中任一所述的資源平衡性的確定方法。
第四方面,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明實施例中任一所述的資源平衡性的確定方法。
本發(fā)明實施例提供了一種資源平衡性的確定方法、裝置、設(shè)備以及存儲介質(zhì),通過應(yīng)用衡量經(jīng)濟分配的公平程度的目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用設(shè)定時間區(qū)間內(nèi)資源庫針對各個資源站點的資源收錄量以及資源分發(fā)量,計算用于衡量所述資源庫的資源收錄及分發(fā)的平衡性的資源平衡性參數(shù)的技術(shù)手段,創(chuàng)造性的給出了一種有效衡量資源庫中資源的收錄與分發(fā)平衡性的新方法,使得用戶可以根據(jù)計算得到的資源平衡性參數(shù),量化的感知出資源庫中資源的收錄與分發(fā)是否平衡,并進而可以根據(jù)該資源平衡性參數(shù)的計算結(jié)果,適應(yīng)性的調(diào)整針對所述資源庫的資源抓取策略。
附圖說明
圖1是本發(fā)明實施例一中的一種資源平衡性的確定方法的流程圖;
圖2是本發(fā)明實施例二中的一種資源平衡性的確定方法的流程圖;
圖3a是本發(fā)明實施例三中的一種資源平衡性的確定方法的流程圖;
圖3b是本發(fā)明實施例的一種具體應(yīng)用場景的示意圖;
圖4是本發(fā)明實施例四中的一種資源平衡性的確定裝置的結(jié)構(gòu)圖;
圖5是本發(fā)明實施例五中的一種計算機設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細地討論示例性實施例之前應(yīng)當(dāng)提到的是,一些示例性實施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新安排。當(dāng)其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
實施例一
圖1為本發(fā)明實施例一提供的一種資源平衡性的確定方法的流程圖,本實施例可適用于對搜索引擎產(chǎn)品資源庫的資源收錄與資源分發(fā)的平衡性進行衡量的情況,該方法可以由本發(fā)明實施例提供的資源平衡性的確定裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實現(xiàn),并一般可集成在搜索引擎產(chǎn)品的服務(wù)器中。如圖1所示,本實施例的方法具體包括:
110、在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量。
在本實施例中,所述資源庫具體是指由網(wǎng)絡(luò)爬蟲抓取的,或者由網(wǎng)站自主上報的網(wǎng)頁資源構(gòu)成的,用于進行數(shù)據(jù)搜索的搜索引擎數(shù)據(jù)庫。其中,所述資源庫中包括的資源可以為文本形式的資源、圖片形式的資源以及多媒體形式的資源,本實施例對此并不進行限制。
所述設(shè)定時間區(qū)間可以以設(shè)定時間單元(例如,小時、天、一周或者一個月等)為單位進行劃分。
所述資源庫針對各個資源站點的資源收錄量,具體是指所述資源庫在該設(shè)定時間區(qū)間內(nèi),對不同資源站點的網(wǎng)頁資源的資源收錄增量;所述資源庫針對各個資源站點的資源分發(fā)量,具體是指在該設(shè)定時間區(qū)間內(nèi),搜索引擎產(chǎn)品的召回結(jié)果中(針對用戶的搜索式返回的搜索結(jié)果),與不同資源站點對應(yīng)的資源數(shù)量。
例如:2017.4.10,資源庫針對資源站點1(www.baidu.com)共新收錄了60個資源,搜索引擎產(chǎn)品共召回了資源庫中資源站點1的30個資源,則在2017.4.10這一天,該資源庫針對該資源站點1的資源收錄量為60,該資源庫針對該資源站點1的資源分發(fā)量為30。
120、應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)。
其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
在本實施例中,發(fā)明人通過創(chuàng)造性的勞動發(fā)現(xiàn):在經(jīng)濟學(xué)領(lǐng)域中的經(jīng)濟(或者說收入)的分配與資源庫中資源的收錄及分發(fā)具有一定的相似性。因此,可以將設(shè)定經(jīng)濟學(xué)參數(shù)應(yīng)用于資源的收錄及分發(fā)領(lǐng)域用于計算資源平衡性參數(shù)。
相應(yīng)的,在本實施例的一個可選的實施方式中,在應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)之前,還可以包括:
預(yù)先建立所述資源庫的資源收錄及分發(fā)過程與經(jīng)濟學(xué)活動之間的映射關(guān)系,并根據(jù)所述映射關(guān)系,選取所述目標(biāo)經(jīng)濟學(xué)參數(shù)。
可選的,可以將所述資源庫的資源收錄及分發(fā)過程與經(jīng)濟學(xué)活動之間建立如下映射關(guān)系:
將所述資源庫映射為整體社會,將所述資源庫中包括的資源站點映射為居民;將所述資源庫中的資源收錄過程映射為收入,將所述資源庫中的資源分發(fā)過程映射為收入的分配;根據(jù)建立的所述映射關(guān)系,選取基尼系數(shù)作為所述目標(biāo)經(jīng)濟學(xué)參數(shù)。
其中,經(jīng)濟學(xué)經(jīng)典指標(biāo)“基尼系數(shù)”的含義是指,在全部居民收入中,用于進行不平均分配的那部分收入所占的比例?;嵯禂?shù)最大為“1”,最小等于“0”。前者表示居民之間的收入分配絕對不平均,即100%的收入被一個單位的人全部占有了;而后者則表示居民之間的收入分配絕對平均,即人與人之間收入完全平等,沒有任何差異。但這兩種情況只是在理論上的絕對化形式,在實際生活中一般不會出現(xiàn)。因此,基尼系數(shù)的實際數(shù)值只能介于0~1之間,基尼系數(shù)越小收入分配越平均,基尼系數(shù)越大收入分配越不平均。
宏觀上,社會全部居民的收入、分配與資源庫中站點資源的抓取入庫、分發(fā)具有很大程度的相似性:
1.資源庫作為資源的容器,可看做基尼系數(shù)中的整體社會;
2.資源站點作為資源的來源,可看做基尼系數(shù)中的居民;
3.入庫資源作為資源庫的內(nèi)容來源,可看做基尼系數(shù)中的收入;
4.資源分發(fā)作為資源庫的向外出口,可看做基尼系數(shù)中的分配;
因此,映射到資源層面的基尼系數(shù)就可以用來檢驗資源庫中資源的收錄及分發(fā)是否平等,基尼系數(shù)的范圍處于0~1之間,基尼系數(shù)越小表示資源的收錄與分發(fā)越平衡,即針對一個資源站點,收錄的資源越多,分發(fā)的資源越多。
當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,鑒于上述映射關(guān)系,還可以選取其他類型的經(jīng)濟學(xué)參數(shù)計算所述資源庫的資源平衡性參數(shù),例如:洛倫茲曲線,庫茲涅茨曲線,以及泰爾系數(shù)等參數(shù),本實施例對此并不進行限制。
本發(fā)明實施例提供了一種資源平衡性的確定方法,通過使用用于衡量經(jīng)濟分配的公平程度的目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用設(shè)定時間區(qū)間內(nèi)資源庫針對各個資源站點的資源收錄量以及資源分發(fā)量,計算用于衡量所述資源庫的資源收錄及分發(fā)的平衡性的資源平衡性參數(shù)的技術(shù)手段,創(chuàng)造性的給出了一種有效衡量資源庫中資源的收錄與分發(fā)平衡性的新方法,使得用戶可以根據(jù)計算得到的資源平衡性參數(shù),量化的感知出資源庫中資源的收錄與分發(fā)是否平衡,并進而可以根據(jù)該資源平衡性參數(shù)的計算結(jié)果,適應(yīng)性的調(diào)整針對所述資源庫的資源抓取策略。
實施例二
圖2為本發(fā)明實施例二提供的一種資源平衡性的確定方法的流程圖,本實施例以上述實施例為基礎(chǔ)進行優(yōu)化,在本實施例中,將應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù),具體優(yōu)化為:將所述資源庫中包括的資源站點按照資源收錄量從小到大的順序進行排序;按照排序結(jié)果,將與各組資源站點分別對應(yīng)的分發(fā)收錄比重進行累加求和,得到第一中間量;按照排序結(jié)果,將與各組資源站點分別對應(yīng)的累積分發(fā)收錄比重進行累加求和,得到第二中間量;根據(jù)所述第一中間量以及所述第二中間量,計算所述資源平衡性參數(shù)。
相應(yīng)的,本發(fā)明實施例的方法包括:
210、在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量。
220、將所述資源庫映射為整體社會,將所述資源庫中包括的資源站點映射為居民;將所述資源庫中的資源收錄過程映射為收入,將所述資源庫中的資源分發(fā)過程映射為收入的分配。
230、根據(jù)所述映射關(guān)系,選取基尼系數(shù)作為所述目標(biāo)經(jīng)濟學(xué)參數(shù)。
其中,所述基尼參數(shù)在經(jīng)濟學(xué)領(lǐng)域中,具體用于衡量收入分配的公平程度。
240、將所述資源庫中包括的資源站點按照資源收錄量從小到大的順序進行排序。
典型的,可以將所述資源庫中包括的n個資源站點按照資源收錄量從小到大的順序進行排序,并將一個資源站點作為一個獨立組,共分為n組。
其中,n值與所述資源庫中包括的資源站點的總數(shù)量相一致。
250、按照排序結(jié)果,將與各組資源站點分別對應(yīng)的分發(fā)收錄比重進行累加求和,得到第一中間量。
其中,所述分發(fā)收錄比重為一個目標(biāo)資源站點的資源分發(fā)量數(shù)占全部資源站點的資源分發(fā)總量的比重與所述目標(biāo)資源站點的資源收錄數(shù)占全部資源站點的資源收錄總數(shù)的比重的乘積。
典型的,可以根據(jù)公式:
其中,yi為第i個資源站點的資源分發(fā)量數(shù)占全部資源站點的資源分發(fā)總量的比重;pi為第i個資源站點的資源收錄數(shù)占全部資源站點的資源收錄總數(shù)的比重。
260、按照排序結(jié)果,將與各組資源站點分別對應(yīng)的累積分發(fā)收錄比重進行累加求和,得到第二中間量。
其中,所述累積分發(fā)收錄比重為累計到一個目標(biāo)資源站點的資源收錄總數(shù)占全部資源站點資源收錄總數(shù)的比重與所述目標(biāo)資源站點的資源收錄數(shù)占全部資源站點的資源收錄總數(shù)的比重的乘積。
典型的,可以根據(jù)公式
其中,
270、根據(jù)所述第一中間量以及所述第二中間量,計算所述資源平衡性參數(shù)。
典型的,可以根據(jù)公式:
本發(fā)明實施例僅針對一種基尼系數(shù)的計算方法給出了相應(yīng)的資源平衡性參數(shù)的計算方法,當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,還可以根據(jù)基尼系數(shù)的其他計算公式,適應(yīng)性的調(diào)整該資源平衡性參數(shù)的計算方法,本實施例對此并不進行限制。
本實施例的技術(shù)方案通過將所述資源庫中包括的資源站點按照資源收錄量從小到大的順序進行排序;根據(jù)預(yù)先建立的資源庫的資源收錄及分發(fā)過程與經(jīng)濟學(xué)活動之間的映射關(guān)系,對基尼系數(shù)的計算公式進行一定的變型處理后,基于該變型后的公式,計算所述資源庫的資源平衡性參數(shù),創(chuàng)造性的給出了一種有效衡量資源庫中資源的收錄與分發(fā)平衡性的新方法,使得用戶可以根據(jù)計算得到的資源平衡性參數(shù),量化的感知出資源庫中資源的收錄與分發(fā)是否平衡,并進而可以根據(jù)該資源平衡性參數(shù)的計算結(jié)果,適應(yīng)性的調(diào)整針對所述資源庫的資源抓取策略。
實施例三
圖3a為本發(fā)明實施例三提供的一種資源平衡性的確定方法的流程圖,本實施例以上述實施例為基礎(chǔ)進行優(yōu)化。在本實施例中,將在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量,具體優(yōu)化為:在設(shè)定時間區(qū)間內(nèi),監(jiān)控所述資源庫,獲取所述資源庫中各個資源站點的資源收錄增量;以資源站點為單位,對與各資源站點的資源收錄增量對應(yīng)的資源內(nèi)容進行去重處理;將去重后的結(jié)果作為所述資源庫針對各個資源站點的資源收錄量;在所述設(shè)定時間區(qū)間內(nèi),解析線上日志,獲取所述資源庫針對各個資源站點的資源分發(fā)量;
相應(yīng)的,在應(yīng)用所述目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)之后,還優(yōu)選包括:根據(jù)所述資源平衡性參數(shù)的計算結(jié)果,調(diào)整針對所述資源庫的資源抓取策略。
相應(yīng)的,本實施例的方法包括:
310、在設(shè)定時間區(qū)間內(nèi),監(jiān)控所述資源庫,獲取所述資源庫中各個資源站點的資源收錄增量。
320、以資源站點為單位,對與各資源站點的資源收錄增量對應(yīng)的資源內(nèi)容進行去重處理。
在本實施例中,考慮到最終獲取的針對各個資源站點的資源收錄增量中,可能由于各種原因,包括了與同一資源站點對應(yīng)的,重復(fù)收錄的資源,例如,通過網(wǎng)絡(luò)爬蟲抓取了資源站點1中的資源1,又獲取了資源站點1自主上報的資源1,因此,在統(tǒng)計資源收錄增量時,重復(fù)記錄了該資源1兩次,因此需要首先對與該資源站點1的資源收錄增量對應(yīng)的資源內(nèi)容進行去重處理,這樣才能保證后續(xù)計算時使用的資源收錄量的準(zhǔn)確性。
330、將去重后的結(jié)果作為所述資源庫針對各個資源站點的資源收錄量。
340、在所述設(shè)定時間區(qū)間內(nèi),解析線上日志,獲取所述資源庫針對各個資源站點的資源分發(fā)量。
其中,所述線上日志,具體可以是與搜索引擎產(chǎn)品基于用戶輸入的搜索式召回的搜索結(jié)果對應(yīng)的日志。通過解析記錄有所述搜索結(jié)果的線上日志,可以進而統(tǒng)計所述設(shè)定時間區(qū)間內(nèi),各個資源站點的資源分發(fā)量。
350、應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)。
其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
360、根據(jù)所述資源平衡性參數(shù)的計算結(jié)果,調(diào)整針對所述資源庫的資源抓取策略。
在本實施例中,在計算得到所述資源平衡性參數(shù)之后,可以根據(jù)對應(yīng)的目標(biāo)經(jīng)濟學(xué)參數(shù)的經(jīng)濟學(xué)含義,對應(yīng)調(diào)整所述資源庫的資源抓取策略。
在本實施例的一個可選的實施方式中,根據(jù)所述資源平衡性參數(shù)的計算結(jié)果,調(diào)整針對所述資源庫的資源抓取策略可以包括:
如果所述資源平衡性參數(shù)的計算結(jié)果不滿足平衡閾值條件,則獲取資源收錄量與資源分發(fā)量之間的差值超過設(shè)定門限的異常資源站點;
根據(jù)所述異常資源站點的資源收錄量與資源分發(fā)量之間的差異類型,對所述異常資源站點的資源抓取策略進行適應(yīng)性調(diào)整。
例如,可以設(shè)定一個平衡閾值條件為:0.4-0.6,如果計算得到的資源平衡性參數(shù)滿足該平衡閾值條件,則可以確定當(dāng)前的資源抓取策略比較合理,資源的收錄及分發(fā)過程比較平衡;如果計算得到的資源平衡性參數(shù)不滿足該平衡閾值條件,則可以確定當(dāng)前的資源抓取策略不太合理,進而可以獲取資源收錄量與資源分發(fā)量之間的差值超過設(shè)定門限(例如,資源收錄量-資源分發(fā)量大于1000,或者資源分發(fā)量-資源收錄量大于1000等)的異常資源站點。
相應(yīng)的,根據(jù)所述異常資源站點的資源收錄量與資源分發(fā)量之間的差異類型(資源收錄量大于資源分發(fā)量,或者資源分發(fā)量大于資源收錄量),對所述異常資源站點的資源抓取策略進行適應(yīng)性調(diào)整(例如:增大或者減小對所述異常資源站點的抓取頻率,和/或抓取深度等)。
本發(fā)明實施例的技術(shù)方案通過在設(shè)定時間區(qū)間內(nèi),監(jiān)控所述資源庫,獲取所述資源庫中各個資源站點的資源收錄增量;以資源站點為單位,對與各資源站點的資源收錄增量對應(yīng)的資源內(nèi)容進行去重處理;將去重后的結(jié)果作為所述資源庫針對各個資源站點的資源收錄量;在所述設(shè)定時間區(qū)間內(nèi),解析線上日志,獲取所述資源庫針對各個資源站點的資源分發(fā)量的技術(shù)手段,可以進一步保證資源收錄量與資源分發(fā)量的計算結(jié)果的準(zhǔn)確性,進而提高了后續(xù)資源平衡性參數(shù)的計算準(zhǔn)確性;同時,通過根據(jù)所述資源平衡性參數(shù)的計算結(jié)果,調(diào)整針對所述資源庫的資源抓取策略的技術(shù)手段,可以達到逐步對資源庫的資源抓取策略進行優(yōu)化的技術(shù)效果,以使所述資源庫的資源收錄以及分發(fā)過程日趨平衡。
具體的,在圖3b是本發(fā)明實施例的一種具體應(yīng)用場景的示意圖。如3b所示,所述方法具體包括下述流程:
1)監(jiān)控資源庫,獲取天級站點(按天進行更新的站點)建庫資源量(也即:資源收錄量)變化詳情;
2)解析線上日志,獲取各站點資源天級分發(fā)詳情;
3)將n個站點按建庫資源數(shù)量從低到高排序,一個站點作為獨立一組,分為n組;
4)采用基尼系數(shù)計算公式計算所述資源平衡性參數(shù)。
5)將4)中計算的基尼系數(shù)變化趨勢與資源抓取入庫、分發(fā)詳情(天級)結(jié)合起來,引導(dǎo)資源抓取方向調(diào)整。
通過上述具體流程,使得計算得到的基尼系數(shù)趨勢對資源抓取方向有一定的指導(dǎo)作用,在此影響下,可以逐漸改善資源的建庫以及資源的分發(fā)等性能。
實施例四
圖4為本發(fā)明實施例四提供的一種資源平衡性的確定裝置的結(jié)構(gòu)示意圖,如圖4所示,所述裝置包括:資源站點信息統(tǒng)計模塊410以及資源平衡性參數(shù)計算模塊420,其中:
資源站點信息統(tǒng)計模塊410,用于在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量。
資源平衡性參數(shù)計算模塊420,用于應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù);
其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
本發(fā)明實施例提供了一種資源平衡性的確定裝置,通過使用用于衡量經(jīng)濟分配的公平程度的目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用設(shè)定時間區(qū)間內(nèi)資源庫針對各個資源站點的資源收錄量以及資源分發(fā)量,計算用于衡量所述資源庫的資源收錄及分發(fā)的平衡性的資源平衡性參數(shù)的技術(shù)手段,創(chuàng)造性的給出了一種有效衡量資源庫中資源的收錄與分發(fā)平衡性的新方法,使得用戶可以根據(jù)計算得到的資源平衡性參數(shù),量化的感知出資源庫中資源的收錄與分發(fā)是否平衡,并進而可以根據(jù)該資源平衡性參數(shù)的計算結(jié)果,適應(yīng)性的調(diào)整針對所述資源庫的資源抓取策略。
在上述各實施例的基礎(chǔ)上,還可以包括,映射及參數(shù)選取模塊,用于:
在應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)之前,預(yù)先建立所述資源庫的資源收錄及分發(fā)過程與經(jīng)濟學(xué)活動之間的映射關(guān)系,并根據(jù)所述映射關(guān)系,選取所述目標(biāo)經(jīng)濟學(xué)參數(shù)。
在上述各實施例的基礎(chǔ)上,所述映射及參數(shù)選取模塊,具體可以用于:
將所述述資源庫的資源收錄及分發(fā)過程與經(jīng)濟學(xué)活動之間建立如下映射關(guān)系:
將所述資源庫映射為整體社會,將所述資源庫中包括的資源站點映射為居民;將所述資源庫中的資源收錄過程映射為收入,將所述資源庫中的資源分發(fā)過程映射為收入的分配;
根據(jù)建立的所述映射關(guān)系,選取基尼系數(shù)作為所述目標(biāo)經(jīng)濟學(xué)參數(shù)。
在上述各實施例的基礎(chǔ)上,所述資源平衡性參數(shù)計算模塊,具體可以用于:
將所述資源庫中包括的資源站點按照資源收錄量從小到大的順序進行排序;
按照排序結(jié)果,將與各組資源站點分別對應(yīng)的分發(fā)收錄比重進行累加求和,得到第一中間量;
其中,所述分發(fā)收錄比重為一個目標(biāo)資源站點的資源分發(fā)量數(shù)占全部資源站點的資源分發(fā)總量的比重與所述目標(biāo)資源站點的資源收錄數(shù)占全部資源站點的資源收錄總數(shù)的比重的乘積;
按照排序結(jié)果,將與各組資源站點分別對應(yīng)的累積分發(fā)收錄比重進行累加求和,得到第二中間量;
其中,所述累積分發(fā)收錄比重為累計到一個目標(biāo)資源站點的資源收錄總數(shù)占全部資源站點資源收錄總數(shù)的比重與所述目標(biāo)資源站點的資源收錄數(shù)占全部資源站點的資源收錄總數(shù)的比重的乘積;
根據(jù)所述第一中間量以及所述第二中間量,計算所述資源平衡性參數(shù)。
在上述各實施例的基礎(chǔ)上,所述資源站點信息統(tǒng)計模塊,具體可以用于:
在設(shè)定時間區(qū)間內(nèi),監(jiān)控所述資源庫,獲取所述資源庫中各個資源站點的資源收錄增量;
以資源站點為單位,對與各資源站點的資源收錄增量對應(yīng)的資源內(nèi)容進行去重處理;
將去重后的結(jié)果作為所述資源庫針對各個資源站點的資源收錄量;
在所述設(shè)定時間區(qū)間內(nèi),解析線上日志,獲取所述資源庫針對各個資源站點的資源分發(fā)量。
在上述各實施例的基礎(chǔ)上,還可以包括,抓取策略調(diào)整模塊,用于:
在應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù)之后,根據(jù)所述資源平衡性參數(shù)的計算結(jié)果,調(diào)整針對所述資源庫的資源抓取策略。
在上述各實施例的基礎(chǔ)上,所述抓取策略調(diào)整模塊,具體可以用于:
如果所述資源平衡性參數(shù)的計算結(jié)果不滿足平衡閾值條件,則獲取資源收錄量與資源分發(fā)量之間的差值超過設(shè)定門限的異常資源站點;
根據(jù)所述異常資源站點的資源收錄量與資源分發(fā)量之間的差異類型,對所述異常資源站點的資源抓取策略進行適應(yīng)性調(diào)整。
上述資源平衡性的確定裝置可執(zhí)行本發(fā)明任意實施例所提供的資源平衡性的確定方法,具備執(zhí)行的資源平衡性的確定方法相應(yīng)的功能模塊和有益效果。
實施例五
圖5為本發(fā)明實施例五提供的一種計算機設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機設(shè)備12的框圖。圖5顯示的計算機設(shè)備12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖5所示,計算機設(shè)備12以通用計算設(shè)備的形式表現(xiàn)。計算機設(shè)備12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機設(shè)備12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存取存儲器(ram)30和/或高速緩存存儲器32。計算機設(shè)備12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
計算機設(shè)備12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機設(shè)備12交互的設(shè)備通信,和/或與使得該計算機設(shè)備12能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進行。并且,計算機設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖5中未示出,可以結(jié)合計算機設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
處理單元16通過運行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實現(xiàn)本發(fā)明實施例所提供的資源平衡性的確定方法。
也即,所述處理單元執(zhí)行所述程序時實現(xiàn):在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量;應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù);其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
實施例六
本發(fā)明實施例六提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本申請所有發(fā)明實施例提供的資源平衡性的確定方法:
也即,該程序被處理器執(zhí)行時實現(xiàn):在設(shè)定時間區(qū)間內(nèi),統(tǒng)計資源庫針對各個資源站點的資源收錄量,以及所述資源庫針對各個資源站點的資源分發(fā)量;應(yīng)用目標(biāo)經(jīng)濟學(xué)參數(shù)的計算方法,使用所述資源收錄量以及所述資源分發(fā)量,計算所述資源庫的資源平衡性參數(shù);其中,所述目標(biāo)經(jīng)濟學(xué)參數(shù)用于衡量經(jīng)濟分配的公平程度,所述資源平衡性參數(shù)用于衡量所述資源庫的資源收錄及分發(fā)的平衡性。
可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。