本發(fā)明屬于信源評級技術(shù)領(lǐng)域,具體涉及一種信源重要度的評級方法及評級系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,散布在網(wǎng)絡(luò)中的網(wǎng)站數(shù)量越來越多,每個網(wǎng)站涉及到的信源(即:信息版塊)也越來越多。各個信源可以被劃分到對應(yīng)的行業(yè)領(lǐng)域,由于信源的重要度不同,因此,每一類信源在所屬行業(yè)領(lǐng)域內(nèi)發(fā)揮的作用不同,其對行業(yè)的貢獻(xiàn)度也不同,在很多場合,人們更愿意優(yōu)先使用重要度高的信源。因此,如何對行業(yè)內(nèi)信源進(jìn)行重要度評級,已成為大家所廣泛關(guān)注的研究問題。
目前,現(xiàn)有技術(shù)尚未出現(xiàn)一種客觀、科學(xué)合理、有效實(shí)用的信源重要度評級方法。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種信源重要度的評級方法及評級系統(tǒng),可有效解決上述問題。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明提供一種信源重要度的評級方法,包括以下步驟:
步驟1,計算信源所屬網(wǎng)站的網(wǎng)站重要度值W1;
步驟2,計算信源在所屬行業(yè)的行業(yè)重要度值W2;
步驟3,預(yù)設(shè)定網(wǎng)站重要度權(quán)重值C1和行業(yè)重要度權(quán)重值C2;根據(jù)下式計算得到信源重要度值M:
信源重要度值M=網(wǎng)站重要度值W1*網(wǎng)站重要度權(quán)重值C1+行業(yè)重要度值W2*行業(yè)重要度權(quán)重值C2;
步驟4,根據(jù)信源重要度值M對信源進(jìn)行重要度評級,并輸出信源重要度評級結(jié)果。
優(yōu)選的,步驟1具體包括以下步驟:
步驟1.1,對于被評級的信源,獲得信源所屬網(wǎng)站的網(wǎng)站URL地址;
步驟1.2,調(diào)用PR接口程序,通過所述PR接口程序?qū)W(wǎng)站URL地址進(jìn)行分析,進(jìn)而獲得網(wǎng)站PR值;
其中,PR值全稱為PageRank,用來表現(xiàn)網(wǎng)頁等級的一個標(biāo)準(zhǔn),級別分別是0到10,是評測一個網(wǎng)頁重要度的一種方法。利用PR值可以基本確定該信源在整個互聯(lián)網(wǎng)中的重要程度。
步驟1.3,網(wǎng)站PR值即為網(wǎng)站重要度值W1,由此計算得到網(wǎng)站重要度值W1。
優(yōu)選的,步驟2具體包括以下步驟:
步驟2.1,對于每一個行業(yè)領(lǐng)域,選取若干個能夠代表行業(yè)特征的關(guān)鍵詞組成詞庫,并依據(jù)關(guān)鍵詞對行業(yè)特征的代表程度,標(biāo)注每個關(guān)鍵詞的權(quán)重值;
步驟2.2,獲取被評級的信源最近發(fā)表的文章內(nèi)容;每個文章內(nèi)容包括文章標(biāo)題和文章正文;以步驟2.1得到的同行業(yè)領(lǐng)域的關(guān)鍵詞作為分詞標(biāo)準(zhǔn),分別對文章標(biāo)題和文章正文進(jìn)行分詞處理,統(tǒng)計命中的關(guān)鍵詞數(shù)量;根據(jù)下式計算得到行業(yè)重要度值W2:
行業(yè)重要度值W2=命中的關(guān)鍵詞權(quán)重之和/命中的關(guān)鍵詞數(shù)量。
本發(fā)明還提供一種信源重要度的評級系統(tǒng),包括:
輸入模塊,用于輸入待評級信源的URL地址;
網(wǎng)站重要度值計算模塊,用于根據(jù)所述輸入模塊輸入的URL地址,計算得到信源所屬網(wǎng)站的網(wǎng)站重要度值W1;
行業(yè)重要度值計算模塊,用于根據(jù)所述輸入模塊輸入的URL地址,計算得到信源在所屬行業(yè)的行業(yè)重要度值W2;
信源重要度值計算模塊,用于讀取到預(yù)設(shè)置的網(wǎng)站重要度權(quán)重值C1和行業(yè)重要度權(quán)重值C2,然后讀取到所述網(wǎng)站重要度值計算模塊計算得到的網(wǎng)站重要度值W1、以及讀取到行業(yè)重要度值計算模塊計算得到的行業(yè)重要度值W2;然后根據(jù)下式計算得到信源重要度值M:
信源重要度值M=網(wǎng)站重要度值W1*網(wǎng)站重要度權(quán)重值C1+行業(yè)重要度值W2*行業(yè)重要度權(quán)重值C2;
信源重要度評級模塊,用于根據(jù)信源重要度值計算模塊計算得到的信源重要度值M,對信源進(jìn)行重要度評級,并輸出信源重要度評級結(jié)果。
優(yōu)選的,所述網(wǎng)站重要度值計算模塊包括:
第1讀取模塊,用于讀取到所述輸入模塊輸入的待評級信源的URL地址;
第1發(fā)送模塊,用于將所述URL地址發(fā)送給所調(diào)用的PR接口程序,通過所述PR接口程序?qū)W(wǎng)站URL地址進(jìn)行分析,進(jìn)而獲得網(wǎng)站PR值;
第1接收模塊,用于接收所述PR接口程序返回的網(wǎng)站PR值,網(wǎng)站PR值即為網(wǎng)站重要度值W1。
優(yōu)選的,所述行業(yè)重要度值計算模塊包括:
第2讀取模塊,用于讀取到所述輸入模塊輸入的待評級信源的URL地址;
文章內(nèi)容獲取模塊,用于根據(jù)所述URL地址,獲取被評級的信源最近發(fā)表的文章內(nèi)容;
第3讀取模塊,用于讀取所述信源所屬行業(yè)對應(yīng)的關(guān)鍵詞詞庫;其中,所述關(guān)鍵詞詞庫存儲若干個能夠代表行業(yè)特征的關(guān)鍵詞,并且,依據(jù)關(guān)鍵詞對行業(yè)特征的代表程度,每個關(guān)鍵詞均標(biāo)注有權(quán)重值;
分詞模塊,用于以所述第3讀取模塊讀取到的同行業(yè)領(lǐng)域的關(guān)鍵詞作為分詞標(biāo)準(zhǔn),對所述文章內(nèi)容獲取模塊所獲取到的文章內(nèi)容進(jìn)行分詞處理,得到若干個分詞;
統(tǒng)計計算模塊,用于對所述分詞模塊分詞得到的詞語進(jìn)行統(tǒng)計分析,統(tǒng)計命中的關(guān)鍵詞數(shù)量;根據(jù)下式計算得到行業(yè)重要度值W2:
行業(yè)重要度值W2=命中的關(guān)鍵詞權(quán)重之和/命中的關(guān)鍵詞數(shù)量。
本發(fā)明提供的信源重要度的評級方法及評級系統(tǒng)具有以下優(yōu)點(diǎn):
本發(fā)明能夠?qū)π旁催M(jìn)行客觀、科學(xué)合理、有效實(shí)用的信源重要度評級。
附圖說明
圖1為本發(fā)明提供的信源重要度的評級方法的整體流程圖;
圖2為本發(fā)明提供的信源所屬網(wǎng)站的網(wǎng)站重要度值的獲取方式流程圖;
圖3為本發(fā)明提供的信源在所屬行業(yè)的行業(yè)重要度值的獲取方式流程圖。
具體實(shí)施方式
為了使本發(fā)明所解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
信源重要度評級,顧名思義,就是將信源依據(jù)其重要度劃分為若干個等級,例如,0-9共10個等級,其中,等級0代表信源最不重要,等級9代表信源非常重要。如何客觀完整的表達(dá)出信源的重要度是信源評級的重點(diǎn)。
結(jié)合圖1,本發(fā)明提供一種信源重要度的評級方法,包括以下步驟:
步驟1,計算信源所屬網(wǎng)站的網(wǎng)站重要度值W1;
本步驟參考圖2,具體為:
步驟1.1,對于被評級的信源,獲得信源所屬網(wǎng)站的網(wǎng)站URL地址;
步驟1.2,調(diào)用PR接口程序,通過所述PR接口程序?qū)W(wǎng)站URL地址進(jìn)行分析,進(jìn)而獲得網(wǎng)站PR值;實(shí)際中,PR值取值范圍在0-10范圍內(nèi)的整數(shù)。
步驟1.3,網(wǎng)站PR值即為網(wǎng)站重要度值W1,由此計算得到網(wǎng)站重要度值W1。
步驟2,計算信源在所屬行業(yè)的行業(yè)重要度值W2;
本步驟參考圖3,具體為:
步驟2.1,對于每一個行業(yè)領(lǐng)域,選取若干個能夠代表行業(yè)特征的關(guān)鍵詞組成詞庫,并依據(jù)關(guān)鍵詞對行業(yè)特征的代表程度,標(biāo)注每個關(guān)鍵詞的權(quán)重值;本步驟中,主要依靠行業(yè)領(lǐng)域?qū)<彝瓿申P(guān)鍵詞的選取和關(guān)鍵詞權(quán)重值的標(biāo)注。另外,標(biāo)注的權(quán)重只要是符合規(guī)律的正整數(shù)即可,系統(tǒng)內(nèi)置方法會將其降維到0-9的權(quán)重值,并將其保存進(jìn)HashMap結(jié)構(gòu)中。格式為“金融100”即表示權(quán)重為100的“金融”關(guān)鍵詞。
步驟2.2,獲取被評級的信源最近發(fā)表的文章內(nèi)容;每個文章內(nèi)容包括文章標(biāo)題和文章正文;以步驟2.1得到的同行業(yè)領(lǐng)域的關(guān)鍵詞作為分詞標(biāo)準(zhǔn),分別對文章標(biāo)題和文章正文進(jìn)行分詞處理,這樣能確保行業(yè)內(nèi)關(guān)鍵詞不會被分割;統(tǒng)計命中的關(guān)鍵詞數(shù)量;根據(jù)下式計算得到行業(yè)重要度值W2:
行業(yè)重要度值W2=命中的關(guān)鍵詞權(quán)重之和/命中的關(guān)鍵詞數(shù)量。
實(shí)際中,行業(yè)重要度值的取值范圍是0-10的整數(shù)。
步驟3,預(yù)設(shè)定網(wǎng)站重要度權(quán)重值C1和行業(yè)重要度權(quán)重值C2;根據(jù)下式計算得到信源重要度值M:
信源重要度值M=網(wǎng)站重要度值W1*網(wǎng)站重要度權(quán)重值C1+行業(yè)重要度值W2*行業(yè)重要度權(quán)重值C2;
依據(jù)此式計算得到的信源重要度值,也是0-10的整數(shù)。
步驟4,根據(jù)信源重要度值M對信源進(jìn)行重要度評級,并輸出信源重要度評級結(jié)果。
本發(fā)明還提供一種信源重要度的評級系統(tǒng),包括:
(1)輸入模塊
輸入模塊用于輸入待評級信源的URL地址;
(2)網(wǎng)站重要度值計算模塊
網(wǎng)站重要度值計算模塊用于根據(jù)所述輸入模塊輸入的URL地址,計算得到信源所屬網(wǎng)站的網(wǎng)站重要度值W1;
網(wǎng)站重要度值計算模塊包括:
第1讀取模塊,用于讀取到所述輸入模塊輸入的待評級信源的URL地址;
第1發(fā)送模塊,用于將所述URL地址發(fā)送給所調(diào)用的PR接口程序,通過所述PR接口程序?qū)W(wǎng)站URL地址進(jìn)行分析,進(jìn)而獲得網(wǎng)站PR值;
第1接收模塊,用于接收所述PR接口程序返回的網(wǎng)站PR值,網(wǎng)站PR值即為網(wǎng)站重要度值W1。
(3)行業(yè)重要度值計算模塊
行業(yè)重要度值計算模塊用于根據(jù)所述輸入模塊輸入的URL地址,計算得到信源在所屬行業(yè)的行業(yè)重要度值W2;
行業(yè)重要度值計算模塊包括:
第2讀取模塊,用于讀取到所述輸入模塊輸入的待評級信源的URL地址;
文章內(nèi)容獲取模塊,用于根據(jù)所述URL地址,獲取被評級的信源最近發(fā)表的文章內(nèi)容;
第3讀取模塊,用于讀取所述信源所屬行業(yè)對應(yīng)的關(guān)鍵詞詞庫;其中,所述關(guān)鍵詞詞庫存儲若干個能夠代表行業(yè)特征的關(guān)鍵詞,并且,依據(jù)關(guān)鍵詞對行業(yè)特征的代表程度,每個關(guān)鍵詞均標(biāo)注有權(quán)重值;
分詞模塊,用于以所述第3讀取模塊讀取到的同行業(yè)領(lǐng)域的關(guān)鍵詞作為分詞標(biāo)準(zhǔn),對所述文章內(nèi)容獲取模塊所獲取到的文章內(nèi)容進(jìn)行分詞處理,得到若干個分詞;
統(tǒng)計計算模塊,用于對所述分詞模塊分詞得到的詞語進(jìn)行統(tǒng)計分析,統(tǒng)計命中的關(guān)鍵詞數(shù)量;根據(jù)下式計算得到行業(yè)重要度值W2:
行業(yè)重要度值W2=命中的關(guān)鍵詞權(quán)重之和/命中的關(guān)鍵詞數(shù)量。
(4)信源重要度值計算模塊
信源重要度值計算模塊用于讀取到預(yù)設(shè)置的網(wǎng)站重要度權(quán)重值C1和行業(yè)重要度權(quán)重值C2,然后讀取到所述網(wǎng)站重要度值計算模塊計算得到的網(wǎng)站重要度值W1、以及讀取到行業(yè)重要度值計算模塊計算得到的行業(yè)重要度值W2;然后根據(jù)下式計算得到信源重要度值M:
信源重要度值M=網(wǎng)站重要度值W1*網(wǎng)站重要度權(quán)重值C1+行業(yè)重要度值W2*行業(yè)重要度權(quán)重值C2;
(5)信源重要度評級模塊
信源重要度評級模塊用于根據(jù)信源重要度值計算模塊計算得到的信源重要度值M,對信源進(jìn)行重要度評級,并輸出信源重要度評級結(jié)果。
由此可見,本發(fā)明提供的信源重要度的評級方法及評級系統(tǒng),主要采用兩個指標(biāo)進(jìn)行信源評級,一個是信源所屬網(wǎng)站的重要度,信源所屬網(wǎng)站的重要度可通過調(diào)用特定的PR接口程序獲?。涣硪粋€指標(biāo)是信源在所屬行業(yè)的行業(yè)重要度。此指標(biāo)需要人工整理出對該行業(yè)有貢獻(xiàn)度的關(guān)鍵詞,并依據(jù)貢獻(xiàn)度大小為關(guān)鍵詞標(biāo)注權(quán)值,然后對信源發(fā)表的文章進(jìn)行分詞處理,篩選出關(guān)鍵詞并按照關(guān)鍵詞權(quán)重給予其信源權(quán)重。最后綜合得到信源的整體評級。
本發(fā)明提供的信源重要度的評級方法及評級系統(tǒng),具有以下優(yōu)點(diǎn):
(1)對信源評級提供一種計算框架,該結(jié)構(gòu)可以靈活擴(kuò)展,實(shí)現(xiàn)具體的信源評級任務(wù)。
(2)將信源網(wǎng)站和所屬行業(yè)有效結(jié)合起來,可以客觀全面、科學(xué)合理、有效實(shí)用的對信源重要度進(jìn)行評級。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視本發(fā)明的保護(hù)范圍。