本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)獲取方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的普及以及網(wǎng)民數(shù)量的激增,網(wǎng)絡(luò)新聞作為一種全新的相對(duì)獨(dú)立的新聞傳播模式異軍突起,已經(jīng)成為人們獲取信息的又一重要途徑。其中,網(wǎng)絡(luò)新聞是指?jìng)魇芑诨ヂ?lián)網(wǎng)的新聞信息。而對(duì)于網(wǎng)絡(luò)新聞的影響力研究逐漸成為關(guān)注的熱點(diǎn),通過(guò)對(duì)網(wǎng)絡(luò)新聞進(jìn)行影響力計(jì)算,為新聞的真實(shí)度判別提供相關(guān)依據(jù),相較于其它大眾媒體,網(wǎng)絡(luò)媒體表現(xiàn)出更多的復(fù)雜性,這種復(fù)雜性的生成既源于媒介技術(shù),也源于網(wǎng)絡(luò)的空間特性。
目前,通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為判斷新聞?dòng)绊懥Φ闹笜?biāo),但是網(wǎng)頁(yè)新聞的回復(fù)率和轉(zhuǎn)載率與新聞出現(xiàn)的時(shí)間成正比關(guān)系,并在一段時(shí)間后逐漸停止,因此這種計(jì)算方法對(duì)于評(píng)價(jià)實(shí)時(shí)新聞的影響力是不準(zhǔn)確的,從而現(xiàn)有獲取的網(wǎng)頁(yè)新聞?dòng)绊懥Φ臏?zhǔn)確率低。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明,以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的數(shù)據(jù)獲取方法及裝置。
為達(dá)到上述目的,本發(fā)明主要提供如下技術(shù)方案:
一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)獲取方法,該方法包括:
獲取網(wǎng)頁(yè)新聞的來(lái)源信息;
從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值;
將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響 的數(shù)據(jù)。
另一方面,本發(fā)明實(shí)施例還提供一種數(shù)據(jù)獲取裝置,該裝置包括:
獲取單元,用于獲取網(wǎng)頁(yè)新聞的來(lái)源信息;
提取單元,用于從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值;
確定單元,用于將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供了一種數(shù)據(jù)獲取方法及裝置,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。與目前通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為評(píng)價(jià)網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)指標(biāo)相比,本發(fā)明實(shí)施例首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)絡(luò)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)獲取方法流程圖;
圖2為本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)獲取方法流程圖;
圖3為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)獲取裝置的組成框圖;
圖4為本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)獲取裝置的組成框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
為使本發(fā)明技術(shù)方案的優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作詳細(xì)說(shuō)明。
本發(fā)明實(shí)施例提供了一種數(shù)據(jù)獲取方法,如圖1所示,所述方法包括:
S101、獲取網(wǎng)頁(yè)新聞的來(lái)源信息。
其中,網(wǎng)絡(luò)新聞的來(lái)源信息用于表示網(wǎng)絡(luò)新聞具體隸屬于哪個(gè)的網(wǎng)站,例如,網(wǎng)絡(luò)當(dāng)中存在一篇關(guān)于“十八屆五中全會(huì)明日召開(kāi)”的新聞,獲取到該網(wǎng)頁(yè)新聞對(duì)應(yīng)的來(lái)源信息為中央政府網(wǎng)站。
需要說(shuō)明的是,獲取網(wǎng)頁(yè)新聞的來(lái)源信息具體過(guò)程如下:首先獲取該網(wǎng)頁(yè)新聞,然后通過(guò)爬蟲(chóng)爬取全網(wǎng)數(shù)據(jù)判斷網(wǎng)絡(luò)中是否存在與該網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè),若存在則需要從這些相同的網(wǎng)頁(yè)中查找網(wǎng)頁(yè)新聞最初來(lái)源的網(wǎng)站,然后從最初來(lái)源的網(wǎng)站中獲取網(wǎng)頁(yè)新聞的來(lái)源信息;若不存在則直接從所述網(wǎng)頁(yè)新聞中獲取來(lái)源信息。
S102、從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息。
其中,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中的來(lái)源信息對(duì)應(yīng)的權(quán)重值可以根據(jù)實(shí)際網(wǎng)站信用度等級(jí)進(jìn)行劃分,也可以根據(jù)網(wǎng)站的標(biāo)重等級(jí)進(jìn)行劃分,還可以綜合標(biāo)重等級(jí)和網(wǎng)站信用等級(jí)進(jìn)行劃分,本發(fā)明實(shí)施例不做具體限定。所述權(quán)重值用于表示網(wǎng)頁(yè)新聞對(duì)應(yīng)的影響力,權(quán)重值越大表明網(wǎng)頁(yè)新聞的影響力越高。
這里所說(shuō)的標(biāo)重等級(jí)可以是指官方公布的政府部門(mén)級(jí)別,也可以是各 個(gè)網(wǎng)站公布的主網(wǎng)站子網(wǎng)站之間的級(jí)別等。對(duì)此本發(fā)明不做任何限定。
例如,預(yù)置網(wǎng)頁(yè)庫(kù)中按照網(wǎng)站的標(biāo)重級(jí)別進(jìn)行劃分,劃分的來(lái)源信息和與來(lái)源信息對(duì)應(yīng)的權(quán)重值具體比例可以如下所示:1級(jí)中央標(biāo)重網(wǎng)站50%;2級(jí)地方標(biāo)重網(wǎng)站30%;2.1級(jí)省級(jí)標(biāo)重網(wǎng)站15%;2.2級(jí)市級(jí)標(biāo)重網(wǎng)站10%;2.3級(jí)縣級(jí)標(biāo)重網(wǎng)站5%;3級(jí)新聞網(wǎng)站20%;3.1級(jí)省級(jí)新聞網(wǎng)10%;3.2級(jí)市級(jí)新聞網(wǎng)6%;3.3級(jí)縣級(jí)新聞網(wǎng)4%。
S103、將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
對(duì)于本發(fā)明實(shí)施例,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)絡(luò)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
本發(fā)明實(shí)施例提供了一種數(shù)據(jù)獲取方法,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。與目前通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為評(píng)價(jià)網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)指標(biāo)相比,本發(fā)明實(shí)施例首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
本發(fā)明實(shí)施例提供了另一種數(shù)據(jù)獲取方法,如圖2所示,所述方法包括:
S201、獲取網(wǎng)頁(yè)新聞的來(lái)源信息。
其中,網(wǎng)絡(luò)新聞的來(lái)源信息用于表示網(wǎng)絡(luò)新聞具體隸屬于哪個(gè)的網(wǎng)站, 例如,網(wǎng)絡(luò)當(dāng)中存在一篇關(guān)于“沈陽(yáng)大東區(qū)創(chuàng)業(yè)創(chuàng)新基地首批入駐42家企業(yè)”的新聞,獲取到該網(wǎng)頁(yè)新聞對(duì)應(yīng)的來(lái)源信息為遼寧省標(biāo)重網(wǎng)站。
對(duì)于本發(fā)明實(shí)施例,步驟S201包括:獲取所述網(wǎng)頁(yè)新聞;通過(guò)爬蟲(chóng)爬取全網(wǎng)數(shù)據(jù),判斷是否存在與所述網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè);若不存在,則從所述網(wǎng)頁(yè)新聞中獲取所述來(lái)源信息。
在本發(fā)明實(shí)施例,所述判斷是否存在與所述網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè)之后,所述方法還包括:若存在,則從所述相同的網(wǎng)頁(yè)中提取起始來(lái)源的網(wǎng)頁(yè)新聞;從所述起始來(lái)源的網(wǎng)頁(yè)新聞中獲取所述來(lái)源信息。對(duì)于本發(fā)明實(shí)施例,首先獲取該網(wǎng)頁(yè)新聞,然后通過(guò)爬蟲(chóng)爬取全網(wǎng)數(shù)據(jù)判斷網(wǎng)絡(luò)中是否存在與該網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè),若存在則需要從這些相同的網(wǎng)頁(yè)中查找網(wǎng)頁(yè)新聞最初來(lái)源的網(wǎng)站,然后從最初來(lái)源的網(wǎng)站中獲取網(wǎng)頁(yè)新聞的來(lái)源信息;若不存在則直接從所述網(wǎng)頁(yè)新聞中獲取來(lái)源信息。
需要說(shuō)明的是,從所述相同的網(wǎng)頁(yè)中提取起始來(lái)源的網(wǎng)頁(yè)新聞,可以通過(guò)以下幾個(gè)參數(shù)進(jìn)行提取,網(wǎng)頁(yè)P(yáng)R值,網(wǎng)頁(yè)P(yáng)R值越高被認(rèn)為是原始版本的可能性就越大;網(wǎng)頁(yè)第一次被收錄的時(shí)間,網(wǎng)頁(yè)被搜索引擎收錄的時(shí)候越早,相比后發(fā)現(xiàn)的相同內(nèi)容的網(wǎng)頁(yè)來(lái)說(shuō),被當(dāng)作原始出處的可能性就越大;域名注冊(cè)時(shí)間,越老的域名上面的網(wǎng)頁(yè)被當(dāng)成原始出處的可能性也越大;網(wǎng)站的權(quán)威度等,本發(fā)明實(shí)施例不做具體限定。
S202、判斷是否能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值。
在本發(fā)明實(shí)施例中,通過(guò)判斷是否能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,可以提高獲取網(wǎng)頁(yè)新聞的權(quán)重值的效率。若能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則直接將歷史權(quán)重值確定為所述網(wǎng)頁(yè)新聞的權(quán)重值,從而無(wú)需再通過(guò)查找預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)的方式獲取與所述網(wǎng)頁(yè)信息對(duì)應(yīng)的權(quán)重值,進(jìn)而提高了獲取網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)效率。
S203a、若能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則將所述提取到歷史權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
S203b、若不能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息。
其中,步驟S203b為步驟S203a的并列步驟,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中 存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中的來(lái)源信息對(duì)應(yīng)的權(quán)重值可以根據(jù)實(shí)際網(wǎng)站信用度等級(jí)進(jìn)行劃分,也可以根據(jù)網(wǎng)站的標(biāo)重等級(jí)進(jìn)行劃分,還可以綜合標(biāo)重等級(jí)和網(wǎng)站信用等級(jí)進(jìn)行劃分,本發(fā)明實(shí)施例不做具體限定。所述權(quán)重值用于表示網(wǎng)頁(yè)新聞對(duì)應(yīng)的影響力,權(quán)重值越大表明網(wǎng)頁(yè)新聞的影響力越高。
對(duì)于本發(fā)明實(shí)施例,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中的來(lái)源信息按照信息來(lái)源的標(biāo)重級(jí)別配置對(duì)應(yīng)的權(quán)重值。例如,預(yù)置網(wǎng)頁(yè)庫(kù)中按照網(wǎng)站的標(biāo)重級(jí)別進(jìn)行劃分,劃分的來(lái)源信息和與來(lái)源信息對(duì)應(yīng)的權(quán)重值具體比例可以如下所示:1級(jí)中央政府網(wǎng)站50%;2級(jí)地方政府網(wǎng)站30%;2.1級(jí)省級(jí)政府網(wǎng)站15%;2.2級(jí)市級(jí)政府網(wǎng)站10%;2.3級(jí)縣級(jí)政府網(wǎng)站5%;3級(jí)新聞網(wǎng)站20%;3.1級(jí)省級(jí)新聞網(wǎng)10%;3.2級(jí)市級(jí)新聞網(wǎng)6%;3.3級(jí)縣級(jí)新聞網(wǎng)4%。
S204b、將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
對(duì)于本發(fā)明實(shí)施例,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后判斷是否能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,若能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則將所述提取到歷史權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù);若不能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。通過(guò)將網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率及效率。
本發(fā)明實(shí)施例提供了另一種數(shù)據(jù)獲取方法,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。與目前通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為評(píng)價(jià)網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)指標(biāo)相比,本發(fā)明實(shí)施例首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源 信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
進(jìn)一步地,本發(fā)明實(shí)施例提供一種數(shù)據(jù)獲取裝置,如圖3所示,所述裝置包括:獲取單元31、提取單元32、確定單元33。
獲取單元31,用于獲取網(wǎng)頁(yè)新聞的來(lái)源信息。
提取單元32,用于從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值。
確定單元33,用于將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
需要說(shuō)明的是,本發(fā)明實(shí)施例提供的一種數(shù)據(jù)獲取裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖1所示方法的對(duì)應(yīng)描述,在此不再贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
本發(fā)明實(shí)施例提供了一種數(shù)據(jù)獲取裝置,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。與目前通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為評(píng)價(jià)網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)指標(biāo)相比,本發(fā)明實(shí)施例首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
進(jìn)一步地,本發(fā)明實(shí)施例提供另一種數(shù)據(jù)獲取裝置,如圖4所示,所述裝置包括:獲取單元41、提取單元42、確定單元43。
獲取單元41,用于獲取網(wǎng)頁(yè)新聞的來(lái)源信息。
提取單元42,用于從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值。
確定單元43,用于將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
進(jìn)一步地,所述獲取單元41包括:
獲取模塊411,用于獲取所述網(wǎng)頁(yè)新聞。
判斷模塊412,用于通過(guò)爬蟲(chóng)爬取全網(wǎng)數(shù)據(jù),判斷是否存在與所述網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè)。
所述獲取模塊411,還用于若不存在與所述網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè),則從所述網(wǎng)頁(yè)新聞中獲取所述來(lái)源信息。
進(jìn)一步地,所述獲取單元41,還包括提取模塊412;
所述提取模塊412,用于若存在與所述網(wǎng)頁(yè)新聞相同的網(wǎng)頁(yè),則從所述相同的網(wǎng)頁(yè)中提取起始來(lái)源的網(wǎng)頁(yè)新聞。
所述獲取模塊411,具體用于從所述起始來(lái)源的網(wǎng)頁(yè)新聞中獲取所述來(lái)源信息。
進(jìn)一步地,所述裝置還包括:判斷單元44;
所述判斷單元44,用于判斷是否能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值。
所述確定單元43,具體用于若能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則將所述提取的歷史權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
所述提取單元42,具體用于若不能夠從所述網(wǎng)頁(yè)新聞中提取到歷史權(quán)重值,則從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息。
對(duì)于本發(fā)明實(shí)施例,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中的來(lái)源信息按照信息來(lái)源的標(biāo)重級(jí)別配置對(duì)應(yīng)的權(quán)重值。
需要說(shuō)明的是,本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)獲取裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖2所示方法的對(duì)應(yīng)描述,在此不再贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
本發(fā)明實(shí)施例提供了另一種數(shù)據(jù)獲取裝置,首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別對(duì)應(yīng)的權(quán)重值,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。與目前通過(guò)網(wǎng)頁(yè)新聞的轉(zhuǎn)載率和回復(fù)率作為評(píng)價(jià)網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)指標(biāo)相比,本發(fā)明實(shí)施例首先獲取網(wǎng)頁(yè)新聞的來(lái)源信息,然后從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,最后將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù),本發(fā)明通過(guò)將網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)評(píng)價(jià)轉(zhuǎn)化為對(duì)新聞來(lái)源網(wǎng)頁(yè)的評(píng)價(jià),從而能夠?qū)σ恍└咿D(zhuǎn)發(fā)率和高評(píng)論的虛假新聞進(jìn)行識(shí)別,并實(shí)時(shí)的對(duì)網(wǎng)絡(luò)新聞的影響力進(jìn)行判別,進(jìn)而提高了網(wǎng)頁(yè)新聞?dòng)绊懥Λ@取的準(zhǔn)確率。
所述網(wǎng)頁(yè)注冊(cè)裝置包括處理器和存儲(chǔ)器,上述獲取單元、提取單元、確定單元和判斷單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)提高網(wǎng)頁(yè)新聞?dòng)绊懥Φ臄?shù)據(jù)準(zhǔn)確率。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取網(wǎng)頁(yè)新聞的來(lái)源信息;從預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中,提取與所述網(wǎng)頁(yè)新聞的來(lái)源信息對(duì)應(yīng)的來(lái)源信息,所述預(yù)置網(wǎng)頁(yè)來(lái)源庫(kù)中存儲(chǔ)有多個(gè)所述來(lái)源信息,和與所述來(lái)源信息分別 對(duì)應(yīng)的權(quán)重值;將所述提取的來(lái)源信息對(duì)應(yīng)的權(quán)重值確定為對(duì)所述網(wǎng)頁(yè)新聞具有影響的數(shù)據(jù)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。