1.網(wǎng)頁數(shù)據(jù)采集裝置,其特征在于:包括殼體,殼體內(nèi)設(shè)有電子芯片,電子芯片包括端口模塊、抽取模塊、虛擬模塊和存儲(chǔ)模塊;端口模塊包括連接單元、輸入單元和輸出單元;虛擬模塊包括虛擬發(fā)生子模塊和虛擬空間子模塊;虛擬空間子模塊包括第一確定單元、第二確定單元、刪減單元和確定采集單元;存儲(chǔ)模塊包括存儲(chǔ)單元和壓縮單元;連接單元與輸入單元間通過電信號(hào)雙向連接,輸入單元與抽取模塊間通過電信號(hào)雙向連接,抽取模塊通過電信號(hào)單向連接第一確定單元,第一確定單元通過電信號(hào)單向連接第二確定單元,第二確定單元與刪減單元間通過電信號(hào)雙向連接,第二確定單元通過電信號(hào)單向連接存儲(chǔ)單元,存儲(chǔ)單元與壓縮單元間通過電信號(hào)雙向連接,存儲(chǔ)單元通過電信號(hào)雙向連接輸出單元和單向連接第一確定單元;
抽取模塊,用于根據(jù)采集到的列表頁對(duì)應(yīng)網(wǎng)頁的內(nèi)容,抽取每個(gè)內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符信息;
連接單元,用于與計(jì)算機(jī)進(jìn)行連接;
輸入單元,用于將網(wǎng)頁傳輸?shù)匠槿∧K;
輸出單元,用于將標(biāo)識(shí)信息傳輸至網(wǎng)絡(luò);
虛擬發(fā)生子模塊,用于產(chǎn)生大容量虛擬空間;
第一確定單元,用于根據(jù)抽取的每個(gè)內(nèi)容頁的統(tǒng)一資源定位符信息,確定每個(gè)統(tǒng)一資源定位符信息對(duì)應(yīng)標(biāo)識(shí)信息;
第二確定單元,用于針對(duì)確定的每個(gè)統(tǒng)一資源定位符信息對(duì)應(yīng)的標(biāo)識(shí)信息,判斷是否存在該確定的標(biāo)識(shí)信息;
刪減單元,用于刪除篩分單元中重復(fù)多余的重復(fù)信息與已存在的標(biāo)識(shí)信息;
確定采集單元,用于根據(jù)列表頁所屬網(wǎng)頁的標(biāo)準(zhǔn)更新率,確定針對(duì)列表頁當(dāng)前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時(shí)間間隔;
存儲(chǔ)單元,用于存放標(biāo)識(shí)信息;
壓縮單元,用于壓縮所述存儲(chǔ)單元內(nèi)的標(biāo)識(shí)信息。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁數(shù)據(jù)采集裝置,其特征在于:所述虛擬空間子模塊上還設(shè)有篩分單元;篩分單元與所述刪減單元間通過電信號(hào)雙向連接,抽取模塊通過電信號(hào)單向連接篩分單元,篩分單元通過電信號(hào)單向連接第一確定單元;篩分單元用于篩分出網(wǎng)頁信息中重復(fù)信息。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁數(shù)據(jù)采集裝置,其特征在于:所述存儲(chǔ)模塊上還設(shè)有備份單元,存儲(chǔ)單元通過電信號(hào)雙向連接備份單元,備份單元通過電信號(hào)雙向連接輸出單元;備份單元用于備份最新的標(biāo)識(shí)數(shù)據(jù)。