專利名稱:一種數(shù)據(jù)處理裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種數(shù)據(jù)處理裝置及方法。
背景技術(shù):
由于網(wǎng)絡(luò)的廣泛應(yīng)用,常常需要通過網(wǎng)絡(luò)向用戶推送數(shù)據(jù),尤其在電子商務(wù)網(wǎng)站。 而通過網(wǎng)絡(luò)向用戶推送數(shù)據(jù)時(shí),一般都是人工通過訪問數(shù)據(jù)源網(wǎng)站,對(duì)數(shù)據(jù)源網(wǎng)站中推送 的大量數(shù)據(jù)進(jìn)行篩選、分類等處理之后,再將數(shù)據(jù)進(jìn)行編輯后推送給用戶,如此,不僅造成 了人力物力的浪費(fèi),而且數(shù)據(jù)處理效率低下,且常會(huì)由于人為失誤造成數(shù)據(jù)處理的準(zhǔn)確率 不高,從而導(dǎo)致數(shù)據(jù)推送的效率和準(zhǔn)確率也受到影響,并降低了用戶體驗(yàn)。發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種數(shù)據(jù)處理裝置及方法,以解決數(shù)據(jù)推 送中數(shù)據(jù)處理效率低、浪費(fèi)人力物力、以及準(zhǔn)確率不高的問題。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
本發(fā)明提供了一種數(shù)據(jù)處理裝置,所述裝置包括
數(shù)據(jù)抓取模塊,用于根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓?。?br>
數(shù)據(jù)處理模塊,用于根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所述數(shù)據(jù)抓取模塊所抓取 的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
在上述方案中,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,
配置單元,用于配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;
抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù) 源中抓取、類型信息與配置單元所配置的類型信息相一致的數(shù)據(jù)。
在上述方案中,所述配置單元包含有用于配置抓取規(guī)則的配置文件;
所述配置單元,具體用于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和 類型信息并保存,完成抓取規(guī)則的配置;
抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)所述配置文件中數(shù)據(jù)源 信息,找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的 數(shù)據(jù)。
在上述方案中,所述數(shù)據(jù)源信息為數(shù)據(jù)源網(wǎng)站的URL ;和/或,所述類型信息為數(shù) 據(jù)的品類名稱。
在上述方案中,所述配置文件為xml格式的文件。
在上述方案中,所述數(shù)據(jù)處理模塊,還用于生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù) 文本,并輸出該標(biāo)準(zhǔn)數(shù)據(jù)文本。
在上述方案中,所述標(biāo)準(zhǔn)數(shù)據(jù)文本為TXT文本。
本發(fā)明還提供了一種數(shù)據(jù)處理方法,所述方法包括
根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓??;
根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所抓取的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn) 換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
在上述方案中,在進(jìn)行數(shù)據(jù)抓取之前,所述方法還包括
配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;
所述進(jìn)行數(shù)據(jù)抓取,為根據(jù)所配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源 中抓取類型信息與所配置的類型信息相一致的數(shù)據(jù)。
在上述方案中,配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則,包括在用于配置 抓取規(guī)則的配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和需抓取數(shù)據(jù)的類型信息并保存;
所述進(jìn)行數(shù)據(jù)抓取,為讀取所述配置文件,根據(jù)所述配置文件中數(shù)據(jù)源信息,找 到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。
在上述方案中,所述得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)之后,所述方法還包 括生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本,并輸出該標(biāo)準(zhǔn)數(shù)據(jù)文本。
本發(fā)明提供的數(shù)據(jù)處理裝置及方法,根據(jù)預(yù)先配置的抓取規(guī)則進(jìn)行數(shù)據(jù)抓取,并 對(duì)抓取的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到標(biāo)準(zhǔn)數(shù)據(jù),能夠基于用戶的需求進(jìn)行數(shù)據(jù)的獲取和處理, 不需要人工進(jìn)行數(shù)據(jù)篩選和處理,大大節(jié)省了人工篩選數(shù)據(jù)的時(shí)間成本,提高了工作效率, 節(jié)省了人力物力,并且還提高了數(shù)據(jù)處理的準(zhǔn)確率。
圖1為本發(fā)明數(shù)據(jù)處理裝置的組成結(jié)構(gòu)示意圖2為本發(fā)明數(shù)據(jù)處理方法的實(shí)現(xiàn)流程圖3為本發(fā)明實(shí)施例一中數(shù)據(jù)處理過程的流程示意圖4為本發(fā)明實(shí)施例一中數(shù)據(jù)處理軟件“設(shè)置”對(duì)話框示意圖5為本發(fā)明實(shí)施例一配置文件對(duì)話框示意圖6為本發(fā)明實(shí)施例一中“查看”對(duì)話框示意圖7為本發(fā)明實(shí)施例一中進(jìn)行字段名轉(zhuǎn)換的設(shè)置對(duì)話框示意圖8為本發(fā)明實(shí)施例一中執(zhí)行數(shù)據(jù)處理操作的對(duì)話框示意圖9為本發(fā)明實(shí)施例一中輸出標(biāo)準(zhǔn)數(shù)據(jù)文本的導(dǎo)出對(duì)話框示意圖。
具體實(shí)施方式
本發(fā)明的基本思想是提供一種數(shù)據(jù)處理裝置及方法,能夠自動(dòng)獲取特定的數(shù)據(jù), 并對(duì)數(shù)據(jù)進(jìn)行處理,輸出標(biāo)準(zhǔn)數(shù)據(jù),如此,網(wǎng)站編輯人員便可以直接將所輸出的標(biāo)準(zhǔn)數(shù)據(jù)編 輯到相應(yīng)的網(wǎng)頁中,不僅節(jié)省了人力物力,并且提高了數(shù)據(jù)處理效率。
如圖1所示,本發(fā)明的數(shù)據(jù)處理裝置主要可以包括數(shù)據(jù)抓取模塊和數(shù)據(jù)處理模 塊,其中,
數(shù)據(jù)抓取模塊,用于根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓??;
數(shù)據(jù)處理模塊,用于根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所述數(shù)據(jù)抓取模塊所抓取 的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
具體地,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,配置單元,用于配置 包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源中抓取、類型信息與配置單元所配置的類型信息相一 致的數(shù)據(jù)。
這里,所述配置單元包含有用于配置抓取規(guī)則的配置文件;所述配置單元,具體用 于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和類型信息并保存,完成抓取規(guī)則 的配置;抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)配置文件中數(shù)據(jù)源信息, 找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。
這里,所述數(shù)據(jù)源信息可以為數(shù)據(jù)源網(wǎng)站的URL,所述類型信息可以為數(shù)據(jù)的品類 名稱。其中,品類名稱可以包含如下信息的一種或多種型號(hào)、品牌名稱、性能參數(shù)名稱等。
具體地,配置單元包含有xml格式的配置文件,通過在所述配置文件中寫入需抓 取數(shù)據(jù)的數(shù)據(jù)源網(wǎng)站URL和需抓取數(shù)據(jù)的品類名稱并保存,完成抓取規(guī)則的配置;抓取單 元,用于讀取配置單元中的配置文件,根據(jù)配置文件中數(shù)據(jù)源網(wǎng)站的URL,訪問數(shù)據(jù)源網(wǎng)站, 從數(shù)據(jù)源網(wǎng)站推送的所有數(shù)據(jù)中抓取品類名稱與配置文件中配置的品類名稱相一致的數(shù) 據(jù)。
其中,數(shù)據(jù)抓取模塊基于多線程技術(shù)進(jìn)行數(shù)據(jù)的抓取。其中,多線程技術(shù)是一種并 發(fā)技術(shù),基于同時(shí)運(yùn)行多個(gè)任務(wù)的技術(shù)?;诙嗑€程技術(shù)進(jìn)行抓取具有如下任意一種或多 種特征
負(fù)載均衡通過檢測(cè)數(shù)據(jù)源網(wǎng)站的訪問負(fù)載,調(diào)整線程分配,實(shí)現(xiàn)性能、效率的提 升,并同時(shí)有利于減輕數(shù)據(jù)源網(wǎng)站訪問壓力,也能夠防止數(shù)據(jù)源網(wǎng)站的訪問頻率限制;
多層過濾根據(jù)鏈接深度、權(quán)重因子以及預(yù)設(shè)的域名黑白名單,限定抓取范圍,防 止海量信息抓取的無限膨脹;
抓取去重實(shí)時(shí)分析歷史抓取數(shù)據(jù),并調(diào)整抓取頻率,保證抓取數(shù)據(jù)的實(shí)時(shí)性、準(zhǔn) 確性,篩除重復(fù)抓取數(shù)據(jù);
代理檢測(cè)通過檢測(cè)局域網(wǎng)環(huán)境,通過使用代理IP訪問具有限制的數(shù)據(jù)源網(wǎng)站, 從而突破自身的網(wǎng)絡(luò)限制,實(shí)現(xiàn)自由抓??;
離線抓取通過已建立的云計(jì)算平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的云抓取并同步到本地,實(shí)現(xiàn)無人 值守的離線數(shù)據(jù)抓?。?br>
敏感信息篩除基于預(yù)設(shè)的敏感信息關(guān)鍵字,對(duì)所抓取到的數(shù)據(jù)進(jìn)行敏感信息的 過濾。
其中,所述數(shù)據(jù)處理模塊,還用于生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本,并輸 出該標(biāo)準(zhǔn)數(shù)據(jù)文本。這里,為便于網(wǎng)站編輯人員將標(biāo)準(zhǔn)數(shù)據(jù)編輯到網(wǎng)頁中,所述標(biāo)準(zhǔn)數(shù)據(jù)文 本可以為TXT文本。
相應(yīng)的,本發(fā)明還提供了一種數(shù)據(jù)處理方法,參照?qǐng)D2所示,所述方法主要包括如 下步驟
步驟201,根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓??;
步驟202,根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所抓取的數(shù)據(jù)進(jìn)行處理,得到符合所 述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
其中,在進(jìn)行數(shù)據(jù)抓取之前,所述方法還包括配置包含有數(shù)據(jù)源信息和類型信息 的抓取規(guī)則;所述進(jìn)行數(shù)據(jù)抓取,可以為根據(jù)所配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所 述數(shù)據(jù)源中抓取類型信息與所配置的類型信息相一致的數(shù)據(jù)。
具體地,配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則,可以包括在用于配置抓 取規(guī)則的配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和需抓取數(shù)據(jù)的類型信息并保存;
相應(yīng)的,所述進(jìn)行數(shù)據(jù)抓取,可以為讀取所述配置文件,根據(jù)所述配置文件中數(shù) 據(jù)源信息,找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一 致的數(shù)據(jù)。
其中,在得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)之后,所述方法還可以包括生成 包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本,并輸出該標(biāo)準(zhǔn)數(shù)據(jù)文本。
實(shí)施例一
本實(shí)施例中,將對(duì)數(shù)據(jù)處理的具體實(shí)現(xiàn)過程做詳細(xì)說明。
本實(shí)施例中,通過在計(jì)算機(jī)上運(yùn)行一個(gè)數(shù)據(jù)處理軟件,實(shí)現(xiàn)本發(fā)明所提供的數(shù)據(jù) 處理裝置,該數(shù)據(jù)處理軟件包括數(shù)據(jù)抓取模塊和數(shù)據(jù)處理模塊。
如圖3所示,本實(shí)施例中,進(jìn)行數(shù)據(jù)處理的具體流程,可以包括如下步驟
步驟301,在數(shù)據(jù)抓取模塊配置數(shù)據(jù)源網(wǎng)站的URL,以及配置需抓取數(shù)據(jù)的品類, 完成抓取規(guī)則的配置;
步驟302,在數(shù)據(jù)處理模塊配置數(shù)據(jù)轉(zhuǎn)換規(guī)則;
步驟303,數(shù)據(jù)抓取模塊根據(jù)數(shù)據(jù)源網(wǎng)站的URL,訪問數(shù)據(jù)源網(wǎng)站,并從數(shù)據(jù)源網(wǎng) 站推送的所有數(shù)據(jù)中,抓取所配置品類的數(shù)據(jù);
這里,該品類可以包含如下信息的一種或多種型號(hào)、品牌、性能參數(shù)等。
步驟304,數(shù)據(jù)處理模塊從數(shù)據(jù)抓取模塊中獲取抓取數(shù)據(jù);
步驟305,數(shù)據(jù)處理模塊根據(jù)步驟302所配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,將獲取的抓取數(shù)據(jù) 轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù);
步驟306,數(shù)據(jù)處理模塊生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本并輸出。
實(shí)際應(yīng)用中,完成步驟301中抓取規(guī)則配置的具體實(shí)現(xiàn)過程如下
步驟al,進(jìn)入數(shù)據(jù)處理軟件;
步驟a2,如圖4所示,點(diǎn)擊數(shù)據(jù)處理軟件的“設(shè)置”按鈕,選擇“個(gè)人設(shè)置”;
步驟a3,進(jìn)入數(shù)據(jù)處理軟件的配置文件robot, xml對(duì)話框,將包含數(shù)據(jù)源的網(wǎng)站 的URL寫入到配置文件的相應(yīng)位置,并將需抓取數(shù)據(jù)的品類名稱寫入到配置文件中的相應(yīng) 位置,例如,圖5所示;
步驟a4,保存配置文件robot, xml,完成數(shù)據(jù)抓取模塊的抓取規(guī)則配置。
實(shí)際應(yīng)用中,實(shí)現(xiàn)步驟302中配置數(shù)據(jù)轉(zhuǎn)換規(guī)則的具體過程如下
步驟bl,進(jìn)入數(shù)據(jù)處理軟件;
步驟b2,如圖6所示,點(diǎn)擊數(shù)據(jù)處理軟件的“查看”按鈕,選擇“查看字典”;
步驟b3,找到文本文件attrName、和文本文件attrValue,分別打開,進(jìn)行數(shù)據(jù)轉(zhuǎn) 換的字段名和字段值的設(shè)置,完成數(shù)據(jù)轉(zhuǎn)換規(guī)則的配置。
例如,打開文本文件attrName,顯示如圖7所示的對(duì)話框,其中,“錄入法”為抓取 數(shù)據(jù)的字段名,“輸入法”為標(biāo)準(zhǔn)數(shù)據(jù)的字段名,用戶可以通過在相應(yīng)的提示框中輸入字段 名,進(jìn)行字段名轉(zhuǎn)換的設(shè)置。
同理,打開文本文件attrValue后,所顯示的對(duì)話框中也包含有“錄入法”和“輸入 法”的提示框,分別表示為抓取數(shù)據(jù)的字段值和標(biāo)準(zhǔn)數(shù)據(jù)的字段值,用戶可以通過在相應(yīng)的提示框中輸入字段值,進(jìn)行字段值轉(zhuǎn)換的設(shè)置。
在完成后數(shù)據(jù)轉(zhuǎn)換規(guī)則配置,數(shù)據(jù)處理軟件會(huì)彈出如圖8所示的對(duì)話框,點(diǎn)擊“開 始”按鈕,數(shù)據(jù)處理軟件則開始執(zhí)行步驟303的數(shù)據(jù)抓取。
在得到標(biāo)準(zhǔn)數(shù)據(jù)之后,在如圖9所示的對(duì)話框中,點(diǎn)擊數(shù)據(jù)處理軟件的“操作”按 鈕,選擇“導(dǎo)出”之后,數(shù)據(jù)處理軟件會(huì)執(zhí)行步驟306,生成包含有所得到標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù) 據(jù)文本并輸出,這里,標(biāo)準(zhǔn)數(shù)據(jù)文本是TXT文本。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括數(shù)據(jù)抓取模塊,用于根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓取;數(shù)據(jù)處理模塊,用于根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所述數(shù)據(jù)抓取模塊所抓取的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)抓取模塊包括配置單元和抓取單元,其中,配置單元,用于配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;抓取單元,用于根據(jù)所述配置單元配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源中抓取、類型信息與配置單元所配置的類型信息相一致的數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理裝置,其特征在于,所述配置單元包含有用于配置抓取規(guī)則的配置文件;所述配置單元,具體用于通過在所述配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和類型信息并保存,完成抓取規(guī)則的配置;抓取單元,還用于讀取所述配置單元中的配置文件,根據(jù)所述配置文件中數(shù)據(jù)源信息, 找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。
4.根據(jù)權(quán)利要求2或3所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)源信息為數(shù)據(jù)源網(wǎng)站的URL ;和/或,所述類型信息為數(shù)據(jù)的品類名稱。
5.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其特征在于,所述配置文件為xml格式的文件。
6.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)處理模塊,還用于生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本,并輸出該標(biāo)準(zhǔn)數(shù)據(jù)文本。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理裝置,其特征在于,所述標(biāo)準(zhǔn)數(shù)據(jù)文本為TXT文本。
8.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓取;根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所抓取的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理方法,其特征在于,在進(jìn)行數(shù)據(jù)抓取之前,所述方法還包括配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則;所述進(jìn)行數(shù)據(jù)抓取,為根據(jù)所配置的數(shù)據(jù)源信息,找到數(shù)據(jù)源,并從所述數(shù)據(jù)源中抓取類型信息與所配置的類型信息相一致的數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理方法,其特征在于,配置包含有數(shù)據(jù)源信息和類型信息的抓取規(guī)則,包括在用于配置抓取規(guī)則的配置文件中寫入需抓取數(shù)據(jù)的數(shù)據(jù)源信息和需抓取數(shù)據(jù)的類型信息并保存;所述進(jìn)行數(shù)據(jù)抓取,為讀取所述配置文件,根據(jù)所述配置文件中數(shù)據(jù)源信息,找到數(shù)據(jù)源,從所述數(shù)據(jù)源中抓取類型信息與所述配置文件中的類型信息相一致的數(shù)據(jù)。
11.根據(jù)權(quán)利要求8至10任一項(xiàng)所述的數(shù)據(jù)處理方法,其特征在于,所述得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)之后,所述方法還包括生成包含有所述標(biāo)準(zhǔn)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)文本,并輸出該標(biāo)準(zhǔn)數(shù)據(jù)文本。全文摘要
本發(fā)明公開了一種數(shù)據(jù)處理裝置,所述裝置包括數(shù)據(jù)抓取模塊,用于根據(jù)預(yù)先配置的抓取規(guī)則,進(jìn)行數(shù)據(jù)抓?。粩?shù)據(jù)處理模塊,用于根據(jù)預(yù)先配置的數(shù)據(jù)轉(zhuǎn)換規(guī)則,對(duì)所述數(shù)據(jù)抓取模塊所抓取的數(shù)據(jù)進(jìn)行處理,得到符合所述數(shù)據(jù)轉(zhuǎn)換規(guī)則的標(biāo)準(zhǔn)數(shù)據(jù)。本發(fā)明還公開了一種數(shù)據(jù)處理方法,不需要人工進(jìn)行數(shù)據(jù)篩選和處理,大大節(jié)省了人工篩選數(shù)據(jù)的時(shí)間成本,提高了工作效率,節(jié)省了人力物力,并且還能夠提高數(shù)據(jù)處理的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK103020088SQ201110289520
公開日2013年4月3日 申請(qǐng)日期2011年9月27日 優(yōu)先權(quán)日2011年9月27日
發(fā)明者譚耀華, 阮威, 鄧教武 申請(qǐng)人:騰訊科技(深圳)有限公司