本實用新型涉及信息收集技術(shù)領(lǐng)域,特別是涉及一種信息收集系統(tǒng)。
背景技術(shù):
情報收集,又稱信息收集,是指依據(jù)一定的目的,通過有關(guān)的信息媒介和信息渠道,采用相適宜的方法,有計劃地獲取信息的工作過程。
近年來,情報收集手段逐漸由過去依靠人工調(diào)查、人工詢問以及文獻搜集的方式,向以計算機技術(shù)為依托,以互聯(lián)網(wǎng)技術(shù)為支撐的新型方式過渡。
然而,目前通過采用互聯(lián)網(wǎng)技術(shù)收集信息的方法,通常存在所搜集的相關(guān)信息與科研人員所需求的信息嚴(yán)重脫節(jié)的問題,搜索精確度較差,不能準(zhǔn)確搜索出目標(biāo)信息。
技術(shù)實現(xiàn)要素:
基于此,有必要提供一種信息收集系統(tǒng),能夠?qū)π畔⑦M行收集、篩選、分類等處理,提高信息收集的準(zhǔn)確性,精確度較好。
一種信息收集系統(tǒng),包括:信息獲取裝置、信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器,所述信息獲取裝置、所述信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器依次連接。
在其中一個實施例中,所述信息收集系統(tǒng)還包括信息篩選服務(wù)器,所述信息適配處理器通過所述信息篩選服務(wù)器連接所述信息歸類處理器。
在其中一個實施例中,所述信息篩選服務(wù)器包括粗篩選單元和細(xì)篩選單元,所述信息適配處理器通過所述粗篩選單元連接所述細(xì)篩選單元,所述細(xì)篩選單元連接所述信息歸類處理器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括信息導(dǎo)入裝置,所述信息導(dǎo)入裝置連接所述信息適配處理器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括內(nèi)部儲存服務(wù)器,所述內(nèi)部儲存服務(wù)器通過所述信息導(dǎo)入裝置連接所述信息適配處理器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括數(shù)據(jù)解碼處理器,所述信息歸類處理器通過所述數(shù)據(jù)解碼處理器連接所述情報存儲總庫服務(wù)器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括關(guān)鍵字匹配處理器,所述數(shù)據(jù)解碼處理器通過所述關(guān)鍵字匹配處理器連接所述情報存儲總庫服務(wù)器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括報表生成處理器,所述報表生成處理器分別連接所述關(guān)鍵字匹配處理器及所述情報存儲總庫服務(wù)器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括安全過濾處理器,所述信息獲取裝置通過所述安全過濾處理器連接所述信息適配處理器。
在其中一個實施例中,所述信息獲取裝置包括通訊模塊、計時器、解碼器及存儲器,所述通訊模塊分別連接所述存儲器、所述解碼器及所述計時器,所述存儲器連接信息適配處理器。
在其中一個實施例中,所述信息收集系統(tǒng)還包括輸入裝置,所述輸入裝置與所述信息獲取裝置連接,所述輸入裝置包括鍵盤、鼠標(biāo)及語音輸入裝置中至少一種。
在其中一個實施例中,所述信息收集系統(tǒng)還包括輸出裝置,所述輸出裝置與所述數(shù)據(jù)庫服務(wù)器連接,所述輸出裝置包括顯示器及語音輸出裝置中至少一種。
在其中一個實施例中,所述顯示器包括顯示控制電路及與所述顯示控制電路連接的顯示屏。
上述信息收集系統(tǒng),通過所述信息適配處理器將信息整理成為統(tǒng)一格式后,在通過信息歸類處理器對信息數(shù)據(jù)進行自動標(biāo)引后存放至所述情報存儲總庫服務(wù)器上,能夠?qū)π畔⑦M行收集、篩選、分類等處理,提高信息收集的準(zhǔn)確性,精確度較好。
附圖說明
圖1為本實用新型一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本實用新型另一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖3為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖4為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖5為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖6為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖7為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖;
圖8為本實用新型又一實施例的信息收集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
為了便于理解本實用新型,下面將參照相關(guān)附圖對本實用新型進行更全面的描述。附圖中給出了本實用新型的較佳實施方式。但是,本實用新型可以以許多不同的形式來實現(xiàn),并不限于本文所描述的實施方式。相反地,提供這些實施方式的目的是使對本實用新型的公開內(nèi)容理解的更加透徹全面。
需要說明的是,當(dāng)元件被稱為“固定于”另一個元件,它可以直接在另一個元件上或者也可以存在居中的元件。當(dāng)一個元件被認(rèn)為是“連接”另一個元件,它可以是直接連接到另一個元件或者可能同時存在居中元件。本文所使用的術(shù)語“垂直的”、“水平的”、“左”、“右”以及類似的表述只是為了說明的目的,并不表示是唯一的實施方式。
除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本實用新型的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。本文中在本實用新型的說明書中所使用的術(shù)語只是為了描述具體的實施方式的目的,不是旨在于限制本實用新型。本文所使用的術(shù)語“及/或”包括一個或多個相關(guān)的所列項目的任意的和所有的組合。
例如,一種信息收集系統(tǒng),包括:信息獲取裝置、信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器,所述信息獲取裝置、所述信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器依次連接。
為了進一步理解上述信息收集系統(tǒng),又一個例子是,請參閱圖1,信息收集系統(tǒng)10包括:信息獲取裝置100、信息適配處理器200、信息歸類處理器300和情報存儲總庫服務(wù)器400,所述信息獲取裝置、所述信息適配處理器、所述信息歸類處理器和所述情報存儲總庫服務(wù)器依次連接。又如,所述信息獲取裝置、所述信息適配處理器、所述信息歸類處理器和所述情報存儲總庫服務(wù)器依次通過網(wǎng)線連接。
信息獲取裝置100用于從外部網(wǎng)絡(luò)數(shù)據(jù)獲取信息,所述信息獲取裝置采用計算機網(wǎng)絡(luò)爬蟲技術(shù),定期從目標(biāo)網(wǎng)站將網(wǎng)頁HTML或JSON文件上,下載存儲到本地存儲器,計算機采用的爬蟲技術(shù)支持自動登錄以及簡單的驗證碼識別功能,支持翻頁操作,支持自動識別頁面編碼格式。
又如,所述信息獲取裝置包括通訊模塊、計時器、解碼器及存儲器,所述通訊模塊分別連接所述存儲器、所述解碼器及所述計時器,所述計時器用于計時,所述通訊模塊采用計算機網(wǎng)絡(luò)爬蟲技術(shù),從目標(biāo)網(wǎng)站將網(wǎng)頁HTML或JSON文件上,下載存儲到存儲器,例如,通訊模塊根據(jù)計時器的計時,定期從目標(biāo)網(wǎng)站將網(wǎng)頁HTML或JSON文件上,下載存儲到本地服務(wù)器。所述解碼器用于自動識別已下載的網(wǎng)頁文件的頁面編碼格式。
又如,所述通訊模塊為無線或/和有線通訊模塊,又如,所述無線通訊模塊包括無線網(wǎng)卡、WiFi模塊、藍牙無線通訊模塊、Zigbee模塊、射頻無線通訊模塊以及紅外無線通訊模塊中的至少一種。又如,所述存儲器連接所述信息適配處理器。又如,所述存儲器連接信息適配處理器。
信息適配處理器200用于將所述信息獲取裝置產(chǎn)生的數(shù)據(jù)按照數(shù)據(jù)加工規(guī)則進行自動整理匹配,形成收集信息的統(tǒng)一格式。又如,所述信息適配處理器對于從互聯(lián)網(wǎng)獲取的信息采用XPATH、JsonPath、正則表達式匹配等方法進行適配。又如,所述信息適配處理器對信息數(shù)據(jù)進行加工處理,能夠?qū)⒉煌袷降男畔?shù)據(jù)統(tǒng)一格式,方便后續(xù)情報信息的處理和分析。
信息歸類處理器300用于利用現(xiàn)有的歸類算法和關(guān)鍵詞,將信息自動歸納到樹形結(jié)構(gòu)的分類表中,通過分析關(guān)鍵詞含義,系統(tǒng)自動匹配相關(guān)詞匯,對信息數(shù)據(jù)進行自動標(biāo)引。通過將信息歸類處理器300設(shè)置在情報存儲總庫服務(wù)器400的前端,有利于及時將信息歸檔分類,減輕了情報存儲總庫服務(wù)器的數(shù)據(jù)處理壓力。
情報存儲總庫服務(wù)器400用于存放歸類好的信息數(shù)據(jù)及標(biāo)引數(shù)據(jù),將不同數(shù)據(jù)分類放置。又如,設(shè)置數(shù)個情報存儲總庫服務(wù)器,這樣,可以根據(jù)類別存儲對應(yīng)的數(shù)據(jù)。
上述信息收集系統(tǒng),包括信息獲取裝置100、信息適配處理器200、信息歸類處理器300和情報存儲總庫服務(wù)器400,所述信息獲取裝置、所述信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器依次連接,這樣,通過所述信息適配處理器將信息整理成為統(tǒng)一格式后,在通過信息歸類處理器300對信息數(shù)據(jù)進行自動標(biāo)引后存放至所述情報存儲總庫服務(wù)器上,能夠?qū)π畔⑦M行收集、篩選、分類等處理,提高信息收集的準(zhǔn)確性,精確度較好。
在其中一個實施例中,請參閱圖2,信息收集系統(tǒng)10還包括信息篩選服務(wù)器500,所述信息適配處理器200通過所述信息篩選服務(wù)器500連接所述信息歸類處理器300。信息篩選服務(wù)器500用于處理來自信息適配處理器200的信息數(shù)據(jù),去除重復(fù)的信息、過濾無效的信息以及去除相似度較高的信息,這樣,進一步提高了信息收集系統(tǒng)信息收集的準(zhǔn)確性。又如,所述信息篩選服務(wù)器還用于剔除信息含量較低的數(shù)據(jù)信息。又如,所述信息篩選服務(wù)器利用相似度算法計算相關(guān)信息與系統(tǒng)現(xiàn)存信息的相似程度,自動去重并過濾無效信息,智能化處理數(shù)據(jù),自動去除相似度較高的信息。又如,所述信息篩選服務(wù)器針對無效或信息含量較低的數(shù)據(jù)信息,主動剔除無效或信息含量較低的數(shù)據(jù)信息。又如,所述信息篩選服務(wù)器針對無效或信息含量較低的數(shù)據(jù)信息,計算不同信息所含關(guān)鍵詞的信息量值,根據(jù)信息量值主動剔除無效或信息含量較低的數(shù)據(jù)信息。又如,預(yù)先設(shè)置信息量值區(qū)間,根據(jù)信息量值閾值主動剔除無效或信息含量較低的數(shù)據(jù)信息,這樣,能夠進一步提高了信息收集系統(tǒng)信息收集的準(zhǔn)確性。
又如,所述信息篩選服務(wù)器包括粗篩選單元和細(xì)篩選單元,所述粗篩選單元對收集的信息數(shù)據(jù)進行粗篩選以濾除重復(fù)的信息和相似度較高的信息,所述細(xì)篩選單元對所述粗篩選單元篩選后的信息進行細(xì)篩選,計算不同信息所含關(guān)鍵詞的信息量值,根據(jù)信息量值主動剔除無效或信息含量較低的數(shù)據(jù)信息;又如,所述粗篩選單元分別連接所述信息適配處理器及所述細(xì)篩選單元,所述細(xì)篩選單元連接所述信息歸類處理器,也就是說,所述信息適配處理器通過所述粗篩選單元連接所述細(xì)篩選單元,所述細(xì)篩選單元連接所述信息歸類處理器,即,所述信息適配處理器、所述粗篩選單元、所述細(xì)篩選單元與所述信息歸類處理器順序連接,這樣,能夠進一步提高了信息收集系統(tǒng)信息收集的準(zhǔn)確性。
在其中一個實施例中,請參閱圖3,信息收集系統(tǒng)10還包括數(shù)據(jù)解碼處理器600,所述信息歸類處理器300通過所述數(shù)據(jù)解碼處理器600連接所述情報存儲總庫服務(wù)器400,也就是說,所述信息歸類處理器300通過所述數(shù)據(jù)解碼處理器600連接所述情報存儲總庫服務(wù)器400,所述數(shù)據(jù)解碼處理器對歸類后的信息數(shù)據(jù)進行解碼,將信息數(shù)據(jù)轉(zhuǎn)換為原有內(nèi)容的格式后存儲至所述情報存儲總庫服務(wù)器400上,使其存儲在所述情報存儲總庫服務(wù)器400上后,能夠更迅速地被使用者使用。
在其中一個實施例中,請參閱圖4,信息收集系統(tǒng)10還包括關(guān)鍵字匹配處理器700,所述數(shù)據(jù)解碼處理器600通過所述關(guān)鍵字匹配處理器700連接所述情報存儲總庫服務(wù)器400,這樣,能夠使信息數(shù)據(jù)按關(guān)鍵詞以及文件格式后綴名關(guān)鍵字將信息數(shù)據(jù)儲存在所述情報存儲總庫服務(wù)器400上,進一步提高了信息搜集的準(zhǔn)確性和分類準(zhǔn)確性。
在其中一個實施例中,請參閱圖5,信息收集系統(tǒng)10還包括報表生成處理器800,所述報表生成處理器分別連接所述關(guān)鍵字匹配處理器700及所述情報存儲總庫服務(wù)器400,這樣,能夠根據(jù)所述關(guān)鍵字匹配處理器700的處理信息生成關(guān)于匹配結(jié)果的報表,并將匹配結(jié)果的報表存儲于所述情報存儲總庫服務(wù)器400上,便于用戶對關(guān)鍵字信息進行分析和研究。
在其中一個實施例中,請參閱圖6,信息收集系統(tǒng)10還包括安全過濾處理器850,所述信息獲取裝置100通過所述安全過濾處理器850連接所述信息適配處理器200,所述安全過濾處理器用于根據(jù)病毒防護技術(shù)過濾去除病毒數(shù)據(jù)或者惡意數(shù)據(jù),以提高信息收集系統(tǒng)的安全性,防止信息收集系統(tǒng)受病毒和惡意數(shù)據(jù)的侵襲。
上述信息收集系統(tǒng)收集的是外部網(wǎng)絡(luò)數(shù)據(jù)信息,而對于很多用戶而言,本地存儲信息無法被信息收集系統(tǒng)收集,為了使存儲的本地信息也能被收集,在其中一個實施例中,請參閱圖7,信息收集系統(tǒng)10還包括信息導(dǎo)入裝置900,所述信息導(dǎo)入裝置900連接所述信息適配處理器200。所述信息導(dǎo)入裝置采用開發(fā)的計算機導(dǎo)入程序,將來自本地數(shù)據(jù)源的數(shù)據(jù)自動導(dǎo)入到所述信息導(dǎo)入裝置,所述信息適配處理器200用于將信息獲取裝置100和信息導(dǎo)入裝置900兩部分產(chǎn)生的數(shù)據(jù)按照數(shù)據(jù)加工規(guī)則進行自動整理匹配,形成收集信息的統(tǒng)一格式。又如,所述信息適配處理器對于本地數(shù)據(jù)源導(dǎo)入的數(shù)據(jù),采用XPATH、JsonPath、正則表達式匹配等方法進行適配,所述信息適配處理器對于本地數(shù)據(jù)源導(dǎo)入的數(shù)據(jù),采用字段對照表的形式進行適配,這樣,能夠使使存儲的本地信息也能被收集。此外,通過同時設(shè)置所述信息導(dǎo)入裝置和所述信息獲取裝置,有利于使用者采用多種不同渠道的數(shù)據(jù)源,擴展了系統(tǒng)信息來源渠道。
需要說明的是,本地數(shù)據(jù)信息是指單機或者局域網(wǎng)或者集團網(wǎng)或者區(qū)域網(wǎng)的數(shù)據(jù)信息,外部網(wǎng)絡(luò)數(shù)據(jù)是指萬維網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)信息。
在其中一個實施例中,請參閱圖8,所述信息收集系統(tǒng)10還包括內(nèi)部儲存服務(wù)器950,所述內(nèi)部儲存服務(wù)器連接所述信息導(dǎo)入裝置900,也就是說,所述內(nèi)部儲存服務(wù)器通過所述信息導(dǎo)入裝置連接所述信息適配處理器,所述內(nèi)部存儲服務(wù)器用于集中存儲本地信息,這樣,能夠提高所述信息導(dǎo)入裝置900對本地信息的處理效率。
在其中一個實施例中,所述信息收集系統(tǒng)還包括輸入裝置,所述輸入裝置與所述信息獲取裝置連接,所述輸入裝置包括鍵盤、鼠標(biāo)及語音輸入裝置中至少一種。
在其中一個實施例中,所述信息收集系統(tǒng)還包括輸出裝置,所述輸出裝置與所述數(shù)據(jù)庫服務(wù)器連接,所述輸出裝置包括顯示器及語音輸出裝置中至少一種。例如,所述顯示器包括顯示控制電路及與所述顯示控制電路連接的顯示屏。又如,所述顯示屏為液晶顯示屏或OLED(Organic Light-Emitting Diode,有機電致發(fā)光二極管)顯示屏。
上述信息收集系統(tǒng),包括信息獲取裝置、信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器,所述信息獲取裝置、所述信息適配處理器、信息歸類處理器和情報存儲總庫服務(wù)器依次連接,這樣,通過所述信息適配處理器將信息整理成為統(tǒng)一格式后,在通過信息歸類處理器對信息數(shù)據(jù)進行自動標(biāo)引后存放至所述情報存儲總庫服務(wù)器上,能夠提高信息收集的準(zhǔn)確性,精確度較好。
上述信息收集系統(tǒng)的工作流程為系統(tǒng)先通過信息獲取和/或信息導(dǎo)入裝置獲得源數(shù)據(jù),經(jīng)過信息適配處理器和信息篩選服務(wù)器將源數(shù)據(jù)處理為統(tǒng)一格式的信息數(shù)據(jù);然后經(jīng)過信息歸類處理器進行加工、標(biāo)引,加工完成的數(shù)據(jù)存放情報存儲總庫服務(wù)器。
本實用新型的信息收集系統(tǒng)收集信息更加全面,系統(tǒng)信息收集效率大幅提升,情報收集更加及時、準(zhǔn)確。又如,所述信息收集系統(tǒng)為競爭情報系統(tǒng)收集系統(tǒng)。
需要說明的是,上述各實施例所述信息獲取裝置、信息適配處理器、信息歸類處理器、情報存儲總庫服務(wù)器、信息篩選服務(wù)器、信息導(dǎo)入裝置、內(nèi)部儲存服務(wù)器、數(shù)據(jù)解碼處理器、關(guān)鍵字匹配處理器、報表生成處理器和/或安全過濾處理器等功能裝置,均可采用現(xiàn)有產(chǎn)品實現(xiàn),本實用新型在此僅要求保護包括這些功能裝置的具體產(chǎn)品的結(jié)構(gòu)及其連接關(guān)系,而不是具體的功能裝置的內(nèi)部結(jié)構(gòu),上述各功能裝置均可采用市售產(chǎn)品。
需要說明的是,本實用新型的其他實施例還包括上述各實施例中的技術(shù)特征相互結(jié)合所形成的能夠?qū)嵤┑男畔⑹占到y(tǒng)。
以上所述實施例的各技術(shù)特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術(shù)特征所有可能的組合都進行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實施方式僅表達了本實用新型的幾種實施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本實用新型專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本實用新型構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本實用新型的保護范圍。因此,本實用新型專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。