專利名稱::互聯(lián)網(wǎng)信息訂閱方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用
技術(shù)領(lǐng)域:
。更具體地,涉及一種互聯(lián)網(wǎng)信息訂閱方法和系統(tǒng)。
背景技術(shù):
:步入21世紀(jì)以來,隨著國際互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展和世界經(jīng)濟(jì)一體化的加速,網(wǎng)絡(luò)信息急劇膨脹,國際交流日益頻繁,通過網(wǎng)絡(luò)來檢索信息以協(xié)助人們快速獲取信息,已經(jīng)成為必然的趨勢。目前,人們習(xí)慣于通過搜索引擎來獲取信息。搜索引擎(searchengine)是指根據(jù)一定的策略、運用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。目前常用的搜索引擎工作原理為首先抓取網(wǎng)頁,每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(Spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。搜索引擎抓取網(wǎng)頁之后開始處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。最后,搜索引擎提供檢索服務(wù)。當(dāng)用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁??梢姡F(xiàn)有技術(shù)中的搜索引擎預(yù)先并不知道用戶可能對什么類型的信息感興趣,因此只能盲目地預(yù)先抓取海量信息并且處理和存儲這些海量信息,因此會造成大量極其繁瑣的工作,從而增大成本。而且,由于互聯(lián)網(wǎng)中的突發(fā)信息非常多,Spider經(jīng)常不能及時抓取到信息,從而無法及時向用戶提供相關(guān)突發(fā)信息。不僅于此,目前常用的計算機(jī)識別技術(shù)是將信息轉(zhuǎn)化成二進(jìn)制的代碼機(jī)械地匹配,計算機(jī)并不了解其信息背后的真實意圖。比如,傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象。特別是在網(wǎng)絡(luò)信息時代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。舉例說明,假如用戶輸入“蘋果”的關(guān)鍵字,那究竟用戶是指水果還是某種知名電腦品牌,搜索引擎中基于傳統(tǒng)的關(guān)鍵字匹配檢索技術(shù)則無法精確區(qū)分,從而無法高效、準(zhǔn)確地反饋給用戶最需要的信息。而且,在網(wǎng)絡(luò)上還存在著大量封閉網(wǎng)絡(luò)或者屏蔽網(wǎng)站,而目前的搜索引擎并無法獲取這些網(wǎng)絡(luò)或者屏蔽網(wǎng)站的信息,因此信息量也并不全。
發(fā)明內(nèi)容本發(fā)明實施方式提出一種互聯(lián)網(wǎng)信息訂閱方法,以降低成本。本發(fā)明實施方式還提出一種互聯(lián)網(wǎng)信息訂閱系統(tǒng),以降低成本。本發(fā)明實施方式的技術(shù)方案是這樣實現(xiàn)的一種互聯(lián)網(wǎng)信息訂閱方法,該方法包括客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或者云處理端向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或者云處理端向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。一種互聯(lián)網(wǎng)信息訂閱系統(tǒng),該系統(tǒng)包括客戶端群和位于遠(yuǎn)端的云處理端,客戶端群和云處理端通過互聯(lián)網(wǎng)連接;其中客戶端群中的各客戶端,用于分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;并分別按照云處理端分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端,用于確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;并且用于向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信肩、O在本發(fā)明實施方式中,首先客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字,然后云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,各客戶端再分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端,最后云處理端再向各客戶端推送所訂閱的信息。由此可見,在本發(fā)明中實現(xiàn)了向用戶精確推送(無論是主動還是被動)訂閱的信息,從而解決了現(xiàn)有技術(shù)中盲目地預(yù)先抓取、處理和存儲海量信息的繁瑣工作,因此極大的降低了系統(tǒng)成本。而且,本發(fā)明實施方式中,由于客戶端的數(shù)量可以龐大,從而能夠?qū)崿F(xiàn)非??斓膾呙?,當(dāng)互聯(lián)網(wǎng)中的發(fā)生突發(fā)信息時,有很大概率總有客戶端能夠抓取到相應(yīng)信息,因此可以及時向用戶提供相關(guān)突發(fā)信息。另外,在本發(fā)明中運用了分析語言結(jié)構(gòu)+關(guān)鍵詞的技術(shù)手段,從語言的線性結(jié)構(gòu)和關(guān)鍵詞中精確地提煉出信息的真正意圖,并用排序的方式智能選擇反饋結(jié)果,可以基于計算機(jī)語意識別能力的核心技術(shù),能夠更加智能地識別信息背后的準(zhǔn)確含義,從而可以準(zhǔn)確地向用戶反饋所需要的信息。而且,通過將信息進(jìn)行深層、多層次分析,不但了解了其代碼,還識別了信息所要表達(dá)的意圖,使計算機(jī)更智能、更人性化地與人類溝通。另外,相比較以傳統(tǒng)的關(guān)鍵詞過濾方法來屏蔽不良信息,只能識別到詞(通稱關(guān)鍵詞)這一級別,無法更深地延展也不能識別全篇所要表達(dá)的內(nèi)容的缺點,本發(fā)明實施方式可以將語意識別技術(shù)應(yīng)用于網(wǎng)絡(luò)監(jiān)管,以可以發(fā)揮更高的效率,使監(jiān)管變得更加智能。比如在某篇新聞中經(jīng)常出現(xiàn)“達(dá)賴?yán)镄M惑人心”和“西藏獨立對藏民無益”等語句反復(fù)出現(xiàn)。全篇文章實際表達(dá)的是正面的信息內(nèi)容,但因為“達(dá)賴”和“藏獨”等關(guān)鍵詞出現(xiàn)頻率太多卻極易被屏蔽。這就是使用單一關(guān)鍵詞監(jiān)管的軟肋。若使用語意識別技術(shù)監(jiān)管,其不但識別關(guān)鍵詞,還會通過分析語句結(jié)構(gòu)來識別所要表達(dá)的意圖,從而實現(xiàn)更智能的網(wǎng)絡(luò)監(jiān)管。使上述文章不會被屏蔽,達(dá)到“西藏應(yīng)該獨立”屏蔽、“西藏獨立對西藏有害”不屏蔽的精準(zhǔn)效果。由于本發(fā)明無需Spider去抓取信息,而是由各個客戶端自行獲取信息,因此當(dāng)網(wǎng)絡(luò)上存在著Spider無法訪問的封閉網(wǎng)絡(luò)或者屏蔽網(wǎng)站時,只要客戶端群中有一個客戶端能夠獲取訪問,該信息便能夠被推送,因此可訪問信息量也大增。圖I為根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)信息訂閱方法流程圖;圖2為根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)信息訂閱系統(tǒng)結(jié)構(gòu)圖;圖3為根據(jù)本發(fā)明實施方式的云端中語意識別設(shè)備結(jié)構(gòu)圖;圖4為根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)信息訂閱系統(tǒng)詳細(xì)結(jié)構(gòu)圖。具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點表達(dá)得更加清楚明白,下面結(jié)合附圖及具體實施方式對本發(fā)明再作進(jìn)一步詳細(xì)的說明。首先,云計算(cloudcomputing)是分布式計算技術(shù)的一種,其最基本的概念,是透過網(wǎng)絡(luò)將龐大的計算處理程序自動分拆成無數(shù)個較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計算分析之后將處理結(jié)果回傳給用戶。透過這項技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計甚至億計的信息,達(dá)到和“超級計算機(jī)”同樣強(qiáng)大效能的網(wǎng)絡(luò)服務(wù)。最簡單的云計算技術(shù)在網(wǎng)絡(luò)服務(wù)中已經(jīng)隨處可見,例如搜尋引擎、網(wǎng)絡(luò)信箱等,使用者只要輸入簡單指令即能得到大量信息。未來如手機(jī)、GPS等行動裝置都可以透過云計算技術(shù),發(fā)展出更多的應(yīng)用服務(wù)。進(jìn)一步的云計算不僅只做資料搜尋、分析的功能,未來如分析DNA結(jié)構(gòu)、基因圖定序、解析癌癥細(xì)胞等,都可以透過這項技術(shù)輕易達(dá)成。圖I為根據(jù)本發(fā)明實施方式的互聯(lián)網(wǎng)信息訂閱方法流程圖。如圖I所示,該方法包括步驟101:客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字。在這里,客戶端群中的各客戶端可以為個人電腦端、移動終端、智能家電、智能終端或超級文本預(yù)處理語言(PHP)網(wǎng)站端,等等??蛻舳巳褐械母骺蛻舳朔謩e根據(jù)自己的個人習(xí)慣或愛好設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字。比如,假如客戶端I為個人電腦端,其對“新浪財經(jīng)”這個網(wǎng)站感興趣,并且對“李開復(fù)”感興趣,則所設(shè)置的互聯(lián)網(wǎng)信息訂閱源為新浪財經(jīng)的URL,設(shè)置的訂閱信息關(guān)鍵字為“李開復(fù)”;假如客戶端I為移動終端,其對“新浪足球”這個網(wǎng)站感興趣,并且對“AC米蘭”感興趣,則其所設(shè)置的互聯(lián)網(wǎng)信息訂閱源為新浪足球的URL,設(shè)置的訂閱信息關(guān)鍵字為“AC米蘭”。在一種實施方式中,各客戶端分別設(shè)置的互聯(lián)網(wǎng)信息訂閱源可以為互聯(lián)網(wǎng)信息訂閱站點的統(tǒng)一資源定位符(URL)、互聯(lián)網(wǎng)信息的通用資源標(biāo)志符(URI)或遠(yuǎn)程文件夾的地址。進(jìn)一步,客戶端還可以設(shè)置本地的信息訂閱源,從而便于檢索本地信息。步驟102:云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端。在這里,客戶端群中的各客戶端分別設(shè)置完各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字之后,首先將設(shè)置的這些互聯(lián)網(wǎng)信息訂閱源及訂閱信息關(guān)鍵字發(fā)送到云處理端。云處理端收到所有的互聯(lián)網(wǎng)信息訂閱源之后,統(tǒng)籌確定下載這些互聯(lián)網(wǎng)信息訂閱源中信息的整體下載任務(wù),并將整體下載任務(wù)予以分割,并具體分配給各客戶端。優(yōu)選的,云處理端可以基于每個互聯(lián)網(wǎng)信息訂閱源在同一時刻只有一個客戶端執(zhí)行下載的任務(wù)分配方式,將下載任務(wù)分配給各客戶端,從而保證下載的唯一性,以免客戶端重復(fù)下載,浪費帶寬和網(wǎng)絡(luò)資源。在一個實施方式中,進(jìn)一步包括預(yù)先設(shè)置各個互聯(lián)網(wǎng)信息訂閱源的下載優(yōu)先級。云處理端可以按照互聯(lián)網(wǎng)信息訂閱源的下載優(yōu)先級,確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于下載優(yōu)先級越高的互聯(lián)網(wǎng)信息訂閱源分配越多的客戶端。在一個實施方式中,云處理端進(jìn)一步判斷各客戶端的閑置狀態(tài)。而且,云處理端按照各客戶端的閑置狀態(tài),確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于越閑置的客戶端分配越多的下載任務(wù)。在一個實施方式中,進(jìn)一步預(yù)先設(shè)置各客戶端的優(yōu)先級。而且,云處理端按照各客戶端的優(yōu)先級,確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于優(yōu)先級越高的客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源的下載任務(wù)分配給越多的客戶端。步驟103:各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端。在這里,各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息;而且,各客戶端可以分別解析各自下載的下載信息,并將各自下載的下載信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);然后各客戶端分別將結(jié)構(gòu)化數(shù)據(jù)發(fā)送到云處理端,從而保證云處理端收到的下載信息為經(jīng)過結(jié)構(gòu)化處理后的下載信息。步驟104:云處理端向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或者云處理端向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或者云處理端向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信肩、O在這里,云處理端可以主動向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或云處理端響應(yīng)于各客戶端的請求分別向各自客戶端提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。而且,云處理端可以主動向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或云處理端響應(yīng)于各客戶端的請求分別向各自客戶端提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息。而且,云處理端可以主動向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或者云處理端響應(yīng)于各客戶端的請求,分別向各自客戶端提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。對于客戶端已獲取的訂閱內(nèi)容(即云處理端發(fā)送來的下載信息),用戶可自由選擇和切換多終端閱讀器模式或者瀏覽器模式來看讀內(nèi)容資源??蛻舳诉€可以對已獲取的訂閱內(nèi)容進(jìn)行編輯排版,然后定期以個人剪報的形式推送給客戶端群中的其他客戶端。引用就是訂閱結(jié)果發(fā)布到個人剪報上面。個人剪報中書簽,標(biāo)簽等的設(shè)置可以為關(guān)鍵詞設(shè)置,信息源以及正負(fù)面中性選擇的設(shè)置。云處理端可以對需要推送給客戶端的下載信息進(jìn)行一定排序后再予以推送。排序方法可以按信息最新,引用最多,評論最多等和用戶行為統(tǒng)計結(jié)果等排序因素為依據(jù)的排序。云處理端也可以對各種排序因素進(jìn)行加權(quán),加權(quán)平均得分高的排在前面。至此,本發(fā)明實現(xiàn)了向用戶精確推送(無論是主動還是被動)訂閱的信息,從而解決了現(xiàn)有技術(shù)中只能盲目地預(yù)先抓取、處理和存儲海量信息的繁瑣工作,因此極大的降低了系統(tǒng)成本。優(yōu)選地,在本發(fā)明的方法中,進(jìn)一步可以基于計算機(jī)語意識別能力的核心技術(shù),能夠幫助計算機(jī)更加智能地識別信息背后的準(zhǔn)確含義。通過將信息進(jìn)行深層、多層次分析,不但了解了其代碼,還識別了信息所要表達(dá)的意圖,從而向用戶提供更準(zhǔn)確的下載信息。具體的,在云處理端,可以運用分析語言線性結(jié)構(gòu)+關(guān)鍵詞(即語塊)的技術(shù)手段,從語言的線性結(jié)構(gòu)和關(guān)鍵詞中精確地提煉出信息的真正意圖。下面更如何識別信息進(jìn)行更加詳細(xì)說明一個待分析的語句包括線性結(jié)構(gòu)和關(guān)鍵詞(即語塊)。其中,語意識別的關(guān)鍵在于識別出語句的線性結(jié)構(gòu)。語言的意義隱藏在語句的線性結(jié)構(gòu)當(dāng)中,語句的線性結(jié)構(gòu)相當(dāng)于語言的常量。語意乃至意義和思維都隱藏在語句的線性結(jié)構(gòu)中的,通過分析語句的線性結(jié)構(gòu),可達(dá)到識別意圖的目的。關(guān)鍵詞相當(dāng)于語言的變量。通過替換相應(yīng)部分(即變量),其語意基本均可保留,能得到較為準(zhǔn)確的檢索或翻譯結(jié)果。而且,雙語、單語均可利用結(jié)構(gòu)分析來精確識別語意。通過對浩如煙海的文獻(xiàn)資料逐句進(jìn)行線性結(jié)構(gòu)+關(guān)鍵詞分析,我們可以獲得充分的語句線性結(jié)構(gòu)和關(guān)鍵詞(即語塊)。舉例說明I、鄉(xiāng)村旅游作為中國旅游業(yè)的重要組成部分和促進(jìn)旅游業(yè)發(fā)展的重要支撐。(示例I)2、中國經(jīng)濟(jì)作為世界經(jīng)濟(jì)的重要組成部分和促講全球金融穩(wěn)定的重要支撐。(示例2)通過分析上面兩個例子,可以發(fā)現(xiàn)“鄉(xiāng)村旅游”、“中國旅游業(yè)”和“旅游業(yè)發(fā)展”相當(dāng)于示例I的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X作為X的重要組成部分和促進(jìn)X的重要支撐”(其中X表示空白)相當(dāng)于示例I的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中。類似地,“中國經(jīng)濟(jì)”、“世界經(jīng)濟(jì)”、“全球金融穩(wěn)定”相當(dāng)于示例2的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X作為X的重要組成部分和促進(jìn)X的重要支撐”(其中X表示空白)相當(dāng)于示例2的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中??梢园l(fā)現(xiàn),這兩個示例的線性結(jié)構(gòu)完全相同,區(qū)別僅僅在于變量不同??梢詫ⅰ癤作為X的重要組成部分和促進(jìn)X的重要支撐”(其中X表示空白)定義為一種線性結(jié)構(gòu),而“鄉(xiāng)村旅游”、“中國旅游業(yè)”、“旅游業(yè)發(fā)展”、“中國經(jīng)濟(jì)”、“世界經(jīng)濟(jì)”和“全球金融穩(wěn)定”定義為關(guān)鍵詞(即語塊)。其中,我們可以將一些常用的固有名詞和/或動名詞確定為常量,但是變量并不局限于固有名詞和/或動名詞。在某些情況下,變量也可以是一種常用的短語,甚至比較長的句子。另外,在確定常量和線性結(jié)構(gòu)時,劃分方式可能并不是唯一的。對于變量最少的劃分方式,其所對應(yīng)的線性結(jié)構(gòu)稱為最小線性結(jié)構(gòu)。一般地,變量越少,可以認(rèn)為所對應(yīng)的線性結(jié)構(gòu)所表達(dá)的信息越充分,則對應(yīng)搜索的信息越精確。再舉例說明I、阿凡汰熱潮席卷中國。(示例3)2、炒股熱潮席卷世界。(示例4)通過分析上面兩個例子,可以發(fā)現(xiàn),“阿凡達(dá)”和“中國”相當(dāng)于示例3的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X熱潮席卷X”(其中X表示空白)相當(dāng)于示例3的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中。類似地,“炒股”和“世界”相當(dāng)于示例4的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X熱潮席卷X”(其中X表示空白)相當(dāng)于示例4的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中??梢园l(fā)現(xiàn),這兩個示例的線性結(jié)構(gòu)相同,區(qū)別僅僅在于變量不同。可以將“X熱潮席卷X”(其中X表示空白)定義為一種線性結(jié)構(gòu),而“阿凡達(dá)”、“中國”、“炒股”和“世界”定義為關(guān)鍵詞(即語塊)。再次舉例說明I、他們呼吁歐委會客觀、公I(xiàn)H地對待中國企業(yè)的市場經(jīng)濟(jì)待遇申請。(示例5)2、國際足聯(lián)呼吁愛爾蘭客觀、公I(xiàn)H地對待世界杯預(yù)詵賽與法國隊的比賽結(jié)果。(示例6)3、國際社會呼吁六方會談客觀、公I(xiàn)H地對待朝鮮問題。(示例7)4、中國呼吁日本政府客觀、公lH地對待二戰(zhàn)歷史.問題。(示例8)通過分析上面四個例子,可以發(fā)現(xiàn)“他們”、“歐委會”和“中國企業(yè)的市場經(jīng)濟(jì)待遇申請”相當(dāng)于示例5的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X呼吁X客觀、公正地對待X”(其中X表示空白)相當(dāng)于示例5的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中。類似地,“國際足聯(lián)”、“愛爾蘭”和“世界杯預(yù)選賽與法國隊的比賽結(jié)果”相當(dāng)于示例6的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X呼吁X客觀、公正地對待X”(其中X表示空白)相當(dāng)于示例6的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中。類似地,“國際社會”、“六方會談”和“朝鮮問題”相當(dāng)于示例6的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X呼吁X客觀、公正地對待X”(其中X表示空白)相當(dāng)于示例6的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中。類似地,“中國”、“日本政府”和“二戰(zhàn)歷史問題”相當(dāng)于示例7的變量,因為通過替換相應(yīng)部分(即變量),其語意基本均可保留。而“X呼吁X客觀、公正地對待X”(其中X表示空白)相當(dāng)于示例7的線性結(jié)構(gòu),也就是語言的常量,因為語言的意義隱藏在該線性結(jié)構(gòu)當(dāng)中??梢园l(fā)現(xiàn),這四個示例的線性結(jié)構(gòu)相同,區(qū)別僅僅在于變量不同??梢詫ⅰ癤呼吁X客觀、公正地對待X”(其中X表示空白)”定義為一種線性結(jié)構(gòu),而“他們”、“歐委會”、“中國企業(yè)的市場經(jīng)濟(jì)待遇申請”、“國際足聯(lián)”、“愛爾蘭”、“世界杯預(yù)選賽與法國隊的比賽結(jié)果”、“國際社會”、“六方會談”、“朝鮮問題”、“中國”、“日本政府”和“二戰(zhàn)歷史問題”定義為關(guān)鍵詞(即語塊)?;谏鲜龇治觯ㄟ^對大量文獻(xiàn)(包括網(wǎng)絡(luò)文章、博客、教科書、各種電子文檔等)進(jìn)行上述切分,我們就可以得到充分的線性結(jié)構(gòu)庫和關(guān)鍵詞(即語塊)庫。下面再詳細(xì)描述本發(fā)明云處理端基于語意識別的自然語言處理方式。首先,云處理端可以對預(yù)先獲取的原始文字信息(可以為各客戶端發(fā)送來的下載信息)利用符號切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊。在這里,云處理端首先將預(yù)先獲取的原始文字信息(比如,一篇文章或者一篇社論,通常為篇章級)利用符號切分為若干個字符串,并從切出的字符串中依次提取出語言線性結(jié)構(gòu)和語塊(具體的提取步驟可以參照前述示例分析)。此處“篇章級”并不意味著對詞語的數(shù)目有任何特定的限定。實質(zhì)上,只要有一些詞匯,并且這些詞匯之間所組成的語句具有意義,就可以認(rèn)為這些詞匯構(gòu)成了“篇章級”。更具體地,可以根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標(biāo)識號、代替號、連珠號和/或箭頭號等標(biāo)點符號,將篇章級的詞語切分為字符串。比如,可以將任意的兩個標(biāo)點符號之間的文字提取為字符串(對于文章的起始,只需要一個標(biāo)點符號)。在確定關(guān)鍵字(語塊)時,我們可以使用一個基于篇章的局部子串統(tǒng)計表(hashtable)作為臨時輔助詞典。也就是說,如果出現(xiàn)在臨時輔助詞典中,我們就可以將其確定為語塊。不過,某些沒有出現(xiàn)在局部子串統(tǒng)計表中的,也可以將其確定為語塊。還可以用基于多路徑規(guī)劃的切分路徑樹作為切分模型,首先將英文(ASCII)、簡體中文(GBK/GB18030)、繁體中文(臺灣BIG5、香港BIG5-HKSCS)等字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式之后再進(jìn)行切分,并在多個正確切分結(jié)果的基礎(chǔ)上提取語塊。提取完語塊之后,剩余的部分就是線性結(jié)構(gòu)。然后,云處理端分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排。在這里,倒排具體包括對于每個合格的語塊,將該語塊所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結(jié)構(gòu),放入該語塊所在的動態(tài)文件中;其中語塊可以為任意的字符串,主要包括如下類別詞典詞條、專名、專名的內(nèi)部詞匯、各類詞組/搭配關(guān)系、n-grams、連續(xù)的stopwords、詞+數(shù)字、任意的ASCII串、郵編與電話號碼等。而對于每個合格的語言線性結(jié)構(gòu),可以將該語言線性結(jié)構(gòu)所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結(jié)構(gòu),放入該語塊所在的動態(tài)文件中。接著,云處理端創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索弓丨,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引。在這里,將內(nèi)存中的全部語塊索引項(indexterms)寫入語塊詞匯表(vocabulary)文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關(guān)聯(lián)信息寫入詞典(dictionary)文件。這三個文件構(gòu)成一個完整、獨立的索引段(indexrun),即語塊子索引。而且,將內(nèi)存中的全部線性結(jié)構(gòu)索引項(indexterms)寫入線性結(jié)構(gòu)詞匯表(vocabulary)文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關(guān)聯(lián)信息寫入線性結(jié)構(gòu)詞典(dictionary)文件。這三個文件構(gòu)成一個完整、獨立的索引段(indexrun),即線性結(jié)構(gòu)子索引。然后,云處理端將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引。至此,完成在云處理端對于語意識別的處理。然后,可以從用戶輸入的檢索輸入字符串中提取出語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的下載信息。在這里,首先從用戶的檢索輸入字符串中提取出線性結(jié)構(gòu)和語塊。比如,假如用戶輸入“我很喜歡吃煙臺產(chǎn)的大蘋果。”則提取出語塊“我”、“煙臺產(chǎn)的大蘋果”,以及線性結(jié)構(gòu)X很喜歡吃X(其中X為空白),然后在整體索引中檢索出匹配線性結(jié)構(gòu)“X很喜歡吃X”,以及語塊“我”、“煙臺產(chǎn)的大蘋果”的信息,并且按照匹配程度由高到低的順序向用戶呈現(xiàn)。在一個實施方式中,用戶在步驟101中輸入的訂閱信息關(guān)鍵字可以包括屬性信息。比如,假如客戶端I為個人電腦端,其對“新浪財經(jīng)”這個網(wǎng)站感興趣,并且對李開復(fù)的負(fù)面新聞感興趣。那么,其所設(shè)置的互聯(lián)網(wǎng)信息訂閱源為新浪財經(jīng)的URL,設(shè)置的訂閱信息關(guān)鍵字為“李開復(fù)”,并且將該訂閱信息關(guān)鍵字的屬性設(shè)置為“負(fù)面”。云處理端中可以針對整體索引中存儲的線性結(jié)構(gòu)預(yù)先進(jìn)行屬性分類。比如,可以將線性結(jié)構(gòu)“XX出現(xiàn)黃色新聞”的信息設(shè)置為負(fù)面。然后針對新浪財經(jīng)中關(guān)于李開復(fù)新聞的各種文章,分別分析線性結(jié)構(gòu)和語塊。如果經(jīng)過分析發(fā)現(xiàn)了一定量(具體數(shù)量可以自行設(shè)置)的負(fù)面屬性線性結(jié)構(gòu),則認(rèn)定該文章為涉及李開復(fù)負(fù)面新聞的文章,并推送給用戶。在一個實施方式中,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,可以認(rèn)為這種匹配程度越高。在一個實施方式中,還可以預(yù)先設(shè)置語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。其中,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息具體可以包括在所述整體索引中分別檢索該輸入字符串的語言線性結(jié)構(gòu)和語塊,以確定整體索引中與該輸入字符串的語言線性結(jié)構(gòu)相對應(yīng)的語言線性結(jié)構(gòu),以及確定整體索引中與該輸入字符串的語塊相對應(yīng)的語塊;向用戶反饋整體索引中該相對應(yīng)的語言線性結(jié)構(gòu)和該相對應(yīng)的語塊所涉及的信肩、O可以將本發(fā)明的流程應(yīng)用于多種具體的實際應(yīng)用中,比如信息檢索以及多語言翻譯。當(dāng)應(yīng)用于多語言翻譯時,假設(shè)用戶的檢索輸入字符串為用第一語言表述的檢索輸入字符串。此時,從用戶的檢索輸入字符串中提取出該輸入字符串用第一語言表述的語言線性結(jié)構(gòu)和語塊;然后再確定與該用第一語言表述的語言線性結(jié)構(gòu)和語塊相對應(yīng)的用第二語言表述的語言線性結(jié)構(gòu)和語塊;根據(jù)所述的整體索引向用戶反饋與用第二語言表述的語言線性結(jié)構(gòu)和語塊相匹配且同樣用第二語言表述的信息。其中,第一語言可以為中文,第二語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,等等。可選的,第一語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,第二語言為中文等。舉例用戶期望將中文“我要去上?!狈g成英文。此時,用戶輸入的檢索輸入字符串為“我要去上?!保⒂弥形谋硎?。首先,從用戶的檢索輸入字符串中提取出該輸入字符串用中文表述的語言線性結(jié)構(gòu)(即x要去X,其中X為空白)和中文表述的語塊(我,上海);然后再確定與該用中文表述的語言線性結(jié)構(gòu)相對應(yīng)的用英語表述的語言線性結(jié)構(gòu)(即Xwanttogoto),以及確定與該用中文表述的語塊相對應(yīng)的用英語表述的語塊(即I,Shanghai)。最后,將語塊和線性結(jié)構(gòu)組合成翻譯的語句IwanttogotoShanghai,并呈現(xiàn)給用戶。進(jìn)一步地,還可以再根據(jù)整體索引向用戶反饋與線性結(jié)構(gòu)(Xwanttogoto)語塊(I,Shanghai)相匹配且用第二語言表述的信息,從而便于用戶檢索與IwanttogotoShanghai相關(guān)的英文信息。在上述過程中,示范性地應(yīng)用了一種高性能的單遍內(nèi)存倒排算法,而不生成任何臨時磁盤文件。因此,在導(dǎo)出內(nèi)存內(nèi)容之前,除了MAP數(shù)據(jù),系統(tǒng)沒有任何文件1/0開銷。同時,它也不需要對indexterms編號,并且不對indexterm(編號或者內(nèi)存字符串指針)做任何排序運算。另外,該方法使用所有可用的空閑物理內(nèi)存進(jìn)行倒排。這些性質(zhì)保證了這個倒排方法可具有非凡的時空效率,可支持一系列高效的動態(tài)索引合并和索引更新的方法。同時,具備該特性的倒排索引還完全適用于分布式處理。在上述過程中,另一個關(guān)鍵特征是其查找數(shù)據(jù)結(jié)構(gòu)具備caching功能,這個特性可支持幾乎任意大的索引詞表(即vocabulary文件)。vocabulary文件本身是放在磁盤上,能夠保存的索引項的數(shù)目不受限制(在64-bit文件系統(tǒng)上),可多達(dá)數(shù)億條。通過caching功能,該算法可以在46GB內(nèi)存的x64服務(wù)器上達(dá)到與包括多臺同等或更高配置的服務(wù)器的集群查詢系統(tǒng)相近的索引詞表查詢性能。而且,indexterms可以為任意的字符串,主要包括如下類別(termcategories):詞典詞條、專名、專名的內(nèi)部詞匯、各類詞組/搭配關(guān)系、n-grams、連續(xù)的stopwords、詞+數(shù)字、任意的ASCII串、郵編與電話號碼等?;谏鲜龇治觯景l(fā)明實施方式還提出了一種互聯(lián)網(wǎng)信息訂閱系統(tǒng)。圖2為互聯(lián)網(wǎng)信息訂閱系統(tǒng)的結(jié)構(gòu)圖。其中,系統(tǒng)包括客戶端群和位于遠(yuǎn)端的云處理端,客戶端群和云處理端通過互聯(lián)網(wǎng)連接。在圖2中,客戶端群具體包括個人電腦端、移動終端、智能家電、智能終端或超級文本預(yù)處理語言PHP網(wǎng)站端,等。其中客戶端群中的各客戶端,用于分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;并分別按照云處理端分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端,用于確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;并且用于向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信肩、O而且,客戶端群中的各客戶端,可以用于分別設(shè)置各自互聯(lián)網(wǎng)信息訂閱站點的統(tǒng)一資源定位符URL、互聯(lián)網(wǎng)信息的通用資源標(biāo)志符URI或遠(yuǎn)程文件夾的地址。在一個實施方式中,云處理端,用于基于每個互聯(lián)網(wǎng)信息訂閱源在同一時刻只有一個客戶端執(zhí)行下載的任務(wù)分配方式,將所述下載任務(wù)分配給各客戶端?;谏鲜龇治?,云處理端,可以進(jìn)一步用于對預(yù)先獲取的原始文字信息利用符號切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊,并分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排,創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索引,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引;并從用戶在各客戶端中輸入的檢索輸入字符串中提取出該輸入字符串的語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的下載信息。更具體地,云處理端,可以用于使用基于篇章的局部子串統(tǒng)計表作為臨時輔助詞典,用基于多路徑規(guī)劃的切分路徑樹作為切分模型,對預(yù)先獲取的原始文字信息的字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式;對轉(zhuǎn)換為UTF-8編碼格式后的預(yù)先獲取的原始文字信息利用符號切分為字符串。在一個實施方式中,云處理端,可以依據(jù)語言線性結(jié)構(gòu)和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。而且,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,所述匹配程度越高。在另一個實施方式中,云處理端進(jìn)一步預(yù)先設(shè)置有語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;云處理端,用于基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);其中當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。云處理端,還可以用于在所述整體索引中分別檢索該輸入字符串的語言線性結(jié)構(gòu)和語塊,以確定整體索引中與該輸入字符串的語言線性結(jié)構(gòu)相對應(yīng)的語言線性結(jié)構(gòu),以及確定整體索引中與該輸入字符串的語塊相對應(yīng)的語塊;并向用戶反饋整體索引中該相對應(yīng)的語言線性結(jié)構(gòu)和該相對應(yīng)的語塊所涉及的信息。可以將云處理端的語意識別功能具體為一個特定的集成裝置,并將該裝置集成到云處理端。圖3為根據(jù)本發(fā)明實施方式的基于語意識別的自然語言處理裝置結(jié)構(gòu)圖。如圖3所示,該裝置包括提取單元301、倒排單元302、索引單元303和匹配信息反饋單元304,其中提取單元301,用于將篇章級的詞語(篇章級的詞語可以來自于由客戶端提供的下載信息,或者自行通過Spider爬取篇章級的詞語)利用符號切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊;具體地,提取單元301首先將篇章級的詞語(比如,一篇文章或者一篇社論)利用符號切分為若干個字符串,并從切出的字符串中依次提取出語言線性結(jié)構(gòu)和語塊(具體的提取步驟可以參照前述示例分析)。更具體地,可以根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標(biāo)識號、代替號、連珠號和箭頭號等標(biāo)點符號,將篇章級的詞語切分為字符串。比如,可以將任意的兩個標(biāo)點符號之間的文字提取為字符串(對于文章的起始,只需要一個標(biāo)點符號)。在確定關(guān)鍵字(語塊)時,可以使用一個基于篇章的局部子串統(tǒng)計表(hashtable)作為臨時輔助詞典。也就是說,如果出現(xiàn)在臨時輔助詞典中,就可以將其確定為語塊。不過,某些沒有出現(xiàn)在局部子串統(tǒng)計表中的,也可以將其確定為語塊。還可以用基于多路徑規(guī)劃的切分路徑樹作為切分模型,首先將英文(ASCII)、簡體中文(GBK/GB18030)、繁體中文(臺灣BIG5、香港BIG5-HKSCS)等字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式之后再進(jìn)行切分,并在多個正確切分結(jié)果的基礎(chǔ)上提取語塊。提取完語塊之后,剩余的部分就是線性結(jié)構(gòu)。倒排單元302,用于分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排;具體地,倒排單元302對于每個合格的語塊,將該語塊所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結(jié)構(gòu),放入該語塊所在的動態(tài)文件中;其中語塊可以為任意的字符串,主要包括如下類別詞典詞條、專名、專名的內(nèi)部詞匯、各類詞組/搭配關(guān)系、n-grams、連續(xù)的stopwords、詞+數(shù)字、任意的ASCII串、郵編與電話號碼等。而對于每個合格的語言線性結(jié)構(gòu),倒排單元202可以將該語言線性結(jié)構(gòu)所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結(jié)構(gòu),放入該語塊所在的動態(tài)文件中。索引單元303,用于創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索引,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引;具體地,索引單元303將內(nèi)存中的全部語塊索引項(indexterms)寫入vocabulary文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關(guān)聯(lián)信息寫入dictionary文件。這三個文件構(gòu)成一個完整、獨立的索引段(indexrun),即語塊子索引。而且,將內(nèi)存中的全部線性結(jié)構(gòu)索引項(indexterms)寫入vocabulary文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關(guān)聯(lián)信息寫入dictionary文件。這三個文件構(gòu)成一個完整、獨立的索引段(indexrun),即線性結(jié)構(gòu)子索引。最后,索引單元303將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引。匹配信息反饋單元304,用于從用戶的檢索輸入字符串中提取出語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。在一個實施方式中,匹配信息反饋單元304,用于依據(jù)語言線性結(jié)構(gòu)和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。而且,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,所述匹配程度越高。在一個實施方式中,匹配信息反饋單元304,進(jìn)一步用于預(yù)先設(shè)置語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;并基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);其中當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高?;谏鲜鲈敿?xì)說明,本發(fā)明實施方式還提出了一種可以實現(xiàn)語意識別的信息訂閱系統(tǒng)的結(jié)構(gòu)圖。圖4為根據(jù)本發(fā)明實施方式的可以實現(xiàn)語意識別的信息訂閱系統(tǒng)的結(jié)構(gòu)圖。如圖4所示,該系統(tǒng)包括客戶端群和位于遠(yuǎn)程的云處理端。客戶端群和云處理端通過互聯(lián)網(wǎng)連接??蛻舳巳褐械母骺蛻舳耍糜诜謩e設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;并分別按照云處理端分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端。位于遠(yuǎn)程的云端包括信息收集裝置401、資料存儲裝置402、自然語言處理裝置403、索引存儲裝置404和檢索服務(wù)裝置405。其中信息收集裝置401,用于對互聯(lián)網(wǎng)進(jìn)行掃描檢測,爬取互聯(lián)網(wǎng)上的信息;信息收集裝置401,還用于確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端。信息收集裝置401,還用于向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。資料存儲裝置402,用于存儲由信息收集裝置401爬取到的互聯(lián)網(wǎng)信息以及各個客戶端發(fā)送來的下載信息,并優(yōu)選提供互聯(lián)網(wǎng)信息的快速定位查找;自然語言處理裝置403,用于利用符號對存儲于資料存儲裝置402中的篇章級的詞語,切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊;并分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排;以及用于創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索引,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引;索引存儲裝置404,用于存儲由自然語言處理裝置403生成的整體索引;檢索服務(wù)裝置405,用于從用戶的檢索輸入字符串中提取出語言線性結(jié)構(gòu)和語塊,并根據(jù)索引存儲裝置存儲的所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。其中,信息收集裝置401進(jìn)一步可以接受報刊、廣電和各個媒體會員等所提供的上傳信息(比如新聞資源)服務(wù)。而且,檢索服務(wù)裝置405可以針對普通用戶免費查詢新聞,以及針對專業(yè)用戶注冊并付費之后開通高端服務(wù)。優(yōu)選地,自然語言處理裝置403,用于根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標(biāo)識號、代替號、連珠號和箭頭號,將所述篇章級的詞語切分為字符串。優(yōu)選地,自然語言處理裝置403,用于使用基于篇章的局部子串統(tǒng)計表作為臨時輔助詞典,用基于多路徑規(guī)劃的切分路徑樹作為切分模型,將所述篇章級的詞的等字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式;并對轉(zhuǎn)換為UTF-8編碼格式后的篇章級的詞語利用符號切分為字符串。而且,檢索服務(wù)裝置405,可以用于依據(jù)匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。在一個實施方式中,檢索服務(wù)裝置405,用于依據(jù)語言線性結(jié)構(gòu)和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。其中,優(yōu)選地,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,所述匹配程度越高。在一個實施方式中,檢索服務(wù)裝置405,進(jìn)一步用于預(yù)先設(shè)置語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;并基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);其中當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。在一個實施方式中,檢索服務(wù)裝置405,用于在所述整體索引中分別檢索該輸入字符串的語言線性結(jié)構(gòu)和語塊,以確定整體索引中與該輸入字符串的語言線性結(jié)構(gòu)相對應(yīng)的語言線性結(jié)構(gòu),以及確定整體索引中與該輸入字符串的語塊相對應(yīng)的語塊;向用戶反饋整體索引中該相對應(yīng)的語言線性結(jié)構(gòu)和該相對應(yīng)的語塊所涉及的信息。在一個實施方式中,檢索服務(wù)裝置405,用于從用戶的檢索輸入字符串中提取出該輸入字符串用第一語言表述的語言線性結(jié)構(gòu)和語塊;確定與該用第一語言表述的語言線性結(jié)構(gòu)和語塊相對應(yīng)的用第二語言表述的語言線性結(jié)構(gòu)和語塊;根據(jù)所述的整體索引向用戶反饋與用第二語言表述的語言線性結(jié)構(gòu)和語塊相匹配且同樣用第二語言表述的信息??蛇x地,第一語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文等,第二語言為中文。第一語言還可以為中文,第二語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,等。綜上所述,在本發(fā)明實施方式中,在本發(fā)明實施方式中,首先客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字,然后云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,各客戶端再分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端,最后云處理端再向各客戶端推送所訂閱的信息。由此可見,在本發(fā)明中實現(xiàn)了向用戶精確推送(無論是主動還是被動)訂閱的信息,從而解決了現(xiàn)有技術(shù)中盲目地預(yù)先抓取、處理和存儲海量信息的繁瑣工作,因此極大的降低了系統(tǒng)成本。而且,本發(fā)明中,由于客戶端的數(shù)量可以龐大,從而能夠?qū)崿F(xiàn)非常快的掃描,當(dāng)互聯(lián)網(wǎng)中的發(fā)生突發(fā)信息時,有很大概率總有客戶端能夠抓取到相應(yīng)信息,因此可以及時向用戶提供相關(guān)突發(fā)信息另外,在本發(fā)明中運用了分析語言結(jié)構(gòu)+關(guān)鍵詞的技術(shù)手段,從語言的線性結(jié)構(gòu)和關(guān)鍵詞中精確地提煉出信息的真正意圖,并用排序的方式智能選擇反饋結(jié)果,可以基于計算機(jī)語意識別能力的核心技術(shù),能夠更加智能地識別信息背后的準(zhǔn)確含義,從而可以準(zhǔn)確地向用戶反饋所需要的信息。而且,通過將信息進(jìn)行深層、多層次分析,不但了解了其代碼,還識別了信息所要表達(dá)的意圖,使計算機(jī)更智能、更人性化地與人類溝通。另外,相比較以傳統(tǒng)的關(guān)鍵詞過濾方法來屏蔽不良信息,只能識別到詞(通稱關(guān)鍵詞)這一級別,無法更深地延展也不能識別全篇所要表達(dá)的內(nèi)容的缺點,本發(fā)明實施方式可以將語意識別技術(shù)應(yīng)用于網(wǎng)絡(luò)監(jiān)管,以可以發(fā)揮更高的效率,使監(jiān)管變得更加智能。比如在某篇新聞中經(jīng)常出現(xiàn)“達(dá)賴?yán)镄M惑人心”和“西藏獨立對藏民無益”等語句反復(fù)出現(xiàn)。全篇文章實際表達(dá)的是正面的信息內(nèi)容,但因為“達(dá)賴”和“藏獨”等關(guān)鍵詞出現(xiàn)頻率太多卻極易被屏蔽。這就是使用單一關(guān)鍵詞監(jiān)管的軟肋。若使用語意識別技術(shù)監(jiān)管,其不但識別關(guān)鍵詞,還會通過分析語句結(jié)構(gòu)來識別所要表達(dá)的意圖,從而實現(xiàn)更智能的網(wǎng)絡(luò)監(jiān)管。使上述文章不會被屏蔽,達(dá)到“西藏應(yīng)該獨立”一屏蔽、“西藏獨立對西藏有害”一不屏蔽的精準(zhǔn)效果。由于本發(fā)明無需Spider去抓取信息,而是由各個客戶端自行獲取信息,因此當(dāng)網(wǎng)絡(luò)上存在著Spider無法訪問的封閉網(wǎng)絡(luò)或者屏蔽網(wǎng)站時,只要客戶端群中有一個客戶端能夠獲取訪問,該信息便能夠被推送,因此可訪問信息量也大增。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1.一種互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法包括客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或者云處理端向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或者云處理端向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。2.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述客戶端群中的各客戶端為個人電腦端、移動終端、智能家電、智能終端或超級文本預(yù)處理語言PHP網(wǎng)站端。3.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,客戶端群中的各客戶端分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源包括客戶端群中的各客戶端分別設(shè)置各自互聯(lián)網(wǎng)信息訂閱站點的統(tǒng)一資源定位符URL、互聯(lián)網(wǎng)信息的通用資源標(biāo)志符URI或遠(yuǎn)程文件夾的地址。4.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端包括云處理端基于每個互聯(lián)網(wǎng)信息訂閱源在同一時刻只有一個客戶端執(zhí)行下載的任務(wù)分配方式,將所述下載任務(wù)分配給各客戶端。5.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,進(jìn)一步包括預(yù)先設(shè)置各個互聯(lián)網(wǎng)信息訂閱源的下載優(yōu)先級;所述云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端包括云處理端按照互聯(lián)網(wǎng)信息訂閱源的下載優(yōu)先級,確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于下載優(yōu)先級越高的互聯(lián)網(wǎng)信息訂閱源分配越多的客戶端。6.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,進(jìn)一步判斷各客戶端的閑置狀態(tài);所述云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端包括云處理端按照各客戶端的閑置狀態(tài),確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于越閑置的客戶端分配越多的下載任務(wù)。7.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,進(jìn)一步預(yù)先設(shè)置各客戶端的優(yōu)先級;所述云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端包括云處理端按照各客戶端的優(yōu)先級,確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端,其中對于優(yōu)先級越高的客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源的下載任務(wù)分配給越多的客戶端。8.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,所述各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端包括各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息;各客戶端分別解析各自下載的下載信息,并將各自下載的下載信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);各客戶端分別將結(jié)構(gòu)化數(shù)據(jù)發(fā)送到云處理端。9.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,云處理端主動向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或云處理端響應(yīng)于各客戶端的請求分別向各自客戶端提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。10.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,云處理端主動向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或云處理端響應(yīng)于各客戶端的請求分別向各自客戶端提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息。11.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法中,云處理端主動向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或者云處理端響應(yīng)于各客戶端的請求,分別向各自客戶端提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息。12.根據(jù)權(quán)利要求I所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法進(jìn)一步包括云處理端對預(yù)先獲取的原始文字信息利用符號切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊,并分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排,創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索引,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引;云處理端從用戶在各客戶端中輸入的檢索輸入字符串中提取出該輸入字符串的語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的下載信息。13.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述預(yù)先獲取的原始文字信息包括各客戶端發(fā)送來的下載信息。14.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述云處理端對預(yù)先獲取的原始文字信息利用符號切分為字符串包括云處理端根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標(biāo)識號、代替號、連珠號和/或箭頭號,將所述預(yù)先獲取的原始文字信息切分為字符串。15.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述云處理端對預(yù)先獲取的原始文字信息利用符號切分為字符串包括云處理端使用基于篇章的局部子串統(tǒng)計表作為臨時輔助詞典,用基于多路徑規(guī)劃的切分路徑樹作為切分模型,將預(yù)先獲取的原始文字信息的字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式;對轉(zhuǎn)換為UTF-8編碼格式后的預(yù)先獲取的原始文字信息利用符號切分為字符串。16.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息包括依據(jù)語言線性結(jié)構(gòu)和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的下載信息。17.根據(jù)權(quán)利要求16所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,所述匹配程度越高。18.根據(jù)權(quán)利要求16所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,預(yù)先設(shè)置語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。19.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息包括在所述整體索引中分別檢索該輸入字符串的語言線性結(jié)構(gòu)和語塊,以確定整體索引中與該輸入字符串的語言線性結(jié)構(gòu)相對應(yīng)的語言線性結(jié)構(gòu),以及確定整體索引中與該輸入字符串的語塊相對應(yīng)的語塊;向用戶反饋整體索引中該相對應(yīng)的語言線性結(jié)構(gòu)和該相對應(yīng)的語塊所涉及的信息。20.根據(jù)權(quán)利要求12所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述用戶的檢索輸入字符串為用第一語言表述的檢索輸入字符串;所述從用戶的檢索輸入字符串中提取出該輸入字符串的語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息包括從用戶的檢索輸入字符串中提取出該輸入字符串用第一語言表述的語言線性結(jié)構(gòu)和語塊;確定與該用第一語言表述的語言線性結(jié)構(gòu)和語塊相對應(yīng)的用第二語言表述的語言線性結(jié)構(gòu)和語塊;根據(jù)所述的整體索引向用戶反饋與用第二語言表述的語言線性結(jié)構(gòu)和語塊相匹配且同樣用第二語言表述的信息。21.根據(jù)權(quán)利要求20所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,所述第一語言為中文,第二語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文;或第一語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,第二語言為中文。22.根據(jù)權(quán)利要求1-21中任一項所述的互聯(lián)網(wǎng)信息訂閱方法,其特征在于,該方法進(jìn)一步包括各客戶端采取多終端閱讀器模式或者瀏覽器模式查閱由云處理端提供的下載信息。23.一種互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,該系統(tǒng)包括客戶端群和位于遠(yuǎn)端的云處理端,客戶端群和云處理端通過互聯(lián)網(wǎng)連接;其中客戶端群中的各客戶端,用于分別設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;并分別按照云處理端分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端,用于確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;并且用于向各客戶端分別提供與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信息,或向各客戶端分別提供來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中的下載信息,或向各客戶端分別提供既來自于各自客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源,又與各自客戶端所預(yù)先設(shè)定的訂閱信息關(guān)鍵字相對應(yīng)的下載信肩、O24.根據(jù)權(quán)利要求23的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,所述客戶端群中的各客戶端為個人電腦端、移動終端、智能家電、智能終端或超級文本預(yù)處理語言PHP網(wǎng)站端。25.根據(jù)權(quán)利要求23的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,客戶端群中的各客戶端,用于分別設(shè)置各自互聯(lián)網(wǎng)信息訂閱站點的統(tǒng)一資源定位符URL、互聯(lián)網(wǎng)信息的通用資源標(biāo)志符URI或遠(yuǎn)程文件夾的地址。26.根據(jù)權(quán)利要求23的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端,用于基于每個互聯(lián)網(wǎng)信息訂閱源在同一時刻只有一個客戶端執(zhí)行下載的任務(wù)分配方式,將所述下載任務(wù)分配給各客戶端。27.根據(jù)權(quán)利要求23的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端,進(jìn)一步用于對預(yù)先獲取的原始文字信息利用符號切分為字符串,并從切出的字符串中提取出語言線性結(jié)構(gòu)和語塊,并分別對提取出的語言線性結(jié)構(gòu)以及語塊進(jìn)行倒排,創(chuàng)建語言線性結(jié)構(gòu)子索引以及語塊子索引,并將語言線性結(jié)構(gòu)子索引和語塊子索引予以合并,以形成整體索引;并從用戶在各客戶端中輸入的檢索輸入字符串中提取出該輸入字符串的語言線性結(jié)構(gòu)和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的下載信息。28.根據(jù)權(quán)利要求27的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,所述預(yù)先獲取的原始文字信息包括各客戶端發(fā)送來的下載信息。29.根據(jù)權(quán)利要求27的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端,用于使用基于篇章的局部子串統(tǒng)計表作為臨時輔助詞典,用基于多路徑規(guī)劃的切分路徑樹作為切分模型,對預(yù)先獲取的原始文字信息的字符編碼統(tǒng)一轉(zhuǎn)換為UTF-8編碼格式;對轉(zhuǎn)換為UTF-8編碼格式后的預(yù)先獲取的原始文字信息利用符號切分為字符串O30.根據(jù)權(quán)利要求27的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端,依據(jù)語言線性結(jié)構(gòu)和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)和語塊相匹配的信息。31.根據(jù)權(quán)利要求30的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,當(dāng)從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的重復(fù)字?jǐn)?shù)越多時,所述匹配程度越聞。32.根據(jù)權(quán)利要求30的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端進(jìn)一步預(yù)先設(shè)置有語言線性結(jié)構(gòu)重復(fù)權(quán)重和語塊重復(fù)權(quán)重;云處理端,用于基于所述語言線性結(jié)構(gòu)重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語言線性結(jié)構(gòu)與整體索引中的語言線性結(jié)構(gòu)的第一重疊指數(shù),并基于語塊重復(fù)權(quán)重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);其中當(dāng)所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。33.根據(jù)權(quán)利要求27的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,云處理端,用于在所述整體索引中分別檢索該輸入字符串的語言線性結(jié)構(gòu)和語塊,以確定整體索引中與該輸入字符串的語言線性結(jié)構(gòu)相對應(yīng)的語言線性結(jié)構(gòu),以及確定整體索引中與該輸入字符串的語塊相對應(yīng)的語塊;并向用戶反饋整體索引中該相對應(yīng)的語言線性結(jié)構(gòu)和該相對應(yīng)的語塊所涉及的信息。34.根據(jù)權(quán)利要求23-33中任一項所述的互聯(lián)網(wǎng)信息訂閱系統(tǒng),其特征在于,各客戶端,用于采取多終端閱讀器模式或者瀏覽器模式查閱由云處理端提供的下載信息。全文摘要本發(fā)明實施方式公開了一種互聯(lián)網(wǎng)信息訂閱方法和系統(tǒng)??蛻舳巳褐械母骺蛻舳朔謩e設(shè)置各自的互聯(lián)網(wǎng)信息訂閱源及各自的訂閱信息關(guān)鍵字;云處理端確定用于下載各客戶端所設(shè)置的互聯(lián)網(wǎng)信息訂閱源中信息的下載任務(wù),并將所述下載任務(wù)分配給各客戶端;各客戶端分別按照分配給自身的下載任務(wù),各自下載對應(yīng)于分配給自身的下載任務(wù)的下載信息,并分別將下載信息發(fā)送到云處理端;云處理端向各客戶端分別提供各自所訂閱的下載信息。應(yīng)用本發(fā)明以后,可以降低成本,快速并精確獲取信息。文檔編號G06F17/30GK102789465SQ20111013107公開日2012年11月21日申請日期2011年5月20日優(yōu)先權(quán)日2011年5月20日發(fā)明者不公告發(fā)明人申請人:北京移動點擊科技有限公司