專利名稱:一種從xml文件篩選信息的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信數(shù)據(jù)處理 領(lǐng)域,特別涉及ー種從XML文件篩選信息的方法。
背景技術(shù):
由于信息技術(shù)的飛速發(fā)展,世界已經(jīng)進入了信息的時代,信息是龐雜的,由于信息對于某些人群可資利用,因而被視為ー種資源,這些可資利用的信息被稱資訊。所謂資訊播出系統(tǒng),也叫圖文資訊播出系統(tǒng),是相對于傳統(tǒng)的電視播出系統(tǒng)而言的。傳統(tǒng)的視頻播出系統(tǒng)都是以播出活動電視畫面和伴音為主要任務的,而資訊播出系統(tǒng)是以文字、圖形、圖表為主輔以動態(tài)影像,傳播各類信息的系統(tǒng)。它可以獨立完成ー個電視頻道(資訊頻道、電視購物頻道)的播出,也可以附加在傳統(tǒng)播出系統(tǒng)中,增加頻道的播出信息量。現(xiàn)有的資訊播出系統(tǒng)具有以下特性I、圖片、視頻、上滾、左飛、動畫角標同屏播出2、多行資訊信息實時修改實時播出3、度身定制各類電視欄目模板,欄目包裝直接套用4、板式靈活多祥,可任意設定多個廣告位5、無限層字幕實時疊加6、廣告窗中可添加大量圖片廣告信息以及動畫文件,并且每條廣告信息中可有標題和文字信息7、可以同時播出金融信息,匯率窗ロ,股市風云、天氣預報等。但是,在根據(jù)用戶播出需求從網(wǎng)絡數(shù)據(jù)提供商獲取數(shù)據(jù)到資訊播出系統(tǒng)時,通常是對獲取到的數(shù)據(jù)存儲在數(shù)據(jù)庫后,基于只播有用信息和公共播出安全性的考慮,還需要對數(shù)據(jù)內(nèi)容進行人工審核,過濾包含其中的廣告信息以及影響公共播出安全的與政治、色情相關(guān)的內(nèi)容。而這些數(shù)據(jù)存儲在數(shù)據(jù)庫中,不但占用大量系統(tǒng)空間,浪費系統(tǒng)資源,還會降低系統(tǒng)的運行速度和效率。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明從網(wǎng)絡服務器獲取的數(shù)據(jù)中包含廣告等無意義數(shù)據(jù)的問題。為了解決以上技術(shù)問題本發(fā)明提供了 ー種從XML文件篩選信息的方法,具體包括從互聯(lián)網(wǎng)的網(wǎng)絡服務器上獲取XML數(shù)據(jù);對所述XML數(shù)據(jù)進行分析,得到所述XML數(shù)據(jù)的全部字符內(nèi)容;根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,所述預設關(guān)鍵字具體為廣告字符、與政治、色情相關(guān)的字符和/或More on字符;將過濾后的內(nèi)容存儲在數(shù)據(jù)庫中進行播放。其中,所述根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,具體包括
將所述XML數(shù)據(jù)的全部字符內(nèi)容與所述預設關(guān)鍵字進行對比,將將包含所述預設關(guān)鍵字的字段丟棄。其中,所述將所述XML數(shù)據(jù)的 全部字符內(nèi)容與所述預設關(guān)鍵字進行對比后,還包括篩選出與所述預設關(guān)鍵字相同的字符;對所述字符進行分析,找到包含所述字符的字段,標記所述字段的字段頭與字段尾;將所述字段頭到所述字段尾的內(nèi)容全部丟棄。其中,所述XML數(shù)據(jù)為RSS數(shù)據(jù)和非標準的RSS數(shù)據(jù)。其中,對于所述RSS數(shù)據(jù),解析后再根據(jù)所述預設關(guān)鍵字進行過濾。其中,對于所述非標準的RSS數(shù)據(jù),直接根據(jù)所述預設關(guān)鍵字進行過濾。與現(xiàn)有技術(shù)相比,本發(fā)明實施例具有以下優(yōu)點通過對獲取的數(shù)據(jù)進行關(guān)鍵字的過濾與屏蔽,有效的減少了存儲數(shù)據(jù)占用的空間,提高了系統(tǒng)運行的速度和效率,更方便了用戶,提高了獲取有用信息的準確性與播出的安全性。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I :是本發(fā)明實施例I中ー種從XML文件篩選信息的方法的流程;圖2 :是本發(fā)明實施例2中另ー種從XML文件篩選信息的方法的流程圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明實施例I中提供了ー種從XML文件篩選信息的方法,如圖I所示,包括以下步驟步驟S101,從互聯(lián)網(wǎng)的網(wǎng)絡服務器上獲取XML數(shù)據(jù)。步驟S102,對所述XML數(shù)據(jù)進行分析,得到所述XML數(shù)據(jù)的全部字符內(nèi)容。步驟S103,根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,所述預設關(guān)鍵字具體為廣告字符、與政治、色情相關(guān)的字符和/或More on字符。步驟S104,將過濾后的內(nèi)容存儲在數(shù)據(jù)庫中進行播放。本發(fā)明的實施例的技術(shù)方案得到的有益效果如下通過對獲取的數(shù)據(jù)進行關(guān)鍵字的過濾與屏蔽,有效的減少了存儲數(shù)據(jù)占用的空間,提高了系統(tǒng)運行的速度和效率,更方便了用戶,提高了獲取有用信息的準確性與播出的安全性。本發(fā)明實施例2中提供了另ー種從XML文件篩選信息的方法,如圖2所示,包括以下步驟步驟S201,從互聯(lián)網(wǎng)的網(wǎng)絡服務器上獲取XML數(shù)據(jù);具體包括根據(jù)用戶的播出需求,從網(wǎng)絡數(shù)據(jù)提供商獲取XML數(shù)據(jù),所述數(shù)據(jù)為RSS數(shù)據(jù)和非標準的RSS數(shù)據(jù)。步驟 S202,對所述XML數(shù)據(jù)進行分析,得到所述XML數(shù)據(jù)的全部字符內(nèi)容,具體包括對從網(wǎng)絡數(shù)據(jù)提供商獲取的數(shù)據(jù)進行分析,嘗試判斷出所有字符的內(nèi)容,其中,對于格式為RSS的數(shù)據(jù),先進行解析,在對解析后的數(shù)據(jù)進行分析,判斷出所有字符的內(nèi)容;對于格式為非RSS得數(shù)據(jù),則直接對其進行分析,判斷出所有字符的內(nèi)容。步驟S203,將所述XML數(shù)據(jù)的全部字符內(nèi)容與所述預設關(guān)鍵字進行對比,篩選出與所述預設關(guān)鍵字相同的字符,具體包括基于公共播出安全性的考慮,預設關(guān)鍵字為與政治、色情相關(guān)的字段;基于播出有用信息準確性的考慮,預設關(guān)鍵字為More on或者一些廣告字段,將所述XML數(shù)據(jù)的全部字符內(nèi)容與上述預設的關(guān)鍵字進行對比,篩選出與預設關(guān)鍵字相同的字符。步驟S204,對所述字符進行分析,找到包含所述字符的字段,標記所述字段的字段頭與字段尾。步驟S205,將所述字段頭到所述字段尾的內(nèi)容全部丟棄。步驟S206,將過濾后的內(nèi)容存儲在數(shù)據(jù)庫中進行播放。本發(fā)明的實施例的技術(shù)方案得到的有益效果如下通過對獲取的數(shù)據(jù)進行關(guān)鍵字的過濾與屏蔽,有效的減少了存儲數(shù)據(jù)占用的空間,提高了系統(tǒng)運行的速度和效率,更方便了用戶,提高了獲取有用信息的準確性與播出的安全性。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解,本發(fā)明的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是⑶-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。本領(lǐng)域技術(shù)人員可以理解附圖只是ー個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應變化位于不同于本實施例的ー個或多個裝置中。上述實施例的模塊可以合并為ー個模塊,也可以進ー步拆分成多個子模塊。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。以上公開的僅為本發(fā)明的幾個具體實施例,但是,本發(fā)明并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應落入本發(fā)明的保護范圍。
權(quán)利要求
1.ー種從XML文件篩選信息的方法,其特征在于,包括 從互聯(lián)網(wǎng)的網(wǎng)絡服務器上獲取XML數(shù)據(jù); 對所述XML數(shù)據(jù)進行分析,得到所述XML數(shù)據(jù)的全部字符內(nèi)容; 根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,所述預設關(guān)鍵字具體為廣告字符、與政治、色情相關(guān)的字符和/或More on字符; 將過濾后的內(nèi)容存儲在數(shù)據(jù)庫中進行播放。
2.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,具體包括 將所述XML數(shù)據(jù)的全部字符內(nèi)容與所述預設關(guān)鍵字進行對比,將包含所述預設關(guān)鍵字的字段丟棄。
3.如權(quán)利要求2所述的方法,其特征在于,所述將所述XML數(shù)據(jù)的全部字符內(nèi)容與所述預設關(guān)鍵字進行對比后,還包括 篩選出與所述預設關(guān)鍵字相同的字符; 對所述字符進行分析,找到包含所述字符的字段,標記所述字段的字段頭與字段尾; 將所述字段頭到所述字段尾的內(nèi)容全部丟棄。
4.如權(quán)利要求I所述的方法,其特征在于,所述XML數(shù)據(jù)為RSS數(shù)據(jù)和非標準的RSS數(shù)據(jù)。
5.如權(quán)利要求I或4所述的方法,其特征在于,對于所述RSS數(shù)據(jù),解析后再根據(jù)所述預設關(guān)鍵字進行過濾。
6.如權(quán)利要求I或4所述的方法,其特征在于,對于所述非標準的RSS數(shù)據(jù),直接根據(jù)所述預設關(guān)鍵字進行過濾。
全文摘要
本發(fā)明公開了一種從XML文件篩選信息的方法,所述方法具體包括從互聯(lián)網(wǎng)的網(wǎng)絡服務器上獲取XML數(shù)據(jù);對所述XML數(shù)據(jù)進行分析,得到所述XML數(shù)據(jù)的全部字符內(nèi)容;根據(jù)預設關(guān)鍵字對所述全部字符進行過濾,所述預設關(guān)鍵字具體為廣告字符、與政治、色情相關(guān)的字符和/或More on字符;將過濾后的內(nèi)容存儲在數(shù)據(jù)庫中進行播放。本發(fā)明解決了從網(wǎng)絡服務器獲取的數(shù)據(jù)中包含廣告等無意義數(shù)據(jù)的問題,通過對獲取的數(shù)據(jù)進行關(guān)鍵字的過濾與屏蔽,有效的減少了存儲數(shù)據(jù)占用的空間,提高了系統(tǒng)運行的速度和效率,更方便了用戶,提高了獲取有用信息的準確性與播出的安全性。
文檔編號G06F17/30GK102769610SQ201210126119
公開日2012年11月7日 申請日期2012年4月26日 優(yōu)先權(quán)日2012年4月26日
發(fā)明者王征, 趙海軍 申請人:新奧特(北京)視頻技術(shù)有限公司