專利名稱:使超文字標示語言網頁轉換成純文字的方法及其系統(tǒng)的制作方法
4吏超文字標示語言網頁轉換成純文字的方法及其系統(tǒng) 技術領城本發(fā)明涉及一種網頁轉換成純文字的方法,特別是涉及一種使超文字 標示語言網頁轉換成純文字的方法及其系統(tǒng)。背景抹水隨著網際網路的普及,人們愈來愈習慣通過網際網路來獲得訊息與查 詢資料,例如直接登入網站來瀏覽新聞網頁或文章網頁等,目前網頁的格式大都為超文件標示語言(Hypertext Mark叩Language;以下簡稱HTML)。又,目前網路上出現(xiàn)一種新資訊提供方式,稱為簡單聯(lián)合供稿(Really Simple Syndication,以下簡稱RSS),讓使用者可以自行訂閱想看資訊內 容,而把網頁中最新訊息及新聞同步發(fā)送予訂閱者。詳細來說,使用者端安 裝RSS瀏覽器后,可以通過RSS瀏覽器訂閱網站所提供的各式各樣RSS頻 道。而后,RSS瀏覽器會定期更新已訂閱RSS頻道,即RSS瀏覽器每隔一段 時間會主動下載訂閱頻道中新的新聞或文章的簡介(如標題、摘要與連結網 址)至使用者端,讓使用者即時了解頻道的更新資訊。若使用者對新的新聞 或文章有興趣時,點選簡介即可利用其連結網址連結對應HTML網頁瀏覽完整內容。然而,無論是以直接登入網站或以RSS瀏覽器瀏覽HTML網頁,HTLM網 頁經常同時存在許多無涉于主要內容的資訊,如廣告、其他HTML網頁的介 紹、網站資訊等等,影響使用者對網頁中主要內容的閱讀速度,造成使用 者難以迅速了解網頁的主要內容。由此可見,上述現(xiàn)有的網路資訊提供方式在方法、結構及使用上,顯然 仍存在有不便與缺陷,而亟待加以進一步改進。為解決上述存在問題,相關 廠商莫不費盡心思來謀求解決之道,但長久以來一直未見適用的設計被發(fā) 展完成,而一般方法及產品又沒有適切的方法及結構能解決上述問題,此顯 然是相關業(yè)者急欲解決的問題。因此如何能創(chuàng)設一種新的使超文字標示語 言網頁轉換成純文字的方法及其系統(tǒng),實屬當前重要研發(fā)課題之一,亦成為 當前業(yè)界極需改進的目標。有鑒于上述現(xiàn)有的網路資訊提供方式存在的缺陷,本發(fā)明人基于從事 此類產品設計制造多年豐富的實務經驗及專業(yè)知識,并配合學理的運用,積 極加以研究創(chuàng)新,以期創(chuàng)設一種新的使超文字標示語言網頁轉換成純文字 的方法及其系統(tǒng),能夠改進一般現(xiàn)有的網路資訊提供方式,使其更具有實用性。經過不斷的研究、設計,并經反復試作及改進后,終于創(chuàng)設出確具實 用價值的本發(fā)明。發(fā)明內容本發(fā)明的目的在于,克服現(xiàn)有的網路資訊提供方式存在的缺陷,而提供 一種便于閱讀的使超文字標示語言網頁轉換成純文字的方法及其系統(tǒng),非 常適于實用。本發(fā)明的另一目的在于,提供一種可以達到純文字轉換精確度較高的 使超文字標示語言網頁轉換成純文字的方法及其系統(tǒng),從而更加適于實用。本發(fā)明的目的及解決其技術問題是采用以下技術方案來實現(xiàn)的。依據 本發(fā)明提出的一種使超文字標示語言網頁轉換成純文字的方法,包含以下步驟(A)、接收一超文字標示語言網頁的超文字標示語言原始碼;(B)、執(zhí) 行一前置標簽程序以擷取前述超文字標示語言原始碼中的一部分,前述部 分具有多數個字串及多數個位于前述字串間的標簽;(C)、計算前述字串的 長度與位置,找出前述字串中長度為前第一預設值百分比的字串;(D)、分析 前述前第一預設值百分比字串中各字串與其余字串間的一位置間隔,并在 前述位置間隔不大于 一 第二預設值時標示與前述位置間隔對應字串為一同 一個區(qū)塊,以找出一最大區(qū)塊;以及(E)、刪除前述最大區(qū)塊內前述字串間 的標簽以取得一主要內容。本發(fā)明的目的及解決其技術問題還可采用以下技術措施進一步實現(xiàn)。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的超文 字標示語言網頁的主要內容是一文章。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的超文 字標示語言網頁是一簡單聯(lián)合供稿新聞網頁。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的超文 字標示語言網頁是一文章網頁。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的第一 預設值為3~15中的一整數,前述第二預設值為2 10中的一整數。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的步驟 (B)中的前述前置標簽程序是擷取前述超文字標示語言原始碼的一主體。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述超文字 標示語言原始碼具有多數個標簽,前述標簽含有一〈body〉和一〈/body〉,前 述步驟(B)中擷取前述超文字原始碼的前述〈body〉標簽與〈/body〉標簽間的 內容來作為一主體。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的超文 字標示語言原始碼具有多數個標簽,前述步驟(B)中的前述前置標簽程序中更在前述主體中標簽與一第一預設標簽群組相符時,刪除前述相符標簽間 字串與前述相符標簽。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的第一預設標簽群組具有一〈script〉和一〈/script〉、 一〈style〉和一〈/style〉及 一<!——和一一一>。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的步驟 (B)中的前述前置標簽程序中更在前述主體中標簽與一第二預設標簽群組 相符時,刪除前述相符標簽。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的第二 預設標簽群組具有一元素位置標簽、 一顏色標簽、 一字體標簽及一字型標 簽。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的第二 預設標簽群組具有一〈font〉、 一〈i〉、 一〈b〉、 一〈U〉、 一〈u〉、 一〈strike〉、 一〈sub〉、 一<sup>、 一〈pre〉及一〈em〉。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的超文 字標示語言原始碼具有多數個空白,前述步驟(B)中的前述前置標簽程序中 更把前述主體中多個相鄰空白轉換成一個空白。前述的使超文字標示語言網頁轉換成純文字的方法,其中所述的步驟 (E)中前述被刪除標簽是一段落格式標簽,前述段落格式標簽為〈br〉或一 〈p〉和〈/p〉。本發(fā)明的目的及解決其技術問題還采用以下技術方案來實現(xiàn)。依據本 發(fā)明提出的一種純文字轉換系統(tǒng),其包含 一前置標簽處理模組,用以接收 一超文字標示語言網頁的超文字標示語言原始碼并執(zhí)行一前置標簽程序以 取得前述超文字標示語言原始碼中的一部分,前述部分具有多數個字串及 多數個位于前述字串間的標簽; 一區(qū)塊分析模組,計算前述部分中前述字串 的長度與位置,找出前述字串中長度為前第一預設值百分比的字串,及分析 前述前第一預設值百分比字串中各字串與其余字串間的一位置間隔,并在 前述位置間隔不大于一第二預設值時標示與前述位置間隔對應字串為 一同 一個區(qū)塊,以找出一最大區(qū)塊;以及一后續(xù)標簽處理模組,刪除前述最大區(qū) 塊內前述字串間的標簽以取得一主要內容。本發(fā)明的目的及解決其技術問題還可采用以下技術措施進一步實現(xiàn)。前述的純文字轉換系統(tǒng),其中所述的超文字標示語言網頁是一簡單聯(lián) 合供稿新聞網頁或一文章網頁。前述的純文字轉換系統(tǒng),其中所述第一預設值為3~15中的一整數,前 述第二預設值為2~10中的一整數。前述的純文字轉換系統(tǒng),其中所述的前置標簽處理模組在前置標簽程序中擷取前述超文字標示語言原始碼的一主體。前述的純文字轉換系統(tǒng),其中所述的超文字標示語言原始碼具有多數 個標簽,前述前置標簽處理模組在前述前置標簽程序中更在前述主體中標 簽與一第一預設標簽群組相符時,刪除前述相符標簽間字串與前述相符標 簽。前述的純文字轉換系統(tǒng),其中所述的前置標簽處理模組在前述前置標 簽程序中更在前述主體中標簽與 一第二預設標簽群組相符時,刪除前述相符標簽o前述的純文字轉換系統(tǒng),其中所述的超文字標示語言原始碼具有多數 個空白,前述前置標簽處理模組在前述前置標簽程序中更把前述主體中多 個相鄰空白轉換成一個空白。前述的純文字轉換系統(tǒng),其中所述的后續(xù)標簽處理模組所刪除的標簽 是一段落格式標簽。本發(fā)明與現(xiàn)有技術相比具有明顯的優(yōu)點和有益效果。借由上述技術方 案,本發(fā)明使超文字標示語言網頁轉換成純文字的方法及其系統(tǒng)至少具有下列優(yōu)點及有益效果由以上可知,為達到上述目的,本發(fā)明使超文字標示語言網頁轉換成純 文字的方法,包含以下步驟(A)接收一超文字標示語言網頁的超文字標示 語言原始碼;(B)執(zhí)行一前置標簽程序以擷取前述超文字標示語言原始碼中 的一部分,前述部分具有多數個字串及多數個位于前述字串間的標簽;(C) 計算前述字串的長度與位置,找出前述字串中長度為前第 一預設值百分比 的字串;(D)分析前述前第一預設值百分比字串中各字串與其余字串間的一 位置間隔,并在前述位置間隔不大于一第二預設值時標示與前述位置間隔 位置的對應字串為一同一個區(qū)塊,以找出一最大區(qū)塊;以及(E)刪除前述最 大區(qū)塊內前述字串間的標簽以取得一主要內容。如此,本發(fā)明借由對超文字標示語言網頁的超文字標示語言原始碼中 的標簽處理及以字串的長度與兩字串間的位置間隔來判斷主要內容的位 置,可以達到精確地取得純文字的主要內容的功效。綜上所述,本發(fā)明是有關于一種使超文字標示語言網頁轉換成純文字 的方法及其系統(tǒng)。該使超文字標示語言網頁轉換成純文字的方法,包含執(zhí)行 一前置標簽程序以擷取前述超文字標示語言網頁中超文字標示語言原始碼 中的一具有多數個字串及多數個位于前述字串間的標簽的部分,再計算各字串的長度與位置,找出前述字串中長度為前第 一預設值百分比的字串,進 而分析前述前第一預設值百分比字串中各字串與其余字串間的一位置間 隔,并在前述位置間隔不大于一第二預設值時標示與前述位置間隔對應字 串為一同一個區(qū)塊,以找出一最大區(qū)塊,最后刪除前述最大區(qū)塊內前述字串間的標簽以取得一純文字的主要內容。本發(fā)明克服了現(xiàn)有的網路資訊提 供方式存在的缺陷,方便于閱讀,非常適于實用。另外,本發(fā)明可以達到 純文字轉換精確度較高的功效,更加適于實用。本發(fā)明具有上述諸多優(yōu)點 及實用價值,其不論在方法、產品結構或功能上皆有較大改進,在技術上 有顯著的進步,并產生了好用及實用的效果,且較現(xiàn)有的網路資訊提供方 式具有增進的突出功效,從而更加適于實用,誠為一新穎、進步、實用的 新設計。上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的 技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和 其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附 圖,詳細說明如下。
圖1是本發(fā)明純文字轉換系統(tǒng)的較佳實施例,此實施例的純文字轉換系統(tǒng)是位于RSS瀏覽器內并可接收一網站的網頁。圖2是本實施例中的純文字轉換方法的流程圖。 圖3是本實施例中前置標簽程序的流程圖。
具體實施方式
為更進一步闡述本發(fā)明為達成預定發(fā)明目的所采取的技術手段及功 效,以下結合附圖及較佳實施例,對依據本發(fā)明提出的使超文字標示語言網 頁轉換成純文字的方法及其系統(tǒng)其具體實施方式
、方法、步驟、結構、特 征及其功效,詳細說明如后。請參閱圖1所示,揭露本發(fā)明純文字轉換系統(tǒng)的較佳實施例,該純文 字轉換系統(tǒng)2用以把超文字標示語言(Hypertext Markup Language;以下系統(tǒng)2可為一韌^或一程式,'該程式可先儲存諸如光碟之類的儲; 媒體上,以供使用者安裝于其電子裝置內來執(zhí)行。HTML網頁是由為一個或 多個伺服器構成的網站4來提供,該HTML網頁是以新聞網頁或文章網頁為 佳。本實施例的純文字轉換系統(tǒng)2整合于一簡單聯(lián)合供稿瀏覽器1 (Really Simple Syndication Reader,以下簡稱RSS瀏覽器)內,該RSS瀏覽器1安裝于一可連線網際網路的電子裝置,如電腦。網站4提供至少一為RRS瀏 覽器1訂閱的RSS頻道41,而當網站4有新HTML網頁時,使用者可以通過 RSS瀏覽器1的定期更新取得新HTML網頁的簡介(如標題、摘要與連結網 址),以即時獲知網站4有新HTML網頁存在,使用者對HTML網頁的內容有興趣時可利用簡介連結至網站4連結至對應HTML網頁來瀏覽完整內容。此 刻,RSS瀏覽器1連結至網站4的HTML網頁時,會下栽HTML網頁的HTML原 始碼以在RSS瀏覽器1顯示HTML網頁。使用者可以通過RSS瀏覽器1的操 作介面(圖中未示)來設定純文字轉換系統(tǒng)2把HTML網頁轉換成純文字的主 要內容,進而RSS瀏覽器1可以顯示此純文字的主要內容給使用者瀏覽。應當注意的是,本發(fā)明的純文字轉換系統(tǒng)2也可以整合于其他支援HTML 網頁的瀏覽程式,如IE,或整合于網站4內,或形成一獨立程式,并不應 受限于本實施例所揭露者。當然,本實施例的RSS瀏覽器1更具有其他的 RSS瀏覽器1的基本構件,如一個用以因應使用者的控制指令以執(zhí)行對應工 作的控制模組,然而此是廣為熟習該項技藝的技術人員所熟知,且非本案 改良重點,故不在此贅述。本實施例純文字轉換系統(tǒng)2是從HTML原始碼擷取主要內容。該HTML 原始碼是由文字與標簽所構成,所以HTML原始碼含有多數個字串與多數個 標簽,而這些字串中部分字串可能為HTML網頁的主要內容、部分字串可能 用來定義或注解HTML網頁而無涉于主要內容、部分字串可能屬于廣告。本 實施例的純文字轉換系統(tǒng)2包括一前置標簽處理模組21、 一區(qū)塊分析模組 22及一后續(xù)標簽處理模組22。該前置標簽處理^f莫組21,接收HTML原始碼后進行一前置標簽程序(容 后再述)以對HTML原始碼內的標簽或空白(white space)作處理,以擷取出 可能與主要內容相關的一部分以傳送至區(qū)塊分析模組21。此部分具有多數 個字串及多數個位于前述字串間的段落格式標簽,此段落格式標簽界定這 些字串相互間的關系,例如一〈p〉和一〈/p〉或一〈br〉, 〈p〉和〈/p〉系定義兩 標簽間字串系一個,炎落(Paragraphs),而〈br〉代表斷行〈Line Breaks 〉。范例l<html><body>主體</body></html>如上述的范例l, 一般HTML原始碼撰寫,會把〈body〉與〈/body〉間的內 容稱為主體,與主要內容相關的字串會出現(xiàn)于此處,例如為新聞網頁時,此 則新聞文章的主要內容的字串會出現(xiàn)于主體內。因此,前置標簽處理模組 21在接收HTML原始碼會先取出其主體。主體中會有多數個字串與標簽,其 中大部分標簽是與純文字的主要內容無關、且部分字串是用來作注解或定 義,所以前置標簽處理^^莫組21會進一步刪除主體內無涉于主要內容的標簽 與字串。因此,本實施例前置標簽處理模組21更儲存一具有與注解與定義相關 標簽對的第一預設標簽群組及一具有與HTML元素位置、顏色、字體、字型 等HTML格式相關標簽的第二預設標簽群組。該第一預設標簽群組,具有一〈script〉和一〈/script〉、 一〈style〉和一〈/style〉及一<!—和--->等等?!磗cript〉和〈/script〉是用來定義程式碼語言,所以〈script〉和〈/script〉間的字串可能是javascript的程式 碼。〈style〉和〈/style〉用來定義格式設定,所以〈style〉和〈/style〉間的 字串可能是描述HTML網頁內的格式,例如它的字體、字型、顏色、間距等 的資訊。<!—和一>用來定義不會顯示于HTML網頁上的注解,故〈!一和--〉 間的字串是注解。本實施例的該第二預設標簽群組,具有一定義字型用的〈font〉、 一定 義斜體字的〈i〉、 一定義粗體字的〈b〉、 一定義打字機字的〈tt〉、 一定義加 底線的〈u〉、 一定義劃刪除線的〈strike〉、 一定義下標的〈sub〉、 一定義上 標的〈sup〉、 一定義保持原貌的〈pre〉及一定義強調的〈em〉等等。應當注意 的是,本實施例雖然先把可能相關的標簽預設于第一預設標簽群組與第二 標簽群組內,然而,事后亦可通過更新第一預設標簽群組與第二標簽群組 的內容,來適時增刪標簽。如此,前置標簽處理;f莫組21會在主體中存在與第一預設標簽群組相符 標簽時,刪除相符標簽間的字串與相符標簽。主體中存在第二預設標簽群 組相符的標簽,前置標簽處理模組21刪除相符標簽。再者,經前述處理的 主體可能存在多數個相鄰的空白,本實施例前置標簽處理模組21更會把多 數個空白轉換成一個空白,以得到供區(qū)塊分析模組22的部分并傳送至區(qū)塊 分析模組22。一般HTML原始碼中諸如新聞或部落格文章網頁的內容往往是較長字串 且這些字串的位置常相近而可聚集成一個最大區(qū)塊。因此,區(qū)塊分析模組 22分析部分內各字串的長度與位置來找出一最大區(qū)塊,而后再由后續(xù)標簽 模組23刪除最大區(qū)塊內段落格式標簽以作為純文字的主要內容來輸出給 RSS瀏覽器1,以套用預設版面顯示^H吏用者瀏覽。在以下段落,請參閱圖2所示,把純文字轉換系統(tǒng)2的工作流程作詳 細說明,而前述才莫組21 ~ 23的功能可在以下的說明中更加清楚。首先,在步驟50中前置標簽處理模組21接收HTML網頁的HTML原始 碼后,執(zhí)行步驟51的前置標簽程序以取得HTML原始碼的一與主要內容相 關的部分來傳送至區(qū)塊分析模組22。前置標簽程序(指步驟51)結束后繼續(xù) 步驟52。請參閱圖3所示,前置標簽處理模組21先在步驟511中取出HTML原始 碼的一主體,指位于^odyS與〈/body"'司的內容。而后,在步驟512中,前置標簽處理;溪組21判斷主體中是否存在與第一預設標簽群組相符的標簽。若 步驟512判斷為是時,執(zhí)行步驟513刪除主體內相符標簽間的字串與相符 標簽。步驟513結束后或若步驟512判斷為否,則繼續(xù)步驟514。在步驟 514中,前置標簽處理模組21判斷主體中是否存在與第二預設標簽群組相 符的標簽,并在判斷有時執(zhí)行步驟515以刪除主體中與第二預設標簽群組 相符的標簽。而若步驟514判斷為否或步驟515結束后,執(zhí)行步驟516,以 判斷主體是否存在多數個相鄰的空白。步驟516判斷為是時,前置標簽處 理模組21把多數個相鄰空白轉換成一個空白后,使不同行的字串會位于同 一行而這些字串間存在未刪除的段落格式標簽來區(qū)隔,如〈p〉和〈/p〉或 <br>。步驟516判斷為否或步驟517結束后,完成前置標簽程序,并把經 前述步驟511-517處理取得部分(此部分具有多數個字串與多數個段落格 式標簽)傳送給區(qū)塊分析才莫組22,繼續(xù)由區(qū)塊分析^t組22執(zhí)行圖2的步驟 52。應注意的是,前述步驟512、 514的執(zhí)行順序可依設計需求來調整,也 可同步執(zhí)行,并不應受限于本實施所揭露者。在步驟52中,區(qū)塊分析模組22可以利用計算來自前置標簽處理模組 21部分內各字串的長度與位置。緊接著,在步驟53中,區(qū)塊分析模組22從 這些字串中找出長度為前第一預設值百分比的字串,以在步驟54中分析前 第一預設值百分比字串中各字串與其余字串間的一位置間隔,并在位置間 隔不大于一第二預設值時,標示與此位置間隔對應字串為一同一個區(qū)塊。其 次,在步驟55中從標示所得的區(qū)塊中找出一個最大區(qū)塊,把最大區(qū)塊傳送 給后續(xù)標簽處理^^組23。第一預設值為3~15中任一個整數,而第二預設 值為2~10中的任一個整體,本實施例中第一預設值與第二預設值的數值 是預先設定。為讓前述步驟53 - 55更容易被了解,在以下中以20個字串為例來進 行說明,并設定第一預設值百分比為15%,而第二預設值為2。AA
BBBBBBBBBBBBBB<br〉CCC<br>DDDDDDDDDDDDDDD</p><p〉EEEEEEEEP>因此,每一個字串的位置是依序遞增,B、 D、 E字串為前第一預設值百 分比長的字串,區(qū)塊分析模組22會對B字串往前與往后找2個位置間隔(即 A字串與C、 D字串),以判斷此2位置間隔內是否有其他同為前第一預設值 百分比長字串存在。由于B字串與D字串間的位置間隔為2而不大于第二 預設值,故B、 C、 D字串會^f皮標示為同一區(qū)塊,而后以此區(qū)塊繼續(xù)再往前 與往后找2個位置間隔(即A字串與E、F字串),D與E間的位置間隔為1其 小于第二預設值,所以B、 C、 D、 E字串會被標示會同一區(qū)塊,在此范例中B、 C、 D、 E構成的區(qū)塊即為最大區(qū)塊。步驟55結束后,繼續(xù)步驟56,后續(xù)標簽處理模組23進一步刪除最大區(qū)塊內的段落格式標簽以取得純文字的主要內容,進而在步驟57中輸出給 RSS瀏覽器1并套用預設版面以純文字方式顯示給使用者瀏覽。以前述范例來說,則顯示主要內容如下BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDDEEEEEEEEEEEEEEEEEEEEE據前所述,本發(fā)明利用前置標簽程序來刪除HTML原始碼中無涉于主要 內容的標簽與字串以取出與主要內容相關的部分,而后利用此部分內的字 串長度及相互間的位置間隔來找出最大區(qū)塊,最后再刪除最大區(qū)塊中剩余 標簽(指段落格式標簽),以得到純文字的主要內容來供使用者瀏覽,不只 可以精確轉換HTML網頁的主要內容為純文字,而且使用者也可以快速瀏覽 網頁中的主要內容。以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式 上的限制,雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā) 明,任何熟悉本專業(yè)的技術人員,在不脫離本發(fā)明技術方案范圍內,當可利 用上述揭示的技術內容作出些許更動或修飾為等同變化的等效實施例,但 凡是未脫離本發(fā)明技術方案內容,依據本發(fā)明的技術實質對以上實施例所 作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明技術方案的范圍內。
權利要求
1. 一種使超文字標示語言網頁轉換成純文字的方法,其特征在于其包含以下步驟(A)、接收一超文字標示語言網頁的超文字標示語言原始碼;(B)、執(zhí)行一前置標簽程序以擷取前述超文字標示語言原始碼中的一部分,前述部分具有多數個字串及多數個位于前述字串間的標簽;(C)、計算前述字串的長度與位置,找出前述字串中長度為前第一預設值百分比的字串;(D)、分析前述前第一預設值百分比字串中各字串與其余字串間的一位置間隔,并在前述位置間隔不大于一第二預設值時標示與前述位置間隔對應字串為一同一個區(qū)塊,以找出一最大區(qū)塊;以及(E)、刪除前述最大區(qū)塊內前述字串間的標簽以取得一主要內容。
2、 如權利要求1 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言網頁的主要內容是一文章。
3、 如權利要求1或2所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言網頁是一簡單聯(lián)合供稿新聞網 頁。
4、 如權利要求1或2所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言網頁是一文章網頁。
5、 如權利要求1 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的第一預設值為3~15中的一整數,前述第二預設值為2-10中的一整數。
6、 如權利要求1 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的步驟(B)中的前述前置標簽程序是擷取前述超文 字標示語言原始碼的一主體。
7、 如權利要求6 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言原始碼具有多數個標簽,前述標 簽含有一〈body〉和一〈/body〉,前述步驟(B)中擷取前述超文字原始碼的前 述〈body〉標簽與〈/body〉標簽間的內容來作為一主體。
8、 如權利要求6 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言原始碼具有多數個標簽,前述步驟(B)中的前述前置標簽程序中更在前述主體中標簽與 一第 一預設標簽群 組相符時,刪除前述相符標簽間字串與前述相符標簽。
9、 如權利要求8 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的第一預設標簽群組具有一〈script〉和一<formula>formula see original document page 0</formula>
10、 如權利要求8 所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的步驟(B)中的前述前置標簽程序中更在前述主體 中標簽與一第二預設標簽群組相符時,刪除前述相符標簽。
11、 如權利要求10所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的第二預設標簽群組具有一元素位置標簽、 一顏色標簽、 一字體標簽及一字型標簽。
12、 如權利要求10或11所述的使超文字標示語言網頁轉換成純文字 的方法,其特征在于其中所述的第二預設標簽群組具有一〈font〉、 一〈i〉、 一〈b〉、 "~■<">、 一<u>、 一〈strike〉、 一<sub>、 一〈sup〉、 一〈pre〉及一<em〉。
13、 如權利要求10所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述的超文字標示語言原始碼具有多數個空白,前述步 驟(B)中的前述前置標簽程序中更把前述主體中多個相鄰空白轉換成一個 空白。
14、 如權利要求1所述的使超文字標示語言網頁轉換成純文字的方 法,其特征在于其中所述步驟(E)中前述被刪除標簽是一段落格式標簽,前 述段落格式標簽為〈br〉或一〈p〉和〈/p〉。
15、 一種純文字轉換系統(tǒng),其特征在于其包含一前置標簽處理模組,用以接收一超文字標示語言網頁的超文字標示 語言原始碼并執(zhí)行一前置標簽程序以取得前述超文字標示語言原始碼中的 一部分,前述部分具有多數個字串及多數個位于前述字串間的標簽;一區(qū)塊分析模組,計算前述部分中前述字串的長度與位置,找出前述字串中長度為前第一預設值百分比的字串,及分析前述前第一預設值百分比 字串中各字串與其余字串間的一位置間隔,并在前述位置間隔不大于一第二預設值時標示與前述位置間隔對應字串為一同一個區(qū)塊,以找出一最大 區(qū)塊;以及一后續(xù)標簽處理模組,刪除前述最大區(qū)塊內前述字串間的標簽以取得 一主要內容。
16、 如權利要求15所述的純文字轉換系統(tǒng),其特征在于其中所述的超 文字標示語言網頁是一簡單聯(lián)合供稿新聞網頁或一文章網頁。
17、 如權利要求15所述的純文字轉換系統(tǒng),其特征在于其中所述的第 一預設值為3~15中的一整數,前述第二預設值為2~10中的一整數。
18、 如權利要求15所述的純文字轉換系統(tǒng),其特征在于其中所述的前 置標簽處理模組在前置標簽程序中擷取前述超文字標示語言原始碼的一主 體。
19、 如權利要求18所述的純文字轉換系統(tǒng),其特征在于其中所述的超文字標示語言原始碼具有多數個標簽,前述前置標簽處理模組在前述前置 標簽程序中更在前述主體中標簽與 一第 一預設標簽群組相符時,刪除前述 相符標簽間字串與前述相符標簽。
20、 如權利要求19所述的純文字轉換系統(tǒng),其特征在于其中所述的前 置標簽處理模組在前述前置標簽程序中更在前述主體中標簽與一第二預設 標簽群組相符時,刪除前述相符標簽。
21、 如權利要求20所述的純文字轉換系統(tǒng),其特征在于其中所述的超 文字標示語言原始碼具有多數個空白,前述前置標簽處理模組在前述前置 標簽程序中更把前述主體中多個相鄰空白轉換成一個空白。
22、 如權利要求15所述的純文字轉換系統(tǒng),其特征在于其中所述的后 續(xù)標簽處理模組所刪除的標簽是一段落格式標簽。
全文摘要
本發(fā)明是有關一種使超文字標示語言網頁轉換成純文字的方法及其系統(tǒng)。該方法包含執(zhí)行一前置標簽程序以擷取超文字標示語言網頁中超文字標示語言原始碼中的一具有多數字串及多數位于前述字串間的標簽的部分,再計算各字串長度與位置,找出前述字串中長度為前第一預設值百分比的字串,進而分析前第一預設值百分比字串中各字串與其余字串間的位置間隔,并在位置間隔不大于一第二預設值時標示與前述位置間隔對應字串為一同一個區(qū)塊,以找出一最大區(qū)塊,最后刪除最大區(qū)塊內字串間的標簽以取得一純文字的主要內容。本發(fā)明借由對超文字標示語言網頁的超文字標示語言原始碼中的標簽處理及以字串長度與兩字串間的位置間隔來判斷主要內容位置,可達到精確取得純文字主要內容功效。
文檔編號G06F17/30GK101246481SQ20071008029
公開日2008年8月20日 申請日期2007年2月16日 優(yōu)先權日2007年2月16日
發(fā)明者蔡弘揚, 黃子癸 申請人:易搜比控股公司