專利名稱:用于網(wǎng)頁概括的網(wǎng)關(guān)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁內(nèi)容的概括。本發(fā)明特別適用于,但并不限于,簡化這些網(wǎng)頁以便通過WAP網(wǎng)關(guān)將他們提供給手持式設(shè)備。
背景技術(shù):
WAP(無線應(yīng)用協(xié)議)是一套通信協(xié)議,用于將如個人數(shù)字助理(PDA)、移動電話和無線電收發(fā)器等的無線設(shè)備訪問互連網(wǎng)(包括電子郵件和萬維網(wǎng))的方式標(biāo)準(zhǔn)化。
為了從可以使用WAP的無線設(shè)備訪問互連網(wǎng)資源,需要WAP網(wǎng)關(guān)服務(wù)。WAP網(wǎng)關(guān)使得執(zhí)行類似于萬維網(wǎng)的服務(wù)成為可能。雖然已經(jīng)有一些主要由WAP設(shè)備供應(yīng)商建立的WAP網(wǎng)站,但是這些網(wǎng)站上的內(nèi)容有限并且不經(jīng)常更新。這是因?yàn)?,一方面目前WAP的用戶數(shù)量少,因此,沒有互連網(wǎng)內(nèi)容提供商(ICP)愿意投入資金和人力來提供WAP內(nèi)容,同時(shí),另一方面,由于內(nèi)容有限,很少有移動用戶愿意訂閱WAP服務(wù)。
無線標(biāo)志語言(WML)被應(yīng)用于創(chuàng)建頁面,這些頁面可以用WAP來傳送。一些WAP網(wǎng)關(guān)允許WAP使用者使用WML訪問數(shù)量有限的HTTP服務(wù)器。這種語言主要用于窄帶無線設(shè)備,如PDA和移動電話,并且允許顯示W(wǎng)eb頁面上的文本。
互連網(wǎng)的內(nèi)容主要是使用超文本標(biāo)記語言(HTML)的形式來寫的。是一個代碼(由多個元素或多個標(biāo)記符組成)的集合,它告訴Web瀏覽器怎樣顯示W(wǎng)eb頁面上的文本和圖像。用一個過濾程序來將這些HTML頁面轉(zhuǎn)換成WML頁面。
然而,HTML頁面通常采用這樣的方法書寫,以至于需要快速連接、大帶寬、高速處理器、大容量存儲器、大顯示屏、音頻/視頻輸出,并且可能需要十分有效的輸入機(jī)制。另一方面,便攜式電話通常具有相對慢的處理器(10-200MHz)、小的存儲器(128KB-512KB)、小的屏幕(例如,320×240象素)、間歇式帶寬(WAP 3-7KB/s或者更低)和很小的要求高精度操作的小鍵盤。這樣就使得在便攜式電話上閱讀轉(zhuǎn)換而來的WML網(wǎng)頁速度慢、價(jià)格昂貴并且不方便。
發(fā)明內(nèi)容
在本說明書,包括權(quán)利要求中,術(shù)語“包含”、“包括”或類似術(shù)語都是非排他性的包含,這樣,一種包含一些元素(元件)的方法或者設(shè)備并不只包含那些已列出的元素,還可以包含其他沒有列出的元素。
根據(jù)本發(fā)明的一個方面,提供了一種用于概括網(wǎng)頁內(nèi)容的方法,這些網(wǎng)頁是在電子設(shè)備的請求下要提供給提供電子設(shè)備的。這包括接收一個由所述電子設(shè)備發(fā)送出的壓縮率,接收所述網(wǎng)頁,從所述網(wǎng)頁中提取出文本并且根據(jù)接收到的壓縮率對提取出的文本進(jìn)行概括。
根據(jù)本發(fā)明的另一方面,提供了一種用于響應(yīng)移動電子設(shè)備對網(wǎng)頁的請求,將所述網(wǎng)頁提供給所述移動電子設(shè)備的網(wǎng)關(guān)。所述網(wǎng)關(guān)被配置成能夠接收一個由所述電子設(shè)備發(fā)送出的壓縮率,接收所述網(wǎng)頁,從所述網(wǎng)頁中提取出文本并且根據(jù)接收到的壓縮率對提取出的文本進(jìn)行概括。
根據(jù)本發(fā)明的又一個方面,提供了一種帶有瀏覽器的移動電子設(shè)備,用于通過網(wǎng)關(guān)請求和接收網(wǎng)頁,該網(wǎng)關(guān)可以在這些網(wǎng)頁被傳送到電子設(shè)備之前對網(wǎng)頁進(jìn)行概括。移動電子設(shè)備可以設(shè)置用于概括網(wǎng)頁的壓縮率,以便將所設(shè)置的壓縮率傳送到所述網(wǎng)關(guān)。
在上述的每一個方面中,壓縮率最好由電子設(shè)備或多個電子設(shè)備的使用者設(shè)置。
本發(fā)明提供了一種新穎的解決方案,使得無線設(shè)備可以通過WML訪問任何HTTP服務(wù)器。
為了更好的理解本發(fā)明并且將本發(fā)明付諸實(shí)踐,下面根據(jù)附圖對優(yōu)選非限制性實(shí)施例進(jìn)行說明,其中圖1所示是根據(jù)本發(fā)明的一個實(shí)施例的用于通過WAP下載網(wǎng)頁的常規(guī)方案的框圖;圖2所示是根據(jù)本發(fā)明的一個實(shí)施例的涉及通過WAP下載網(wǎng)頁的流程圖;圖3所示是根據(jù)本發(fā)明的一個實(shí)施例的涉及網(wǎng)頁壓縮的流程圖;圖4所示是根據(jù)本發(fā)明的一個實(shí)施例的涉及網(wǎng)頁分析的流程圖;圖5所示是根據(jù)本發(fā)明的一個實(shí)施例的涉及文本概括的流程圖;以及圖6所示是根據(jù)本發(fā)明的一個實(shí)施例的用于通過WAP下載網(wǎng)頁的移動電話。
優(yōu)選實(shí)施例的詳細(xì)說明在優(yōu)選實(shí)施例中,當(dāng)通過移動設(shè)備,如移動電話來請求網(wǎng)頁時(shí),請求要通過網(wǎng)關(guān),由網(wǎng)關(guān)對相應(yīng)的網(wǎng)頁進(jìn)行檢索。接收到網(wǎng)頁時(shí),網(wǎng)關(guān)剝?nèi)ゾW(wǎng)頁中的如廣告和標(biāo)題的不需要的信息,提取出文本和主超級鏈接并對文本進(jìn)行概括。用于概括文本的壓縮率是由移動設(shè)備的使用者設(shè)定的,并且同網(wǎng)頁請求一同被發(fā)送到網(wǎng)關(guān)。被提取和壓縮的信息被轉(zhuǎn)換成WML(或者其他相應(yīng)的語言),以便被傳送回移動設(shè)備。
在附圖中,相同的數(shù)字來表示相同元件。
參見圖1,圖中所示是一個根據(jù)本發(fā)明的用于通過WAP下載網(wǎng)頁的常規(guī)方案?,F(xiàn)在參見圖2對其進(jìn)行說明,圖2所示是涉及通過WAP下載網(wǎng)頁的流程圖。使用本實(shí)施例,如果需要可以將被訪問的網(wǎng)頁的信息量按照要求減少。
電子設(shè)備(如如可以使用WAP的移動電話12的移動設(shè)備)的使用者將設(shè)備開啟并對其進(jìn)行操作。這就啟動了這個過程(步驟S100)。使用者將一個統(tǒng)一資源定位器(URL)形式的網(wǎng)頁地址輸入到設(shè)備中的瀏覽器中(步驟S102)。使用者還要設(shè)定他所希望的要生成的網(wǎng)頁概括的壓縮率。移動電話通過無線數(shù)據(jù)網(wǎng)16用WAP堆棧將HTTP請求傳送給WAP網(wǎng)關(guān)14(步驟S104)。網(wǎng)關(guān)14將網(wǎng)頁請求轉(zhuǎn)換成超文本傳輸協(xié)議(HTTP),并且通過互連網(wǎng)20將其傳送給服務(wù)器18(步驟S106),在服務(wù)器18中存儲了相關(guān)的網(wǎng)頁。然后,被請求的網(wǎng)頁被下載(步驟S108)并且使用HTTP被發(fā)送回網(wǎng)關(guān)14,并且網(wǎng)頁仍然是HTML形式的。
當(dāng)接收到HTML網(wǎng)頁時(shí),在WAP網(wǎng)關(guān)14中的概括引擎對其中的信息進(jìn)行概括(如后面所描述的)并產(chǎn)生一個WML頁(步驟S110)。然后將WML頁壓縮并被WAP協(xié)議堆棧通過無線數(shù)據(jù)網(wǎng)16傳送回移動電話12(步驟S112)。移動電話12上的本地瀏覽器對WML頁進(jìn)行解析并且進(jìn)行顯示(步驟S114)。如果后面又請求一個新的網(wǎng)頁(步驟S116),例如通過一個下載頁上的鏈接,那么將這個過程重復(fù)。否則,將終止這個過程(步驟S118)。
本發(fā)明特別涉及在網(wǎng)關(guān)14減少網(wǎng)頁中的信息量,并且涉及WML頁的產(chǎn)生(步驟S110)。其目的是使得WAP設(shè)備可以瀏覽幾乎任意一個HTTP服務(wù)器。下面將參照圖3說明一些由概括引擎執(zhí)行的步驟的子步驟。為了將信息包含進(jìn)WML頁而進(jìn)行的信息簡化有幾個階段。在本實(shí)施例中有四個階段,盡管在本發(fā)明的不同實(shí)施例中他們的不同部分可以省略。
概括引擎首先執(zhí)行一個網(wǎng)頁清理任務(wù),去除大部分廣告、無用鏈接、標(biāo)題等形式的無用、不需要的信息和垃圾(步驟S202)。其次,根據(jù)多媒體信息,如圖片的內(nèi)容,將他們轉(zhuǎn)換成文本(步驟S204)。第三,用自動HTML輪廓分析從復(fù)雜HTML頁中提取出主鏈接和文本信息(步驟S206)。然后用文本概括將文本信息壓縮成概括,以便將網(wǎng)頁內(nèi)的長文本內(nèi)容縮減成幾個句子,同時(shí)保持原始頁面的主要思想(步驟S208)。文本概括功能將長文本信息壓縮至更適合于在小屏幕上顯示的長度。這樣,使得用戶可能在移動設(shè)備12上設(shè)置壓縮率,以對整體長度進(jìn)行一些控制。
一旦概括引擎已經(jīng)生成了概括,網(wǎng)關(guān)就將這個概括轉(zhuǎn)換成WML頁并且將WML頁壓縮為一個更緊湊的形式,以便節(jié)省空間中的帶寬并且進(jìn)一步減少電話的處理需求。這最后的壓縮是可能的,因?yàn)檫@些WML頁都是文本信息。在服務(wù)器端采用數(shù)據(jù)壓縮算法和方法來對信息進(jìn)行編碼,并且在移動電話端對信息進(jìn)行解碼。
該實(shí)施例中的電子設(shè)備12允許使用者決定是否需要概括。這樣,這種概括就成為在任何下載中的可選項(xiàng)。如果使用者想瀏覽HTML頁的所有原始文本,WAP網(wǎng)關(guān)14也支持這個請求。
網(wǎng)頁清理(步驟S202)HTML頁上的某些無關(guān)和不需要的信息(例如廣告、無用鏈接、標(biāo)題等)可能對無線訪問的效果產(chǎn)生嚴(yán)重的有害影響。它花費(fèi)額外的時(shí)間和帶寬并且很少被需要(如果有的話)。
因此,在被檢索的網(wǎng)頁中搜索已知的與這種信息有關(guān)的結(jié)構(gòu)。例如<!-- -->表示在HTML頁中的注釋,被刪除。
<FORM>...</FROM>“FORMS”通常指公用網(wǎng)關(guān)接口(CGI),用于執(zhí)行使用者互動,如登錄、注冊、記帳等,被刪除。
<SCRIPT>...</SCRIPT>JAVA SCRIPT通常執(zhí)行沒有網(wǎng)頁服務(wù)器支持的操作,例如取得和顯示本地時(shí)間或者驗(yàn)證使用者輸入的信息,如用戶名組成、密碼長度等,被刪除。
以包含“Copyright”、、或者“All Right Reserved”的標(biāo)記為形式的著作權(quán)信息,還有位于著作權(quán)信息附近的電話號碼或者網(wǎng)絡(luò)管理員的電子郵件地址也要被刪除。
被看作是可刪除垃圾的內(nèi)容可以是不同的,如果不是上述的一種或幾種,那么就可能包含一個或者幾個其他的標(biāo)準(zhǔn)。一個使用者甚至可以定制他自己的設(shè)置來指定他通常需要拒絕的信息。
將多媒體信息轉(zhuǎn)換成文本(步驟S204)多媒體信息,例如圖片,根據(jù)其內(nèi)容被轉(zhuǎn)換為文本。
在HTML中,任何多媒體部分都必須鏈接到某一文件。因此就可以根據(jù)多媒體信息的文件擴(kuò)展名決定其類型,如表1中所示。
表1
這種轉(zhuǎn)換是通過解析整個文件名來完成的,用文件擴(kuò)展名來判斷是哪種信息,并且用具體的文件名來解釋內(nèi)容。例如,如果一個文件被命名為“Great_wall.jpeg”,這將被解釋成文本“A JPEG image of Great_wallhere”(“這是一個關(guān)于長城得IPEG圖像”)。當(dāng)具體名本身沒有意義時(shí),例如,只是一串?dāng)?shù)字或在字典中沒有出現(xiàn)的一串字母,如“003.wav”,那么具體名就被忽略并且文件只被轉(zhuǎn)換成“a WAV audio file here”(“這是一個WAV音頻文件”)。
自動HTML輪廓分析(步驟S206)自動HTML輪廓分析(特別是過濾不需要的信息)可以顯著的減少移動使用者尋找和得到他們所需信息所花費(fèi)的時(shí)間和費(fèi)用。其目的是分析HTML頁的輪廓并且找出最重要的內(nèi)容或超級鏈接,以便只提供這些內(nèi)容。
根據(jù)本實(shí)施例的自動HTML輪廓分析將網(wǎng)頁分為兩類,主超級鏈接頁和主文本頁。對于超級鏈接頁,根據(jù)超級鏈接在頁面中的位置和寬度提取出最重要的超級鏈接。對于主文本頁,則只提取出標(biāo)題和文本。
用于執(zhí)行輪廓分析功能的程序可以作為動態(tài)鏈接庫(DLL)來執(zhí)行,并在需要時(shí)被引入。
圖4所示是自動HTML輪廓分析操作的簡單流程圖。在步驟S302,由于版面的要求,網(wǎng)頁被標(biāo)準(zhǔn)化。在步驟S304,網(wǎng)頁被分類主超級鏈接頁面或者主文本頁。如果網(wǎng)頁是主文本頁,那么將在步驟S306提取主文本或多個主文本。如果網(wǎng)頁是主超級鏈接頁面,那么將在步驟S308提取主超級鏈接或多個超級鏈接。在步驟S306或者S308之后,輪廓分析將結(jié)束。
標(biāo)準(zhǔn)化Web頁(S302)如果不被標(biāo)準(zhǔn)化,用HTML書寫的網(wǎng)頁是很難分析的。在本實(shí)施例中的網(wǎng)頁標(biāo)準(zhǔn)化包括兩個步驟(i)標(biāo)記大寫;以及(ii)刪除不重要的部分(i)標(biāo)記大寫-HTML并不要求用大寫字母或者小寫字母來書寫標(biāo)記。為了減少分析的難度,頁面中的每一個標(biāo)記都被轉(zhuǎn)換成大寫字母(如果不是已經(jīng)為大寫字母)。
(ii)刪除不重要部分-頁面中的(多個)不重要部分,正如表2中所列舉的那樣,會干擾分析。為了避免這種干擾,在標(biāo)準(zhǔn)化步驟中將它們刪除。表2中,在“Begin”和“End”之間的任何內(nèi)容都被刪除。
表2-實(shí)例性不重要部分
網(wǎng)頁分類(S304)區(qū)別網(wǎng)頁類型依賴于將“text”的字節(jié)數(shù)(長度)和超級鏈接的字節(jié)數(shù)(長度)相比較。如果前者較長,則將其分類到主文本頁。否則,將其分類到主超級鏈接頁面。為此,用“text”來表示任何沒有被標(biāo)記包含圍并且是文本信息主體的一部分的信息。另一方面,如果所有大的文本主體都被從HTML頁中提取出去,那么“hyperlink”則指余下的內(nèi)容。
提取主文本頁(S308)這包括取出所有網(wǎng)頁中的文本。這可以包括對剩余在文件中的一些標(biāo)記的解析,并且刪除所有除了新段落標(biāo)記和回車符外的標(biāo)記。盡管那樣,冗余的回車符、空格和制表符形式的冗余字節(jié)也都應(yīng)該被刪除。所生成的最終文本文件也包含已編碼的字符轉(zhuǎn)換(例如“&amp”為“&”、“&lt”為“<”、“&gt”為“>”、“&qout”為““”、“&nbsp”為一個空格)。
在本例中,滿足如下規(guī)則的字符串被看作是“text”(a)沒有被標(biāo)記包圍;(b)該文本的字節(jié)數(shù)大于最小值(例如100);(c)只包含特定允許標(biāo)記(如,<A>、<B>、<BR>、<I>、<P>、<SUB>、<SUP>、<U>、<UL>),即使如此,他們只占一小部分,例如在字符串中所有這些標(biāo)記的字節(jié)總數(shù)不超過該字符串字節(jié)總數(shù)的40%;(d)如果文本的長度不超過最小長度(例如500字節(jié)),那么在一個文本中的超級鏈接個數(shù)不應(yīng)超過一個具體數(shù)值(例如5)。
提取主超級鏈接頁面(S310)主超級鏈接的提取是根據(jù)他們在網(wǎng)頁中的位置進(jìn)行的。不同的相應(yīng)標(biāo)記包含寬度屬性。如果超級鏈接具有很多字符(例如100),并且它位于頁面的中心,那么在這個意義上它就是一個主超級鏈接。對于任何一個這樣的主超級鏈接,將該超級鏈接取出、標(biāo)準(zhǔn)化為一個具體格式,并且將其與其附加信息一同存儲在一個陣列中。對于這樣的頁面,沒有必要提取任何文本主體。相反,通常只有超級鏈接被提取出并被用來組成一個應(yīng)用于移動設(shè)備的WML頁。
提供被提取出的文本和超級鏈接用于包含于WML頁中。如果需要,可以首先用文本概括模塊對文本進(jìn)行概括。
文本概括(S208)文本概括是由一個能夠自動產(chǎn)生網(wǎng)頁文本概括的模塊來完成的,例如用前面所述的自動HTML輪廓分析來進(jìn)行提取。概括步驟能夠極大的壓縮所顯示的網(wǎng)頁文本內(nèi)容,這樣就極大的減少了對數(shù)百字節(jié)數(shù)據(jù)的轉(zhuǎn)換和移交工作。文本概括為移動環(huán)境提供更多的精煉信息。對于移動設(shè)備使用者,這樣的好處就是他不必閱讀小屏幕上的數(shù)百行文字就可以得到他想要知道的信息要點(diǎn),更加快捷和便宜。對于網(wǎng)絡(luò)來說,由于傳送比較少的數(shù)據(jù),因此減少了過載的風(fēng)險(xiǎn)。
當(dāng)文本主體過長時(shí),可以用文本概括來減小文本主體的長度,這樣做的前提是該文本是用來在移動設(shè)備的小屏幕上顯示的。在本實(shí)施例中,使用者可以在0至1(與原始文本長度相比)之間選擇壓縮率,例如表明文本概括的長度應(yīng)該是源文本長度的30%。
圖5所示是文本概括如何操作的簡單流程圖。將文本輸入(步驟S402)并且預(yù)處理(步驟S404),使其盡量規(guī)格化。這要考慮到不同的人進(jìn)行不同的格式化(用來去除額外的空格和行);雙字節(jié)字符(如中文文本)和單字節(jié)字符(如英文文本)的混和;同一標(biāo)記的不同用法,如“.”,被用作文本標(biāo)點(diǎn)(作為句號或者省略號的一部分“so long...”)、在數(shù)字中作為小數(shù)點(diǎn)、在IP地址中(10.193.147.254)、在電子郵件地址中(a.b@c.com)、在URL地址中(www.motorola.com)、在縮寫中(Prof.、Dr.、St.Louis)或者在編號方式中(“1.1.Introduction)作為下標(biāo)或者間隔符號,可以適當(dāng)?shù)母淖優(yōu)榱硗獾姆?;或者其他的類似的考慮。
對文本結(jié)構(gòu)進(jìn)行分析(步驟S406),以便識別和標(biāo)注句和段落,并確定他們的長度和位置。然后對文本進(jìn)行斷字(例如對于中文來說)或者尋找詞干和構(gòu)詞法(例如對于英文來說)(步驟S408)。例如在中文中,在兩個字之間沒有看得見的字邊界的地方需要進(jìn)行斷字。尋找詞干的過程進(jìn)行兩個詞的比較,例如具有相同詞干“scien”的“science”和“scientific”就很相似。構(gòu)詞法處理是需要的,因?yàn)橛⑽脑~具有不同的變形,例如“books”是“book”的復(fù)數(shù)形式、“eating”是“eat”的現(xiàn)在分詞。需要恢復(fù)基本的“book”和“eat”,以便進(jìn)行頻率統(tǒng)計(jì)和詞的權(quán)重。斷字或者尋找詞干和構(gòu)詞法(步驟S408)是參考字典和/或辭典數(shù)據(jù)庫30而進(jìn)行的。在進(jìn)行斷字或者尋找詞干和構(gòu)詞法(步驟S408)之后,要對這些通過斷字或其他方法識別的字進(jìn)行計(jì)數(shù)(步驟S410),以便確定它們的發(fā)生頻率。
在斷字或者尋找詞干和構(gòu)詞法(步驟S408),以及對識別出的詞進(jìn)行計(jì)數(shù)(步驟S410)的同時(shí),還要決定高頻字符串統(tǒng)計(jì)(步驟S412)。該步驟對文本內(nèi)的子字符串進(jìn)行計(jì)數(shù)并決定它們的頻率,以便推測出沒有在辭典或字典沒有出現(xiàn)過的“新”詞,例如名字。對于這種字,該過程決定它們的頻率,以便幫助建立權(quán)重。
在斷句(或者尋找詞干和構(gòu)詞法)(步驟S408)和對已識別字的計(jì)數(shù)(步驟S410)和高頻字符串統(tǒng)計(jì)(步驟S412)之后,對文本內(nèi)的詞類進(jìn)行標(biāo)記(步驟S414)并提取出關(guān)鍵詞(步驟S416)。最后這兩步還要參考字典和/或辭典數(shù)據(jù)庫30而進(jìn)行。置標(biāo)記是有用的,因?yàn)槟承┰~類,例如代詞和介詞,在文本概括中的使用非常有限。而重點(diǎn)在名詞、動詞、副詞和形容詞上。提取關(guān)鍵詞(步驟S416)包含查找通常與重要信息有關(guān)的詞,例如“爆炸”、“殺死”、“謀殺”。
對詞和句子進(jìn)行加權(quán)(步驟S418),并且選出用于產(chǎn)生最終概括(步驟S420)的句子。詞或句子的權(quán)重依賴于早先的分析、斷句或者頻率確定、詞類標(biāo)記的設(shè)置和關(guān)鍵詞的提取的結(jié)果。更加具體地說,詞的權(quán)重依賴于其長度、使用頻率、是什么詞類和在句子中的位置。
一個句子的權(quán)重依賴于其長度、其中的詞的權(quán)重之和、其位置和它是否包含表明其可能相關(guān)性的詞或短語。如果具有表明它具體的與文本的主題事件(例如具有如“本文”或者“總之”的短語)相關(guān)的詞或短語,那么它將具有更大的權(quán)重。如果具有表明它并不具體的與文本的主題事件(例如具有如“例如”的短語)相關(guān)的詞或短語,那么它將具有更小的權(quán)重。
在句子選擇中(步驟S420),采用使用者所選擇的壓縮率。給定某一壓縮率R,則目標(biāo)概括長度L為L=R*原始文本長度.
另外,選定句子Si,使句子Si的任意子集將滿足下面的兩個條件(1)L(Si)的和與L之差的絕對值被最小化|∑L(Si)-L|=min(2)對于那些相同的句子W(Si)之和被最大化∑W(Si)=max其中,L(Si)代表Si的長度,W(Si)代表Si的權(quán)重。
將被選句子鏈接起來以得到一個大致的概括(步驟S422),然后對其進(jìn)行平滑(步驟S424)和輸出(步驟S426)。平滑過程包含將概括分為段落,這樣就沒有了過長的段落。該過程還可以包括去除相對不重要的形容詞、去除在同一句子的結(jié)果從句中出現(xiàn)的原因從句,以及類似的東西。
可以設(shè)置一個具體的壓縮率,例如30%,為默認(rèn)值,使用者可以根據(jù)需要改變。另一個功能允許使用者選擇是否總需要文本概括,或者只有當(dāng)原始文本比某個最小值,例如大于30個詞時(shí),才需要。具體概括壓縮率還可以被設(shè)置成只應(yīng)用于長度超過產(chǎn)生最小值的文本的長度的文本。例如,如果壓縮率是30%,并且最小值是30個詞,那么只對100個詞或者更長的文本用30%的壓縮率進(jìn)行壓縮。對于任何低于這個最小值的文本,在這個例子中就是30個詞或者更少,將不會被減少。對于任何介于這個最小值和用現(xiàn)在的壓縮率將要產(chǎn)生最小值的文本長度之間的文本,在這個例子中就是31至99個詞,概括將把文本減少到最小值,也就是30個詞。
最好采用前面所述的文本概括過程,但在這個包含文本概括的發(fā)明中,并不是對所有的方面都是必須的。也可以采用其他的概括過程來代替,例如只采用步驟S406、S408、S418、S422和S426。也可以采用其他的組合。概括過程可以如如下任何一個文章所論述[1]H.P.Luhn,The automatic creation of literature abstracts.IBMJournal of Research and Development,2(2)159-165,1959;[2]Edmundson H.P.New methods in automatic abstracting,Journalof the Association for Computing Machinery.16(2)264-285,1969;[3]Kupiec,J.Pedersen,J.and Chen,F(xiàn).,A trainable documentsummarizer.In Proceeding of the 18th ACM-SIGIR conference.1995年;[4]S.Teufel,M.Moens,Sentence Extraction as a Classification Task,Workshop‘Intelligent and scalable Text summarization’,ACL/EACL 1997.July 1997;以及[5]Hovy,E.,Lin,C-Y。Automated Text Summarization inSUMMARIST.In Advances in Automatic Text Summarization,I Maini andM.T.Maybury(eds.),81-94,Cambridge,MassachusettsMIT Press,1999.
還可以對已知的過程,如上面的參考文章[1],進(jìn)行修改,例如在步驟S420中討論的那樣,在決定要選的句子時(shí)允許使用不同的壓縮率。
然后,與任何已轉(zhuǎn)換的多媒體信息、任何提取出的超級鏈接和任何已經(jīng)概括和未概括的已提取文本相結(jié)合產(chǎn)生WML頁面。已轉(zhuǎn)換的多媒體信息來自多媒體信息轉(zhuǎn)換步驟(S204)。已經(jīng)提取出的超級鏈接來自主超級鏈接頁面提取步驟(S310)。已經(jīng)提取出的文本來自主超級鏈接頁面提取步驟(S310)或者主文本頁提取步驟(S308),不管是否然后在文本概括步驟(S208)進(jìn)行概括。然后將這個WML頁壓縮并發(fā)送。
參見圖6,其中所示是一個根據(jù)本發(fā)明至少一個實(shí)施例的無線電話51。該無線電話51具有一個與處理器53相連接并與其進(jìn)行通信的射頻通信單元52。屏幕54和小鍵盤55形式的輸入接口也與處理器53相連接并與之通信。小鍵盤55或屏幕54可以被用于設(shè)定在文本壓縮步驟(圖3中的S208)和圖5中的句子選擇步驟(S420)使用的壓縮率。
處理器53包含一個帶有一個只讀存儲器(ROM)57的編碼/解碼器56,只讀存儲器存儲用于編碼和解碼可由無線電話51發(fā)送和接收的音頻或者其他信號,如WAP信號,的數(shù)據(jù)。處理器53還包括一個微處理器58,它通過公共數(shù)據(jù)地址總線59與編碼/解碼器56、相關(guān)字符只讀存儲器(ROM)60、隨機(jī)存儲器(RAM)61、一個靜態(tài)可編程存儲器62和一個可拆裝SIM模塊63連接。靜態(tài)可編程存儲器62和可拆裝SIM模塊63都可以在執(zhí)行其他功能之外存儲一個用于通過WAP網(wǎng)關(guān)進(jìn)行互連網(wǎng)接入的WAP瀏覽器和已選的輸入文本消息以及電話號碼的電話本數(shù)據(jù)庫。
微處理器58具有用于和小鍵盤55、屏幕54、包含振動電機(jī)和相關(guān)驅(qū)動器的報(bào)警模塊64、麥克風(fēng)65和揚(yáng)聲器66連接的端口。
字符ROM 60存儲用于解碼和編碼文本消息的數(shù)據(jù),這些消息可以是從小鍵盤55輸入,并由通信單元52接收的。字符ROM 60還存儲微處理器58的操作碼(OC)。
射頻通信單元52是一個具有公用天線67的組合接收器和發(fā)送器。通信單元52具有一個通過射頻放大器69和天線67耦合的發(fā)送接收器68。發(fā)送接收器68還與將通信單元52和處理器53相連的組合調(diào)制/解調(diào)器70相連。
本發(fā)明使得無線設(shè)備可以有效的瀏覽HTTP網(wǎng)站。它提供了一種新的網(wǎng)關(guān)系統(tǒng)和一個新的瀏覽器,使得使用者可以設(shè)置文本壓縮率。實(shí)施例中的新網(wǎng)關(guān)不僅具有傳統(tǒng)WAP網(wǎng)關(guān)的所有特點(diǎn),還采用了自動HTML輪廓分析功能來慮除不需要的垃圾信息,還采用了文本概括引擎來壓縮文本信息??梢詫⒃摼W(wǎng)關(guān)系統(tǒng)安裝在WAP服務(wù)提供商的服務(wù)器上。移動設(shè)備上的瀏覽器是一個微型瀏覽器,它小到可以通過無線數(shù)據(jù)網(wǎng)將其下載到無線設(shè)備上。整個系統(tǒng)擴(kuò)大了移動電話和其它合適的移動設(shè)備可以訪問的網(wǎng)頁范圍,同時(shí)減少了使用者在無線通信上需要花費(fèi)的時(shí)間和金錢(用于用戶得到他所需要的信息)。
實(shí)施例中的概括網(wǎng)關(guān)是一個獨(dú)立系統(tǒng),它使得WAP設(shè)備可以瀏覽現(xiàn)在的HTTP服務(wù)器。概括引擎還可以被用于其他的基于服務(wù)器的應(yīng)用程序中或者和其他應(yīng)用程序結(jié)合使用。例如,可以和一個電子郵件交換服務(wù)器結(jié)合來將長電子郵件壓縮為短電子郵件。
本發(fā)明與現(xiàn)有WAP網(wǎng)關(guān)不同的優(yōu)勢還在于它能夠提供如下功能在WAP和HTTP協(xié)議之間進(jìn)行轉(zhuǎn)換;
濾除潛在的不需要信息;將非文本信息轉(zhuǎn)換為文本信息;自動對HTML頁的輪廓進(jìn)行分析;將長文本壓縮為短概括;以及以WAP形式反饋概括。
上述詳細(xì)說明只提供了一個優(yōu)選示范性的實(shí)施例,并打算限制本發(fā)明的范圍、應(yīng)用、或者配置。相反,該優(yōu)選示范性的實(shí)施例的詳細(xì)說明給本領(lǐng)域技術(shù)人員提供了可以用于實(shí)現(xiàn)本發(fā)明優(yōu)選示范性的實(shí)施例的描述。應(yīng)該明白,在不脫離所附權(quán)利要求中列出的本發(fā)明的精神和范圍的前提下,可以對本發(fā)明中要素的功能和配置進(jìn)行不同的修改。
權(quán)利要求
1.一種用于概括網(wǎng)頁內(nèi)容的方法,該網(wǎng)頁是在電子設(shè)備的請求下提供的,該方法包括從所述電子設(shè)備接收一個壓縮率;接收所述網(wǎng)頁;從所述網(wǎng)頁中提取出文本;以及根據(jù)接收到的壓縮率對提取出的文本進(jìn)行概括。
2.根據(jù)權(quán)利要求1的方法,還包括使用者在所述電子設(shè)備中設(shè)定所述壓縮率。
3.根據(jù)權(quán)利要求1的方法,還包括從所述網(wǎng)頁中提取出超級鏈接。
4.根據(jù)權(quán)利要求1的方法,還包括清理廣告網(wǎng)頁的內(nèi)容。
5.根據(jù)權(quán)利要求1的方法,還包括清理標(biāo)題網(wǎng)頁的內(nèi)容。
6.根據(jù)權(quán)利要求1的方法,還包括將網(wǎng)頁中的圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)。
7.根據(jù)權(quán)利要求1的方法,還包括產(chǎn)生包含概括文本的WML頁。
8.一種用于響應(yīng)移動電子設(shè)備對網(wǎng)頁的請求,將所述網(wǎng)頁提供給所述移動電子設(shè)備的網(wǎng)關(guān),該網(wǎng)關(guān)被配置成從所述電子設(shè)備接收一個壓縮率;接收所述網(wǎng)頁;從所述網(wǎng)頁中提取出文本;以及根據(jù)接收到的壓縮率對提取出的文本進(jìn)行概括。
9.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以從所述網(wǎng)頁中提取出超級鏈接。
10.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以清理所述廣告網(wǎng)頁的內(nèi)容。
11.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以清理所述標(biāo)題網(wǎng)頁的內(nèi)容。
12.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以將網(wǎng)頁中的圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)。
13.根據(jù)權(quán)利要求8的網(wǎng)關(guān),其中該網(wǎng)關(guān)還被配置成可以接收HTML網(wǎng)頁,并提供作為WML頁的已概括文本,以便傳送給所述移動設(shè)備。
14.一種帶有一個瀏覽器的移動電子設(shè)備,用于通過網(wǎng)關(guān)請求和接收網(wǎng)頁,該網(wǎng)關(guān)可以在這些網(wǎng)頁被傳送到電子設(shè)備之前對網(wǎng)頁進(jìn)行概括,其中所述移動電子設(shè)備可以用來設(shè)置用于概括網(wǎng)頁的壓縮率;以及所述移動電子設(shè)備可以將所設(shè)置的壓縮率傳送到所述網(wǎng)關(guān)。
15.根據(jù)權(quán)利要求14的設(shè)備,其中所述壓縮率可以直接由設(shè)備使用者改變。
全文摘要
一種用于網(wǎng)頁概括的網(wǎng)關(guān),當(dāng)使用如移動電話等的移動設(shè)備請求網(wǎng)頁時(shí),該請求將通過網(wǎng)關(guān),該網(wǎng)關(guān)檢索出相關(guān)網(wǎng)頁。接收到網(wǎng)頁時(shí),網(wǎng)關(guān)剝?nèi)ゲ恍枰男畔?,如廣告和標(biāo)題,提取出文本和主超級鏈接并概括該文本。用于概括文本的壓縮率是由移動設(shè)備的使用者設(shè)定并和網(wǎng)頁請求一起被傳送到網(wǎng)關(guān)的。提取和壓縮信息被轉(zhuǎn)化為WML(或者其他的相關(guān)語言),以便發(fā)送回移動設(shè)備。
文檔編號H04M1/725GK1592280SQ03156319
公開日2005年3月9日 申請日期2003年9月1日 優(yōu)先權(quán)日2003年9月1日
發(fā)明者韓客松, 黃建成 申請人:摩托羅拉公司