亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

電子內(nèi)容分類(lèi)的制作方法

文檔序號(hào):6568588閱讀:149來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):電子內(nèi)容分類(lèi)的制作方法
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算系統(tǒng)中的電子內(nèi)容分類(lèi)。
背景技術(shù)
隨著計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)變得越來(lái)越能夠訪問(wèn)信息,因此人們要 求有更多的方式來(lái)獲取信息。特別地,人們現(xiàn)在希望在路上、在家里、 或者在辦公室中訪問(wèn)信息,而這些信息原來(lái)只能從連在適當(dāng)配置的網(wǎng) 絡(luò)上的固定連接的個(gè)人計(jì)算機(jī)獲得。人們可能想要從他們的蜂窩電話(huà)
中得到股票報(bào)價(jià)和天氣預(yù)報(bào),從他們的個(gè)人數(shù)字助理(PDA)中得到 電子郵件,從他們的掌上電腦得到最新的文件,以及從他們的所有裝 置中得到及時(shí)準(zhǔn)確的查找結(jié)果。人們還可能在旅行時(shí),無(wú)論是本地的、 國(guó)內(nèi)的還是國(guó)際的,想要從易于使用的移動(dòng)裝置上得到所有的這些信 息。
某些文檔不適于在移動(dòng)裝置上使用。移動(dòng)裝置并不一定要與他們 的對(duì)手臺(tái)式機(jī)相同。移動(dòng)裝置的用戶(hù)想要看到他們認(rèn)為是好的移動(dòng)內(nèi) 容,而在他們的裝置上提供的移動(dòng)內(nèi)容經(jīng)常是不實(shí)際的甚至是無(wú)法顯 示的內(nèi)容。在一些情況下,用戶(hù)可以接收由中間源提供的轉(zhuǎn)換后的內(nèi) 容,例如,中間源可以將網(wǎng)頁(yè)內(nèi)容從HTML (超文本標(biāo)示語(yǔ)言)格式 轉(zhuǎn)換為WML (無(wú)線(xiàn)標(biāo)示語(yǔ)言)格式,并將轉(zhuǎn)換后的內(nèi)容提供給移動(dòng)裝 置。根據(jù)該轉(zhuǎn)換過(guò)程的性質(zhì)和/或質(zhì)量,該轉(zhuǎn)換后的內(nèi)容可能在語(yǔ)義上 等同于或者不等同于原始文檔,或者該格式仍舊很難在移動(dòng)裝置上導(dǎo) 航。
對(duì)于該文檔的簡(jiǎn)易的分析可以釆用通過(guò)對(duì)該頁(yè)是否含有HTML標(biāo) 記來(lái)對(duì)頁(yè)面或文檔進(jìn)行分類(lèi)的形式,其中該HTML標(biāo)記清楚地表示某一特定類(lèi)型的裝置是適合顯示該頁(yè)的裝置。這種分析也可以關(guān)注頁(yè)面 大小,頁(yè)面上的文件的后綴,文檔類(lèi)型聲明,或者網(wǎng)頁(yè)中其它的此類(lèi)
直觀內(nèi)容。例如,文檔類(lèi)型(doctype)聲明就是其中之一,其中網(wǎng)頁(yè)
的作者應(yīng)明確地標(biāo)示出標(biāo)記語(yǔ)言的類(lèi)型和標(biāo)準(zhǔn)。
這種簡(jiǎn)易的方法雖然易于實(shí)現(xiàn),但存在限制。例如,他們可能對(duì) 文檔作出錯(cuò)誤的假定,因?yàn)樗麄円揽棵鞔_的識(shí)別信息。例如,涉及搜
索特定標(biāo)記例如文檔類(lèi)型(doctype)的方法可能要求來(lái)自頁(yè)面的作者 的密切合作。但是,作者有可能沒(méi)有正確地對(duì)該文檔進(jìn)行編碼或者沒(méi) 有遵循適當(dāng)?shù)臉?biāo)準(zhǔn)。還有,為其所提供的文檔提供明確的內(nèi)容標(biāo)識(shí)的 服務(wù)器也有可能被錯(cuò)誤地配置并且給出不準(zhǔn)確的數(shù)據(jù)。雖然這種錯(cuò)誤 的應(yīng)答可能只是少量累積,但是從整體上考慮時(shí)它們?nèi)耘f會(huì)削弱搜索 引擎的正確性。結(jié)果,就需要對(duì)電子內(nèi)容進(jìn)行更靈活和更復(fù)雜的分類(lèi), 以在特定的裝置或特定種類(lèi)的裝置上進(jìn)行顯示。

發(fā)明內(nèi)容
這里提供了各種實(shí)施方式。 一種實(shí)施方式提供了對(duì)電子內(nèi)容進(jìn)行 分類(lèi)的方法,其中采用的方式至少部分取決于由文檔特征所暗示的格 式,因此并不依賴(lài)于文檔作者遵守特定習(xí)慣或規(guī)則。這種隱含的特征 不同于明確的特征,它是主要目的為指示文檔格式的在文檔中的指示。 這種明確定特征包括文檔的內(nèi)容類(lèi)型標(biāo)簽,文檔類(lèi)型(doctype)標(biāo)記, 以及文件名稱(chēng)的擴(kuò)展名。
在一種實(shí)施方式中,描述了對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法。該方法 包括從計(jì)算系統(tǒng)中獲得電子文檔,識(shí)別該電子文檔的一個(gè)或多個(gè)文檔 特征,對(duì)所識(shí)別的文檔特征進(jìn)行分析以確定包含在該電子文檔中的電 子內(nèi)容的格式(該確定的格式由所識(shí)別的文檔特征所提供的一個(gè)或多 個(gè)指示符暗示),以及根據(jù)所確定的格式來(lái)指定包含在該電子文檔中 的電子內(nèi)容是否可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上。該指定可以包 括分析基于內(nèi)容的文檔特征,并且可以由機(jī)器學(xué)習(xí)系統(tǒng)來(lái)分析所識(shí)別的文檔特征。另外,該方法可以根據(jù)包含在該電子文檔中的電子內(nèi)容 可顯示在預(yù)定類(lèi)型的計(jì)算裝置上的置信度來(lái)確定是否將與電子文檔相 關(guān)的已索引的表目插入到可查找的索引中,并且該已索引的表目可以 指示電子文檔被確定的格式。
在該方法的某些實(shí)施方式中,包含在電子文檔中的電子內(nèi)容可以 包括可顯示的網(wǎng)頁(yè)內(nèi)容。還有,該電子文檔的至少一個(gè)文檔特征可以 包括標(biāo)記特征,其中該標(biāo)記特征可以被解釋以在計(jì)算裝置上顯示電子 內(nèi)容。另外,該文檔分析可以包括將預(yù)定規(guī)則集應(yīng)用于所識(shí)別的文檔 特征,并且該預(yù)定規(guī)則集可以將一個(gè)或多個(gè)決定應(yīng)用于多個(gè)文檔特征。 對(duì)該內(nèi)容是否可以被顯示的指定可以包括將一個(gè)或多個(gè)探試規(guī)則應(yīng)用 于所確定的格式和所識(shí)別的文檔特征,并且還可以包括計(jì)算置信等級(jí), 其中該置信等級(jí)基于包含在該電子文檔中的電子內(nèi)容可顯示在預(yù)定類(lèi) 型的計(jì)算裝置上的確定的置信度。
在本發(fā)明的其它實(shí)施方式中,該方法還可以包括創(chuàng)建與電子內(nèi)容 相關(guān)聯(lián)的已索引的表目,該已索引的表目指示包含在電子文檔中的電 子內(nèi)容是否可以顯示在已識(shí)別類(lèi)型的計(jì)算裝置上,并且將該已索引的 表目插入到可査找索引中,其中該已索引的表目被歸類(lèi)在該可查找的 索引中。另外,該已識(shí)別類(lèi)型的計(jì)算裝置可以包括能夠顯示具有一個(gè) 或多個(gè)預(yù)定格式的電子內(nèi)容的計(jì)算裝置,并且在一些情況下可以包括 無(wú)線(xiàn)裝置或者預(yù)定品牌或型號(hào)的計(jì)算裝置。并且,所確定的格式可以
從包括XHTML (可擴(kuò)展超文本標(biāo)示語(yǔ)言)格式、HTML (超文本標(biāo)示 語(yǔ)言)格式、WML (無(wú)線(xiàn)標(biāo)示語(yǔ)言)以及cHTML (壓縮HTML)格式 的組中選出。
在再另一種實(shí)施方式中,披露了一種有形地嵌入在信息載體中的 計(jì)算機(jī)程序產(chǎn)品。該產(chǎn)品包括指令,當(dāng)執(zhí)行該指令時(shí)執(zhí)行對(duì)電子內(nèi)容 進(jìn)行分類(lèi)的方法,其中該方法包括獲得存儲(chǔ)在計(jì)算系統(tǒng)中的電子文檔, 該電子文檔具有電子內(nèi)容,解析該電子文檔并識(shí)別該電子文檔的一個(gè)或多個(gè)文檔特征,對(duì)所識(shí)別的文檔特征進(jìn)行分析以確定包含在該電子 文檔中的電子內(nèi)容的格式(該確定的格式是基于由被所識(shí)別的文檔特 征所提供的一個(gè)或多個(gè)指示符),以及根據(jù)所確定的格式和所識(shí)別的 文檔特征來(lái)指定包含在該電子文檔中的電子內(nèi)容是否可以顯示在預(yù)定 類(lèi)型的計(jì)算裝置上。
在另一種實(shí)施方式中,提供了一種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的系統(tǒng)。 該系統(tǒng)可以包括用于接收電子文檔的裝置,用于確定包含在該電子 文檔中的電子內(nèi)容的格式的裝置,以及用于根據(jù)所確定的格式來(lái)指定 包含在該電子文檔中的電子內(nèi)容是否可以顯示在預(yù)定類(lèi)型的計(jì)算裝置 上的裝置。
在再另一種實(shí)施方式中,提供了一種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法。 該方法可以包括從計(jì)算系統(tǒng)中獲取電子文檔,使用與該文檔相關(guān)聯(lián)的 明確的文檔類(lèi)型標(biāo)識(shí)符來(lái)識(shí)別文檔類(lèi)型,對(duì)一個(gè)或多個(gè)文檔特征以及 所識(shí)別的文檔類(lèi)型進(jìn)行分析以確定包含在該電子文檔中的電子內(nèi)容的 格式,所確定的格式由所識(shí)別的文檔特征所提供的一個(gè)或多個(gè)指示符 暗示,以及根據(jù)所確定的格式來(lái)指定包含在該電子文檔中的電子內(nèi)容 是否可以顯示在已識(shí)別類(lèi)型的計(jì)算裝置上。
在再另一種實(shí)施方式中,提供了另一種方法,其包括從計(jì)算系統(tǒng) 中獲取具有電子內(nèi)容的電子文檔,識(shí)別出該電子文檔的多個(gè)文檔特征, 根據(jù)該多個(gè)文檔特征來(lái)計(jì)算文檔分值,以及根據(jù)該文檔分值來(lái)指定包 含在該電子文檔中的電子內(nèi)容是否可以顯示在已識(shí)別類(lèi)型的計(jì)算裝置 上。該文檔特征可以包括隱含文檔特征,并且也可以包括基于內(nèi)容的 文檔特征。
各種實(shí)施方式可以提供某些優(yōu)點(diǎn)。例如,內(nèi)容分類(lèi)模塊可以自動(dòng) 地將電子文檔分類(lèi)為不同的與移動(dòng)相關(guān)的類(lèi)別。這就有助于將例如網(wǎng) 頁(yè)歸類(lèi)為適合或者不適合在移動(dòng)裝置上顯示。該內(nèi)容分類(lèi)模塊能夠評(píng)
9估是否可以使包含在單個(gè)文檔中的內(nèi)容能夠被用于在移動(dòng)裝置上的顯 示目的,以及確定最適合顯示該內(nèi)容的特定裝置(或裝置類(lèi)型)。
在下面的附圖和說(shuō)明中將詳細(xì)地闡述一個(gè)或多個(gè)實(shí)施方式。從說(shuō) 明書(shū)及附圖以及權(quán)利要求中可以清晰地看到其它特征、目的以及優(yōu)點(diǎn)。


圖1A為顯示內(nèi)容分類(lèi)系統(tǒng)的部件的概念圖。
圖1B為根據(jù)一種實(shí)施方式可以被用于對(duì)電子內(nèi)容進(jìn)行分類(lèi)的系
統(tǒng)的方框圖。
圖1C示出了根據(jù)一種實(shí)施方式在圖1B所示的系統(tǒng)中對(duì)電子內(nèi)容 進(jìn)行的處理。
圖2A為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法的流程圖。 圖2B為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的另一方法的流 程圖。
圖2C為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的另一方法的流 程圖。
圖3A為根據(jù)一種實(shí)施方式與可以被存儲(chǔ)在圖1B所示的索引中的 電子內(nèi)容相關(guān)聯(lián)的表目的圖表。
圖3B為與可以存儲(chǔ)在索引中的電子內(nèi)容相關(guān)聯(lián)的表目的圖表。 圖4為根據(jù)一種實(shí)施方式可以提供給用戶(hù)用于在圖1B所示的系統(tǒng)
中查找電子內(nèi)容的圖形用戶(hù)界面的屏幕圖。
圖5為可以用在圖1B所示的各種部件中的計(jì)算裝置的方框圖。
具體實(shí)施例方式
圖1A為顯示內(nèi)容分類(lèi)系統(tǒng)2的部件的概念圖。 一般地,系統(tǒng)2 提供了對(duì)于被顯示文檔4的分析,以確定該文檔4是否可以顯示在特 定裝置例如個(gè)人數(shù)字助理和移動(dòng)電話(huà),以及可以顯示到什么程度。該 系統(tǒng)可以通過(guò)多種方法來(lái)對(duì)該文檔4進(jìn)行推斷,其中這些方法不需要 文檔作者的任何協(xié)助。特別地,該系統(tǒng)2可以通過(guò)文檔4中的暗示來(lái)得出結(jié)論,并且不需要文檔作者對(duì)文檔4的類(lèi)型或者要在其上顯示該 文檔4的裝置或裝置類(lèi)型進(jìn)行明確地標(biāo)識(shí)。
對(duì)文檔進(jìn)行分類(lèi)的兩個(gè)方面可以由系統(tǒng)2來(lái)解決。首先,確定電
子文檔4的格式或類(lèi)型。接著,為特殊裝置例如個(gè)人數(shù)字助理(PDA)、 臺(tái)式計(jì)算機(jī)或移動(dòng)電話(huà)確定電子文檔的可用性和/或可顯示性的程度。 可用性的程度可以指向潛在地與在裝置上執(zhí)行的軟件(例如瀏覽器) 結(jié)合在一起的特定型號(hào)的裝置,或者指向一類(lèi)裝置(例如具有某一屏 幕尺寸的裝置)。在文檔格式的第一方面,在確定文檔類(lèi)型時(shí)可以提 取出各種文檔特征予以考慮。在第二方面,所確定的電子文檔類(lèi)型可 以被用作在特定裝置上進(jìn)行顯示的技術(shù)可行性的因素。但是,特定的 文檔有可能沒(méi)有隱含著它在該裝置上的可用性。因此,在對(duì)該分類(lèi)的 第二方面進(jìn)行判斷時(shí)可以考慮其它因素。
還有,滿(mǎn)足標(biāo)準(zhǔn)并且在技術(shù)上可以進(jìn)行顯示的文檔有可能無(wú)法在 特定裝置上使用,并且結(jié)果有可能被分類(lèi)為缺少可顯示性。例如,一 文檔可以按照XHTML Mobile進(jìn)行編碼,并且在技術(shù)上可以顯示在相 應(yīng)的裝置上,因?yàn)樗c該標(biāo)準(zhǔn)相匹配。但是盡管如此它也有可能無(wú)法 使用,例如,如果它寬度過(guò)大。這樣,就可以提供系統(tǒng)2,其可將此種 文檔分類(lèi)為無(wú)法顯示,即使它在技術(shù)上符合標(biāo)準(zhǔn)并且能夠被顯示在該 裝置或該類(lèi)裝置上,可是結(jié)果很差并且可用性很低。這種文檔無(wú)法被 顯示的原因就在于它對(duì)于該裝置上的用戶(hù)來(lái)說(shuō)是沒(méi)用的。
電子文檔的特征可以是文檔、元信息(包括例如文檔的HTTP報(bào) 頭或統(tǒng)一資源定位(URL)地址)、文檔內(nèi)容和標(biāo)記、以及由其它文 檔和數(shù)據(jù)源暗示的信息(例如,相關(guān)的或所鏈接的文檔的特征)的任 意屬性??梢酝ㄟ^(guò)布爾邏輯結(jié)構(gòu)來(lái)將特征合并成其本身即為特征的其 它組合特征。例如,〈html〉標(biāo)記和文檔長(zhǎng)度的存在即為兩個(gè)特征。 〈html〉標(biāo)記和文檔長(zhǎng)度的同時(shí)存在也可以被認(rèn)為是一個(gè)特征。
11文檔可以兼有基于內(nèi)容的特征以及非基于內(nèi)容的特征?;趦?nèi)容 的特征涉及文檔的實(shí)際內(nèi)容,例如圖像、表格、文檔中的特殊語(yǔ)言、 以及從這些特征導(dǎo)出的信息(例如,文檔中圖像的總數(shù))的存在。基 于內(nèi)容的特征還包括文檔中的各種標(biāo)記。非基于內(nèi)容的特征包括關(guān)于 文檔的其它數(shù)據(jù)以及元數(shù)據(jù),例如文檔的長(zhǎng)度以及HTTP報(bào)頭。
特征也可以是明確的或隱含的。明確特征的主要目的就是識(shí)別文 檔的類(lèi)型。此種明確特征包括例如從網(wǎng)頁(yè)服務(wù)器返回的內(nèi)容類(lèi)型報(bào)頭,
文檔內(nèi)部聲明的文檔類(lèi)型(doctype),明確地識(shí)別文檔類(lèi)型的其它某 些基于內(nèi)容的特征,以及在一些情況下,電子文檔的擴(kuò)展文件名。明 確地標(biāo)識(shí)出特征并不必然地表明了正確的文件類(lèi)型。例如,網(wǎng)頁(yè)服務(wù) 器經(jīng)常盲目地將非html的文檔返回為text/html的內(nèi)容類(lèi)型,并沒(méi)有要 求html文檔名稱(chēng)須帶有".htm"或".html"的擴(kuò)展名,并且,網(wǎng)頁(yè)瀏 覽器經(jīng)常正確地顯示html,即使缺少文檔類(lèi)型(doctype)聲明。
隱含標(biāo)識(shí)的特征為文檔的一部分或者涉及該文檔,其中所述特征 與該文件類(lèi)型具有一些關(guān)聯(lián),但是沒(méi)有被包括在內(nèi)以明確地標(biāo)識(shí)文檔 類(lèi)型。所述特征可以包括,例如,功能性標(biāo)記"wml〉以及〈html〉標(biāo)記, 例如,用于標(biāo)準(zhǔn)兼容性而非標(biāo)識(shí)用途)。另一個(gè)例子為訪問(wèn)鍵 (accesskey)標(biāo)記屬性,其可以被用于按鍵快捷方式,并且可以在缺 少指示裝置例如鼠標(biāo)的移動(dòng)裝置上更具有實(shí)用性。其它的隱含特征可 以包括文檔中某些要素的數(shù)量,要素(例如,圖像,文本,或活動(dòng)內(nèi) 容)的類(lèi)型,以及從一個(gè)文檔到其它文檔的鏈接。
與被顯示文檔4相關(guān)的就是文檔源6,其中該文檔源6可以?xún)H僅為 與該文檔相關(guān)聯(lián)的文本,或者例如HTML或其它標(biāo)示語(yǔ)言格式的底層 文檔。該被顯示的文檔4和文檔源6也可以被認(rèn)為是單一文檔一一個(gè) 被顯示而另一個(gè)沒(méi)被顯示。另外,多個(gè)網(wǎng)頁(yè)也可以一起被看作是一個(gè) 文檔。該例子中的文檔源6為文本文件,其中該文本文件根據(jù)標(biāo)準(zhǔn)標(biāo)示 語(yǔ)言含有多個(gè)特征例如標(biāo)記。
一些特征對(duì)于文檔分類(lèi)是不重要的,而
其它特征(特征6a, 6b, 6c)可以是些微相關(guān)的或者非常相關(guān)的。這 樣,就可以査找該文檔中是否存在特定的相關(guān)特征。另外,也可以識(shí) 別出這些特征的組合或其它模式。
對(duì)于文檔中的每個(gè)被識(shí)別的特征或特征模式,可以從文檔源6中 提取出或者分析出來(lái)一個(gè)或多個(gè)文檔特征8a, 8b, 8c,或者文檔參數(shù)。 例如,文檔特征8a可以為將要在文檔中顯示的特定文件類(lèi)型,例如jpeg 圖像。特征8a還可以將文檔中的所有文件類(lèi)型作為一種組合來(lái)表示。 作為另一個(gè)例子,特征8b可以表示文檔與特定標(biāo)準(zhǔn)之間的匹配程度。 例如,可以按照標(biāo)準(zhǔn)來(lái)審閱以及檢查文檔源6的各個(gè)部分,并且對(duì)該 文檔給出一個(gè)對(duì)應(yīng)于匹配程度的分值。
還可以用另一種方式來(lái)對(duì)照標(biāo)準(zhǔn)檢查文檔。例如,能夠按多個(gè)標(biāo) 準(zhǔn)解析或者參照一個(gè)或多個(gè)標(biāo)準(zhǔn)寬松地進(jìn)行分析的詞法分析器/解析
器,可以按特定標(biāo)準(zhǔn)對(duì)文檔進(jìn)行解析和解釋。作為一個(gè)例子,因?yàn)槲?檔作者經(jīng)常創(chuàng)建可在瀏覽器中工作的內(nèi)容,因此可能希望通過(guò)商業(yè)網(wǎng) 頁(yè)瀏覽器盡可能寬松地對(duì)文檔進(jìn)行解析,但是不一定與特定標(biāo)準(zhǔn)相容。 在該過(guò)程中,可以根據(jù)多個(gè)不同標(biāo)準(zhǔn)中的每一個(gè)來(lái)反復(fù)或并行地對(duì)文 檔進(jìn)行解析,直到該解析成功并且可以按照特定格式來(lái)解釋該文檔。 這樣,該文檔可被認(rèn)為是屬于類(lèi)型,其中該文檔是能夠以該類(lèi)型來(lái)解 釋的。在這個(gè)匹配過(guò)程之后,其它特征可以被考慮以進(jìn)一步確定該文 檔的分類(lèi),例如為該文檔生成復(fù)合分值。
作為另一個(gè)例子,特征8c可以表示文檔4的結(jié)構(gòu)性成份或特征。 例如,如果文檔具有某一數(shù)量的圖像、活動(dòng)內(nèi)容例如Flash動(dòng)畫(huà)、表格 等,則特征8c可以顯示每種類(lèi)型特征的數(shù)量,并且也可以反映出每個(gè) 特征的類(lèi)型或復(fù)雜度。這樣,在將文檔分類(lèi)為可以顯示或者不可以顯 示在特定裝置上時(shí)就可以考慮特征8c,其中更多數(shù)量的特定特征或更復(fù)雜的特征將傾向于表示文檔無(wú)法在特定裝置或特定類(lèi)型的裝置上進(jìn) 行顯示。該各種特征也可以包括各種標(biāo)示標(biāo)記,關(guān)于頁(yè)面的其它元數(shù)
據(jù)例如頁(yè)面大小和字?jǐn)?shù),頁(yè)面的網(wǎng)頁(yè)標(biāo)準(zhǔn)(例如,WML, HTML, XHTML,等等)以及該標(biāo)準(zhǔn)的變型(例如,EZWeb XHTML)。
在另一個(gè)例子中,可以對(duì)不同版本的文檔、或者來(lái)自不同版本文
檔的特征或成分進(jìn)行分析。例如,網(wǎng)頁(yè)服務(wù)器可以被配置為按照不同
方式來(lái)發(fā)送特定內(nèi)容。在這種情況下,系統(tǒng)2可以獲得每種形式的文
檔,并且可以對(duì)各種形式進(jìn)行比較,以得到關(guān)于每個(gè)形式的可顯示性
的信息。例如,當(dāng)以一種具有多個(gè)"富"內(nèi)容特征例如Flash動(dòng)畫(huà)等的
形式存儲(chǔ)文檔,以及用另一種除了額外的富內(nèi)容以外相同的或者實(shí)質(zhì)
上相同的形式存儲(chǔ)文檔時(shí),則該系統(tǒng)可能推斷后面的形式是作者想要 在具有有限的顯示能力的裝置上進(jìn)行顯示的。例如,通過(guò)表示不同裝
置請(qǐng)求該文檔的不同的用戶(hù)-代理(User-Agent)禾卩/或接收(Accept) 報(bào)頭向網(wǎng)頁(yè)服務(wù)器發(fā)送請(qǐng)求就可以獲得這些不同的版本。
一旦從文檔中提取出或者計(jì)算得出描述該文檔的適當(dāng)特征或參 數(shù),就可以通過(guò)多種方式,或者通過(guò)對(duì)多個(gè)技術(shù)進(jìn)行組合來(lái)對(duì)可顯示 性進(jìn)行分類(lèi)。在一種分類(lèi)方法中,特定分類(lèi)規(guī)則IO可以被應(yīng)用于提取 出來(lái)的特征8a, 8b, 8c。由圖中的流程圖表示的規(guī)則IO可以是一系列 判斷,例如如果/則(if/then)判斷,該判斷按照如下方式依照特定順序 被應(yīng)用于特征,其中這種方式已經(jīng)被確定為對(duì)該文檔的可顯示性提供 了相當(dāng)準(zhǔn)確的評(píng)估。該規(guī)則IO可以是例如已經(jīng)被組合在一起的多個(gè)探 試法,以便于創(chuàng)建文檔4可以顯示在特定裝置上的組合分值或可能性。 該規(guī)則也可以包括對(duì)各個(gè)特征的分析,以生成這些特征的分值,接著 以加權(quán)的方式對(duì)得分進(jìn)行組合,以生成文檔4的復(fù)合分值。
可以從多個(gè)不同特征中生成文檔分值,其中這些不同的特征是從 文檔中解析、提取或者形成的(例如,通過(guò)組合多個(gè)解析后的特征)。 例如,表格數(shù)量、圖像數(shù)量、字?jǐn)?shù)、或者文檔類(lèi)型中的每一個(gè)都可以改變?cè)摲种?例如,對(duì)于每個(gè)圖像,該分值增加或者減少一定數(shù)量, 并且如果圖像很大,則變化量也很大)。在計(jì)算分值時(shí),可以給與明 確特征例如文檔類(lèi)型比某些隱含特征更高的權(quán)重。還有,在文檔作者 遵照適當(dāng)標(biāo)準(zhǔn)的前提下,可以對(duì)明確特征(例如,文檔類(lèi)型)進(jìn)行假 定性的分類(lèi),并且可以對(duì)隱含特征進(jìn)行評(píng)估以創(chuàng)建分值,如果該分值 足夠高或足夠低,就可以否定該假設(shè)。
模式也可以被用于對(duì)文檔進(jìn)行分類(lèi),例如通過(guò)模式的預(yù)定集合或 順序。該模式可以被用于按照特征的潛在順序或次序?qū)⑺R(shí)別的文檔 特征與基線(xiàn)模式進(jìn)行匹配。這些模式可以與預(yù)定內(nèi)容格式(例如,
XHTML、 HTML、 WML、 cHTML)相關(guān)。在試圖確定該文檔中所含內(nèi) 容的格式時(shí),對(duì)該文檔進(jìn)行解析后的輸出可以與這些模式的一個(gè)或多 個(gè)中的記號(hào)進(jìn)行匹配??梢杂卸鄠€(gè)與一個(gè)預(yù)定內(nèi)容格式相關(guān)聯(lián)的多個(gè) 不同基線(xiàn)模式。舉一個(gè)例子來(lái)說(shuō),內(nèi)容分類(lèi)器可以使用模式來(lái)將該文 檔特征與給定文檔類(lèi)型的已知數(shù)據(jù)型定義進(jìn)行匹配。 一種典型的模式 可以指定普通移動(dòng)標(biāo)記(例如,href: tel "單擊呼叫(click to call)" 標(biāo)記),并且另一個(gè)典型模式可以指定某些日語(yǔ)編碼和字符。
在一個(gè)例子中,可以通過(guò)機(jī)器學(xué)習(xí)算法來(lái)生成規(guī)則。在這種方法 中,可以提供初始規(guī)則??梢酝ㄟ^(guò)手動(dòng)地對(duì)多個(gè)文檔進(jìn)行分類(lèi)來(lái)提供 一個(gè)預(yù)先標(biāo)記的文檔集。該算法可以導(dǎo)致創(chuàng)建一組新的用于分類(lèi)的規(guī) 則,其中該規(guī)則在例如確定初始文檔集中的文檔的分類(lèi)時(shí)提供很小或 者最小的誤差。該算法可以在例如該訓(xùn)練集中的文檔的被提取出來(lái)的 特征上應(yīng)用。可以對(duì)后續(xù)的文檔進(jìn)行分析,并將規(guī)則應(yīng)用于它們以對(duì) 它們進(jìn)行分類(lèi)。當(dāng)提取出各種特征并對(duì)它們進(jìn)行分析以為文檔生成復(fù) 合分值時(shí),該系統(tǒng)可以調(diào)整每個(gè)分值、要考慮的特征、要給予的權(quán)重、 以及任何其它合適的因素。任何適用于機(jī)器學(xué)習(xí)的方法都可以被用于 改進(jìn)用于使用合成數(shù)據(jù)對(duì)文檔進(jìn)行分類(lèi)的規(guī)則或算法,其中該合成數(shù) 據(jù)包括連接網(wǎng)、判斷樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于樣例的學(xué)習(xí)、 以及遺傳算法。作為機(jī)器學(xué)習(xí)或者其它適當(dāng)過(guò)程的一部分,分類(lèi)的結(jié)果,例如按 照聚合特征14的形式,可以被反饋給用于進(jìn)行分類(lèi)的探試法,如箭頭
16所示。該聚合特征14可以簡(jiǎn)單地是所提取的特征8a-8c的格式化組 合,或者可以采取任何其它適當(dāng)?shù)男问嚼缫唤M預(yù)定特征,其中表示 文檔4的值被放置在該預(yù)定特征中。也可以采用其它方法。例如,有 時(shí)可以對(duì)所增加的文檔進(jìn)行采樣,并且在裝置上顯示得特別好或者特 別差的文檔可以被識(shí)別出來(lái),這可由手工或電子來(lái)確定,并且可以給 予導(dǎo)致了對(duì)這些文檔進(jìn)行正確或不正確分類(lèi)的特征更大或更小的重要 性,或者可以給予這些特征值不同的權(quán)重,用于以后對(duì)文檔分類(lèi)。還 有,隨著時(shí)間的推移可以添加新的探試法,特別是當(dāng)標(biāo)準(zhǔn)或使用模式 演化時(shí)。
還可以提供模塊12,用于分類(lèi)為規(guī)范。在這種實(shí)施方式中,該規(guī) 范可以用多個(gè)規(guī)范性文檔12a或者來(lái)自規(guī)范性文檔的特征來(lái)表示。規(guī)范 性文檔是被選到一組規(guī)范性文檔中的文檔,或者是包括表示特定形式 文檔的特征輪廓。每個(gè)規(guī)范性文檔可以與裝置列表12b相關(guān)聯(lián),其中 該裝置列表12b可以與可以顯示該文檔的裝置或裝置類(lèi)別(例如,裝 置類(lèi)型)相對(duì)應(yīng)。該規(guī)范性文檔12a可以包括例如預(yù)先選出的一組測(cè)試
文檔,該組測(cè)試文檔已經(jīng)被選中來(lái)表示一定范圍的文檔風(fēng)格,其中該 文檔風(fēng)格具有各種不同的特征或特征值。
接著可以將要顯示的文檔的聚合特征14與每個(gè)規(guī)范性文檔的特征 相比較,對(duì)規(guī)范性文檔12a中的相應(yīng)特征與聚合特征14之間的匹配程 度賦予分值。對(duì)于具有最高分值的規(guī)范性文檔12a或者分值相當(dāng)高的文 檔(例如,對(duì)于單個(gè)文檔有多個(gè)裝置時(shí)),接著,與特定規(guī)范性文檔 12a相關(guān)聯(lián)的裝置列表就會(huì)變得直接或間接地與特定文檔6相關(guān)聯(lián)。通 過(guò)這種方式,當(dāng)裝置請(qǐng)求文檔時(shí),可以對(duì)照裝置列表來(lái)檢査該裝置的 類(lèi)型,以確定該文檔是否可以被顯示。另外,可以建立一個(gè)文檔集合,作為文檔訓(xùn)練集合的一部分或者 在其之外另外建立。接著,可以對(duì)分類(lèi)系統(tǒng)作出改變(例如,通過(guò)改 變分類(lèi)規(guī)則),并且可以將改變后的系統(tǒng)應(yīng)用于這些文檔。該應(yīng)用的 結(jié)果可以與被認(rèn)為是提供適當(dāng)分類(lèi)的標(biāo)準(zhǔn)結(jié)果進(jìn)行比較,由此可以確 定對(duì)該系統(tǒng)所作的改變的適當(dāng)程度。
可以使用特征來(lái)確定文檔的格式或類(lèi)型,以及確定文檔的可顯示 性。例如,在確定文檔類(lèi)型時(shí)可以提取以及考慮某些特征一例如通過(guò)
關(guān)注與公知標(biāo)準(zhǔn)例如WML1.2的匹配程度。如果該文檔的所有部分都
與該標(biāo)準(zhǔn)匹配,則可以對(duì)其與該標(biāo)準(zhǔn)相匹配給予完全的信用量,而如 果一小部分缺乏匹配,則可以給予其部分的信用量(即,低分值)。 接著該文檔類(lèi)型被用作用于確定文檔是否可顯示的多個(gè)因素之一,例 如通過(guò)給予它以及其它特征加權(quán)后的分值。
接著可以測(cè)試文檔是否真的可以顯示,例如可以通過(guò)將它們提供 給特定裝置或被編程為模擬特定裝置的機(jī)器,并接著確定該文檔的顯 示是否令人滿(mǎn)意??梢宰詣?dòng)地或者手動(dòng)地進(jìn)行此種確定,例如通過(guò)讓 用戶(hù)來(lái)表示該顯示是否適當(dāng)。成功的顯示可以使得該系統(tǒng)重新確認(rèn)用 于對(duì)文檔進(jìn)行分類(lèi)的規(guī)則,包括例如,通過(guò)給予這些規(guī)則更高的權(quán)重 以用于將來(lái)的分類(lèi)。不成功的顯示將導(dǎo)致相關(guān)的規(guī)則在將來(lái)的分類(lèi)中 的重要性降低。
剛才在概念上討論的技術(shù)和特征可以在任何適當(dāng)?shù)沫h(huán)境中實(shí)現(xiàn), 在該環(huán)境中所關(guān)切的是對(duì)文檔的正確顯示,包括在以下討論的系統(tǒng)和 方法中。
圖1B為根據(jù)一種實(shí)施方式能夠被用于對(duì)電子內(nèi)容進(jìn)行分類(lèi)的系 統(tǒng)100的方框圖。在該實(shí)施方式中,系統(tǒng)100包括數(shù)據(jù)處理系統(tǒng)50、 網(wǎng)絡(luò)58、服務(wù)器60、便攜式移動(dòng)(無(wú)線(xiàn))裝置62以及客戶(hù)端計(jì)算機(jī) 64。該數(shù)據(jù)處理系統(tǒng)50、服務(wù)器60、便攜式移動(dòng)(無(wú)線(xiàn))裝置62以及客戶(hù)端計(jì)算機(jī)64均與網(wǎng)絡(luò)58相連。移動(dòng)裝置62與網(wǎng)絡(luò)58進(jìn)行無(wú) 線(xiàn)通信。網(wǎng)絡(luò)58可以包括LAN (局域網(wǎng))或WAN (廣域網(wǎng)),例如 互聯(lián)網(wǎng)。數(shù)據(jù)處理系統(tǒng)50能夠?qū)Ψ?wù)器60上存儲(chǔ)的電子內(nèi)容進(jìn)行索 引,根據(jù)內(nèi)容指示符來(lái)確定該內(nèi)容的格式,以及指定該內(nèi)容是否與客 戶(hù)端計(jì)算機(jī)64或移動(dòng)裝置62上的顯示目的相兼容。
系統(tǒng)100中的每個(gè)服務(wù)器60都可以含有廣泛類(lèi)別的電子內(nèi)容。例 如,其中一個(gè)服務(wù)器可以存儲(chǔ)電子新聞內(nèi)容,而其中另一個(gè)服務(wù)器可 以存儲(chǔ)電子股票或游戲內(nèi)容。服務(wù)器60還可以以各種不同的內(nèi)容格式 來(lái)存儲(chǔ)電子內(nèi)容。例如,服務(wù)器60可以存儲(chǔ)用XHTML (可擴(kuò)展超文 本標(biāo)示語(yǔ)言)、HTML (超文本標(biāo)示語(yǔ)言)、WML (無(wú)線(xiàn)標(biāo)示語(yǔ)言)、 cHTML (壓縮HTML)或者使用另一種格式的語(yǔ)言編寫(xiě)的電子文檔中 的電子內(nèi)容。計(jì)算裝置,例如移動(dòng)裝置62或客戶(hù)端計(jì)算機(jī)64,可以對(duì) 這些電子文檔進(jìn)行處理,以將相應(yīng)的電子內(nèi)容顯示在顯示裝置上。例 如,如果移動(dòng)裝置62包括與WAP(無(wú)線(xiàn)應(yīng)用協(xié)議)標(biāo)準(zhǔn)兼容的瀏覽器, 則該移動(dòng)裝置就能夠解釋用WML或XHTML編寫(xiě)的電子文檔。一旦移 動(dòng)裝置62解釋了這些格式的文檔,則該移動(dòng)裝置62就能夠?qū)⑾鄳?yīng)的 電子內(nèi)容(例如,新聞或股票信息)顯示在它的顯示裝置上。客戶(hù)端 計(jì)算機(jī)64就能夠解釋用XHTML或HTML編寫(xiě)的電子文檔,并將相應(yīng) 的內(nèi)容顯示在它的顯示裝置上。
為數(shù)據(jù)處理系統(tǒng)50提供了接口 52,用于允許通過(guò)各種方式進(jìn)行通 信。例如,數(shù)據(jù)處理系統(tǒng)50可以通過(guò)網(wǎng)絡(luò)58與服務(wù)器60進(jìn)行通信, 以對(duì)存儲(chǔ)在這些服務(wù)器60上的電子內(nèi)容進(jìn)行處理。數(shù)據(jù)處理系統(tǒng)50 包括爬行器76、內(nèi)容分類(lèi)器82以及可搜索的索引72。爬行器76自動(dòng) 地對(duì)網(wǎng)絡(luò)58進(jìn)行遍歷,并從服務(wù)器60請(qǐng)求電子文檔。在一種實(shí)施方 式中,爬行器76通過(guò)使用服務(wù)器60的URL (統(tǒng)一資源定位地址)來(lái) 訪問(wèn)服務(wù)器60上的這些文檔。爬行器76可以使用初始URL集并且從 由這些URL指向的服務(wù)器60中提取所指涉的文檔。爬行器76典型地 跟蹤它之前訪問(wèn)過(guò)的URL。每當(dāng)爬行器76識(shí)別到存儲(chǔ)在服務(wù)器60中的其中一個(gè)上的新電子文檔時(shí),它就提取該文檔并將其傳送給內(nèi)容分 類(lèi)器82。
接著,內(nèi)容分類(lèi)器82對(duì)該文檔的電子內(nèi)容進(jìn)行分類(lèi),這在上下文 中進(jìn)行了更詳細(xì)的描述。例如,內(nèi)容分類(lèi)器82可以確定該電子文檔是 使用WML編寫(xiě)的,并且它的內(nèi)容可以在移動(dòng)裝置62上進(jìn)行顯示。(圖 1A中所示的移動(dòng)裝置62包括蜂窩電話(huà)手機(jī),但是可以采用任何適當(dāng) 的形式,例如個(gè)人數(shù)字助理、語(yǔ)音驅(qū)動(dòng)個(gè)人通信裝置或者任何其它形 式的移動(dòng)裝置。)
在一種實(shí)施方式中,內(nèi)容分類(lèi)器82確定與該電子文檔相關(guān)聯(lián)的已 索引的表目應(yīng)該被插入到索引72中,如果滿(mǎn)足預(yù)定條件的話(huà)。例如, 內(nèi)容分類(lèi)器82可以確定,如果電子文檔的內(nèi)容能夠被顯示在移動(dòng)裝置 例如移動(dòng)裝置62上,就應(yīng)該插入一個(gè)表目,如果索引72含有對(duì)應(yīng)于 一般移動(dòng)內(nèi)容的表目。圖3A和3B示出了能夠被插入到索引72中的表 目的例子。
內(nèi)容分類(lèi)器82還可以確定爬行器76是否應(yīng)該跟蹤包含在單個(gè)電 子文檔中的地址鏈接。例如,如果該電子文檔是用XHTML編寫(xiě)的, 則它可能包含提供了地址或者嵌入的URL的標(biāo)記,這些地址或者嵌入 的URL指向存儲(chǔ)在服務(wù)器60上的其它電子文檔。如果內(nèi)容分類(lèi)器82 是在對(duì)移動(dòng)內(nèi)容進(jìn)行分類(lèi),則它可以確定爬行器76應(yīng)該繼續(xù)爬行并且 跟蹤電子文檔中含有的任何地址鏈接,如果內(nèi)容分類(lèi)器82已經(jīng)確定了 該電子文檔含有能夠在移動(dòng)裝置(例如移動(dòng)裝置62)上進(jìn)行顯示的移 動(dòng)內(nèi)容。在這種情況下,該文檔中的鏈接可以指向具有移動(dòng)內(nèi)容的附 加文檔。但是,如果內(nèi)容分類(lèi)器82確定該電子內(nèi)容不含有移動(dòng)內(nèi)容, 則它可以表示爬行器76不應(yīng)該跟蹤該地址鏈接。在另一個(gè)實(shí)施方式中, 內(nèi)容分類(lèi)器82在爬行期間沒(méi)有被使用,而是在該爬行完成之后被使用 以確定應(yīng)該添加到索引72的文檔。在一種實(shí)施方式中,內(nèi)容分類(lèi)器82可以確定不將用于電子文檔的 表目插入到索引72中去,但是仍舊請(qǐng)求爬行器76跟蹤指向存儲(chǔ)在服 務(wù)器60上的其它電子文檔的鏈接。例如,內(nèi)容分類(lèi)器82可以確定, 在60%的置信度下,該電子文檔為具有移動(dòng)內(nèi)容的XHTML文檔。在 該例子中,內(nèi)容分類(lèi)器82可以決定該文檔的表目不應(yīng)該包括在索引72 中,因?yàn)樵撝眯哦鹊陀诘谝活A(yù)置閾值(例如,75%)。內(nèi)容分類(lèi)器82 可以?xún)H僅想要將表目插入到索引72中,如果它至少75%確認(rèn)該對(duì)應(yīng)文 檔含有能夠在移動(dòng)裝置上顯示的移動(dòng)內(nèi)容。但是,內(nèi)容分類(lèi)器82可以 決定爬行器76應(yīng)該跟蹤該文檔中含有的任何鏈接,如果該置信度高于 第二預(yù)置閾值(例如,50%)。該第一預(yù)置閾值和第二預(yù)置閾值可以 具有不同的值。
內(nèi)容分類(lèi)器也可以實(shí)現(xiàn)為模塊化的子系統(tǒng)。在此種子系統(tǒng)中,提 供了中央內(nèi)容分類(lèi)器82,其包括用于識(shí)別、交互以及解析文檔的必須 功能。也可以提供單個(gè)分類(lèi)模塊80a、 80b、 80c以及80d,作為內(nèi)容分 類(lèi)器82的插件。每個(gè)模塊可以為特定類(lèi)型的文檔內(nèi)容提供特定的規(guī)則, 例如探試規(guī)則。例如,模塊80a可以含有對(duì)多個(gè)文檔特征進(jìn)行操作的規(guī) 則,其中這些文檔特征單獨(dú)地被內(nèi)容服務(wù)器82識(shí)別,并且可以根據(jù)這 些特征生成文檔的可顯示性參數(shù)。同樣地,模塊80b可以含有關(guān)注文 檔中的特定結(jié)構(gòu)特征例如樣本和表格的規(guī)則,并且可以生成關(guān)于文檔 可顯示性的參數(shù)。接著按照預(yù)定的格式將該參數(shù)傳送給內(nèi)容分類(lèi)器82, 使得該文檔被傳送或者不被傳送給特定裝置。內(nèi)容分類(lèi)器82可以實(shí)現(xiàn) 為具有標(biāo)準(zhǔn)應(yīng)用編程接口 (API),其中程序員可以根據(jù)該API創(chuàng)建附
加分類(lèi)模塊。
系統(tǒng)中采用插件形式的模塊可以執(zhí)行各種任務(wù)。例如, 一個(gè)插件 可以提取文檔特征,而另一個(gè)插件可以對(duì)提取出的特征進(jìn)行分析,以 確定該文檔是否為特定格式(例如, 一個(gè)插件用于WML,另一個(gè)用于 XHTML)。還有,可以為每個(gè)裝置或裝置類(lèi)別提供單獨(dú)的模塊,用于 確定裝置的可顯示性。每個(gè)插件也可以具有單獨(dú)API。例如,為了增加新特征,開(kāi)發(fā)人員可以添加特征插件(FeaturePlugin),當(dāng)他們想要識(shí) 別新標(biāo)準(zhǔn)時(shí),他們可以實(shí)現(xiàn)格式插件(ForaiatPlugin),而當(dāng)他們要確 定新裝置的可用性時(shí),他們可以實(shí)現(xiàn)裝置插件(DevicePlugin)。
通過(guò)對(duì)各種文檔特征進(jìn)行識(shí)別和處理而生成的信息可以按照任何 適當(dāng)?shù)母袷絹?lái)存儲(chǔ)。例如,可以使用可擴(kuò)展的結(jié)構(gòu)化格式例如XML。
一旦來(lái)自服務(wù)器60的電子內(nèi)容在索引72中被索引,移動(dòng)裝置62 以及客戶(hù)端計(jì)算機(jī)64就可以發(fā)送搜索請(qǐng)求給數(shù)據(jù)處理系統(tǒng)50。請(qǐng)求處 理器66對(duì)這些搜索請(qǐng)求進(jìn)行處理。請(qǐng)求可以包括一個(gè)或多個(gè)關(guān)鍵字。 例如,如果移動(dòng)裝置62的用戶(hù)想要查找與狗相關(guān)的每個(gè)網(wǎng)頁(yè),則該用 戶(hù)可以提交一個(gè)包括關(guān)鍵字"狗"的搜索請(qǐng)求。還可以接到除了搜索 查詢(xún)以外的其它請(qǐng)求,并且可以采用各種提供請(qǐng)求的模式。例如,語(yǔ) 音輸入以及其它適當(dāng)形式的輸入都可以被處理。
在一種實(shí)施方式中,移動(dòng)裝置62和客戶(hù)端計(jì)算機(jī)64還可以將附 加信息提供給數(shù)據(jù)處理系統(tǒng)50,例如裝置識(shí)別信息或者顯示性能信息。 在處理由移動(dòng)裝置62和客戶(hù)端計(jì)算機(jī)64發(fā)出的搜索請(qǐng)求時(shí),該附加 信息可以被數(shù)據(jù)處理系統(tǒng)50使用。例如,移動(dòng)裝置62可以將附加信 息提供給數(shù)據(jù)處理系統(tǒng)50,以指定移動(dòng)裝置62為帶有瀏覽器Z裝置的 "品牌X型號(hào)1",其中該瀏覽器Z裝置能夠顯示XHTML或WML 文檔中含有的電子內(nèi)容。當(dāng)移動(dòng)裝置62第一次通過(guò)網(wǎng)絡(luò)58與數(shù)據(jù)處 理系統(tǒng)50相連時(shí),該信息可以被提供給數(shù)據(jù)處理系統(tǒng)50。
請(qǐng)求處理器66對(duì)進(jìn)來(lái)的搜索請(qǐng)求進(jìn)行處理,并將它們提供給搜索 引擎70。接著,搜索引擎70訪問(wèn)索引72以查找匹配表目。搜索引擎 70使用包含在搜索請(qǐng)求中的信息(例如搜索項(xiàng))來(lái)查找匹配表目。搜 索引擎70在查找匹配表目時(shí)也可以使用由請(qǐng)求發(fā)起者所提供的任何附 加信息。例如,如果移動(dòng)裝置62已經(jīng)提供了附加信息,其中該附加信 息用于指定該移動(dòng)裝置能夠顯示XHTML或WML文檔中所含的電子內(nèi)
21容,則搜索引擎70能夠篩選出索引72中與具有不同格式的文檔相關(guān) 的表目。該搜索引擎70還可以例如根據(jù)該搜索請(qǐng)求中指定的條件、通 過(guò)請(qǐng)求發(fā)起者提供的附加信息或者通過(guò)置信度來(lái)對(duì)所提取的表目或搜 索結(jié)果進(jìn)行進(jìn)一步排名。
搜索引擎70將搜索結(jié)果提供給應(yīng)答處理器68。應(yīng)答處理器68對(duì) 結(jié)果進(jìn)行格式化,并且創(chuàng)建反饋給請(qǐng)求發(fā)起者(例如移動(dòng)裝置62或客 戶(hù)端計(jì)算機(jī)64)的應(yīng)答消息。請(qǐng)求發(fā)起者接著可以分析或者顯示該搜 索結(jié)果給用戶(hù)。用戶(hù)可以選擇這些結(jié)果中的一個(gè)或多個(gè),以從服務(wù)器 60中檢索相應(yīng)的電子文檔并將它們的電子內(nèi)容顯示給用戶(hù)。
圖1C示出了根據(jù)一種實(shí)施方式在圖1B所示的系統(tǒng)IOO中對(duì)電子 內(nèi)容進(jìn)行的處理。在圖1C所示的例子中,系統(tǒng)100包括4個(gè)服務(wù)器60A、 60B、 60C和60D。每個(gè)服務(wù)器60A-D都存儲(chǔ)了含有電子內(nèi)容的各種電 子文檔。爬行器76能夠通過(guò)網(wǎng)絡(luò)58下載一個(gè)或多個(gè)這種電子文檔。 內(nèi)容分類(lèi)器82接著能夠?qū)@些電子文檔中所含的內(nèi)容進(jìn)行分類(lèi)。
每個(gè)服務(wù)器60A-D都存儲(chǔ)有具有各種格式的內(nèi)容的電子文檔。例 如,如圖1C中所示,服務(wù)器60A存儲(chǔ)了 HTML文檔,例如文檔102A-C。 服務(wù)器60B存儲(chǔ)了 XHTML文檔,例如文檔104A-C。服務(wù)器60C存儲(chǔ) 了 WML文檔,例如文檔106A-C。服務(wù)器60D存儲(chǔ)了 cHTML文檔, 例如文檔108A-C。在一種實(shí)施方式中,任何給定的服務(wù)器60A-D都能 存儲(chǔ)多種不同格式的電子內(nèi)容。例如,服務(wù)器60B可以存儲(chǔ)XHTML 以及WML文檔。
每個(gè)文檔102A-C、 104A-C、 106A-C以及108A-C都包括一個(gè)或 多個(gè)文檔特征。例如,對(duì)于包含在文檔內(nèi)的各種不同的HTML標(biāo)記, HTML文檔102C可以含有各種不同文檔特征。根據(jù)一種實(shí)施方式,這 些特征被用于確定如何顯示包含在該文檔中的電子內(nèi)容。某些文檔特 征可以包括地址鏈接信息。例如,某些HTML標(biāo)記可以提供關(guān)于指向存儲(chǔ)在單獨(dú)服務(wù)器上的其它文檔的URL (統(tǒng)一資源定位地址)鏈接信 息。當(dāng)搜索存儲(chǔ)在多個(gè)不同文檔中的內(nèi)容時(shí),爬行器76可以跟蹤這些 鏈接。
圖2A為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法200的流程 圖。圖2A的流程圖可以釆用剛剛所述的圖1C中所示的系統(tǒng)。但是, 對(duì)圖1C中所示系統(tǒng)的使用僅是說(shuō)明性的,可以使用任何合適的系統(tǒng)。
方法200包括過(guò)程202、 204、 206以及208。在過(guò)程202中,爬行 器76從計(jì)算系統(tǒng),例如從服務(wù)器60A-D之一獲得電子文檔。爬行器 76將該文檔提供給內(nèi)容分類(lèi)器82。在過(guò)程204中,內(nèi)容分類(lèi)器82對(duì) 該電子內(nèi)容進(jìn)行解析,并識(shí)別出該文檔中包含的一個(gè)或多個(gè)文檔特征。 可以使用多個(gè)不同的解析機(jī)制。在一種實(shí)施方式中,內(nèi)容分類(lèi)器82使 用解析器框架,以通過(guò)對(duì)文檔的單次迭代來(lái)實(shí)現(xiàn)多個(gè)潛在解析。在該 實(shí)施方式中,解析器能夠在單次傳遞中識(shí)別出各種不同格式的文檔特 征,例如XHTML、 HTML、 cHTML或WML。所識(shí)別的特征可以包括 特定文檔標(biāo)記,例如HTML類(lèi)型的標(biāo)記。
在另一實(shí)施方式中,可以使用通用的解析器框架來(lái)管理單獨(dú)的解 析器,其中這些解析器能夠?qū)μ囟ǜ袷降奈臋n進(jìn)行解析。例如,該通 用解析器框架可以對(duì)電子內(nèi)容的格式進(jìn)行評(píng)估。該框架可以使用內(nèi)容 類(lèi)型、文件擴(kuò)展名以及文件名來(lái)進(jìn)行評(píng)估。在一種實(shí)施方式中,該框 架可以識(shí)別多個(gè)不同的解析器個(gè)體(例如,WML解析器以及XHTML 解析器),其中這些解析器可以潛在地被用于對(duì)分檔進(jìn)行解析。例如, 該框架可以確定給定的電子文檔是XHTML還是WML文檔。根據(jù)文檔 的文件擴(kuò)展名/文件名/等,該框架可以評(píng)估該文檔更可能是XHTML文 檔。在這種情況下,該框架可以調(diào)用XHTML解析器。如果該XHTML 解析器不能夠?qū)υ撐臋n進(jìn)行充分的解析,或者如果它認(rèn)為另一個(gè)解析
器將更成功,則它可以通知該框架。此時(shí),該框架可以調(diào)用WML解析 器。以這種方式,該框架能夠按照某種預(yù)定的順序調(diào)用解析器。
23在過(guò)程206中,內(nèi)容分類(lèi)器82對(duì)給定電子文檔的被識(shí)別的文檔特 征進(jìn)行解析,以確定該文檔中所含電子內(nèi)容的格式(例如,XHTML、 HTML、 cHTML或WML,有可能甚至是標(biāo)準(zhǔn)版本例如WML1.2)。
還可以通過(guò)許多其它方式對(duì)內(nèi)容進(jìn)行分析。例如,可以使用機(jī)器 學(xué)習(xí)來(lái)分析多個(gè)文檔,因此對(duì)于某些文檔所作的決定可以改進(jìn)對(duì)后續(xù) 文檔的決定。
還有,如上面詳細(xì)所述,也可以通過(guò)對(duì)多個(gè)文檔的分析來(lái)開(kāi)發(fā)出 用于文檔分類(lèi)的探試規(guī)則。
在過(guò)程28中,內(nèi)容分類(lèi)器82指定包含在給定文檔中的電子內(nèi)容 是否可以顯示在預(yù)定型號(hào)的計(jì)算裝置(例如, 一般的移動(dòng)裝置,和/或 特定品牌或型號(hào)的裝置)上。內(nèi)容分類(lèi)器82可以使用應(yīng)用于被提取出 的特征上的一個(gè)或多個(gè)探試規(guī)則,以試圖確定該文檔的內(nèi)容是否可以 顯示在預(yù)定類(lèi)型的計(jì)算裝置上。 一些采樣探試法可以包括使用文檔大 小、包括在文檔中的圖像數(shù)量和大小、文檔中表格的數(shù)量和表格屬性、 以及合法/非法標(biāo)記的使用。
根據(jù)一種實(shí)施方式,內(nèi)容分類(lèi)器82可以使用探試規(guī)則來(lái)確定文檔 是否包括移動(dòng)內(nèi)容。這些規(guī)則可以指定,例如,文檔中特定標(biāo)記的重 復(fù)出現(xiàn)表示,且該表示具有更高的置信度,該文檔含有可以顯示在一 般的移動(dòng)裝置(或者,根據(jù)一些實(shí)施方式,能夠顯示在特定品牌/型號(hào) 的裝置)上的移動(dòng)內(nèi)容。內(nèi)容分類(lèi)器82可以跟蹤文檔內(nèi)的多個(gè)特征(例 如,鏈接、圖像、表格、標(biāo)記類(lèi)型等),并使用探試規(guī)則來(lái)確定能夠 顯示文檔內(nèi)容的裝置類(lèi)型。另外,內(nèi)容分類(lèi)器可以注意是否使用了 stylesheet,或者是否使用了 Flash, applets (Java程序),以及腳本。
在一種實(shí)施方式中,內(nèi)容分類(lèi)器82在確定計(jì)算裝置類(lèi)型(例如,移動(dòng)裝置)時(shí)計(jì)算置信等級(jí),其中在該計(jì)算裝置上可以顯示電子內(nèi)容。
例如,內(nèi)容分類(lèi)器82可以使用模式和/或探試規(guī)則來(lái)以80%的置信度 確定給定的文檔中含有可以顯示在移動(dòng)裝置上的移動(dòng)內(nèi)容(例如WML 內(nèi)容)。接著,內(nèi)容分類(lèi)器82可以將0.8的置信度賦予與該文檔相關(guān) 的表目(其中,該表目也可以被存儲(chǔ)在圖1B所示的索引72中)。置 信等級(jí)也可以與特定品牌/型號(hào)的移動(dòng)裝置相關(guān)。例如,內(nèi)容分類(lèi)器82 可以以80X置信度確定給定的文檔中含有可以顯示在"品牌X型號(hào)1" 類(lèi)型的移動(dòng)裝置上的內(nèi)容,瀏覽器版本也有可能包括在內(nèi)。
圖2B為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的另一方法的流 程圖212。在該過(guò)程中,例如通過(guò)上述的方法識(shí)別出了各種文檔,并且 通過(guò)分析多個(gè)文檔特征來(lái)推斷文檔的可顯示性。在過(guò)程214,獲得具有 電子內(nèi)容的電子文檔,以及在過(guò)程216,識(shí)別出該文檔的多個(gè)特征。該 特征可以包括例如文檔類(lèi)型、文檔大小、文檔中的對(duì)象類(lèi)型(圖像、 表格、樣板本件等)、該文檔是否為特定格式(例如,EXWEB XHTML) 的變體以及上述其它特征。
在過(guò)程218,確定是否獲得了足夠的文檔。有可能只需要一次獲得 一個(gè)文檔并接著對(duì)該文檔進(jìn)行分類(lèi)。也有可能需要獲得一個(gè)初始文檔 集,建立一套基本規(guī)則,接著獲得額外的文檔并將該規(guī)則應(yīng)用于這些 文檔(以及有可能根據(jù)在使用較早的規(guī)則對(duì)文檔進(jìn)行分類(lèi)時(shí)得到的經(jīng) 驗(yàn)來(lái)對(duì)規(guī)則進(jìn)行調(diào)整)。接著,的后續(xù)對(duì)文檔進(jìn)行的收集和分類(lèi)有可 能在滾動(dòng)的基礎(chǔ)上出現(xiàn),例如當(dāng)爬行器識(shí)別并提取文檔時(shí)。對(duì)文檔的 處理也可以以批量的方式出現(xiàn)。
在余下的過(guò)程中,分類(lèi)規(guī)則得到更新,并且如果文檔的顯示看起 來(lái)是可接受的,則該文檔得到顯示。在過(guò)程220,為一種或多種裝置或 裝置類(lèi)型確定一個(gè)或多個(gè)文檔的可顯示性。這種確定可以包括例如根 據(jù)文檔的各種特征來(lái)初步確定文檔類(lèi)型,如上面所詳細(xì)描述的。接著 可以包括確定可顯示性,該確定一同考慮了所確定的文檔類(lèi)型以及其它因素。如過(guò)程222中所示,在確定了文檔的可顯示性時(shí),可以按照 與文檔有關(guān)的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新(例如,如果從特定裝置或裝置 類(lèi)型接收到對(duì)于文檔的請(qǐng)求,使得可以很容易地確定可顯示性)。確
定可顯示性的規(guī)則也可以被更新(過(guò)程224),例如通過(guò)上述的機(jī)器學(xué)
習(xí)技術(shù)。
在某個(gè)時(shí)候,可以接收到對(duì)于文檔的請(qǐng)求,如在過(guò)程226。如果己 經(jīng)對(duì)文檔進(jìn)行了定位和處理,則可以通過(guò)檢查數(shù)據(jù)庫(kù)來(lái)確定它在請(qǐng)求 裝置上被顯示的能力。如果該文檔還沒(méi)有被處理,則可以按照剛剛所 述的方式對(duì)其進(jìn)行處理以提供對(duì)于可顯示性的確定,例如組合分值。 如果該文檔是可顯示的,如在過(guò)程228所確定的,則它可以被顯示到 遠(yuǎn)程裝置上(例如通過(guò)傳輸該文檔或者與該文檔有關(guān)的鏈接)。如果 該文檔按照其原來(lái)的形式無(wú)法被顯示,則該系統(tǒng)可以確定是否可以在 某些方面改變?cè)撐臋n而仍能實(shí)現(xiàn)足夠的可顯示性,如過(guò)程232所示。 例如,在傳輸文檔之前,可以從文檔中去除掉阻礙可顯示性的特定特 征。如果該文檔能夠按照改變后的形式進(jìn)行顯示,則對(duì)其進(jìn)行顯示(過(guò) 程234),而如果不能,則阻止其顯示(過(guò)程236)。例如,即使以改
變后的形式也無(wú)法顯示該文檔時(shí),可以阻止指向該文檔的鏈接,或者 將其傳輸,但是是以顯示在遠(yuǎn)程裝置上的方式,以表明無(wú)法對(duì)其進(jìn)行
顯示(例如,用特殊對(duì)比色)。當(dāng)為了對(duì)一個(gè)文檔進(jìn)行充分的顯示而 要求進(jìn)行改變時(shí),可以使得系統(tǒng)能夠找出特定特征例如標(biāo)記,由此作 者可以表示該文檔只能以其未被改變的形式進(jìn)行顯示的愿望。
這樣,通過(guò)該過(guò)程,根據(jù)其特征收集了多個(gè)文檔并對(duì)其進(jìn)行了分 類(lèi)。獲得或收集了后續(xù)的文檔,并根據(jù)從初始文檔集所生成的分類(lèi)規(guī) 則、或者根據(jù)對(duì)文檔進(jìn)行分類(lèi)的進(jìn)一步的經(jīng)驗(yàn)而生成的規(guī)則來(lái)對(duì)這些 文檔進(jìn)行分類(lèi)。接著每個(gè)所識(shí)別的特征都可以在允許系統(tǒng)對(duì)文檔的可 顯示性進(jìn)行有依據(jù)的假設(shè)中扮演一個(gè)角色。
圖2C為根據(jù)一種實(shí)施方式對(duì)電子內(nèi)容進(jìn)行分類(lèi)的另一方法的流程圖240。在該方法中,對(duì)被分析文檔進(jìn)行分類(lèi)包括明確的和隱含的分
類(lèi),并且也允許對(duì)文檔的分類(lèi)進(jìn)行后續(xù)的變動(dòng)。在過(guò)程242,獲得了電 子文檔,例如通過(guò)上述的特征。在過(guò)程244,系統(tǒng)對(duì)文檔進(jìn)行檢查,以 確定它是否含有任何明確的標(biāo)識(shí)符。例如,該文檔可以含有HTML或 其它的標(biāo)示標(biāo)記,例如WML內(nèi)容類(lèi)型報(bào)頭以及WML文檔類(lèi)型聲明。 如果該文檔具有明確的標(biāo)識(shí)符,則該過(guò)程可以向前推進(jìn),因?yàn)椴恍枰?去推斷文件類(lèi)型。當(dāng)然,也可以對(duì)文檔類(lèi)型進(jìn)行推斷作為對(duì)任何明確 的文檔標(biāo)識(shí)符的檢查。
如果不存在明確的文檔標(biāo)識(shí)符,則在過(guò)程246的過(guò)程對(duì)文檔特征 進(jìn)行解析。當(dāng)然也可能已經(jīng)進(jìn)行了該解析,作為確定是否還存在明確 的標(biāo)識(shí)符的過(guò)程的一部分。對(duì)于從該文檔中獲得的相關(guān)特征, 一個(gè)或 多個(gè)規(guī)則集可以被應(yīng)用于一個(gè)或多個(gè)所述特征,如在過(guò)程248中。例 如,可以首先對(duì)文檔進(jìn)行檢查,以確定文檔格式,接著確定文檔在裝 置或裝置類(lèi)型上的可顯示性。為了確定可顯示性,例如,系統(tǒng)可以將 該文檔視為具有XHTML Basic概要、沒(méi)有表格或圖像、很小的頁(yè)面大 小以及存在密鑰數(shù)字快捷方式(即,允許通過(guò)使用移動(dòng)電話(huà)的有限的 鍵區(qū)進(jìn)行更簡(jiǎn)單的操作)。
如果文檔含有明確的標(biāo)識(shí)符或已經(jīng)應(yīng)用了規(guī)則集來(lái)推斷文檔類(lèi) 型,則可以確定文檔的可顯示性,并且就在特定裝置或裝置類(lèi)型上顯 示文檔的能力更新了數(shù)據(jù)庫(kù)(過(guò)程250)。也可以記錄文檔的特定特征, 由此,當(dāng)已經(jīng)識(shí)別出了要顯示文檔的裝置時(shí),就可以很容易地確定該 裝置的可顯示性。通過(guò)根據(jù)裝置類(lèi)別對(duì)文檔進(jìn)行分類(lèi)或者通過(guò)請(qǐng)求文 檔之后的分類(lèi),系統(tǒng)可以使得裝置能對(duì)文檔進(jìn)行分類(lèi),即使該裝置還 沒(méi)有被開(kāi)發(fā)出來(lái)。
在稍后時(shí)候,包括已經(jīng)對(duì)許多文檔進(jìn)行分類(lèi)之后,在過(guò)程252可 以接收到文檔請(qǐng)求。作為選擇,可以在接收到請(qǐng)求之后對(duì)文檔進(jìn)行分 類(lèi),例如在實(shí)時(shí)分類(lèi)系統(tǒng)中或該特定文檔在這之前完全沒(méi)有被該系統(tǒng)
27找到過(guò)。在過(guò)程254,該系統(tǒng)使用它從請(qǐng)求中接收到的信息來(lái)確定在其 上做出請(qǐng)求的裝置,并且檢查該文檔的相關(guān)信息,以確定該文檔是否 可以顯示,是未經(jīng)處理的形式還是修改后的形式。
如果該文檔是可顯示的,則進(jìn)行顯示。如果不可以顯示,則該系 統(tǒng)發(fā)出表示該文檔無(wú)法顯示的消息,或者可以簡(jiǎn)單地拒絕發(fā)送該文檔 或關(guān)于該文檔的標(biāo)識(shí)符一有效地阻止該文檔的顯示。例如,當(dāng)用戶(hù)提 出搜索請(qǐng)求時(shí),就可以檢查每個(gè)搜索結(jié)果的可顯示性。如果該文檔不 可顯示,則它的存在就根本不會(huì)顯示給用戶(hù)。作為選擇,關(guān)于文檔的
信息(例如,標(biāo)題、片斷以及URL)可以被顯示給用戶(hù),但是采用如
下方式,即表示該文檔無(wú)法在該裝置上進(jìn)行顯示(例如,通過(guò)陰影、 著色或者附加文本)。通過(guò)這種方式,可以通知用戶(hù)該裝置無(wú)法準(zhǔn)確 地顯示文檔,但是如果該文檔看上去非常相關(guān),仍然可以選擇提取該 文檔。接著,該用戶(hù)去查看被顯示的文檔,以及它能夠被顯示。該系 統(tǒng)也可以為用戶(hù)提供一種方式,用于查看該文檔修改后的版本,其中 該文檔被故意改變,以使其能夠在該裝置上進(jìn)行顯示。
在過(guò)程256,該系統(tǒng)還可以接收關(guān)于該文檔的反饋。該反饋可以被 用于對(duì)該文檔的可顯示性進(jìn)行重新分類(lèi)。例如,可以給用戶(hù)顯示一個(gè) 圖標(biāo),用于識(shí)別該文檔是否被正確地顯示,并且用戶(hù)關(guān)于文檔的選擇 可以與其它用戶(hù)的選擇聚合在一起,以獲致關(guān)于該文檔的可顯示性的 推斷。也可以例如通過(guò)監(jiān)視文檔的顯示與文檔的用戶(hù)從該文檔移出之 間的時(shí)間量來(lái)推斷可顯示性。如果許多用戶(hù)都在該文檔上花費(fèi)了非常 少的時(shí)間,則可以推斷該文檔沒(méi)有正確顯示或者不是很有用。在任何 一種情況下,因?yàn)檫€沒(méi)有證明該文檔對(duì)用戶(hù)來(lái)說(shuō)是有用的,因此可以 降低它的重要性。
圖3A為根據(jù)一種實(shí)施方式與電子內(nèi)容相關(guān)的表目圖表,其中該電 子內(nèi)容可以被存儲(chǔ)在圖1B所示的索引72中。索引72可以采取任何適 當(dāng)?shù)男问?,這根據(jù)特定實(shí)施方式的需要而定。圖3A示出了可以包括在索引72中的用于所述表目的信息300A的一部分。當(dāng)對(duì)存儲(chǔ)在服務(wù)器 60上的文檔中所含內(nèi)容進(jìn)行分類(lèi)時(shí),內(nèi)容分類(lèi)器82能夠存儲(chǔ)和/或分 類(lèi)在索引72中的該信息300A。當(dāng)處理從移動(dòng)裝置62或客戶(hù)端計(jì)算機(jī) 64發(fā)出的搜索請(qǐng)求以及獲得搜索結(jié)果時(shí),搜索引擎70也能夠搜索索引 72中的信息300A。
圖3A中所示的信息300A被排為三列302、 304和306。列302 包括己索引的表目的識(shí)別信息。圖3A示出了三個(gè)表目的例子,名為"表 目1","表目2"和"表目3"。每個(gè)表目都與存儲(chǔ)在外部服務(wù)器60 之一上的特定電子文檔相關(guān)。列302中的表目信息也可以含有關(guān)于每 個(gè)相應(yīng)表目的其它信息,包括關(guān)于相關(guān)電子內(nèi)容的元信息。
列304含有與相應(yīng)表目以及存儲(chǔ)在一個(gè)或多個(gè)服務(wù)器60上的電子 內(nèi)容相關(guān)聯(lián)的各種關(guān)鍵字。在內(nèi)容分類(lèi)過(guò)程中這些關(guān)鍵字被插入到索 引72中。該關(guān)鍵字涉及包含在電子文檔中的電子內(nèi)容,其中該電子文 檔的表目包括在索引72中。
列306表示相應(yīng)的表目是否與含有移動(dòng)內(nèi)容的電子文檔相關(guān)聯(lián), 其中該移動(dòng)內(nèi)容能夠被顯示在移動(dòng)裝置,例如移動(dòng)裝置62上。如上所 述,內(nèi)容分類(lèi)器82能夠確定存儲(chǔ)在服務(wù)器60之一中的給定的電子文 檔是否可能包括移動(dòng)內(nèi)容。在一種實(shí)施方式中,如果內(nèi)容分類(lèi)器82以 一定量的置信度能夠確定文檔包括移動(dòng)內(nèi)容,則內(nèi)容分類(lèi)器82就指定 該電子文檔包括移動(dòng)內(nèi)容。如圖13B中所示,內(nèi)容分類(lèi)器82還可以指 定包括在索引72中的特定置信度。
當(dāng)搜索引擎70處理搜索請(qǐng)求時(shí),在搜索匹配表目時(shí)可以使用列 306中提供的信息。如果該搜索引擎70已經(jīng)從移動(dòng)裝置,例如移動(dòng)裝 置62接收到了搜索請(qǐng)求,則它可以通過(guò)查找這些表目來(lái)篩選索引72 中的表目,其中這些表目滿(mǎn)足搜索請(qǐng)求并且與具有移動(dòng)內(nèi)容的文檔相 關(guān)聯(lián),如同列306中所含信息所指定的那樣。
29在一種實(shí)施方式中,圖3A中的表目還包括文檔位置信息(例如 URL位置信息)。該位置信息可以包括在每個(gè)已索引的表目的單獨(dú)列
中,并且可以指定相應(yīng)電子文檔在服務(wù)器60之一中的位置。搜索引擎 70接著提供每個(gè)表目的位置信息,其中所述每個(gè)表目包括在被反饋給 移動(dòng)裝置62或客戶(hù)端計(jì)算機(jī)64的搜索結(jié)果集中。
圖3B為與可以存儲(chǔ)在中的電子內(nèi)容相關(guān)聯(lián)的表目的圖表。圖3B 示出了可以包括在這些表目的索引72中的信息300B的一部分。信息 300B包括來(lái)自列302、304和306的信息(包括在圖3A所示的信息300A 中)附加信息包括在列305、 308以及310中。列305表示包含在與給 定的已索引的表目相關(guān)聯(lián)的文檔中的電子內(nèi)容的格式。內(nèi)容分類(lèi)器82 能夠在分類(lèi)過(guò)程期間確定電子內(nèi)容的內(nèi)容格式。內(nèi)容格式的例子可以 包括XHTML格式、HTML格式、WML格式或者cHTML格式。搜索 引擎70能夠通過(guò)使用包含在列305中的信息來(lái)識(shí)別出搜索結(jié)果。當(dāng)搜 索引擎70從請(qǐng)求發(fā)起者例如移動(dòng)裝置62接收到請(qǐng)求時(shí),就能夠就該 發(fā)起者支持的內(nèi)容格式作出確定。還可以根據(jù)之前從發(fā)起者接收到的 信息來(lái)這么做,其中該發(fā)起者指定了其所支持的格式,或者可以使用 預(yù)先配置的信息。搜索引擎70接著可以使用列305中所含信息,用以 識(shí)別出匹配表目。例如,如果移動(dòng)裝置62只支持WML內(nèi)容,則搜索 引擎70就能夠識(shí)別出那些與具有WML內(nèi)容的文檔相關(guān)聯(lián)的表目。
列308包括關(guān)于裝置的信息,其中該裝置與列305中所列的內(nèi)容 格式兼容。如圖3B所示,列308可以包括兼容裝置的品牌和型號(hào)信息。 在一種實(shí)施方式中,列308可以包括與內(nèi)容分類(lèi)器82所知的與列305 中所列的內(nèi)容格式兼容的每個(gè)裝置有關(guān)的信息。可以預(yù)先配置關(guān)于兼 容裝置的信息。當(dāng)搜索引擎70處理搜索請(qǐng)求時(shí),它可以訪問(wèn)與發(fā)出了 所述請(qǐng)求的特定裝置(例如移動(dòng)裝置62)有關(guān)的信息。在一種情況下, 搜索引擎70可以?xún)H僅根據(jù)列305和/或306中提供的信息就能夠獲得搜 索結(jié)果。但是,在另一種情況下,搜索引擎70可以選擇使用包含在列308中的信息來(lái)僅僅識(shí)別與啟動(dòng)了該請(qǐng)求的特定裝置有關(guān)的匹配表目
(搜索結(jié)果)。例如,移動(dòng)裝置62可以為"品牌X"的"型號(hào)1"裝 置。如果搜索引擎70可以訪問(wèn)該信息,則它可以選擇使用包含在列308 中的信息來(lái)識(shí)別具有移動(dòng)內(nèi)容的文檔的那些表目,其中所述文檔與"品 牌X"的"型號(hào)1"的裝置兼容,并且有可能是與瀏覽器及其特定版本 兼容。
列310包括置信等級(jí)。在圖3B的例子中,置信等級(jí)可以是"O.O" (意味著0%的置信度)與"1.0"(意味著100%的置信度)之間的數(shù) 字。內(nèi)容分類(lèi)器82指定一個(gè)置信度,通過(guò)該置信度可以確定給定文檔 的內(nèi)容格式(列305中所示)和/或該文檔是否含有一般的移動(dòng)內(nèi)容(列 306中所示)。內(nèi)容分類(lèi)器82能夠在一完成對(duì)給定文檔的分類(lèi)就計(jì)算 置信等級(jí)??梢愿鶕?jù)列310中所列的置信等級(jí)來(lái)將包含在索引72中的 表目排序,使得具有較高置信等級(jí)的表目被列得越高。搜索引擎70還 可以使用置信等級(jí)來(lái)對(duì)被提供回給搜索請(qǐng)求發(fā)起者例如移動(dòng)裝置62或 客戶(hù)端計(jì)算機(jī)64的搜索結(jié)果進(jìn)行分級(jí)。
圖4為根據(jù)一種實(shí)施方式可以提供給用戶(hù)用于在圖1B所示的系統(tǒng) 100中查找電子內(nèi)容的圖形用戶(hù)界面的屏幕圖。該圖形用戶(hù)界面包括能 夠被顯示給用戶(hù)的窗口 400。例如,窗口 400可以被顯示給移動(dòng)裝置 62或客戶(hù)端計(jì)算機(jī)64上的用戶(hù)。根據(jù)一種實(shí)施方式,窗口 400中顯示 的信息由數(shù)據(jù)處理系統(tǒng)50提供。
如果用戶(hù)希望對(duì)電子內(nèi)容進(jìn)行搜索,則用戶(hù)可以發(fā)出搜索請(qǐng)求。 例如,如果用戶(hù)正在使用移動(dòng)裝置62,則移動(dòng)裝置62可以將窗口 400 顯示給用戶(hù)。用戶(hù)可以在文本輸入域內(nèi)輸入一個(gè)或多個(gè)搜索項(xiàng)或關(guān)鍵 字,并接著選擇按鈕414。 一旦用戶(hù)這樣做了,則移動(dòng)裝置62將該搜 索請(qǐng)求發(fā)給數(shù)據(jù)處理系統(tǒng)50。該搜索請(qǐng)求包括由用戶(hù)輸入的搜索項(xiàng)。 接著,搜索引擎70在索引72內(nèi)查找匹配的表目。在圖4所示的例子中,假設(shè)用戶(hù)的計(jì)算裝置例如移動(dòng)裝置62支持
WML(移動(dòng))內(nèi)容。這樣,搜索引擎70將查找與搜索請(qǐng)求有關(guān)并與具 有移動(dòng)內(nèi)容的電子文檔相關(guān)聯(lián)的表目。在一種實(shí)施方式中,搜索引擎 700也可以査找與具有特別是WML內(nèi)容的電子文檔相關(guān)聯(lián)的表目。該 匹配表目或搜索結(jié)果被提供回給用戶(hù)的裝置,以在窗口 400的區(qū)域420 中進(jìn)行顯示。如圖4的例子中所示,區(qū)域420中包括4個(gè)匹配搜索結(jié) 果424、 426、 428以及430。用戶(hù)可以選擇任意結(jié)果424、 426、 428或 430來(lái)從圖1B所示的一個(gè)或多個(gè)服務(wù)器60中提取相應(yīng)的文檔。
在一種實(shí)施方式中,數(shù)據(jù)處理系統(tǒng)50還可以查找對(duì)應(yīng)于來(lái)自注冊(cè) 贊助商廣告的廣告表目。數(shù)據(jù)處理系統(tǒng)50根據(jù)一些實(shí)施方式査找與具 有移動(dòng)內(nèi)容甚至是特定的WML內(nèi)容的廣告相關(guān)聯(lián)的表目。接著將匹配 的表目提供給用戶(hù),并在窗口 400的區(qū)域422內(nèi)顯示給用戶(hù)。如圖4 的例子中所示,在區(qū)域422中將兩個(gè)表目430和432顯示給了用戶(hù)。
在一種實(shí)施方式中,數(shù)據(jù)處理系統(tǒng)50可以根據(jù)用戶(hù)正在使用的特 定類(lèi)型的裝置來(lái)過(guò)濾窗口 400的區(qū)域420和422中顯示的結(jié)果。例如, 數(shù)據(jù)處理系統(tǒng)50可以被告知,或者可以確定該用戶(hù)正在使用"品牌X 型號(hào)1"的移動(dòng)裝置。在這種情況下,搜索引擎70可以査找與能夠在 該特定類(lèi)型裝置上顯示的移動(dòng)內(nèi)容相關(guān)的索引72中的表目。在一種實(shí) 施方式中,搜索引擎70可以使用配置參數(shù)來(lái)根據(jù)移動(dòng)裝置的類(lèi)型來(lái)確 定是否特別地對(duì)搜索結(jié)果進(jìn)行過(guò)濾,或者僅僅根據(jù)內(nèi)容的類(lèi)型(例如, 移動(dòng)WML內(nèi)容、移動(dòng)XHTMLBasic內(nèi)容等)來(lái)確定是否更一般地對(duì) 搜索結(jié)果進(jìn)行過(guò)濾。
在一種實(shí)施方式中,可以根據(jù)與結(jié)果表目相關(guān)聯(lián)的置信等級(jí)來(lái)對(duì) 結(jié)果424、 426、 428以及430,或者結(jié)果430和432進(jìn)行分級(jí)(例如從 上到下的等級(jí))。(圖3B中所示的列310包括可以與存儲(chǔ)在索引72 中的表目相關(guān)聯(lián)的置信等級(jí)的例子)。如果例如搜索引擎70更加確信 搜索結(jié)果424和426而不是結(jié)果428和430包括移動(dòng)(或WML)內(nèi)容,
32則可以指定結(jié)果424和426應(yīng)該比結(jié)果428和430在區(qū)域420內(nèi)等級(jí)更高。
圖5為根據(jù)一種實(shí)施方式可以用在圖IB所示的任何部件50、 60、 62或64中的計(jì)算裝置500的方框圖。該計(jì)算裝置500包括處理器502、 存儲(chǔ)器504、存儲(chǔ)裝置506、輸入/輸出控制器508以及網(wǎng)絡(luò)適配器510。 每個(gè)部件502、 504、 506、 508以及510都使用系統(tǒng)總線(xiàn)相連。處理器 502能夠處理指令,用于在計(jì)算裝置500內(nèi)執(zhí)行。處理器502能夠處理 存儲(chǔ)在存儲(chǔ)器504中或存儲(chǔ)裝置506上的指令,以將用于GUI的圖形 信息顯示在與輸入/輸出控制器508相連的外部輸入/輸出裝置上。在其 它實(shí)施方式中,可以根據(jù)需要使用多個(gè)處理器和/或多個(gè)總線(xiàn)。還有, 多個(gè)計(jì)算裝置500可以連接在一起,其中每個(gè)裝置都提供所需操作的 部分。
存儲(chǔ)器504存儲(chǔ)計(jì)算裝置500內(nèi)的信息。在一種實(shí)施方式中,存 儲(chǔ)器504為計(jì)算機(jī)可讀介質(zhì)。在一種實(shí)施方式中,存儲(chǔ)器504為易失 性存儲(chǔ)器單元。在另一種實(shí)施方式中,存儲(chǔ)器504為非易失性存儲(chǔ)器 單元。
存儲(chǔ)裝置506能夠?yàn)橛?jì)算裝置500提供海量存儲(chǔ)。在一種實(shí)施方 式中,存儲(chǔ)裝置506為計(jì)算機(jī)可讀介質(zhì)。在各種不同的實(shí)施方式中, 存儲(chǔ)裝置506可以為軟盤(pán)裝置、硬盤(pán)裝置、光盤(pán)裝置或磁帶裝置。
在一種實(shí)施方式中,計(jì)算機(jī)程序產(chǎn)品被有形地嵌入在信息載體中。 該計(jì)算機(jī)程序產(chǎn)品含有指令,當(dāng)執(zhí)行該指令時(shí)執(zhí)行一個(gè)或多個(gè)方法, 例如上面所描述的。該信息載體為計(jì)算機(jī)或機(jī)器可讀介質(zhì),例如存儲(chǔ) 器504、存儲(chǔ)裝置506或者傳播信號(hào)。
輸入/輸出控制器508管理計(jì)算裝置500的輸入/輸出操作。在一種 實(shí)施方式中,輸入/輸出控制器58與外部輸入/輸出裝置相連,例如鍵盤(pán)、指示裝置或者顯示單元,其中該顯示單元能夠?qū)⒏鞣NGUI例如圖 4中所示的GUI顯示給用戶(hù)。
計(jì)算裝置500還包括網(wǎng)絡(luò)適配器510。計(jì)算裝置500使用網(wǎng)絡(luò)適配 器510與其它網(wǎng)絡(luò)裝置進(jìn)行通信。
這里描述的系統(tǒng)和技術(shù)的各種實(shí)施方式能夠在數(shù)字電路、集成電 路、特別設(shè)計(jì)的ASIC (專(zhuān)用集成電路)、計(jì)算機(jī)硬件、固件、軟件和 /或它們的組合之中實(shí)現(xiàn)。這些各種實(shí)施方式可以包括在一個(gè)或多個(gè)計(jì) 算機(jī)程序中的實(shí)施方式,其中該計(jì)算機(jī)程序可以在可編程系統(tǒng)中執(zhí)行 和/或解釋?zhuān)摽删幊滔到y(tǒng)包括至少一個(gè)可編程處理器、至少一個(gè)輸入 裝置以及至少一個(gè)輸出裝置,其中該可編程處理器可以是專(zhuān)用的或通 用的,其被連接以用于從存儲(chǔ)系統(tǒng)中接收數(shù)據(jù)和指令以及向其發(fā)送數(shù) 據(jù)和指令。
這些計(jì)算機(jī)程序(也是通常所說(shuō)的程序、軟件、軟件應(yīng)用程序或 代碼)包括用于可編程處理器的機(jī)器指令,并且可以用高級(jí)的過(guò)程編 程語(yǔ)言和/或面向?qū)ο蟮木幊陶Z(yǔ)言,和/或匯編/機(jī)器語(yǔ)言來(lái)實(shí)現(xiàn)。如這里 使用的,術(shù)語(yǔ)"機(jī)器可讀介質(zhì)""計(jì)算機(jī)可讀介質(zhì)"是指任何計(jì)算機(jī) 程序產(chǎn)品、設(shè)備和/或裝置(例如磁盤(pán)、光盤(pán)、存儲(chǔ)器、可編程邏輯裝 置(PLD)),用于將機(jī)器指令和/或數(shù)據(jù)提供給可編程處理器,包括 機(jī)器可讀介質(zhì),用于接收機(jī)器指令作為機(jī)器可讀信號(hào)。術(shù)語(yǔ)"機(jī)器可
讀信號(hào)"是指任何用于將機(jī)器指令和/或數(shù)據(jù)提供給可編程處理器的機(jī) 器指令。
為了與用戶(hù)進(jìn)行交互,這里描述的系統(tǒng)和技術(shù)可以在計(jì)算機(jī)上實(shí) 現(xiàn),該計(jì)算機(jī)具有顯示裝置(例如,CRT (陰極射線(xiàn)管)或LCD (液 晶顯示器)顯示器),用于將信息顯示給用戶(hù),以及鍵盤(pán)和指示裝置 (例如,鼠標(biāo)或跟蹤球),用于使得用戶(hù)能夠提供輸入給計(jì)算機(jī)。其 它種類(lèi)的裝置也可以被用于提供與用戶(hù)之間的交互;例如,提供給用戶(hù)的反饋可以為任何形式的感官反饋(例如,視覺(jué)反饋、聽(tīng)覺(jué)反饋或 者觸覺(jué)反饋);并且來(lái)自用戶(hù)的輸入可以以任何形式來(lái)接收,包括聲 音、語(yǔ)音、或觸覺(jué)輸入。
這里描述的系統(tǒng)和技術(shù)能夠在計(jì)算系統(tǒng)上實(shí)現(xiàn),其中該計(jì)算系統(tǒng) 包括后端部件(例如數(shù)據(jù)服務(wù)器),或者包括中間件部件(例如應(yīng)用 服務(wù)器),或者包括前端部件(例如客戶(hù)端計(jì)算機(jī),具有圖形用戶(hù)界 面或網(wǎng)頁(yè)瀏覽器,通過(guò)它們用戶(hù)能夠與這里所述的系統(tǒng)和技術(shù)的實(shí)施 方式進(jìn)行交互),或者該后端、中間件或前端部件的任意組合。該系 統(tǒng)的部件可以通過(guò)任何形式或數(shù)字?jǐn)?shù)據(jù)通信的介質(zhì)(例如通信網(wǎng)絡(luò)) 來(lái)互聯(lián)。通信網(wǎng)絡(luò)的例子包括局域網(wǎng)("LAN")、廣域網(wǎng)("WAN") 以及互聯(lián)網(wǎng)。
該計(jì)算系統(tǒng)可以包括客戶(hù)端和服務(wù)器??蛻?hù)端和服務(wù)器一般地都 彼此相距甚遠(yuǎn),并且一般地都通過(guò)通信網(wǎng)絡(luò)進(jìn)行交互??蛻?hù)端與服務(wù) 器的關(guān)系是由在各個(gè)計(jì)算機(jī)上運(yùn)行的計(jì)算機(jī)程序而引發(fā)的,并且彼此 之間具有客戶(hù)端-服務(wù)器的關(guān)系。
已經(jīng)描述了多個(gè)實(shí)施方式。盡管如此,可以理解的是,在不脫離 這些實(shí)施方式的精神和范疇的情況下可以進(jìn)行各種修改。因此,其它 實(shí)施方式也落在權(quán)利要求的范圍內(nèi)。
3權(quán)利要求
1.一種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法,該方法包括從計(jì)算系統(tǒng)中獲得電子文檔;識(shí)別所述電子文檔的一個(gè)或多個(gè)文檔特征;對(duì)所識(shí)別的文檔特征進(jìn)行分析以確定包含在所述電子文檔中的電子內(nèi)容的格式,所確定的格式由所識(shí)別的文檔特征提供的一個(gè)或多個(gè)指示符暗示;以及根據(jù)所確定的格式來(lái)指定包含在所述電子文檔中的電子內(nèi)容是否可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上。
2. 如權(quán)利要求l所述的方法,其中指定包含在所述電子文檔中的 電子內(nèi)容是否可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上包括對(duì)基于內(nèi)容的 文檔特征進(jìn)行分析。
3. 如權(quán)利要求l所述的方法,其中所識(shí)別的文檔特征由機(jī)器學(xué)習(xí) 系統(tǒng)來(lái)分析。
4. 如權(quán)利要求l所述的方法,還包括根據(jù)包含在所述電子文檔中的電子內(nèi)容可顯示在所述預(yù)定類(lèi)型的 計(jì)算裝置上的置信度來(lái)確定是否將與所述電子文檔相關(guān)聯(lián)的已索引的 表目插入到可搜索的索引中。
5. 如權(quán)利要求4所述的方法, 子文檔的被確定的格式。
6. 如權(quán)利要求1所述的方法, 內(nèi)容包括可顯示的網(wǎng)頁(yè)內(nèi)容。
7. 如權(quán)利要求1所述的方法,其中所述已索引的表目表示所述電其中包含在所述電子文檔中的電子其中所述電子文檔的至少一個(gè)文檔特征包括被標(biāo)記的特征,其中該被標(biāo)記的特征可以被解釋以在計(jì)算裝 置上顯示電子內(nèi)容。
8. 如權(quán)利要求l所述的方法,其中對(duì)所識(shí)別的文檔進(jìn)行分析包括 將預(yù)定規(guī)則集應(yīng)用于所識(shí)別的文檔特征。
9. 如權(quán)利要求8所述的方法,其中所述預(yù)定規(guī)則集將一個(gè)或多個(gè) 決定應(yīng)用于多個(gè)文檔特征。
10. 如權(quán)利要求1所述的方法,其中指定包含在所述電子文檔中 的電子內(nèi)容是否可以被顯示在已識(shí)別類(lèi)型的計(jì)算裝置上包括將一個(gè)或 多個(gè)探試規(guī)則應(yīng)用于所確定的格式和所識(shí)別的文檔特征。
11. 如權(quán)利要求1所述的方法,其中指定包含在所述電子文檔中 的電子內(nèi)容是否可以被顯示在已識(shí)別類(lèi)型的計(jì)算裝置上包括計(jì)算置信 等級(jí),其中該置信等級(jí)是基于包含在所述電子文檔中的電子內(nèi)容可顯 示在所述被識(shí)別類(lèi)型的計(jì)算裝置上的確定的置信度。
12. 如權(quán)利要求ll所述的方法,還包括創(chuàng)建與所述電子文檔相關(guān)聯(lián)的己索引的表目,該已索引的表目表 示包含在所述電子文檔中的電子內(nèi)容是否可以顯示在所述被識(shí)別類(lèi)型的計(jì)算裝置上;以及將該己索引的表目插入到可搜索的索引中,其中該已索引的表目 在所述可搜索的索引中被分級(jí)。
13. 如權(quán)利要求1所述的方法,其中所述被識(shí)別類(lèi)型的計(jì)算裝置 包括能夠顯示具有一個(gè)或多個(gè)預(yù)定格式的電子內(nèi)容的計(jì)算裝置。
14. 如權(quán)利要求13所述的方法,其中所述計(jì)算裝置包括無(wú)線(xiàn)裝置。
15. 如權(quán)利要求1所述的方法,其中所述被識(shí)別類(lèi)型的計(jì)算裝置 包括預(yù)定品牌或型號(hào)的計(jì)算裝置。
16. 如權(quán)利要求1所述的方法,其中所述所確定的格式從下述組 中選擇,其中該組由XHTML (可擴(kuò)展超文本標(biāo)示語(yǔ)言)格式、HTML(超文本標(biāo)示語(yǔ)言)格式、WML (無(wú)線(xiàn)標(biāo)示語(yǔ)言)以及cHTML (壓縮 HTML)格式組成。
17. —種有形地嵌入在信息載體中的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī) 程序產(chǎn)品包括有指令,當(dāng)執(zhí)行該指令時(shí)執(zhí)行對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方 法,其中該方法包括獲得存儲(chǔ)在計(jì)算系統(tǒng)中的電子文檔,所述電子文檔具有電子內(nèi)容;解析所述電子文檔并識(shí)別所述電子文檔的一個(gè)或多個(gè)文檔特征;對(duì)所識(shí)別的文檔特征進(jìn)行分析以確定包含在所述電子文檔中的電子內(nèi)容的格式,所確定的格式基于由所識(shí)別的文檔特征提供的一個(gè)或多個(gè)指示符;以及根據(jù)所確定的格式和所識(shí)別的文檔特征,指定包含在所述電子文檔中的電子內(nèi)容是否可以顯示在預(yù)定類(lèi)型的計(jì)算裝置上。
18. —種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的系統(tǒng),該系統(tǒng)包括 用于接收電子文檔的裝置;用于確定包含在所述電子文檔中的電子內(nèi)容的格式的裝置;以及 用于根據(jù)所確定的格式來(lái)指定包含在所述電子文檔中的電子內(nèi)容 是否可以顯示在預(yù)定類(lèi)型的計(jì)算裝置上的裝置。
19. 一種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法,該方法包括 從計(jì)算系統(tǒng)中獲得電子文檔;使用與所述文檔相關(guān)聯(lián)的明確的文檔類(lèi)型標(biāo)識(shí)符來(lái)識(shí)別所述文檔 的文檔類(lèi)型;對(duì)一個(gè)或多個(gè)文檔特征以及所識(shí)別的文檔類(lèi)型進(jìn)行分析以確定包含在所述電子文檔中的電子內(nèi)容的格式,所確定的格式由所識(shí)別的文 檔特征提供的一個(gè)或多個(gè)指示符暗示;以及根據(jù)所確定的格式,指定包含在所述電子文檔中的電子內(nèi)容是否 可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上。
20. —種對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法,該方法包括 從計(jì)算系統(tǒng)中獲取具有電子內(nèi)容的電子文檔; 識(shí)別所述電子文檔的多個(gè)文檔特征; 根據(jù)所述多個(gè)文檔特征來(lái)計(jì)算文檔分值;以及 根據(jù)所述文檔分值,指定包含在所述電子文檔中的電子內(nèi)容是否 可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上。
21.如權(quán)利要求20所述的方法,其中所述文檔特征包括暗示的文 檔特征。
22.如權(quán)利要求21所述的方法,其中所述文檔特征包括基于內(nèi)容 的文檔特征。
全文摘要
討論了一種用于對(duì)電子內(nèi)容進(jìn)行分類(lèi)的方法。該方法包括從計(jì)算系統(tǒng)中獲得電子文檔,識(shí)別該電子文檔的一個(gè)或多個(gè)文檔特征,對(duì)所識(shí)別的文檔特征進(jìn)行分析以確定包含在該電子文檔中的電子內(nèi)容的格式(該確定的格式由所識(shí)別的文檔特征提供的一個(gè)或多個(gè)指示符暗示),以及根據(jù)所確定的格式來(lái)指定包含在該電子文檔中的電子內(nèi)容是否可以顯示在被識(shí)別類(lèi)型的計(jì)算裝置上。
文檔編號(hào)G06F7/00GK101622598SQ200680029731
公開(kāi)日2010年1月6日 申請(qǐng)日期2006年6月15日 優(yōu)先權(quán)日2005年6月15日
發(fā)明者原田昌紀(jì), 史蒂文·R·斯基里帕 申請(qǐng)人:谷歌公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1