亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置、信息處理方法以及電子設(shè)備的制作方法

文檔序號(hào):6490052閱讀:181來(lái)源:國(guó)知局
信息處理裝置、信息處理方法以及電子設(shè)備的制作方法【專(zhuān)利摘要】本發(fā)明提供了信息處理裝置、方法以及電子設(shè)備,以克服現(xiàn)有的用于確定待處理對(duì)象中的數(shù)據(jù)區(qū)域的方法所確定的數(shù)據(jù)區(qū)域不準(zhǔn)確的問(wèn)題。信息處理裝置包括:用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中各路徑的標(biāo)簽序列的標(biāo)簽序列獲得單元;用于基于標(biāo)簽序列在待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù)來(lái)對(duì)標(biāo)簽序列分組的分組單元;用于獲得每組標(biāo)簽序列的最大公共前綴以確定待處理文檔的信息結(jié)構(gòu)布局的布局確定單元;和用于通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)確定上述信息結(jié)構(gòu)布局中的數(shù)據(jù)區(qū)域的數(shù)據(jù)區(qū)域確定單元。信息處理方法用于執(zhí)行能夠?qū)崿F(xiàn)上述信息處理裝置的功能的處理。電子設(shè)備包括上述信息處理裝置。本發(fā)明的上述技術(shù)能夠應(yīng)用于信息處理領(lǐng)域?!緦?zhuān)利說(shuō)明】信息處理裝置、信息處理方法以及電子設(shè)備【
技術(shù)領(lǐng)域
】[0001]本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種信息處理裝置、信息處理方法以及電子設(shè)備?!?br>背景技術(shù)
】[0002]隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的突飛猛進(jìn),尤其是云計(jì)算技術(shù)的發(fā)展,信息處理逐漸成為一個(gè)熱門(mén)且不可或缺的領(lǐng)域。然而,由于數(shù)據(jù)信息以及數(shù)據(jù)源的豐富性和多樣性,通常需要首先在待處理的對(duì)象中確定數(shù)據(jù)區(qū)域,以便能夠進(jìn)行后續(xù)的處理或應(yīng)用,例如從數(shù)據(jù)區(qū)域中提取有用信息。[0003]通常地,在現(xiàn)有的一些用于確定待處理對(duì)象中的數(shù)據(jù)區(qū)域的方法中,為了區(qū)分其中的區(qū)域(例如,哪些區(qū)域是數(shù)據(jù)區(qū)域;哪些區(qū)域是諸如廣告區(qū)域、目錄區(qū)域等的非數(shù)據(jù)區(qū)域),其一般是基于待處理對(duì)象的特點(diǎn)來(lái)獲得數(shù)據(jù)區(qū)域的描述,進(jìn)而通過(guò)其描述來(lái)確定數(shù)據(jù)區(qū)域。然而,由于現(xiàn)有的這些方法所利用的信息有限或者其他原因,導(dǎo)致了其獲得的待處理對(duì)象中數(shù)據(jù)區(qū)域的描述往往不夠準(zhǔn)確,進(jìn)而使得基于此所確定的數(shù)據(jù)區(qū)域也不夠準(zhǔn)確?!?br/>發(fā)明內(nèi)容】[0004]在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。[0005]鑒于此,本發(fā)明提供了一種信息處理裝置、信息處理方法以及電子設(shè)備,以至少解決現(xiàn)有的用于確定待處理對(duì)象中的數(shù)據(jù)區(qū)域的方法所確定的數(shù)據(jù)區(qū)域不準(zhǔn)確的問(wèn)題。[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種信息處理裝置,該信息處理裝置包括:標(biāo)簽序列獲得單元,其被配置用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;分組單元,其被配置用于計(jì)算每個(gè)標(biāo)簽序列在上述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;布局確定單元,其被配置用于獲得每組標(biāo)簽序列的最大公共前綴,以確定上述待處理文檔的信息結(jié)構(gòu)布局;以及數(shù)據(jù)區(qū)域確定單元,其被配置用于通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在上述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,上述樣本文檔集中的每個(gè)樣本文檔均具有上述信息結(jié)構(gòu)布局。[0007]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種信息處理方法,該信息處理方法包括:獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;計(jì)算每個(gè)標(biāo)簽序列在上述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;獲得每組標(biāo)簽序列的最大公共如綴,以確定上述待處理文檔的?目息結(jié)構(gòu)布局;以及通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在上述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,上述樣本文檔集中的每個(gè)樣本文檔均具有上述信息結(jié)構(gòu)布局。[0008]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種電子設(shè)備,該電子設(shè)備包括如上所述的信息處理裝置。[0009]上述根據(jù)本發(fā)明實(shí)施例的信息處理裝置、信息處理方法以及電子設(shè)備,利用了待處理文檔的樹(shù)結(jié)構(gòu)來(lái)確定待處理文檔中的數(shù)據(jù)區(qū)域,在處理的過(guò)程中,其基于樹(shù)結(jié)構(gòu)中各路徑的標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)來(lái)對(duì)標(biāo)簽序列分組,并進(jìn)而獲得每一組標(biāo)簽序列的最大公共前綴,作為對(duì)這組標(biāo)簽序列對(duì)應(yīng)區(qū)域的一種描述。利用這種描述,通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,便可在待處理文檔的信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域。由此,相比于傳統(tǒng)的用于確定數(shù)據(jù)區(qū)域的技術(shù),根據(jù)本發(fā)明實(shí)施例的信息處理裝置、信息處理方法以及電子設(shè)備能夠獲得至少以下益處之一:在獲得最大公共前綴的過(guò)程中通過(guò)利用標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)對(duì)標(biāo)簽序列進(jìn)行分組,然后再對(duì)分組的標(biāo)簽序列進(jìn)行挖掘以得到上述最大公共前綴,能夠使得基于最大公共前綴所獲得的信息結(jié)構(gòu)布局更加準(zhǔn)確;利用符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集使得基于這種模型特征所確定的數(shù)據(jù)區(qū)域更加準(zhǔn)確;以及極大地提高了數(shù)據(jù)處理的效率和性能。[0010]通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。【專(zhuān)利附圖】【附圖說(shuō)明】[0011]本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書(shū)中并且形成本說(shuō)明書(shū)的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:[0012]圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的一種示例結(jié)構(gòu)的框圖。[0013]圖2是示出待處理文檔的一個(gè)示例的示意圖。[0014]圖3是示出圖2所示待處理文檔的樹(shù)結(jié)構(gòu)的一個(gè)示例的示意圖。[0015]圖4是示意性地示出如圖1所示的標(biāo)簽序列獲得單元的可能的示例結(jié)構(gòu)的框圖。[0016]圖5A?5C是示出符合數(shù)據(jù)區(qū)域更新模型的一個(gè)樣本文檔集中的3個(gè)連續(xù)更新的樣本文檔的可能示例的示意圖。[0017]圖6是示意性地示出如圖1所示的數(shù)據(jù)區(qū)域確定單元的可能的示例結(jié)構(gòu)的框圖。[0018]圖7是示意性地示出根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的另一種示例結(jié)構(gòu)的框圖。[0019]圖8是示意性地示出根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的又一種示例結(jié)構(gòu)的框圖。[0020]圖9是示意性地示出根據(jù)本發(fā)明的實(shí)施例的信息處理方法的一種示例性處理的流程圖。[0021]圖10是示意性地示出根據(jù)本發(fā)明的實(shí)施例的信息處理方法的其他可能的示例性處理的流程圖。[0022]圖11是示出了可用來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的信息處理裝置和信息處理方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。[0023]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡(jiǎn)單和清楚起見(jiàn)而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對(duì)于其他元件放大了,以便有助于提高對(duì)本發(fā)明實(shí)施例的理解。【具體實(shí)施方式】[0024]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書(shū)中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi)內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。[0025]在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。[0026]本發(fā)明的實(shí)施例提供了一種信息處理裝置,該信息處理裝置包括:標(biāo)簽序列獲得單元,其被配置用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;分組單元,其被配置用于計(jì)算每個(gè)標(biāo)簽序列在上述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;布局確定單元,其被配置用于獲得每組標(biāo)簽序列的最大公共前綴,以確定上述待處理文檔的信息結(jié)構(gòu)布局;以及數(shù)據(jù)區(qū)域確定單元,其被配置用于通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在上述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,上述樣本文檔集中的每個(gè)樣本文檔均具有上述信息結(jié)構(gòu)布局。[0027]下面結(jié)合圖1來(lái)詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的一個(gè)示例。[0028]如圖1所示,根據(jù)本發(fā)明的實(shí)施例的信息處理裝置100包括標(biāo)簽序列獲得單元110、分組單元120、布局確定單元130和數(shù)據(jù)區(qū)域確定單元140。[0029]其中,標(biāo)簽序列獲得單元110用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列。[0030]在根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的一些實(shí)現(xiàn)方式中,上述待處理文檔可以是HTML格式文檔(例如HTML網(wǎng)頁(yè)),也可以是具有樹(shù)結(jié)構(gòu)的其他類(lèi)型的文檔。此外,在一些實(shí)現(xiàn)方式中,上述樹(shù)結(jié)構(gòu)可以是文檔對(duì)象化模型樹(shù)(DOMTree)結(jié)構(gòu),也可以是諸如組織結(jié)構(gòu)等的其他樹(shù)結(jié)構(gòu)。[0031]圖2示意性地示出了上述待處理文檔的一個(gè)示例。如圖2所示,在該示例中,上文所述的待處理文檔為HTML網(wǎng)頁(yè)。其中,在該網(wǎng)頁(yè)中,M1對(duì)應(yīng)的部分為該網(wǎng)頁(yè)的標(biāo)題,由圖2可知,該網(wǎng)頁(yè)的標(biāo)題是“今日更新新聞”。此外,由圖2還可獲知,在該網(wǎng)頁(yè)中,共有兩條新聞。其中,M2為第一條新聞的標(biāo)題,M3為第一條新聞的詳細(xì)內(nèi)容的鏈接,M4S第一條新聞的摘要;以及M5為第二條新聞的標(biāo)題,M6為第二條新聞的詳細(xì)內(nèi)容的鏈接,M7S第二條新聞的摘要。需要注意的是,“M/彳“M/’是為方便理解所標(biāo)示的附圖標(biāo)記,其分別用于表示其對(duì)應(yīng)虛線框內(nèi)的內(nèi)容,而標(biāo)記I1”?以及各個(gè)虛線框則并非網(wǎng)頁(yè)中所包含的內(nèi)容。[0032]需要說(shuō)明的是,待處理文檔的樹(shù)結(jié)構(gòu)可以是預(yù)先存儲(chǔ)的,也可以是通過(guò)對(duì)待處理文檔進(jìn)行一些處理而獲得的。在一個(gè)例子中,在上述待處理文檔是HTML網(wǎng)頁(yè)(或類(lèi)似格式的文檔)的情況下,可以通過(guò)HTML解析技術(shù)來(lái)獲得網(wǎng)頁(yè)的DOMTree結(jié)構(gòu)。通常情況下,通過(guò)網(wǎng)頁(yè)瀏覽器可以把HTML網(wǎng)頁(yè)解析成DOMTree結(jié)構(gòu),然后顯示給最終用戶(hù)。DOMTree結(jié)構(gòu)是一個(gè)用來(lái)描述HTML格式文檔的頁(yè)面當(dāng)中的對(duì)象的樹(shù)結(jié)構(gòu)。圖3是示出圖2所示網(wǎng)頁(yè)的DOMTree結(jié)構(gòu)的示意圖。[0033]為敘述方便和清楚起見(jiàn),下面對(duì)DOMTree結(jié)構(gòu)的一些常用概念做一些簡(jiǎn)要說(shuō)明。在DOMTree結(jié)構(gòu)中,各個(gè)節(jié)點(diǎn)彼此之間均有等級(jí)關(guān)系,其中,常用的用于描述這種關(guān)系的概念有父節(jié)點(diǎn)、子節(jié)點(diǎn)和兄弟節(jié)點(diǎn)(siblingnodes)。此外,在DOMTree結(jié)構(gòu)中,頂端的節(jié)點(diǎn)為根節(jié)點(diǎn),根節(jié)點(diǎn)之外的每個(gè)節(jié)點(diǎn)都有一個(gè)父節(jié)點(diǎn),父節(jié)點(diǎn)擁有任意數(shù)量的子節(jié)點(diǎn),葉子節(jié)點(diǎn)是沒(méi)有子節(jié)點(diǎn)的節(jié)點(diǎn),而兄弟節(jié)點(diǎn)則是擁有相同父節(jié)點(diǎn)并位于同一層級(jí)上的節(jié)點(diǎn)。在下文中,將結(jié)合圖2以及圖3來(lái)描述各單元的功能和處理,并在描述的過(guò)程中給出圖2以及圖3的相關(guān)說(shuō)明。[0034]如圖4所示,在根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的一個(gè)實(shí)現(xiàn)方式中,標(biāo)簽序列獲得單元Iio可以包括標(biāo)簽記錄模塊410和序列形成模塊420。[0035]其中,針對(duì)從上述待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的每個(gè)路徑,標(biāo)簽記錄模塊410可以記錄該路徑依次經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的標(biāo)簽,序列形成模塊420可以利用該路徑經(jīng)過(guò)的所有節(jié)點(diǎn)的標(biāo)簽、并按照各個(gè)標(biāo)簽的記錄順序來(lái)形成該路徑的標(biāo)簽序列。[0036]此外,在其他一些實(shí)現(xiàn)方式中,標(biāo)簽序列獲得單元110除了可以包括如上所述的標(biāo)簽記錄模塊410和序列形成模塊420之外,還可以選擇性地包括如圖4所示的兄弟節(jié)點(diǎn)區(qū)分模塊430。如圖4所示,兄弟節(jié)點(diǎn)區(qū)分模塊430所對(duì)應(yīng)的方框用虛線表示,表明該模塊是可選的,而非必須的。參考圖2可知,在標(biāo)簽記錄模塊410記錄每個(gè)路徑經(jīng)過(guò)的節(jié)點(diǎn)的標(biāo)簽的過(guò)程中,可能會(huì)遇到一些作為兄弟節(jié)點(diǎn)的葉子節(jié)點(diǎn)的標(biāo)簽相同的情況,在這種情況下,兄弟節(jié)點(diǎn)區(qū)分模塊430可以對(duì)這些標(biāo)簽進(jìn)行區(qū)分。[0037]需要注意的是,在多組兄弟節(jié)點(diǎn)中分別存在標(biāo)簽相同的情況下,兄弟節(jié)點(diǎn)區(qū)分模塊430可以分別對(duì)每組兄弟節(jié)點(diǎn)中標(biāo)簽相同的那些葉子節(jié)點(diǎn)的標(biāo)簽進(jìn)行區(qū)分。在一個(gè)例子中,假設(shè)在上述待處理文檔的樹(shù)結(jié)構(gòu)所包含的所有葉子節(jié)點(diǎn)中,共有N組兄弟節(jié)點(diǎn)。針對(duì)該N組兄弟節(jié)點(diǎn)中的任意一組,若該組兄弟節(jié)點(diǎn)中有M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽相同,則兄弟節(jié)點(diǎn)區(qū)分模塊430可以使用預(yù)定字符序列中的前M個(gè)來(lái)區(qū)分這M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽。[0038]下面以標(biāo)簽序列獲得單元110包括標(biāo)簽記錄模塊410、序列形成模塊420和兄弟節(jié)點(diǎn)區(qū)分模塊430的情況為例,詳細(xì)描述獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列的一個(gè)具體示例。[0039]在該具體示例中,以圖2所示的網(wǎng)頁(yè)作為上文所述的待處理文檔的示例,并結(jié)合圖3所示的DOMTree結(jié)構(gòu)的示意圖來(lái)進(jìn)行描述。需要注意的是,雖然在該示例中以HTML網(wǎng)頁(yè)作為待處理文檔的示例來(lái)進(jìn)行描述,但本發(fā)明并不局限于此。在其他實(shí)施例中,HTML網(wǎng)頁(yè)可以相應(yīng)地替換為其他類(lèi)型的待處理文檔,樹(shù)結(jié)構(gòu)也可以是除了DOMTree結(jié)構(gòu)之外的其他類(lèi)型的樹(shù)結(jié)構(gòu),在此不再一一贅述。此外,需要注意的是,圖3中的等各符號(hào)均為附圖標(biāo)記,而并非樹(shù)結(jié)構(gòu)中的內(nèi)容。[0040]如圖3所示,在該DOMTree結(jié)構(gòu)中,根節(jié)點(diǎn)是Ntl,并且共存在7個(gè)葉子節(jié)點(diǎn),分別是N12、N32>N33、N34、N42,N43和N44。其中,根節(jié)點(diǎn)N。的標(biāo)簽為“body”,葉子節(jié)點(diǎn)N12、N32>N33、乂4、隊(duì)2、隊(duì)3和隊(duì)4的標(biāo)簽依次分別為“11”、“&”、“&”、、”、“&”、“&”和、”。類(lèi)似地,可以獲知該DOMTree結(jié)構(gòu)中剩余的各個(gè)節(jié)點(diǎn)的標(biāo)簽。這樣,在該DOMTree結(jié)構(gòu)中,從根節(jié)點(diǎn)N。出發(fā)到每一個(gè)葉子節(jié)點(diǎn),共存在7條路徑。[0041]下面以路徑Ntl-N12為例,來(lái)描述如何獲得該路徑的標(biāo)簽序列。對(duì)于路SNtl-N12來(lái)說(shuō),其總共依次經(jīng)過(guò)4個(gè)節(jié)點(diǎn),分別是乂、N1,N11和N12,由此,路徑Ntl-N12也可以表示為iiN0-N1-N11-N12^o利用標(biāo)簽記錄模塊410可以得到路徑Ntl-N1-N11-N12中各節(jié)點(diǎn)的標(biāo)簽,依次分別是“body”、“diV”、“ul”和“l(fā)i”。于是,序列形成模塊420可以將路徑Ntl-N1-N11-N12卿路徑N0-N12)的標(biāo)簽序列記為“body/div/ul/li”。[0042]類(lèi)似地,可以得到路徑Nq-N32的標(biāo)簽序列為“body/table/tr/td/ul/li/center/a”,路徑Ntl-N33的標(biāo)簽序列也為“body/table/tr/td/ul/li/center/a”。由于N32和N33互為兄弟節(jié)點(diǎn),而它們的標(biāo)簽同為“a”,因此可以利用兄弟節(jié)點(diǎn)區(qū)分模塊430來(lái)區(qū)分它們的標(biāo)簽。由于N32只有一個(gè)兄弟節(jié)點(diǎn)N33,所以可以使用預(yù)定字符序列的前兩個(gè)來(lái)區(qū)分它們的標(biāo)簽。在一個(gè)例子中,兄弟節(jié)點(diǎn)區(qū)分模塊430可以使用序列“[I]、[2]、[3]、[4]、……”作為上述預(yù)定字符序列,于是,區(qū)分后的路徑Ntl-N32的標(biāo)簽序列可以是“body/table/tr/td/ul/li/center/a[l]”,以及區(qū)分后的路徑Ntl-N33的標(biāo)簽序列可以是“body/table/tr/td/ul/Ii/center/a[2]”。[0043]由此,通過(guò)上述處理,除可以獲得以上所述的3條路徑的標(biāo)簽序列之外,還可以獲得其余4條路徑的標(biāo)簽序列。這樣,以上7條路徑各自的標(biāo)簽序列分別為:[0044]路徑N0-N12的標(biāo)簽序列“body/div/ul/li”;[0045]路徑N0-N32的標(biāo)簽序列“body/table/tr/td/ul/li/center/a[l]”;[0046]路徑N0-N33的標(biāo)簽序列“body/table/tr/td/ul/li/center/a[2]”;[0047]路徑N0-N34的標(biāo)簽序列“body/table/tr/td/ul/li/p”;[0048]路徑N0-N42的標(biāo)簽序列“body/table/tr/td/ul/li/center/a[l]”;[0049]路徑N0-N43的標(biāo)簽序列“body/table/tr/td/ul/li/center/a[2]”;以及[0050]路徑N0-N44的標(biāo)簽序列“body/table/tr/td/ul/li/p”。[0051]其中,需要說(shuō)明的是,圖3中的節(jié)點(diǎn)N12對(duì)應(yīng)圖2中的M1,圖3中的節(jié)點(diǎn)N32對(duì)應(yīng)圖2中的M2,圖3中的節(jié)點(diǎn)N33對(duì)應(yīng)圖2中的M3,圖3中的節(jié)點(diǎn)N34對(duì)應(yīng)圖2中的M4,圖3中的節(jié)點(diǎn)N42對(duì)應(yīng)圖2中的M5,圖3中的節(jié)點(diǎn)N43對(duì)應(yīng)圖2中的M6,圖3中的節(jié)點(diǎn)N44對(duì)應(yīng)圖2中的M7。[0052]由此,根據(jù)以上描述可知,通過(guò)標(biāo)簽序列獲得單元110的處理可以得到待處理文檔的樹(shù)結(jié)構(gòu)中的每條路徑的標(biāo)簽序列。然后,分組單元120可以根據(jù)每種標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)來(lái)對(duì)各個(gè)標(biāo)簽序列進(jìn)行分組。例如,分組單元120可以通過(guò)計(jì)算每種標(biāo)簽序列在待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),來(lái)將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列分為同一組。需要注意的是,這里所說(shuō)的預(yù)定范圍可以根據(jù)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)試驗(yàn)的方式來(lái)確定。[0053]在一個(gè)例子(以下稱(chēng)為例子一)中,以圖2和圖3為例,在圖3所示的DOMTree結(jié)構(gòu)中共存在7條路徑,可以總共得到4種標(biāo)簽序列,分別是“body/div/ul/li”(以下簡(jiǎn)稱(chēng)為“標(biāo)簽序列一”)、“body/table/tr/td/ul/li/center/a[l]”(以下簡(jiǎn)稱(chēng)為“標(biāo)簽序列二”)、“body/table/tr/td/ul/li/center/a[2]”(以下簡(jiǎn)稱(chēng)為“標(biāo)簽序列三”)和“body/table/tr/td/ul/li/p”(以下簡(jiǎn)稱(chēng)為“標(biāo)簽序列四”)。假設(shè)在例子一中,上述預(yù)定范圍為[0,0],也即,將重復(fù)出現(xiàn)次數(shù)完全相同的標(biāo)簽序列分為同一組。由于標(biāo)簽序列一只出現(xiàn)了I次,而標(biāo)簽序列二、三和四各出現(xiàn)了2次,分組單元120可以將標(biāo)簽序列一分為一個(gè)組,而將標(biāo)簽序列二、三和四分為另一個(gè)組。[0054]此外,在另一個(gè)例子(以下稱(chēng)為例子二)中,假設(shè)標(biāo)簽序列獲得單元110所得到的某個(gè)待處理文檔的樹(shù)結(jié)構(gòu)中的標(biāo)簽序列共有4種,如上文所述的標(biāo)簽序列一、二、三和四。而在例子二中,假設(shè)標(biāo)簽序列一、二、三和四各自在上述待處理文檔的樹(shù)結(jié)構(gòu)中出現(xiàn)的次數(shù)分別如下(需要注意的是,該例子并未在圖中示出):[0055]body/div/ul/li(標(biāo)簽序列一出現(xiàn)12次);[0056]body/table/tr/td/ul/li/p(標(biāo)簽序列二出現(xiàn)21次);[0057]body/table/tr/td/ul/li/center/center/a[I](標(biāo)簽序列三出現(xiàn)20次);以及[0058]body/table/tr/td/ul/li/center/center/a[2](標(biāo)簽序列四出現(xiàn)19次)。[0059]假設(shè)在例子二中,上述預(yù)定范圍為[0,1],也即,相當(dāng)于將重復(fù)出現(xiàn)次數(shù)完全相同或相差I(lǐng)次的標(biāo)簽序列分為同一組。由此,分組單元120可以將標(biāo)簽序列一單獨(dú)分為一組(以下簡(jiǎn)稱(chēng)為第一標(biāo)簽序列組),而將標(biāo)簽序列二、三和四分為另外一組(以下簡(jiǎn)稱(chēng)為第二標(biāo)簽序列組)。此外,在例子二中,同一組內(nèi)的每個(gè)標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)只需與本組內(nèi)的至少一個(gè)其他的標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)之差在上述預(yù)定范圍內(nèi)即可,而不需與本組內(nèi)的其他每個(gè)標(biāo)簽序列的重復(fù)出席次數(shù)之差都在該預(yù)定范圍內(nèi)。[0060]由此,通過(guò)分組單元120的處理可以將標(biāo)簽序列獲得單元110所獲得的所有標(biāo)簽序列進(jìn)行分組。于是,對(duì)于分組的標(biāo)簽序列,布局確定單元130可以獲得每組標(biāo)簽序列的最大公共前綴,以基于獲得的最大公共前綴來(lái)確定待處理文檔的信息結(jié)構(gòu)布局。[0061]其中,這里所說(shuō)的每組標(biāo)簽序列的最大公共如綴是指該組標(biāo)簽序列中的所有標(biāo)簽序列所共有的最長(zhǎng)的標(biāo)簽前綴,下面以上文所述的例子二中的標(biāo)簽序列一至四為例,來(lái)描述獲得每組標(biāo)簽序列的最大公共如綴的一個(gè)不例。[0062]對(duì)于第一標(biāo)簽序列組來(lái)說(shuō),由于其只包括標(biāo)簽序列一,因此,其中所有的標(biāo)簽序列的最大公共前綴即標(biāo)簽序列一本身,也即:[0063]body/div/ul/li(以下簡(jiǎn)稱(chēng)為“最大公共前綴一”)。[0064]對(duì)于第二標(biāo)簽序列組來(lái)說(shuō),標(biāo)簽序列二、三和四的最大公共前綴為:[0065]body/table/tr/td/ul/li(以下簡(jiǎn)稱(chēng)為“最大公共前綴二”)。[0066]這樣,通過(guò)以上處理,可以得到各組標(biāo)簽序列的最大公共前綴,進(jìn)而可以確定待處理文檔的信息結(jié)構(gòu)布局,也即,可以將待處理文檔劃分為若干個(gè)區(qū)域。在該示例中,最大公共前綴一和最大公共前綴二分別對(duì)應(yīng)于待處理文檔中的一塊區(qū)域,結(jié)合上文所描述的圖2和圖3中各部分的對(duì)應(yīng)關(guān)系可知,最大公共前綴一對(duì)應(yīng)于圖2中的M1,最大公共前綴二對(duì)應(yīng)于圖2中的M2至馬。需要注意的是,在確定了待處理文檔的信息結(jié)構(gòu)布局的情況下,尚不清楚待處理文檔的各個(gè)區(qū)域是否為數(shù)據(jù)區(qū)域(即包含數(shù)據(jù)記錄的區(qū)域)。接下來(lái),數(shù)據(jù)區(qū)域確定單元140可以通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,來(lái)確定在上述信息結(jié)構(gòu)布局中哪些最大公共前綴對(duì)應(yīng)的區(qū)域是數(shù)據(jù)區(qū)域。[0067]其中,這里所說(shuō)的樣本文檔集中的每個(gè)樣本文檔均具有與已確定的待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局。也就是說(shuō),樣本文檔集中的每個(gè)樣本文檔也分別具有與以上所獲得的各個(gè)最大公共前綴相對(duì)應(yīng)的區(qū)域。在根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的一些實(shí)現(xiàn)方式中,樣本文檔集中可以包括上述待處理文檔(也即,作為標(biāo)簽序列獲得單元110的處理對(duì)象的待處理文檔可以是樣本文檔集中的一個(gè)樣本文檔),或者也可以不包含上述待處理文檔。[0068]圖5A不出了一般網(wǎng)頁(yè)的頁(yè)面布局的一個(gè)不例,例如,圖5A中的標(biāo)題可以類(lèi)似于圖2中的M1,圖5A中的數(shù)據(jù)記錄I可以類(lèi)似于包括圖2中的M2至M4的一條記錄條目。由圖5A可以看出,一般網(wǎng)頁(yè)中,往往不只包括數(shù)據(jù)區(qū)域(如數(shù)據(jù)記錄I至數(shù)據(jù)記錄7對(duì)應(yīng)的區(qū)域),還可能包括一到多個(gè)非數(shù)據(jù)區(qū)域(如目錄區(qū)域,廣告區(qū)域,網(wǎng)頁(yè)的標(biāo)題區(qū)域,頁(yè)腳區(qū)域,等等)。需要說(shuō)明的是,圖5A中省略了諸如目錄區(qū)域、廣告區(qū)域等的非數(shù)據(jù)區(qū)域中的各個(gè)具體記錄條目。[0069]然而,相比于非數(shù)據(jù)區(qū)域,數(shù)據(jù)區(qū)域中的記錄條目往往經(jīng)常更新、且更新頻率較高,而諸如目錄區(qū)域、廣告區(qū)域等的非數(shù)據(jù)區(qū)域往往是不更新或者更新頻率非常低的。[0070]圖5A飛C以網(wǎng)頁(yè)作為待處理文檔的示例,示意性地示出了符合數(shù)據(jù)區(qū)域更新模型的一個(gè)樣本文檔集中的3個(gè)連續(xù)更新的樣本文檔。為敘述方便,以下將圖5A、圖5B和圖5C所示網(wǎng)頁(yè)分別簡(jiǎn)稱(chēng)為網(wǎng)頁(yè)一、網(wǎng)頁(yè)二和網(wǎng)頁(yè)三。[0071]如圖5A?5C所示,在這3個(gè)連續(xù)更新的網(wǎng)頁(yè)中,網(wǎng)頁(yè)一為更新時(shí)間最早的網(wǎng)頁(yè),網(wǎng)頁(yè)二次之,網(wǎng)頁(yè)三為最新的網(wǎng)頁(yè)。由圖5A飛C也可以看出,在這3個(gè)連續(xù)更新的網(wǎng)頁(yè)中,數(shù)據(jù)區(qū)域存在更新,而其他諸如目錄區(qū)域、廣告區(qū)域等的非數(shù)據(jù)區(qū)域均沒(méi)有更新。在圖5A飛C所示的例子中,每一次最新更新的數(shù)據(jù)記錄會(huì)排在最前面,而將原來(lái)舊的數(shù)據(jù)記錄依次往下排。[0072]例如,網(wǎng)頁(yè)二相對(duì)網(wǎng)頁(yè)一而言,更新了3個(gè)新的數(shù)據(jù)記錄(分別是數(shù)據(jù)記錄#1、#2和#3),而將原來(lái)的數(shù)據(jù)記錄依次往下排,并將超出頁(yè)面顯示限制的那些舊的數(shù)據(jù)記錄刪除或者放至第二頁(yè),等等。這樣,網(wǎng)頁(yè)二包括原來(lái)網(wǎng)頁(yè)一中的4個(gè)舊數(shù)據(jù)記錄(分別是數(shù)據(jù)記錄I至4)。[0073]類(lèi)似地,網(wǎng)頁(yè)三相對(duì)網(wǎng)頁(yè)二而言,又更新了2個(gè)新的數(shù)據(jù)記錄(分別是數(shù)據(jù)記錄##1和##2)。這樣,網(wǎng)頁(yè)三包括網(wǎng)頁(yè)二中的5個(gè)舊數(shù)據(jù)記錄(分別是數(shù)據(jù)記錄#U#2和#3,以及數(shù)據(jù)記錄I和2)。[0074]下面結(jié)合圖6來(lái)描述如圖1所示的數(shù)據(jù)區(qū)域確定單元140的一個(gè)示例。在如圖6所示的一個(gè)實(shí)現(xiàn)方式中,數(shù)據(jù)區(qū)域確定單元140可以包括獲得模塊610和確定模塊620。[0075]其中,獲得模塊610用于在樣本文檔集內(nèi)的每個(gè)樣本文檔中分別獲得與每個(gè)最大公共前綴對(duì)應(yīng)的記錄條目。[0076]舉例來(lái)說(shuō),假設(shè)樣本文檔Xl是樣本文檔集中的任意一個(gè)樣本文檔,并假設(shè)布局確定單元130得到最大公共前綴一和最大公共前綴二共兩個(gè)最大公共前綴,則獲得模塊610可以在樣本文檔Xl中分別確定與最大公共前綴一對(duì)應(yīng)的那些記錄條目、以及與最大公共前綴二對(duì)應(yīng)的那些記錄條目。[0077]其中,可以按照如下將要描述的方式來(lái)確定樣本文檔Xl中與最大公共前綴一或二對(duì)應(yīng)的記錄條目。以最大公共前綴一為例,獲得模塊610可以在樣本文檔Xl的樹(shù)結(jié)構(gòu)的所有從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑中,找到包含最大公共前綴一的路徑,根據(jù)上述“包含最大公共前綴一的路徑”的標(biāo)簽序列,即可確定這些“包含最大公共前綴一的路徑”在樣本文檔X中對(duì)應(yīng)的記錄條目,然后將這些記錄條目作為樣本文檔X中的與最大公共前綴一對(duì)應(yīng)的所有記錄條目。也就是說(shuō),最大公共前綴一在樣本文檔Xi對(duì)應(yīng)的區(qū)域是由上述確定的“包含最大公共前綴一的路徑”所組成的區(qū)域。[0078]由此,在滿(mǎn)足一定條件的情況下,確定模塊620可以將其中的一些最大公共前綴對(duì)應(yīng)的區(qū)域確定為數(shù)據(jù)區(qū)域。[0079]在一個(gè)例子(以下稱(chēng)為例子三)中,針對(duì)每個(gè)最大公共前綴,若樣本文檔集內(nèi)的至少兩個(gè)相鄰樣本文檔符合某些預(yù)定條件,則確定模塊620可以將該最大公共前綴對(duì)應(yīng)的記錄區(qū)域確定為數(shù)據(jù)區(qū)域。[0080]在例子三中,以最大公共前綴Q為例,上述“預(yù)定條件”可以是如下條件:時(shí)間上在后的樣本文檔所包含的與最大公共前綴Q對(duì)應(yīng)的所有記錄條目中包括有時(shí)間上在先的樣本文檔所包含的與最大公共前綴Q對(duì)應(yīng)的所有記錄條目中的至少一個(gè)(以下簡(jiǎn)稱(chēng)為“條件一”);以及時(shí)間上在后的樣本文檔所包含的與最大公共前綴Q對(duì)應(yīng)的所有記錄條目中的至少一個(gè)未被包括在時(shí)間上在先的樣本文檔所包含的與最大公共前綴Q對(duì)應(yīng)的所有記錄條目中(以下簡(jiǎn)稱(chēng)為“條件二”)。其中,“時(shí)間上在先的樣本文檔”是指兩個(gè)相鄰樣本文檔中的那個(gè)更新時(shí)間較早的待處理文檔,而“時(shí)間上在后的樣本文檔”是指這兩個(gè)相鄰樣本文檔中的那個(gè)更新時(shí)間較晚的待處理文檔。[0081]在另一個(gè)例子(以下稱(chēng)為例子四)中,針對(duì)每個(gè)最大公共前綴,若樣本文檔集內(nèi)的每?jī)蓚€(gè)相鄰的樣本文檔均符合以上在例子三中所述的預(yù)定條件的話,確定模塊620可以將該最大公共前綴對(duì)應(yīng)的記錄區(qū)域確定為數(shù)據(jù)區(qū)域。與例子二相比,例子四的處理的魯棒性更高。[0082]下面描述一個(gè)例子四的具體處理示例。[0083]假設(shè)確定的最大公共前綴共有4個(gè),分別是最大公共前綴Q1、Q2、Q3和Q4,并假設(shè)樣本文檔集內(nèi)共包括3個(gè)樣本文檔,分別是樣本文檔D1、D2和D3。通過(guò)獲得模塊610,可以在樣本文檔Dl、D2和D3中分別確定與最大公共前綴Ql、Q2、Q3和Q4對(duì)應(yīng)的記錄條目。[0084]假設(shè)通過(guò)判定發(fā)現(xiàn),樣本文檔Dl中包括的與最大公共前綴Ql對(duì)應(yīng)的記錄條目為記錄R12和RlI,樣本文檔D2和D3中分別包括的與最大公共前綴Ql對(duì)應(yīng)的記錄條目也均為記錄R12和R11。這樣,對(duì)于樣本文檔Dl和D2這對(duì)相鄰文檔來(lái)說(shuō),樣本文檔D2(作為“時(shí)間上在后的樣本文檔”的示例)所包含的與最大公共前綴Ql對(duì)應(yīng)的所有記錄條目(即{記錄R12,記錄Rl1})中包括有樣本文檔Dl(作為“時(shí)間上在先的樣本文檔”的示例)所包含的與最大公共前綴Q對(duì)應(yīng)的記錄R12和R11,因此,對(duì)于最大公共前綴Ql來(lái)說(shuō),樣本文檔Dl和D2符合上文所述的條件一。然而,樣本文檔D2所包含的與最大公共前綴Ql對(duì)應(yīng)的所有記錄條目卻完全被包括在了樣本文檔Dl所包含的與最大公共前綴Q對(duì)應(yīng)的所有記錄中,由此,對(duì)于最大公共前綴Ql來(lái)說(shuō),樣本文檔Dl和D2是不符合上文所述的條件二的。同樣地,可以得知,對(duì)于最大公共前綴Ql來(lái)說(shuō),樣本文檔D2和D3這對(duì)相鄰文檔也是不符合上文所述的條件二的。因此,針對(duì)最大公共前綴Ql來(lái)說(shuō),樣本文檔集中不存在能夠同時(shí)滿(mǎn)足上述條件一和條件二的相鄰樣本文檔,故最大公共前綴Ql對(duì)應(yīng)的區(qū)域并非數(shù)據(jù)區(qū)域。在這種情況下,最大公共前綴Ql在這三個(gè)樣本文檔DfD3中對(duì)應(yīng)的區(qū)域中包含的內(nèi)容是完全相同的、未發(fā)生過(guò)更新的,因此,最大公共前綴Ql對(duì)應(yīng)的區(qū)域可能是一些長(zhǎng)期不更新的如廣告區(qū)域、頁(yè)腳區(qū)域等的非數(shù)據(jù)區(qū)域。[0085]此外,假設(shè)通過(guò)判定發(fā)現(xiàn),樣本文檔Dl中包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目為記錄R25、R24、R23、R22和R21,樣本文檔D2中包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目為記錄R27、R26、R25、R24和R23,樣本文檔D3中包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目為記錄R28、R27、R26、R25和R24。由于樣本文檔D2包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目(R27、R26、R25、R24和R23)中包括了樣本文檔Dl中包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目中的R25、R24和R23,且其中的R27和R26未包含在樣本文檔Dl中包括的與最大公共前綴Q2對(duì)應(yīng)的記錄條目中,樣本文檔D3和D2的情況也類(lèi)似,故最大公共前綴Q2對(duì)應(yīng)的區(qū)域是數(shù)據(jù)區(qū)域。[0086]此外,需要說(shuō)明的是,相同的記錄條目不一定是完全相同,例如,若上述樣本文檔D2中包括R25’,而R25’與R25之間的相似度(例如余弦相似度)高于某個(gè)相似度閾值(例如95%)的話,也可以將R25’與R25作為“相同的記錄條目”來(lái)處理。其中,上述相似度閾值可以根據(jù)經(jīng)驗(yàn)值來(lái)設(shè)定,也可以通過(guò)試驗(yàn)的方法來(lái)獲得,這里不再詳述。[0087]對(duì)于其他的最大公共前綴可以采用類(lèi)似的方法處理,這里不再贅述。[0088]圖7示意性地示出了根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的另一個(gè)示例。如圖7所示,信息處理裝置700除了包括標(biāo)簽序列獲得單元710、分組單元720、布局確定單元730和數(shù)據(jù)區(qū)域確定單元740之外,還包括數(shù)據(jù)記錄提取單元750。其中,圖7所示的信息處理裝置700中的標(biāo)簽序列獲得單元710、分組單元720、布局確定單元730和數(shù)據(jù)區(qū)域確定單元740可以具有與上文中結(jié)合圖1所描述的信息處理裝置100中的對(duì)應(yīng)單元相同的結(jié)構(gòu)和功能,并能夠達(dá)到相類(lèi)似的技術(shù)效果,這里不再贅述。[0089]與信息處理裝置100相類(lèi)似地,信息處理裝置700中的布局確定單元730可以確定哪些最大標(biāo)簽序列對(duì)應(yīng)于數(shù)據(jù)區(qū)域,由此,數(shù)據(jù)記錄提取單元750可以利用這些被確定為對(duì)應(yīng)數(shù)據(jù)區(qū)域的最大標(biāo)簽序列來(lái)在一些待提取的其他文檔中提取數(shù)據(jù)記錄。[0090]在一個(gè)例子中,針對(duì)與所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的每個(gè)最大公共前綴,數(shù)據(jù)記錄提取單兀750可以在一些具有與上述待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局的其他文檔中確定與該最大公共前綴對(duì)應(yīng)的數(shù)據(jù)記錄并對(duì)這些數(shù)據(jù)記錄進(jìn)行提取。這樣,在利用該例子的信息處理裝置700進(jìn)行數(shù)據(jù)提取的過(guò)程中,不需要對(duì)每個(gè)待提取的“其他文檔”再一一進(jìn)行諸如確定信息結(jié)構(gòu)布局、獲得最大公共前綴等的步驟,而只需利用通過(guò)數(shù)據(jù)區(qū)域確定單元740所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的那個(gè)(或那些)最大公共前綴即可在上述“其他文檔”中找到對(duì)應(yīng)的數(shù)據(jù)區(qū)域,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)提取。[0091]在一些具體應(yīng)用中,數(shù)據(jù)記錄提取單元750所提取的數(shù)據(jù)記錄(例如可以包括新聞條目、搜索結(jié)果條目、產(chǎn)品信息等內(nèi)容)可以作為數(shù)據(jù)源來(lái)提供給后續(xù)處理系統(tǒng),例如數(shù)據(jù)整合(Mashup)系統(tǒng),或者用于創(chuàng)建數(shù)據(jù)庫(kù),等等。[0092]下面結(jié)合圖8來(lái)詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置的又一個(gè)示例。[0093]如圖8所示,信息處理裝置800除了包括標(biāo)簽序列獲得單元810、分組單元820、布局確定單元830和數(shù)據(jù)區(qū)域確定單元840之外,還包括標(biāo)簽序列過(guò)濾單元860。其中,圖8所示的信息處理裝置800中的標(biāo)簽序列獲得單元810、分組單元820、布局確定單元830和數(shù)據(jù)區(qū)域確定單元840可以具有與上文中結(jié)合圖1所描述的信息處理裝置100中的對(duì)應(yīng)單元相同的結(jié)構(gòu)和功能,并能夠達(dá)到相類(lèi)似的技術(shù)效果,這里不再贅述。[0094]其中,為了提高最終結(jié)果的準(zhǔn)確度,在分組單元820對(duì)標(biāo)簽序列完成分組之后,標(biāo)簽序列過(guò)濾單元860可以對(duì)這些分組的標(biāo)簽序列進(jìn)行過(guò)濾??紤]到數(shù)據(jù)區(qū)域通常包含多個(gè)記錄,而一些非數(shù)據(jù)區(qū)域(如頁(yè)面標(biāo)題區(qū)域、頁(yè)腳區(qū)域等)可能只包含一個(gè)或很少記錄,因此,在一個(gè)實(shí)現(xiàn)方式中,標(biāo)簽序列過(guò)濾單元860可以將包含的標(biāo)簽序列的總數(shù)小于或等于預(yù)定閾值的標(biāo)簽序列組刪除。需要注意的是,重復(fù)出現(xiàn)的標(biāo)簽序列只計(jì)為一個(gè)標(biāo)簽序列。此夕卜,需要說(shuō)明的是,上述預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)值來(lái)設(shè)定,也可以通過(guò)試驗(yàn)的方法來(lái)獲得,這里不再詳述。[0095]在一個(gè)例子中,假設(shè)上述預(yù)定閾值為3,則當(dāng)某組標(biāo)簽序列中總共包含3個(gè)或少于3個(gè)標(biāo)簽序列時(shí),標(biāo)簽序列過(guò)濾單元860將刪除該組標(biāo)簽序列中的所有標(biāo)簽序列。[0096]這樣,通過(guò)標(biāo)簽序列過(guò)濾單元860的處理,可以將那些不大可能對(duì)應(yīng)于數(shù)據(jù)區(qū)域的標(biāo)簽序列組濾除掉,進(jìn)而使得最終的處理結(jié)果更加準(zhǔn)確,并可以提高處理的效率。[0097]此外,還需要說(shuō)明的是,在其他一些實(shí)現(xiàn)方式中,信息處理裝置800除了包括以上標(biāo)簽序列獲得單元810、分組單元820、布局確定單元830、數(shù)據(jù)區(qū)域確定單元840和標(biāo)簽序列過(guò)濾單元860之外,還可以選擇性地包括數(shù)據(jù)記錄提取單元850。其中,信息處理裝置800中的數(shù)據(jù)記錄提取單元850可以具有與上文中結(jié)合圖7所描述的數(shù)據(jù)記錄提取單元750相同的結(jié)構(gòu)和功能,并能夠達(dá)到相類(lèi)似的技術(shù)效果,這里不再贅述。[0098]通過(guò)以上描述可知,上述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置利用了待處理文檔的樹(shù)結(jié)構(gòu)來(lái)確定待處理文檔中的數(shù)據(jù)區(qū)域。在處理的過(guò)程中,其基于樹(shù)結(jié)構(gòu)中各路徑的標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)來(lái)對(duì)標(biāo)簽序列分組,并進(jìn)而獲得每一組標(biāo)簽序列的最大公共前綴,作為對(duì)這組標(biāo)簽序列對(duì)應(yīng)區(qū)域的一種描述。利用這種描述,通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,便可在待處理文檔的信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域。相比于傳統(tǒng)的用于確定數(shù)據(jù)區(qū)域的技術(shù),上述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置在獲得最大公共前綴的過(guò)程中,利用了標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)對(duì)標(biāo)簽序列進(jìn)行分組,然后再對(duì)分組的標(biāo)簽序列進(jìn)行挖掘以得到上述最大公共前綴,由此能夠使得基于最大公共前綴所獲得的信息結(jié)構(gòu)布局更加準(zhǔn)確(區(qū)域劃分更準(zhǔn)確)。此外,在確定數(shù)據(jù)區(qū)域的過(guò)程中,上述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置利用了符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,使得基于這種模型特征所確定的數(shù)據(jù)區(qū)域也更加準(zhǔn)確,由此極大地提高了數(shù)據(jù)處理的效率和性能。[0099]此外,本發(fā)明的實(shí)施例還提供了一種信息處理方法,該信息處理方法包括:獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;計(jì)算每個(gè)標(biāo)簽序列在上述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;獲得每組標(biāo)簽序列的最大公共前綴,以確定上述待處理文檔的信息結(jié)構(gòu)布局;以及通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在上述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,上述樣本文檔集中的每個(gè)樣本文檔均具有上述信息結(jié)構(gòu)布局。[0100]下面結(jié)合圖9來(lái)描述上述信息處理方法的一種示例性處理。[0101]如圖9所示,根據(jù)本發(fā)明的實(shí)施例的信息處理方法的處理流程900開(kāi)始于步驟S910,然后執(zhí)行步驟S920。[0102]在步驟S920中,獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列。然后執(zhí)行步驟S930。其中,步驟S920中所執(zhí)行的處理例如可以與上文中結(jié)合圖1和/或圖4所描述的標(biāo)簽序列獲得單元110的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0103]在步驟S930中,計(jì)算每個(gè)標(biāo)簽序列在待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組。然后執(zhí)行步驟S940。其中,步驟S930中所執(zhí)行的處理例如可以與上文中結(jié)合圖1所描述的分組單元120的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0104]在步驟S940中,獲得每組標(biāo)簽序列的最大公共如綴,以確定待處理文檔的彳目息結(jié)構(gòu)布局。然后執(zhí)行步驟S950。其中,步驟S940中所執(zhí)行的處理例如可以與上文中結(jié)合圖1所描述的布局確定單元130的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0105]在步驟S950中,通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在步驟S940中所確定的信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,樣本文檔集中的每個(gè)樣本文檔均具有上述信息結(jié)構(gòu)布局。然后執(zhí)行步驟S960。其中,步驟S950中所執(zhí)行的處理例如可以與上文中結(jié)合圖1和/或圖6所描述的數(shù)據(jù)區(qū)域確定單元140的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0106]處理流程900結(jié)束于步驟S960。[0107]在根據(jù)本發(fā)明的實(shí)施例的信息處理方法的另一種實(shí)現(xiàn)方式中,在步驟S930和S940之間,還可以選擇性地包括如圖10所示的步驟S935。在這種實(shí)現(xiàn)方式中,在通過(guò)執(zhí)行步驟S930實(shí)現(xiàn)對(duì)標(biāo)簽序列的分組之后,可以在步驟S935中對(duì)這些分組的標(biāo)簽序列進(jìn)行過(guò)濾,若某組標(biāo)簽序列中所包含的所有標(biāo)簽序列個(gè)數(shù)小于或等于預(yù)定閾值,則刪除這一組標(biāo)簽序列。其中,步驟S935中所執(zhí)行的處理例如可以與上文中結(jié)合圖8所描述的標(biāo)簽序列過(guò)濾單元860的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0108]此外,如圖10所示的處理流程1000所示,在根據(jù)本發(fā)明的實(shí)施例的信息處理方法的其他實(shí)現(xiàn)方式中,在執(zhí)行完步驟S950之后,還可以選擇性地包括步驟S955。其中,在步驟S955中,可以針對(duì)與所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的每個(gè)最大公共前綴,在具有與上述待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局的其他文檔中提取與該最大公共前綴對(duì)應(yīng)的數(shù)據(jù)記錄。步驟S955中所執(zhí)行的處理例如可以與上文中結(jié)合圖7所描述的數(shù)據(jù)記錄提取單元750的處理相同,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0109]需要注意的是,以上結(jié)合圖10所描述的步驟S935和步驟S955可以分別在不同的實(shí)施例中執(zhí)行,也可以在同一個(gè)實(shí)施例中執(zhí)行。此外,圖10中除S935和S955之外的其他步驟可以與圖9中的對(duì)應(yīng)步驟執(zhí)行相同的處理,并能夠達(dá)到類(lèi)似的技術(shù)效果,在此不再贅述。[0110]通過(guò)以上描述可知,上述根據(jù)本發(fā)明的實(shí)施例的信息處理方法利用了待處理文檔的樹(shù)結(jié)構(gòu)來(lái)確定待處理文檔中的數(shù)據(jù)區(qū)域。在處理的過(guò)程中,其基于樹(shù)結(jié)構(gòu)中各路徑的標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)來(lái)對(duì)標(biāo)簽序列分組,并進(jìn)而獲得每一組標(biāo)簽序列的最大公共前綴,作為對(duì)這組標(biāo)簽序列對(duì)應(yīng)區(qū)域的一種描述。利用這種描述,通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,便可在待處理文檔的信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域。相比于傳統(tǒng)的用于確定數(shù)據(jù)區(qū)域的技術(shù),上述根據(jù)本發(fā)明的實(shí)施例的信息處理方法在獲得最大公共前綴的過(guò)程中,利用了標(biāo)簽序列的重復(fù)出現(xiàn)次數(shù)對(duì)標(biāo)簽序列進(jìn)行分組,然后再對(duì)分組的標(biāo)簽序列進(jìn)行挖掘以得到上述最大公共前綴,由此能夠使得基于最大公共前綴所獲得的信息結(jié)構(gòu)布局更加準(zhǔn)確(區(qū)域劃分更準(zhǔn)確)。此外,在確定數(shù)據(jù)區(qū)域的過(guò)程中,上述根據(jù)本發(fā)明的實(shí)施例的信息處理方法利用了符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集,使得基于這種模型特征所確定的數(shù)據(jù)區(qū)域也更加準(zhǔn)確,由此極大地提高了數(shù)據(jù)處理的效率和性能。[0111]此外,本發(fā)明的實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括如上所述的信息處理裝置。在根據(jù)本發(fā)明的實(shí)施例的上述電子設(shè)備的具體實(shí)現(xiàn)方式中,上述電子設(shè)備可以是以下設(shè)備中的任意一種設(shè)備:計(jì)算機(jī);平板電腦;個(gè)人數(shù)字助理;多媒體播放設(shè)備;手機(jī)以及電紙書(shū)等等。其中,該電子設(shè)備具有上述信息處理裝置的各種功能和技術(shù)效果,這里不再贅述。[0112]上述根據(jù)本發(fā)明的實(shí)施例的信息處理裝置中的各個(gè)組成單元、子單元、模塊等可以通過(guò)軟件、固件、硬件或其任意組合的方式進(jìn)行配置。在通過(guò)軟件或固件實(shí)現(xiàn)的情況下,可從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專(zhuān)用硬件結(jié)構(gòu)的機(jī)器(例如圖11所示的通用機(jī)器1100)安裝構(gòu)成該軟件或固件的程序,該機(jī)器在安裝有各種程序時(shí),能夠執(zhí)行上述各組成單元、子單元的各種功能。[0113]圖11是示出了可用來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的信息處理裝置和信息處理方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。[0114]在圖11中,中央處理單元(CPU)1101根據(jù)只讀存儲(chǔ)器(ROM)1102中存儲(chǔ)的程序或從存儲(chǔ)部分1108加載到隨機(jī)存取存儲(chǔ)器(RAM)1103的程序執(zhí)行各種處理。在RAM1103中,還根據(jù)需要存儲(chǔ)當(dāng)CPU1101執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU110UR0M1102和RAM1103經(jīng)由總線1104彼此連接。輸入/輸出接口1105也連接到總線1104。[0115]下述部件也連接到輸入/輸出接口1105:輸入部分1106(包括鍵盤(pán)、鼠標(biāo)等等)、輸出部分1107(包括顯示器,例如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分1108(包括硬盤(pán)等)、通信部分1109(包括網(wǎng)絡(luò)接口卡例如LAN卡、調(diào)制解調(diào)器等)。通信部分1109經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器1110也可連接到輸入/輸出接口1105??刹鹦督橘|(zhì)1111例如磁盤(pán)、光盤(pán)、磁光盤(pán)、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器1110上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲(chǔ)部分1108中。[0116]在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下,可以從網(wǎng)絡(luò)例如因特網(wǎng)或從存儲(chǔ)介質(zhì)例如可拆卸介質(zhì)1111安裝構(gòu)成軟件的程序。[0117]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖11所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶(hù)提供程序的可拆卸介質(zhì)1111。可拆卸介質(zhì)1111的例子包含磁盤(pán)(包含軟盤(pán))、光盤(pán)(包含光盤(pán)只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(pán)(DVD))、磁光盤(pán)(包含迷你盤(pán)(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是ROM1102、存儲(chǔ)部分1108中包含的硬盤(pán)等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶(hù)。[0118]此外,本發(fā)明還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。上述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明的實(shí)施例的信息處理方法。相應(yīng)地,用于承載這種程序產(chǎn)品的例如磁盤(pán)、光盤(pán)、磁光盤(pán)、半導(dǎo)體存儲(chǔ)器等的各種存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開(kāi)中。[0119]在上面對(duì)本發(fā)明具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類(lèi)似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。[0120]此外,本發(fā)明的各實(shí)施例的方法不限于按照說(shuō)明書(shū)中描述的或者附圖中示出的時(shí)間順序來(lái)執(zhí)行,也可以按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說(shuō)明書(shū)中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。[0121]此外,顯然,根據(jù)本發(fā)明的上述方法的各個(gè)操作過(guò)程也可以以存儲(chǔ)在各種機(jī)器可讀的存儲(chǔ)介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。[0122]而且,本發(fā)明的目的也可以通過(guò)下述方式實(shí)現(xiàn):將存儲(chǔ)有上述可執(zhí)行程序代碼的存儲(chǔ)介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理單元(CPU)讀出并執(zhí)行上述程序代碼。[0123]此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本發(fā)明的實(shí)施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。[0124]上述這些機(jī)器可讀存儲(chǔ)介質(zhì)包括但不限于:各種存儲(chǔ)器和存儲(chǔ)單元,半導(dǎo)體設(shè)備,磁盤(pán)單元例如光、磁和磁光盤(pán),以及其它適于存儲(chǔ)信息的介質(zhì)等。[0125]另外,客戶(hù)計(jì)算機(jī)通過(guò)連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本發(fā)明的計(jì)算機(jī)程序代碼下載和安裝到計(jì)算機(jī)中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本發(fā)明。[0126]最后,還需要說(shuō)明的是,在本文中,諸如左和右、第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。[0127]綜上,在根據(jù)本發(fā)明的實(shí)施例中,本發(fā)明提供了如下方案但不限于此:[0128]附記1.一種信息處理裝置,包括:[0129]標(biāo)簽序列獲得單元,其被配置用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;[0130]分組單元,其被配置用于計(jì)算每個(gè)所述標(biāo)簽序列在所述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;[0131]布局確定單元,其被配置用于獲得每組標(biāo)簽序列的最大公共前綴,以確定所述待處理文檔的信息結(jié)構(gòu)布局;以及[0132]數(shù)據(jù)區(qū)域確定單元,其被配置用于通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在所述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,所述樣本文檔集中的每個(gè)樣本文檔均具有所述信息結(jié)構(gòu)布局。[0133]附記2.根據(jù)附記I所述的信息處理裝置,其中,所述數(shù)據(jù)區(qū)域確定單元包括:[0134]獲得模塊,其被配置用于針對(duì)每個(gè)所述最大公共前綴,分別獲得所述樣本文檔集內(nèi)的每個(gè)樣本文檔中與該最大公共前綴對(duì)應(yīng)的記錄條目;以及[0135]確定模塊,其被配置用于針對(duì)每個(gè)所述最大公共前綴,在所述樣本文檔集內(nèi)的每?jī)蓚€(gè)或至少兩個(gè)相鄰樣本文檔符合以下條件的情況下,將該最大公共前綴對(duì)應(yīng)的記錄區(qū)域確定為數(shù)據(jù)區(qū)域:[0136]時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中包括有時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè);以及[0137]時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè)未被包括在時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中。[0138]附記3.根據(jù)附記I或2所述的信息處理裝置,其中,所述樣本文檔集包括所述待處理文檔。[0139]附記4.根據(jù)附記1-3中任一所述的信息處理裝置,還包括:[0140]數(shù)據(jù)記錄提取單元,其被配置用于針對(duì)與所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的每個(gè)所述最大公共前綴,在具有與所述待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局的其他文檔中提取與該最大公共前綴對(duì)應(yīng)的數(shù)據(jù)記錄。[0141]附記5.根據(jù)附記1-4中任一所述的信息處理裝置,其中,所述標(biāo)簽序列獲得單元包括:[0142]標(biāo)簽記錄模塊,其被配置用于針對(duì)從所述待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的每個(gè)路徑,記錄該路徑依次經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的標(biāo)簽;以及[0143]序列形成模塊,其被配置用于針對(duì)所述每個(gè)路徑,利用該路徑經(jīng)過(guò)的所有節(jié)點(diǎn)的標(biāo)簽、并按照各個(gè)標(biāo)簽的記錄順序形成該路徑的標(biāo)簽序列。[0144]附記6.根據(jù)附記5所述的信息處理裝置,其中,所述標(biāo)簽序列獲得單元還包括:[0145]兄弟節(jié)點(diǎn)區(qū)分模塊,其被配置用于在所述待處理文檔的樹(shù)結(jié)構(gòu)所包含的所有葉子節(jié)點(diǎn)中存在作為兄弟節(jié)點(diǎn)的M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽相同的情況下,使用預(yù)定字符序列中的前M個(gè)來(lái)區(qū)分所述M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽。[0146]附記7.根據(jù)附記1-6中任一所述的信息處理裝置,還包括:[0147]標(biāo)簽序列過(guò)濾單元,其被配置用于針對(duì)每組標(biāo)簽序列,判定該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)是否小于或等于預(yù)定閾值,并在該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)小于或等于預(yù)定閾值的情況下刪除該組標(biāo)簽序列;其中,重復(fù)出現(xiàn)的標(biāo)簽序列計(jì)為一個(gè)。[0148]附記8.根據(jù)附記1-7中任一所述的信息處理裝置,其中:[0149]所述待處理文檔為HTML格式文檔;和/或[0150]所述樹(shù)結(jié)構(gòu)采用文檔對(duì)象化模型樹(shù)結(jié)構(gòu)。[0151]附記9.一種信息處理方法,包括:[0152]獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;[0153]計(jì)算每個(gè)所述標(biāo)簽序列在所述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;[0154]獲得每組標(biāo)簽序列的最大公共前綴,以確定所述待處理文檔的信息結(jié)構(gòu)布局;以及[0155]通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在所述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,所述樣本文檔集中的每個(gè)樣本文檔均具有所述信息結(jié)構(gòu)布局。[0156]附記10.根據(jù)附記9所述的信息處理方法,其中,所述確定數(shù)據(jù)區(qū)域的步驟包括:[0157]針對(duì)每個(gè)所述最大公共前綴,[0158]分別獲得所述樣本文檔集內(nèi)的每個(gè)樣本文檔中與該最大公共前綴對(duì)應(yīng)的記錄條目,以及[0159]在所述樣本文檔集內(nèi)的每?jī)蓚€(gè)或至少兩個(gè)相鄰樣本文檔符合以下條件的情況下,將該最大公共前綴對(duì)應(yīng)的記錄區(qū)域確定為數(shù)據(jù)區(qū)域:時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中包括有時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè);以及時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè)未被包括在時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中。[0160]附記11.根據(jù)附記9或10所述的信息處理方法,其中,所述樣本文檔集包括所述待處理文檔。[0161]附記12.根據(jù)附記9-11中任一所述的信息處理方法,還包括:[0162]針對(duì)與所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的每個(gè)所述最大公共前綴,在具有與所述待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局的其他文檔中提取與該最大公共前綴對(duì)應(yīng)的數(shù)據(jù)記錄。[0163]附記13.根據(jù)附記9-12中任一所述的信息處理方法,其中,獲得所述標(biāo)簽序列的步驟包括:[0164]針對(duì)從所述待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的每個(gè)路徑,[0165]記錄該路徑依次經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的標(biāo)簽,以及[0166]利用該路徑經(jīng)過(guò)的所有節(jié)點(diǎn)的標(biāo)簽、并按照各個(gè)標(biāo)簽的記錄順序形成該路徑的標(biāo)簽序列。[0167]附記14.根據(jù)附記13所述的信息處理方法,其中,獲得所述標(biāo)簽序列的步驟還包括:[0168]在所述待處理文檔的樹(shù)結(jié)構(gòu)所包含的所有葉子節(jié)點(diǎn)中存在作為兄弟節(jié)點(diǎn)的M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽相同的情況下,使用預(yù)定字符序列中的前M個(gè)來(lái)區(qū)分所述M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽。[0169]附記15.根據(jù)附記9-14中任一所述的信息處理方法,在所述獲得每組標(biāo)簽序列的最大公共前綴的步驟之前還包括:[0170]針對(duì)每組標(biāo)簽序列,判定該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)是否小于或等于預(yù)定閾值,并在該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)小于或等于預(yù)定閾值的情況下刪除該組標(biāo)簽序列;其中,重復(fù)出現(xiàn)的標(biāo)簽序列計(jì)為一個(gè)。[0171]附記16.根據(jù)附記9-15中任一所述的信息處理方法,其中:[0172]所述待處理文檔為HTML格式文檔;和/或[0173]所述樹(shù)結(jié)構(gòu)采用文檔對(duì)象化模型樹(shù)結(jié)構(gòu)。[0174]附記17.—種電子設(shè)備,包括如附記1-8中任一所述的信息處理裝置。[0175]附記18.根據(jù)附記17所述的電子設(shè)備,其中,所述電子設(shè)備是以下設(shè)備中的任意一種:[0176]計(jì)算機(jī);平板電腦;個(gè)人數(shù)字助理;多媒體播放設(shè)備;手機(jī)以及電紙書(shū)。[0177]附記19.一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品,所述程序產(chǎn)品在執(zhí)行時(shí)能夠使所述機(jī)器執(zhí)行根據(jù)附記9-16中任一所述的信息處理方法。[0178]附記20.—種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有根據(jù)附記19所述的程序產(chǎn)品?!緳?quán)利要求】1.一種信息處理裝置,包括:標(biāo)簽序列獲得單元,其被配置用于獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;分組單元,其被配置用于計(jì)算每個(gè)所述標(biāo)簽序列在所述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;布局確定單元,其被配置用于獲得每組標(biāo)簽序列的最大公共前綴,以確定所述待處理文檔的信息結(jié)構(gòu)布局;以及數(shù)據(jù)區(qū)域確定單元,其被配置用于通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在所述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,所述樣本文檔集中的每個(gè)樣本文檔均具有所述信息結(jié)構(gòu)布局。2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,所述數(shù)據(jù)區(qū)域確定單元包括:獲得模塊,其被配置用于針對(duì)每個(gè)所述最大公共前綴,分別獲得所述樣本文檔集內(nèi)的每個(gè)樣本文檔中與該最大公共前綴對(duì)應(yīng)的記錄條目;以及確定模塊,其被配置用于針對(duì)每個(gè)所述最大公共前綴,在所述樣本文檔集內(nèi)的每?jī)蓚€(gè)或至少兩個(gè)相鄰樣本文檔符合以下條件的情況下,將該最大公共前綴對(duì)應(yīng)的記錄區(qū)域確定為數(shù)據(jù)區(qū)域:時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中包括有時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè);以及時(shí)間上在后的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中的至少一個(gè)未被包括在時(shí)間上在先的樣本文檔所包含的與該最大公共前綴對(duì)應(yīng)的所有記錄條目中。3.根據(jù)權(quán)利要求1或2所述的信息處理裝置,其中,所述樣本文檔集包括所述待處理文檔。4.根據(jù)權(quán)利要求1-3中任一所述的信息處理裝置,還包括:數(shù)據(jù)記錄提取單元,其被配置用于針對(duì)與所確定的數(shù)據(jù)區(qū)域?qū)?yīng)的每個(gè)所述最大公共前綴,在具有與所述待處理文檔的信息結(jié)構(gòu)布局相同的信息結(jié)構(gòu)布局的其他文檔中提取與該最大公共前綴對(duì)應(yīng)的數(shù)據(jù)記錄。5.根據(jù)權(quán)利要求1-4中任一所述的信息處理裝置,其中,所述標(biāo)簽序列獲得單元包括:標(biāo)簽記錄模塊,其被配置用于針對(duì)從所述待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的每個(gè)路徑,記錄該路徑依次經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的標(biāo)簽;以及序列形成模塊,其被配置用于針對(duì)所述每個(gè)路徑,利用該路徑經(jīng)過(guò)的所有節(jié)點(diǎn)的標(biāo)簽、并按照各個(gè)標(biāo)簽的記錄順序形成該路徑的標(biāo)簽序列。6.根據(jù)權(quán)利要求5所述的信息處理裝置,其中,所述標(biāo)簽序列獲得單元還包括:兄弟節(jié)點(diǎn)區(qū)分模塊,其被配置用于在所述待處理文檔的樹(shù)結(jié)構(gòu)所包含的所有葉子節(jié)點(diǎn)中存在作為兄弟節(jié)點(diǎn)的M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽相同的情況下,使用預(yù)定字符序列中的前M個(gè)來(lái)區(qū)分所述M個(gè)葉子節(jié)點(diǎn)的標(biāo)簽。7.根據(jù)權(quán)利要求1-6中任一所述的信息處理裝置,還包括:標(biāo)簽序列過(guò)濾單元,其被配置用于針對(duì)每組標(biāo)簽序列,判定該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)是否小于或等于預(yù)定閾值,并在該組標(biāo)簽序列中所包含的所有標(biāo)簽序列的總數(shù)小于或等于預(yù)定閾值的情況下刪除該組標(biāo)簽序列;其中,重復(fù)出現(xiàn)的標(biāo)簽序列計(jì)為一個(gè)。8.根據(jù)權(quán)利要求1-7中任一所述的信息處理裝置,其中:所述待處理文檔為HTML格式待處理文檔;和/或所述樹(shù)結(jié)構(gòu)采用文檔對(duì)象化模型樹(shù)結(jié)構(gòu)。9.一種信息處理方法,包括:獲得待處理文檔的樹(shù)結(jié)構(gòu)中的根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)的路徑的標(biāo)簽序列;計(jì)算每個(gè)所述標(biāo)簽序列在所述待處理文檔的樹(shù)結(jié)構(gòu)中的重復(fù)出現(xiàn)次數(shù),并將重復(fù)出現(xiàn)次數(shù)相差在預(yù)定范圍內(nèi)的標(biāo)簽序列確定為同一組;獲得每組標(biāo)簽序列的最大公共前綴,以確定所述待處理文檔的信息結(jié)構(gòu)布局;以及通過(guò)分析符合數(shù)據(jù)區(qū)域更新模型的樣本文檔集來(lái)在所述信息結(jié)構(gòu)布局中確定數(shù)據(jù)區(qū)域,其中,所述樣本文檔集中的每個(gè)樣本文檔均具有所述信息結(jié)構(gòu)布局。10.一種電子設(shè)備`,包括如權(quán)利要求1-8中任一所述的信息處理裝置?!疚臋n編號(hào)】G06F17/21GK103778104SQ201210404437【公開(kāi)日】2014年5月7日申請(qǐng)日期:2012年10月22日優(yōu)先權(quán)日:2012年10月22日【發(fā)明者】張軍,鄒綱,鐘朝亮,松尾昭彥申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1