專利名稱:基于可視間隙的文檔分割的制作方法
基于可視間隙的文檔分割技術(shù)領(lǐng)域這里描述的概念涉及搜索引擎,更具體地,涉及通過搜索引擎分 割文檔用于索引。
背景技術(shù):
萬維網(wǎng)("Web")包含大量的信息。然而,找到所需要信息的 部分可能是困難的。由于網(wǎng)上的信息量以及在網(wǎng)絡(luò)上搜索的沒有經(jīng)驗(yàn) 的新用戶的數(shù)量都在快速地增長,該問題被復(fù)雜化了。搜索引擎試圖返回指向用戶所感興趣網(wǎng)頁的超鏈接。通常,搜索 引擎根據(jù)用戶輸入的搜索詞語(被稱為搜索查詢)確定用戶的興趣。 搜索引擎的目標(biāo)是基于搜索查詢?yōu)橛脩籼峁┲赶蚋哔|(zhì)量相關(guān)結(jié)果(例 如,網(wǎng)頁)的鏈接。通常,搜索引擎通過將搜索查詢中的詞語與預(yù)先 存儲(chǔ)的網(wǎng)頁語料庫進(jìn)行匹配來實(shí)現(xiàn)該目標(biāo)。包含用戶搜索詞語的網(wǎng)頁 是"命中頁"并且以鏈接形式返回給用戶。為了提高返回給用戶的網(wǎng)頁的相關(guān)性和質(zhì)量,搜索引擎可以試圖 對(duì)將命中頁的列表排序,以使最相關(guān)的和/或最高質(zhì)量的頁面位于返回 給用戶的命中頁列表的頂部。例如,搜索引擎可將等級(jí)或分值賦予每 個(gè)命中頁,其中該分值被設(shè)計(jì)為對(duì)應(yīng)于網(wǎng)頁的相關(guān)性和/或重要性。局部搜索引擎可能試圖返回特定地理區(qū)域中的相關(guān)網(wǎng)頁。對(duì)于局 部搜索引擎特別有用的一種類型的文檔是企業(yè)登記信息(business listing),諸如在黃頁目錄中的企業(yè)登記信息。在索引企業(yè)登記信息時(shí), 可能希望把企業(yè)登記信息與其他信息相關(guān)聯(lián),諸如在其它網(wǎng)頁中的對(duì) 企業(yè)的討論或評(píng)論。例如,網(wǎng)頁可以包括一個(gè)特定近鄰地區(qū)中的餐館
的列表以及每個(gè)餐館的簡(jiǎn)略概況或評(píng)論。對(duì)于局部搜索引擎來說,希 望將對(duì)應(yīng)于每個(gè)餐館的文本與該餐館精確地關(guān)聯(lián)。這樣做可以例如增 加搜索引擎對(duì)企業(yè)的知識(shí)并且因此使它潛在地可以為用戶提供更相關(guān) 的結(jié)果。發(fā)明內(nèi)容一個(gè)方面涉及用于分割文檔的方法。該方法包括生成文檔的可視 模型,基于該可視模型識(shí)別文檔的層次結(jié)構(gòu),以及基于該層次結(jié)構(gòu)和 文檔的可視模型來分割文檔。另一方面涉及索引文檔的方法。該方法包括識(shí)別文檔中的地理信 號(hào),以及基于文檔的可視布局將文檔分割成與所識(shí)別的不同地理信號(hào) 相對(duì)應(yīng)的片段。該方法進(jìn)一步包括將文檔各片段中的文本索引成對(duì)應(yīng) 于與所述地理信號(hào)關(guān)聯(lián)的企業(yè)登記信息。另一方面涉及包括處理器和計(jì)算機(jī)可讀存儲(chǔ)器的設(shè)備。該存儲(chǔ)器 包括程序指令,當(dāng)處理器執(zhí)行該程序指令時(shí),使該處理器獲得包括地 理信號(hào)的文檔,基于文檔的可視布局將文檔分割成與所識(shí)別的不同地 理信號(hào)相對(duì)應(yīng)的片段,以及將文檔各片段中的文本索引成對(duì)應(yīng)于與所 述地理信號(hào)關(guān)聯(lián)的企業(yè)登記信息。
結(jié)合在本說明書中并構(gòu)成說明書的一部分的附解說明本發(fā)明 的實(shí)施例并與說明書一起解釋本發(fā)明。在各附圖中,圖1是圖示說明與本發(fā)明相符的各方面的示例性文檔的示意圖;圖2是網(wǎng)絡(luò)的典型示意圖,其中在該網(wǎng)絡(luò)中可以實(shí)現(xiàn)與本發(fā)明的 原理相符的系統(tǒng)和方法;圖3是根據(jù)與本發(fā)明的原理相符的實(shí)施例的圖2中的客戶機(jī)或服務(wù)器的示例性示意圖;圖4是圖示說明用于分割具有局部相關(guān)性的文檔的與發(fā)明的各方
面相符的示例性操作的流程圖;圖5是圖示說明示例性文檔的一部分的示意圖;圖6是概念性地圖示說明文檔的可視模型的示意圖;圖7是圖示說明文檔的層次結(jié)構(gòu)的可視模型的示例性示意圖;以及圖8和9是根據(jù)與本發(fā)明的原理相符的實(shí)施例,可以呈現(xiàn)給用戶 的用戶界面的示例性示意圖。
具體實(shí)施方式
以下本發(fā)明的詳細(xì)描述參照附圖。該詳細(xì)描述并不限制本發(fā)明。 概述描述了一種局部搜索引擎,該局部搜索引擎響應(yīng)于局部搜索査詢 而返回諸如網(wǎng)頁文檔和企業(yè)登記信息的局部文檔。在索引和/或分類文 檔時(shí),為了有助于描述文檔,搜索引擎可以使用來自其他文檔的信息。 例如,第三方的餐館評(píng)論可以用于增強(qiáng)搜索引擎響應(yīng)于有關(guān)餐館的搜 索查詢而檢索相關(guān)餐館或者返回相關(guān)餐館的能力。一些文檔,諸如一些網(wǎng)頁文檔,可以包含許多不同企業(yè)登記信息 的描述信息。圖1是包含三個(gè)不同餐館"Caf6Borrone" 、 "Carpaccio" 和"Left Bank"的描述信息的示例文檔的示意圖。每個(gè)餐館的描述在 餐館名字下面的段落中。從讀者的觀點(diǎn)來看,文檔的可視結(jié)構(gòu),諸如 空白空間的使用,清楚地區(qū)分出哪個(gè)描述對(duì)應(yīng)于哪個(gè)餐館。用于分析 諸如圖1中所示文檔的傳統(tǒng)的自動(dòng)技術(shù)可能難于區(qū)分對(duì)應(yīng)于每個(gè)餐館 的適當(dāng)文本。這些傳統(tǒng)的技術(shù)可能依賴于下層的文檔結(jié)構(gòu),例如對(duì)于 超文本標(biāo)記語言(HTML)的文檔而言的文檔對(duì)象模型(DOM),以 試圖確定文檔的層次結(jié)構(gòu)。然而,下層的文檔結(jié)構(gòu)并不總是對(duì)應(yīng)于所 顯示文檔的可視結(jié)構(gòu)。因此,這種技術(shù)可能是不足的。與本發(fā)明的各方面相一致的分割組件可以基于文檔的可視布局自
動(dòng)分割文檔。典型網(wǎng)絡(luò)概述圖2是網(wǎng)絡(luò)200的典型示意圖,在該網(wǎng)絡(luò)中可以實(shí)現(xiàn)與本發(fā)明的原理相一致的系統(tǒng)和方法。網(wǎng)絡(luò)200可以包括通過網(wǎng)絡(luò)240連接到服 務(wù)器220的客戶機(jī)210。網(wǎng)絡(luò)240可以包括局域網(wǎng)(LAN)、廣域網(wǎng) (WAN)、諸如公共交換電話網(wǎng)絡(luò)(PSTN)的電話網(wǎng)、內(nèi)聯(lián)網(wǎng)(Intranet)、 因特網(wǎng)、或網(wǎng)絡(luò)的組合。為了簡(jiǎn)明,已經(jīng)說明了連接到網(wǎng)絡(luò)240的兩 個(gè)客戶機(jī)210和一個(gè)服務(wù)器220。實(shí)際上,可以有更多的客戶機(jī)和/或 服務(wù)器??蛻魴C(jī)210和服務(wù)器220可以通過有線、無線、或光學(xué)線路 連接到網(wǎng)絡(luò)240??蛻魴C(jī)210可以包括諸如無線電話、個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理 (PDA)、膝上計(jì)算機(jī)的設(shè)備,或者另一種類型的計(jì)算或通信設(shè)備, 在這些設(shè)備之一上運(yùn)行的線程或進(jìn)程,和/或可由這些設(shè)備之一執(zhí)行的 目標(biāo)程序。服務(wù)器220可以包括處理、搜索、和/或維護(hù)文檔的服務(wù)器 設(shè)備??蛻魴C(jī)210和服務(wù)器220可以通過有線、無線、或光學(xué)線路連 接到網(wǎng)絡(luò)240。服務(wù)器220可以包括可由客戶機(jī)210使用的搜索引擎225。搜索引 擎225可以是設(shè)計(jì)為向用戶返回具有局部相關(guān)性的文檔的局部搜索引 擎。服務(wù)器220可以包括分割組件230。分割組件230可以幫助搜索引 擎225通過將具有局部相關(guān)性的文檔自動(dòng)分割成對(duì)應(yīng)于不同局部區(qū)域 或地址的片段來對(duì)文檔索引或分類??梢詫?duì)搜索引擎225處理過的局部文檔做索引并存儲(chǔ)在諸如數(shù)據(jù) 庫235的數(shù)據(jù)結(jié)構(gòu)中。數(shù)據(jù)庫235中的各文檔可以是在下述意義上的 局部的它們與特定地理區(qū)域相關(guān)聯(lián),但不一定是同一地理區(qū)域。例 如,涉及企業(yè)登記信息的文檔可以被認(rèn)為是局部文檔,因?yàn)樗c該企 業(yè)的特定地址相關(guān)。
作為術(shù)語在這里使用的文檔(document)須被廣義地解釋為包括 任何機(jī)器可讀和機(jī)器可存儲(chǔ)的工作產(chǎn)品。文檔可以是電子郵件、企業(yè) 登記信息、文件、文件的組合、嵌入了指向其他文件的鏈接的一個(gè)或 多個(gè)文件、新聞組帖子等等。在因特網(wǎng)的環(huán)境中,常見文檔是網(wǎng)頁。 網(wǎng)頁通常包括內(nèi)容并且可以包括嵌入的信息(諸如元信息、超鏈接等 等)和/或嵌入的指令(諸如JavaScript等等)。典型的客戶機(jī)/服務(wù)器結(jié)構(gòu)圖3是根據(jù)符合本發(fā)明的原理的實(shí)施例的被稱為計(jì)算設(shè)備300的 客戶機(jī)210或服務(wù)器220的示例性圖示。計(jì)算設(shè)備300可以包括總線 310、處理器320、主存儲(chǔ)器330、只讀存儲(chǔ)器(ROM) 340、存儲(chǔ)設(shè)備 350、輸入設(shè)備360、輸出設(shè)備370以及通信接口 380。總線310可以 包括允許在計(jì)算設(shè)備300的組件之間通信的路徑。處理器320可以包括任意類型的傳統(tǒng)處理器、微處理器、或可以 解釋并執(zhí)行指令的處理邏輯。主存儲(chǔ)器330可以包括隨機(jī)存取存儲(chǔ)器 (RAM)或另一種類型的動(dòng)態(tài)存儲(chǔ)設(shè)備,該動(dòng)態(tài)存儲(chǔ)設(shè)備存儲(chǔ)信息和 由處理器320執(zhí)行的指令。ROM 340可以包括傳統(tǒng)的ROM設(shè)備或另 一種類型的靜態(tài)存儲(chǔ)設(shè)備,該靜態(tài)存儲(chǔ)設(shè)備存儲(chǔ)靜態(tài)信息和處理器320 使用的指令。存儲(chǔ)設(shè)備350可以包括磁性和/或光學(xué)記錄介質(zhì)以及它的 相應(yīng)驅(qū)動(dòng)器。輸入設(shè)備360可以包括允許用戶將信息輸入到計(jì)算設(shè)備300的傳 統(tǒng)裝置,諸如鍵盤、鼠標(biāo)、輸入筆、聲音識(shí)別裝置和/或生物識(shí)別裝置 等等。輸出設(shè)備370可以包括將信息輸出給用戶的傳統(tǒng)裝置,包括顯 示器、打印機(jī)、揚(yáng)聲器等等。通信接口 380可以包括使計(jì)算設(shè)備300 能夠與其他設(shè)備和/或系統(tǒng)通信的任何類似收發(fā)器的裝置。例如,通信 接口 380可以包括通過網(wǎng)絡(luò)(如網(wǎng)絡(luò)240)與另一個(gè)設(shè)備或系統(tǒng)通信的裝置。
符合本發(fā)明的原理的服務(wù)器220通過搜索引擎225和/或分割組件 230執(zhí)行與搜索或文檔檢索相關(guān)的某些操作。搜索引擎225和/或分割 組件230可以存儲(chǔ)在諸如存儲(chǔ)器330的計(jì)算機(jī)可讀介質(zhì)中。計(jì)算機(jī)可 讀介質(zhì)可以被定義為一個(gè)或多個(gè)物理或邏輯存儲(chǔ)設(shè)備和/或載波??梢詫⒍x搜索引擎225和/或分割組件230的軟件指令從諸如數(shù) 據(jù)存儲(chǔ)設(shè)備350的另一個(gè)計(jì)算機(jī)可讀介質(zhì)或通過通信接口 380從另一 個(gè)設(shè)備讀到存儲(chǔ)器330中。稍后將描述存儲(chǔ)器330中包含的軟件指令 使處理器320執(zhí)行處理?;蛘撸梢允褂糜布娐反婊蚪Y(jié)合軟件指 令來實(shí)現(xiàn)符合本發(fā)明的處理。因此,符合本發(fā)明的原理的實(shí)施例并不 限定為硬件電路和軟件的任何特定組合。分割組件的處理圖4是圖示說明用于分割具有局部相關(guān)性的文檔的符合本發(fā)明各 方面的典型操作的流程圖。通常,分割組件230可以基于文檔的可視 布局分割文檔。分割組件230可以識(shí)別用于分割的候選文檔(動(dòng)作401)。候選文 檔可以是被識(shí)別具有與企業(yè)登記信息相關(guān)的一個(gè)或多個(gè)地理信號(hào)的一 個(gè)文檔。地理信號(hào)可以包括與地點(diǎn)相關(guān)的信息,諸如該地點(diǎn)的完整的 或部分的地址、完整的或部分的電話號(hào)碼、和/或與該地點(diǎn)相關(guān)的企業(yè) 的完整的或部分的名稱。例如,通過存儲(chǔ)表示每個(gè)地理信號(hào)位于文檔 中什么位置的詞或字符的計(jì)數(shù),地理信號(hào)在文檔中的位置可以存儲(chǔ)到 數(shù)據(jù)庫235中??梢曰诘乩硇盘?hào)識(shí)別(動(dòng)作402)文檔中的企業(yè)登記信息。例如, 當(dāng)可以確定地理信號(hào)定義了完整的地址和企業(yè)名稱時(shí),就可以識(shí)別一 條企業(yè)登記信息。在一些實(shí)施例中,黃頁數(shù)據(jù)或其他預(yù)先生成的企業(yè) 名錄可以用于檢驗(yàn)所識(shí)別的企業(yè)名稱/地址。
圖5是圖示說明示例文檔500的一部分的示意圖。示例文檔500 是評(píng)論多個(gè)餐館的HTML網(wǎng)頁文檔。如圖所示,文檔500可以包括文 檔標(biāo)題510、類別標(biāo)簽520-1和520-2以及各餐館的評(píng)論530-1至530-4。 可以看出,文檔500包括四條企業(yè)登記信息,評(píng)論530-1到530-4中的 每一個(gè)與其中一條相關(guān)聯(lián)。在對(duì)索引該文檔時(shí),希望將每個(gè)評(píng)論與它 對(duì)應(yīng)的企業(yè)登記信息相關(guān)聯(lián)而不是與文檔500中的任何其他企業(yè)登記 信息相關(guān)聯(lián)。另外,標(biāo)題信息,諸如文檔標(biāo)題510和類別標(biāo)簽520可 以包括可能有益于與企業(yè)登記信息相關(guān)聯(lián)的有用的描述信息。在文檔500是網(wǎng)頁的情況下,可以使用諸如HTML的標(biāo)記語言生 成文檔500。用于設(shè)計(jì)不同網(wǎng)頁的特定HTML元素和風(fēng)格非常不同。 雖然HTML是基于層次結(jié)構(gòu)的文檔對(duì)象模型(DOM),但是DOM的 層次結(jié)構(gòu)不一定表示文檔的可視布局或可視分割。分割組件230可以生成候選文檔的可視模型(動(dòng)作403)。該可視 模型可能是特別基于文檔中的可視間隙或分割符,比如空白空間。在 HTML的環(huán)境中,例如,不同的HTML元素可能被賦予不同的權(quán)重(數(shù) 值),試圖量化在所制作文檔中引入的可視間隙的大小。在一個(gè)實(shí)施 例中,較大的權(quán)重可以表示較大的可視間隙??梢圆捎枚喾N方式確定 權(quán)重。例如,可以通過主觀分析多個(gè)HTML文檔以找出傾向于可視分 離文檔的HTML元素來確定權(quán)重?;谠撝饔^分析,可以首先賦予然 后修改("調(diào)整")權(quán)重直到文檔被可接受地分割為止。也可以使用 生成適當(dāng)權(quán)重的其他技術(shù),諸如基于對(duì)網(wǎng)頁瀏覽器軟件的源代碼或行 為的檢査或者使用手工分割的網(wǎng)頁的加標(biāo)注的語料庫通過機(jī)器學(xué)習(xí)過 程而自動(dòng)設(shè)置權(quán)重。作為賦予權(quán)重的例子,考慮HTML元素〈hr〉(水平線)。<111">元 素可以在該元素前面和后面引入權(quán)重20。作為另一個(gè)例子,HTML元 素<111〉到<116>用于開始新的標(biāo)題,其中<111>最重要而<116>最不重要。
對(duì)應(yīng)的元素々hl〉到々h6〉用于結(jié)束這些標(biāo)題。各種標(biāo)題可以例如被賦予 權(quán)重,比如對(duì)于元素<112>,在該元素之前權(quán)重為50而在其后權(quán)重為30 (即,可以賦予<112>權(quán)重50而賦予</112>權(quán)重30)。這反映出這樣的 概念,即與在它前面的內(nèi)容相比,標(biāo)題文本與它后面的內(nèi)容更有可能 相關(guān)聯(lián)。圖6是概念性圖示說明文檔500的可視模型的示意圖??梢暷P?600包括許多文本元素610-1到610-7,它們與圖5中所示的文本元素 (文檔標(biāo)題510、類別標(biāo)簽520-1、評(píng)論530-1和530-2、類別標(biāo)簽520-2、 以及評(píng)論530-3和530-4)分別對(duì)應(yīng)。在文本元素620-1至lj 620-6之間 分配權(quán)重620-1到620-6。文本元素610-3、 610-4、 610-6和610-7中所 示的圓圈表示圖5中所示的相應(yīng)企業(yè)登記信息。對(duì)于典型的可視模型600,假設(shè)文本610-2和610-5被實(shí)現(xiàn)為 <h2>HTML元素,其對(duì)應(yīng)于權(quán)重620-2和620-5的權(quán)重值30以及權(quán)重 620-4的權(quán)重值60 (50來自于文本610-5而10來自于文本610-4)。 可以按與文本610-2 (50)相關(guān)的權(quán)重以及與文本610-1中的文檔標(biāo)題 相關(guān)的權(quán)重的總和來計(jì)算權(quán)重620-1,其值為90。可以使用例如多個(gè) HTML<br〉(換行)元素或者作為HTML標(biāo)題元素來實(shí)現(xiàn)文檔標(biāo)題的 文本610-1 ,其中該標(biāo)題元素例如為權(quán)重620-1的總值貢獻(xiàn)40的權(quán)重值。 權(quán)重620-3和620-6可以是基于例如每個(gè)文檔評(píng)論530之后的<^>元素 (即,文本610-3、 610-4、 610-6和610-7)?;氐綀D4,可以基于可視模型確定文檔的層次結(jié)構(gòu)(動(dòng)作404)。 在一個(gè)實(shí)施例中,不同的權(quán)重可以定義不同的層級(jí),其中較大的權(quán)重 定義較高的層級(jí)。最低的層級(jí)可以被確定為最小的權(quán)重,在最低層級(jí) 含地理信號(hào)的文本元素得到區(qū)分。圖7是圖示說明文檔500的層次結(jié)構(gòu)的可視模型600的示意圖。 括號(hào)用于表示層級(jí)區(qū)域。在該例子中,權(quán)重620-1是最大的權(quán)重并且接
近文檔的頂部,因此可以表示文檔610-1是文檔名稱或標(biāo)題(層級(jí)710)。 在下一個(gè)層級(jí)(層級(jí)720),權(quán)重620-1和620-4定義了兩個(gè)區(qū)域,其 中每個(gè)都有三個(gè)文本片段。在這個(gè)層級(jí)(層級(jí)730)中,權(quán)重620-2和 620-5分隔了這些片段。最后,權(quán)重620-3和620-6分隔了文本片段610-3 和610-4,以及文本片段610-6和610-7 (層級(jí)740)。這些文本片段包 括地理信號(hào)?;谶^程404中所確定的層級(jí),文檔的各部分可以與文檔中的企 業(yè)登記信息相關(guān)聯(lián)(過程405)。在一個(gè)實(shí)施例中,與圍繞企業(yè)登記信 息的最小層級(jí)相關(guān)的文本可以與該企業(yè)登記信息相關(guān)聯(lián)。另外,沒有 與另一個(gè)企業(yè)登記信息相關(guān)的較高層級(jí)的文本可以與該企業(yè)登記信息 相關(guān)聯(lián)。在圖5禾a 6的例子中,例如,文本530-2/610-4除了與文本 "Chinese"和標(biāo)題"Top Restaurants in Fairfax, VA."相關(guān)聯(lián)外,也可 以與餐館"Noodles & Co.,"的企業(yè)登記信息相關(guān)聯(lián)。為每條企業(yè)登記信息確定的內(nèi)容可以與數(shù)據(jù)庫235中的適當(dāng)?shù)钠?業(yè)登記信息相關(guān)聯(lián)(動(dòng)作406)。企業(yè)登記信息和它的相關(guān)內(nèi)容可作為 單一的組合文檔來索引。在可替換的實(shí)施例中,企業(yè)登記信息和它的 相應(yīng)內(nèi)容可以被分別索引,但是可以通過索引中的特殊字段相互關(guān)聯(lián)。 在圖5-7的例子中,例如,"Hunan Eatery, 4008 University Drive, Fairfax, VA,"的企業(yè)登記信息可以與評(píng)論文本530-1、類別標(biāo)簽520-1以及標(biāo) 題510相關(guān)聯(lián)。雖然參照?qǐng)D4-7描述的分割過程被描述為基于對(duì)應(yīng)于企業(yè)登記信 息的地理信號(hào)來分割文檔,但是一般的層次分割技術(shù)可被更一般地應(yīng) 用于文檔中任何類型的信號(hào)。例如,可以使用文檔中的圖像(圖像信 號(hào)),而不使用與企業(yè)登記信息相應(yīng)的地理信號(hào)。然后可以借助分割 過程的應(yīng)用來確定哪個(gè)文本與哪個(gè)圖像相關(guān)。作為選擇,在不基于信 號(hào)劃分文檔的情況下,參照動(dòng)作403和404描述的分割過程可以在文 檔上執(zhí)行。然后,所識(shí)別出的層次化分段可以用于引導(dǎo)識(shí)別文檔各部
分的分類器,這些部分或多或少與文檔相關(guān)(例如,導(dǎo)航樣板文件通 常較之頁面的中心內(nèi)容更不相關(guān))。搜索實(shí)例圖8和9是根據(jù)符合本發(fā)明的原理的實(shí)施例的可以呈現(xiàn)給用戶的 用戶界面的示例性圖示。假設(shè)用戶訪問了與局部搜索引擎相關(guān)聯(lián)的界面,比如搜索引擎225 (圖2)。如圖8中所示,用戶可以通過搜索欄 810輸入搜索查詢的一個(gè)或多個(gè)搜索詞語。另外,用戶可以在搜索欄 820中輸入感興趣的地理區(qū)域。在這個(gè)例子中,用戶輸入了搜索査詢"Chinese restaurants whole wheat noodles"并且指示該搜索應(yīng)當(dāng)在與"Fairfax, VA"相應(yīng)的地理區(qū)域中執(zhí)行。搜索引擎225可以在存儲(chǔ)在數(shù)據(jù)庫235中的預(yù)先索引的文檔語料 庫中執(zhí)行搜索。索引可以是已經(jīng)使用上面討論過的技術(shù)生成,這樣, 中餐館的企業(yè)登記信息可能也已經(jīng)與有助于更充分地分類和/或描述企 業(yè)登記信息的附加信息相關(guān)聯(lián)。在這種情況下,搜索引擎225可能能 夠找到在Fairfax, VA的提供全麥面條的中餐館。如圖9中所示,通過用戶界面,搜索引擎225可以呈現(xiàn)局部搜索 結(jié)果910。對(duì)于每個(gè)搜索結(jié)果910 (或搜索結(jié)果的某個(gè)子集),用戶界 面可以提供與搜索結(jié)果相關(guān)聯(lián)或提到該搜索結(jié)果的企業(yè)的地址信息、 該企業(yè)的電話號(hào)碼、與該企業(yè)相關(guān)的文檔的片斷、與該企業(yè)相關(guān)的更 多信息的鏈接、到該企業(yè)的指路信息的鏈接、和/或涉及該企業(yè)的一個(gè) 或多個(gè)文檔的鏈接。用戶界面還可以提供該搜索所覆蓋區(qū)域的地圖。 如圖所示,第一個(gè)搜索結(jié)果910包括企業(yè)名稱和電話信息915、地址信 息920、描述該企業(yè)的文檔(這里,該文檔可以與該企業(yè)相關(guān)聯(lián)或不相 關(guān)聯(lián))的片斷930、與片斷930相關(guān)聯(lián)的文檔的鏈接940、以及涉及該 企業(yè)的附加文檔的鏈接950。結(jié)論
符合本發(fā)明的原理的系統(tǒng)和方法可以基于文檔的可視模型來分割 文檔。被分割的文檔可以用于將文檔的不同部分與諸如不同地理信號(hào)/ 企業(yè)登記信息的不同的項(xiàng)相關(guān)聯(lián)。本發(fā)明優(yōu)選實(shí)施例的以上描述提供了圖示說明和描述,但是其并 非意在窮舉或者用于將本發(fā)明限定到所公開的具體形式。根據(jù)以上所述,可以有各種修改和變化,或者也可以從本發(fā)明的實(shí)施中得到各種 修改和變化。例如,雖然已經(jīng)參考圖4描述了一系列過程,在符合本發(fā)明原理 的其他實(shí)施例中也可以修改這些動(dòng)作的順序。此外,可以并行地執(zhí)行 相互獨(dú)立的各動(dòng)作。并且,已經(jīng)參考圖8和9描述了典型用戶界面。在符合發(fā)明的原 理的其他實(shí)施例中,用戶界面可以包括更多、更少、或不同的信息。此外,發(fā)明的某些部分已被描述為執(zhí)行一個(gè)或多個(gè)功能的"引擎"。 引擎可以包括諸如用于特定應(yīng)用的集成電路或現(xiàn)場(chǎng)可編程的門陣列的硬件、軟件、或硬件和軟件的組合。如上所述,對(duì)本領(lǐng)域內(nèi)的普通技術(shù)人員顯而易見的是,在附圖所 示的實(shí)施例中,可以采用軟件、固件、以及硬件的多種不同形式來實(shí) 現(xiàn)本發(fā)明的各方面。用于實(shí)現(xiàn)符合本發(fā)明的原理的各個(gè)方面的實(shí)際軟 件代碼或?qū)S每刂朴布⒉幌薅ū景l(fā)明。因此,并沒有參考特定的軟 件代碼來描述各個(gè)方面的操作和行為??梢岳斫獾氖?,本領(lǐng)域內(nèi)的普 通技術(shù)人員基于這里的描述就能夠設(shè)計(jì)出用于實(shí)現(xiàn)各個(gè)方面的軟件和 控制硬件。本申請(qǐng)中使用的任何要素、過程或指令都不應(yīng)當(dāng)被解釋為是本發(fā) 明所必須的或必要的,除非已被明確地如此描述。而且,如這里使用
的,不加數(shù)量限定的項(xiàng)用于指一個(gè)或多個(gè)項(xiàng)。在只想表示一個(gè)項(xiàng)的地 方,使用了術(shù)語"一個(gè)"或類似的語言。此外,短語"基于"用于指 "至少部分地基于",除非明確聲明與之不同。
權(quán)利要求
1.一種系統(tǒng),包括用于識(shí)別文檔中地理信號(hào)的裝置;用于基于該文檔的可視布局將該文檔分割成與所識(shí)別的各地理信號(hào)中的不同個(gè)體相對(duì)應(yīng)的多個(gè)片段的裝置;用于把所述文檔的所述多個(gè)片段中的文本索引成對(duì)應(yīng)于與所述地理信號(hào)相關(guān)聯(lián)的企業(yè)登記信息的裝置;以及用于存儲(chǔ)經(jīng)索引的文本的裝置。
2. 如權(quán)利要求1的系統(tǒng),進(jìn)一步包括用于基于搜索查詢和所述經(jīng)索引的文本來執(zhí)行局部搜索的裝置。
3. 如權(quán)利要求2的系統(tǒng),其中所述局部搜索的結(jié)果包括與所述搜 索査詢相關(guān)的企業(yè)登記信息,其中所述企業(yè)登記信息同與該企業(yè)登記 信息相關(guān)的文檔的片斷一起顯示。
4. 一種用于分割文檔的方法,包括 生成該文檔的可視模型;基于所述可視模型識(shí)別該文檔的層次結(jié)構(gòu);以及 基于該文檔的所述層次結(jié)構(gòu)和所述可視模型分割該文檔。
5. 如權(quán)利要求4的方法,其中生成該文檔的所述可視模型包括 對(duì)用于控制該文檔外觀的該文檔的元素賦值,所述值用于量化該元素在該文檔的顯示版本中引入的可視間隙的量。
6. 如權(quán)利要求5的方法,其中所述文檔的所述元素是超文本標(biāo)記 語言(HTML)元素。
7. —種對(duì)文檔做索引的方法,包括 識(shí)別該文檔中的地理信號(hào);基于該文檔的可視布局將該文檔分割成與所識(shí)別的各地理信號(hào)的 不同個(gè)體相對(duì)應(yīng)的多個(gè)片段;以及把該文檔的所述多個(gè)片段中的文本索引成對(duì)應(yīng)于與所述地理信號(hào) 相關(guān)的企業(yè)信息。
8. 如權(quán)利要求7的方法,其中所述地理信號(hào)之一包括企業(yè)的郵政地址。
9. 如權(quán)利要求7的方法,其中分割所述文檔包括-生成該文檔的可視模型;以及 基于該可視模型分割該文檔。
10. 如權(quán)利要求9的方法,其中分割所述文檔包括 基于所述可視模型識(shí)別該文檔的層次結(jié)構(gòu)。
11. 如權(quán)利要求9的方法,其中分割所述文檔包括對(duì)用于控制該文檔外觀的該文檔的元素賦值,所述值用于量化該 元素在該文檔的顯示版本中引入的可視間隙的量。
12. 如權(quán)利要求ll的方法,其中該文檔的所述元素是超文本標(biāo)記 語言(HTML)元素。
13. —種設(shè)備,包括 處理器;以及連接到該處理器并包含指令的計(jì)算機(jī)可讀存儲(chǔ)器,當(dāng)該處理器執(zhí) 行所述指令時(shí)使得該處理器識(shí)別包括信號(hào)的文檔,基于該文檔的可視布局將該文檔分割成與所識(shí)別的各信號(hào)的 不同個(gè)體相對(duì)應(yīng)的多個(gè)片段,以及把該文檔的所述多個(gè)片段中的文本索引成對(duì)應(yīng)于所述信號(hào)。
14.如權(quán)利要求13的設(shè)備,其中所述信號(hào)包括地理信號(hào)而所述文 本被索引成對(duì)應(yīng)于與所述地理信號(hào)相關(guān)聯(lián)的企業(yè)登記信息。
全文摘要
可以基于文檔的可視模型來分割該文檔。根據(jù)該文檔中可看到的空白空間或間隙的量確定該可視模型。在一個(gè)實(shí)施例中,該可視模型用于識(shí)別該文檔的層次結(jié)構(gòu),而該層次結(jié)構(gòu)可以用于分割該文檔。
文檔編號(hào)G06F17/30GK101128820SQ200580048641
公開日2008年2月20日 申請(qǐng)日期2005年12月30日 優(yōu)先權(quán)日2004年12月30日
發(fā)明者丹尼爾·艾尼奧 申請(qǐng)人:谷歌公司