專利名稱::用于提供高忠實度上下文搜索結果的系統(tǒng)和方法
技術領域:
:本公開內(nèi)容的實施方式一般地涉及對頁面的索引編制和4企索。更具體地,本公開內(nèi)容的實施方式涉及用于提供高忠實度上下文搜索結果的系統(tǒng)和方法。
背景技術:
:在現(xiàn)有技術中,用于搜索和提供搜索結果的計算機軟件應用是公知的。此類應用包括因特網(wǎng)搜索引擎,諸如由Google⑧和Yahoo所提供的那些;文檔管理系統(tǒng),諸如由Interwoven⑧提供的那些;以及基于因特網(wǎng)的文檔管理系統(tǒng),諸如由Adobe⑧提供的Share服務。用于搜索文檔集并提供搜索結果的傳統(tǒng)軟件應用通常是基于文本的。例如,某些傳統(tǒng)應用允許用戶使用諸如鍵盤的輸入設備來輸入搜索標準,并且將搜索結果作為包括文本的網(wǎng)頁來返回。某些此類應用返回上下文搜索結果。例如,傳統(tǒng)應用可以返回具有高亮顯示的或者在搜索結果列表中被強調(diào)的搜索術語的搜索結果集合。為了對搜索請求進行響應,傳統(tǒng)搜索應用依賴于某些形式的索引編制,傳統(tǒng)系統(tǒng)可以使用稱作"爬行器(crawler)"的軟件應用來遍歷web頁面集合和其他內(nèi)容。此內(nèi)容可以是本地的,或者可以分布于網(wǎng)絡(諸如,因特網(wǎng))之上。一旦爬行器已經(jīng)遍歷了內(nèi)容,則其將包括其位置的關于內(nèi)容的信息存儲在索引中。
發(fā)明內(nèi)容本公開內(nèi)容的實施方式提供了一種用于提供高忠實度上下文搜索結果的系統(tǒng)和方法。一個實施方式是一種方法,該方法包括接收包括搜索術語的查詢;響應于所述查詢來確定頁面上的位置,其中所述頁面具有原生外觀(nativeappearance);確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域;以及使所述上下文區(qū)域在高忠實度結同的外觀。另一實施方式是一種方法,該方法包括接收具有原生外觀的頁面;在所述頁面上標識關鍵字;生成具有所述關鍵字的索引條目、頁面標識符、以及與所述頁面上的所述關鍵字相關聯(lián)的坐標位置;存儲所述索引條目;以及在與所述關鍵字相關聯(lián)的所述頁面上繪制至少所述坐標位置的圖像,其中所述圖像具有所述頁面的原生外觀。在其他實施方式中,一種計算機可讀介質(zhì)(諸如,隨機訪問存儲器或者計算機盤)包括用于實現(xiàn)這些方法的代碼。而是提供了輔助其理解的示例。在詳細描述中討論了實施方式,并且在此提供了進一步的說明。通過查閱本說明書,可以進一步理解由各種實施方式提供的優(yōu)點。當參考附圖閱讀下文的詳細說明時,可以更好地理解本7>開內(nèi)容的這些以及其他特征、方面和優(yōu)點,在附圖中圖1是示出用于實現(xiàn)一個實施方式的示例性環(huán)境的圖示;圖2是示出在一個實施方式中提供搜索結果的流程圖3是示出在一個實施方式中索引編制功能的流程圖4是根據(jù)一個實施方式的所創(chuàng)建頁面的圖像的表示;圖5a和圖5b是示出在一個實施方式中繪制功能的流程圖;以及圖6是由一個實施方式提供的高忠實度結果集合的表示。具體實施例方式本公開內(nèi)容的實施方式提供了用于提供高忠實度上下文搜索結果的系統(tǒng)和方法。7高忠實度上下文搜索的示意性實施方式在一個示意性實施方式中,服務器指派爬行器來生成文檔的索引。當對文檔進行索引編制時,服務器確定文檔的文件類型(例如,MicrosoftWord⑧或者AdobePortableDocumentFormat(l更攜文檔格式)(PDF))。在一個實施方式中,如果服務器確定文件類型不是PDF,則服務器將該文檔轉(zhuǎn)換至PDF⑧格式。作為對文檔進行索引編制的部分,服務器確定一個或者多個詞在文檔中的位置。服務器將此位置與關于該文檔的各種其他信息(包括例如,文檔的唯一標識符以及該詞自身)一同進行存儲。服務器還可以存儲關于每個文檔的結構信息,例如包括該文檔的布局(例如,包4#欄的web頁面)。在一個示意性實施方式中,服務器還可以執(zhí)行繪制處理。在繪制處理期間,服務器從文檔中的每個頁面創(chuàng)建圖像。多個文檔格式(諸如,PDF⑧和MicrosoftWord)將文檔劃分到頁面中。然而,在此使用的術語"頁面"不應當是限制性的。例如,任何格式的整個文檔或者其任何部分可以包括"頁面"。此外,頁面的一部分可以包括"頁面"。由此,術語"頁面"不應理解為限制本公開內(nèi)容的范圍。由上述索引編制過程存儲的位置對應于在繪制處理期間創(chuàng)建的每個圖像中每個詞在文檔中的位置。一旦已經(jīng)對文檔進行了索引編制和繪制,用戶可以搜索可能在文檔中出現(xiàn)的關鍵字。在一個示意性實施方式中,用戶輸入查詢并且將其提交至服務器。響應于接收到該查詢,服務器在索引中搜索滿足查詢的一個或者多個關鍵字,并且標識文檔內(nèi)包含響應于該查詢的內(nèi)容的一個或者多個頁面。服務器接著在包含響應內(nèi)容(即,與用戶查詢相關的關鍵字)的頁面圖像上標識位置。服務器還可以基于頁面的屬性而在該位置周圍標識上下文區(qū)域。服務器繼而提取上下文區(qū)域并且將其作為圖像進行繪制。服務器接著向用戶提供該圖像,以作為高忠實度結果集合的部分。作為高忠實度結果集合的部分而提供的上下文區(qū)域的圖像具有與該頁面相同的原生外觀。原生外觀可以包括在頁面上呈現(xiàn)的相同的格式、字體和/或圖形。給出該示意性的示例是為了向讀者介紹在此描述的一般主題。本公開內(nèi)容不限于此示例。下文的章節(jié)描述了用于提供高忠實度上下文搜索結果的系統(tǒng)和方法的各種附加的實施方式以及示例。提供高忠實度搜索結果的示意性環(huán)境現(xiàn)在參考附圖,其中貫穿多個附圖,相同的數(shù)字表示相同的元素。圖1是示出用于實現(xiàn)一個實施方式的示例性環(huán)境的圖示??梢岳闷渌膶嵤┓绞健D1中示出的實施方式包括服務器100,該服務器100包括處理器110和存儲器120。在存儲器120中存儲有應用,包括web爬行器130、索引編制應用140以及搜索引擎150。此類應用可以駐留在任何適當?shù)挠嬎銠C可讀介質(zhì)中,并且在任意適合的處理器上執(zhí)行。此類處理器可以包括例如微處理器、ASIC、狀態(tài)機或者其他處理器、并且可以是任何數(shù)量的計算機處理器,諸如來自Intel7>司、AdvancedMicro-Devices7>司、以及Motorola乂>司的處理器。計算機可讀介質(zhì)存儲指令,當由處理器執(zhí)行時,所述指令使得處理器執(zhí)行在此所述的步驟。計算機可讀介質(zhì)的實施方式包括但不限于電子、光學、磁性或者其他存儲設備、傳輸設備、或者包括某種類型存儲設備并能夠向處理器提供計算機可讀指令的其他設備。適合介質(zhì)的其他實例包括但不限于軟盤、CD-ROM、DVD、磁盤、存儲器芯片、ROM、RAM、PROM、EPROM、EEPROM、ASIC、配置的處理器、所有光學介質(zhì)、所有磁帶、或者其他磁性介質(zhì)、或者計算機處理器可以從中讀取指令的任何其他介質(zhì)。另外,各種其他形式的計算機可讀介質(zhì)可以嵌入設備中,該設備可以向計算機傳送或者承載指令,包括路由器、私有網(wǎng)絡或者公共網(wǎng)絡、或者其他傳輸設備或者信道,包括有線方式以及無線方式兩者。指令可以包括來自任意適合計算機編程語言的^石馬,例如包4舌C、C++、C#、VisualBasic、Java、Python、Perl以及JavaScript。在其他實施方式中,在獨立的服務器上執(zhí)行由服務器100執(zhí)行的每個處理,即存在單獨的索引編制服務器、繪制服務器和顯示服務器。在其他實施方式中,使用多個服務器來執(zhí)行各種任務,例如包括索引編制、繪制和搜索引擎。在此類實施方式中,可以使用諸如集群化或者高度可用的集群化的技術。其中諸如這些架構的優(yōu)勢在于包括冗余和性能。在所示出的實施方式中,服務器100與數(shù)據(jù)存儲設備200通信,該數(shù)據(jù)存儲設備200包括圖像數(shù)據(jù)庫210、索引數(shù)據(jù)庫220以及結構數(shù)據(jù)庫230。在備選實施方式中,單個數(shù)據(jù)庫包括圖像數(shù)據(jù)、結構數(shù)據(jù)和索引數(shù)據(jù)。在其他實施方式中,結構數(shù)據(jù)和/或索引數(shù)據(jù)和/或圖像存儲在多個數(shù)據(jù)庫上。服務器100還經(jīng)由網(wǎng)絡400與其他外部服務器300進行通信。此外,服務器100經(jīng)由網(wǎng)絡600與用戶計算機500進行通信。網(wǎng)絡400、600可以是任意數(shù)量的公共網(wǎng)絡或者私有網(wǎng)絡,包括例如,因特網(wǎng)、局域網(wǎng)("LAN")或者廣域網(wǎng)("WAN")。在一個實施方式中,搜索沒有連接至網(wǎng)絡的單個計算機,以便對該計算機上的文檔進行索引編制??梢詫⒋藢嵤┓绞接米魉阉髟O備。定位于外部服務器300上的文檔可以是各種形式,包括例如超文本標記語言("HTML")、XML、PDF、MicrosoftWord⑧文檔格式、純文本和富文本。一個實施方式包括爬行器130。爬行器130有條理地并且自動地遍歷與網(wǎng)絡400進行通信的計算機300,以搜索文檔。當爬行器130找到文檔時,其下載該文檔。在某些實施方式中,爬行器130基于文檔格式遍歷網(wǎng)絡400上的計算才幾300,以搜索文檔。例如,爬行器130可以搜索包含列表中一種格式的所有文檔,或者搜索除了排除列表中指明格式的任何格式的文檔。在一個實施方式中,當爬行器130找到文檔時,其下載該文檔并且將該文檔存儲到服務器IOO上。在另一實施方式中,爬行器130將該文檔臨時保存在圖像數(shù)據(jù)庫210中。在圖l所示的實施方式中,一旦爬行器130已經(jīng)定位了一個或者多個文檔,則索引編制應用140處理這些文檔。在一個此類實施方式中,索引編制應用140每次處理一個文檔。首先,索引編制應用140將文檔轉(zhuǎn)換至PDF⑧格式,并且繼而將文檔的每個頁面繪制為圖像。索引編制應用140接著處理文檔中的每個單獨的詞。針對每個詞,索引編制應用140在索引數(shù)據(jù)庫220中標識并存儲定義了圍繞該詞的矩形的坐標集合。在一個此類實施方式中,索引編制應用140還在結構數(shù)據(jù)庫230中標識并且存儲關于頁面的結構信息。索引編制應用140可以略過包括于排除列表中的詞,諸如停止詞(stopword)。在其他實施方式中,索引編制應用140處理包括于包含列表中的詞。在一個實施方式中,搜索引擎150響應于查詢而進行檢索并且提供結果列表。搜索引擎150搜索索引數(shù)據(jù)庫220,以便確認其是否包括關于響應于查詢的頁面的信息。接著,如果對索引數(shù)據(jù)庫220的搜索返回了響應于該查詢的一個或者多個頁面,則搜索引擎150從圖像數(shù)據(jù)庫210中檢索一個或者多個圖像。此外,搜索引擎150使用從結構數(shù)據(jù)庫230檢索的信息,來確定如何提供搜索結果。搜索引擎150繪制圖像,該圖像包括作為高忠實度結果集合部分的搜索結果。高忠實度結果集合包括圖像,從而使向用戶呈現(xiàn)的結果的部分是其原生外觀的形式,例如,具有相同的格式、字體、圖形和/或在原始頁面上呈現(xiàn)的其他區(qū)別特征。由此,這是高忠實度的搜索結果。在一個實施方式中,高忠實度的結果集合包括上下文數(shù)據(jù)。例如,在一個此類實施方式中,用戶提供的搜索術語在高忠實度結果集合中被高亮顯示。在圖1示出的實施方式中,搜索引擎150通過網(wǎng)絡600向用戶的計算機500傳輸高忠實度結果集合。如同網(wǎng)絡400,網(wǎng)絡600除其他之外可以包括局域網(wǎng)("LAN")、廣域網(wǎng)("WAN")或者因特網(wǎng)。在一個實施方式中,在用戶計算機500上執(zhí)行的web瀏覽器中顯示高忠實度結果集合。例如,計算機500可以是個人計算機("PC")、UNIX或者Linux工作站、瘦客戶端(thinclient)、胖客戶端(thickclient)或者智能客戶端、或者能夠接收高忠實度結果集合的其他設備。web瀏覽器是一種軟件程序,諸如MicrosoftInternetExplorer或者MozillaFirefox。在圖1所示的實施方式中,服務器100與數(shù)據(jù)存儲200進行通信,其中數(shù)據(jù)存儲設備200包括多個數(shù)據(jù)庫210、220和230。數(shù)據(jù)存儲200駐留在諸如上文描述的計算機可讀介質(zhì)上。在一個實施方式中,數(shù)據(jù)存儲200還包括數(shù)據(jù)庫管理系統(tǒng)。數(shù)據(jù)庫管理系統(tǒng)執(zhí)行如下任務,諸如控制組織、存儲、管理和檢索數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)庫管理系統(tǒng)的示例包括由Oracle公司提供的Oracle數(shù)據(jù)庫⑧、由國際商業(yè)機器公司提供的DB2、由Microsoft公司提供的MicrosoftSQLServer、以及由Sybasez^司提供的SybaseAdaptiveServerEnterprise。在其他實施方式中,圖像數(shù)據(jù)庫210、索引數(shù)據(jù)庫220以及結構數(shù)據(jù)庫230駐留在單獨的數(shù)據(jù)存儲之上。在所示實施方式中,圖像數(shù)據(jù)庫210包括一個或者多個圖像。每個圖像表示文檔的一個頁面。圖像數(shù)據(jù)庫210還存儲有關于每個圖像的信息,諸如圖像所屬的文檔以及圖像表示的文檔中的頁面。在一個實施方式中,圖像數(shù)據(jù)庫210還包括針對該圖像的唯一頁面標識符。頁面標識符允許引用和標識每個圖像。在其他實施方式中,頁面數(shù)據(jù)庫210包括圖像,該圖像表示一個文檔的一個頁面或者一個以上的頁面的部分。例如,圖像數(shù)據(jù)庫210可以包括表示整個文檔或者其中某些部分的圖像。在圖1所示的實施方式中,索引數(shù)據(jù)庫220包括頁面上呈現(xiàn)的詞以及一個或者多個矩形的位置坐標,其中的每個矩形限定了包括特定詞的頁面區(qū)域。索引數(shù)據(jù)庫220還包括如下信息,該信息足以標識表示頁面的圖像。例如,在一個實施方式中,索引數(shù)據(jù)庫220包括頁面標識符。在另一實施方式中,索引數(shù)據(jù)庫220包括呈現(xiàn)在文檔的不止一個頁面上的詞。例如,索引數(shù)據(jù)庫220可以包括在整個文檔或者其中某些部分上呈現(xiàn)的詞。圖1所示的實施方式還包括結構數(shù)據(jù)庫230。結構數(shù)據(jù)庫230存儲關于頁面結構的信息。此結構信息可以包括關于此類頁面元素的信息,頁面元素諸如欄、列表和圖像。例如,在一個此類實施方式中,將在此類結構數(shù)據(jù)庫230中標識包括雙列打印的文檔。在一個實施方式中,結構數(shù)據(jù)庫標識在頁面上呈現(xiàn)的結構元素,并且提供包圍每個所標識結構元素的矩形或者其他多邊形的坐標。在其他實施方式中,結構數(shù)據(jù)庫230包括關于在頁面上呈現(xiàn)的元素的子集的信息。在某些實施方式中,用戶可以定制結構元素,結構數(shù)據(jù)庫230存儲關于該結構元素的信息。在一個實施方式中,結構數(shù)據(jù)庫230包括頁面標識符。在另一實施方式中,結構數(shù)據(jù)庫230包括在文檔的不止一個頁面上呈現(xiàn)的結構元素。例如,結構數(shù)據(jù)庫230可以包括在整個文檔或者其中某些部分之上呈現(xiàn)的結構元素。在其他實施方式中,單個數(shù)據(jù)庫包括結構數(shù)據(jù)和索引數(shù)據(jù)。在另一實施方式中,單個數(shù)據(jù)庫包括結構數(shù)據(jù)和索引數(shù)據(jù)以及圖像。在另一實施方式中,在多個數(shù)據(jù)庫中存儲結構數(shù)據(jù)和/或索引數(shù)據(jù)和/或圖像。用于提供高忠實度搜索結果的示意性方法圖2是示出一個實施方式中的提供搜索結果的流程圖。在此參考圖1所示的示例性環(huán)境來描述圖2。然而,該過程并不局限于在此環(huán)境中執(zhí)行。在示出的實施方式中,搜索引擎150接收包括搜索術語的查詢(步驟IOOO)。在各種實施方式中,搜索可以來源于為提供搜索功能而專門設計的web頁面,或者可以來源于包括集成搜索功能的應用。作為響應,搜索引擎150針對搜索術語搜索索引(步驟IIOO)。例如,在一個實施方式中,搜索引擎150生成用于在搜索索引數(shù)據(jù)庫220中使用的結構化查詢語言("SQL")聲明。搜索引擎150標識滿足搜索標準的一個或者多個頁面。在標識滿足搜索標準的頁面之后,搜索引擎150確定頁面的哪個部分包括與標準相匹配的內(nèi)容(步驟1200)。例如,在一個實施方式中,搜索引擎150確定諸如矩形的多邊形坐標,該多邊形包括一個或者多個搜索術語。圖2所示的實施方式中,搜索引擎150接著確定多邊形內(nèi)部的上下文數(shù)據(jù)的坐標(步驟1300)。各種實施方式提取不同數(shù)量的上下文數(shù)據(jù)。例如,一個實施方式提取位于包含搜索術語的行之上的一行上下文數(shù)據(jù)以及位于包含搜索術語的行之下的一行上下文。一個實施方式使用關于頁面的結構信息,來確定將要提取哪些上下文數(shù)據(jù)以及所提取上下文數(shù)據(jù)的量。另一實施方式允許用戶或者管理員在定位搜索術語時,指定提取的上下文數(shù)據(jù)的量和/或類型。某些實施方式包括計算機程序代碼以便處理"邊緣情況,,,即,當搜索術語出現(xiàn)在頁面或者頁面成分的邊緣時的情況,例如,詞出現(xiàn)在頁面底部或者頂部的情況。例如,在一個實施方式中,如果在文檔的開始處找到搜索術語,則上下文數(shù)據(jù)包括在包含搜索術語之后的兩行。與此相反,如果在文檔的末端發(fā)現(xiàn)搜索術語,則上下文數(shù)據(jù)包括在包含該搜索術語之前的兩行。如果在頁面的最后一行、而并不是文檔的最后一行找到搜索術語,則上下文數(shù)據(jù)包括下一頁面上的第一行。如果在頁面的第一行、而并不是文檔的第一行找到搜索術語,則上下文數(shù)據(jù)包括前一頁上的最后一行。如果在圖像周圍的包圍文本中找到搜索術語,則上下文數(shù)據(jù)包括該圖像;或者如果是大的圖像,則上下文數(shù)據(jù)包括與文本對齊的圖像的部分。存在多種其他情況,其中可以利用結構信息來確定顯示哪些上下文數(shù)據(jù)。前述示例并不全面,而仫/f又是^表性的。在確定上下文數(shù)據(jù)的坐標之后,搜索引擎150提取在步驟1200中所確定的坐標所界定的頁面部分,并且將所提取的部分保存為圖像。接著,搜索引擎150對搜索術語進行高亮顯示,并且繪制上下文數(shù)據(jù)的圖像(步驟1400)。這些圖像可以是JPEG、GIF、位圖或者任何其他圖像格式。一旦已經(jīng)繪制了圖像,則搜索引擎150生成包括已繪制圖像的高忠實度結果集合(步驟1500)。在某些實施方式中,針對滿足搜索標準的多個文檔或者文檔的多個部分來重復步驟1100-1500。一旦搜索引擎150已經(jīng)完成了生成搜索結果或者搜索結果的頁面,則搜索引擎150將這些結果發(fā)送至搜索查詢源自于其中的用戶計算機500。用于提供索引編制功能的示意性方法圖3是示出了在一個實施方式中的索引編制功能的流程圖。在示出的實施方式中,索引編制應用140接收文檔(步驟2000),該文檔可以是任何格式。多個格式的示例是本實施方式可以接收包括MicrosoftWord⑧文檔、HTML、PDF、富文本、純文本、XML、以及現(xiàn)有技術中已知的多種其他格式。在示出的實施方式中,索引編制應用140接著確定文檔的格式是否為PDF⑧(步驟2100)。例如,索引編制應用可以評估文件擴展名或者檢查文件的內(nèi)容。如果該格式不是PDF⑧,則索引編制應用140將該文檔轉(zhuǎn)換至PDF(步驟2110)。例如索引編制應用140可以利用轉(zhuǎn)換器或者轉(zhuǎn)化器(distiller)來執(zhí)行轉(zhuǎn)換。在示出的實施方式中,針對原始格式(原生格式)或者得到的PDF⑧格式來執(zhí)行處理的其余步驟。在其他實施方式中,在處理的后續(xù)步驟中使用原生格式。在圖3所示的實施方式中,索引編制應用140"f妾著確定PDF⑧文檔是否包括多個頁面(步驟2200)。如果PDF⑧文檔包括多個頁面,則索引編制應用140將該文檔分隔為個體頁面(步驟2210)。在其他實施方式中,可以不對文檔進行分隔,而是將其存儲為單個多頁文檔。一旦已經(jīng)分析了頁面,則索引編制應用140確定是否還需要處理任何其他頁面(步驟2300)。如果沒有更多剩余需要處理的頁面,則處理終止(步驟2310)。然而,在示出的實施方式中,如果還有頁面需要被處理(步驟2300),則索引編制應用140選擇下一待處理頁面(步驟2350)。繼續(xù)處理頁面直到已經(jīng)處理了該文檔的所有頁面。索引編制應用140可以按照各種方式來處理文檔。例如,在圖3示出的實施方式中,索引編制應用140讀取頁面中的每個詞,并且繼而針對每個詞執(zhí)行以下步驟。索引編制應用140首先確定在頁面上是否存在需要被讀取的任何其他詞(步驟2400)。如果存在,則索引編制應用140讀取下一詞(步驟2500)。索引編制應用繼而將該詞與排除列表進行比較(步驟2600)。例如,在一個實施方式中,排除列表包括諸如在頁面上頻繁出現(xiàn)的"a"、"an"以及"the"。這些類型的詞通常稱為"停止"詞。其他實施方式包括的排除列表包含英語以外語言的詞。在另一實施方式中,索引編制應用140將詞語包含列表進行比較。某些實施方式還存儲關于頁面的結構信息,以便輔助高忠實度地繪制頁面。例如,在圖3示出的實施方式中,索引編制應用140標識并且存儲關于頁面的結構信息(步驟2410)。結構信息例如可以包括關于如下內(nèi)容的信息列表、列、邊、圖像以及頁面上的其他結構信息。例如,文檔可以包括兩列形式的文本。一列中的文本可以環(huán)繞文檔內(nèi)部的圖像。此信息可用以確定如何最佳地在文檔內(nèi)從頁面的特定部分提供結果。在其他實施方式中,存儲的信息包括結構元素、頁面標識符以及在頁面上的位置。在圖3所示的實施方式中,繪制并且存儲頁面的圖像(步驟2420)。索引編制應用140可以利用已知軟件來將頁面繪制為多種格式之一的圖像,所述格式諸如GIF、JPEG、TIFF、位圖等。在一個實施方式中,圖像具有頁面的原生外觀。每個繪制的頁面存儲在圖像數(shù)據(jù)庫210中。在圖3所示的實施方式中,如果索引編制應用140確定詞不在排除列表中,則對該詞進行索引編制,索引編制應用140確定與頁面上的詞相關聯(lián)的坐標位置。坐標位置包括包圍頁面上的詞的矩形的坐標(步驟2700)。在現(xiàn)有應用中,索引編制過程可以借助于偏移量來確定詞的位置,該偏移量表示該詞的第一個字母之前的字符數(shù)量。但是此類應用具有缺點,例如此類應用不能處理頁面的結構、格式和字體。為了克服這些缺點,在某些實施方式中,索引編制應用140基于詞在頁面上的實際位置而不是僅僅相關于其他的詞來確定詞的坐標位置。更具體地,某些實施方式確定包圍該詞的矩形的坐標。為了確定該矩形的坐標,索引編制應用140在頁面上定位該詞。在一個此類實施方式中,索引編制應用140確定詞的左上角的坐標以及詞的右下角的坐標。由此,由詞的左上角和右下角表示的點還構成了包圍該詞的矩形的左上角和右下角。在其他實施方式中,矩形的左上角和右下角的坐標是相對于該詞的相應角的偏移量。例如,矩形的左上角可以是該詞左上角之上的一個或者多個像素以及左邊的一個或者多個像素。類似地,矩形的右下角可以是該詞右下角之下的一個或多個像素以及右邊的一個或多個像素。此類實施方式的一個優(yōu)勢在于,其考慮到以下事實字母并不是統(tǒng)一高度的。在另一實施方式中,索引編制應用140確定詞的左上角的坐標以及詞的長度和高度。如上所述,詞的左上角的坐標用于確定包圍該詞的矩形的左上角的坐標。接著,索引編制應用140基于該詞的長度和高度來確定矩形的位置和維度。在一個實施方式中,矩形側部的長度和高度是基于相對于該詞的長度和高度的偏移量。此類實施方式的一個益處在于,其將字母不是統(tǒng)一高度這一事實納入了考慮。可以按照各種方式來表示上述矩形的位置和維度。在一個實施方式中,索引編制應用140使用像素來標識坐標。其他實施方式使用測量單位,諸如毫米和英寸來標識坐標、長度和高度。例如,一個實施方式基于與從中找到該詞的頁面左上角的距離來標識該詞的左上坐標。其他實施方式使用像素來表示坐標并且使用測量單位,諸如毫米和英寸來表示長度和高度。在某些情況下,詞并不完全位于單行中。在此情況下,一個實施方式使用上述針對每個矩形的技術,來標識包圍詞的第一部分的第一矩形的坐標,并且標識包圍詞的第二部分的第二矩形的坐標。如果一個詞纟皮斷開而跨越兩行以上,則一個實施方式使用上述技術來標識包圍該詞的每個部分的矩形的坐標。在一個實施方式中,在標識包圍一個詞的一個或者多個矩形的坐標之后,索引編制應用140存儲索引數(shù)據(jù)(步驟2800)。索引數(shù)據(jù)可以存儲于索引條目中,該索引條目具有詞、頁面標識符、以及頁面上與詞相關聯(lián)的位置。在一個實施方式中,頁面上與詞相關聯(lián)的位置包括包圍詞的一個或者多個矩形的坐標。在示出的實施方式中,在存儲索引數(shù)據(jù)之后,索引編制應用140確定在有待處理的頁面上是否還存在任何更多的詞(步驟2400),并且針對每個詞重復上述處理。圖4是根據(jù)一個實施方式創(chuàng)建的頁面圖像的表示。具體地,圖4表示由爬行器130檢索以及由索引編制應用140繪制的頁面圖像。詞"bargaining"被矩形所包圍(步驟3000),使用上述技術,根據(jù)一個實施方式來確定其坐標。用于提供繪制功能的示意性方法圖5a和圖5b是示出一個實施方式中的繪制功能的流程圖。更具體地,圖5a示出了頁面的繪制。在示出的實施方式中,索引編制應用140針對文檔中的每個頁面來執(zhí)行此處理。在一個實施方式中,索引編制應用140接收頁面(步驟3000)。此頁面可以是PDF⑧格式。在其他實施方式中,頁面是各種格式,諸如文本、MicrosoftWord格式、HTML格式、XML格式或者任何其他格式。在接收頁面(步驟4000)之后,索引編制應用140將頁面轉(zhuǎn)換為圖像格式(步驟4100),諸如JPEG格式。在另一實施方式中,將頁面轉(zhuǎn)換為TIFF格式。其他實施方式將頁面轉(zhuǎn)換為各種其他格式,包括GIF、位圖、或者任何其他圖像格式。在一個實施方式中,圖像18具有頁面的原生外觀。在將頁面轉(zhuǎn)換成圖像格式之后,索引編制應用140將圖像存儲于計算機可讀介質(zhì)之上(步驟4200)。在一個實施方式中,圖像存儲于盤驅(qū)動器之上。在其他實施方式中,圖像存儲在帶、光學、或者任何其他計算機可讀介質(zhì)上。有利的是,存儲帶有標識信息的圖像,從而例如便于查找和檢索圖像。由此,在一個實施方式中,圖像與標識信息一同存儲。在一個此類實施方式中,標識信息包括文檔標識符以及頁面標識符。根據(jù)實施方式,從繪制頁面中可以獲得諸多益處。這些益處包括在查找和檢索包括搜索術語的頁面時可以提高速度和效率。尤其是,檢索單一繪制頁面的能力產(chǎn)生了優(yōu)于檢索包括整個文檔的圖像(其中該文檔包括多個頁面)的性能。為了提供上下文搜索結果,首先需要繪制包含上下文數(shù)據(jù)的頁面的部分。圖5b示出了繪制一個或者多個頁面的部分。一個實施方式執(zhí)行此處理,以便提供上下文搜索結果。首先,搜索引擎150接收頁面的圖像以及坐標(步驟5000)。在某些情況下,上下文數(shù)據(jù)跨越一個以上的圖像。在此情況下,發(fā)送包含上下文數(shù)據(jù)的每個圖像。此外,對應于被發(fā)送的每個圖像,發(fā)送一個坐標集合。由此,如果發(fā)送了兩個圖像,則發(fā)送兩個坐標集合(即,針對每個圖像發(fā)送一個坐標集合)。在接收到頁面和坐標之后,搜索引擎150標識對應于由坐標界定的區(qū)域的圖像的部分。接著,應用提取圖像的該部分(步驟5100)。在一個實施方式中,如果發(fā)送了不止一個圖像,則搜索引擎150提取對應于每個坐標集合的每個圖像的部分。在提取了對應于由坐標所界定的區(qū)域的圖像部分之后,有利的是對搜索術語進行高亮顯示。在圖5b所示的實施方式中,搜索引擎150將搜索術語高亮顯示(步驟5200)。在一個實施方式中,高亮顯示步驟包括對由包圍搜索術語的矩形界定的區(qū)域應用顏色(例如,黃色、粉色)。在將搜索術語高亮顯示之后,有益的是將上下文搜索結果繪制為圖像。根據(jù)圖5b所繪出的實施方式,搜索引擎150將在步驟5100中提取的以及在步驟5200中進行高亮顯示的一個或者多個圖像的一個或者多個部分轉(zhuǎn)換成為圖像(步驟5300)。在一個實施方式中,此圖像是JPEG格式。在其他實施方式中,圖像是TIFF、GIF、位圖或者任何其他圖像格式。最后,在將上下文搜索結果繪制為圖像之后,提供該圖像以作為高忠實度結果集合。在圖5b所繪出的實施方式中,搜索引擎150向用戶提供該圖像作為高忠實度結果集合(步驟4400)。圖6是由一個實施方式提供的高忠實度結果集合的表示。在圖6中,用戶針對術語"bargaining"進行4叟索,并且在一個實施方式中,搜索引擎150響應于用戶查詢來提供包括上下文搜索結果的高忠實度結果集合(步驟6000)。在圖6繪出的實施方式中,搜索術語被高亮顯示(步驟6100)。從圖6中顯然可見,結果集合是高忠實度的,這是由于其具有與文檔的原始圖像相同的原生外觀,如圖4中所示。繪制頁面的一部分的益處包括在提供包含上下文搜索結果的圖像時提高了速度和效率。特別地,與提供表示整個頁面的圖像相比,提供包括上下文搜索結果的相對較小的圖像的能力得到了更好的性能。提供高忠實度上下文搜索結果具有多種益處,包括在上下文中向用戶示出搜索結果。本公開內(nèi)容的實施方式的進一步益處在于,有能力以高忠實度方式顯示搜索結果。此類實施方式顯示的上下文搜索結果與原始文檔中的原生外觀相同。例如,在一個實施方式中,上下文搜索結果以相同的字體表現(xiàn),并且與它們在原始頁面中的表現(xiàn)具有相同格式。此特征的益處在于,當用戶查看高忠實度的多個搜索結果時,他或者她可以由于結果的字體、格式等而認識到特定的相關結果。當用戶正在針對他或者她先前瀏覽過的頁面進行搜索時,這一方法尤其有益。僅出于示意和描述的目的呈現(xiàn)了本公開內(nèi)容的實施方式的上述描述,而并非在于對本公開內(nèi)容進行窮舉或者將其限制于所述精確形式。在不脫離本公開內(nèi)容的范圍的情況下,顯然本領域技術人員可以進行多種修改和調(diào)整。權利要求1.一種方法,包括接收包括搜索術語的查詢;響應于所述查詢來確定頁面上的位置,其中所述頁面具有原生外觀;確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域;以及使所述上下文區(qū)域在高忠實度結果集合中輸出,其中所述上下文區(qū)域具有與所述頁面的原生外觀相同的外觀。2.根據(jù)權利要求1所述的方法,其中所述上下文區(qū)域的外觀包括與所述頁面的原生外觀的格式、字體或者圖形中的至少一個相同或類似的格式、字體或者圖形中的至少一個。3.根據(jù)權利要求1所述的方法,其中確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域包括確定與所述頁面上的位置相關聯(lián)的多行文本;以及標識包括所述多行文本的多邊形的坐標。4.根據(jù)權利要求1所述的方法,其中使所述上下文區(qū)域在高忠實度結果集合中輸出包括將所述上下文區(qū)域繪制為圖像;以及顯示所述圖像。5.根據(jù)權利要求1所述的方法,進一步包括在所述上下文區(qū)域中高亮顯示所述搜索術語。6.根據(jù)權利要求1所述的方法,其中預繪制所述上下文區(qū)域。7.根據(jù)權利要求1所述的方法,其中所述頁面包含包括以下至少一個的格式超文本標記語言、可擴展標記語言、^更攜文檔才各式、MicrosoftWord文檔才各式、純文本或富文本。8.—種方法,包括接收具有原生外觀的頁面;在所述頁面上標識關4定字;生成具有如下內(nèi)容的索引條目所述關鍵字;頁面相;"i只才尋;以及與所述頁面上的所述關鍵字相關聯(lián)的坐標位置;存儲所述索引條目;以及繪制所述頁面上與所述關鍵字相關聯(lián)的至少所述坐標位置的圖像,其中所述圖像具有所述頁面的原生外觀。9.根據(jù)權利要求8所述的方法,其中所述索引條目進一步包括:針對所述關鍵字的每個實例的唯一標識符。10.根據(jù)權利要求8所述的方法,進一步包括確定與所述頁面的結構元素相關聯(lián)的信息;生成至少包括以下內(nèi)容的頁面屬性條目所述結構元素;頁面標識符;以及所述頁面上的位置;以及存儲所述頁面屬性條目。11.根據(jù)權利要求8所述的方法,其中所述頁面上的所述坐標位置包括左上坐標和右下坐標。12.根據(jù)權利要求8所述的方法,其中所述頁面上的所述坐標位置包括左上坐標、高度和寬度。13.—種設備,包括用于接收包括搜索術語的查詢的裝置;用于響應于所述查詢來確定頁面上的位置的裝置,其中所述頁面具有原生外觀;用于確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域的裝置;以用于使所述上下文區(qū)域在高忠實度結果集合中輸出的裝置,其14.根據(jù)權利要求13所述的設備,其中所述上下文區(qū)域的外觀包括與所述頁面的原生外觀的格式、字體或者圖形中的至少一個相同或類似的格式、字體或者圖形中的至少一個。15.根據(jù)權利要求13所述的設備,其中用于確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域的裝置包括用于確定與所述頁面上的位置相關聯(lián)的多行文本的裝置;以及用于標識包括所述多行文本的多邊形的坐標的裝置。16.根據(jù)權利要求13所述的設備,其中用于使所述上下文區(qū)域在高忠實度結果集合中輸出的裝置包括用于選擇所述上下文區(qū)域的裝置;用于將所述上下文區(qū)域繪制為圖像的裝置;以及用于顯示所述圖像的裝置。17.根據(jù)權利要求13所述的設備,進一步包括用于在所述上下文區(qū)域中高亮顯示所述搜索術語的裝置。18.根據(jù)權利要求13所述的設備,進一步包括用于預繪制所述上下文區(qū)域的裝置。19.根據(jù)權利要求13所述的設備,其中所述頁面包含包括以下至少一個的格式超文本標記語言、可擴展標記語言、便攜文檔格式、MicrosoftWord文檔格式、純文本或富文本。20.根據(jù)權利要求13所述的設備,其包括因特網(wǎng)搜索引擎。21.—種設備,包括用于接收具有原生外觀的頁面的裝置;用于在所述頁面上標識關鍵字的裝置;用于生成具有如下內(nèi)容的索引條目的裝置所述關鍵字;頁面標識符;以及與所述頁面上的所述關鍵字相關聯(lián)的坐標位置;用于存儲所述索引條目的裝置;以及用于繪制所述頁面上與所述關鍵字相關聯(lián)的至少所述坐標位置的圖像的裝置,其中所述圖像具有所述頁面的原生外觀。22.根據(jù)權利要求21所述的設備,其中所述索引條目進一步包括針對所述關鍵字的每個實例的唯一標識符。23.根據(jù)權利要求21所述的設備,進一步包括用于確定與所述頁面的結構元素相關聯(lián)的信息的裝置;用于生成至少包括以下內(nèi)容的頁面屬性條目的裝置所述結構元素;頁面標i。、符;以及所述頁面上的位置;以及用于存儲所述頁面屬性條目的裝置。24.根據(jù)權利要求21所述的設備,其中所述頁面上的所述坐標位置包括左上坐標和右下坐標。25.根據(jù)權利要求21所述的設備,其中所述頁面上的所述坐標位置包括左上坐標、高度和寬度。全文摘要本公開內(nèi)容描述了一種用于提供高忠實度上下文搜索結果的系統(tǒng)和方法。在一個所述實施方式中,提供了一種用于提供高忠實度上下文搜索結果的方法,包括接收包括搜索術語的查詢;響應于所述查詢來確定頁面上的位置,其中所述頁面具有原生外觀;確定與所述頁面上的位置相關聯(lián)的上下文區(qū)域;以及使所述上下文區(qū)域在高忠實度的結果集合中輸出,其中所述上下文區(qū)域具有與所述頁面的原生外觀相同的外觀。文檔編號G06F17/30GK101620631SQ20091014987公開日2010年1月6日申請日期2009年7月2日優(yōu)先權日2008年7月2日發(fā)明者A·謝班奧夫申請人:奧多比公司