專利名稱:用于內(nèi)容的位置表示的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及用于在大量文本數(shù)據(jù)中進(jìn)行計算機(jī)化檢索的系統(tǒng)和方法。
背景技術(shù):
從支持諸如Google、 MSN的因特網(wǎng)搜索站點(diǎn)到諸如Lucene的開放式 源碼(open source)范圍的現(xiàn)代搜索引擎已經(jīng)成為用于快速從各種源定位 信息文檔和多^^體內(nèi)容的極其有用的工具。典型的現(xiàn)代搜索引擎構(gòu)建文檔 中詞項(term)的索引表示,以便定位相關(guān)的文檔,該索引表示可以被認(rèn) 為是對與特定搜索項相關(guān)的一組文檔進(jìn)行定位的查找表,該查找表對于所 有的搜索項是順序排列的,并且該表中的每一詞條(entry)均由一個搜索 項以及與該搜索項相關(guān)的所有文檔組成。給定搜索項,在查找表中定位該 詞條來返回一列相關(guān)文檔。類似地,^使用詞條查找的并集或集合交匯可以 處理搜索項的組合。該索引表示通常被稱為倒排索引(inverted index)。在Web搜索和主頁搜索的情況下,所期望的即是定位文檔而不需要額 外在文檔本身內(nèi)定位搜索項。然而,在諸如用戶手冊、編程指南等的多頁 或長篇文檔,或者全長幾分鐘的多^^體(視頻和音頻文件)的情況下,這 也變得重要起來,即不僅要定位與給定的搜索查詢相關(guān)的文檔,而且還要 定位搜索項在文檔本身內(nèi)的適當(dāng)位置。例如,如果用戶想要定位關(guān)于特定 體育事件的新聞廣播,該用戶不僅會想要訪問相關(guān)的廣播,而且還要訪問 其中提到該體育事件的、這樣的廣播內(nèi)的精確時隙。類似地,對于用戶手 冊,可以在文檔內(nèi)深入定位相關(guān)的搜索項,而能夠直接跳轉(zhuǎn)到文檔中該詞 項的準(zhǔn)確位置將會是理想的。
對該問題的典型解決方案是將文檔分成多個文檔并且單獨(dú)索引這些子 文檔中的每一個,或者線性掃描文檔以^更在已經(jīng)將其標(biāo)識為相關(guān)之后在該 文檔內(nèi)定位搜索項。然而,由于將文檔任意組塊為子文檔,分割文檔導(dǎo)致 了上下文信息的重大缺失。另外,線性掃描的成本是受限制的,尤其是當(dāng)存在多個匹配文檔并且每個文檔的長度都長時(例如,現(xiàn)在1000頁的pdf 文檔并非罕見)。另 一 問題在于在索引和重新索引期間,搜索應(yīng)用通常掃描文檔并且創(chuàng) 建倒排字索引(inverted word index),以便內(nèi)在地表示該文檔。該過程 相當(dāng)昂貴,特別是對于其中連續(xù)添加新文檔的應(yīng)用來說,要求有規(guī)律地定 期重新索引文檔。需要一種對數(shù)據(jù)的位置表示,其使得有可能有效率地索引文檔并且檢 索所搜索的信息。發(fā)明內(nèi)容根據(jù)本發(fā)明的示例性實(shí)施例,提供了 一種生成文檔的位置表示的方法。 該方法包括標(biāo)識文檔中的唯一詞項并且確定所述唯一詞項中的每一個出 現(xiàn)在所述文檔中的位置,以及對于所述唯一詞項中的每一個,將從所述位置獲得的位置信息存儲到位置表示中。根據(jù)本發(fā)明的示例性實(shí)施例,提供了一種計算機(jī)可讀介質(zhì),其包括用 于生成文檔的位置表示的計算機(jī)代碼。該計算機(jī)可讀介質(zhì)包括用于標(biāo)識所 述文檔中唯一詞項中的每一個并且確定所述唯一詞項中的每一個出現(xiàn)在所 述文檔中的位置的計算機(jī)代碼,以及對于所述唯一詞項中的每一個,用于 將從所述位置獲得的位置信息存儲到位置表示中的計算機(jī)代碼。根據(jù)本發(fā)明的示例性實(shí)施例,提供了一種用于從文檔的位置表示生成 倒排索引的方法。該方法包括以下步驟輸入文檔的位置表示,其具有文 檔標(biāo)識符和位置記錄,其中所述位置記錄包括所述文檔的詞項以及所述詞 項在所述文檔中的出現(xiàn)位置;為所述位置記錄中的每一個生成詞條,其中 所述詞條包括所述詞項以及文檔記錄,其中所述文檔記錄包括所迷文檔標(biāo)
識符和所述出現(xiàn)位置;以及將所述詞條插入到倒排索引中。根據(jù)本發(fā)明的示例性實(shí)施例,提供了一種用于生成文本文檔的位置表 示的裝置。該裝置包括處理器,所述處理器用于通過從文檔中揭:取唯一 詞項中的每一個及其在所述文檔中相應(yīng)的出現(xiàn)位置,將所述文檔轉(zhuǎn)換成位 置表示;為所述唯一詞項中的每一個生成詞條,其包括所述唯一詞項的第 一唯一詞項以及對應(yīng)于所述唯一詞項的第 一唯一詞項的 一組出現(xiàn)位置;以 及將所述詞條中的每一個添加到位置表示。通過結(jié)合附圖閱讀以下對示例性實(shí)施例的詳細(xì)描述,本發(fā)明的這些和 其它的示例性實(shí)施例、方面、特征和優(yōu)點(diǎn)將得到描述或變得更加明顯。
圖l是根據(jù)本發(fā)明的示例性實(shí)施例的系統(tǒng)的高級框圖,該系統(tǒng)用于在 通過搜索引擎進(jìn)行索引之前組織文檔;圖2a說明了圖1中所引用的文檔的例子;圖2b說明了根據(jù)圖1的方法從圖2a的文檔生成的位置表示的示例性 實(shí)施例;圖2c說明了根據(jù)圖1的方法從圖2a的文檔生成的位置表示的示例性 實(shí)施例;以及圖3a和圖3b說明了根據(jù)本發(fā)明的示例性實(shí)施例從位置表示的集合生 成倒排索引。
具體實(shí)施方式
通常,如下文進(jìn)一步詳細(xì)描述的本發(fā)明的示例性實(shí)施例,包括了用于 在通過搜索引擎進(jìn)行索引之前提供組織文檔的有效技術(shù)的系統(tǒng)和方法。如 果通過使用文檔的位置表示已經(jīng)定位了相關(guān)文檔,這有助于查找搜索項的 準(zhǔn)確位置。位置表示還有助于通過搜索引擎有效地對文檔進(jìn)行倒排索引。 另外,位置表示大大地簡化了倒排索引的計算,使其與由本領(lǐng)域狀況下的 搜索引擎所使用的本地檢索結(jié)構(gòu)相容。文檔的位置表示是這些文檔的等效 無損表示。位置表示實(shí)際上是原始文檔的壓縮版本并且通常占用比原始文 檔少的存儲器,從而降低了存儲需求。參照圖l-3b的說明性實(shí)施例,現(xiàn)在將進(jìn)一步詳細(xì)討論用于在通過搜索 51擎進(jìn)行索《j之前組織文檔的示例性系統(tǒng)和方法。應(yīng)當(dāng)理解文中所描述的 系統(tǒng)和方法可以以硬件、軟件、固件、專用處理器或其組合的各種形式來 實(shí)現(xiàn)。特別地,本發(fā)明的至少一部分優(yōu)選地實(shí)現(xiàn)為包括這樣的程序指令的 應(yīng)用,該程序指令有形地體現(xiàn)于一個或多個程序存儲設(shè)備(例如,硬盤、 磁軟盤、RAM、 ROM、 CDROM等)上,并且可由包括適當(dāng)體系結(jié)構(gòu)的 任何設(shè)備或機(jī)器來執(zhí)行,例如,具有處理器、存儲器,以及輸入/輸出接口 的通用數(shù)字計算機(jī)。應(yīng)當(dāng)進(jìn)一步地理解,由于附圖中所描述的組成系統(tǒng)部 件和過程步驟中的一些優(yōu)選地以軟件來實(shí)現(xiàn),系統(tǒng)模塊之間的連接(或方 法步驟的邏輯流程)可以取決于本發(fā)明的編程方式而不同。通過文中給出 的教導(dǎo),相關(guān)領(lǐng)域的普通技術(shù)人員將能夠設(shè)想本發(fā)明的這些和類似的實(shí)現(xiàn)。圖l是根據(jù)本發(fā)明的示例性實(shí)施例的系統(tǒng)(100)的高級框圖,該系統(tǒng) (100)用于在通過搜索引擎進(jìn)行索引之前組織文檔。通常,系統(tǒng)(IOO) 包括詞項標(biāo)識和位置確定模塊(120)、記錄生成模塊(130)、位置表示 數(shù)據(jù)庫(140)、索引生成模塊(150)、倒排索引數(shù)據(jù)庫(160),以及查 詢處理模塊(180 ).將文檔輸入(110)到系統(tǒng)(100)并且將其傳送到詞項標(biāo)識和位置確 定模塊(120),詞項標(biāo)識和位置確定模塊(120)標(biāo)識文檔中所有的唯一 詞項及其相應(yīng)的位置。唯一詞項可以是一個或多個詞或者注釋。將該信息 傳送到記錄生成纟莫塊(130),記錄生成模塊(130)為每個唯一詞項構(gòu)建 記錄,其具有從相應(yīng)位置獲得的位置信息。記錄生成模塊(130)將記錄組 合成位置表示數(shù)據(jù)結(jié)構(gòu)并且將數(shù)據(jù)結(jié)構(gòu)存儲到位置表示數(shù)據(jù)庫(140)中。 根據(jù)需要輸入(110)另外的文檔,每個文檔均在位置表示數(shù)據(jù)庫(140) 中創(chuàng)建新的詞條。索引生成模塊(150)處理存儲在位置表示數(shù)據(jù)庫(140) 中的位置表示,以便生成倒排索引。在典型的倒排索引中,對于每個詞項,對其中出現(xiàn)該詞項的一列文檔 進(jìn)行存儲。倒排索引一般通過直接遍歷每個文檔來生成。然而,由于每個 位置表示比原始文檔更小并且更好組織,因此從那些文檔的位置表示生成 倒排所消耗的時間較少。將倒排索引存儲在倒排索引數(shù)據(jù)庫(160)中。當(dāng)用戶輸入搜索查詢時 (170),查詢處理模塊接收該查詢,并且從倒排索引數(shù)據(jù)庫(160)檢索 倒排索引。查詢處理模塊(160)遍歷該倒排索引,直到其確定與輸入查詢 最相關(guān)的文檔,從位置表示數(shù)據(jù)庫(140)檢索到對應(yīng)于該文檔的位置表示 并且基于檢索到的位置表示前進(jìn)到相關(guān)位置返回相關(guān)文檔(190)。圖2a說明了圖1中所引用的文檔的例子。參照圖2a,出現(xiàn)在文檔的 第一句中的唯一詞項是詞項"Sally" 、 "sells" 、 "seashell" 、 "by"、 "the"和"seashore"。在文檔的第二句中,出現(xiàn)的詞項"She"也是唯 一詞項,因?yàn)槠洳⑽闯霈F(xiàn)過。然而,第二句中的詞項"sells"僅僅是唯一 詞項的后續(xù)出現(xiàn)(subsequent occurrence),因?yàn)樗惹耙言诘谝痪渲谐?現(xiàn)過。在本發(fā)明的示例性實(shí)施例中,文檔可以是各種格式的電子文檔,包 括但不限于可移植文檔格式(PDF)、孩史軟Word (MS-Word)、超文本 標(biāo)記語言(HTML)等 另外,文檔可以是多媒體文檔并且包^"如運(yùn)動 圖像專家組(MPEG)、波形音頻格式(WAV)、音視頻交插(AVI)、 聯(lián)合圖像專家組(JPEG)等的格式。圖2b說明了根據(jù)本發(fā)明的示例性實(shí)施例從圖2a的文檔生成的位置表 示的示例性實(shí)施例。參照圖2b,位置表示中詞條的數(shù)目對應(yīng)于在文檔中找到的唯一詞項的 數(shù)目。為了易于討論,附圖僅列出了文檔中出現(xiàn)的一部分唯一詞項,即在 文檔的第一句中找到的那些。每個詞條均含有文檔的唯一詞項以及對應(yīng)于 該唯一詞項在文檔中的每次出現(xiàn)的位置。例如,參照圖2a和圖2b,在文 檔中的字符位置6開始首次出現(xiàn)唯一詞項"sells"。在該文檔中的字符位 置43和100開始后續(xù)出現(xiàn)該唯一詞項。圖2c說明了根據(jù)本發(fā)明的示例性實(shí)施例從圖2a的文檔生成的位置表 示的示例性實(shí)施例。 參照圖2c,位置表示中詞條的數(shù)目對應(yīng)于在文檔中找到的唯一詞項的 數(shù)目。為了易于討論,附圖僅列出了文檔中出現(xiàn)的一部分唯一詞項,即在 文檔的第一句中找到的那些。每個詞條均含有文檔的唯一詞項、該唯一詞項首次出現(xiàn)在文檔中的位置,以;M"于該唯一詞項在文檔中所有i^的出現(xiàn)的一連串后續(xù)出現(xiàn)偏移量(subsequent occurrence offset)。后續(xù)出現(xiàn)偏 移量與唯一詞項在文檔中的先前出現(xiàn)位置相關(guān)。可以通過從后續(xù)出現(xiàn)位置 減去先前出現(xiàn)位置來計算后續(xù)出現(xiàn)偏移量。例如,唯一詞項"sells"首次 出現(xiàn)在字符位置6,并且出現(xiàn)在后續(xù)位置43,得到后續(xù)出現(xiàn)偏移量是+37。 當(dāng)字符位置變得相當(dāng)大時,具有偏移量的位置表示可能是所希望的。偏移 量通常將導(dǎo)致較小的數(shù)、要求較少的存儲器。在許多方面,唯一詞項首次 出現(xiàn)在文檔中的位置只不過是從字符位置0開始的偏移量,并且因而位置 表示全部是由偏移量構(gòu)成的。圖2b和圖2c中所體現(xiàn)的位置表示還可以包括列出每個唯一詞項在文 檔中的全部出現(xiàn)的附加列。然后該4^P出現(xiàn)稍后可以由搜索引擎使用來確 定由特定查詢返回的那些文檔的最相關(guān)的文檔。圖2b和圖2c中所體現(xiàn)的位置表示還可以包括文檔標(biāo)識符,其表示從 其生成位置表示的文檔。文檔標(biāo)識符可以是文檔的名稱。文檔標(biāo)識符還可 以是具有文檔路徑的查找表中詞條的標(biāo)識符數(shù)。位置表示可以存儲在數(shù)據(jù)庫、主存儲器、高速緩存、硬盤等中。當(dāng)將 位置表示存儲為文件時,文件名可以對應(yīng)于轉(zhuǎn)換成位置表示的文檔。例如, 具有文件名"text.pdf"的文檔可以被轉(zhuǎn)換成具有文件名"text.pdf.pr"的 位置表示。由于可以從位置表示的文件名中辨別出原始文件名,位置表示 不需要含有文檔標(biāo)識符。位置表示還可以包括來自文檔的注釋。注^A與文檔中的特定點(diǎn)或者 與特定部分、句子、詞項、圖像、音頻剪輯、視頻剪輯等關(guān)聯(lián)的附加信息, 并且通常對于用戶是不可見的,除非明確地請求。例如,圖2a中的詞項 "Sally"可以具有依附于它的"Person"的注釋。又如,多媒體文檔可以 具有這樣的繪畫的嵌入式j(luò)peg圖像,即該繪畫具有依附于它的"Mona Lisa"的注釋。由于注釋實(shí)際上是隱藏的詞項,因此可以像唯一詞項一樣 確定注釋及其位置并將其存儲在位置表示中。多媒體文檔可以含有文本連同"式圖像、音頻剪輯、視頻等的混合。 對于這些文檔,通常除了源文檔之外還創(chuàng)建XML描述符或類似的格式描 述符。描述符通常是由搜索引擎而不是源本身進(jìn)行索引的描述符。對于多 媒體文檔,從XML描述符而不是從文檔生成位置表示。注釋在多媒體文檔中變得尤其重要,因?yàn)楸M管許多文檔可以是二進(jìn)制 的,然而其可以點(diǎn)綴有標(biāo)識出幀或場景的注釋。對特定演員的常規(guī)險索可 以返回相關(guān)的多媒體文檔,而不是該演員出現(xiàn)在文檔中的位置。該演員出 現(xiàn)在電影中的時間可以從該注釋的位置獲得。圖3a和圖3b說明了根據(jù)本發(fā)明的示例性實(shí)施例從位置表示的集合生 成倒排索引。圖3a使用流程圖說明了如何生成倒排索引。在第一步驟中,輸入文檔 的集合310。在第二步驟中,將集合中的每個文檔轉(zhuǎn)換成位置表示320。在 最后的步驟中,使用所得到的位置表示生成倒排索引330。圖3b說明了根 據(jù)本發(fā)明的示例性實(shí)施例從示例性位置表示生成的示例性倒排索引。參照 圖3b,位置表示的集合340包括第一位置表示350和第二位置表示360。 第一位置表示350具有Doc#l的文檔標(biāo)識符以及對于文檔Doc#l唯一的三 個詞項,即"sally" 、 "sells"和"seashells"。第二位置表示360具有 Doc#2的文檔標(biāo)識符以及對于文檔D(H^2唯一的三個詞項,即"sally"、 "sells"和"lemonade"。所得到的倒排索引370包括在兩個位置表示中 出現(xiàn)的組合唯一詞項的詞條,即"sally"、 "sells"、 "seashdls"和"lemonade". 每個詞條還含有出現(xiàn)唯一詞項的地方所對應(yīng)的文檔標(biāo)識符。倒排索引中的 每個詞條連同文檔標(biāo)識符一起,還可以含有存儲在與文檔標(biāo)識符關(guān)聯(lián)的位 置表示中的位置信息。然后可以隨諸如搜索引擎或搜索中間件的任何搜索應(yīng)用 一起使用倒排 索引370i)b險索與輸入查詢相關(guān)的文檔。當(dāng)用戶輸入搜索項時,搜索引擎 可以遍歷倒排索引中的詞條。如果在倒排索引中找到該搜索項的匹配詞條,
與該搜索項相關(guān)的文檔就可以被標(biāo)識并且由用戶大概查看。當(dāng)相關(guān)文檔之 一在其原始形式下不易得到時,可以通過轉(zhuǎn)換其位置表示來對其進(jìn)行重新 創(chuàng)建。由于所有的唯一詞項及其位置是已知的,因此對于應(yīng)用來說進(jìn)行轉(zhuǎn) 換是件平常的事情。當(dāng)顯示相關(guān)文檔時,通過使用存儲在相關(guān)文檔的位置表示中的位置信 息,可以將對文檔的顯示自動前進(jìn)到搜索項的任何一次出現(xiàn)。例如,可以將多次出現(xiàn)搜索項"spinal meningitis"的冗長文檔自動滾動到(strollto) 該詞項的首次或后續(xù)出現(xiàn)。當(dāng)相關(guān)文檔是多媒體文檔時,可以將文檔顯示 時間前進(jìn)到搜索項的位置。例如,可以將具有"finale"的注釋出現(xiàn)的mpeg 電影文檔自動前進(jìn)到電影中的finale。根據(jù)本發(fā)明的示例性實(shí)施例,提供了一種裝置,其包括用于將文檔轉(zhuǎn) 換成位置表示的處理器。該處理器從文檔中提^C每個唯一詞項及其在文檔 中相應(yīng)的出現(xiàn)位置。接著該處理器為每個唯一詞項生成詞條。每個詞條包 括唯一詞項以及可以用于獲得該唯一詞項出現(xiàn)在文檔中的位置的位置信 息。位置信息可以是唯一詞項的位置、唯一詞項的出現(xiàn)的偏移量或其一些 組合。當(dāng)處理器已經(jīng)完成詞條的生成時,其將詞條組合成稱為位置表示的 數(shù)據(jù)結(jié)構(gòu)。位置表示還可以包括文檔標(biāo)識符,以^更標(biāo)識從其獲得位置表示 的文檔。為了清楚起見,在本說明書中并未描述實(shí)際實(shí)現(xiàn)中的所有特征。應(yīng)當(dāng) 理解,在任何這樣的實(shí)際實(shí)施例的開發(fā)中,必須進(jìn)行各種實(shí)現(xiàn)特定的決策 來達(dá)到開發(fā)者的具體目的,例如遵從系統(tǒng)相關(guān)和商業(yè)相關(guān)的限制,這將從 一種實(shí)現(xiàn)變化到另一種實(shí)現(xiàn)。此外,應(yīng)當(dāng)理解這樣的開發(fā)工作可能是復(fù)雜 且耗時的,然而這不過是那些受益于^^開的本領(lǐng)域普通技術(shù)人員的常規(guī) 工作。雖然本發(fā)明易于進(jìn)行各種修改和替換形式,但是已經(jīng)通過舉例的方式 在附圖中示出了其具體實(shí)施例并且在文中對其進(jìn)行了詳細(xì)的描述。然而, 應(yīng)當(dāng)理解文中對具體實(shí)施例的描述并不旨在將本發(fā)明限于所公開的特定形 式,而相反地,本發(fā)明將涵蓋落入如所附權(quán)利要求所限定的本發(fā)明的精神 和范圍內(nèi)的所有修改、等同物和替換物。應(yīng)當(dāng)理解文中所描述的系統(tǒng)和方 法可以以硬件、軟件、固件或其組合的各種形式來實(shí)現(xiàn)。以上公開的特定實(shí)施例僅僅是說明性的,根據(jù)本發(fā)明可以對其進(jìn)行修 改并且以不同但卻等效的方式來實(shí)踐,這些方式對于受益于文中教導(dǎo)的本 領(lǐng)域的技術(shù)人員而言是顯而易見的。此外,除了以下權(quán)利要求中所描述的 之外,并不旨在對文中所示設(shè)計的細(xì)節(jié)進(jìn)行限制。因此顯然,可以對以上 所公開的特定實(shí)施例進(jìn)行改變或修改,并且所有這樣的變化均被考慮在本 發(fā)明的范圍和精神之內(nèi)。相應(yīng)地,文中所尋求的保護(hù)如以下權(quán)利要求中所 闡述。
權(quán)利要求
1.一種生成文檔的位置表示的方法,其包括標(biāo)識文檔中的唯一詞項并且確定所述唯一詞項中的每一個出現(xiàn)在所述文檔中的位置;以及對于所述唯一詞項中的每一個,將從所述位置獲得的位置信息存儲到位置表示中。
2. 根據(jù)權(quán)利要求l的方法,其進(jìn)一步包括標(biāo)識所述文檔中的注釋并且確定所述注釋中的每一個出現(xiàn)在所述文 檔中的注釋位置;以及對于所述注釋中的每一個,將從所述注釋位置獲得的注釋位置信息存 儲到所述位置表示中。
3. 根據(jù)權(quán)利要求1的方法,其進(jìn)一步包括將表示所述文檔的文檔 標(biāo)識符存儲到所述位置表示中。
4. 根據(jù)權(quán)利要求3的方法,其中對所迷位置信息的存儲包括 生成記錄,所述記錄具有所述唯一詞項的第一唯一詞項以及對應(yīng)于所述第一唯一詞項的位置;以及將所述記錄添加到所述位置表示。
5. 根據(jù)權(quán)利要求3的方法,其中對所述位置信息的存儲包括 生成記錄,所述記錄具有所述唯一詞項的第一唯一詞項、對應(yīng)于所述第 一唯一詞項的位置的第 一位置,以及在所述第 一位置之后的位置的相對偏移量;以及將所述記錄添加到所述位置表示。
6. 根據(jù)權(quán)利要求1的方法,其中所述唯一詞項中的每一個是由一個 或多個詞組成的。
7. 根據(jù)權(quán)利要求4的方法,其中所述記錄進(jìn)一步包括對所述第一 唯一詞項在所述文檔中的出現(xiàn)的計數(shù)。
8. 根據(jù)權(quán)利要求5的方法,其中所述記錄進(jìn)一步包括對所述第一 唯一詞項在所述文檔中的出現(xiàn)的計數(shù)。
9. 根據(jù)權(quán)利要求3的方法,其進(jìn)一步包括對于所述唯一詞項中的每一個,生成具有所述唯一詞項的第 一唯一詞 項以及所述文檔標(biāo)識符的詞條,并且將所述詞條添加到倒排索引。
10. 根據(jù)權(quán)利要求9的方法,其中所述詞條進(jìn)一步包括用于所述第 一唯一詞項的位置信息。
11. 根據(jù)權(quán)利要求9的方法,其進(jìn)一步包括 輸入搜索項;搜索所述倒排索引中與所述搜索項匹配的詞條;以及 在確定匹配時,從所述詞條檢索所述文檔標(biāo)識符并且查看對應(yīng)于所述 文檔標(biāo)識符的文檔。
12. 根據(jù)權(quán)利要求11的方法,其中通過將具有所述文檔標(biāo)識符的位 置表示轉(zhuǎn)換成所述文檔來生成所述文檔。
13. 根據(jù)權(quán)利要求ll的方法,其進(jìn)一步包括 將對所述文檔的顯示前進(jìn)到從所述位置表示中的位置信息獲得的位置。
14,根據(jù)權(quán)利要求ll的方法,其進(jìn)一步包括 將對所述文檔的顯示前進(jìn)到從所述位置表示中的位置信息獲得的時 間,其中所述文檔是多媒體文檔。
15. —種從文檔的位置表示生成倒排索引的方法,其包括 輸入文檔的位置表示,其具有文檔標(biāo)識符和位置記錄,其中所迷位置記錄包括所述文檔的詞項以及所述詞項在所述文檔中的出現(xiàn)位置;為所述位置記錄中的每一個生成詞條,其中所述詞條包括所述詞項以 及文檔記錄,其中所述文檔記錄包括所述文檔標(biāo)識符和所述出現(xiàn)位置;以 及將所述詞條插入到倒排索引中。
16. 根據(jù)權(quán)利要求15的方法,其中所述位置記錄包括對所述出現(xiàn)位 置的計數(shù)。
17. 根據(jù)權(quán)利要求15的方法,其中所述詞項是一個或多個詞。
18. —種用于生成文本文檔的位置表示的裝置,其包括處理器,所述處理器用于通過從文檔提取唯一詞項中的每一個及其 在所述文檔中相應(yīng)的出現(xiàn)位置,將所述文檔轉(zhuǎn)換成位置表示;為所述唯一 詞項中的每一個生成詞條,其包括所述唯一詞項的第 一唯一詞項以及對應(yīng) 于所述唯一詞項的第 一唯一詞項的 一組出現(xiàn)位置;以及將所述詞條中的每 一個添加到位置表示。
全文摘要
本發(fā)明提供了一種用于內(nèi)容的位置表示的裝置和方法。一種生成文檔的位置表示的方法,其包括標(biāo)識文檔中的每個唯一詞項以及所述唯一詞項出現(xiàn)在所述文檔中的位置,并且對于所述每個唯一詞項,將從所述位置獲得的位置信息存儲到位置表示中。
文檔編號G06F17/30GK101131704SQ20071014655
公開日2008年2月27日 申請日期2007年8月20日 優(yōu)先權(quán)日2006年8月23日
發(fā)明者G·N·拉馬斯瓦米, G·延加爾 申請人:國際商業(yè)機(jī)器公司