專(zhuān)利名稱:對(duì)文件內(nèi)容進(jìn)行分布式索引的制作方法
對(duì)文件內(nèi)容進(jìn)行分布式索引背景信息被收集在各種類(lèi)型的設(shè)備中(例如,計(jì)算機(jī)、服務(wù)器、存儲(chǔ)介質(zhì)、媒體播放器、 電話等)以供私人使用和/或公共使用。信息的量繼續(xù)增長(zhǎng)。這一增長(zhǎng)提出了關(guān)于訪問(wèn)感 興趣的信息和確定什么信息可用的挑戰(zhàn)。為這一信息創(chuàng)建索引幫助訪問(wèn)感興趣的信息和確定什么信息可用。通常,這一信 息包括若干類(lèi)型的文件。文本文件、音頻文件、視頻文件、圖像文件、以及圖形文件是文件類(lèi) 型的示例。基于內(nèi)容的索引信息和非基于內(nèi)容的索引信息是可被包括在文件索引中的各類(lèi) 索引信息。基于內(nèi)容的索引信息指的是從分析文件的內(nèi)容而生成的索引信息。非基于內(nèi)容 的索引信息指的是從與文件相關(guān)聯(lián)的除該文件的內(nèi)容之外的任何數(shù)據(jù)生成的索引信息。元 數(shù)據(jù)、文件名、以及文件描述是非基于內(nèi)容的索引信息的源的示例。已經(jīng)部署了在網(wǎng)絡(luò)級(jí)操作的索引實(shí)現(xiàn)(例如,因特網(wǎng)索引搜索引擎)和在設(shè)備級(jí) 操作的索引實(shí)現(xiàn)(例如,計(jì)算機(jī)索引搜索引擎)。這些索引實(shí)現(xiàn)的有用性取決于若干因素, 如其索引的范圍和其索引中包括的索引信息的類(lèi)型。被索引的文件的數(shù)量和這些文件的多 樣性反映了索引的范圍。因?yàn)榛趦?nèi)容的索引信息一般比非基于內(nèi)容的索引信息提供更多 的文件知識(shí),所以索引具有文件的基于內(nèi)容的索引信息是合乎需要的。雖然基于內(nèi)容的索引信息是優(yōu)選的,但存在著與在索引中包括基于內(nèi)容的索引信 息相關(guān)聯(lián)的問(wèn)題。盡管生成文本文件的基于內(nèi)容的索引信息在準(zhǔn)確度、所需時(shí)間努力、以及 所需計(jì)算資源方面是切實(shí)可行的,但對(duì)非文本文件(例如,音頻文件、視頻文件、圖像文件、 以及圖形文件)而言情況并非如此。非文本文件的基于內(nèi)容的索引信息的準(zhǔn)確度變化很大 且在某些情況下不可使用。生成非文本文件的基于內(nèi)容的索引信息需要大量計(jì)算資源并且 是很耗時(shí)的。在進(jìn)行作為后臺(tái)操作來(lái)執(zhí)行的索引的情況下,生成非文本文件的基于內(nèi)容的 索引信息可能因索引使用了過(guò)多計(jì)算資源而干擾正常使用模式,或者可能因未使用時(shí)間段 和可用計(jì)算資源不足以支持索引而不能完成。概述提供本概述是為了以簡(jiǎn)化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一些概 念。本概述并不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確 定所要求保護(hù)的主題的范圍。本文描述的是一種特別地用于對(duì)文件內(nèi)容進(jìn)行分布式索引的技術(shù)。基于文件的內(nèi) 容來(lái)創(chuàng)建其索引是合乎需要的。文件可以是文本文件或非文本文件(例如,音頻文件、視頻 文件、圖像文件、以及圖形文件等)。基于內(nèi)容對(duì)文件進(jìn)行索引涉及確定該文件的基于內(nèi)容 的索引信息是否可從外部源獲得。任何單個(gè)設(shè)備以及任何設(shè)備網(wǎng)絡(luò)都是外部源的示例。這 避免重復(fù)已執(zhí)行的內(nèi)容分析,尤其對(duì)于非文本文件而言內(nèi)容分析是耗時(shí)且計(jì)算密集的。如 果基于內(nèi)容的索引信息可用,則從外部源接收它并存儲(chǔ)它。如果基于內(nèi)容的索引信息不可 用或不完整,則生成并存儲(chǔ)該文件的基于內(nèi)容的索引信息。此外,與外部源共享所生成的基 于內(nèi)容的索引信息。一旦執(zhí)行了該文件的內(nèi)容分析從而生成了該文件的基于內(nèi)容的索引信 息,則在需要時(shí)該基于內(nèi)容的索引信息是可用并可共享的。不需要重復(fù)對(duì)該文件的同一內(nèi)
因此,各實(shí)施例提供了一種通過(guò)分布索引生成和共享分布式索引生成的結(jié)果來(lái)對(duì) 文本文件和非文本文件進(jìn)行基于內(nèi)容的索引的切實(shí)可行的方式。各實(shí)施例允許基于內(nèi)容的 索引信息以各種方式變化。執(zhí)行不同類(lèi)型的內(nèi)容分析、使用多個(gè)參數(shù)設(shè)置來(lái)進(jìn)行內(nèi)容分析、 以及聚集對(duì)文件的不同部分執(zhí)行的內(nèi)容分析是使基于內(nèi)容的索引信息變化的示例。附圖簡(jiǎn)述合并在本說(shuō)明書(shū)中并形成其一部分的附圖示出了各實(shí)施例,并且與說(shuō)明書(shū)一起用 于解釋各實(shí)施例的原理。
圖1是根據(jù)各實(shí)施例的集中式索引源環(huán)境的框圖。圖2是根據(jù)各實(shí)施例的分散式索引源環(huán)境的框圖。圖3示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖。圖4示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖,其中文件的 不同部分是單獨(dú)索引的。圖5示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖,其中基于內(nèi) 容的索引包括各種索引模式,每一種索引模式都與不同類(lèi)型的內(nèi)容分析相對(duì)應(yīng)。圖6示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖,其中基于內(nèi) 容的索引包括各種索引表現(xiàn)形式,每一種表現(xiàn)形式都與執(zhí)行使用不同參數(shù)設(shè)置的內(nèi)容分析 相對(duì)應(yīng)。詳細(xì)描述現(xiàn)在將詳細(xì)參考各優(yōu)選實(shí)施例,其示例在各附圖中示出。盡管將結(jié)合各優(yōu)選實(shí)施 例來(lái)描述本發(fā)明,但可以理解,其并不旨在將本發(fā)明限于這些實(shí)施例。相反,本發(fā)明旨在涵 蓋可被包括在權(quán)利要求書(shū)所定義的本發(fā)明的精神和范圍內(nèi)的替換、修改和等效技術(shù)方案。 此外,在該詳細(xì)描述中,闡明了眾多具體細(xì)節(jié)以提供對(duì)本發(fā)明的全面理解。然而,本領(lǐng)域普 通技術(shù)人員顯然可以理解,無(wú)須這些具體細(xì)節(jié)也可以實(shí)現(xiàn)本發(fā)明。在其他情況下,未詳細(xì)描 述公知的方法、過(guò)程、組件和電路以免不必要地使本發(fā)明的各方面顯得晦澀難懂。概覽對(duì)文件進(jìn)行基于內(nèi)容的索引比對(duì)文件進(jìn)行非基于內(nèi)容的索引需要更多努力,尤其 是對(duì)非文本文件(例如,音頻文件、視頻文件、圖像文件、圖形文件等)而言。然而,如果索 引生成是分布式的并且如果共享分布式索引生成的結(jié)果,則基于內(nèi)容的索引對(duì)任何類(lèi)型的 文件而言都是切實(shí)可行的。本文描述的是一種特別地用于對(duì)文件內(nèi)容進(jìn)行分布式索引的技 術(shù)。文件可以是文本文件或非文本文件(例如,音頻文件、視頻文件、圖像文件、以及圖形文 件等)。根據(jù)各實(shí)施例,對(duì)文件進(jìn)行基于內(nèi)容的索引涉及確定該文件的基于內(nèi)容的索引信 息是否可從外部源獲得。任何單個(gè)設(shè)備以及任何設(shè)備網(wǎng)絡(luò)都是外部源的示例。這避免重復(fù) 已執(zhí)行的內(nèi)容分析,尤其對(duì)于非文本文件而言內(nèi)容分析是耗時(shí)且計(jì)算密集的。如果基于內(nèi) 容的索引信息可用,則從外部源接收它并存儲(chǔ)它。如果基于內(nèi)容的索引信息不可用或不完 整,則生成并存儲(chǔ)該文件的基于內(nèi)容的索引信息。此外,與外部源共享所生成的基于內(nèi)容的 索引信息。一旦執(zhí)行了該文件的內(nèi)容分析從而生成了該文件的基于內(nèi)容的索引信息,則在 需要時(shí)該基于內(nèi)容的索引信息是可用并可共享的。不需要重復(fù)對(duì)該文件的同一內(nèi)容分析。
4
通過(guò)分布索引生成并共享該分布式索引生成的結(jié)果提供了一種對(duì)文件進(jìn)行基于 內(nèi)容的索引的切實(shí)可行的方式。基于內(nèi)容的索引信息能以各種方式變化。執(zhí)行不同類(lèi)型的 內(nèi)容分析、使用多個(gè)參數(shù)設(shè)置來(lái)進(jìn)行內(nèi)容分析、以及聚集對(duì)文件的不同部分執(zhí)行的內(nèi)容分 析是使基于內(nèi)容的索引信息變化的示例。以下討論將以對(duì)用于各實(shí)施例的索引源環(huán)境的描述開(kāi)始。討論隨后進(jìn)行至對(duì)分布 式的基于內(nèi)容的索引技術(shù)的描述。索引源環(huán)境根據(jù)各實(shí)施例,生成基于內(nèi)容的索引信息的時(shí)間和計(jì)算負(fù)擔(dān)被分布給任何類(lèi)型的 多個(gè)設(shè)備。基于內(nèi)容的索引信息指的是從分析文件的內(nèi)容而生成的索引信息。此外,一個(gè) 設(shè)備所生成的基于內(nèi)容的索引信息與其他設(shè)備進(jìn)行共享。如果第一設(shè)備已經(jīng)執(zhí)行了對(duì)文件 的內(nèi)容分析而生成了該文件的基于內(nèi)容的索引信息,則第二設(shè)備不需要對(duì)該文件重復(fù)同一 內(nèi)容分析,因?yàn)榈谝辉O(shè)備所生成的基于內(nèi)容的索引信息是可用的并可與第二設(shè)備共享。艮口, 外部源可以提供該文件的基于內(nèi)容的索引信息以避免對(duì)該文件進(jìn)行內(nèi)容分析以生成該基 于內(nèi)容的索引信息的時(shí)間和計(jì)算負(fù)擔(dān)。存在著協(xié)作以確保不重復(fù)基于內(nèi)容的索引信息的繁 重生成。外部源可以是任何類(lèi)型。外部源的示例包括計(jì)算機(jī)、服務(wù)器、存儲(chǔ)介質(zhì)、媒體播放 器、以及電話。在一實(shí)施例中,外部源被實(shí)現(xiàn)成集中式索引源。即,文件的基于內(nèi)容的索引 信息是在集中式索引源處收集的,其接收對(duì)文件的基于內(nèi)容的索引信息的請(qǐng)求并通過(guò)在所 請(qǐng)求的基于內(nèi)容的索引信息可用的情況下發(fā)送該信息來(lái)對(duì)這些請(qǐng)求作出響應(yīng)。這一集中式 索引源環(huán)境在圖1中描繪并在以下詳細(xì)描述。在一實(shí)施例中,外部源被實(shí)現(xiàn)成分散式索引 源。即,文件的基于內(nèi)容的索引信息以分布式方式存儲(chǔ)在多個(gè)分散式索引源之中。每一分 散式索引源都在需要時(shí)共享其各自的基于內(nèi)容的索引信息。這一分散式索引源環(huán)境在圖2 中描繪并在以下詳細(xì)描述。圖1是根據(jù)各實(shí)施例的集中式索引源環(huán)境100的框圖。如圖1所示,集中式索引源 環(huán)境100包括中央索引源50和多個(gè)設(shè)備10、20、30及40。中央索引源50個(gè)多個(gè)設(shè)備10、 20、30及40都耦合到網(wǎng)絡(luò)80。網(wǎng)絡(luò)80可以是因特網(wǎng)。設(shè)備10、20、30及40可以是任何類(lèi) 型的設(shè)備。計(jì)算機(jī)、服務(wù)器、存儲(chǔ)介質(zhì)、媒體播放器、以及電話是設(shè)備類(lèi)型的示例。應(yīng)當(dāng)理解, 集中式索引源環(huán)境100可具有其他配置。設(shè)備A 10、設(shè)備B 20、設(shè)備C 30及設(shè)備D 40中的每一個(gè)都包括處理器(例如,分 別是處理器14A-14D)、索引單元(例如,分別是索引單元17A-17D)、存儲(chǔ)單元(例如,分另Ij 是存儲(chǔ)單元12A-12D)、以及網(wǎng)絡(luò)通信單元(例如,分別是網(wǎng)絡(luò)通信單元16A-16D)。此外,設(shè) 備A 10、設(shè)備B 20、設(shè)備C 30及設(shè)備D 40分別經(jīng)由連接15、連接25、連接35及連接45耦 合到網(wǎng)絡(luò)80。連接15、25、35及45可以是有線的或是無(wú)線的。每一索引單元17A-17D分別可用于利用相應(yīng)處理器14A-14D來(lái)請(qǐng)求并從中央索引 源50接收文件的基于內(nèi)容的索引信息,中央索引源50是基于內(nèi)容的索引信息的外部源。接 收到的基于內(nèi)容的索引信息可以存儲(chǔ)在相應(yīng)的存儲(chǔ)單元12A-12D中。此外,每一索引單元 17A-17D可用于利用相應(yīng)處理器14A-14D來(lái)生成文件的基于內(nèi)容的索引信息。所生成的基 于內(nèi)容的索引信息可以存儲(chǔ)在相應(yīng)的存儲(chǔ)單元12A-12D中。此外,所生成的基于內(nèi)容的索 引信息與中央索引源50共享。結(jié)果,所生成的基于內(nèi)容的索引信息可以經(jīng)由中央索引源50
5來(lái)與設(shè)備10、20、30及40中的任一個(gè)進(jìn)行共享。同樣,每一索引單元17A-17D可用于利用 相應(yīng)處理器14A-14D來(lái)創(chuàng)建包括從中央索引源50接收到的基于內(nèi)容的索引信息和所生成 的基于內(nèi)容的索引信息的索引。在一實(shí)施例中,代替將從中央索引源50請(qǐng)求其基于內(nèi)容的索引信息的文件或生 成了其基于內(nèi)容的索引信息的文件發(fā)送到中央索引源50,發(fā)送該文件的唯一標(biāo)識(shí)符。發(fā)送 文件是不切實(shí)際或不方便的,尤其是在該文件具有大量?jī)?nèi)容的情況下。唯一標(biāo)識(shí)符比文件 小。為了維持文件的內(nèi)容的私密性,唯一標(biāo)識(shí)符標(biāo)識(shí)該文件而不公開(kāi)該文件的內(nèi)容。在一 實(shí)施例中,每一索引單元17A-17D可用于利用相應(yīng)處理器14A-14D來(lái)創(chuàng)建文件的唯一散列 (例如,MD5(消息摘要算法5)散列),其中該散列是唯一標(biāo)識(shí)符。對(duì)具有相同內(nèi)容的任何 兩個(gè)文件而言,散列通常是相同的。出于速度、方便、以及私密性的目的,接收到的文件的基 于內(nèi)容的索引信息與該文件的散列相關(guān)聯(lián)。類(lèi)似地,所生成的文件的基于內(nèi)容的索引信息 與該文件的散列相關(guān)聯(lián)。在一實(shí)施例中,將安全特征添加到文件的基于內(nèi)容的索引信息。該安全特征可以 是數(shù)字簽名。評(píng)估從中央索引源50接收到的基于內(nèi)容的索引信息的安全特征來(lái)確定其是 否可信?;谠撛u(píng)估,作出是否存儲(chǔ)和使用接收到的基于內(nèi)容的索引信息的決定。在一實(shí) 施例中,每一索引單元17A-17D可用于利用相應(yīng)處理器14A-14D來(lái)評(píng)估安全特征并將該安 全特征添加到所生成的基于內(nèi)容的索引信息。在一實(shí)施例中,設(shè)備A 10、設(shè)備B 20、設(shè)備C 30及設(shè)備D 40中的每一個(gè)可用于使 用被用來(lái)生成與中央索引源50共享的基于內(nèi)容的索引信息的索引工具(例如,軟件)的數(shù) 字簽名來(lái)對(duì)該基于內(nèi)容的索引信息進(jìn)行簽名。這允許中央索引源50確定基于內(nèi)容的索引 信息的質(zhì)量并確定其可信性。在一實(shí)施例中,每一索引單元17A-17D包括內(nèi)容分析器(例如,分別是內(nèi)容分析器 11A-11D)和搜索單元13 (分別是搜索單元13A-13D)。每一搜索單元13A-17D可用于利用 相應(yīng)處理器14A-14D來(lái)搜索包括從中央索引源50接收到的基于內(nèi)容的索引信息和所生成 的基于內(nèi)容的索引信息的索引。繼續(xù),每一內(nèi)容分析器11A-17D可用于利用相應(yīng)處理器14A-14D來(lái)生成文件的基 于內(nèi)容的索引信息。文件可以是文本文件或非文本文件(例如,音頻文件、視頻文件、圖像 文件、以及圖形文件等)。每一內(nèi)容分析器11A-11D對(duì)文件的內(nèi)容執(zhí)行內(nèi)容分析。該內(nèi)容分 析可以是任何類(lèi)型的內(nèi)容分析。字符分析、語(yǔ)音分析、視頻分析、以及聲學(xué)分析是內(nèi)容分析 類(lèi)型的一些示例。字母數(shù)字字符、所講詞語(yǔ)、視覺(jué)元素、以及音樂(lè)特征的檢測(cè)和識(shí)別是通過(guò) 內(nèi)容分析生成的基于內(nèi)容的索引信息的一些示例。如上所述,尤其是生成非文本文件的基于內(nèi)容的索引信息需要大量計(jì)算資源并且 是很耗時(shí)的。相應(yīng)設(shè)備10、20、30及40的每一內(nèi)容分析器1IA-IID和處理器14A-14D可以 對(duì)文件的整個(gè)內(nèi)容執(zhí)行內(nèi)容分析。然而,文件內(nèi)容的量越大,相應(yīng)設(shè)備10、20、30及40的每 一內(nèi)容分析器11A-11D和處理器14A-14D能夠?qū)υ撐募恼麄€(gè)內(nèi)容執(zhí)行內(nèi)容分析就越不實(shí) 際,尤其是在其中進(jìn)行基于內(nèi)容的索引是后臺(tái)操作的情況下。在一實(shí)施例中,相應(yīng)設(shè)備10、 20、30及40的每一內(nèi)容分析器11A-11D和處理器14A-14D只對(duì)文件的一部分內(nèi)容執(zhí)行內(nèi)容 分析。即,內(nèi)容分析被分成對(duì)相應(yīng)設(shè)備10、20、30及40的每一內(nèi)容分析器11A-11D和處理 器14A-14D執(zhí)行起來(lái)更實(shí)際的多個(gè)內(nèi)容分析任務(wù)。每一內(nèi)容分析任務(wù)都與對(duì)文件內(nèi)容的不同部分執(zhí)行內(nèi)容分析以生成基于內(nèi)容的索引信息的部分組相對(duì)應(yīng)。例如,可以執(zhí)行與1小 時(shí)音頻文件的5分鐘段相對(duì)應(yīng)的12個(gè)內(nèi)容分析任務(wù)以生成基于內(nèi)容的索引信息的12個(gè)單 獨(dú)的部分組。基于內(nèi)容的索引信息的這些單獨(dú)生成的部分組被組合或聚集以形成該文件的 完整的基于內(nèi)容的索引信息。這一部分索引可以按協(xié)調(diào)方式或按非協(xié)調(diào)方式來(lái)實(shí)現(xiàn)。在一實(shí)施例中,協(xié)調(diào)方式 涉及中央索引源50對(duì)將文件內(nèi)容劃分成多個(gè)部分進(jìn)行管理和控制,其中對(duì)每一文件內(nèi)容 部分執(zhí)行內(nèi)容分析的結(jié)果是基于內(nèi)容的索引信息的部分組。因此,中央索引源50響應(yīng)于來(lái) 自設(shè)備(設(shè)備A 10、設(shè)備B 20、設(shè)備C 30或設(shè)備D 40)的請(qǐng)求來(lái)選擇各文件內(nèi)容部分之一 并將其分配給該設(shè)備,從而避免對(duì)同一文件內(nèi)容部分進(jìn)行重復(fù)內(nèi)容分析。在一實(shí)施例中,非 協(xié)調(diào)方式涉及任何設(shè)備(例如,設(shè)備A 10、設(shè)備B 20、設(shè)備C 30或設(shè)備D 40)挑選文件內(nèi) 容的一隨機(jī)部分、對(duì)該隨機(jī)部分執(zhí)行內(nèi)容分析以生成基于內(nèi)容的索引信息的部分組、以及 將所生成的基于內(nèi)容的索引信息的部分組與索引源50 (或以下參考圖2描述的對(duì)等網(wǎng)絡(luò)) 進(jìn)行共享。因此,將所生成的基于內(nèi)容的索引信息的部分組與其他設(shè)備所生成的基于內(nèi)容 的索引信息的任何其他部分組進(jìn)行歸并是每一設(shè)備的責(zé)任。因?yàn)榇嬖谠S多類(lèi)型的內(nèi)容分析,所以對(duì)文件執(zhí)行不同類(lèi)型的內(nèi)容分析是有利的。 在一實(shí)施例中,相應(yīng)設(shè)備10、20、30及40的每一內(nèi)容分析器11A-11D和處理器14A-14D執(zhí) 行文件的內(nèi)容分析以實(shí)現(xiàn)對(duì)該文件的若干類(lèi)型的內(nèi)容分析的執(zhí)行。即,基于內(nèi)容的索引包 括各種索引模式,每一種索引模式都與不同類(lèi)型的內(nèi)容分析相對(duì)應(yīng)。對(duì)于每一種索引模式, 存在與對(duì)文件執(zhí)行對(duì)應(yīng)類(lèi)型的內(nèi)容分析相對(duì)應(yīng)的一組基于內(nèi)容的索引信息。作為示例,語(yǔ) 音分析可以與第一索引模式相對(duì)應(yīng),視頻分析可以與第二索引模式相對(duì)應(yīng),以及聲學(xué)分析 可以與文件的基于內(nèi)容的多模索引的第三索引模式相對(duì)應(yīng)。因此,可以滿足不同的索引搜 索需求。這一多模索引可以按協(xié)調(diào)方式或按非協(xié)調(diào)方式來(lái)實(shí)現(xiàn)。在一實(shí)施例中,協(xié)調(diào)方式 涉及中央索引源50負(fù)責(zé)響應(yīng)于來(lái)自設(shè)備(設(shè)備A 10、設(shè)備B 20、設(shè)備C 30或設(shè)備D 40)的 請(qǐng)求來(lái)選擇用于生成并共享的索引模式并且將其分配給該設(shè)備,從而防止重復(fù)努力。在一 實(shí)施例中,非協(xié)調(diào)方式涉及任何設(shè)備(例如,設(shè)備A 10、設(shè)備B 20、設(shè)備C 30或設(shè)備D 40) 挑選各索引模式中的其基于內(nèi)容的索引信息當(dāng)前不可用的隨機(jī)一種索引模式。生成與隨機(jī) 選擇的索引模式相對(duì)應(yīng)的基于內(nèi)容的索引信息并將其與中央索引源50 (或以下參考圖2描 述的對(duì)等網(wǎng)絡(luò))進(jìn)行共享。尤其是對(duì)于非文本文件而言,考慮到基于內(nèi)容的索引信息的準(zhǔn)確度可能變化很 大,所以準(zhǔn)確度的提高是合乎需要的。在一實(shí)施例中,相應(yīng)設(shè)備10、20、30及40的每一內(nèi)容 分析器11A-11D和處理器14A-14D執(zhí)行文件的內(nèi)容分析以實(shí)現(xiàn)對(duì)該文件執(zhí)行使用不同參數(shù) 設(shè)置的內(nèi)容分析。即,基于內(nèi)容的索引包括各種索引表現(xiàn)形式,每一種表現(xiàn)形式與執(zhí)行使用 不同參數(shù)設(shè)置的內(nèi)容分析相對(duì)應(yīng)。對(duì)于每一種索引表現(xiàn)形式,存在與對(duì)文件執(zhí)行使用對(duì)應(yīng) 的參數(shù)設(shè)置的內(nèi)容分析相對(duì)應(yīng)的一組基于內(nèi)容的索引信息。將各組基于內(nèi)容的索引信息進(jìn) 行歸并以形成具有比單獨(dú)各組基于內(nèi)容的索引信息更高的準(zhǔn)確度的經(jīng)歸并的基于內(nèi)容的 索引信息。作為示例,使用基于對(duì)話語(yǔ)音的隱馬爾科夫模型參數(shù)設(shè)置的語(yǔ)音識(shí)別分析可以 與第一索引表現(xiàn)形式相對(duì)應(yīng),使用基于廣播新聞?wù)Z音的隱馬爾科夫模型參數(shù)設(shè)置的語(yǔ)音識(shí) 別分析可以與第二索引表現(xiàn)形式相對(duì)應(yīng),并且使用基于干凈閱讀語(yǔ)音的隱馬爾科夫模型參數(shù)設(shè)置的語(yǔ)音識(shí)別分析可以與文件的基于內(nèi)容的多表現(xiàn)形式索引的第三索引表現(xiàn)形式相 對(duì)應(yīng)??梢允褂弥T如ROVER(識(shí)別器輸出投票誤差減少)等技術(shù)來(lái)歸并來(lái)自第一、第二、以及 第三索引表現(xiàn)形式的各組基于內(nèi)容的索引信息以形成比來(lái)自第一、第二、以及第三索引表 現(xiàn)形式的單獨(dú)各組基于內(nèi)容的索引信息具有更高準(zhǔn)確度的經(jīng)歸并的基于內(nèi)容的索引信息。這一多表現(xiàn)形式索引可以按協(xié)調(diào)方式或按非協(xié)調(diào)方式來(lái)實(shí)現(xiàn)。在一實(shí)施例中,協(xié) 調(diào)方式涉及中央索引源50負(fù)責(zé)響應(yīng)于來(lái)自設(shè)備(設(shè)備A 10、設(shè)備B 20、設(shè)備C 30或設(shè)備 D 40)的請(qǐng)求來(lái)選擇用于生成并共享的索引表現(xiàn)形式并且將其分配給該設(shè)備,從而避免重 復(fù)努力。在一實(shí)施例中,非協(xié)調(diào)方式涉及任何設(shè)備(例如,設(shè)備A 10、設(shè)備B 20、設(shè)備C 30 或設(shè)備D 40)挑選各索引表現(xiàn)形式中的其基于內(nèi)容的索引信息當(dāng)前不可用的隨機(jī)一種索 引表現(xiàn)形式。生成與隨機(jī)選擇的索引表現(xiàn)形式相對(duì)應(yīng)的基于內(nèi)容的索引信息并將其與中央 索引源50 (或以下參考圖2描述的對(duì)等網(wǎng)絡(luò))進(jìn)行共享。上述部分索引、多模索引、以及多表現(xiàn)形式索引可以按各種方式來(lái)組合。使用部分 索引完成的索引模式、使用部分索引完成的索引表現(xiàn)形式、以及具有各種索引表現(xiàn)形式的 單獨(dú)索引模式都是將部分索引、多模索引、以及多表現(xiàn)形式索引進(jìn)行組合的示例。此外,實(shí) 現(xiàn)部分索引、多模索引、以及多表現(xiàn)形式索引是因?yàn)閮?nèi)容分析的分布和分布式內(nèi)容分析的 結(jié)果的共享。返回到圖1,中央索引源50包括處理器51、索引單元54、存儲(chǔ)單元52、以及網(wǎng)絡(luò)通 信單元56。此外,中央索引源50經(jīng)由連接55耦合到網(wǎng)絡(luò)80。連接55可以是有線的或是 無(wú)線的。在一實(shí)施例中,中央索引源50是服務(wù)器。存儲(chǔ)單元52存儲(chǔ)文件的基于內(nèi)容的索引信息。在一實(shí)施例中,文件的基于內(nèi)容的 索引信息是從設(shè)備10、20、30、及40接收的。在一實(shí)施例中,中央索引源50可以生成文件的 基于內(nèi)容的索引信息并將其存儲(chǔ)在存儲(chǔ)單元52中。出于速度、方便、以及私密性的目的,接 收到的文件的基于內(nèi)容的索引信息與該文件的散列相關(guān)聯(lián)。類(lèi)似地,所生成的文件的基于 內(nèi)容的索引信息與該文件的散列相關(guān)聯(lián)。在一實(shí)施例中,中央索引源50幫助協(xié)調(diào)上述部分 索弓丨、多模索弓丨、以及多表現(xiàn)方式索引。索引單元54可用于利用處理器51來(lái)接收對(duì)文件的基于內(nèi)容的索引信息的請(qǐng)求, 并將文件的基于內(nèi)容的索引信息發(fā)送到設(shè)備10、20、30、及40。此外,在一實(shí)施例中,索引單 元54可用于利用處理器51來(lái)生成文件的基于內(nèi)容的索引信息。在一實(shí)施例中,中央索引源50被配置成基于存儲(chǔ)在存儲(chǔ)單元52中的基于內(nèi)容的 索引信息來(lái)維護(hù)索引,并被配置成允許對(duì)該索引執(zhí)行搜索。索引單元54還可用于利用處理 器51來(lái)搜索網(wǎng)絡(luò)80(例如,因特網(wǎng))以發(fā)現(xiàn)供包括在該索引的范圍中的文件。同樣,索引 單元54可用于利用處理器51來(lái)接收并處理從設(shè)備10、20、30、及40接收到的基于內(nèi)容的索 引信息以檢測(cè)并消除不規(guī)則性。不規(guī)則性的示例包括惡意索引信息、有害索引信息、以及非 法索引信息。此外,索引單元54可用于利用處理器51來(lái)生成文件的非基于內(nèi)容的索引信 息。非基于內(nèi)容的索引信息指的是從與文件相關(guān)聯(lián)的除該文件的內(nèi)容之外的任何數(shù)據(jù)生成 的索引信息。元數(shù)據(jù)、文件名、以及文件描述是非基于內(nèi)容的索引信息的源的示例。所生成 的非基于內(nèi)容的索引信息可以存儲(chǔ)在存儲(chǔ)單元52中并可以是所維護(hù)的索引的一部分。同 樣,所生成的文件的非基于內(nèi)容的索引信息與該文件的散列相關(guān)聯(lián)。因此,對(duì)于包括在所維 護(hù)的索引的范圍中的新文件,索引信息可以是從設(shè)備10、20、30、及40接收到的基于內(nèi)容的索引信息;可以是索引單元54和處理器51所生成的基于內(nèi)容的索引信息;和/或可以是索 引單元54和處理器51所生成的非基于內(nèi)容的索引信息。圖2是根據(jù)各實(shí)施例的分散式索引源環(huán)境200的框圖。除非在以下說(shuō)明,否則參 考圖1的討論適用于圖2。如圖2所示,分散式索引源環(huán)境200包括耦合到網(wǎng)絡(luò)80的多個(gè) 設(shè)備10、20、30、及40。網(wǎng)絡(luò)80可以是因特網(wǎng)。設(shè)備10、20、30及40可以是任何類(lèi)型的設(shè) 備。計(jì)算機(jī)、服務(wù)器、存儲(chǔ)介質(zhì)、媒體播放器、以及電話是設(shè)備類(lèi)型的示例。應(yīng)當(dāng)理解,分散 式索引源環(huán)境200可具有其他配置。設(shè)備10、20、30、及40被配置成對(duì)等網(wǎng)絡(luò)。每一設(shè)備10、20、30、及40將其本地生
成的基于內(nèi)容的索引信息展示給對(duì)等網(wǎng)絡(luò)。該本地生成的基于內(nèi)容的索引信息可由對(duì)等網(wǎng) 絡(luò)的其他設(shè)備通過(guò)在該對(duì)等網(wǎng)絡(luò)中執(zhí)行對(duì)該本地生成的基于內(nèi)容的索引信息的搜索來(lái)發(fā) 現(xiàn)。隨后,從對(duì)等網(wǎng)絡(luò)的適當(dāng)設(shè)備10、20、30、及40請(qǐng)求并接收所需的基于內(nèi)容的索引信息, 其中對(duì)等網(wǎng)絡(luò)的適當(dāng)設(shè)備10、20、30、及40對(duì)于對(duì)等網(wǎng)絡(luò)的發(fā)出請(qǐng)求的設(shè)備而言是基于內(nèi) 容的索引信息的外部源。即,參考圖1描述的向中央索引源50的對(duì)基于內(nèi)容的索引信息的 請(qǐng)求由圖2中描繪的對(duì)于對(duì)等網(wǎng)絡(luò)中的本地生成的基于內(nèi)容的索引信息的搜索來(lái)替換。此 外,參考圖1描述的將基于內(nèi)容的索引信息傳輸?shù)街醒胨饕?0由圖2中描繪的將本地生 成的基于內(nèi)容的索引信息展示給對(duì)等網(wǎng)絡(luò)的發(fā)布操作來(lái)替換。因此,基于內(nèi)容的索引信息 經(jīng)由對(duì)等網(wǎng)絡(luò)來(lái)共享。分布式的基于內(nèi)容的索引技術(shù)以下討論詳細(xì)闡明分布式的基于內(nèi)容的索引技術(shù)的操作。參考圖3-6,流程圖 300、400、500、及600各自示出分布式的基于內(nèi)容的索引的各實(shí)施例所使用的示例步驟。流 程圖300、400、500、及600包括在各實(shí)施例中由處理器在存儲(chǔ)于任何類(lèi)型的計(jì)算機(jī)可讀介 質(zhì)中的計(jì)算機(jī)可讀和計(jì)算機(jī)可執(zhí)行指令的控制下實(shí)現(xiàn)的各種過(guò)程。雖然在流程圖300、400、 500及600中公開(kāi)了各具體步驟,但這些步驟是示例。即,各實(shí)施例很好地適于執(zhí)行各種其 他步驟或流程圖300、400、500、及600中所描述的步驟的變型。可以明白,流程圖300、400、 500、及600中的步驟可以用與所呈現(xiàn)的不同的次序來(lái)執(zhí)行,并且并非要執(zhí)行流程圖300、 400、500及600中的全部步驟。圖3示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖300。出于討 論的目的,基于內(nèi)容的索引在參考圖1描述的集中式索引源環(huán)境100中發(fā)生。在設(shè)備A中選擇文件來(lái)進(jìn)行索引(框310)。文件可以是文本文件或非文本文件 (例如,音頻文件、視頻文件、圖像文件、以及圖形文件等)。在一實(shí)施例中,設(shè)備A的索引單 元17A選擇文件。繼續(xù),設(shè)備A 10創(chuàng)建所選文件的唯一散列(例如,MD5 (消息摘要算法5)散列), 其中該散列是唯一標(biāo)識(shí)符(框320)。在一實(shí)施例中,索引單元17A創(chuàng)建該唯一散列。設(shè)備A 10從中央索引源50請(qǐng)求所選文件的基于內(nèi)容的索引信息(框330)。在一 實(shí)施例中,索引單元17A請(qǐng)求基于內(nèi)容的索引信息。該請(qǐng)求包括所選文件的散列而非所選 文件。因此,私密性和速度得到維持,因?yàn)樗x文件未被發(fā)送到中央索引源50。如果中央索引源50具有所選文件的基于內(nèi)容的索引信息,則設(shè)備A 10從中央索 引源50接收并存儲(chǔ)所選文件的基于內(nèi)容的索引信息(框340、框350、及框360)。所選文件 現(xiàn)在可通過(guò)使用接收到的基于內(nèi)容的索引信息來(lái)在設(shè)備A 10中搜索。在一實(shí)施例中,具有
9對(duì)接收到的基于內(nèi)容的索引信息的安全特征(例如,數(shù)字簽名)的評(píng)估,設(shè)備A 10決定是 否存儲(chǔ)和使用該接收到的基于內(nèi)容的索引信息。如果中央索引源50不具有所選文件的基于內(nèi)容的索引信息,則設(shè)備AlO生成并存 儲(chǔ)所選文件的基于內(nèi)容的索引信息并且與中央索引源50共享所生成的基于內(nèi)容的索引信 息(框370、框380、及框390)。在一實(shí)施例中,內(nèi)容分析器IlA對(duì)所選文件執(zhí)行內(nèi)容分析以 生成基于內(nèi)容的索引信息。可以對(duì)所選文件的整個(gè)內(nèi)容執(zhí)行內(nèi)容分析。所選文件現(xiàn)在可通 過(guò)使用所生成的基于內(nèi)容的索引信息來(lái)在設(shè)備A 10中搜索。在一實(shí)施例中,設(shè)備A 10將 所選文件的唯一散列和所生成的基于內(nèi)容的索引信息發(fā)送到中央索引源50。因此,在向中 央索引源50請(qǐng)求的情況下,所選文件的所生成的基于內(nèi)容的索引信息對(duì)設(shè)備B 20、設(shè)備C 30、及設(shè)備D 40可用。圖4示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖400,其中文 件的不同部分是單獨(dú)索引的。即,上述部分索引技術(shù)在圖4中示出。出于討論的目的,基于 內(nèi)容的索引在參考圖1描述的集中式索引源環(huán)境100中發(fā)生。在設(shè)備A中選擇文件來(lái)進(jìn)行索引(框410)。文件可以是文本文件或非文本文件 (例如,音頻文件、視頻文件、圖像文件、以及圖形文件等)。在一實(shí)施例中,設(shè)備A的索引單 元17A選擇文件。繼續(xù),設(shè)備A 10創(chuàng)建所選文件的唯一散列(例如,MD5 (消息摘要算法5)散列), 其中該散列是唯一標(biāo)識(shí)符(框420)。在一實(shí)施例中,索引單元17A創(chuàng)建該唯一散列。設(shè)備A 10從中央索引源50請(qǐng)求所選文件的基于內(nèi)容的索引信息(框430)。在一 實(shí)施例中,索引單元17A請(qǐng)求基于內(nèi)容的索引信息。該請(qǐng)求包括所選文件的散列而非所選 文件。因此,私密性和速度得到維持,因?yàn)樗x文件未被發(fā)送到中央索引源50。如果中央索引源50具有所選文件的基于內(nèi)容的索引信息并且該基于內(nèi)容的索引 信息是完整的,則設(shè)備A 10從中央索引源50接收并存儲(chǔ)所選文件的基于內(nèi)容的索引信息 (框440、框450、框455、及框460)。所選文件現(xiàn)在可通過(guò)使用接收到的基于內(nèi)容的索引信 息來(lái)在設(shè)備A 10中搜索。與參考圖3的討論相類(lèi)似,在一實(shí)施例中,設(shè)備A 10基于對(duì)接收 到的基于內(nèi)容的索引信息的安全特征(例如,數(shù)字簽名)的評(píng)估來(lái)決定是否存儲(chǔ)并使用接 收到的基于內(nèi)容的索引信息。如果中央索引源50不具有所選文件的基于內(nèi)容的索引信息或者如果所選文件的 基于內(nèi)容的索引信息不完整,則中央索引源50選擇所選文件的一部分,向設(shè)備A 10分配與 對(duì)文件內(nèi)容的所選部分執(zhí)行內(nèi)容分析以生成基于內(nèi)容的索引信息的部分組相對(duì)應(yīng)的內(nèi)容 分析任務(wù),并發(fā)送來(lái)自已經(jīng)執(zhí)行的內(nèi)容分析任務(wù)的基于內(nèi)容的索引信息的任何可用的部分 組(框440、框450、框465、及框470)。例如,該部分可以是非文本文件(例如,音頻文件、 視頻文件等)的有限段(例如,5分鐘段)。圖4的部分索引技術(shù)的一個(gè)好處是所選文件現(xiàn)在可在設(shè)備A 10中在來(lái)自已經(jīng)執(zhí) 行的內(nèi)容分析任務(wù)的被發(fā)送到設(shè)備A 10的基于內(nèi)容的索引信息的任何可用部分組的程度 上進(jìn)行搜索的事實(shí)。即,在能夠?qū)λx文件執(zhí)行搜索之前不必等待直至對(duì)整個(gè)所選文件進(jìn) 行了索引。這降低了所選文件可用的時(shí)間與所選文件可被搜索的時(shí)間之間的滯后時(shí)間。設(shè)備A 10對(duì)文件內(nèi)容的所選部分(例如,5分鐘段)執(zhí)行內(nèi)容分析以生成基于內(nèi) 容的索引信息的部分組(框475)。此外,設(shè)備A 10將所生成的基于內(nèi)容的索引信息的部分組與從中央索引源50接收到的基于內(nèi)容的索引信息的任何部分組進(jìn)行歸和存儲(chǔ),并與中 央索引源50共享所生成的基于內(nèi)容的索引信息的部分組(框480和框485)。在一實(shí)施例 中,內(nèi)容分析器IlA對(duì)文件內(nèi)容的所選部分執(zhí)行內(nèi)容分析。所選文件現(xiàn)在可在設(shè)備A 10中 在所生成的基于內(nèi)容的索引信息的部分組的程度上進(jìn)一步搜索。在一實(shí)施例中,設(shè)備A 10 將所選文件的唯一散列和所生成的基于內(nèi)容的索引信息的部分組發(fā)送到中央索引源50。中 央索引源50將所生成的基于內(nèi)容的索引信息的部分組與來(lái)自已經(jīng)執(zhí)行的內(nèi)容分析任務(wù)的 基于內(nèi)容的索引信息的任何可用部分組相組合。如果該組合指示所選文件的基于內(nèi)容的索 引信息的完整性,則中央索引源50將所選文件指定為具有完整的基于內(nèi)容的索引信息。同 樣,在向中央索引源50請(qǐng)求的情況下,所生成的所選文件的基于內(nèi)容的索引信息的部分組 對(duì)設(shè)備B 20、設(shè)備C 30、及設(shè)備D 40可用。在一實(shí)施例中,如果所選文件的基于內(nèi)容的索 引信息是不完整的,則設(shè)備A 10調(diào)度對(duì)中央索引源50中的基于內(nèi)容的索引信息的新部分 組的周期性檢查。圖5示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖500,其中基 于內(nèi)容的索引包括各種索引模式,每一種索引模式都與不同類(lèi)型的內(nèi)容分析相對(duì)應(yīng)。即,上 述多模索引技術(shù)在圖5中示出。出于討論的目的,基于內(nèi)容的索引在參考圖1描述的集中 式索引源環(huán)境100中發(fā)生。定義各索引模式。即,指定索引模式的數(shù)量(例如,三個(gè))和每 一模式的內(nèi)容分析類(lèi)型(例如,語(yǔ)音分析、視頻分析、以及聲學(xué)分析)。在設(shè)備A中選擇文件來(lái)進(jìn)行索引(框510)。文件可以是文本文件或非文本文件 (例如,音頻文件、視頻文件、圖像文件、以及圖形文件等)。在一實(shí)施例中,設(shè)備A的索引單 元17A選擇文件。繼續(xù),設(shè)備A 10創(chuàng)建所選文件的唯一散列(例如,MD5 (消息摘要算法5)散列), 其中該散列是唯一標(biāo)識(shí)符(框520)。在一實(shí)施例中,索引單元17A創(chuàng)建該唯一散列。設(shè)備A 10從中央索引源50請(qǐng)求所選文件的每一索引模式(框530),其中對(duì)于每 一索引模式,存在與對(duì)所選文件執(zhí)行對(duì)應(yīng)類(lèi)型的內(nèi)容分析相對(duì)應(yīng)的一組基于內(nèi)容的索引信 息。在一實(shí)施例中,索引單元17A請(qǐng)求所選文件的每一索引模式。該請(qǐng)求包括所選文件的散 列而非所選文件。因此,私密性和速度得到維持,因?yàn)樗x文件未被發(fā)送到中央索引源50。如果中央索引源50具有所選文件的索引模式并且這些索引模式是完整的,則設(shè) 備A 10從中央索引源50接收并存儲(chǔ)這些索引模式的各組基于內(nèi)容的索引信息(框540、 框550、框555、及框560)。所選文件現(xiàn)在可在設(shè)備A 10中在中央索引源50所發(fā)送的各索 引模式的各組基于內(nèi)容的索引信息的程度上搜索。與參考圖3和圖4的討論相類(lèi)似,在一 實(shí)施例中,設(shè)備A 10基于對(duì)接收到的各組基于內(nèi)容的索引信息的安全特征(例如,數(shù)字簽 名)的評(píng)估來(lái)決定是否存儲(chǔ)并使用所接收到的各索引模式的各組基于內(nèi)容的索引信息。如果中央索引源50不具有所選文件的索引模式或者如果這些索引模式不完整, 則中央索引源50選擇所選文件的索引模式,分配設(shè)備A 10來(lái)對(duì)所選文件執(zhí)行與所選索引 模式相對(duì)應(yīng)的類(lèi)型的內(nèi)容分析以生成所選索引模式的一組基于內(nèi)容的索引信息,并發(fā)送任 何可用索引模式的各組基于內(nèi)容的索引信息(框540、框550、框565、及框570)。所選文件 先在可在設(shè)備A 10中在中央索引源50所發(fā)送的任何可用索引模式的任何各組基于內(nèi)容的 索引信息的程度上搜索。設(shè)備A 10對(duì)文件內(nèi)容執(zhí)行與所選索引模式相對(duì)應(yīng)的內(nèi)容分析(例如,語(yǔ)音分析)以生成并存儲(chǔ)所選索引模式的一組基于內(nèi)容的索引信息,并且與中央索引源50共享所生 成的所選索引模式的該組基于內(nèi)容的索引信息(框575、框580、及框585)。在一實(shí)施例中, 內(nèi)容分析器IlA執(zhí)行與所選索引模式相對(duì)應(yīng)的內(nèi)容分析。所選文件現(xiàn)在可在設(shè)備A 10中在 所生成的所選索引模式的該組基于內(nèi)容的索引信息的程度上進(jìn)一步搜索。在一實(shí)施例中, 設(shè)備A 10將唯一散列和所生成的所選索引模式的該組基于內(nèi)容的索引信息發(fā)送到中央索 引源50。中央索引源50收集所生成的所選索引模式的該組基于內(nèi)容的索引信息與所選文 件的任何可用索引模式的任何各組基于內(nèi)容的索引信息。如果該集合指示所選文件的索引 模式的完整性,則中央索引源50將所選文件指定為具有完整的索引模式。同樣,在向中央 索引源50請(qǐng)求的情況下,所生成的所選文件的所選索引模式的該組基于內(nèi)容的索引信息 對(duì)設(shè)備B 20、設(shè)備C 30、及設(shè)備D 40可用。在一實(shí)施例中,如果所選文件的索引模式是不 完整的,則設(shè)備A 10調(diào)度對(duì)中央索引源50中的所選文件的索引模式的新的一(各)組基 于內(nèi)容的索引信息的周期性檢查。圖6示出根據(jù)各實(shí)施例的用于對(duì)文件進(jìn)行基于內(nèi)容的索引的流程圖600,其中基 于內(nèi)容的索引包括各種索引表現(xiàn)形式,每一種表現(xiàn)形式都與執(zhí)行使用不同參數(shù)設(shè)置的內(nèi)容 分析相對(duì)應(yīng)。即,上述多表現(xiàn)形式索引技術(shù)在圖6中示出。出于討論的目的,基于內(nèi)容的索 引在參考圖1描述的集中式索引源環(huán)境100中發(fā)生。定義各索引表現(xiàn)形式。即,指定索引 表現(xiàn)形式的數(shù)量(例如,三個(gè))、內(nèi)容分析類(lèi)型(例如,語(yǔ)音識(shí)別分析)、以及每一索引表現(xiàn) 形式的參數(shù)設(shè)置(例如,基于對(duì)話語(yǔ)音的隱馬爾科夫模型參數(shù)設(shè)置、基于廣播新聞?wù)Z音的 隱馬爾科夫模型參數(shù)設(shè)置、以及基于干凈閱讀語(yǔ)音的隱馬爾科夫模型參數(shù)設(shè)置)。在設(shè)備A中選擇文件來(lái)進(jìn)行索引(框610)。文件可以是文本文件或非文本文件 (例如,音頻文件、視頻文件、圖像文件、以及圖形文件等)。在一實(shí)施例中,設(shè)備A的索引單 元17A選擇文件。繼續(xù),設(shè)備A 10創(chuàng)建所選文件的唯一散列(例如,MD5 (消息摘要算法5)散列), 其中該散列是唯一標(biāo)識(shí)符(框620)。在一實(shí)施例中,索引單元17A創(chuàng)建該唯一散列。設(shè)備A 10從中央索引源50請(qǐng)求所選文件的每一索引表現(xiàn)形式(框630),其中對(duì) 于每一索引表現(xiàn)形式,存在與對(duì)所選文件執(zhí)行使用對(duì)應(yīng)參數(shù)設(shè)置的內(nèi)容分析相對(duì)應(yīng)的一組 基于內(nèi)容的索引信息。將各組基于內(nèi)容的索引信息進(jìn)行歸并以形成具有比單獨(dú)各組基于內(nèi) 容的索引信息更高的準(zhǔn)確度的經(jīng)歸并的基于內(nèi)容的索引信息。在一實(shí)施例中,索引單元17A 請(qǐng)求所選文件的每一索引表現(xiàn)形式。該請(qǐng)求包括所選文件的散列而非所選文件。因此,私 密性和速度得到維持,因?yàn)樗x文件未被發(fā)送到中央索引源50。如果中央索引源50具有所選文件的索引表現(xiàn)形式并且這些索引表現(xiàn)形式是完整 的,則設(shè)備A 10從中央索引源50接收并歸并這些索引表現(xiàn)形式的各組基于內(nèi)容的索引信 息以形成經(jīng)歸并的基于內(nèi)容的索引信息,并存儲(chǔ)該經(jīng)歸并的基于內(nèi)容的索引信息(框640、 框650、框655、框657、及框660)。所選文件現(xiàn)在可在設(shè)備A 10中在經(jīng)歸并的基于內(nèi)容的索 引信息的程度上搜索。與參考圖3、圖4和圖5的討論相類(lèi)似,在一實(shí)施例中,設(shè)備A 10基 于對(duì)接收到的各索引表現(xiàn)形式的各組基于內(nèi)容的索引信息的安全特征(例如,數(shù)字簽名) 的評(píng)估來(lái)決定是否存儲(chǔ)并使用所接收到的各索引表現(xiàn)形式的各組基于內(nèi)容的索引信息。如果中央索引源50不具有所選文件的索引表現(xiàn)形式或者如果這些索引表現(xiàn)形式 不完整,則中央索引源50選擇所選文件的索引表現(xiàn)形式,分配設(shè)備A 10來(lái)執(zhí)行使用與所選
12索引表現(xiàn)形式相對(duì)應(yīng)的參數(shù)設(shè)置的內(nèi)容分析以生成所選索引表現(xiàn)形式的一組基于內(nèi)容的 索引信息,并發(fā)送任何可用索引表現(xiàn)形式的各組基于內(nèi)容的索引信息(框640、框650、框 665、及框670)。所選文件現(xiàn)在可在設(shè)備A 10中在中央索引源所發(fā)送的任何可用索引表現(xiàn) 形式的任何各組基于內(nèi)容的索引信息的程度上搜索。設(shè)備A 10對(duì)該文件內(nèi)容執(zhí)行使用與所選索引表現(xiàn)形式相對(duì)應(yīng)的參數(shù)設(shè)置(例如, 基于對(duì)話語(yǔ)音的隱馬爾科夫模型參數(shù)設(shè)置)的內(nèi)容分析以生成所選索引表現(xiàn)形式的一組 基于內(nèi)容的索引信息,將所生成的所選索引表現(xiàn)形式的該組基于內(nèi)容的索引信息與任何接 收到的任何可用索引表現(xiàn)形式的各組基于內(nèi)容的索引信息相歸并以形成經(jīng)歸并的基于內(nèi) 容的索引信息,存儲(chǔ)該經(jīng)歸并的基于內(nèi)容的索引信息,并與中央索引源50共享所生成的所 選索引表現(xiàn)形式的該組基于內(nèi)容的索引信息(框675、框677、框680、以及框685)。在一實(shí) 施例中,內(nèi)容分析器IlA執(zhí)行使用與索引模式相對(duì)應(yīng)的參數(shù)設(shè)置的內(nèi)容分析。所選文件現(xiàn) 在可在設(shè)備A 10中在所生成的所選索引表現(xiàn)形式的該組基于內(nèi)容的索引信息的程度上進(jìn) 一步搜索。在一實(shí)施例中,設(shè)備A 10將唯一散列和所生成的所選索引表現(xiàn)形式的該組基于 內(nèi)容的索引信息發(fā)送到中央索引源50。中央索引源50收集所生成的所選索引表現(xiàn)形式的 該組基于內(nèi)容的索引信息與所選文件的任何可用索引表現(xiàn)形式的任何各組基于內(nèi)容的索 引信息。如果該集合指示所選文件的索引表現(xiàn)形式的完整性,則中央索引源50將所選文件 指定為具有完整的索引表現(xiàn)形式。同樣,在向中央索引源50請(qǐng)求的情況下,所生成的所選 文件的所選索引表現(xiàn)形式的該組基于內(nèi)容的索引信息對(duì)設(shè)備B 20、設(shè)備C 30、及設(shè)備D 40 可用。在一實(shí)施例中,如果所選文件的索引表現(xiàn)形式是不完整的,則設(shè)備A 10調(diào)度對(duì)中央 索引源50中的所選文件的索引表現(xiàn)形式的新的一(各)組基于內(nèi)容的索引信息的周期性 檢查。在一實(shí)施例中,中央索引源50歸并文件的各索引表現(xiàn)形式也是可能的。因此,中 央索引源50可以將文件的經(jīng)歸并的索引表現(xiàn)形式發(fā)送到設(shè)備A 10而非發(fā)送各單獨(dú)的索引 表現(xiàn)形式。此外,中央索引源50可以將從設(shè)備A 10接收到的索引表現(xiàn)形式與該文件的任 何其他索引表現(xiàn)形式或經(jīng)歸并的索引表現(xiàn)形式相歸并。各實(shí)施例提供各種好處。使得對(duì)文本文件和非文本文件的基于內(nèi)容的索引切實(shí)可 行并且實(shí)際。出于準(zhǔn)確度和多樣性的目的,可以靈活地分布時(shí)間和計(jì)算負(fù)擔(dān)以準(zhǔn)許各種基 于內(nèi)容的索引信息。多個(gè)設(shè)備的集合避免了對(duì)大型索引專(zhuān)用計(jì)算資源的進(jìn)行投資的需求。 如上所述,這一協(xié)作可以是協(xié)調(diào)或非協(xié)調(diào)的。提供所公開(kāi)的各實(shí)施例的先前描述以使得本領(lǐng)域任何技術(shù)人員能夠做出或使用 本發(fā)明。對(duì)這些實(shí)施例的各種修改對(duì)于本領(lǐng)域技術(shù)人員將是顯而易見(jiàn)的,并且本文中定義 的普適原理可被應(yīng)用于其他實(shí)施例而不會(huì)脫離本公開(kāi)的精神或范圍。因此,本發(fā)明不是旨 在限于本文所示的各實(shí)施例,而是按照與本文所公開(kāi)的原理和新穎特征相一致的最寬范圍。
1權(quán)利要求
一種對(duì)文件進(jìn)行基于內(nèi)容的索引的方法(300),所述方法包括確定所述文件的基于內(nèi)容的索引信息是否可從外部源獲得(340);如果所述文件的所述基于內(nèi)容的索引信息可從所述外部源獲得,則從所述外部源接收并存儲(chǔ)所述基于內(nèi)容的索引信息(350、360);以及如果發(fā)生所述文件的所述基于內(nèi)容的索引信息不可從所述外部源獲得和所述文件的所述基于內(nèi)容的索引信息不完整中的任一種情況,則生成并存儲(chǔ)所述文件的基于內(nèi)容的索引信息并且與所述外部源共享所生成的基于內(nèi)容的索引信息(370、380、390)。
2.如權(quán)利要求1所述的方法(300),其特征在于,所述生成并存儲(chǔ)所述文件的所述基于 內(nèi)容的索引信息包括對(duì)所述文件的整個(gè)內(nèi)容執(zhí)行內(nèi)容分析以生成所述基于內(nèi)容的索引信息。
3.如權(quán)利要求1所述的方法(300),其特征在于,所述生成并存儲(chǔ)所述文件的所述基于 內(nèi)容的索引信息包括對(duì)所述文件的內(nèi)容的一部分執(zhí)行內(nèi)容分析以生成所述基于內(nèi)容的索引信息。
4.如權(quán)利要求1所述的方法(300),其特征在于,所接收到的所述文件的基于內(nèi)容的索 引信息包括通過(guò)執(zhí)行第一類(lèi)型的內(nèi)容分析而生成的基于內(nèi)容的索引信息,并且其中所述生 成并存儲(chǔ)所述文件的所述基于內(nèi)容的索引信息包括對(duì)所述文件的內(nèi)容的至少一部分執(zhí)行第二類(lèi)型的內(nèi)容分析以生成所述基于內(nèi)容的索 弓I fe息O
5.如權(quán)利要求1所述的方法(300),其特征在于,所接收到的所述文件的基于內(nèi)容的索 引信息包括通過(guò)執(zhí)行使用第一參數(shù)設(shè)置的內(nèi)容分析而生成的基于內(nèi)容的索引信息,并且其 中所述生成并存儲(chǔ)所述文件的所述基于內(nèi)容的索引信息包括對(duì)所述文件的內(nèi)容的至少一部分執(zhí)行使用第二參數(shù)設(shè)置的內(nèi)容分析以生成所述基于 內(nèi)容的索引信息。
6.如權(quán)利要求5所述的方法(300),其特征在于,所述生成并存儲(chǔ)所述文件的所述基于 內(nèi)容的索引信息還包括將所接收到的基于內(nèi)容的索引信息與所述所生成的基于內(nèi)容的索引信息相歸并以生 成具有比所述所接收到的基于內(nèi)容的索引信息的準(zhǔn)確度和所述所生成的基于內(nèi)容的索引 信息的準(zhǔn)確度更高的準(zhǔn)確度的經(jīng)歸并的基于內(nèi)容的索引信息。
7.如權(quán)利要求1所述的方法(300),其特征在于,還包括創(chuàng)建所述文件的不公開(kāi)所述文件的內(nèi)容的唯一標(biāo)識(shí)符;以及將所述唯一標(biāo)識(shí)符與所接收到的基于內(nèi)容的索引信息和所述所生成的基于內(nèi)容的索 引信息相關(guān)聯(lián)。
8.如權(quán)利要求1所述的方法(300),其特征在于,還包括在存儲(chǔ)所接收到的基于內(nèi)容的索引信息之前,評(píng)估所述所接收到的基于內(nèi)容的索引信 息的第一安全特征以確定是否存儲(chǔ)所述所接收到的基于內(nèi)容的索引信息;以及將第二安全特征添加到所生成的基于內(nèi)容的索引信息。
9.如權(quán)利要求1所述的方法(300),其特征在于,所述外部源包括服務(wù)器(50)。
10.如權(quán)利要求1所述的方法(300),其特征在于,所述外部源包括對(duì)等網(wǎng)絡(luò)的設(shè)備。
全文摘要
本文描述的是一種特別地用于對(duì)文件內(nèi)容進(jìn)行分布式索引的技術(shù)。對(duì)文件進(jìn)行基于內(nèi)容的索引涉及確定該文件的基于內(nèi)容的索引信息是否可從外部源獲得。這避免重復(fù)已執(zhí)行的內(nèi)容分析,尤其對(duì)于非文本文件而言內(nèi)容分析是耗時(shí)且計(jì)算密集的。如果基于內(nèi)容的索引信息可用,則從外部源接收它并存儲(chǔ)它。如果基于內(nèi)容的索引信息不可用或不完整,則生成并存儲(chǔ)該文件的基于內(nèi)容的索引信息。此外,與外部源共享所生成的基于內(nèi)容的索引信息。一旦執(zhí)行了該文件的內(nèi)容分析從而生成了該文件的基于內(nèi)容的索引信息,則在需要時(shí)該基于內(nèi)容的索引信息是可用并可共享的。不需要重復(fù)對(duì)該文件的同一內(nèi)容分析。
文檔編號(hào)G06F17/00GK101925899SQ200980103202
公開(kāi)日2010年12月22日 申請(qǐng)日期2009年1月23日 優(yōu)先權(quán)日2008年1月23日
發(fā)明者A·J·K·坦比拉特南, F·塞德 申請(qǐng)人:微軟公司