專利名稱:信息存儲(chǔ)及檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索設(shè)備及方法。
背景技術(shù):
目前,許多既定的系統(tǒng)都是利用搜索關(guān)鍵字來定位信息(如文檔、圖像、電子郵件、專利、因特網(wǎng)內(nèi)容和媒體內(nèi)容,如音頻/視頻內(nèi)容)。例如,”Google”TM或”Yahoo”TM提供的因特網(wǎng)搜索引擎就是利用關(guān)鍵字來實(shí)現(xiàn)搜索并根據(jù)搜索引擎所感知的相關(guān)度來排列搜索結(jié)果列表。
然而,在一個(gè)包含大量?jī)?nèi)容通常被稱作海量?jī)?nèi)容集合的系統(tǒng)中,制定一個(gè)能夠給出相對(duì)較短的搜索“命中”列表的有效搜索查詢是非常困難的。例如,在準(zhǔn)備本申請(qǐng)時(shí),在Google上搜索關(guān)鍵字“海量文檔集合”提取到了243000個(gè)命中結(jié)果。如果在晚些時(shí)候重復(fù)這一搜索,命中結(jié)果數(shù)字將會(huì)增加,因?yàn)榛ヂ?lián)網(wǎng)上所存儲(chǔ)的內(nèi)容的數(shù)量通常都隨時(shí)間而增加。瀏覽這樣的命中結(jié)果列表是非常耗費(fèi)時(shí)間的。
通常,海量?jī)?nèi)容集合不能被很好的利用的原因主要有以下幾個(gè)方面●用戶不知道相關(guān)內(nèi)容存在;●用戶知道相關(guān)內(nèi)容存在但是不知道該內(nèi)容在哪里;●用戶知道內(nèi)容存在但是不知道它是相關(guān)的;●用戶知道相關(guān)內(nèi)容存在并知道如何找到它,但是尋找該內(nèi)容所花費(fèi)的時(shí)間太長(zhǎng)。
Kohonen等人在2000年5月IEEE神經(jīng)網(wǎng)絡(luò)學(xué)報(bào)第三期第11卷第574-585頁發(fā)表的論文“海量文檔集合的自組織”中公開了一種使用被稱為“自組織映射”(SOM)的技術(shù)。該論文作者利用了一種被稱為無人管理自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的算法,其中,代表每個(gè)文檔屬性的“特征向量”都被映射到一個(gè)SOM的節(jié)點(diǎn)上。
在Kohonen等人的論文中,第一步是對(duì)文檔正文進(jìn)行預(yù)處理,而后從每個(gè)預(yù)處理文檔中得出一個(gè)特征向量。在一種形式中,它可以是顯示大詞典中每一個(gè)單詞出現(xiàn)頻率的直方圖。直方圖中的每個(gè)數(shù)據(jù)值(也就是字典中每個(gè)單詞相應(yīng)的出現(xiàn)頻率)都是一個(gè)n值向量中的值,其中n是字典中候選單詞的總數(shù)(該論文所舉示例為43222)。為了強(qiáng)調(diào)對(duì)某個(gè)單詞所增加的相關(guān)度或所有所提高的區(qū)分度,可以對(duì)n向量值進(jìn)行加權(quán)。
而后,n值向量都被映射到更小維度的向量上(也就是具有m值的向量(該文中以500為例),m遠(yuǎn)小于n)。這可以通過將該向量同一個(gè)由隨機(jī)數(shù)陣列(array)組成的(n×m)“投影矩陣”相乘來實(shí)現(xiàn)。業(yè)已顯示出這一技術(shù)可用來產(chǎn)生更小維度的向量,其中,任何兩個(gè)已被縮減維度的向量與兩個(gè)相應(yīng)的輸入向量具有相同的向量點(diǎn)積。這種向量映射過程公開于Kaski的載于1998年P(guān)roc IJCNN第413-418頁題為“用隨機(jī)映射進(jìn)行維度縮減快速聚類相似計(jì)算”的論文中。
被縮減維度的向量通過將每個(gè)向量乘以一個(gè)“模型”(另一個(gè)向量)的方法被映射到SOM的節(jié)點(diǎn)(或稱為神經(jīng)元)上。這些模型由一個(gè)學(xué)習(xí)過程產(chǎn)生,該學(xué)習(xí)過程將這些模型自動(dòng)地按照其相互間的相似性排列到SOM上,這通常被表述為節(jié)點(diǎn)的二維網(wǎng)格。該過程并不簡(jiǎn)單,它令Kohonen等人為一個(gè)不足7000,000文檔的文檔數(shù)據(jù)庫在配備6個(gè)處理器及800MB內(nèi)存的電腦上花費(fèi)了六周時(shí)間。最后,形成SOM的節(jié)點(diǎn)網(wǎng)格被顯示出來,用戶可以放大映射區(qū)域并選擇節(jié)點(diǎn),這將導(dǎo)致用戶接口提供一個(gè)網(wǎng)頁的連接,該網(wǎng)頁包含連接到該節(jié)點(diǎn)的文檔。
發(fā)明內(nèi)容
有關(guān)本發(fā)明的各個(gè)方面和特點(diǎn)將在附隨的權(quán)利要求中限定。
根據(jù)本發(fā)明的一個(gè)方面,提供一種用于搜索一組信息項(xiàng)的信息檢索設(shè)備。該設(shè)備包括一個(gè)映射處理器,以便從一組信息項(xiàng)中產(chǎn)生表示信息項(xiàng)映射的數(shù)據(jù)。該映射根據(jù)信息項(xiàng)相互間的相似性耒提供就陣列中的位置被識(shí)別的信息項(xiàng),相似的信息項(xiàng)映射到陣列中相似的位置上。一個(gè)圖形用戶接口可用于顯示至少某些信息項(xiàng),并且,提供一個(gè)用戶控制器來選擇一個(gè)已被識(shí)別的信息項(xiàng)。一個(gè)搜索處理器可以通過下述方法就用戶已選擇的信息項(xiàng)執(zhí)行相關(guān)搜索根據(jù)與用戶所選擇的信息項(xiàng)相對(duì)應(yīng)的陣列位置來識(shí)別那些與陣列中相鄰的位置相對(duì)應(yīng)的信息項(xiàng)。由于該搜索處理器被設(shè)置成在搜索中根據(jù)陣列而不是通過搜索信息項(xiàng)的某些諸如關(guān)鍵字之類的字符信息特征來識(shí)別信息項(xiàng),因此尋找感興趣的信息項(xiàng)將會(huì)因減少了復(fù)雜性而更有效。
本發(fā)明實(shí)施例所體現(xiàn)的一個(gè)優(yōu)點(diǎn)是,如果用戶已經(jīng)從一組信息項(xiàng)中識(shí)別出了一個(gè)感興趣的信息項(xiàng),則具備重大相關(guān)性的信息項(xiàng)也將提供給用戶。這些相關(guān)的信息項(xiàng)是通過根據(jù)陣列中這樣的位置來識(shí)別項(xiàng)目從而提供的,所述位置是從陣列中與感興趣的信息項(xiàng)相對(duì)應(yīng)的位置中得出的預(yù)定數(shù)量的位置。
在另一實(shí)施例中,搜索處理器可根據(jù)搜索查詢束搜索信息項(xiàng)并識(shí)別與搜索查詢相對(duì)應(yīng)的信息項(xiàng)。所述映射處理器可用來產(chǎn)生被搜索處理器因根據(jù)搜索查詢進(jìn)行了搜索而識(shí)別出的的信息項(xiàng)的映射數(shù)據(jù)。由此,搜索處理器就可以執(zhí)行初始搜索來識(shí)別與一個(gè)特定搜索查詢相對(duì)應(yīng)的信息項(xiàng)。由于有這樣的搜索,故用戶可以識(shí)別一個(gè)感興趣的信息項(xiàng)。因此,本發(fā)明的一個(gè)實(shí)施例提供了一種能使得用戶可以依照一個(gè)“相關(guān)查找”的選項(xiàng)進(jìn)行搜索的功能,該功能可識(shí)別這樣的信息項(xiàng),這些信息項(xiàng)對(duì)應(yīng)于與感興趣的信息項(xiàng)相對(duì)應(yīng)的陣列位置的預(yù)定數(shù)量位置中的陣列位置。為此,所述用戶控制器提供啟動(dòng)相關(guān)查找搜索的功能。
所述圖形用戶接口可用來將一些與已被識(shí)別的信息項(xiàng)相對(duì)應(yīng)的陣列位置在顯示區(qū)域內(nèi)顯示為n維顯示點(diǎn)的顯示陣列。最佳的是,為了便于觀看并導(dǎo)航,陣列的維度可以是2。從而,陣列中的位置可由x,y坐標(biāo)來定義。因此,在一些實(shí)施例中,搜索處理器可通過識(shí)別信息項(xiàng)來執(zhí)行相關(guān)的搜索,該信息項(xiàng)對(duì)應(yīng)于陣列中這樣的位置,這些位置位于一個(gè)圓內(nèi),該圓相對(duì)與用戶選擇的信息項(xiàng)相對(duì)應(yīng)的陣列位置具有一定的位置范圍。
為了根據(jù)所需要的相關(guān)項(xiàng)目的范圍啟動(dòng)相關(guān)搜索,用戶控制器可設(shè)置成能向用戶提供根據(jù)與搜索處理器在相關(guān)搜索中要搜索的信息項(xiàng)的相對(duì)相似性來限定上述位置半徑的功能。
本發(fā)明其它相應(yīng)方面和特征在附屬的權(quán)利要求中限定。
以下,將僅通過舉例的方式參考下面的附圖,描述本發(fā)明的實(shí)施方式,附圖中圖1概略地說明了一個(gè)信息存儲(chǔ)及檢索系統(tǒng);圖2是示出了產(chǎn)生自組織映射(SOM)的概略流程圖;圖3a和3b概略地說明了詞頻直方圖;
圖4a概略地說明了一個(gè)原始的特征向量;圖4b概略地說明了一個(gè)被簡(jiǎn)化的特征向量;圖5概略地說明了一個(gè)SOM;圖6概略地說明了一個(gè)隨機(jī)處理過程;圖7至9概略地說明了顯示屏幕,它提供了訪問SOM所表示的信息的用戶接口;圖10提供了本發(fā)明的一個(gè)實(shí)施例的信息檢索設(shè)備的概略框圖;圖11提供了在搜索中被識(shí)別的信息項(xiàng)的一種層次結(jié)構(gòu)的示意圖;圖12提供了屏幕的概略圖,該屏幕提供了兩個(gè)區(qū)域,以顯示圖11中所示層次的不同級(jí)別;圖13提供了范例信息項(xiàng)的三種表示信息特征的說明圖;圖14提供了本發(fā)明的一個(gè)示例性實(shí)施例的用以形成搜索查詢的圖形用戶接口的概略圖;圖15提供了依照布爾與操作形成一個(gè)復(fù)合特征向量的概略圖示;圖16說明了兩個(gè)特征向量依照布爾或操作符以及第三個(gè)特征向量依據(jù)布爾非操作符的結(jié)合;圖17概略地說明了被識(shí)別的信息項(xiàng)的二維映射的一部分,它示出了依據(jù)圖16的布爾操作符及特征向量的搜索結(jié)果;圖18(a)和(b)提供了示意性的條線圈,這兩個(gè)條線圖提供了組成搜索查詢的兩個(gè)視頻圖像的兩個(gè)色彩直方圖的例子,圖18(c)提供了通過組合圖18(a)和18(b)的色彩直方圖而產(chǎn)生的示意性條線圖。
圖19概略地說明了與圖7至9相對(duì)應(yīng)的顯示屏幕,它提供了訪問由SOM代表的信息的用戶接口。
圖20提供了二維位置陣列的說明圖,用該圖來說明相關(guān)搜索;圖21提供了一個(gè)流程圖,它說明了搜索處理器所執(zhí)行的相關(guān)搜索的操作。
具體實(shí)施例方式
圖1是一個(gè)基于通用計(jì)算機(jī)的存儲(chǔ)和檢索系統(tǒng)10的示意圖,所述通用計(jì)算機(jī)具有一個(gè)處理器單元20并包括一個(gè)用于程序和數(shù)據(jù)的磁盤存儲(chǔ)器30;一個(gè)連接到諸如以太網(wǎng)或因特網(wǎng)之類的網(wǎng)絡(luò)50上的網(wǎng)絡(luò)接口卡40;一個(gè)諸如陰極射線管設(shè)備60之類的顯示設(shè)備;鍵盤70;以及,一個(gè)諸如鼠標(biāo)80之類的用戶輸入設(shè)備。系統(tǒng)在程序控制下工作,程序被存儲(chǔ)于所述磁盤存儲(chǔ)器30并通過例如網(wǎng)絡(luò)50、可移動(dòng)磁盤(未示出)或者預(yù)裝于磁盤存儲(chǔ)器30來提供。
上述存儲(chǔ)系統(tǒng)在兩種通用操作模式下工作。在第一種模式下,一組信息項(xiàng)(以文本信息項(xiàng)為例)被匯集在磁盤存儲(chǔ)器30上或者匯集在通過網(wǎng)絡(luò)50連接的網(wǎng)絡(luò)磁盤驅(qū)動(dòng)器上并且被分類和作了索引,以便進(jìn)行搜索操作。第二種操作模式是對(duì)索引和分類數(shù)據(jù)進(jìn)行實(shí)際搜索。
這些實(shí)施例可以適用于多種類型的信息項(xiàng)。一個(gè)不排它的適當(dāng)信息類型列表包括專利、視頻素材、電子郵件、演示文稿、因特網(wǎng)內(nèi)容、廣播內(nèi)容、商務(wù)報(bào)告、音頻素材、圖形及剪貼畫、照片等等,或者是上述任意類型的組合或混合。在本說明書中,將涉及文本信息項(xiàng)。文本信息項(xiàng)可與非文本項(xiàng)相關(guān)聯(lián)或相連接。所以,舉例來說,音頻和/或視頻素材可與一個(gè)作為文本信息項(xiàng)的“元數(shù)據(jù)”相關(guān)聯(lián),元數(shù)據(jù)是一個(gè)以文本項(xiàng)的形式來定義上述素材的文本信息項(xiàng)。
信息項(xiàng)通常的方式加載到磁盤存儲(chǔ)器30上。最好將其存儲(chǔ)為數(shù)據(jù)庫結(jié)構(gòu)的一部分,這能更容易地對(duì)信息項(xiàng)進(jìn)行檢索和索引,但是,這樣做并不是必需的。一旦信息和項(xiàng)目被這樣存儲(chǔ)起來了,用于設(shè)置它們以便其搜索的過程即由圖2概略地示出。
應(yīng)該注意,被索引的信息項(xiàng)不必存儲(chǔ)在本地磁盤驅(qū)動(dòng)器30上。信息項(xiàng)可以存儲(chǔ)在通過網(wǎng)絡(luò)50連接到系統(tǒng)10的一個(gè)遠(yuǎn)程驅(qū)動(dòng)器上。另外,信息也可以以分布的方式存儲(chǔ),例如存儲(chǔ)在因特網(wǎng)上的各種站點(diǎn)上。如果信息存儲(chǔ)于不同的因特網(wǎng)或網(wǎng)絡(luò)站點(diǎn),則使用二級(jí)信息存儲(chǔ)器在本地存儲(chǔ)一個(gè)遠(yuǎn)程信息的“鏈接”(如一個(gè)通用資源指示器URI),也許要附隨一個(gè)與該鏈接聯(lián)系的相關(guān)概要、摘要或元數(shù)據(jù)。所以,遠(yuǎn)程存儲(chǔ)的信息只有在用戶選擇了相關(guān)的鏈接(例如從下述結(jié)果列表260之中)后才會(huì)被訪問,盡管為了下面的技術(shù)描述而將遠(yuǎn)程存儲(chǔ)的信息或摘要/概要/元數(shù)據(jù)或者鏈接/URI看作是“信息項(xiàng)”。
換句話說,“信息項(xiàng)”的正式定義應(yīng)該是一種這樣的項(xiàng)目,特征向量是從該項(xiàng)目中提取并處理的(見下),以便為SOM提供一個(gè)映射。在結(jié)果列表260(見下)中所示的數(shù)據(jù)可以是用戶尋找的實(shí)際信息項(xiàng)(如果它是本地存儲(chǔ)并且足夠短從而能夠方便地顯示),也可以是代表和/或指向信息項(xiàng)的數(shù)據(jù),例如一個(gè)或多個(gè)元數(shù)據(jù)、URI、摘要、一組關(guān)鍵字、一個(gè)有代表性的關(guān)鍵標(biāo)記圖像等等。這些都是“列表”操作中所固有的,“列表”操作雖不總是但通常是指列出表示一組項(xiàng)目的數(shù)據(jù)。
在另一個(gè)例子中,信息項(xiàng)可存儲(chǔ)于聯(lián)網(wǎng)的工作組,例如一個(gè)研究集體或合法的廠商。一個(gè)混合的方法可以包括一些本地存儲(chǔ)的信息項(xiàng)和/或一些在局域網(wǎng)上存儲(chǔ)的信息項(xiàng)和/或一些在廣域網(wǎng)上存儲(chǔ)的信息項(xiàng)。在這種情況下,所述系統(tǒng)對(duì)由其他人來定位相似的工作是非常有益的,例如在一個(gè)大型多國研究發(fā)展組織中,相似的研究工作總是映射到SOM中相似的輸出節(jié)點(diǎn)上(見下)?;蛘撸诓邉澮粋€(gè)新的電視節(jié)目時(shí),本技術(shù)可以用于通過檢測(cè)具有相似的內(nèi)容的先有節(jié)目來檢驗(yàn)該節(jié)目的獨(dú)創(chuàng)性。
還應(yīng)注意,圖1的系統(tǒng)10僅僅是一個(gè)利用作過索引的信息項(xiàng)的可能的系統(tǒng)的一個(gè)例子。雖然可以想象初始(索引)階段可由一個(gè)相當(dāng)強(qiáng)大的計(jì)算機(jī)來實(shí)現(xiàn),最可能用非便攜式電腦來實(shí)現(xiàn),但隨后訪問信息的階段可以在諸如“個(gè)人數(shù)字助理”(此術(shù)語用于通常適于手持的具備顯示器和用戶輸入設(shè)備的數(shù)據(jù)處理設(shè)備)之類的便攜式機(jī)器、諸如膝上電腦之類的便攜式電腦、甚至諸如移動(dòng)電話之類的設(shè)備、視頻編輯設(shè)備或攝影機(jī)上實(shí)現(xiàn)。通常,任何具備顯示器的設(shè)備在實(shí)際上都可被用于信息訪問階段的操作。
上述過程并不限于作特定數(shù)目的信息項(xiàng)。
以下參照?qǐng)D2至6說明產(chǎn)生信息項(xiàng)的自組織映射(SOM)的過程。圖2是說明其后是一SOM映射過程的所謂的“特征抽取”過程的概略流程圖。
特征抽取是一個(gè)將原始數(shù)據(jù)轉(zhuǎn)換成摘要表示的過程。而后這些摘要表示可用在諸如模式分類、聚類以及識(shí)別之類的過程中。所謂的“特征向量”就產(chǎn)生于這一過程之中,“特征向量”是一個(gè)文檔中所使用的術(shù)語的頻率的摘要表示。
通過創(chuàng)建特征向量形成可視顯示的過程包括●創(chuàng)建術(shù)語的“文檔數(shù)據(jù)庫字典”●基于“文檔數(shù)據(jù)庫字典”為每一單個(gè)文檔創(chuàng)建“術(shù)語頻率直方圖”●利用隨即映射減少“術(shù)語頻率直方圖”的維度●創(chuàng)建信息空間的二維可視顯示。
更細(xì)致地考慮上述步驟,依次打開每一文檔(信息項(xiàng))100。在步驟110,從文檔中刪除所有“停止”。停止詞是在預(yù)先準(zhǔn)備的列表中的非常普通的詞,例如,”a”、”the”、”however”、”about”、”and”以及”the”。由于這些詞非常普通,故在所有足夠長(zhǎng)的文檔中它們平均出現(xiàn)的頻率很可能是相似的?;谶@一原因,這些詞對(duì)于表征一個(gè)特定文檔的內(nèi)容不起作用,從而需要被刪除。
在刪除停止詞之后,剩余單詞在步驟120中提取詞干,這一步驟包括尋找單詞變化形式的共同詞干。例如單詞”thrower”、”throws”,以及”throwing”具有共同的詞干”throw”。
保持在文檔中出現(xiàn)的詞干詞的”字典”(不包括“停止”詞)。在遇到新詞時(shí),將其加入到字典中,同時(shí)將該詞在整個(gè)文檔集合(一組信息項(xiàng))中出現(xiàn)次數(shù)的連續(xù)計(jì)數(shù)值記載下來。
結(jié)果是一個(gè)上述集合中所有文檔都使用的術(shù)語列表以及這些術(shù)語出現(xiàn)的頻率。出現(xiàn)頻率過高或過低的單詞將被扣除,這就是說,它們將從字典中被刪除并且不參與隨后的分析。頻率過低的單詞可能是拼寫錯(cuò)誤、編造的,或者與該文檔集合所代表的領(lǐng)域不相關(guān)。而出現(xiàn)頻率過高的單詞不適于用來辨別上述集合中的文檔。例如,在由與廣播有關(guān)的文檔組成的測(cè)試集合中,所有文檔中大約三分之一都使用了單詞”News”,而在測(cè)試集合中僅有大約2%的文檔使用了單詞”football”。因而”football”可被認(rèn)定為是比”News”更好的用于表征文檔內(nèi)容的單詞。相反,單詞”fottball”(”football”的錯(cuò)拼)僅在整個(gè)文檔集合中出現(xiàn)一次,由于出現(xiàn)頻率過低因而被刪除。這樣的單詞可被定義為具有比小于平均出現(xiàn)頻率的兩個(gè)標(biāo)準(zhǔn)偏差更低的出現(xiàn)頻率,或具有比大于平均出現(xiàn)頻率的兩個(gè)標(biāo)準(zhǔn)偏差更高的出現(xiàn)頻率。
然后,在步驟130產(chǎn)生一個(gè)特征向量。
為此,要為集合中每個(gè)文檔產(chǎn)生一個(gè)術(shù)語頻率直方圖。術(shù)語頻率直方圖的構(gòu)建是通過計(jì)算字典中存在的單詞(屬于該文檔集合)在各個(gè)文檔中出現(xiàn)的次數(shù)的方法來實(shí)現(xiàn)的。字典中的多數(shù)術(shù)語都不會(huì)在單個(gè)的文檔中出現(xiàn),因此這些術(shù)語的頻率是0。圖3a和3b示出了兩個(gè)不同文檔的術(shù)語頻率直方圖的示例。
從本例中可以看出直方圖是如何表征文檔內(nèi)容的。通過檢查本例,可以看出文檔1中術(shù)語”MPEG”和”Video”的出現(xiàn)次數(shù)比文檔2多,而文檔2中術(shù)語”MetaData”的出現(xiàn)較多。由于相應(yīng)的單詞沒有在文檔中出現(xiàn),直方圖中許多條目都是0。
在真實(shí)的例子中,實(shí)際的術(shù)語頻率直方圖具有比上例大得多的術(shù)語數(shù)量。一般地說,一個(gè)直方圖可標(biāo)繪出超過50000個(gè)不同術(shù)語的頻率,賦予直方圖大于50000的維度。如果需要在構(gòu)建SOM信息空間時(shí)使用,這種直方圖的維度就需要大幅減少。
術(shù)語頻率直方圖中的每個(gè)條目都被作為代表該文檔的特征向量的相應(yīng)值。這一過程的結(jié)果是一個(gè)包含字典為文檔集合中的每個(gè)文檔所指定的所有術(shù)語頻率的(50000×1)向量。由于大部分值一般都是0,并且其他大部分值一般都是比較低的數(shù)字例如1,故該向量可被視為是“稀疏的”。
特征向量的大小以及術(shù)語頻率直方圖的維度在步驟140中被縮減。就縮減直方圖維度過程提出了兩種方法。
i)隨機(jī)映射-使直方圖乘以一個(gè)隨機(jī)數(shù)矩陣的技術(shù)。這是一個(gè)容易計(jì)算的過程。
ii)潛在語義索引-通過查找在文檔中具有同時(shí)出現(xiàn)的高概率的術(shù)語組來縮減直方圖的維度的技術(shù)。這些單詞組可被縮減為單個(gè)的參數(shù)。這是一個(gè)計(jì)算費(fèi)用昂貴的過程。
在本實(shí)施例中所選擇的縮減術(shù)語頻率直方圖的方法是“隨機(jī)映射”法,如上面提到的Kaski的論文所述。隨機(jī)映射的成功在于它以與隨機(jī)數(shù)矩陣相乘的方法來縮減直方圖維度。
如上所述,“原始”的特征向量(在圖4a中概略地示出)一般是一個(gè)約有50000值大小的稀疏向量。它可被縮減到大概200值的大小(如概略圖4b所示)并仍然保留特征向量相對(duì)正交的特征,即保留了諸如與其他同樣處理后的特征向量的相對(duì)交角(向量點(diǎn)積)之類的關(guān)系。這是因?yàn)?,雖然特定維度的正交向量數(shù)量受到限制,但接近正交向量的數(shù)目卻非常之大。
事實(shí)上,由于向量維度的增加,任何給出的隨機(jī)產(chǎn)生的向量組都接近于相互正交。這一性質(zhì)意味著將保留向量的相對(duì)方向與一個(gè)隨機(jī)數(shù)矩陣的乘積。這可通過借助察看向量點(diǎn)積而展示向量在隨機(jī)映射之前或之后的相似性來得到論證。
在實(shí)驗(yàn)上可以看出,通過將稀疏向量從50000值縮減到200值而保留了其相對(duì)的相似性。然而,這一映射并非完美,但對(duì)達(dá)到以簡(jiǎn)潔的方法表征文檔內(nèi)容的目的來說卻足夠用了。
一旦形成了用于文檔集合的特征向量以便限定集合的信息空間,就在步驟150將它們投射進(jìn)一個(gè)二維SOM以建立一個(gè)語義映射。接下來的部分說明利用通過Kohonen自組織映射對(duì)特征向量聚類的從而映射為2維的過程。仍參照?qǐng)D5。
Kohonen自組織映射被用來對(duì)為每個(gè)文檔已產(chǎn)生的特征向量進(jìn)行聚類和組織。
一個(gè)自組織映射由在二維陣列或節(jié)點(diǎn)網(wǎng)格中的輸入節(jié)點(diǎn)170以及輸出節(jié)點(diǎn)180來構(gòu)成,所述二維陣列或節(jié)點(diǎn)網(wǎng)格如二維平面185所示。輸入節(jié)點(diǎn)的數(shù)目與形成映射時(shí)所使用的特征向量中的值是相等的。映射中的每一個(gè)輸出節(jié)點(diǎn)都通過加權(quán)連接190(每個(gè)連接加一個(gè)權(quán)值)與輸入節(jié)點(diǎn)相連接。
初始時(shí)這些權(quán)重都被設(shè)為一個(gè)隨機(jī)值,而后,通過一個(gè)迭代過程來“調(diào)整”權(quán)重。映射是通過為映射輸入結(jié)點(diǎn)提供每個(gè)特征向量來進(jìn)行調(diào)整的?!白罱咏钡妮敵鼋Y(jié)點(diǎn)是通過計(jì)算輸入向量與和每個(gè)輸出結(jié)點(diǎn)相關(guān)的權(quán)重間的歐幾里得距離而計(jì)算出來的。
由輸入向量與和上述節(jié)點(diǎn)相關(guān)的權(quán)重間的最小歐幾里得距離所標(biāo)識(shí)的最接近的節(jié)點(diǎn)被指定為“勝利者”,并且,該節(jié)點(diǎn)的權(quán)重通過稍微改變?cè)摍?quán)重的值而得以調(diào)整,由此,它們會(huì)移動(dòng)成“更靠近”輸入向量。除了勝出的節(jié)點(diǎn)之外,與勝出節(jié)點(diǎn)相鄰的節(jié)點(diǎn)同樣也被調(diào)整,并移動(dòng)成略微更靠近輸入向量。
正是這種不是僅調(diào)整單個(gè)節(jié)點(diǎn)的權(quán)重而是調(diào)整映射上節(jié)點(diǎn)區(qū)域的權(quán)重的過程,使得該映射一旦被調(diào)整就能保留了2維節(jié)點(diǎn)映射中輸入空間的大部分拓?fù)浣Y(jié)構(gòu)。
映射一旦被調(diào)整,每個(gè)文檔可被提供給映射以便看出哪個(gè)是最靠近用于所述文檔的輸入特征向量的輸出節(jié)點(diǎn)。權(quán)重不可能等同于特征向量,而且,一個(gè)特征向量與映射上與之最近的節(jié)點(diǎn)之間的歐幾里得距離被認(rèn)為是“數(shù)量誤差”。
通過在映射上顯示每個(gè)文檔的特征向量來決定文檔的位置,會(huì)為每個(gè)文檔產(chǎn)生一個(gè)x,y映射位置。這些x,y位置在被放進(jìn)帶文檔ID的查找表時(shí)可用于使文檔之間的關(guān)系可視化。
最后,在步驟160加入一個(gè)隨機(jī)處理成分,下面將參考圖6進(jìn)行描述。
上述過程中存在的一個(gè)潛在問題是,兩個(gè)同樣的或者基本上相同的信息項(xiàng)可能被映射到SOM節(jié)點(diǎn)陣列中的同一個(gè)節(jié)點(diǎn)上。這不會(huì)導(dǎo)致處理數(shù)據(jù)的困難,但是卻無助于數(shù)據(jù)在顯示屏上的可視化(下述)。具體地說,當(dāng)數(shù)據(jù)在顯示屏是可視化的時(shí),業(yè)已認(rèn)識(shí)到,區(qū)分一個(gè)特定節(jié)點(diǎn)上的單個(gè)項(xiàng)目中的多個(gè)非常相似的項(xiàng)目是有用的。因而,一個(gè)“隨機(jī)處理”成分被附加到每個(gè)信息項(xiàng)所映射到的節(jié)點(diǎn)位置中。所述隨機(jī)處理成分是將節(jié)點(diǎn)間隔隨機(jī)增加±1/2。因而,參考圖6,映射過程為其選擇了輸出節(jié)點(diǎn)200的信息項(xiàng)附加了一個(gè)隨機(jī)處理成分,從而它實(shí)際上可以被映射到圖6中節(jié)點(diǎn)200周圍虛線210區(qū)域內(nèi)的任何映射位置。
因此,信息項(xiàng)可被認(rèn)為映射到圖6的節(jié)點(diǎn)位置的平面位置上而不是SOM過程的輸出節(jié)點(diǎn)上。
在任何時(shí)候,一個(gè)新的信息項(xiàng)都可通過上述的步驟(即步驟110至140)被加到SOM中并將最終縮減的特征向量應(yīng)用到“預(yù)調(diào)整”的SOM模型即由映射的自組織預(yù)加工而產(chǎn)生的SOM模式組。因此,通常映射不會(huì)為新加入的信息項(xiàng)而進(jìn)行重新調(diào)整;而是在不修正所有SOM模型的情況下使用步驟150和160。每次在新的信息項(xiàng)加入時(shí)都對(duì)SOM進(jìn)行重新調(diào)整的計(jì)算代價(jià)是昂貴的,并且對(duì)那些已經(jīng)習(xí)慣于映射中通常訪問的信息項(xiàng)的相對(duì)位置的用戶也不友好。
然而,存在有進(jìn)行適當(dāng)重新調(diào)整的時(shí)候。例如,如果自SOM產(chǎn)生時(shí)首次形成以來有新的術(shù)語(或許是新的新聞項(xiàng)目或是新的技術(shù)領(lǐng)域)都被加入到字典中,則它們可能不會(huì)特別好地映射到現(xiàn)存輸出節(jié)點(diǎn)集合上。這可被檢測(cè)為所謂“數(shù)量誤差”有增加,上述“數(shù)量誤差是將新接收的信息項(xiàng)映射到現(xiàn)存SOM中時(shí)檢測(cè)到的。在本實(shí)施例中,將數(shù)量誤差與閾值誤差值作比較。如果大于該閾值,則(a)利用所有原始信息項(xiàng)以及自產(chǎn)生以來增加的任何項(xiàng)目自動(dòng)調(diào)整SOM;或者(b)提示用戶在方便的時(shí)候啟動(dòng)重新調(diào)整過程。重新調(diào)整過程利用所有相關(guān)信息項(xiàng)的特征向量并全部再利用步驟150和160。
圖7概略地說明了在顯示器60上的顯示。該顯示示出了一個(gè)搜索查詢250、一個(gè)結(jié)果列表260以及一個(gè)SOM顯示區(qū)域270。
在操作上,初始時(shí),顯示區(qū)域270是空。用戶向查詢區(qū)域250鍵入一個(gè)關(guān)鍵字搜索查詢。用戶繼而啟動(dòng)搜索,例如通過在鍵盤70上按輸入鍵或通過使用鼠標(biāo)80選擇屏幕“按鈕”來啟動(dòng)搜索。利用標(biāo)準(zhǔn)的關(guān)鍵字搜索技術(shù),將搜索查詢區(qū)域250中的關(guān)鍵字與數(shù)據(jù)庫中的信息項(xiàng)進(jìn)行比較。這將產(chǎn)生一個(gè)結(jié)果列表,每一個(gè)結(jié)果都顯示為列表區(qū)域260中的一個(gè)相應(yīng)的條目280。而后,顯示區(qū)域270顯示與各結(jié)果項(xiàng)目相對(duì)應(yīng)的顯示點(diǎn)。
由于用于產(chǎn)生SOM畫面的分類過程會(huì)把SOM中相似的信息項(xiàng)聚合在一起,因此搜索查詢的結(jié)果會(huì)聚集在諸如類290之類的類中。在這里,應(yīng)該注意,區(qū)域270中每一個(gè)點(diǎn)都與在SOM中且與結(jié)果列表260中的結(jié)果相關(guān)聯(lián)的相應(yīng)條目相對(duì)應(yīng);并且,在區(qū)域270中點(diǎn)被顯示的位置與那些節(jié)點(diǎn)在節(jié)點(diǎn)陣列中的陣列位置相對(duì)應(yīng)。
圖8概略地說明了減少命中(結(jié)果列表中的結(jié)果)數(shù)目的技術(shù)。用戶利用鼠標(biāo)80劃出一個(gè)邊界,在本例中為區(qū)域270所顯示的顯示點(diǎn)集合周圍的長(zhǎng)方型300。在結(jié)果列表區(qū)域260中,只有那些與邊界300之內(nèi)的點(diǎn)相對(duì)應(yīng)的結(jié)果才被顯示出來。如果這些結(jié)果不是所感興趣的,則用戶可以再劃定另一個(gè)包含不同顯示點(diǎn)集合的邊界。
應(yīng)該注意,結(jié)果區(qū)域260針對(duì)那些在邊界300之內(nèi)為其顯示出顯示點(diǎn)并且符合單詞搜索區(qū)域250中搜索標(biāo)準(zhǔn)的結(jié)果而顯示出列表?xiàng)l目。邊界300可以包括其它與駐留在節(jié)點(diǎn)陣列中的節(jié)點(diǎn)相對(duì)應(yīng)的顯示位置,但是,如果這些不符合搜索標(biāo)準(zhǔn),那么它們將不會(huì)被顯示,從而不會(huì)構(gòu)成列表260中所示結(jié)果的一個(gè)子集的一部分。
圖9說明了本發(fā)明的一個(gè)實(shí)施例。
參考圖9和步驟920,自組織映射SOM在產(chǎn)生出來時(shí)是沒有標(biāo)記的(不同于Kohonen的SOM)。用戶需要標(biāo)記來進(jìn)行導(dǎo)航以便瀏覽映射。在本發(fā)明的實(shí)施例中,標(biāo)記是自動(dòng)產(chǎn)生的,用以符合用戶特定的需要。如參考圖7和/或圖8所述,用戶產(chǎn)生一個(gè)搜索的結(jié)果列表。標(biāo)記根據(jù)上述結(jié)果自動(dòng)動(dòng)態(tài)地產(chǎn)生并且用于標(biāo)記區(qū)域270中的顯示點(diǎn)群。
交叉類(cross-cluster)聯(lián)合/輔助關(guān)鍵字搜索下面將參考圖10、11和12對(duì)本發(fā)明的一個(gè)示例性實(shí)施例進(jìn)行描述。
在圖10中,一個(gè)包含信息項(xiàng)數(shù)據(jù)庫的數(shù)據(jù)倉庫400通過數(shù)據(jù)通訊網(wǎng)絡(luò)410與搜索處理器414以及映射處理器412相連。映射處理器與用戶控制器414以及顯示處理器416相連。顯示處理器416的輸出由圖形用戶接口418來接收,后者與顯示器420連接。為在顯示屏上進(jìn)行顯示,所述顯示處理器416可用于處理來自映射處理器的數(shù)據(jù)。
數(shù)據(jù)倉庫400可設(shè)置成獨(dú)立于映射處理器412。相應(yīng)地,搜索處理器也可以設(shè)置成獨(dú)立于數(shù)據(jù)倉庫400、映射處理器412以及圖10所示的那些用于顯示信息的部分,它們是顯示處理器416、圖形用戶接口418以及顯示器420。另外,映射處理器412、搜索處理器404以及顯示處理器416可按在諸如圖1所示的通用計(jì)算機(jī)上執(zhí)行的軟件模塊方來實(shí)現(xiàn)。然而,應(yīng)該認(rèn)識(shí)到,映射處理器、搜索處理器以及顯示處理器可以分別產(chǎn)生和設(shè)置。
圖10所示的實(shí)施例基本上是作為在圖1中并結(jié)合圖7,8和9所示出的存儲(chǔ)和檢索數(shù)據(jù)處理器來進(jìn)行操作的。圖7、8和9提供了如何針對(duì)搜索查詢搜索信息項(xiàng)以及如何顯示搜索結(jié)果的示意圖。相應(yīng)地,圖10所示的實(shí)施例被設(shè)置成能接收一個(gè)搜索查詢,例如一個(gè)來自用戶控制器414的關(guān)鍵字。搜索處理器404響應(yīng)該關(guān)鍵字進(jìn)行搜索,以便結(jié)合映射處理器識(shí)別陣列中x,y位置集合,該x,y位置與作為搜索結(jié)果被而識(shí)別的信息項(xiàng)相對(duì)應(yīng)。例如,對(duì)于一個(gè)40×40的節(jié)點(diǎn)陣列,在方形二維陣列中有1600個(gè)位置。如上所述,搜索處理器根據(jù)搜索查詢來搜索信息項(xiàng)。搜索處理器的搜索將導(dǎo)致符合搜索查詢的信息項(xiàng)的x,y位置集合被搜索處理器所識(shí)別。所述搜索結(jié)果的x,y位置由映射處理器412接收。
在一個(gè)實(shí)施例中,搜索處理器404可設(shè)置成能搜索信息項(xiàng)并產(chǎn)生可識(shí)別出與搜索查詢相對(duì)應(yīng)的信息項(xiàng)的搜索結(jié)果。映射處理器412可以接收代表搜索結(jié)果的數(shù)據(jù),該搜索結(jié)果能識(shí)別出符合搜索查詢的信息項(xiàng)。映射處理器而后產(chǎn)生符合被識(shí)別的信息項(xiàng)在陣列中的位置的x,y坐標(biāo)。
映射處理器412可通過一個(gè)k-means聚類(clustering)過程在第一全局層次上識(shí)別信息項(xiàng)的類。k-means聚類過程識(shí)別陣列中的類和類的位置。k-means聚類過程公開于由牛津大學(xué)出版社出版的Chrestopher M.Bishop所著《用于模式識(shí)別的神經(jīng)網(wǎng)絡(luò)》一書的187-188頁。對(duì)于k-means聚類算法的其它說明公開于網(wǎng)址http//cne.gmu.edu/modules/dau/stat/clustgalgs/clust5bdy.html
如圖11所示,關(guān)鍵字“show”的搜索結(jié)果可以識(shí)別出陣列中那些與以單詞“show”作為其一部分元數(shù)據(jù)的信息項(xiàng)相對(duì)應(yīng)的位置。因此,對(duì)陣列執(zhí)行k-means聚類算法的結(jié)果將例如識(shí)別出“quiz”、“game”以及“DIY”三類信息項(xiàng)。這些信息項(xiàng)的類形成了第一層級(jí)h_level1。顯示處理器416從映射處理器412接收符合第一層級(jí)h_level1的信息項(xiàng)類的數(shù)據(jù)。為提供代表第一層級(jí)h_level1的二維顯示的數(shù)據(jù),顯示處理器416處理數(shù)據(jù)的第一層級(jí)。由顯示處理器416所產(chǎn)生的數(shù)據(jù)提供給圖形用戶接口418,以便在顯示屏420的第一區(qū)域430上進(jìn)行顯示,如圖12所示。
在一些實(shí)施例中,其它操作可以通過映射處理器412來執(zhí)行,以便用k-means算法來改進(jìn)對(duì)類的識(shí)別。上述其它操作被稱為“k-means聚類和剪枝”。已知的k-means聚類過程可標(biāo)識(shí)在的表示相似信息項(xiàng)的搜索結(jié)果中識(shí)別出信息項(xiàng)的陣列位置。而后執(zhí)行其它的修剪枝過程,它用于判定結(jié)果項(xiàng)目的x,y位置的相鄰子類是否是同一母類的一部分。如果兩個(gè)子類中心間的距離小于一個(gè)閾值的話,則這兩個(gè)子類被視為是同一母類的一部分。剪枝以已知的方式重復(fù)進(jìn)行直到聚類穩(wěn)定下來為止。
映射處理器412對(duì)在第一層級(jí)h_level1上識(shí)別出的每一個(gè)信息項(xiàng)的類進(jìn)行進(jìn)一步的分析。為了給用戶提供用來分別檢查信息項(xiàng)的類并在信息項(xiàng)中更進(jìn)一步的識(shí)別類的功能,映射處理器412形成一個(gè)更深一層的層級(jí)。因此,對(duì)于每個(gè)信息項(xiàng)類來說,k-means聚類算法都將對(duì)該類執(zhí)行,以便識(shí)別在信息項(xiàng)第一層級(jí)之內(nèi)更深層的類。例如,如圖11所示,如果對(duì)“quiz”類執(zhí)行k-means算法,則三個(gè)更深的類將在第二層級(jí)h_level2被識(shí)別。
如對(duì)第一層級(jí)所述,每一個(gè)類都根據(jù)一個(gè)關(guān)鍵字進(jìn)行標(biāo)記。該關(guān)鍵字通過查找最普通的單詞來進(jìn)行識(shí)別,所述單詞是類中的每一個(gè)信息項(xiàng)都具有的并且在與該信息項(xiàng)相關(guān)的元數(shù)據(jù)中出現(xiàn)過。例如在第一層級(jí)中,三個(gè)類就通過單詞“quiz”、“game”和“DIY”來識(shí)別。
按與標(biāo)記第一層級(jí)h_level1的類相應(yīng)的方法為第二層級(jí)h_level2中的每個(gè)類識(shí)別一個(gè)關(guān)鍵字。因此,三個(gè)類將被標(biāo)記為“thechair”、“wipeout”以及“enemy within”。此三類中的每一類都包含不同的智力競(jìng)賽(quiz show)的情節(jié)。
正如所注意到的那樣,可以進(jìn)一步的對(duì)每個(gè)類進(jìn)行分析迭代。這可以通過對(duì)在第二層級(jí)h_level2上識(shí)別出的每一個(gè)類執(zhí)行k-means算法來實(shí)現(xiàn)。如圖11所示,“wipeout”信息類用k-means聚類算法進(jìn)行進(jìn)一步分析。然而,在第三層級(jí)h_level3,僅展示出了個(gè)別的信息項(xiàng),因而,如圖11所示,第三層級(jí)h_level3可識(shí)別“wipeout”的個(gè)別情節(jié)。
映射處理器412因而能識(shí)別不同層級(jí)上的信息項(xiàng)的類。將代表每個(gè)層級(jí)的數(shù)據(jù)提供給顯示處理器416。因此,結(jié)合圖形用戶接口418,例如與第二層級(jí)h_level2相對(duì)應(yīng)的第二區(qū)域可被顯示于顯示器420上。因而,用戶可利用縮放控制器放大在第一層級(jí)h_level1顯示的類??s放控制器可通過用戶控制器414來控制。因此,放大特定的類可以顯示出第二層級(jí)h_level2上的信息項(xiàng)。另外,用戶控制器414可被用于在第一區(qū)域中選擇“當(dāng)前視窗”區(qū)域。因此,針對(duì)在“quiz”類中識(shí)別出的類說明了的第二級(jí)顯示,所述“quiz”類是在第一層級(jí)h_level1內(nèi)所示的第一級(jí)顯示中識(shí)別出的。
本發(fā)明實(shí)施例的又一優(yōu)點(diǎn)是這樣一種結(jié)構(gòu),其中,可以為在第二或其后顯示區(qū)域中顯示的第二或其后層級(jí)提供其他類的指示器。指示器可以將用戶引導(dǎo)至另外的類,該類指向與在下一層級(jí)中觀看的類相關(guān)聯(lián)的關(guān)鍵字。因而,在第二顯示區(qū)域440內(nèi)于低層級(jí)上顯示的類將具有指向正在觀看的類的其它類。例如,在圖12中,在第一顯示區(qū)域430,第一層級(jí)顯示出“quiz”、“game”以及“DIY”三個(gè)類。由于縮放控制器用于放大“quiz”類,故第二顯示區(qū)域440將顯示出“quiz”類之下的類,即“the chair”、“enemy within”以及“wipeout”。然而,如第一區(qū)域所示,“quiz”類的其它關(guān)鍵字為“DIY”、“horror”以及“game”。因此,提供箭頭444、446和448將用戶引導(dǎo)至與第二顯示區(qū)域內(nèi)顯示的“quiz”類在同一層級(jí)上的信息項(xiàng)的類。因此,如果用戶希望查閱不同于第一層級(jí)的類來發(fā)現(xiàn)第二層級(jí)中的類,則用戶可以使用箭頭來導(dǎo)航到第一層級(jí)中的其它類。此外,箭頭還最好由出現(xiàn)在第一層級(jí)的類的關(guān)鍵字標(biāo)簽來標(biāo)記。在其它實(shí)施例中,為了給用戶提供類中相關(guān)項(xiàng)目數(shù)的說明,這一數(shù)字顯示在與方向指示箭頭相關(guān)的關(guān)鍵字旁邊。當(dāng)鼠標(biāo)指針MP經(jīng)過時(shí)或定位到指示箭頭上時(shí),用戶控制器以及顯示器設(shè)置成能示出這一數(shù)字。
另外一些實(shí)施例的其它優(yōu)點(diǎn)是提供一個(gè)附加關(guān)鍵字的列表,也即一級(jí)類內(nèi)與二級(jí)類相關(guān)的關(guān)鍵字。如圖12所示,對(duì)于提供其它第一層級(jí)類“horror”的類來說,當(dāng)鼠標(biāo)指針MP定位到與“horror”相關(guān)的箭頭上時(shí),將產(chǎn)生與第一類“horror”中的第二級(jí)類相對(duì)應(yīng)的附加單詞。因此,將給用戶提供一個(gè)與首層類相關(guān)聯(lián)的信息項(xiàng)內(nèi)容的有效圖示,而不需要查閱第二顯示區(qū)域440內(nèi)的那些類。如圖12所示,顯示區(qū)域還可以還包含如450所示的控制圖標(biāo),這些圖標(biāo)用于對(duì)第一區(qū)域430中出現(xiàn)的信息項(xiàng)中進(jìn)行瀏覽和導(dǎo)航。
多模式精確搜索本發(fā)明的另一示例性實(shí)施例將參考圖10以及圖13至17來加以描述。圖13提供了一個(gè)表征信息特征的類型的示意圖,所述信息特征連同一個(gè)信息項(xiàng)來進(jìn)行存儲(chǔ)。例如,信息項(xiàng)可以是來自一個(gè)電視節(jié)目的視頻/音頻數(shù)據(jù)的一部分。在本例中,電視節(jié)目是足球賽的精彩片斷。因此,數(shù)據(jù)項(xiàng)包括了視頻數(shù)據(jù)460以及音頻數(shù)據(jù)。與音頻數(shù)據(jù)相關(guān)聯(lián)的是在方框462中示出的音頻元數(shù)據(jù)。音頻元數(shù)據(jù)描述了與視頻數(shù)據(jù)相關(guān)聯(lián)的音頻信號(hào)的內(nèi)容和類型。在本例中,音頻數(shù)據(jù)包括“音樂”,“注釋”“、噪聲”,但也可以包括一個(gè)或多個(gè)其它類型的表示音頻信號(hào)類型的元數(shù)據(jù)。除視頻數(shù)據(jù)和音頻數(shù)據(jù)以外,信息項(xiàng)還可以包括描述視頻和音頻數(shù)據(jù)內(nèi)容或?qū)傩缘钠渌獢?shù)據(jù)。在本例中,元數(shù)據(jù)在方框464中示出,并包括視頻節(jié)目?jī)?nèi)容的說明。包含在上述元數(shù)據(jù)中的單詞被用于建立特征向量,根據(jù)該特征向量來產(chǎn)生SOM。然而,在本發(fā)明的其它實(shí)施例中,在數(shù)據(jù)倉庫400中的信息項(xiàng)目集合可以針對(duì)是音頻元數(shù)據(jù)462的音頻元數(shù)據(jù)或視頻數(shù)據(jù)來進(jìn)行搜索。為此根據(jù)音頻數(shù)據(jù)460的幀來產(chǎn)生一個(gè)代表性關(guān)鍵標(biāo)記。
該代表性關(guān)鍵標(biāo)記RKS的產(chǎn)生是通過形成每個(gè)視頻數(shù)據(jù)幀的色彩直方圖來實(shí)現(xiàn)的。把所有的或被選擇的視頻幀色彩直方圖結(jié)合起來,而后使之標(biāo)準(zhǔn)化以產(chǎn)生一個(gè)合成的色彩直方圖,典型的形式如圖13中的條線圖466所示。將該合成色彩直方圖與每一視頻幀的色彩直方圖相比較。通過將每一視頻幀的色彩直方圖中每一列的距離與合成直方圖中相應(yīng)的柱相加來確定每一視頻幀的色彩直方圖與合成色彩直方圖之間的距離。具有與合成色彩直方圖之間距離最小的色彩直方圖的代表性關(guān)鍵標(biāo)記RKS被選擇出來。對(duì)于足球比賽節(jié)目,相應(yīng)產(chǎn)生的代表性關(guān)鍵標(biāo)記很有可能是足球賽過程中某部分的視頻圖像,如圖13的代表性關(guān)鍵標(biāo)記RKS所示。
在其他實(shí)施例中,可用以下任何一種方法為來自視頻幀的每一個(gè)信息項(xiàng)產(chǎn)生RKS●用戶可以選擇與整個(gè)信息項(xiàng)的內(nèi)容相對(duì)應(yīng)的被認(rèn)為最有代表性的一幀。由于用戶能確保選擇了主觀上代表了一個(gè)信息項(xiàng)的視頻幀,故這一方法可以改進(jìn)可靠性。然而它卻要花費(fèi)更多的時(shí)間。
●用戶可以選擇某個(gè)信息項(xiàng)中的第一幀或隨機(jī)的一幀。這對(duì)于選擇合適的RKS是缺乏可靠性的。
●可以想像出基于圖像幀的內(nèi)容來處理視頻幀并選擇一個(gè)RKS其他方法。
本發(fā)明的實(shí)施例可以提供了基于已選表征信息特征來產(chǎn)生精確搜索的功能。在一個(gè)實(shí)施例中,搜索處理器142可依據(jù)元數(shù)據(jù),視頻圖像或音頻數(shù)據(jù)之一,搜索在第一搜索中被識(shí)別的信息項(xiàng)。在另外的實(shí)施例中,搜索可僅通過元數(shù)據(jù)或視頻數(shù)據(jù)或音頻數(shù)據(jù)或它任意的組合來進(jìn)行。為了簡(jiǎn)化搜索查詢的格式,圖10所示的顯示設(shè)備420可以包括一個(gè)如圖14所示的圖形用戶接口418所提供的圖形顯示。
在圖14中,在顯示區(qū)域472中第一行470提供給用戶選擇根據(jù)元數(shù)據(jù)進(jìn)行信息查詢的功能。因此,如果來自某個(gè)信息項(xiàng)的圖像代表關(guān)鍵標(biāo)記的被置于屏幕中的這一行,則與該信息項(xiàng)相關(guān)的元數(shù)據(jù)(如圖13所示)將被加入到搜索查詢中。因此,來自不同信息項(xiàng)的一個(gè)或多個(gè)代表性關(guān)鍵標(biāo)記將被引入到類型元數(shù)據(jù)的表征信息特征的搜索查詢中。相應(yīng)地,在第二行474中,用戶選擇的視頻幀將被引入,以構(gòu)成搜索查詢的一部分。例如,用戶可以瀏覽視頻數(shù)據(jù)的特定項(xiàng)目并選擇感興趣的幀。而后用戶可以將該圖像幀放入行474,以構(gòu)成搜索查詢的一部分。用戶可以引入一個(gè)或多個(gè)視頻幀。
用戶也可以選擇根據(jù)信息項(xiàng)中的音頻數(shù)據(jù)來進(jìn)行搜索的該信息項(xiàng)。因此,顯示區(qū)域476中的第三行為用戶提供了引入信息項(xiàng)的代表圖像以便在音頻數(shù)據(jù)行進(jìn)行識(shí)別的功能,因而,搜索查詢會(huì)包括與搜索查詢中該信息項(xiàng)相對(duì)應(yīng)的音頻數(shù)據(jù)。
除選擇根據(jù)表征信息特征的類型進(jìn)行搜索的信息項(xiàng)外,本發(fā)明的實(shí)施例還提供了根據(jù)所選擇的信息項(xiàng)之間的布爾操作符來實(shí)現(xiàn)搜索的功能。如圖14所示,根據(jù)圖示的前兩列478,480之間的“與”操作符來搜索業(yè)已針對(duì)元數(shù)據(jù)搜索而選擇出的信息項(xiàng)。然而,在第一元數(shù)據(jù)和搜索查詢中的第一視頻圖像項(xiàng)目之間的搜索查詢是通過“或”操作符來連接的。就視頻數(shù)據(jù)進(jìn)行搜索的這兩個(gè)項(xiàng)是通過“與”操作符來連接的。根據(jù)音頻數(shù)據(jù)進(jìn)行搜索的信息項(xiàng)將在搜索查詢中按照“非”操作符進(jìn)行搜索。
在建立好搜索查詢之后,搜索處理器404將根據(jù)搜索查詢搜索由關(guān)鍵字搜索識(shí)別的信息項(xiàng),所述搜索查詢是依據(jù)用戶的選擇而產(chǎn)生的并如圖14所示。搜索處理器依據(jù)所選擇的表征信息特征的類型以不同的方式搜索的信息項(xiàng),如下段所述對(duì)于就如元數(shù)據(jù)之類的表征信息特征進(jìn)行搜索的例子,對(duì)于任何信息項(xiàng)來說,從元數(shù)據(jù)產(chǎn)生的信息項(xiàng)的特征向量可被用于識(shí)別二維陣列中與該特征向量相對(duì)應(yīng)的一個(gè)點(diǎn)。因而,陣列中在該被識(shí)別位置的預(yù)定距離之內(nèi)的信息項(xiàng)可被作為搜索查詢的結(jié)果返回。然而,如果在元數(shù)據(jù)搜索行中選擇了不只一個(gè)信息項(xiàng),則搜索查詢就必須按著能根據(jù)所選擇的布爾操作符來搜索這些項(xiàng)目的方式加以構(gòu)建。
對(duì)于“與”布爾操作符的例子,如圖15所示,將每個(gè)信息項(xiàng)的特征向量結(jié)合來以形成一個(gè)合成向量。為此,與元數(shù)據(jù)中每一個(gè)單詞相關(guān)的值都被相加起來并規(guī)格化成能形成合成特征向量。因此,如圖15所示,與用戶選擇的在行470和列478至480所示的具有代表性關(guān)鍵標(biāo)記的元數(shù)據(jù)相關(guān)聯(lián)的兩個(gè)特征向量A,B和元數(shù)據(jù)搜索查詢行470將結(jié)合在一起形成特征向量C。搜索處理器接收特征向量C并將其與SOM做比較。在與合成特征向量C相對(duì)應(yīng)的在陣列中的最近位置被識(shí)別出來之后,陣列中來自在該陣列中的被識(shí)別位置的預(yù)定數(shù)量的位置內(nèi)的信息項(xiàng)將作為搜索結(jié)果返回。
對(duì)于相應(yīng)元數(shù)據(jù)搜索的“或”布爾操作符的例子,對(duì)于第一特征向量A和第二特征向量B來說,陣列中用于這些特征向量的相應(yīng)位置將被識(shí)別。同樣,搜索查詢將返回陣列中每個(gè)被識(shí)別的點(diǎn)的預(yù)定數(shù)量位置內(nèi)的所有信息項(xiàng)。這一點(diǎn)由圖16和17示出。在圖17中,二維陣列中與特征向量A相對(duì)應(yīng)以及與特征向量B相對(duì)應(yīng)的位置將被識(shí)別。如圖17所示,陣列中位于A和B的陣列位置預(yù)定半徑之內(nèi)的位置將在被識(shí)別時(shí)作為搜索查詢的結(jié)果返回。然而,如果另一個(gè)特征向量C在搜索查詢中被識(shí)別并且對(duì)特征向量指定了“非”布爾操作符,則陣列中與該特征向量C相對(duì)應(yīng)的位置又將被識(shí)別。因此,始于C的預(yù)定半徑的陣列位置中的信息項(xiàng)也將被識(shí)別。然而,由于有“非”操作符,在特征向量A、B和C的陣列位置的半徑之間被識(shí)別的那些任何的相互包含的陣列位置都被排除在搜索結(jié)果之外。因而,搜索處理器將返回由與陣列中A或B但不是C所產(chǎn)生的位置所對(duì)應(yīng)的信息項(xiàng)。
對(duì)第二行來說,在與是搜索的表征特征的視頻圖像數(shù)據(jù)相對(duì)應(yīng)的搜索查詢中,搜索處理器可用于針對(duì)與已選擇的用戶視頻圖像相對(duì)應(yīng)的代表性關(guān)鍵標(biāo)記來搜索視頻數(shù)據(jù)。為此,與用戶已選視頻圖像相關(guān)聯(lián)的色彩直方圖將與同信息項(xiàng)相關(guān)聯(lián)的每一個(gè)代表性關(guān)鍵標(biāo)記的色彩直方圖相比較。計(jì)算每一個(gè)信息項(xiàng)的代表性關(guān)鍵標(biāo)記的色彩直方圖與用戶指定的視頻圖像的色彩直方圖之間的距離。這可以通過計(jì)算代表該圖像色彩成分的各列之間的距離并將對(duì)每一列的距離求和來實(shí)現(xiàn)。與信息項(xiàng)相對(duì)應(yīng)的并且在用戶選擇的視頻圖像的直方圖與和該陣列位置相對(duì)應(yīng)的代表性關(guān)鍵標(biāo)記的直方圖之間距離最小的陣列位置將被識(shí)別。查詢的結(jié)果將返回具有來自被識(shí)別陣列位置的預(yù)定數(shù)量位置中的陣列位置信息項(xiàng)。
對(duì)于布爾操作符,通過將兩個(gè)已被選擇和指定用于“與”操作符的圖像的色彩直方圖結(jié)合起來而形成一個(gè)色彩直方圖。形成合成色彩直方圖的過程如圖18所示。行474中所提供的第一和第二用戶選擇的圖像的直方圖和如圖14所示的顯示區(qū)域內(nèi)的視頻圖像搜索查詢的列478,480將通過平均該直方圖每一列的值來進(jìn)行合成。由此,圖18a和18b所示的兩個(gè)色彩直方圖合成起來以形成在圖18c中形成的色彩直方圖。針對(duì)將被搜索的信息項(xiàng)的代表性關(guān)鍵標(biāo)記來搜索該色彩直方圖。
對(duì)于音頻數(shù)據(jù)的例子,搜索處理器可以根據(jù)與所選信息項(xiàng)相關(guān)的音頻元數(shù)據(jù)形成一個(gè)特征向量。例如,音頻元數(shù)據(jù)可以識(shí)別在音頻信號(hào)、語音數(shù)據(jù)中存在的諧波或者識(shí)別是否在由音頻元數(shù)據(jù)所代表的音頻信號(hào)中存在有音樂。另外,元數(shù)據(jù)可以識(shí)別音頻信號(hào)中是否有特定的說話者如Tony Blair或特定的解說員如Tony Motson。因此,特征向量也可以由所選音頻數(shù)據(jù)產(chǎn)生,所述音頻數(shù)據(jù)可針對(duì)具體與音頻數(shù)據(jù)相關(guān)的其他特征向量來進(jìn)行搜索。按著上述方法相應(yīng)的方式,布爾操作符可用于將一個(gè)以上的音頻元數(shù)據(jù)類型的搜索合并起來。對(duì)于“與”操作符的例子,音頻元數(shù)據(jù)項(xiàng)可被合并起來產(chǎn)生一個(gè)合成元數(shù)據(jù)項(xiàng)。尋找具有與合成項(xiàng)距離最近的特征向量的相應(yīng)信息項(xiàng)將識(shí)別一個(gè)信息項(xiàng)。而后,當(dāng)指定“或”操作符時(shí),搜索處理器可以再現(xiàn)陣列中用于兩個(gè)元數(shù)據(jù)項(xiàng)目的預(yù)定數(shù)量位置范圍內(nèi)的信息項(xiàng)?!胺恰辈紶柌僮鞣麑乃阉鞑樵兘Y(jié)果中排除所返回的具有匹配音頻數(shù)據(jù)的信息項(xiàng)。
本發(fā)明的實(shí)施例提供了從已被識(shí)別的信息項(xiàng)中進(jìn)行精確搜索。然而,應(yīng)該認(rèn)識(shí)到,在其他實(shí)施例中,由圖14所示的顯示所形成的搜索查詢以及該搜索查詢符針對(duì)元數(shù)據(jù)、視頻圖像數(shù)據(jù)和音頻數(shù)據(jù)的應(yīng)用可用來搜索數(shù)據(jù)倉庫400中的整個(gè)信息集合。
相關(guān)搜索如上所述,根據(jù)本發(fā)明的一個(gè)示例性的實(shí)施例,依照利用如圖14所示的圖形用戶接口構(gòu)建的搜索查詢的信息項(xiàng)可通過識(shí)別與搜索查詢所識(shí)別的特定陣列位置相鄰的項(xiàng)目來進(jìn)行搜索。然而,在其他示例性實(shí)施例中,可對(duì)為任何理由而識(shí)別的信息項(xiàng)進(jìn)行相關(guān)搜索。但是,一般地說,根據(jù)特定關(guān)鍵字的搜索會(huì)產(chǎn)生一組被識(shí)別的信息項(xiàng)。從這些信息項(xiàng)中,用戶可決定其中是否有一個(gè)是其特別感興趣的。而后,相關(guān)搜索可以依據(jù)SOM提供與該信息有某種相關(guān)性的項(xiàng)目。這可以通過識(shí)別與陣列位置相對(duì)應(yīng)的信息項(xiàng)來實(shí)現(xiàn),所述陣列位置位于例如始于與所感興趣的信息項(xiàng)相對(duì)應(yīng)的陣列位置的預(yù)定半徑內(nèi)。
圖19提供了搜索處理器404如何執(zhí)行一個(gè)“相關(guān)查找”搜索的示意圖。用戶可認(rèn)定一個(gè)特定信息項(xiàng)是其所感興趣的。例如,圖19再現(xiàn)了圖7、8和9所示的圖形用戶接口。假定早先搜索的結(jié)果展示出了陣列中如前用黑點(diǎn)所述的被識(shí)別位置的結(jié)構(gòu),并且用戶找到了所感興趣的與陣列中的位置490相對(duì)應(yīng)的特定信息項(xiàng)。為進(jìn)行相關(guān)搜索,用戶需要將鼠標(biāo)指針MP定位于感興趣的位置490上并通過菜單選項(xiàng)啟動(dòng)一個(gè)相關(guān)搜索,所述菜單選項(xiàng)例如可以自動(dòng)出現(xiàn)。在啟動(dòng)相關(guān)搜索時(shí),搜索處理器404識(shí)別那些與感興趣的位置490相鄰的預(yù)定數(shù)量的位置內(nèi)的陣列位置相對(duì)應(yīng)的信息項(xiàng)。例如,搜索處理器404可識(shí)別與正方形492內(nèi)的陣列位置相對(duì)應(yīng)的信息項(xiàng),該正方形是由沿x,y方向加減兩個(gè)位置而形成的。另外,搜索處理器404可以識(shí)別與一個(gè)圓之內(nèi)的陣列位置相對(duì)應(yīng)的信息項(xiàng),該圓具有始于所選感興趣的信息項(xiàng)的陣列位置490的由對(duì)角線上的一個(gè)位置構(gòu)成的預(yù)定半徑R。
在識(shí)別了與相關(guān)陣列位置相對(duì)應(yīng)的信息項(xiàng)后,每個(gè)被識(shí)別信息項(xiàng)的表征信息特征可在顯示區(qū)域260中被顯示,如圖19所示。
在某些實(shí)施例中,依據(jù)相關(guān)搜索賴以實(shí)現(xiàn)的相關(guān)敏感性,用戶可以通過用戶控制器改變被識(shí)別的相關(guān)信息項(xiàng)所對(duì)應(yīng)的陣列位置數(shù)量。因此,在相關(guān)搜索中識(shí)別的預(yù)定相鄰位置的數(shù)量會(huì)有所變化。這可以改變圓494的半徑R或者正方形492的大小來實(shí)現(xiàn)。
基于陣列執(zhí)行相關(guān)搜索而不是通過針對(duì)某種表征信息特征搜索信息項(xiàng)(例如關(guān)鍵字搜索)來執(zhí)行搜索,可以提供搜索感興趣的信息項(xiàng)的功能,該功能可以減少搜索關(guān)鍵字的計(jì)算復(fù)雜度。利用陣列的相關(guān)搜索操作可以通過SOM的屬性而被簡(jiǎn)化,這就能確定在陣列中的相似位置處是相似的信息項(xiàng)。因而,具有陣列中和與感興趣的信息項(xiàng)相對(duì)應(yīng)的位置相鄰的位置的信息項(xiàng)將與該信息項(xiàng)相關(guān)。因此,檢索與這些相鄰位置相對(duì)應(yīng)的信息項(xiàng)會(huì)展示出對(duì)最有可能與用戶搜索要求最相一致的項(xiàng)目的重點(diǎn)搜索。
相關(guān)搜索的概要流程21示出了概括進(jìn)行相關(guān)搜索時(shí)搜索處理器的操作的流程圖。相關(guān)搜索過程的步驟概括如下S.2雖然操作中的第一步可以根據(jù)用戶指定的搜索查詢產(chǎn)生代表來自信息項(xiàng)集合的信息項(xiàng)映射的數(shù)據(jù),但是,如果從用戶已識(shí)別的信息項(xiàng)開始來執(zhí)行相關(guān)搜索,則步驟S.2至S.10可以被省略。映射依據(jù)信息項(xiàng)相互間的相似性即相似的信息項(xiàng)映射到陣列中相似的位置來提供與陣列中位置相關(guān)的信息項(xiàng)。
S.4根據(jù)搜索中被識(shí)別的x,y陣列位置或通過映射處理器而將信息項(xiàng)被映射到二維陣列中的位置上。
S.8映射數(shù)據(jù)根據(jù)陣列中的陣列位置的x,y位置產(chǎn)生,以便進(jìn)行顯示。
S.10依照映射數(shù)據(jù)至少一些信息項(xiàng)的代表將作為二維陣列而被顯示。
S.12用戶選擇其感興趣的一個(gè)信息項(xiàng)。
S.14用戶可以指定執(zhí)行相關(guān)搜索的條件。用戶可以識(shí)別始于感興趣的信息項(xiàng)的陣列位置的鄰居數(shù)量或者半徑。
S.16如果用戶沒有指定相關(guān)搜索的特定要求,則搜索處理器自動(dòng)識(shí)別預(yù)定相鄰位置的數(shù)目并返回與這些位置相對(duì)應(yīng)的信息項(xiàng)。
S.18如果用戶指定了相關(guān)搜索的特定要求,則搜索處理器根據(jù)用戶的要求識(shí)別相鄰位置并返回與這些位置相應(yīng)的信息項(xiàng)。
在不脫離本發(fā)明的范圍的情況下,可以對(duì)上述實(shí)施例進(jìn)行各種改進(jìn)。后附權(quán)利要求中限定了本發(fā)明的各個(gè)方面和特征。
權(quán)利要求
1.一種用于搜索一組信息項(xiàng)的信息檢索設(shè)備,該設(shè)備包括一個(gè)映射處理器,它用于產(chǎn)生代表來自一組信息項(xiàng)中的信息項(xiàng)映射的數(shù)據(jù),該映射依據(jù)信息項(xiàng)相互間的相似性來提供與陣列中位置相關(guān)的信息項(xiàng),相似的信息項(xiàng)映射到陣列中相似的位置。一個(gè)用于顯示至少一些信息項(xiàng)代表的圖形用戶接口,以及一個(gè)用于選擇信息項(xiàng)的用戶控制器,其中,搜索處理器可通過識(shí)別與陣列中的位置相對(duì)應(yīng)的信息項(xiàng)來針對(duì)用戶選擇的信息項(xiàng)進(jìn)行相關(guān)搜索,所述的陣列中位置是與對(duì)應(yīng)于用戶選擇的信息項(xiàng)的陣列位置相鄰的位置。
2.如權(quán)利要求1所述的信息檢索設(shè)備,其中所述搜索處理器可用于根據(jù)搜索查詢來搜索該組信息項(xiàng),并識(shí)別與該搜索查詢相對(duì)應(yīng)的信息項(xiàng),所述映射處理器可用于產(chǎn)生由該搜索處理器因?qū)λ阉鞑樵冞M(jìn)行搜索而識(shí)別的信息項(xiàng)的映射數(shù)據(jù)。
3.如權(quán)利要求1或2所述的信息檢索設(shè)備,其中,所述圖形用戶接口可用于將與已被識(shí)別的信息項(xiàng)相對(duì)應(yīng)的陣列的至少某些位置顯示為顯示區(qū)域內(nèi)顯示點(diǎn)的n維顯示陣列。
4.如權(quán)利要求1,2或3所述的信息檢索設(shè)備,其中,維度數(shù)n為二,陣列中的位置由x,y坐標(biāo)定義。
5.如權(quán)利要求4所述的信息檢索設(shè)備,其中,所述搜索處理器可用于通過識(shí)別與陣列中的位置相對(duì)應(yīng)的信息項(xiàng)來針對(duì)用戶已選信息項(xiàng)進(jìn)行相關(guān)搜索,所述的位置位于始于與用戶選擇的信息項(xiàng)相對(duì)應(yīng)的陣列位置的位置半徑內(nèi)。
6.如前述任一項(xiàng)權(quán)利要求的信息檢索設(shè)備,其中,用戶控制器可用于為用戶提供根據(jù)在相關(guān)搜索中通過搜索處理器搜索的信息項(xiàng)的相似性針對(duì)感興趣的陣列位置指定相鄰的位置的數(shù)量的功能。
7.一種搜索一組信息項(xiàng)的方法,該方法包括生成代表來自一組信息項(xiàng)中的信息項(xiàng)映射的數(shù)據(jù),該映射依據(jù)信息項(xiàng)相互間的相似性來提供與陣列中的位置有關(guān)的信息項(xiàng),相似的信息項(xiàng)映射到陣列中相似的位置。顯示至少一些信息項(xiàng)的描述,選擇一個(gè)信息項(xiàng),以及通過識(shí)別與陣列中的位置相對(duì)應(yīng)的信息項(xiàng)來針對(duì)用戶選擇的信息項(xiàng)進(jìn)行相關(guān)搜索,所述的陣列中的位置是與對(duì)應(yīng)于用戶選擇的信息項(xiàng)的陣列位置相鄰的位置。
8.如權(quán)利要求7所述的方法,包括根據(jù)搜索查詢來搜索該組信息項(xiàng);識(shí)別與搜索查詢相對(duì)應(yīng)的信息項(xiàng);所述產(chǎn)生映射數(shù)據(jù)包括產(chǎn)生由所述搜索處理器因?qū)λ阉鞑樵冞M(jìn)行搜索而識(shí)別的信息項(xiàng)的映射數(shù)據(jù)。
9.如權(quán)利要求8所述的方法,包括將與已被識(shí)別的信息項(xiàng)相對(duì)應(yīng)的陣列的至少某些位置顯示為顯示區(qū)域內(nèi)顯示點(diǎn)的n維顯示陣列。
10.如權(quán)利要求9所述的方法,其中維度數(shù)n為二,陣列中的位置由x,y坐標(biāo)定義。
11.如權(quán)利要求10所述的方法,其中,執(zhí)行相關(guān)搜索包括通過識(shí)別與陣列中的位置相對(duì)應(yīng)的信息項(xiàng)來針對(duì)用戶已選信息項(xiàng)進(jìn)行相關(guān)搜索,所述的陣列中的位置位于始于與用戶選擇的信息項(xiàng)相對(duì)應(yīng)的陣列位置的位置半徑內(nèi)。
12.如權(quán)利要求7至10中任意一項(xiàng)所述的方法,其中,用戶控制器可用于為用戶提供根據(jù)在相關(guān)搜索中通過搜索處理器搜索的信息項(xiàng)的相似性針對(duì)感興趣的陣列位置指定位置半徑的功能。
13.具有執(zhí)行權(quán)利要求7至12所述方法的程序編碼的計(jì)算機(jī)軟件。
14.一種提供權(quán)利要求13的程序編碼的介質(zhì)。
15.如權(quán)利要求14的介質(zhì),該介質(zhì)為存儲(chǔ)介質(zhì)。
16.如權(quán)利要求14的介質(zhì),該介質(zhì)為傳輸介質(zhì)。
全文摘要
搜索一組信息項(xiàng)的信息檢索設(shè)備,包括映射處理器、圖形用戶接口、用戶控制器及搜索處理器。映射處理器用于生成代表來自一組信息項(xiàng)中的映射的數(shù)據(jù)。該映射依據(jù)信息項(xiàng)相互間的相似性即相似的信息項(xiàng)映射到陣列中相似的位置就陣列中的位置提供信息項(xiàng)。圖形用戶接口顯示至少一些信息項(xiàng)的描述,用戶控制器選擇信息項(xiàng)。搜索處理器通過識(shí)別與陣列中的位置相對(duì)應(yīng)的信息項(xiàng)來針對(duì)用戶已選信息項(xiàng)作相關(guān)搜索,該位置是與對(duì)應(yīng)于用戶選擇的信息項(xiàng)的陣列位置相鄰的位置。搜索處理器設(shè)置成在搜索中識(shí)別陣列中的信息項(xiàng)而不是通過針對(duì)諸如關(guān)鍵詞的表征信息特征搜索信息項(xiàng)而識(shí)別信息項(xiàng),故能實(shí)現(xiàn)對(duì)感興趣信息項(xiàng)的搜索且降低復(fù)雜性。
文檔編號(hào)G06F17/30GK1503167SQ200310119659
公開日2004年6月9日 申請(qǐng)日期2003年11月27日 優(yōu)先權(quán)日2002年11月27日
發(fā)明者J·R·托爾普, J R 托爾普 申請(qǐng)人:索尼英國有限公司