專利名稱:信息存儲和檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息存儲和檢索。
背景技術(shù):
有許多已建立的系統(tǒng)被用于通過按照關(guān)鍵字進(jìn)行搜索來定位信息(比如文件、圖像、電子郵件、專利、因特網(wǎng)內(nèi)容或者象音頻/視頻內(nèi)容這樣的媒體內(nèi)容)。實例包括例如由“Google”TM或者“Yahoo”TM等這樣的公司提供的因特網(wǎng)搜索“引擎”,其中通過關(guān)鍵字執(zhí)行的搜索導(dǎo)致一個結(jié)果列表,該結(jié)果列表被搜索引擎按照所察覺的關(guān)聯(lián)性而進(jìn)行排序。
然而,在經(jīng)常被稱作大量內(nèi)容收集的、包括大量內(nèi)容的系統(tǒng)中,可能很難制定有效的檢索查詢來給出相對短的搜索“命中”列表。例如,在準(zhǔn)備當(dāng)前申請時,關(guān)于關(guān)鍵字“大量文件收集(massive document collection)”的Google搜索就提取了243000個命中。如果以后再重復(fù)這個搜索,則預(yù)期此命中的數(shù)量還將增長,因為通過因特網(wǎng)所存儲的內(nèi)容的數(shù)量通常會隨著時間而增加。檢查這樣的命中列表需要耗費(fèi)高得驚人的時間。
總的來說,大量內(nèi)容收集沒有被很好利用的一些原因是·用戶不知道存在相關(guān)內(nèi)容·用戶知道相關(guān)內(nèi)容存在但不知道它可能位于哪里·用戶知道該內(nèi)容存在但不知道它是相關(guān)的·用戶知道相關(guān)內(nèi)容存在并知道如何找到它,但找到該內(nèi)容花費(fèi)很長時間在2000年5月有關(guān)神經(jīng)網(wǎng)絡(luò)的IEEE學(xué)報的第11卷第3期的574-585頁,Kohonen等人寫的論文“Self Organisation of a Massive Document Collection”(“大量文件收集的自組織”)公開了一種利用所謂的“自組織映射”(SOM)的技術(shù)。這些利用了所謂的無人管理的自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,其中表示每個文件的屬性的“特征向量”被映射到SOM的節(jié)點上。
在Kohonen等人的論文中,第一步是預(yù)處理文件文本,然后從每個被預(yù)處理的文件中得到特征向量。在一種格式中,這可以是表示大字典的每個字的發(fā)生頻率的直方圖。在直方圖中的每個數(shù)據(jù)值(也就是對應(yīng)字典字的發(fā)生頻率)變成一個n值向量中的值,其中n是在字典中候選字的總數(shù)量(在這個文章所述的例子中是43222)?;蛟S可以將加權(quán)應(yīng)用到該n個向量值,以強(qiáng)調(diào)某些字的增加的相關(guān)性或者改進(jìn)的分化。
然后該n值向量映射到更小維數(shù)的向量上(也就是具有實際上小于n的m個值(在文章的實例中是500)的向量)。這可以通過使該向量乘以一個由隨機(jī)數(shù)的數(shù)組所組成的(n×m)“投影矩陣”來實現(xiàn)。這個技術(shù)已經(jīng)表明可生成較小維數(shù)的向量,其中任意兩個縮小維數(shù)的向量具有與兩個對應(yīng)的輸入向量幾乎相同的向量點積。在1998年IJCNN會刊第413-418頁中Kaski所寫的論文“Dimensionality Reduction by Random MappingFast Similarity Computation forClustering”(“通過隨機(jī)映射縮小維數(shù)用于群集的快速相似性計算”)中描述了這個向量映射過程。
然后該縮小維數(shù)的向量通過用“模型”(另一個向量)乘以每個向量的過程而被映射到SOM上的節(jié)點上(或者被稱為神經(jīng)元)。該模型由學(xué)習(xí)過程生成,該學(xué)習(xí)過程按照相互的相似性將該模型自動排序到SOM上,該SOM通常被表示為節(jié)點的二維網(wǎng)格。這并不是一個平凡的過程,為了一個只有不到七百萬個文件的文件數(shù)據(jù)庫,它使Kohonen等人在具有800MB內(nèi)存的六處理器計算機(jī)上花費(fèi)了六個星期。最終顯示了一個由SOM組成的節(jié)點的網(wǎng)格,用戶能夠移近映射圖的區(qū)域并選擇一個節(jié)點,這使得用戶界面提供一個到因特網(wǎng)頁面的鏈接,該頁面包含了被鏈接到那個節(jié)點的文件。
發(fā)明內(nèi)容
本發(fā)明提供了一種信息檢索系統(tǒng),其中一組不同的信息項通過該信息項的相互的相似性而映射到一個節(jié)點陣列中的對應(yīng)節(jié)點,使得類似的信息項映射到該節(jié)點陣列中在類似位置處的節(jié)點;該系統(tǒng)包括用于在用戶顯示器上的顯示區(qū)中,把至少一些節(jié)點的表示顯示為顯示點的二維顯示排列的圖形用戶界面;用于定義該顯示區(qū)的二維區(qū)域的用戶控制器;用于檢測位于該顯示區(qū)的二維區(qū)域中的那些顯示點的檢測器;該圖形用戶界面還顯示代表信息項的數(shù)據(jù)的列表,那些信息項被映射到和該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應(yīng)的節(jié)點上。
那些本領(lǐng)域技術(shù)人員將會明白在詞“列表”的正常使用中,“代表信息項的數(shù)據(jù)”可以是該項自身,如果它具有適于全部顯示的大小和屬性的話,或者它可以是指示該項的數(shù)據(jù)。
本發(fā)明還提供了信息存儲系統(tǒng),在其中處理一組不同的信息項以便于通過該信息項的相互相似性來映射到節(jié)點陣列中的對應(yīng)節(jié)點,使得相似的信息項映射到該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于生成從每個信息項所得出的特征向量的裝置,該用于信息項的特征向量表示在那個信息項中一組信息特征中每個信息特征的一組出現(xiàn)頻率;和用于將每個特征向量映射到該節(jié)點陣列中的節(jié)點的裝置,在信息項和陣列中的節(jié)點之間的映射包括一個抖動部分,以使得基本上相同的信息項傾向于映射到陣列中非??拷珔s不同的節(jié)點。通過提供用戶界面以允許用戶方便地將屏幕上的顯示點與信息項列表中的信息項聯(lián)系在一起,并且同時允許用戶方便地區(qū)分相似的信息項,由此而在Kohonen等人論文中所述的過程上建立本發(fā)明。
本發(fā)明另外的各個方面和特征在隨后的權(quán)利要求中定義。
現(xiàn)在只是作為實例而參考附圖來描述
具體實施例方式圖1示意性地圖解說明了信息存儲和檢索系統(tǒng);圖2是顯示自組織映射圖(SOM)的生成的示意性流程圖;圖3a和3b示意性地圖解說明術(shù)語頻率直方圖;圖4a示意性地圖解說明未加工的特征向量;圖4b示意性地圖解說明減少的特征向量;圖5示意性地圖解說明SOM;圖6示意性地圖解說明抖動過程;圖7到9示意性地圖解說明提供用戶界面來訪問由SOM所表示的信息的顯示屏幕;圖10示意性地圖解說明作為視頻捕獲和/或處理設(shè)備實例的攝像機(jī);和圖11示意性地圖解說明作為便攜式數(shù)據(jù)處理設(shè)備實例的個人數(shù)字助手。
具體實施例方式
圖1是基于通用計算機(jī)10的信息存儲和檢索系統(tǒng)的示意圖,通用計算機(jī)10具有一個處理器單元20,后者包括了用于程序和數(shù)據(jù)的磁盤存儲器30、連接到例如以太網(wǎng)或者因特網(wǎng)這樣的網(wǎng)絡(luò)50上的網(wǎng)絡(luò)接口卡40,通用計算機(jī)還具有例如陰極射線管設(shè)備這樣的顯示設(shè)備60、鍵盤70和例如鼠標(biāo)這樣的用戶輸入設(shè)備80。該系統(tǒng)在程序控制下操作,程序被存儲在磁盤存儲器30上并且通過例如網(wǎng)絡(luò)50、可移動磁盤(未顯示)或者預(yù)先安裝在磁盤存儲器30上來提供。
該存儲系統(tǒng)運(yùn)行在兩個普通的操作模式中。在第一個模式中,一系列信息項(例如文本信息項)被集合在磁盤存儲器30上或者被集合在通過網(wǎng)絡(luò)50連接的網(wǎng)絡(luò)磁盤驅(qū)動器上,并且被分類和索引,準(zhǔn)備用于搜索操作。操作的第二個模式是針對已被索引和分類的數(shù)據(jù)的實際搜索。
該實施例可應(yīng)用于許多類型的信息項。合適的信息類型的非窮盡列表包括專利、視頻材料、電子郵件、報告、因特網(wǎng)內(nèi)容、廣播內(nèi)容、商業(yè)報告、音頻材料、圖形和圖片(clipart)、照片等等,或者是這些類型的任意的組合或者混合。在本說明書中,將文本信息項或者至少具有文本內(nèi)容或關(guān)聯(lián)的信息項作為參考。因此,例如,像音頻和/或視頻材料這樣的一條廣播內(nèi)容可能具有以文本項定義那個材料的關(guān)聯(lián)的“元數(shù)據(jù)”。
信息項以傳統(tǒng)的方式被裝載到磁盤存儲器30上。優(yōu)選地,它們可以被存儲作為允許更容易地進(jìn)行項的檢索和索引的數(shù)據(jù)庫結(jié)構(gòu)的一部分,但這不是必需的。一旦已經(jīng)如此存儲了信息和項,則在圖2中示意性表示被用于排列它們以便進(jìn)行搜索的過程。
將會理解,被索引的信息數(shù)據(jù)不必被存儲在本地磁盤驅(qū)動器30上。數(shù)據(jù)可存儲在經(jīng)因特網(wǎng)50與系統(tǒng)10相連的遠(yuǎn)端驅(qū)動器上??商娲?,可以以分布的方式存儲信息,例如存儲在因特網(wǎng)的各種位置上。如果信息被存儲在不同的因特網(wǎng)或者網(wǎng)絡(luò)位置處,則信息存儲器的第二級別將被用來在本地存儲一條到該遠(yuǎn)程信息的“鏈接”(例如,URL),或許具有相關(guān)的概要、摘要或者與這個鏈接相關(guān)聯(lián)的元數(shù)據(jù)。因此,遠(yuǎn)程持有的信息將不被訪問,除非用戶選擇了相關(guān)鏈接(例如從將在下面描述的結(jié)果列表260中選擇),盡管為了隨后的技術(shù)描述的目的,該遠(yuǎn)程持有的信息或者該摘要/概要/元數(shù)據(jù)或者鏈接/URL可以被認(rèn)為是“信息項”。
換句話說,“信息項”的正式定義是從中可以獲得特征向量并且被處理(見下面)以便提供到SOM的映射的項。在結(jié)果列表260(見下面)中表示的數(shù)據(jù)可以是信息項自身(如果被保持在本地并且對于方便的顯示足夠短),或者是表示和/或者指向信息項的數(shù)據(jù),例如一個或者多個元數(shù)據(jù)、URL、摘要、一組關(guān)鍵詞、表示性的關(guān)鍵標(biāo)記的圖象等。在操作“列表”中這是固有的,操作“列表”雖然不總是但卻經(jīng)常包括列出表示一組項的數(shù)據(jù)。
在另一個實例中,能夠跨越例如一個研究組或者合法公司這樣的連網(wǎng)的工作組來存儲信息項。一種混合方案可以包括一些本地存儲的信息項和/或者一些通過局域網(wǎng)而被存儲的信息項和/或者一些通過廣域網(wǎng)而被存儲的信息項。在這樣的情況下,該系統(tǒng)對于例如在大型多國研究與開發(fā)組織中定位由其它人進(jìn)行的相似工作非常有用,相似的研究工作將傾向于被映射到SOM中的相似輸出節(jié)點上(見下文)?;蛘呷绻谟媱澮粋€新的電視節(jié)目,則本技術(shù)能夠被用于通過檢測以前具有相似內(nèi)容的節(jié)目來檢查其原創(chuàng)性。
還應(yīng)該理解,圖1的系統(tǒng)10僅僅只是能夠使用被索引的信息項的可能系統(tǒng)的一個實例。盡管可以想象,可以通過相當(dāng)強(qiáng)大的計算機(jī),很可能是通過非便攜式計算機(jī),來執(zhí)行初期(編制索引)階段,但是訪問信息的后期階段可以在例如“個人數(shù)字助理”(用于具有顯示器和用戶輸入設(shè)備的數(shù)字處理設(shè)備的術(shù)語,通常適合放在一只手中)這樣的便攜式機(jī)器、例如膝上型電腦這樣的便攜式計算機(jī)或者甚至例如移動電話、視頻編輯設(shè)備或者攝像機(jī)這樣的設(shè)備上執(zhí)行。通常地,具有顯示器的任何設(shè)備實際上都能夠用于操作的信息訪問階段。
該過程不受信息項的具體數(shù)目的限制。
現(xiàn)在將參考圖2到6來描述生成信息項的自組織映射(SOM)表示的過程。圖2是圖解說明后隨SOM映射過程的、被稱作“特征提取”過程的示意性流程圖。
特征提取是將未加工的數(shù)據(jù)轉(zhuǎn)換成抽象表示的過程。這些抽象表示然后能被用于例如模式分類、聚集和識別這樣的過程。在這個過程中,生成所謂的“特征向量”,它是在文件中所用的檢索詞的頻率的抽象表示。
通過創(chuàng)建特征向量來形成顯現(xiàn)的過程包括·生成檢索詞的“文件數(shù)據(jù)庫字典”·根據(jù)“文件數(shù)據(jù)庫字典”為每個單獨的文件生成“檢索詞頻率直方圖”
·利用隨機(jī)映射來減少“檢索詞頻率直方圖”的維數(shù)·創(chuàng)建信息空間的2維顯現(xiàn)。
更詳細(xì)地考慮這些步驟,依次打開每個文件(信息項)100。在步驟110處,從文件中去除全部的“無用詞(stop word)”。無用詞是在預(yù)先準(zhǔn)備的列表上的那些非常普通的詞,例如“一個”、“這”、“然而”、“關(guān)于”、“和”以及“該”等。因為這些詞非常普通,所以它們平均起來可能在足夠長度的全部文件中表現(xiàn)出相似的頻率。因為這個原因,它們在嘗試表征特定文件的內(nèi)容時幾乎不起作用,因此應(yīng)該被刪除。
在刪除無用詞以后,在步驟120處對剩余詞提取詞干(stem),這包括找到詞的變體的共同詞干。例如詞“投擲器”(thrower)、“投擲”(throws)和“投擲運(yùn)動”(throwing)具有共同的詞干“投擲”(throw)。
維護(hù)由出現(xiàn)在文件(除去無用詞)中的作為詞干的詞組成的“字典”。當(dāng)重新遇到一個詞的時候,它被增加到該字典中,并且還記錄這個詞已經(jīng)在整個文件收集(信息項組)中出現(xiàn)的次數(shù)的游動(running)計數(shù)。
所得的結(jié)果是在文件組中用于全部文件的檢索詞列表,以及那些檢索詞出現(xiàn)的頻率。出現(xiàn)頻率太高或者太低的詞被忽視,也就是說從字典中除去它們并且它們不參與隨后的分析。具有太低頻率的詞可能是拼錯的、虛構(gòu)的或者與文件組所表示的領(lǐng)域不相關(guān)的。出現(xiàn)頻率太高的詞不適合在該組中區(qū)分文件。例如,在與廣播有關(guān)的文件的測試文件組中大約全部文件的三分之一都使用了檢索詞“新聞”,而其中在測試文件組中只有大約2%的文件使用了詞“足球”。因此能夠設(shè)想和“新聞”相比,“足球”是用于表征文件內(nèi)容的更好的檢索詞。相反的,詞“fottball”(“足球”(football)的錯誤拼寫)只在整個文件組中出現(xiàn)過一次,因此由于具有太低的出現(xiàn)機(jī)率而被刪除。此類詞可以被定義為那些具有比出現(xiàn)的平均頻率低兩個標(biāo)準(zhǔn)偏差或者比出現(xiàn)的平均頻率高兩個標(biāo)準(zhǔn)偏差的出現(xiàn)頻率的詞。
然后在步驟130中生成特征向量。
為了這樣做,而為文件組中的每個文件生成一個檢索詞頻率直方圖。通過對存在于字典(與該文件組相關(guān))中的詞在單個文件中出現(xiàn)的次數(shù)計數(shù)來構(gòu)建檢索詞頻率直方圖。在單個文件中,字典中的大部分檢索詞都不會出現(xiàn),因此這些檢索詞將具有零頻率。在圖3a和3b中表示出用于兩個不同文件的檢索詞頻率直方圖的示意性實例。
從這個實例中能夠看出直方圖是如何表征文件內(nèi)容的。通過觀察實例,能夠看出文件1比文件2中出現(xiàn)更多的檢索詞“MPEG”和“視頻”,而文件2自身出現(xiàn)了更多的檢索詞“元數(shù)據(jù)”。在該直方圖中許多條目是零,因為相應(yīng)的詞沒有出現(xiàn)在文件中。
在真實的例子中,實際的檢索詞頻率直方圖中具有比在實例中大得多的檢索詞數(shù)目。典型地,直方圖可以繪制超過50000個不同檢索詞的頻率,定出維數(shù)超過50000的直方圖。如果要被用在SOM信息空間的建立中,則直方圖的維數(shù)需要被相當(dāng)大的縮減。
檢索詞頻率直方圖中的每個條目被用作為表示那個文件的特征向量中的對應(yīng)值。這個過程的結(jié)果是一個(50000×1)向量,它包含對于文件收集中的每個文件該字典所規(guī)定的全部檢索詞的頻率。該向量被稱為稀疏向量,因為典型地大多數(shù)值都是零,而其他大多數(shù)值是例如1這樣的非常低的數(shù)目。
在步驟140處減少特征向量的大小,從而減少檢索詞頻率直方圖的維數(shù)。建議了兩種方法用于減少直方圖的維數(shù)。
i)隨機(jī)映射-一種借助其而使隨機(jī)數(shù)矩陣乘以直方圖的技術(shù)。這是計算花費(fèi)比較低廉的過程。
ii)潛在語義索引-通過尋找在文件中具有很高的同時出現(xiàn)概率的檢索詞的組來減少直方圖維數(shù)的技術(shù)。然后能夠把這些詞的組縮減成單一的參數(shù)。這是計算花費(fèi)較高的過程。
在本實施例中被選擇用于減少檢索詞頻率直方圖的維數(shù)的方法是“隨機(jī)映射”,如在上面提及的Kaski論文中所詳細(xì)說明的。隨機(jī)映射通過用隨機(jī)數(shù)的矩陣乘以直方圖而成功地減少直方圖的維數(shù)。
如上所述,“未加工的”特征向量(在圖4a中示意性所表示的)是典型的稀疏向量,其大小在具有50000個值的區(qū)域中。它能夠被減少到大約200(見示意圖4b)并且仍然保持該特征向量的相關(guān)特性,即,例如與其他被類似處理的特征向量的相關(guān)角(向量點積)這樣的相互關(guān)系。這樣之所以行得通是因為盡管限制了特殊維數(shù)的正交向量數(shù),但是接近正交的向量的數(shù)目非常大。
實際上隨著向量維數(shù)的增加,任何給定的隨機(jī)生成的向量組彼此幾乎正交。這個特性意味著與這個隨機(jī)數(shù)矩陣相乘的向量的相關(guān)方向?qū)⒈槐3?。能夠通過查看它們的點積而示出在隨機(jī)映射之前和之后向量的相似性,由此證實這個性質(zhì)。
能夠用試驗方式來表明將稀疏向量從50000個值減少到200個值還可保持它們的相關(guān)的相似性。然而,這個映射并不完美,但是對于以簡單緊湊的方式來表征文件內(nèi)容的目的而言已經(jīng)足夠了。
一旦已經(jīng)對于文件收集生成了特征向量,且因而也定義了該收集的信息空間,在步驟150處就將它們投射到二維SOM來生成語義映射。隨后的部分說明了通過利用Kohonen自組織映射來群集該特征向量而映射到2維的過程。還要參考圖5。
Kohonen自組織映射被用于群集和組織那些已經(jīng)被生成用于每個文件的特征向量。
自組織映射由在節(jié)點的二維陣列或者網(wǎng)格(如二維平面185所圖解說明的)中的輸入節(jié)點170和輸出節(jié)點180組成。輸入節(jié)點的數(shù)目與被用于訓(xùn)練該映射的特征向量中的值的數(shù)目一樣多。映射上的每個輸出節(jié)點通過被加權(quán)的連接190(每個連接一個權(quán)重)連接到輸入節(jié)點。
最初這些權(quán)重的每一個被設(shè)置成隨機(jī)值,然后,通過迭代過程而“訓(xùn)練”權(quán)重。通過將每個特征向量呈現(xiàn)給映射的輸入節(jié)點來訓(xùn)練映射。通過計算輸入向量和每個輸出節(jié)點的權(quán)重之間的歐幾里德距離來計算最近的輸出節(jié)點。
最近的節(jié)點被指定為“獲勝者”并且通過輕微改變權(quán)重值來訓(xùn)練這個節(jié)點的權(quán)重以使它們移動得更靠近該輸入向量。除了獲勝節(jié)點以外,還訓(xùn)練該獲勝節(jié)點鄰近的節(jié)點,并且使其輕微移動得更靠近該輸入向量。
這個訓(xùn)練過程,不只是訓(xùn)練單個節(jié)點的權(quán)重,而是訓(xùn)練映射上的節(jié)點區(qū)域的權(quán)重,這使得映射一旦被訓(xùn)練,就可以保存節(jié)點的2維映射中的輸入空間的大部分拓?fù)浣Y(jié)構(gòu)。
一旦映射被訓(xùn)練,每個文件就能夠被呈現(xiàn)在映射中以便觀察哪個輸出節(jié)點最靠近該文件的輸入特征向量。權(quán)重與特征向量的等同是不大可能的,并且特征向量和它在映射上最近的節(jié)點之間的歐幾里德距離被稱為“量化誤差”。
通過將用于每個文件的特征向量呈現(xiàn)在映射上以便觀察它位于哪里,產(chǎn)生用于每個文件的x,y映射位置。當(dāng)這些x,y位置隨同文件ID一起被輸入查找表中的時候,這些x,y位置能夠被用于顯現(xiàn)文件之間的關(guān)系。
最后,在步驟160處增加抖動部分,將在下面參考圖6來描述它。
上述過程的潛在問題是兩個相同或者基本上相同的信息項可以被映射到SOM的節(jié)點陣列中的相同節(jié)點上。這不會帶來數(shù)據(jù)的操縱處理的困難,但是不利于在顯示屏上數(shù)據(jù)的顯現(xiàn)(將在下面描述)。尤其是,當(dāng)在顯示屏上顯現(xiàn)數(shù)據(jù)的時候,已經(jīng)認(rèn)識到多個非常相似的項在特定節(jié)點處的單個項上是可識別的將會非常有用。因此,在每個信息項映射到的節(jié)點位置處增加一個“抖動”部分。該抖動部分是最大可以到節(jié)點分隔的±1/2的隨機(jī)加法。因此,參考圖6,映射過程為之選擇輸出節(jié)點200的信息項具有被增加的抖動部分,以便于實際上它可以被映射到在圖6中由虛線所限制的區(qū)域210中的任何節(jié)點位置上。
因此,信息項可以被認(rèn)為是在不同于SOM過程的“輸出節(jié)點”的節(jié)點位置處映射到圖6的平面上的位置。
可替代的方法可以是在上述的SOM映射過程中使用更高密度的“輸出節(jié)點”。這將不能在絕對相同的信息項之間提供任何區(qū)別,但是可以允許差不多相同、但不是完全相同的信息項映射到不同的但是十分接近地分開的輸出節(jié)點上。
圖7示意性圖解說明了顯示屏60上的顯示,其中用圖表來說明被分類進(jìn)入SOM的數(shù)據(jù)以便在搜索操作中使用。顯示器示出了搜索查詢250、結(jié)果列表260和SOM顯示區(qū)域270。
在操作中,用戶將關(guān)鍵字搜索查詢輸入到查詢區(qū)域250中。然后用戶開始搜索,例如通過按下鍵盤70上的回車或者通過使用鼠標(biāo)80選擇屏幕“按鈕”來開始搜索。然后,利用標(biāo)準(zhǔn)的關(guān)鍵字搜索技術(shù)來比較搜索查詢框250中的關(guān)鍵字和數(shù)據(jù)庫中的信息項。這樣生成結(jié)果列表,在列表窗口260將每一個結(jié)果都作為相應(yīng)條目280顯示。同樣地,每個結(jié)果在節(jié)點顯示區(qū)域270上都具有對應(yīng)的顯示點。
因為用于生成SOM表示的分類過程傾向于在SOM中將互相類似的信息項集合到一起,所以搜索查詢的結(jié)果一般傾向于落入像群集290這樣的群集中。這里,注意到區(qū)域270上的每個點對應(yīng)于SOM中與結(jié)果列表260中的一個結(jié)果相關(guān)的對應(yīng)條目;并且在區(qū)域270中顯示該點的位置對應(yīng)于在節(jié)點陣列中那些節(jié)點的陣列位置。
圖8示意性圖解說明用于減少“命中”(結(jié)果列表中的結(jié)果)數(shù)目的技術(shù)。用戶利用鼠標(biāo)80圍繞著對應(yīng)于感興趣的節(jié)點的一組顯示點畫出方框300。在結(jié)果列表區(qū)域260中,只顯示與方框300中的點相對應(yīng)的那些結(jié)果。如果對這些結(jié)果不再感興趣,則用戶可以圍繞著不同組的顯示點畫出另一個方框。
注意到,對于在方框300中為之顯示了顯示點并且滿足字搜索區(qū)域250中的搜索標(biāo)準(zhǔn)的那些結(jié)果,結(jié)果區(qū)域260為它們顯示列表條目。方框300可以包含與位于該節(jié)點陣列中的節(jié)點相對應(yīng)的其他顯示位置,但是如果這些結(jié)果不滿足搜索標(biāo)準(zhǔn),則它們將不被顯示并且不會形成在方框260中顯示的結(jié)果的子集的一部分。
圖9示意性圖解說明用于在列表窗口260中檢測條目的節(jié)點位置的技術(shù)。在使用圖形用戶界面領(lǐng)域中的標(biāo)準(zhǔn)技術(shù),尤其在利用所謂的“Windows”TM操作系統(tǒng)的計算機(jī)中,用戶可以在結(jié)果列表窗口中選擇一個或者多個條目。在所示的實例中,通過用鼠標(biāo)點擊與相關(guān)結(jié)果相對應(yīng)的“檢查框”310來完成。然而,這同樣可以通過點擊以高亮顯示整個結(jié)果,或者通過雙擊相關(guān)結(jié)果等來完成。因為選擇了一個結(jié)果,所以那些表示節(jié)點陣列中的對應(yīng)節(jié)點的相應(yīng)顯示點被用不同的方式顯示。這通過對應(yīng)于在結(jié)果區(qū)域260中所選結(jié)果330的兩個顯示點320來示意性地示出。
外觀的改變可能是以更大尺寸顯示該點,或者是以相同顯示顏色的更強(qiáng)烈的版本顯示該點,或者是以不同的顯示顏色顯示該點,或者是以這些變化屬性的組合來顯示該點。
在任何時候,通過遵循上述的步驟(也就是步驟110到140),能夠?qū)⑿碌男畔㈨椩黾拥絊OM,然后將產(chǎn)生的減少的特征向量應(yīng)用到“預(yù)訓(xùn)練”SOM模型,即由映射的自組織準(zhǔn)備所產(chǎn)生的一組SOM模型。因此,對于新增加的信息項,通常不“重新訓(xùn)練”該映射;而是對沒有修改的全部SOM模型使用步驟150到160。每次增加新的信息項的時候來重新訓(xùn)練SOM需要昂貴的計算代價,并且有時候?qū)τ脩暨€有一些不友善,用戶可能要逐漸習(xí)慣于該映射中通常被訪問的信息項的相對位置。
然而,可能會有一種情況,其中適合重新訓(xùn)練過程。例如,如果自首次生成SOM以來已經(jīng)將新的檢索詞(可能是新的新聞項或者新的技術(shù)領(lǐng)域)輸入到字典中,則它們可能不會非常好地映射到現(xiàn)有的輸出節(jié)點組。在新接收的信息項被映射到現(xiàn)有的SOM期間,這可以被檢測為在檢測到的所謂“量化誤差”中的增長。在本實施例中,該量化誤差與閾值誤差量相比較。如果它比該閾值量大,則或者(a)利用所有的原始信息項和自其生成以后被添加的任何項來自動重新訓(xùn)練SOM;或者(b)用戶被提示在方便的時間啟動重新訓(xùn)練過程。重新訓(xùn)練過程使用全部相關(guān)信息項的特征向量并且完全重新應(yīng)用步驟150和160。
圖10示意性圖解說明作為視頻捕獲和/或處理設(shè)備實例的攝像機(jī)500,攝像機(jī)包括具有相關(guān)透鏡520的圖象捕獲設(shè)備510;數(shù)字信號處理器530;磁帶存儲器540;磁盤或者其他隨機(jī)存取存儲器550;用戶控制器560和具有目鏡580的顯示設(shè)備570。對于那些本領(lǐng)域技術(shù)人員來說傳統(tǒng)攝像機(jī)的其他特征或者其他備選實施方式(例如不同的存儲介質(zhì)或者不同的顯示屏幕設(shè)備)將是很顯而易見的。在使用中,與捕獲的視頻材料相關(guān)的元數(shù)據(jù)可以被存儲在存儲器550,在顯示設(shè)備570上觀察與被存儲數(shù)據(jù)相關(guān)的SOM,并且如上所述利用用戶控制器560來控制它。
圖11示意性圖解說明個人數(shù)字助理(PDA)600,作為便攜式數(shù)據(jù)處理設(shè)備的一個實例,它具有包括顯示區(qū)域620和提供用戶控制的觸敏區(qū)域630的顯示屏幕610;以及數(shù)據(jù)處理和存儲(沒有顯示)。再次地,本領(lǐng)域的技術(shù)人員將很清楚替換的實施方式。該P(yáng)DA可以如上所述地結(jié)合圖1的系統(tǒng)來使用。
權(quán)利要求
1.一種信息檢索系統(tǒng),其中一組不同的信息項通過該信息項的相互相似性而映射到節(jié)點陣列中的對應(yīng)節(jié)點,使得相似的信息項映射到該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于在用戶顯示器上的顯示區(qū)中把至少一些節(jié)點的表示顯示為顯示點的二維顯示陣列的圖形用戶界面;用于定義該顯示區(qū)的二維區(qū)域的用戶控制器;以及用于檢測位于在該顯示區(qū)的二維區(qū)域中的那些顯示點的檢測器;該圖形用戶界面還顯示代表信息項的數(shù)據(jù)的列表,那些信息項被映射到與該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應(yīng)的節(jié)點。
2.依據(jù)權(quán)利要求1的系統(tǒng),其中根據(jù)從每個信息項所得出的特征向量將信息項映射到該陣列中的節(jié)點上。
3.依據(jù)權(quán)利要求2的系統(tǒng),其中用于信息項的特征向量表示在該信息項中一組信息特征中每個信息特征的一組出現(xiàn)頻率。
4.依據(jù)權(quán)利要求3的系統(tǒng),其中信息項包括文本信息,該用于信息項的特征向量表示在該信息項中一組詞中每個詞的一組出現(xiàn)頻率。
5.依據(jù)權(quán)利要求1或者2的系統(tǒng),其中信息項包括文本信息,該節(jié)點被按照至少一部分文本信息的相互相似性來映射。
6.依據(jù)權(quán)利要求4或者5的系統(tǒng),其中通過排除在該信息項組中出現(xiàn)頻率大于閾值頻率的詞來預(yù)處理該信息項用于映射。
7.依據(jù)權(quán)利要求4到6的任何一個的系統(tǒng),其中通過排除在該信息項組中出現(xiàn)頻率小于閾值頻率的詞來預(yù)處理該信息項用于映射。
8.依據(jù)權(quán)利要求4到7的任何一個的系統(tǒng),包括用于執(zhí)行該信息項的相關(guān)詞搜索的搜索裝置;該搜索裝置和圖形用戶界面被安排成互相合作以便于只顯示那些與該搜索所選擇的信息項相對應(yīng)的顯示點。
9.依據(jù)任何一個先前權(quán)利要求的系統(tǒng),其中信息項和該陣列中的節(jié)點之間的映射包括抖動部分,使得基本上相同的信息項傾向于映射到該陣列中非常靠近但卻不同的節(jié)點上。
10.依據(jù)任何一個先前權(quán)利要求的系統(tǒng),包括用于從該列表中選擇一個或者多個信息項的用戶控制器;該圖形用戶界面可操作以便于可以改變與所選擇的信息項相對應(yīng)的顯示點的顯示區(qū)域中的顯示方式。
11.依據(jù)權(quán)利要求10的系統(tǒng),其中圖形用戶界面可操作以便于以不同顏色和/或強(qiáng)度顯示那些與該列表中被選擇的信息項相對應(yīng)的顯示點。
12.一種信息存儲系統(tǒng),其中處理一組不同的信息項以便于通過該信息項的相互相似性而映射到節(jié)點陣列中的對應(yīng)節(jié)點,以使得相似的信息項映射到在該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于生成從每個信息項中所得出的特征向量的裝置,該用于信息項的特征向量表示在該信息項中一組信息特征中的每個信息特征的一組出現(xiàn)頻率;以及用于將每個特征向量映射到該節(jié)點陣列中的節(jié)點的裝置,信息項和該陣列中的節(jié)點之間的映射包括抖動部分,以使得基本上相同的信息項傾向于映射到在該陣列中非??拷珔s不同的節(jié)點。
13.依據(jù)權(quán)利要求12的系統(tǒng),包括用于將新接收的信息項映射到該節(jié)點陣列中的節(jié)點的裝置;用于在如此映射該新接收的信息項時檢測映射誤差的裝置;和響應(yīng)于該映射誤差超過閾值誤差量的檢測而啟動該組信息項和該新接收的信息項的重新映射過程的裝置。
14.一種便攜式數(shù)據(jù)處理設(shè)備,包括一個依據(jù)任何一個先前權(quán)利要求的系統(tǒng)。
15.一種視頻捕獲和/或處理設(shè)備,包括一個依據(jù)任何一個先前權(quán)利要求的系統(tǒng)。
16.一種信息存儲方法,其中處理一組不同的信息項以便于通過該信息項的相互相似性來映射到節(jié)點陣列中的對應(yīng)節(jié)點,使得相似的信息項映射到該節(jié)點陣列中相似位置處的節(jié)點;該方法包括步驟生成從每個信息中所得出的特征向量,該用于信息項的特征向量表示在該信息項中一組信息特征中的每個信息特征的一組出現(xiàn)頻率;和將每個特征向量映射到該節(jié)點陣列中的節(jié)點,在信息項和該陣列中的節(jié)點之間的映射包括抖動部分,以使得基本上相同的信息項傾向于映射到在該陣列中非??拷珔s不同的節(jié)點。
17.一種信息檢索方法,其中一組不同的信息項通過該信息項的相互相似性而映射到節(jié)點陣列中的相應(yīng)節(jié)點,使得相似的信息項映射到該節(jié)點陣列中的相似位置處的節(jié)點;該方法包括在用戶顯示器上的顯示區(qū)中,把至少一些節(jié)點的表示顯示為顯示點的二維顯示陣列;利用用戶控制器來定義該顯示區(qū)的二維區(qū)域;檢測那些位于該顯示區(qū)的二維區(qū)域中的顯示點;和顯示表示信息項的數(shù)據(jù)的列表,那些信息項被映射到與該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應(yīng)的節(jié)點。
18.具有用于執(zhí)行依據(jù)權(quán)利要求16和17中的任意一個的方法的程序代碼的計算機(jī)軟件。
19.用于提供依據(jù)權(quán)利要求18的程序代碼的供應(yīng)媒體。
20.依據(jù)權(quán)利要求19的媒體,該媒體是存儲媒體。
21.依據(jù)權(quán)利要求19的媒體,該媒體是傳輸媒體。
全文摘要
一種信息檢索系統(tǒng),其中一組不同的信息項通過該信息項的相互相似性而映射到節(jié)點陣列中的對應(yīng)節(jié)點,使得相似的信息項映射到該節(jié)點陣列中相似位置處的節(jié)點;該系統(tǒng)包括用于在用戶顯示器上的顯示區(qū)中,把至少一些節(jié)點的表示顯示為顯示點的二維顯示陣列的圖形用戶界面;用于定義該顯示區(qū)的二維區(qū)域的用戶控制器;和用于檢測位于該顯示區(qū)的二維區(qū)域中的那些顯示點的檢測器;該圖形用戶界面還顯示表示信息項的數(shù)據(jù)列表,那些信息項被映射到與該顯示區(qū)的二維區(qū)域中所顯示的顯示點相對應(yīng)的節(jié)點。
文檔編號G06F17/30GK1495646SQ03125509
公開日2004年5月12日 申請日期2003年9月19日 優(yōu)先權(quán)日2002年9月19日
發(fā)明者D·W·特雷佩斯, D W 特雷佩斯, J·R·托爾佩, 托爾佩 申請人:索尼英國有限公司