專利名稱:組織內(nèi)容項的方法
技術領域:
本發(fā)明涉及一種組織內(nèi)容項的方法。
本發(fā)明也涉及一種用于組織內(nèi)容項的設備。
本發(fā)明也涉及一種計算機程序。
背景技術:
US 5,918,223公開了一種用于尋找聽起來與給定聲音相似或者聽起來與預定種類(class)的聲音相似的音頻數(shù)據(jù)文件或者數(shù)字音頻分段的手段。該系統(tǒng)先測量每個聲音文件的各種聲學特征。它在聲音文件的長度內(nèi)按照定期間隔測量響度、低音、音調(diào)、亮度、帶寬和梅爾(Mel)頻率倒譜系數(shù)。然后,它計算這些特征中的每個特征的特定統(tǒng)計測量(即平均值和標準偏差)以描述它們隨時間的變化。將這一統(tǒng)計測量集合表示為也稱為特征向量的N向量。用戶可以通過指定屬于一定種類的聲音文件集合來創(chuàng)建聲音種類。在這種情況下,用戶選擇表明聲音性質(zhì)的聲音樣本,這些聲音性質(zhì)表明用戶希望訓練的性質(zhì)。每個樣本聲音然后用來計算該集合的平均向量μ以及該集合的歸一化向量V(歸一化值是標準偏差或者范圍值)。這些向量可以存儲于定義類別(category)的單獨數(shù)據(jù)庫中。一旦已經(jīng)通過提供具有定義的大程度的性質(zhì)的向量集合來定義類別,那么可以將單獨的聲音與類別進行比較并且得出聲音與類別之間的距離度量。實例向量A到由μ和V定義的類別的這一距離如下給定
i=0~N-1 可以比較該距離與某一閾值以確定聲音是在該種類“以內(nèi)”還是“以外”。如果預先已知一些聲學特征對于該種類而言不重要,那么在計算距離時可以忽略這些聲學特征或者給予這些聲學特征以更低權重。
該已知方法的一個問題在于,計算的距離基于如下假設定義集合的N向量均勻地分布于平均值周圍并且每個集合由相同數(shù)目的N向量定義。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠?qū)崿F(xiàn)相對精確地將內(nèi)容項組織成個人類別的在開篇段落中提到的那些類型的方法、設備和計算機程序。
這一目的通過根據(jù)本發(fā)明的方法來實現(xiàn),該方法包括 獲得將第一和至少一個另外的標簽中的每個標簽與多個第一內(nèi)容項的相應集合關聯(lián)的信息, 其中至少一個第一內(nèi)容項響應于用戶輸入而與第一標簽關聯(lián); 獲得第二內(nèi)容項; 對于第一和另外的標簽中的每個標簽,計算表征第二內(nèi)容項的特征向量和表征與該標簽關聯(lián)的第一內(nèi)容項的每個特征向量之間的相似性度量;并且 在根據(jù)相似性度量的計算值確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項相似時將第一標簽與第二內(nèi)容項關聯(lián)。
內(nèi)容項優(yōu)選地包括代表聲音摘錄、靜止圖像或者圖像序列中的至少一個的一個或者多個信號的記錄或者鏈接記錄的集合。
由于至少一個第一內(nèi)容項響應于用戶輸入而與第一標簽關聯(lián),所以該方法允許進行特定實施方式所特有的類別定義,這與基于測試人員將大量內(nèi)容項分配給普遍定義的類別的類別定義形成對照。單個第一內(nèi)容項將很少體現(xiàn)特定類別的內(nèi)容項的所有特性。因此,將多個第一內(nèi)容項的相應集合與標簽關聯(lián)。通過計算表征第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的第一內(nèi)容項的每個特征向量之間的相似性度量來考慮表征與標簽關聯(lián)的第一內(nèi)容項的特征向量在特征空間內(nèi)的任何不均勻分布。另外,用于確定第二內(nèi)容項與關聯(lián)于標簽的第一內(nèi)容項相似的判據(jù)可以基于與該標簽關聯(lián)的集合中的第一內(nèi)容項的數(shù)目。
在一個實施例中,允許用戶借助于用戶輸入來定義第一標簽。
通過允許用戶為預定義或者用戶組成的類別定義個人化標簽,用戶可以定義或者增強個人類別。
第一標簽可以通過存儲將第一標簽鏈接到第二內(nèi)容項的信息來與第二內(nèi)容項關聯(lián)。
由于第一標簽通過存儲將第一標簽鏈接到第二內(nèi)容項的信息來與第二內(nèi)容項關聯(lián),所以可以更迅速地組裝基于類別定義的播放列表,因為無需重復相似度測量。
用于組織內(nèi)容項的本方法的一個實施例還包括允許用戶借助于用戶輸入將至少一個第一內(nèi)容項與第一標簽關聯(lián)。
通過允許用戶選擇將哪些第一內(nèi)容項與用戶定義或者預定義的第一標簽關聯(lián),用戶可以定義或者增強個人類別。
在一個實施例中,在確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項的相似性比與關聯(lián)于所述另外的標簽的第一內(nèi)容項的相似性更大時將第一標簽與第二內(nèi)容項關聯(lián)。
效果在于,沒有必要定義用于確定第二內(nèi)容項是否應當屬于與第一標簽對應的類別的閾值。相對判據(jù)也適合于實施一定方法,在該方法中類別在第二內(nèi)容項可以分配給僅僅一個類別這一意義上是互斥的。這一類型的歸類最明顯地不同于用來通過搜尋與代表類別的特定第一內(nèi)容項相似的第二內(nèi)容項來生成播放列表的方法。這樣的方法并不考慮相似內(nèi)容項的聚類大小。
在一個實施例中,通過對每個特征向量所表征的內(nèi)容項中包括的信號進行預定義信號分析以確定一定參數(shù)值,可獲得該特征向量的至少一個坐標,該參數(shù)值代表當在再現(xiàn)設備上呈現(xiàn)時可感知的特性。
效果在于,該方法易于自動化。對相似內(nèi)容項的確定是普遍和客觀的。只有對代表特定種類的第一內(nèi)容項的選擇才包括主觀要素。
一個實施例還包括將代表至少一個值的數(shù)據(jù)與第二內(nèi)容項關聯(lián),該至少一個值基于表征第二內(nèi)容項的特征向量和表征與第一標簽關聯(lián)的內(nèi)容項的特征向量之間的相似性度量的值。
效果在于,可以進行對與查詢相關的內(nèi)容項的相對精化的搜索而不使用數(shù)目很大的標簽,即很多類別定義??梢愿鶕?jù)第二內(nèi)容項有多接近地匹配于與第一標簽關聯(lián)的第一內(nèi)容項對它們進行分等級,從而允許精化以標簽代表的特性為目標的搜索的結(jié)果。
在一個實施例中,僅在確定基于表征第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的內(nèi)容項的特征向量之間的相似性度量的值的至少一個值落在預定范圍內(nèi)時將第一標簽與第二內(nèi)容項關聯(lián)。
效果在于,該方法在第二內(nèi)容項與所有其它各種內(nèi)容項不相似時相對較好地起作用??蛇x擇所述范圍以保證之所以與所有第一內(nèi)容項不相似的內(nèi)容項沒有與它們關聯(lián)的標簽僅由于與該標簽關聯(lián)的第一內(nèi)容項的集合的不相似度最小。
在一個實施例中,通過以下操作來計算相似性度量 根據(jù)加權距離度量來計算特征向量之間的加權距離;并且 將基于概率分布的函數(shù)應用于計算的加權距離。
效果在于,提供使相似性度量適應于不同數(shù)目的標簽這一可能性。可以使用擴展度(spread)更小的概率分布,其中存在具有關聯(lián)的第一內(nèi)容項集合的大量另外的標簽。
在一個實施例中,針對與第一和另外的標簽關聯(lián)的第一內(nèi)容項的集合來參數(shù)化基于概率分布的函數(shù)。
效果在于,考慮了與第一和另外的標簽關聯(lián)的不同大小的第一內(nèi)容項集合。
在一個實施例中,表征第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的內(nèi)容項的任何特征向量之間的相似性度量由一定因子歸一化,該因子依賴于與該標簽關聯(lián)的集合中包括的第一內(nèi)容項的數(shù)目Mc。
效果在于,沒有朝著由如下標簽代表的類別偏置歸類,這些標簽具有與它們關聯(lián)的大量第一內(nèi)容項。
在一個實施例中,相似性度量由以值的范圍為0-1的指數(shù)來指數(shù)化的如下因子歸一化,該因子與關聯(lián)于標簽的集合中包括的第一內(nèi)容項的數(shù)目Mc成反比。
對指數(shù)并且特別是約為0.5的值的這一選擇適應如下事實對于不同類別而言,不同數(shù)目的第一內(nèi)容項可以與代表這些類別的標簽關聯(lián)。如果不打算應用歸一化,則這將導致朝著與許多第一內(nèi)容項關聯(lián)的標簽的強偏置,因為基于概率分布的函數(shù)將按照與第一內(nèi)容項的數(shù)目大致成比例的速率變大。換言之,少數(shù)內(nèi)容項與之關聯(lián)的標簽將很可能分配給第二內(nèi)容項。如果指數(shù)正好為1,則許多第一內(nèi)容項與它關聯(lián)的標簽將與很少或者一個第一內(nèi)容項與之關聯(lián)的標簽大致同樣地可能分配給第二內(nèi)容項。這不是所希望的,因為存在與特定標簽關聯(lián)的更多第一內(nèi)容項這一事實是這一標簽代表令人喜愛的類別(例如用戶的特別偏好)的征兆。
在一個實施例中,基于概率分布的函數(shù)包括指定概率分布寬度的可變參數(shù),其中向該可變參數(shù)賦以如下值,該值依賴于第一內(nèi)容項與第一或者另外的標簽之間關聯(lián)的總數(shù)目。
效果在于,可以考慮第一內(nèi)容項的數(shù)目以提供特征空間的很精細的分辨率或者保證特征空間由不同類別填充。隨著更多第一內(nèi)容項與標簽關聯(lián),可以調(diào)節(jié)基于概率分布的函數(shù)。
在一個實施例中,對于第一和另外的標簽中的特定標簽,向可變參數(shù)賦以如下值,該值是根據(jù)與該標簽關聯(lián)的第一內(nèi)容項集合中的特征向量配對之間的加權距離度量的多個最小距離的值的函數(shù)。
因此,在相對較多第一內(nèi)容項與每個標簽關聯(lián)的情況下,所述參數(shù)變成代表在表征那些第一內(nèi)容項的特征向量之間通常觀察到的距離。
在一個實施例中,所述可變參數(shù)是根據(jù)表征與第一或者另外的標簽關聯(lián)的第一內(nèi)容項的所有特征向量的任意配對之間的加權距離度量的平均距離的函數(shù)。
效果在于,即使在實際上很少第一內(nèi)容項已經(jīng)與第一和/或另外的標簽關聯(lián)的情況下,該參數(shù)值也可以基于表征與標簽關聯(lián)的集合中的第一內(nèi)容項的特征向量之間的距離的經(jīng)驗值。
該方法的一個實施例包括使用在特征向量的坐標之間求差的加權距離度量并且基于通過以下操作可獲得的特征加權矩陣來計算相似性度量 獲得特征向量的訓練集合,每個特征向量表征多個內(nèi)容項之一; 每個特征向量包括在多個子集中的至少一個子集中,并且 用如下值填補加權矩陣,這些值被優(yōu)化成使得公共子集中包括的特征向量配對相對于不相交子集中包括的特征向量配對將具有大的加權距離。
效果在于,距離度量并入了如下信息,該信息非常精確地將不同特征向量坐標量化為類別隸屬關系的預測器。它可以基于非常大的訓練集合。該方法本身可以在內(nèi)容項的相對較小的匯集(collection)上實現(xiàn),但是仍然適應于實施方式特有的類別定義并且產(chǎn)生良好的歸類結(jié)果。
根據(jù)另一方面,根據(jù)本發(fā)明的一種用于組織內(nèi)容項的設備包括電子電路,該電子電路操作用以 響應于用戶輸入將至少一個第一內(nèi)容項與第一標簽關聯(lián), 獲得將至少一個另外的標簽中的每個標簽與多個第一內(nèi)容項的相應集合關聯(lián)的信息; 獲得第二內(nèi)容項; 對于第一和另外的標簽中的每個標簽,計算表征第二內(nèi)容項的特征向量和表征與該標簽關聯(lián)的第一內(nèi)容項的每個特征向量之間的相似性度量;并且 在根據(jù)相似性度量的計算值確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項相似時將第一標簽與第二內(nèi)容項關聯(lián)。
該設備允許基于對內(nèi)容項的一個或者多個特性與定義個人類別的特性的相像度的相對精確的評價來快速獲取內(nèi)容項。
根據(jù)另一方面,根據(jù)本發(fā)明的一種用于組織內(nèi)容項的設備包括電子電路,代替或附加于操作用以允許用戶借助于用戶輸入來定義第一標簽并且在將第一標簽與第二內(nèi)容項關聯(lián)時使得將第一標簽鏈接到第二內(nèi)容項的信息被存儲的是,該電子電路還操作用以使用在特征向量的坐標之間求差的加權距離度量并且基于如下權重計算相似性度量,所述權重對于表征與第一和另外的標簽關聯(lián)的第一內(nèi)容項的特征向量而言是不變的,所述加權距離度量被應用于所述特征向量。
這一設備能夠獨立于任何類別定義而根據(jù)客戶定義的類別對內(nèi)容項更有效地進行分類。加權距離度量給出潛在地更佳的分類結(jié)果,因為可以選擇權重以區(qū)分某個類型的類別,例如與風格(genre)對應的類別或者與藝術家對應的類別。
在一個實施例中,該設備被配置成執(zhí)行根據(jù)本發(fā)明的方法。
根據(jù)另一方面,根據(jù)本發(fā)明的計算機程序包括指令集,這些指令在并入機器可讀介質(zhì)中時使得具有信息處理能力的系統(tǒng)執(zhí)行根據(jù)本發(fā)明的方法。
下面將參照附圖更詳細地說明本發(fā)明,在附圖中 圖1是個人音樂播放器的示意性框圖; 圖2是給出組織內(nèi)容項的方法的概要的流程圖; 圖3是給出用在圖2的方法中的提供特征加權矩陣的第一方法的概要的流程圖; 圖4是在按種類聚類的特征向量的二維特征空間中的第一分布類型的示意圖; 圖5是在按種類聚類的特征向量的二維特征空間中的第二分布類型的示意圖; 圖6是給出用在圖2的方法中的提供特征加權矩陣的第二方法的概要的流程圖;以及 圖7是被設置用于借助圖2中所示方法的變型來識別聲音來源的個人計算機的框圖。
具體實施例方式 在這里,使用電子設備1作為用于呈現(xiàn)內(nèi)容項中包括的信號(例如文件中包括的數(shù)字音頻、視頻或者圖像信號)的再現(xiàn)設備的實例。電子設備1可以是固定或者便攜式設備。電子設備1可以是消費設備,例如TV或者機頂盒或者專業(yè)設備。文件存儲于大容量存儲設備2中。大容量存儲設備2可以例如包括硬盤、固態(tài)存儲器、光盤讀取器或者全息存儲裝置。每個存儲的文件還包括元數(shù)據(jù)。
通過接口3讀取來自文件的數(shù)據(jù)。電子設備1還包括用于執(zhí)行只讀存儲器6中存儲的指令的處理器4和隨機存取存儲器5,這些指令包括使便攜式音樂播放器1能夠?qū)崿F(xiàn)下述一種或者多種方法的指令。為了再現(xiàn)內(nèi)容項中包括的信號,電子設備1包括通過輸入/輸出接口9而被提供數(shù)據(jù)的數(shù)字信號處理器7和再現(xiàn)設備8。再現(xiàn)設備8可以例如包括顯示器和/或揚聲器。用戶能夠通過用戶接口來提供輸入,該用戶接口包括輸入設備10(例如鍵盤和/或滾動按鈕)和輸出設備11。輸入設備10和輸出設備11可以例如包括網(wǎng)絡連接器(例如USB連接器或者以太網(wǎng)連接器)、模擬音頻和/視頻連接器(比如cinch連接器或者SCART連接器)或者數(shù)字音頻和/或視頻連接器(比如HDMI或者SPDIF連接器)。輸入設備10和輸出設備11可以包括無線接收器和/或發(fā)射器。
用于分發(fā)和存儲比如音頻信息這樣的內(nèi)容項的新技術允許用戶收集很大的音樂匯集。盡最大益處地使用這樣大的音樂匯集變成對用戶的一個挑戰(zhàn),并且需要開發(fā)用以輔助用戶訪問音樂匯集的技術。音樂分類是一種允許用戶根據(jù)一些預定義類別(例如音樂風格或者與音樂關聯(lián)的基調(diào)(mood))來組織音樂匯集的技術。自動音樂分類系統(tǒng)基于分類模型將音樂分類成一個或者多個類別。已知系統(tǒng)的一個弊端在于,它們的預定義類別常常與用戶感知的類別不匹配。雖然用戶有時可以將他的音樂人工分類成個人類別,但是他需要為他的整個音樂匯集這樣做,這需要大量的工作。
這里概括的方法提供了一種允許用戶付出有限數(shù)量的努力來定義個人種類的組織內(nèi)容項的方法。該組織內(nèi)容項的方法包括以下步驟允許用戶定義標簽;允許用戶將至少一個第一內(nèi)容項與標簽關聯(lián);搜尋第二內(nèi)容項,這些第二內(nèi)容項具有與第一內(nèi)容項相似的特性;并且將標簽與第二內(nèi)容項關聯(lián)。通過使用相似性度量,第一內(nèi)容項(即種子內(nèi)容項)用作用戶感興趣的類別的原型實例。相似歌曲非??赡芫哂信c種子歌曲相似的音樂內(nèi)涵。因此,這一方法對于每一類別有很少種子歌曲已經(jīng)有效。相同原理可以應用于其它類型的內(nèi)容項。在個人化分類的情況下使用音樂相似性度量的一個附加優(yōu)點在于獲得對與種子歌曲的相似度的有意義的度量。通過這種方式,可以對最可能是個人類別一部分的歌曲進行等級排序,并且可以僅顯示最可能屬于該種類的歌曲,或者可替換地,可以在列表的頂部顯示最可能的歌曲。同樣,相同原理可以應用于其它類型的內(nèi)容項。
下文將更詳細地給出相似性度量的組成。使用在表征內(nèi)容項的特征向量fx的坐標之間求差的加權距離度量來計算相似性度量。通過對特征向量fx所表征的內(nèi)容項中包括的信號進行預定義信號分析可獲得該特征向量fx的每個坐標。該分析產(chǎn)生如下參數(shù)值,這些參數(shù)值代表當在再現(xiàn)設備8上呈現(xiàn)信號時可感知的信號特性。對于音頻信號而言,特征向量坐標的實例包括響度、低音、音調(diào)、亮度、帶寬和梅爾頻率倒譜系數(shù)。對于視頻信號或靜止圖像而言,對比度、亮度、顏色分量的相對強度以及場景變化的頻率可以被量化并且作為定義特征向量fx的參數(shù)而被包括。
圖2的方法中所用加權距離度量基于與表征種子項的特征向量獨立的權重。這意味著權重沒有根據(jù)與加權距離的確定所針對的標簽關聯(lián)的哪個種子項集合而變化。相反,權重的值對于所有標簽是恒定的。在所示實施例中,加權距離度量基于借助圖3和圖6中所示方法之一可獲得的特征加權矩陣W。依次地,基于如下特征向量fx的訓練集合來計算特征加權矩陣,這些特征向量表征比存儲于大容量存儲設備2中的匯集大得多的訓練數(shù)據(jù)庫中的分類內(nèi)容項。
因此,圖2中所示方法的第一步驟12一般不在電子設備1中執(zhí)行,而是脫機執(zhí)行。在若干變型中,電子設備可以使用加載到大容量存儲設備2中的預先分類的訓練集合來執(zhí)行第一步驟12。然而,當在例如在有權訪問更大內(nèi)容項(每項標注有例如標識風格種類的額外數(shù)據(jù))匯集的更強大數(shù)據(jù)處理系統(tǒng)中通??捎玫拇蟮挠柧毤蠄?zhí)行時,第一步驟12產(chǎn)生更佳的結(jié)果。根據(jù)圖3和圖6中所示方法之一來執(zhí)行第一步驟12并且下文將更詳細地說明該步驟。
通常在生產(chǎn)電子設備1的工廠中執(zhí)行第二步驟13。它涉及到將代表加權矩陣的數(shù)據(jù)加載到電子設備1中包括的存儲器中,例如加載到ROM6或大容量存儲設備2中。
當用戶希望對電子設備1可訪問的內(nèi)容項匯集進行歸類時,執(zhí)行其余步驟。
步驟14包括允許用戶定義標簽。步驟15包括允許用戶將至少一個第一內(nèi)容項或者種子內(nèi)容項與標簽關聯(lián)。為了進行有意義的歸類,通過重復先前兩個步驟14、15或者通過使用例如在工廠中預設的與種子內(nèi)容項關聯(lián)的默認標簽來獲得另外的標簽。用戶也可以執(zhí)行兩個步驟14、15中的僅僅一個步驟。例如,可以使用預設標簽標識符,以及用戶從他的個人匯集中選擇的與種子項關聯(lián)的這樣的標簽。附加地或者可替換地,用戶可以改變與種子項集合已經(jīng)關聯(lián)的標簽的標識符。
另外的步驟16包括獲得將被分配給一定類別的非歸類或者第二內(nèi)容項。電子設備1將獲得表征第二內(nèi)容項的特征向量fx(步驟17)。它將通過自身根據(jù)預定算法進行信號分析來計算特征向量fx,或者它將取回如下數(shù)據(jù),該數(shù)據(jù)代表先前計算的特征向量fx并且包括在內(nèi)容項中或者由與內(nèi)容項一起存儲的元數(shù)據(jù)鏈接。
另外的步驟18包括構(gòu)建個人化分類器。使用由歌曲組成的內(nèi)容項匯集為例,可以在以下信息可用這一假設下構(gòu)建個人化分類器。對于匯集中的每首歌曲,已經(jīng)計算了平均特征向量。匯集中的所有歌曲的平均特征向量由N個向量f1...fN表示。此外,用戶已經(jīng)指定多個個人化種類描述符(步驟14)。對于每個個人化種類,已經(jīng)指定至少一首實例歌曲(步驟15),并且應當存儲對應的平均特征向量。這些實例特征向量將表示為
其中c表示特征向量所屬的種類,而Mc是可用于種類c的實例特征向量的數(shù)目。實例歌曲特征向量和它們的對應種類標簽在圖2中表示為包含所有實例項的列表的兩個陣列19、20和包含對應種類標簽的一個陣列。
如已經(jīng)指出的,用戶可以通過給出用戶輸入來與個人化分類器交互。經(jīng)由這一用戶輸入,將音樂匯集中可用的特征向量傳送到分類器數(shù)據(jù)塊21。
基于分類器數(shù)據(jù)塊21中可用的數(shù)據(jù),可以使用個人化分類器來自動標記音樂匯集。分類結(jié)果然后可以用來使音樂可供用戶用于以播放列表的形式回放(如果希望的話)。利用本發(fā)明,可以以很方便的方式生成播放列表,因為對于每首歌曲而言,有如下音樂相似性度量可用,該音樂相似性度量表明該歌曲與它被分類到的類別匹配的程度。基于可用相似性度量,可以對播放列表的頂部的最相似歌曲進行等級排序。由于使分類結(jié)果可為用戶所用,因而用戶可以提供用戶輸入以表明歌曲(根據(jù)用戶的意見)分類不正確。因此,用戶可以給出引起數(shù)據(jù)塊21中的實例歌曲列表的更新的用戶輸入。
對于音樂匯集中的每首歌曲,將使用音樂相似性度量Gxc來計算音樂相似性度量(步驟22)。在這里,x指的是音樂匯集內(nèi)的歌曲;因此,x的范圍可以為1...N,而c是相似度的計算所針對的種類(由多個實例歌曲代表)。
Gxc的可能定義如下 其中P是概率密度函數(shù),N是歸一化因子,而D是表示特征向量配對Sk和fx的相似度的加權距離度量。這一度量具有以下基本形式 D(Sk,fx)=(Sk-fx)TW(Sk-fx), (2) 其中W是加權矩陣。這一距離度量在音樂很相似時將傾向于具有小的值。如上面所提到的,最好基于預定義數(shù)據(jù)庫來給出矩陣W,但是也可以根據(jù)可用實例歌曲來計算它。
然后,通過簡單地尋找種類(其中在特定特征向量fx給定時Gxc是最大值)來獲得fx的分類(步驟23) 應當指出的是,這一分類方式導致互斥的類別,即每首歌曲僅能屬于單個類別??商鎿Q地,有時可能優(yōu)選的是歌曲屬于多個類別。在該情況下可以用滿足下式的所有歌曲填充類別 Gxc>Δ,(4) 其中Δ代表適當選擇的判據(jù)值。
方程1中的函數(shù)P用來按照音樂聽起來與實例歌曲相似的概率來估算音樂相似度。定義它使得如果音樂很相似(并且D很小)則P將為大,但是當音樂不相似(并且D為大)時P將接近零。使用高斯概率密度函數(shù)獲得Gxc的以下表達式 其中σ是指定高斯分布寬度的參數(shù)。雖然有參數(shù)N和σ的選擇自由度,但是經(jīng)驗已經(jīng)教導使用σ的如下值很好地起作用,該值是針對任意特征向量配對觀察的D的平均值的大約20%。它允許對概率密度函數(shù)的充分擴展以保證實例歌曲的影響在特征空間的合理大的部分內(nèi)擴展而又小到足以在特征空間中具有足夠的分辨率以區(qū)分不相似和相似的特征向量配對。
此外,使用被證明是一種很有用的選擇。它適應用戶可以針對不同類別提供不同數(shù)目的實例歌曲這一事實。如果不應用歸一化,則這將導致朝著具有許多實例特征向量的種類的強偏置,因為概率密度函數(shù)將按照與實例歌曲數(shù)目大致成比例的速率變得更大。換言之,具有少數(shù)實例歌曲的種類很可能出現(xiàn)。如果歸一化是N=Mc,則具有很多實例歌曲的類別將與具有僅僅一首實例歌曲的類別大致同樣可能地出現(xiàn)。這不是所希望的,因為現(xiàn)在根本不能使用每一類別的實例歌曲數(shù)目作為用以用歌曲更密集地填補某些類別的手段。在一個種類中存在更多實例歌曲這一事實可以視為用戶想要讓更多歌曲分類到這一類別中的征兆。定義被證明是一種克服上述問題的良好方式。
使得參數(shù)σ可根據(jù)可用實例歌曲的數(shù)目而變化是值得的?;舅枷朐谟冢灰嬖诤苌俚膶嵗枨?,就應當選擇參數(shù)σ大到足以填充特征空間,但是它應當小到足以仍然可以分辨種類之間的差異。通過選擇σ相對較大,相同種類的不同實例歌曲的概率函數(shù)將傾向于大量地重疊。因此,隱含地假設在特征空間中并不存在不同(非重疊)聚類的種類,這只是因為根據(jù)有限數(shù)量的數(shù)據(jù)不能導出有關這樣的聚類的存在性的必要信息。
當越來越多的實例歌曲可用于每個種類時,開始存在足夠信息用以區(qū)分一個種類內(nèi)的特征向量聚類。原則上,當存在聚類時,σ應當具有與在聚類內(nèi)通常觀察到的距離相當?shù)牧恐怠榱藢垲悆?nèi)的典型距離進行估計,在一個種類內(nèi)的特征向量配對之間觀察到的
最小距離用來估計σ的值。
導出σ所用的兩種方式,即具有少數(shù)和許多實例歌曲的情況,可以通過在根據(jù)兩種方式導出的σ之間進行加權求和來加以組合,其中權值依賴于實例歌曲的數(shù)目。
將待歸類的內(nèi)容項分配給最相似的類別的步驟23涉及到存儲代表如下標簽的數(shù)據(jù),該標簽將該類別表示為鏈接到內(nèi)容項或者包括在內(nèi)容項中的元數(shù)據(jù)。此外,可以類似地存儲如下數(shù)據(jù),該數(shù)據(jù)代表與定義類別的種子項的相似性度量Gxc的計算值。可替換地或者附加地,可以存儲加權距離D(Sk,fx)。因此,如下相似性度量可用,該相似性度量表明歸類的內(nèi)容項與類別匹配的程度?;诳捎玫南嗨贫龋梢皂憫谝蕴囟悇e內(nèi)的內(nèi)容項為目標的搜索查詢而產(chǎn)生等級排序。這樣的搜索查詢的實例是用以確定播放列表的命令。
可能出現(xiàn)待歸類的內(nèi)容項沒有與任何由用戶定義的類別良好地匹配。如圖2中所示,如果最相似的類別的相似度值Gxc在第一閾值T1以上的預定范圍內(nèi),則將內(nèi)容項僅分配給最相似的類別(與距離度量形成對照的是,定義相似性度量使得更高的值表明更高的相似程度)。如果最相似的類別的相似度值Gxc落在第一閾值T1以下,則不將內(nèi)容項分配給任何類別。
相反地,可能出現(xiàn)用戶定義的類別并不完全互斥或者它們一起相對靠近地落在特征空間中。如圖2中所示,內(nèi)容項與除了代表最相似的類別的標簽之外的至少一個標簽關聯(lián)(步驟24)。僅當表征第二內(nèi)容項的特征向量fx與表征其它標簽的類別的特征向量Sc2之間的相似性度量落在第二閾值T2以上的預定范圍內(nèi)才這樣做。
現(xiàn)在將參照圖3說明獲得特征加權矩陣W的第一方法。在第一步驟25中,獲得特征向量fx的訓練集合。每個特征向量fx表征訓練數(shù)據(jù)庫的內(nèi)容項之一并且可通過進行與用來獲得電子設備1中所用特征向量的分析相同的分析來獲得。此外,在代表類別的多個子集中的至少一個子集中包括每個特征向量fx。應當指出的是,這些類別一般與圖2中所示方法的步驟14、15中定義的類別不同。然而,為了得到良好的分類結(jié)果,它們應當基于相同的性質(zhì)。也就是說,它們應當基于風格,其中加權矩陣W的最終目的在于根據(jù)用戶定義的風格對電子設備中的匯集進行歸類。類似地,將訓練集合的特征向量fx分配給子集應當基于藝術家,其中最終目的在于在電子設備1中進行自動化形式的藝術家識別。應當清楚的是,用來生成訓練集合的內(nèi)容項的藝術家無需與電子設備1的用戶將之與他定義的標簽關聯(lián)的種子內(nèi)容項的藝術家相同。圖3的方法的目的僅在于用如下權重生成加權矩陣W,這些權重特別適于根據(jù)特定性質(zhì)(例如藝術家或者風格)來提供歸類。
對于與種類c對應的每個子集,計算平均特征向量μc(步驟26)。此外,計算種類內(nèi)方差σ2μc(步驟27)。該方法也包括針對定義特征空間的所有特征向量fx計算方差σ2f(步驟28)。也用值填補特征加權矩陣W,使得使用它來計算的加權距離依賴于不同特征向量坐標之間的協(xié)方差。換言之,特征加權矩陣W是非對角矩陣。為此,針對訓練集合中的所有特征向量fx計算協(xié)方差矩陣C(步驟29)??商鎿Q地,這一矩陣C可以基于訓練集合的代表性隨機樣本以減少計算負荷。
根據(jù)下式計算計算特征加權矩陣W(步驟30) W=gw·C-1·gw′,(6) 其中gw是通過將代表種類內(nèi)方差σ2μc的平均值的向量逐個元素地除以代表所有特征空間內(nèi)的方差σ2μc的向量并且求取平方根來獲得(步驟31)的加權因子。
如果一個特征向量坐標是類別隸屬關系的良好預測器,則以這一方式獲得的加權矩陣W是良好的分類器。這將對應于其中代表類別的子集沿著特征空間的一個維度分布的情形。圖3的方法考慮了子集沿著各種維度多大程度地“展開”。
圖4和圖5描繪了將特征向量分配給子集,其中圖6中所示的不同方法產(chǎn)生更適當?shù)募訖嗑仃嚒?br>
在圖4中,表示了四個類別。實心點表示子集的平均數(shù)特征向量,而圓形代表不同種類的等概率輪廓。實際上,它們表示子集的邊界??梢钥闯?,類別平均值大致沿著成四十五度的直線散開。每個單獨的特征對類別之間的區(qū)分產(chǎn)生的貢獻相等。圖3中所示方法因此將對特征1和2相等地進行加權。然而,應當清楚的是,在箭頭所示方向上不同的特征向量比在與之垂直的方向上不同的特征向量更可能屬于不同的子集。出于這一原因,用如下值填補使用圖6的方法來獲得的特征加權矩陣W,這些值是每一子集的不同特征坐標配對的平均值之間協(xié)方差的函數(shù)。
在圖5中,同樣表示了四個類別。然而,子集內(nèi)的特征向量這次沒有在特征空間內(nèi)均勻地分布。特定子集內(nèi)的方差在箭頭的方向上比在與箭頭垂直的方向上更大。與在垂直于箭頭的方向上不同的特征向量相比,在箭頭的方向上彼此不同的特征向量更不確定處于不同的子集——對應于不同的類別——中。出于這一原因,用如下值填充使用圖6的方法獲得的特征加權矩陣W,這些值是按照子集平均的在子集內(nèi)的不同特征向量坐標配對之間的協(xié)方差的函數(shù)。
在說明圖6中所示步驟之前,說明理論背景是有用的。
假設表征N個內(nèi)容項的N特征向量fx的訓練集合可用。為了簡單起見,還假設定義特征向量fx使得所有特征向量fx的平均等于零向量。這總是可以通過減去適當?shù)南蛄縼韺崿F(xiàn)。也假設特征向量fx具有K個分量。
特征向量fx已經(jīng)分配給代表M個標記的類別的子集。在下文中,c(fx)表示特征向量x的類別??梢葬槍γ總€子集定義平均特征向量μCx。
為了簡化以下說明,定義零類別平均特征向量ax如下 其中
表示與fx關聯(lián)的類別的平均特征向量。零類別平均特征向量ax將幫助保證特征向量ax的每個分量的類別內(nèi)(協(xié))方差相等。所有類別關聯(lián)于與零向量相等的平均特征向量ac。
現(xiàn)在,可以用所有N個零類別平均特征向量ax填充K×N矩陣A。具有矩陣A并且知道所有特征向量ax(x=1...N)的集合具有零平均值,零類別平均特征向量ax的類別內(nèi)協(xié)方差矩陣C可以計算如下 C=AAT (8) 類別內(nèi)協(xié)方差矩陣C是對稱的,因此可以對C進行以下奇異值分解 C=QSQT (9) 其中Q是包含C的本征向量(eigenvector)的酉矩陣,而S是包含C的相應本征值(eigenvalue)的對角矩陣。根據(jù)方程(8)和(9)推知
其中并且 由以上可見,矩陣B具有與單位矩陣相等的協(xié)方差矩陣。因此,矩陣B內(nèi)的變換后的特征向量具有零協(xié)方差和單位方差。變換ax→bx將零類別平均特征向量ax變換成白化特征空間,其中在每個種類產(chǎn)生近似相似的協(xié)方差矩陣這一假設下屬于一個類別的特征向量具有零協(xié)方差和單位方差。
繼續(xù)闡述特征向量和變換成白化特征空間的平均特征向量 應用這一變換并且基于它導出加權矩陣W具有的效果在于,所得到的加權距離度量考慮了類別內(nèi)(協(xié))方差。因此,無論平均向量μ在特征空間中分布的方向如何,該度量對于圖5中所示橢圓形特征向量分布而言都產(chǎn)生更佳的結(jié)果。
與此獨立的是,用來填補特征加權矩陣的值也是每一子集的不同特征向量坐標配對的平均值之間的協(xié)方差(“跨類別”協(xié)方差)的函數(shù)。這將從下文對理論背景的說明中變得清楚。
其思想在于,構(gòu)造特征向量gx與gy之間的差矩陣T并且對該差矩陣應用一定準則(norm),其基于屬于不同類別的特征向量配對的期望值與屬于相同種類的特征向量配對的期望值之差。
差矩陣T可以記作如下 T=(gx-gy)(gx-gy)T(13) 使用逐個元素的符號表示,屬于不同類別的特征向量配對的期望值為 其中L是第一和第二求和的元素的合計總數(shù)目,該數(shù)目等于屬于不同類別的特征向量配對的數(shù)目。
方程(14)可以改寫為 應用以下一次近似 兩項中的第二項包含方程(14)中假設為具有近似相同的平均值的叉積。這一假設對于如下訓練集合有效,在這些訓練集合中存在比屬于相同類別的特征向量配對多得多的屬于不同類別的特征向量配對。事實上,末項近似為零,因為已經(jīng)定義特征向量,使得在訓練集合中的所有向量上具有零平均值(已經(jīng)以這一方式定義了ax,并且向白化特征空間的變換并未改變這一性質(zhì))。除了屬于特定類別的特征向量之外的所有特征向量的平均也近似為零。由此推知屬于不同類別的特征向量配對的差矩陣的期望值
可以將白化特征空間中的特征向量改寫為平均特征向量
與擾動εx之和 屬于不同類別的特征向量配對的差矩陣T的期望值于是變成 擾動對于每個類別而言具有零平均值。利用這一事實,期望值變成 屬于相同類別的特征向量配對之間的差矩陣的期望值定義如下 如果假設每一類別的特征向量數(shù)目對于每個類別而言大致相同并且特征元素的協(xié)方差并不依賴于類別,則可以改寫方程(21)如下 從而最終表達式變成 使用方程(20)和(23),可以將屬于不同類別的特征向量配對的差矩陣的期望值與屬于相同類別的特征向量配對的期望值之差記為 這一方程用來定義用于確定兩個特征向量gk和gl是屬于相同還是不同類別的準則。根據(jù)最優(yōu)檢測理論來獲得該準則??梢詫⑿盘朰[n]記為待檢測的信號XS[n]與隨機噪聲信號XN[n]之和。如果噪聲信號是對于n的每個值而言平均值等于零的方差恒定的白高斯分布信號,則使用與信號XS[n]相等的匹配濾波器來獲得最優(yōu)檢測器。將這一點應用于討論的問題,這樣的噪聲信號為 XN[n]=Tkl(i,j)-<Txy(i,j)>w (25) 其中n枚舉i和j的所有組合,并且其中假設XN[n]由于減去方程(25)中的末項而具有零平均值。待檢測的信號為 Xs[n]=<Txy(i,j)>a-<Txy(i,j)>w (26) 濾波器方程因此變成 該方程可以記為 方程(28)中的末項恒定,一種更便利的距離度量為 使用方程(13),從而獲得 代入方程(24)從而獲得 定義如下矩陣Ω是便利的,其中Ω(i,j)=ωj(i),即第j個變換的特征向量的第i個元素,j=1...N,i=1...K。利用這一定義,加權距離度量變成(在白化特征空間中) Dkl=(gk-gl)TΩΩT(gk-gl) (32) 計算特征加權矩陣W的該方法的實施例導致將應用于原特征向量fx的特征加權矩陣。利用ω和g的定義,可以改寫方程(32)如下
方程(2)的加權矩陣W因此變成 W=VVT (34) 其中 V=QS-1QTU (35) U是由所有類別的平均特征向量形成的矩陣,定義為U(i,j)=μj(j),即第j個類別的平均特征向量的第i個元素。
圖6示出了可以如何進行基于特征向量fx的給定訓練集合對加權矩陣W的實際計算。在第一步驟32中,獲得歸類的特征向量的訓練集合。對于與類別對應的每個特征向量子集,計算平均特征向量μc(步驟33)。隨后,根據(jù)方程(7)變換特征向量fx以獲得零類別平均特征向量ax(步驟34)。針對每個類別重復這些步驟33、34。
根據(jù)方程(8)計算類別內(nèi)協(xié)方差矩陣C(步驟35)。通過應用奇異值分解算法根據(jù)方程(9)計算矩陣Q、S(步驟36)。這樣的算法本身已知并且這里不詳細加以描述。
并行或者連續(xù)地,形成所有平均特征向量的矩陣U(步驟37)。然后,根據(jù)方程(34)和(35)確定特征加權矩陣(步驟38)。特征加權矩陣W例如可以在生產(chǎn)電子設備1時加載到它的存儲器中。
上文已經(jīng)使用了電子設備1的實例,其中應用組織內(nèi)容項的方法對大容量存儲設備2上存儲的個人匯集進行歸類。所有上述方法的另一用途在于確定聲音(例如語音)來源。在這樣的實施例中,圖3和圖6的方法之一應用于表征來自不同來源的聲音記錄的特征向量的訓練集合。將表征來自相同來源的聲音摘錄的特征向量分組成子集。因此,類別對應于聲音來源。優(yōu)化通過應用任一方法而獲得的加權矩陣W以便區(qū)分不同的聲音來源,例如不同的說話者。
圖7示意地示出了配備有聲音識別軟件的計算機39。計算機39包括數(shù)據(jù)處理單元40和主存儲器41。在盤驅(qū)動器42上提供如下軟件,指令經(jīng)由接口43從該軟件加載到主存儲器41中。芯片組44與到輸入設備46(例如鍵盤)的接口45形成接口、與到輸出設備48(例如可視顯示單元)的接口47形成接口并且與聲卡49形成接口。聲卡49具有用于麥克風50的輸入,該麥克風用于捕獲聲音摘錄。
計算機39上安裝的聲音識別軟件包括或者操作用以取回代表特征加權矩陣W的數(shù)據(jù)。該軟件也響應于用戶輸入操作用于從第一和至少一個另外的來源中的每個來源獲得至少一個樣本聲音摘錄并且將標簽與表征這些摘錄的特征向量關聯(lián)。標簽表明從其獲得聲音摘錄的來源。根據(jù)實施方式,可以允許用戶借助于經(jīng)由輸入設備46提供的用戶輸入來定義標簽。通過這種方式,計算機39被設置成識別來自與標簽關聯(lián)的任何來源的聲音。
在后續(xù)階段中,捕獲來自未知來源的聲音摘錄并且確定表征它的特征向量。使用與圖2中描繪的方法匹配的方法,通過對于第一和另外的標簽中的每個標簽,計算表征來自未知來源的聲音摘錄的特征向量和表征與標簽關聯(lián)的聲音摘錄的特征向量——對于特定的來源,多個特征向量可能可用——之間的相似性度量來確定最可能的來源。基于特征加權矩陣使用加權距離度量來計算相似性度量。計算機39通過確定新聲音摘錄與關聯(lián)于特定標簽的聲音摘錄比與關聯(lián)于任何其它標簽的聲音摘錄更相似來確定新聲音摘錄的來源。在輸出設備48上提供涉及這一特定標簽的適當輸出。
與在圖2所示實施例中一樣,聲音識別軟件可以被配置成僅當最相似來源的相似度值Gxc處于第一閾值T1(回顧更高的值表明更高的不相似程度)以下的預定范圍內(nèi),才將來自未知來源的聲音摘錄分配給最相似的已知來源。如果最相似類別的相似度值Gxc落在第一閾值T1以上,則計算機39將向用戶表明新聲音摘錄最可能并非來自先前已知來源之一。
導出最優(yōu)特征加權矩陣——相對較大的訓練集合可以用于該矩陣——與在部署點提供與標簽關聯(lián)的樣本項的階段之間的分離在應用于聲音識別時與在應用于對內(nèi)容項的個人匯集的歸類時具有相同的效果。少量樣本內(nèi)容項在部署點足以產(chǎn)生良好的歸類結(jié)果。通過在應用的加權距離度量中使用最適當?shù)臋嘀乇WC了質(zhì)量。
應當指出的是,上述實施例舉例說明了而不是限制了本發(fā)明,并且本領域技術人員將能夠設計出許多可替代的實施例而不脫離所附權利要求的范圍。在權利要求中,置于括號之間的任何附圖標記都不應解釋為對權利要求的限制。動詞“包括”及其變化形式的使用并不排除存在權利要求中未記載的元件或者步驟。元件之前的冠詞“一”或“一個”并不排除存在多個這樣的元件??梢越柚诎ㄈ舾刹煌挠布约敖柚诮?jīng)過適當編程的計算機來實施本發(fā)明。在枚舉若干裝置的設備權利要求中,這些裝置中的一些可以由同一項硬件實施。在相互不同的從屬權利要求中記載某些措施這一事實并不表明不能有利地使用這些措施的組合。
本領域技術人員應當清楚的是,“裝置”意指包括執(zhí)行操作或者被設計成執(zhí)行指定的功能的任何硬件(比如分立或者集成電路或者電子元件)或者軟件(比如程序或者程序的部分),其獨自地或者與其它功能結(jié)合、其為孤立的或者與其它元件協(xié)作。“計算機程序”應當被理解為表示存儲于計算機可讀介質(zhì)(例如光盤)上的、可經(jīng)由網(wǎng)絡(例如因特網(wǎng))下載的或者以任何其它方式可銷售的任何軟件產(chǎn)品。
這里已經(jīng)描述了一種適合于基于相對較小量的內(nèi)容項的先前分類來進行內(nèi)容項分類的方法、設備和計算機程序。
該組織內(nèi)容項的方法包括 獲得將第一和至少一個另外的標簽中的每個標簽與至少一個第一內(nèi)容項的相應集合關聯(lián)的信息, 其中至少一個第一內(nèi)容項響應于用戶輸入而與第一標簽關聯(lián); 獲得第二內(nèi)容項; 對于第一和另外的標簽中的每個標簽,計算表征第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的第一內(nèi)容項的至少一個特征向量之間的相似性度量;并且 在根據(jù)相似性度量的計算值確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項相似時將第一標簽與第二內(nèi)容項關聯(lián),其中使用在特征向量的坐標之間求差的加權距離度量來計算相似性度量。其特征在于,加權距離度量基于如下權重,所述權重對于表征與第一和另外的標簽關聯(lián)的第一內(nèi)容項的特征向量而言是不變的,所述加權距離度量被應用于所述特征向量。
由于針對第一和另外的標簽中的每個標簽計算表征第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的內(nèi)容項的至少一個特征向量之間的相似性度量,所以實現(xiàn)了真實的歸類,因為評估了所有候選類別。由于在確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項相似時將第一標簽與第二內(nèi)容項關聯(lián),所以基于少量內(nèi)容項樣本或者甚至僅僅一個內(nèi)容項樣本以相對簡單的方式實現(xiàn)了歸類。下文將定義類別或者種類的這些第一內(nèi)容項稱為“種子項”。特別地,該方法無需將表征特征空間的統(tǒng)計函數(shù)用于對新內(nèi)容項的分類。由于使用在特征向量的坐標之間求差的加權相似性度量來計算相似性度量的值,所以可以獲得更佳的分類結(jié)果。特別地,該方法提供了如下可能性基于由測試人員分類的大量內(nèi)容項來“訓練”相似性度量以便使用與待實施的分類類型相適合的加權值。例如,可以選擇權重以提供朝著鑒別音樂風格來調(diào)整的相似性度量。由于加權距離度量基于與表征第一內(nèi)容項的特征向量獨立的權重,所以可以“脫機”(即基于內(nèi)容項的單獨和大得多的通用匯集)實現(xiàn)“訓練”階段以便提供適合特定目的(即語音識別、風格分類、基調(diào)分類、藝術家分類等)的分類器。第一和至少一個另外的標簽與至少一個第一內(nèi)容項的相應集合的關聯(lián)允許與用來獲得加權距離度量中所含權重的種類定義獨立的個人化風格定義、基調(diào)定義、藝術家定義等。因此,該方法體現(xiàn)了如下認識易用并且精確的加權距離度量應當依賴于分類類型而不是種類。與種類獨立的加權距離度量結(jié)合先前未知的用戶定義種類易于實施。這樣的度量無需基于某一用戶輸入調(diào)節(jié)權重。
這一實施例解決了US5,918,223中記載的方法的另一問題僅當該方法基于對用戶希望訓練的表征特定性質(zhì)的樣本的相對大的選擇,它才產(chǎn)生良好的結(jié)果。因而,它不那么適合于進行針對特定聽眾而個人化的并且基于借助小的樣本集合而提供的類別定義的分類。對距離計算的依賴于種類的加權幾乎不可能以使它易于使用并且給出精確結(jié)果這樣的方式在在消費設備中實現(xiàn)。
這里也已經(jīng)描述了一種提供用在根據(jù)本發(fā)明的組織內(nèi)容項的方法中的特征加權矩陣的方法,該方法包括 獲得特征向量的訓練集合,每個特征向量表征多個內(nèi)容項之一, 每個特征向量包括在多個子集中的至少一個子集中,并且 用如下值填補加權矩陣,這些值被優(yōu)化成使得共同子集中包括的特征向量配對相對于不相交子集中包括的特征向量配對將具有大的加權距離。
在一個實施例中,用值填補加權矩陣,使得特征向量坐標由至少一個因子加權,該至少一個因子是以下各項中的至少一項的函數(shù) 訓練集合中包括的所有特征向量上該特征向量坐標的值的方差,以及 每一子集的該特征向量坐標的平均值的方差。
效果在于,對于區(qū)分內(nèi)容項類別而言重要的特征空間維度被給予更多權重。
在一個實施例中,用值填補加權矩陣,使得特征向量坐標由至少一個因子加權,該至少一個因子是每一子集該特征向量坐標的平均值的方差除以訓練集合中包括的所有特征向量上該特征向量坐標的值的方差的函數(shù)。
效果在于,與其在整個訓練集合上的變化相比而言值在子集之間變化大的特征被更大程度地加權。
在一個實施例中,用值填補加權矩陣,使得加權距離依賴于不同特征向量坐標之間的協(xié)方差。
效果在于,在兩個特征相對較大地、但總是以協(xié)調(diào)的方式變化的情況下,分配給這些特征的權值相對于它們對于預測子集隸屬關系而言的適合性并非太小。
在一種變型中,用如下值填補加權矩陣,這些值是每一子集的不同特征向量坐標配對的平均值之間的協(xié)方差的函數(shù)。
效果在于,在特征向量坐標的某些組合是子集隸屬關系的良好預測器時允許提供更精確的相似性度量。
在一種變型中,用如下值填補加權矩陣,這些值是每個子集內(nèi)的不同特征向量坐標配對之間的協(xié)方差的函數(shù)。
效果在于,考慮了由沒有在某一平均值周圍均勻分布的特征向量定義的子集。當分布在特定方向上傾斜時,沿著該方向的距離在基于特征加權矩陣的距離度量被應用于度量特征向量到定義類別的一個或者多個特征向量的距離時被更少程度地加權,因為加權矩陣并入如下知識沿著這一方向的大的變化將是預期中的。
該方法的一個實施例包括將代表加權矩陣的數(shù)據(jù)加載到消費電子設備中包括的存儲器中。
這一實施例代表本發(fā)明很適合的一種實施方式,因為加權矩陣可以基于比可用于由消費電子設備再現(xiàn)的內(nèi)容項大得多的訓練集合。因此,消費電子設備的用戶可以基于小的內(nèi)容項匯集結(jié)合個人種類定義來使用相對精確的分類器。
上述另一方面涉及一種根據(jù)本發(fā)明的方法的用途,其中在用于識別聲音來源的系統(tǒng)中使用在特征向量的坐標之間求差的加權距離度量并且基于如下權重計算相似性度量,所述權重對于表征與第一和另外的標簽關聯(lián)的第一內(nèi)容項的特征向量而言是不變的,所述加權距離度量被應用于所述特征向量。
該用于識別聲音來源的系統(tǒng)可以包括一種用于基于說話者的語音的記錄來識別他的語音識別系統(tǒng)。
由于基于少量內(nèi)容項樣本或者甚至僅僅一個內(nèi)容項樣本以相對簡易的方式實現(xiàn)因本發(fā)明而變得可能的歸類,所以它很適合于其中只有來自特定來源的少量聲音樣本可能可用的聲音識別系統(tǒng)。由于該方法提供了基于向聲音的相應來源分配的大量聲音來“訓練”相似性度量這一可能性,所以可以使用特別適合于區(qū)分不同聲音來源的加權值。
權利要求
1.一種用于組織內(nèi)容項的方法,包括
獲得將第一和至少一個另外的標簽中的每個標簽與多個第一內(nèi)容項的相應集合關聯(lián)的信息(19-21),
其中至少一個第一內(nèi)容項響應于用戶輸入而與所述第一標簽關聯(lián);
獲得第二內(nèi)容項;
對于所述第一和另外的標簽中的每個標簽,計算表征所述第二內(nèi)容項的特征向量和表征與所述標簽關聯(lián)的第一內(nèi)容項的每個所述特征向量之間的相似性度量;并且
在根據(jù)所述相似性度量的計算值確定所述第二內(nèi)容項與關聯(lián)于所述第一標簽的所述第一內(nèi)容項相似時將所述第一標簽與所述第二內(nèi)容項關聯(lián)。
2.根據(jù)權利要求1所述的方法,其中
允許用戶借助于所述用戶輸入來定義所述第一標簽。
3.根據(jù)權利要求1或者2所述的方法,其中
通過存儲將所述第一標簽鏈接到所述第二內(nèi)容項的信息來將所述第一標簽與所述第二內(nèi)容項關聯(lián)。
4.根據(jù)權利要求1、2或者3所述的方法,還包括
允許用戶借助于所述用戶輸入將至少一個第一內(nèi)容項與所述第一標簽關聯(lián)。
5.根據(jù)任一前述權利要求所述的方法,其中在確定所述第二內(nèi)容項與關聯(lián)于所述第一標簽的所述第一內(nèi)容項比與關聯(lián)于所述另外的標簽的所述第一內(nèi)容項更相似時將所述第一標簽與所述第二內(nèi)容項關聯(lián)。
6.根據(jù)任一前述權利要求所述的方法,其中可通過對每個特征向量所表征的內(nèi)容項中包括的信號進行預定義信號分析以確定參數(shù)值來獲得該特征向量的至少一個坐標,所述參數(shù)值代表所述信號在再現(xiàn)設備上呈現(xiàn)時可感知的特性。
7.根據(jù)任一前述權利要求所述的方法,還包括將代表至少一個值的數(shù)據(jù)與所述第二內(nèi)容項關聯(lián),所述至少一個值基于表征所述第二內(nèi)容項的所述特征向量和表征與所述第一標簽關聯(lián)的內(nèi)容項的所述特征向量之間的相似性度量的值。
8.根據(jù)任一前述權利要求所述的方法,其中僅在確定基于表征所述第二內(nèi)容項的所述特征向量和表征與所述第一標簽關聯(lián)的內(nèi)容項的所述特征向量之間的相似性度量的值的至少一個值落在預定范圍內(nèi)時將所述第一標簽與所述第二內(nèi)容項關聯(lián)。
9.根據(jù)任一前述權利要求所述的方法,其中通過以下操作來計算所述相似性度量
根據(jù)加權距離度量來計算特征向量之間的加權距離;并且
將基于概率分布的函數(shù)應用于計算的加權距離。
10.根據(jù)權利要求9所述的方法,其中針對與所述第一和另外的標簽關聯(lián)的所述第一內(nèi)容項的集合來參數(shù)化所述基于概率分布的函數(shù)。
11.根據(jù)權利要求9或者10所述的方法,其中表征所述第二內(nèi)容項的特征向量和表征與標簽關聯(lián)的內(nèi)容項的任何特征向量之間的相似性度量由因子歸一化,所述因子依賴于與所述標簽關聯(lián)的集合中包括的第一內(nèi)容項的數(shù)目Mc。
12.根據(jù)權利要求11所述的方法,其中所述相似性度量由以值的范圍為0-1的指數(shù)來指數(shù)化的因子歸一化,所述因子與關聯(lián)于所述標簽的集合中包括的第一內(nèi)容項的數(shù)目Mc成反比。
13.根據(jù)權利要求9-12中的任一項所述的方法,其中所述基于概率分布的函數(shù)包括指定所述概率分布的寬度的可變參數(shù),其中向所述可變參數(shù)賦值,所述值依賴于第一內(nèi)容項與所述第一或者另外的標簽之間關聯(lián)的總數(shù)目。
14.根據(jù)權利要求13所述的方法,其中對于所述第一和另外的標簽中的特定標簽,向所述可變參數(shù)賦值,所述值是根據(jù)與該標簽關聯(lián)的所述第一內(nèi)容項的集合中的特征向量配對之間的加權距離度量的多個最小距離的值的函數(shù)。
15.根據(jù)權利要求13或者14所述的方法,其中所述可變參數(shù)是根據(jù)表征與所述第一或者另外的標簽關聯(lián)的所述第一內(nèi)容項的所有特征向量的任意配對之間的加權距離度量的平均距離的函數(shù)。
16.根據(jù)任一前述權利要求所述的方法,包括使用在所述特征向量的坐標之間求差的加權距離度量并且基于通過以下操作可獲得的特征加權矩陣來計算所述相似性度量
獲得特征向量的訓練集合,每個特征向量表征多個內(nèi)容項之一,
每個特征向量包括在多個子集中的至少一個子集中,并且
用如下值填補所述加權矩陣,所述值被優(yōu)化成使得共同子集中包括的特征向量配對相對于不相交子集中包括的特征向量配對將具有大的加權距離。
17.一種用于組織內(nèi)容項的設備,包括電子電路(2-11;40-50),所述電子電路操作用以
響應于用戶輸入而將至少一個第一內(nèi)容項與第一標簽關聯(lián),
獲得將至少一個另外的標簽中的每個標簽與多個第一內(nèi)容項的相應集合關聯(lián)的信息;
獲得第二內(nèi)容項;
對于所述第一和另外的標簽中的每個標簽,計算表征所述第二內(nèi)容項的特征向量和表征與所述標簽關聯(lián)的第一內(nèi)容項的每個所述特征向量之間的相似性度量;并且
在根據(jù)所述相似性度量的計算值確定所述第二內(nèi)容項與關聯(lián)于所述第一標簽的所述第一內(nèi)容項相似時將所述第一標簽與所述第二內(nèi)容項關聯(lián)。
18.根據(jù)權利要求17所述的設備,配置成執(zhí)行根據(jù)權利要求1-16中的任一項所述的方法。
19.一種包括指令集的計算機程序,所述指令在并入機器可讀介質(zhì)中時使得具有信息處理能力的系統(tǒng)(1;39)執(zhí)行根據(jù)權利要求1-16中的任一項所述的方法。
全文摘要
一種組織內(nèi)容項的方法包括獲得將第一和至少一個另外的標簽中的每個標簽與第一內(nèi)容項的相應集合關聯(lián)的信息(19-21)。至少一個第一內(nèi)容項響應于用戶輸入而與第一標簽關聯(lián)。獲得第二內(nèi)容項。對于第一和另外的標簽中的每個標簽,計算表征第二內(nèi)容項的特征向量和表征與該標簽關聯(lián)的第一內(nèi)容項的每個特征向量之間的相似性度量。在根據(jù)相似性度量的計算值確定第二內(nèi)容項與關聯(lián)于第一標簽的第一內(nèi)容項相似時將第一標簽與第二內(nèi)容項關聯(lián)。
文檔編號G06F17/30GK101675431SQ200880014463
公開日2010年3月17日 申請日期2008年4月24日 優(yōu)先權日2007年5月1日
發(fā)明者S·L·J·D·E·范德帕, M·F·麥克金尼, J·斯科羅尼克 申請人:皇家飛利浦電子股份有限公司