專(zhuān)利名稱(chēng):情感檢測(cè)方法、情感檢測(cè)裝置、安裝了該方法的情感檢測(cè)程序以及記錄了該程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于聲音信號(hào)數(shù)據(jù)的情感檢測(cè)技術(shù)。
背景技術(shù):
現(xiàn)在,伴隨著多媒體內(nèi)容的增加,從市場(chǎng)上需求可進(jìn)行短時(shí)間內(nèi)的視聽(tīng) 的內(nèi)容概要技術(shù)。此外,內(nèi)容的種類(lèi)也被多樣化,例如電影、連續(xù)劇、家庭
錄像、新聞、記錄片、音樂(lè)內(nèi)容等,對(duì)應(yīng)于此,^L聽(tīng)者的^L聽(tīng)要求也越來(lái)越
多樣化。
伴隨著這種視聽(tīng)要求的多樣化,需要用于對(duì)視聽(tīng)者的視聽(tīng)要求立即檢索、 提示想要觀(guān)看的視頻、場(chǎng)面的技術(shù)。關(guān)于這個(gè)技術(shù),例如已知如下的內(nèi)容概 要技術(shù)(例如,參照專(zhuān)利文獻(xiàn)l、專(zhuān)利文獻(xiàn)2),即基于包含在視聽(tīng)內(nèi)容的聲 音信號(hào)數(shù)據(jù)而概要內(nèi)容。
在所迷?xún)?nèi)容概要技術(shù)中,對(duì)聲音數(shù)據(jù)進(jìn)行分析,提取基本頻率、功率、 動(dòng)態(tài)特征量的時(shí)間變動(dòng)特性的至少一和它們的幀間差分、其時(shí)間變動(dòng)特性的 至少一個(gè)或者它們的幀間差分作為聲音特征量矢量。使用將其提取的聲音特 征量矢量量子化所得的代表矢量和說(shuō)話(huà)人的情感、情感流露概率相關(guān)聯(lián)的碼 簿,求出笑、生氣、悲傷的情感狀態(tài)的流露概率。
公開(kāi)了 一種情感檢測(cè)方法,將包含基于該情感狀態(tài)的流露概率而被判定 為情感狀態(tài)的區(qū)間的部分判定為內(nèi)容中的重要部分,并將其提取。
此外,同樣地,在所述專(zhuān)利文獻(xiàn)2的內(nèi)容概要技術(shù)是,對(duì)聲音數(shù)據(jù)進(jìn)行 分析,提取基本頻率、功率、動(dòng)態(tài)特征量的時(shí)間變動(dòng)特性的至少一個(gè)和它們 的幀間差分、其時(shí)間變動(dòng)特性的至少一個(gè)或者它們的幀間差分作為聲音特征 量矢量。使用將其提取的聲音特征量矢量量子化所得的代表矢量和說(shuō)話(huà)的強(qiáng) 調(diào)狀態(tài)概率以及平靜狀態(tài)概率分別相關(guān)聯(lián)的碼簿,求出強(qiáng)調(diào)狀態(tài)、平靜狀態(tài) 的流露概率。
在所述情感檢測(cè)方法中,保存多個(gè)學(xué)習(xí)用聲音信號(hào)數(shù)據(jù),并將它們與新
7輸入的聲音信號(hào)數(shù)據(jù)進(jìn)行比較,從而將其作為情感狀態(tài)的判定基準(zhǔn),所以為 了提高判定精度,必需保存多個(gè)學(xué)習(xí)用聲音信號(hào)數(shù)據(jù),已知存儲(chǔ)器以及計(jì)算 時(shí)間的成本變得龐大的問(wèn)題。
另外,作為相關(guān)技術(shù),已知基本頻率以及功率的提取方法.(例如,參照 非專(zhuān)利文獻(xiàn)1),說(shuō)話(huà)速度的時(shí)間變動(dòng)特性的提取方法(例如,參照非專(zhuān)利 文獻(xiàn)2),概率模型的參數(shù)估計(jì)方法(例如,參照非專(zhuān)利文獻(xiàn)3、非專(zhuān)利文獻(xiàn)
4),求出廣義狀態(tài)空間模型的方法(例如,參照非專(zhuān)利文獻(xiàn)5)。 專(zhuān)利文獻(xiàn)1:特開(kāi)2005-345496號(hào)公報(bào)(段落0011 0014等)。 專(zhuān)利文獻(xiàn)2:特許第3803311號(hào)。
非專(zhuān)利文獻(xiàn)1:古井貞熙、「fV、2夕少音聲処理第4章 4. 9匕° 、乂千抽出」東海大學(xué)出版會(huì)、1985年9月,pp.57-59。
非專(zhuān)利文獻(xiàn)2:嵯峨山茂樹(shù)、板倉(cāng)文忠、「音聲八動(dòng)的尺度C含法tL 3個(gè)人性情報(bào)」、日本音響學(xué)會(huì)昭和5 4年度春季研究発表會(huì)講演論文集、 3 — 2 — 7,1 979年、pp.589-590。
非專(zhuān)利文獻(xiàn)3:石井健一郎、上田修功、前田栄作、村瀬洋、「^力、0 々卞V、八。一夕/認(rèn)識(shí)」、才一厶社、第1版、1 9 9 8年8月、pp.52-54。
非專(zhuān)利文獻(xiàn)4:汪金芳、手塚集、上田修功、、田栗正章、「計(jì)算統(tǒng)計(jì) I確率計(jì)算(D新LV、手法統(tǒng)計(jì)科學(xué)(07口y亍—7 1 1第m章 3 EM法 4変分^^f乂法」、巖波書(shū)店、2 0 0 3年6月、pp.l57-186。
非專(zhuān)利文南大 5 : kitagawa,G., "Non-Gaussian state-space modeling of nonstationary time series," Journal of the American Statistical Association, 1987年 12月,pp.l032-1063。
發(fā)明內(nèi)容
發(fā)明要解決的課題
在上述的情感檢測(cè)方法中,由于沒(méi)有考慮在情感講話(huà)中頻繁地出現(xiàn)的、 聲音的尖叫或叫聲、顫抖等發(fā)生狀況,所以可判定的情感狀態(tài)只能應(yīng)對(duì)典型 的笑、生氣、悲傷等限定的種類(lèi)。
此外,由于僅基于從聲音特征量所得到的信息,進(jìn)行強(qiáng)調(diào)狀態(tài)或情感狀 態(tài)的判定,所以在將噪聲分量強(qiáng)的聲音作為對(duì)象的情況下,僅根據(jù)從聲音特 征量所得到的信息,無(wú)法得到充分的判定的根據(jù)。因此,例如即使是原本應(yīng)該是判定為生氣的情感狀態(tài)的聲音,但在受到噪聲的影響的語(yǔ)音特征量偶爾 與悲傷的情感狀態(tài)相似的情況下,經(jīng)??吹奖慌卸楸瘋腻e(cuò)誤檢測(cè)。
同樣地,存在如下問(wèn)題,即在包含原來(lái)應(yīng)該是判定為笑的情感狀態(tài)的一 個(gè)以上的幀的區(qū)間,存在具有作為悲傷的情感狀態(tài)的概率非常高的值的幀的 情況下,錯(cuò)誤地判定為是悲傷。
此外,按幀對(duì)聲音特征量矢量進(jìn)行量子化,使若干個(gè)代表矢量代表作為 連續(xù)量的聲音特征量矢量,所以不能檢測(cè)在情感狀態(tài)的出聲中特征性地顯現(xiàn) 的聲音特征量矢量的重要變化,其結(jié)果,存在情感狀態(tài)的判定精度降低的問(wèn) 題。
本發(fā)明是基于上述課題而完成的,提供一種情感檢測(cè)方法、情感檢測(cè)裝 置以及安裝了該方法的情感檢測(cè)程序以及記錄了該程序的記錄介質(zhì),其檢測(cè) 在情感狀態(tài)的出聲中顯現(xiàn)的聲音特征量矢量的重要變化,進(jìn)而不僅考慮聲音 特征量矢量的變化,還考慮情感狀態(tài)本身的性質(zhì),從而即使在將噪聲強(qiáng)的聲 音作為對(duì)象的情況下也能夠提高情感狀態(tài)的判定精度,能夠在更寬的區(qū)域中 實(shí)施。
在這里,情感狀態(tài)本身的性質(zhì)是指,與情感狀態(tài)的舉動(dòng)有關(guān)的性質(zhì)。例 如,在情感狀態(tài)中存在變化的簡(jiǎn)單、難,難以發(fā)生在之前是高興的情感狀態(tài) 卻突然變化為悲傷的情感狀態(tài)。
因此,例如在判定某一區(qū)間的情感狀態(tài)時(shí),即使該區(qū)間的聲音特征量類(lèi) 似于悲傷的情況,也將該區(qū)間前后的區(qū)間的情感狀態(tài)作為判斷材料來(lái)推理, 從而在其是高興的可能性高的情況下,能夠基于這個(gè)來(lái)避免單純地判斷為悲 傷的情況。
提供一種情感檢測(cè)方法、情感檢測(cè)裝置以及安裝了該方法的情感檢測(cè)程
序以及記錄了該程序的記錄^Nt,其通過(guò)考慮這樣的情感狀態(tài)的舉動(dòng)本身來(lái) 進(jìn)行判定,從而即使在僅通過(guò)聲音特征量的判定中容易錯(cuò)誤的情況下,也能 夠高精度地進(jìn)行判定。 用于解決課題的手段
根據(jù)本發(fā)明的第l觀(guān)點(diǎn),基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量來(lái)進(jìn) 行情感檢測(cè)處理的情感檢測(cè)方法或者裝置是,
從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本頻率、基本頻率的時(shí)間變動(dòng) 特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō)話(huà)速度的時(shí)間變動(dòng)特性中的一個(gè)以上作為聲音特征量矢量,并將該聲音特征量矢量存儲(chǔ)到存儲(chǔ)單元;
從存儲(chǔ)單元讀取各個(gè)分析幀的所述聲音特征量矢量,使用基于預(yù)先輸入
的學(xué)習(xí)用聲音數(shù)據(jù)所構(gòu)成的第l統(tǒng)計(jì)才莫型,將一個(gè)以上的情感狀態(tài)序列作為
條件,計(jì)算成為所述聲音特征量矢量的聲音特征量出現(xiàn)概率;
使用第2統(tǒng)計(jì)模型,計(jì)算一個(gè)以上的情感狀態(tài)序列向時(shí)間方向的變化概
率作為情感狀態(tài)變化概率;
基于所述聲音特征量出現(xiàn)概率和所述情感狀態(tài)變化概率,計(jì)算情感狀態(tài)
概率;以及
基于計(jì)算出的所述情感狀態(tài)概率,輸出與包含一個(gè)以上分析幀的各個(gè)區(qū) 間的情感狀態(tài)有關(guān)的信息。
根據(jù)本發(fā)明的第2觀(guān)點(diǎn),基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量來(lái)進(jìn) 行情感檢測(cè)處理的情感檢測(cè)方法或者裝置是,
從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本頻率、基本頻率的時(shí)間變動(dòng) 特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō)話(huà)速度的時(shí)間變動(dòng)特性中的 一個(gè)以上作為聲音特征量矢量,并將該聲音特征量矢量存儲(chǔ)到存儲(chǔ)單元;
從存儲(chǔ)單元讀取各個(gè)分析幀的所述聲音特征量矢量,使用基于預(yù)先輸入 的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)所構(gòu)成的一個(gè)以上的統(tǒng)計(jì)模型,計(jì)算情感狀態(tài)概率, 所述情感狀態(tài)概率將對(duì)于一個(gè)以上的情感狀態(tài)序列的所述聲音特征量矢量作 為條件;
基于所述情感狀態(tài)概率,判定包含所述分析幀的區(qū)間的情感狀態(tài);以及 輸出與判定出的所述情感狀態(tài)有關(guān)的信息。
此外,提供安裝了本發(fā)明的所述第1或者第2觀(guān)點(diǎn)的情感檢測(cè)方法的計(jì) 算機(jī)程序以及記錄了該程序的記錄媒體。此外,本發(fā)明包括安裝了所述第1 或者第2觀(guān)點(diǎn)的情感檢測(cè)方法的可通過(guò)計(jì)算機(jī)實(shí)施的程序以及記錄了該程序 的記錄媒體。
發(fā)明效果
根據(jù)如以上所述的本發(fā)明的第l觀(guān)點(diǎn)方法或者裝置,不僅利用與聲音特 征量有關(guān)的統(tǒng)計(jì)模型,還一并利用與情感狀態(tài)序列的變化概率有關(guān)的統(tǒng)計(jì)模 型,基于這些所處理的信息不同的兩個(gè)統(tǒng)計(jì)模型來(lái)計(jì)算情感狀態(tài)概率,所以 能夠更正確地捕捉與情感狀態(tài)有關(guān)的信息以及其自然的變化。而且,由于考 慮到情感狀態(tài)作為基本的性質(zhì)所具有的情感的時(shí)間變化特性而得到與情感狀態(tài)有關(guān)的信息,所以即使在聲音特征量中重疊了強(qiáng)噪聲,也能夠改善以往那 樣僅基于聲音特征量計(jì)算的情況下幀的聲音特征量出現(xiàn)概率與原來(lái)的值不同 的與情感狀態(tài)有關(guān)的信息的不正確。
根據(jù)本發(fā)明的第2觀(guān)點(diǎn)的方法或者裝置,基于與聲音特征量有關(guān)的統(tǒng)計(jì) 模型來(lái)捕捉在情感狀態(tài)中的說(shuō)話(huà)中頻繁出現(xiàn)的聲音特征量的變化,所以可進(jìn) 行考慮了在情感說(shuō)話(huà)中的特征性的出聲狀況的情感狀態(tài)的判定,能夠更加高 精度地判定更多的情感狀態(tài)。
在所述第1或者第2觀(guān)點(diǎn)的方法或者裝置中,按照所得到的情感狀態(tài)概 率的降序來(lái)選擇情感狀態(tài),從而能夠檢測(cè)混合的多個(gè)情感狀態(tài)以及其變化的 更詳細(xì)的4言息。
在所述第1或者第2觀(guān)點(diǎn)的方法或者裝置中,通過(guò)基于作為一個(gè)情感狀 態(tài)的概率和作為除此之外的情感狀態(tài)的概率的凸組合(convex combination ) 之差來(lái)判定情感狀態(tài),從而能夠進(jìn)行考慮了不同的情感狀態(tài)的引起關(guān)系的情 感狀態(tài)的判定。
在所述第1或者第2觀(guān)點(diǎn)的方法或者裝置中,將輸入聲音信號(hào)數(shù)據(jù)集中 到每個(gè)連續(xù)的說(shuō)話(huà)區(qū)間的聲音小段落,基于各個(gè)聲音小段落的情感度來(lái)提取 內(nèi)容概要,從而能夠更加靈活地應(yīng)對(duì)視聽(tīng)者的概要請(qǐng)求條件。
在所述第1或者第2觀(guān)點(diǎn)的方法或者裝置中,將輸入聲音信號(hào)數(shù)據(jù)基于 周期性而集中到一個(gè)以上的連續(xù)的分析幀的區(qū)間,并基于各個(gè)聲音小段落的 情感度來(lái)提取內(nèi)容概要,從而能夠更加靈活地應(yīng)對(duì)視聽(tīng)者的概要請(qǐng)求條件。
根據(jù)這些,可對(duì)情感檢測(cè)技術(shù)領(lǐng)域進(jìn)行貢獻(xiàn)。
圖1是說(shuō)明本實(shí)施方式中的情感檢測(cè)方法的流程圖。
圖2是表示構(gòu)成本實(shí)施方式中的統(tǒng)計(jì)模型的步驟的處理細(xì)節(jié)的流程圖。
圖3是求基本頻率的時(shí)間變動(dòng)特性的方法的概念圖。
圖4是用于說(shuō)明聲音特征量矢量的時(shí)間變化的圖。
圖5是廣義狀態(tài)空間模型的概念圖。
圖6是表示在處理高興、悲傷、平靜的情感狀態(tài)時(shí)的情感狀態(tài)概率的一
例的圖。
圖7是表示聲音小段落和情感度的關(guān)系的概念圖。
ii圖8是表示聲音段落的生成方法的一例的圖。
圖9是表示聲音段落和情感度的關(guān)系的概念圖。
圖IO是判定內(nèi)容的情感狀態(tài),生成概要內(nèi)容的處理流程圖。
圖11是在本實(shí)施方式中的情感檢測(cè)裝置的邏輯結(jié)構(gòu)圖。
圖12是本實(shí)施方式中的情感檢測(cè)裝置的物理結(jié)構(gòu)圖。
具體實(shí)施例方式
基于圖1說(shuō)明本實(shí)施方式中的情感檢測(cè)方法。圖l是說(shuō)明本實(shí)施方式中 的情感檢測(cè)方法的流程圖。另外,假設(shè)在本實(shí)施方式的說(shuō)明中的數(shù)據(jù)是存儲(chǔ) 在通用的存儲(chǔ)單元(例如,存儲(chǔ)器或硬盤(pán)裝置)或者存儲(chǔ)部件并被訪(fǎng)問(wèn)的數(shù)據(jù)。
首先,步驟S110 (統(tǒng)計(jì)模型構(gòu)筑處理步驟)是在通過(guò)本實(shí)施方式的情感 檢測(cè)方法而實(shí)際進(jìn)行情感狀態(tài)的判定之前預(yù)先進(jìn)行的步驟,是構(gòu)筑用于計(jì)算 情感狀態(tài)概率的兩個(gè)統(tǒng)計(jì)模型(稱(chēng)為第1統(tǒng)計(jì)模型以及第2統(tǒng)計(jì)模型)的步 驟。另外,所述統(tǒng)計(jì)模型的實(shí)體是將計(jì)算其統(tǒng)計(jì)的函數(shù)以及統(tǒng)計(jì)量等的參數(shù) 作為程序所記載的實(shí)體。表示所述統(tǒng)計(jì)模型的參數(shù)以及函數(shù)類(lèi)型的符號(hào)被存 儲(chǔ)在存儲(chǔ)單元中,但用于它們的存儲(chǔ)容量比將實(shí)際的數(shù)據(jù)全部存儲(chǔ)的容量小。
接著,在步驟S120 (聲音特征量提取處理步驟)中,從取得的內(nèi)容的聲 音信號(hào)數(shù)據(jù)對(duì)一個(gè)以上的每個(gè)分析幀(以下,也簡(jiǎn)單地稱(chēng)為幀)計(jì)算并提取 期望的聲音特征量作為矢量。具體地說(shuō),例如各個(gè)分析幀由多個(gè)子幀構(gòu)成, 輸入聲音信號(hào)數(shù)據(jù)按每個(gè)子幀被分析,計(jì)算作為聲音特征量的基本頻率以及 功率,基于包含在包括該幀的 一個(gè)以上的規(guī)定數(shù)的分析幀中的子幀的聲音特 征量,對(duì)每個(gè)分析幀構(gòu)成聲音特征量矢量。另外,該聲音特征量矢量是由基 本頻率、基本頻率的時(shí)間變動(dòng)特性的序列、功率、功率的時(shí)間變動(dòng)特性的序 列、說(shuō)話(huà)速度的時(shí)間變動(dòng)特性中的一個(gè)以上的要素構(gòu)成的矢量。此外,設(shè)聲 音信號(hào)數(shù)據(jù)是通過(guò)聲音信號(hào)數(shù)據(jù)輸入部件(例如,后述的圖12的輸入單元 210)所輸入的數(shù)據(jù)。被提取的聲音特征量被存儲(chǔ)在存儲(chǔ)單元中。步驟S120-S150是計(jì)算情感狀態(tài)概率的處理。
接著,在步驟S130 (聲音特征量出現(xiàn)概率計(jì)算處理步驟)中,基于在步 驟S120中計(jì)算并存儲(chǔ)在存儲(chǔ)單元中的聲音特征量矢量,通過(guò)在步驟S110中 預(yù)先構(gòu)成的第l統(tǒng)計(jì)模型,對(duì)每個(gè)幀計(jì)算出現(xiàn)與情感狀態(tài)對(duì)應(yīng)的聲音特征量矢量的概率,并將其計(jì)算結(jié)果看作聲音特征量出現(xiàn)概率。
接著,在步驟S140 (情感狀態(tài)變化概率計(jì)算處理步驟)中,使用在步驟 S110中預(yù)先構(gòu)成的第2統(tǒng)計(jì)模型,對(duì)每個(gè)幀計(jì)算與情感狀態(tài)對(duì)應(yīng)的一個(gè)以上 的狀態(tài)變量向時(shí)間方向的變化概率,并將其計(jì)算結(jié)果看作情感狀態(tài)變化概率。
接著,在步驟S150(情感狀態(tài)概率計(jì)算處理步驟)中,基于在步驟S130 中計(jì)算的聲音特征量出現(xiàn)概率和在步驟S140中計(jì)算的情感狀態(tài)變化概率,對(duì) 每個(gè)幀計(jì)算情感狀態(tài)概率,并與幀號(hào)碼、時(shí)間信息的任一個(gè)相關(guān)聯(lián)地存儲(chǔ)在 存儲(chǔ)單元中。
然后,在步驟S160 (情感狀態(tài)判定處理步驟)中,基于在步驟S150中 計(jì)算的情感狀態(tài)概率,對(duì)每個(gè)幀判定該幀的情感狀態(tài),并與對(duì)應(yīng)的幀號(hào)碼一 起輸出。判定是,例如可以判定每個(gè)幀的提供最大情感狀態(tài)概率的情感狀態(tài), 也可以從最大的情感狀態(tài)概率按降序判定規(guī)定數(shù)的情感狀態(tài),也可以簡(jiǎn)單地 判定全部情感狀態(tài)的情感狀態(tài)概率的大的順序。這些判定可以對(duì)后述的聲音 小段落、或者聲音段落的由一個(gè)以上的幀構(gòu)成的每個(gè)區(qū)間進(jìn)行。
將這樣判定的結(jié)果作為與聲音信號(hào)數(shù)據(jù)的情感狀態(tài)有關(guān)的信息輸出。例 如,在輸入聲音信號(hào)數(shù)據(jù)為視聽(tīng)用內(nèi)容的情況下,若與內(nèi)容一同對(duì)視聽(tīng)者提 供與該幀號(hào)碼或者時(shí)間信息相關(guān)聯(lián)的判定結(jié)果,則視聽(tīng)者能夠使用判定結(jié)果 來(lái)檢索將內(nèi)容中的期望的情感狀態(tài)作為條件的幀或者區(qū)間。
若有必要,則在步驟S170 (概要內(nèi)容生成輸出處理步驟)中,生成并輸 出在步驟S150中判定的情感狀態(tài)以連續(xù)的一個(gè)以上的幀所構(gòu)成的區(qū)間作為 單位的內(nèi)容的概要。在步驟S150中得到的情感狀態(tài)概率是表示輸入聲音信號(hào) 數(shù)據(jù)的每個(gè)幀的情感狀態(tài)的信息,因此,也可以不進(jìn)行上述的步驟S160的判 定而輸出與幀號(hào)碼或者時(shí)間信息相關(guān)聯(lián)的情感狀態(tài)概率。例如,與內(nèi)容一同 對(duì)視聽(tīng)者提供與該幀號(hào)碼相關(guān)聯(lián)的情感狀態(tài)概率,視聽(tīng)者對(duì)情感狀態(tài)概率設(shè) 定期望的基準(zhǔn),從而能夠用于從內(nèi)容提取概要的情況。
以下,詳細(xì)說(shuō)明情感檢測(cè)方法的各個(gè)步驟。
首先,基于圖2說(shuō)明構(gòu)成兩個(gè)統(tǒng)計(jì)模型的步驟S110的處理細(xì)節(jié)。另夕卜, 假設(shè)統(tǒng)計(jì)模型是從學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)進(jìn)行學(xué)習(xí)而獲得的模型。
首先,在步驟Slll,輸入學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)。另外,學(xué)習(xí)用聲音信號(hào) 數(shù)據(jù)可以是從與內(nèi)容聲音信號(hào)數(shù)據(jù)的輸入部件相同的輸入部件輸入,也可以 從學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)專(zhuān)用的輸入部件(例如,記錄了學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)
13的記錄介質(zhì))輸入。
接著,在步驟S112中,對(duì)于該學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)涉及學(xué)習(xí)用聲音信號(hào)
數(shù)據(jù)的全部數(shù)據(jù),對(duì)每個(gè)幀設(shè)定人實(shí)際視聽(tīng)而判斷的該幀中的情感狀態(tài)e的 值。這里,對(duì)于各個(gè)幀,將決定通過(guò)人所判定的情感狀態(tài)e的值的信息稱(chēng)為 標(biāo)記,將判定的情感狀態(tài)的值與該幀相關(guān)聯(lián)地輸入的行為稱(chēng)為附加標(biāo)記。作 為標(biāo)記,只要能夠分別區(qū)分著眼的情感的種類(lèi),則可以是數(shù)值,也可以是符
此外,即使在沒(méi)有嚴(yán)格地對(duì)每個(gè)幀附加情感狀態(tài)e的標(biāo)記的情況下,只 要是能夠變換為按幀單位附加標(biāo)記,就能夠通過(guò)變換為這樣來(lái)利用。作為附 加標(biāo)記的例子,還存在在涉及某一多個(gè)連續(xù)的幀的區(qū)間中附加情感狀態(tài)e的 標(biāo)記的情況。此時(shí),通過(guò)對(duì)包含在該區(qū)間的各個(gè)幀,賦予與對(duì)區(qū)間賦予的標(biāo) 記相同的標(biāo)記,從而能夠?qū)γ總€(gè)幀附加標(biāo)記。更具體地說(shuō),在聲音的某一時(shí) 刻tl到t2的區(qū)間附加了情感狀態(tài)e的標(biāo)記的情況下,該區(qū)間的所有幀全部附 力口 了 e的標(biāo)、i己。
接著,在步驟S113中,與上述步驟S120相同地,對(duì)每個(gè)幀提取聲音特 征量矢量x。如后所述,各個(gè)幀中的聲音特征量矢量x被決定為不僅包含該 幀的聲音特征量,還可以包含比其過(guò)去的規(guī)定數(shù)的幀的聲音特征量。以下, 將在幀號(hào)碼t的幀F(xiàn),中的聲音特征量矢量表示為x,,將情感狀態(tài)表示為e,。
接著,在步驟S114中,分別通過(guò)學(xué)習(xí)而構(gòu)成用于計(jì)算聲音特征量出現(xiàn)概 率的第1統(tǒng)計(jì)模型和用于計(jì)算情感狀態(tài)變化概率的第2統(tǒng)計(jì)模型。
首先,說(shuō)明用于計(jì)算聲音特征量出現(xiàn)概率的第l統(tǒng)計(jì)模型的學(xué)習(xí)方法的 一例。
用于計(jì)算聲音特征量出現(xiàn)概率的第i統(tǒng)計(jì)模型是對(duì)每個(gè)幀賦予的聲音特 征量矢量x在空間上的概率分布,例如在幀F(xiàn),中,作為表示x,依賴(lài)于從該幀 到比其以前的規(guī)定數(shù)n為止的連續(xù)的幀區(qū)間中的情感狀態(tài)的序列E,={e,, eM,……,6,_ +|}出現(xiàn)的概率的附條件概率分布;/(1,|£,)而作成。n是l以上 的整數(shù),但例如優(yōu)選設(shè)為2 ~ 3左右的數(shù)。
該附條件概率分布;/(x,l。是,例如可以對(duì)E,的每個(gè)可取值使用x,的出 現(xiàn)概率的正態(tài)分布、混合正態(tài)分布、隱馬爾可夫模型(HiddenMarkov Model: HMM)等的概率模型而構(gòu)成。此外,還可以是對(duì)聲音特征量的每個(gè)種類(lèi)使用 正態(tài)分布、多項(xiàng)分布、它們的混合分布等的概率模型而構(gòu)成。通過(guò)以往的學(xué)習(xí)方法而從學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)估計(jì)這些概率模型的參數(shù),并設(shè)為第1統(tǒng)計(jì) 模型。
另外,作為以往的參數(shù)的估計(jì)方法,例如可使用極大似然估計(jì)法或EM 算法、微分貝葉斯(Bayes)法等公知的方法(例如,參照非專(zhuān)利文獻(xiàn)3、非 專(zhuān)利文獻(xiàn)4等)。
接著,說(shuō)明用于計(jì)算情感狀態(tài)變化概率的第2統(tǒng)計(jì)模型。
用于計(jì)算情感狀態(tài)變化概率的第2統(tǒng)計(jì)模型是與用于計(jì)算聲音特征量出 現(xiàn)概率的第1統(tǒng)計(jì)模型相同地,從學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)通過(guò)進(jìn)行學(xué)習(xí)而獲得。
在所述步驟Slll-S113中,所述學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)是,涉及學(xué)習(xí)用聲 音信號(hào)數(shù)據(jù)的全部數(shù)據(jù)賦予對(duì)每個(gè)幀提取的聲音特征量矢量x以及人實(shí)際聽(tīng) 取而判斷的該幀中的情感狀態(tài)e的標(biāo)記的前提之下,以下說(shuō)明進(jìn)行步驟S114 的學(xué)習(xí)的步驟的一例。另外,將幀號(hào)碼t中的情感狀態(tài)表示為e,。
用于計(jì)算情感狀態(tài)變化概率的第1統(tǒng)計(jì);漠型是從第t-n + 1號(hào)到第t號(hào)幀 中的情感狀態(tài)的序列E,在空間上的概率分布,作為表示依賴(lài)于F,以前的 (n-l )幀中的情感狀態(tài)的序列EM={e,—,, e,_2, ......, e,_,,},出現(xiàn)E,(e,,
e,_,,……,e,_,,+1}的概率的附條件概率分布/(£,|£,—,)而作成。
另外,e,是"高興"、"悲傷"、"可怕"、"激動(dòng)"、"帥氣"、"可愛(ài)"、"興 奮"、"熱情"、"浪漫"、"暴力"、"平穩(wěn)"、"治好"、"暖和"、"寒冷"、"令人 害怕"等情感或"笑"、"哭"、"呼喊"、"叫苦"、"竊竊私語(yǔ)"等的情感流露 的情感狀態(tài)的表述的變量,由于是離散變量,所以所述附條件概率分布 ,)例如可通過(guò)生成bi-gram型的概率分布而構(gòu)成。此時(shí),在提供E卜, 時(shí),可基于學(xué)習(xí)用聲音信號(hào)數(shù)據(jù),通過(guò)計(jì)數(shù)各個(gè)情感狀態(tài)的序列E,出現(xiàn)幾次 來(lái)構(gòu)成。這就是極大似然估計(jì)法,但也可以是除此之外,決定適當(dāng)?shù)氖孪确?布而通過(guò)貝葉斯法學(xué)習(xí)。
以上是步驟S110的詳細(xì)處理。
接著,在步驟S120中,從取得的內(nèi)容的聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)幀提取期望 的聲音特征量矢量。另外,假設(shè)在本發(fā)明中的聲音不只是人的對(duì)話(huà)聲音,還 包含歌唱聲音或者音樂(lè)等。
以下,說(shuō)明聲音特征量矢量提取方法的一例。
首先,說(shuō)明聲音特征量。作為在本實(shí)施方式中的聲音特征量,優(yōu)選是與 高次的聲音頻語(yǔ)峰值等相比,在噪聲環(huán)境下也能夠穩(wěn)定地得到,并且在判定情感狀態(tài)時(shí)難以依賴(lài)說(shuō)話(huà)人的外形(profile)的特征量。
作為滿(mǎn)足上述的條件的聲音特征量,提取基本頻率f0、基本頻率的時(shí)間 變動(dòng)特性的序列(rfD、、功率p、功率的時(shí)間變動(dòng)特性的序列{ rp'}、說(shuō)話(huà)速 度的時(shí)間變動(dòng)特性等的一個(gè)以上。另外,i是時(shí)間變動(dòng)特性的索引。
此外,在本實(shí)施方式中,將序列定義為包括一個(gè)以上的要素的集合。作 為時(shí)間變動(dòng)特性的例子,例如考慮回歸系數(shù)、幀內(nèi)變化量的平均值、最大值、 最小值或幀內(nèi)變化量的絕對(duì)值的累積和以及范圍(range)等,根據(jù)需要選擇 即可。特別在回歸系數(shù)的情況下,索引可與次數(shù)相關(guān)聯(lián)?;貧w系數(shù)可使用任 意次為止,例如可以取1 3次左右。在以下的例子中,說(shuō)明作為時(shí)間變動(dòng)特 性而僅采用回歸系數(shù)的情況,但也可以與其他的時(shí)間變動(dòng)特性組合使用。功 率p可以使用聲音信號(hào)波形的振幅值,也可以使用絕對(duì)值或平滑值、rms值。 此外,也可以使用某一頻帶、例如人容易聽(tīng)取的500Hz ~ 4KHz等區(qū)域中的功 率的平均值等。此外,可以將對(duì)各種提取的聲音特征量進(jìn)行包括適當(dāng)?shù)淖鴺?biāo) 變換(例如,主成分分析等)的線(xiàn)性變換、非線(xiàn)性變換、積分變換(例如, 傅立葉變換、余弦變換等)的一個(gè)以上的結(jié)果所得到的值,重新作為聲音特 征量來(lái)采用。
所述應(yīng)提取的基本頻率f0以及功率p的提取方法是各種各樣的。那些提 取方法是公知的,對(duì)于其細(xì)節(jié),請(qǐng)參照例如在上述的非專(zhuān)利文獻(xiàn)1中記載的 方法等。
所述應(yīng)提取的說(shuō)話(huà)速度的時(shí)間變動(dòng)特性是,通過(guò)已知的方法(例如,參 照非專(zhuān)利文獻(xiàn)2、專(zhuān)利文獻(xiàn)l),作為動(dòng)態(tài)尺度m的時(shí)間變動(dòng)特性rm來(lái)提取。 例如,可以取檢測(cè)動(dòng)態(tài)尺度的峰值并對(duì)其數(shù)進(jìn)行計(jì)數(shù)從而檢測(cè)說(shuō)話(huà)速度的方 法,此外,也可以取計(jì)算相當(dāng)于說(shuō)話(huà)節(jié)奏的峰值間隔的平均值、分散值從而 檢測(cè)說(shuō)話(huà)速度的時(shí)間變動(dòng)特性的方法。
在以下的說(shuō)明中,設(shè)為將使用了動(dòng)態(tài)尺度的峰值間隔平均值的動(dòng)態(tài)尺度 的時(shí)間變動(dòng)特性作為rm來(lái)使用并進(jìn)行說(shuō)明。說(shuō)明作為所述應(yīng)提取的基本頻率 的時(shí)間變動(dòng)特性的序列(rfD' }、以及功率的時(shí)間變動(dòng)特性的序列{ rp' }而提取 回歸系數(shù)的方法的一例。
在將要分析的幀的時(shí)刻設(shè)為t時(shí),在時(shí)刻t所提取的基本頻率f0,或者P, 與{rf0;}或者{ rp:}的關(guān)系由以下的近似式表示。數(shù)學(xué)式1fO,*£r/0;x/' ……(1 )
'=0
P,"X^,'x,' ...... (2)
'=0
其中,I表示回歸系數(shù)的最大次數(shù)。例如在I-1時(shí)表示直線(xiàn)近似,在I
=2時(shí)表示二次曲線(xiàn)近似。決定(rfO' }以及{卬}使該近似誤差在t的附近變小 即可,作為實(shí)現(xiàn)這個(gè)的方法,例如可使用最小平方法。
I可以是任意值,但這里作為例子說(shuō)明在求出1=1時(shí)的rfD;的情況。將 要分析的幀的時(shí)刻設(shè)為t,則在t的基本頻率的時(shí)間變動(dòng)特性rfD;可通過(guò)如下 式求出。
數(shù)學(xué)式2
《'=^7^- ……(3)
》2
rf0〈=0 = _i_ yVo, ……(4)
圖3表示從聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)幀求出的基本頻率f0的序列。作為1=0 的時(shí)間變動(dòng)特性rf0"。的式(4)表示在區(qū)間(t-d) ~ (t + d)中的基本頻率 f0的平均,作為1=1的時(shí)間變動(dòng)特性rfD,"'的式(3)表示根據(jù)在圖3中示意 性地表示的區(qū)間(t-d) ~ (t + d)中的fD通過(guò)最小平方法所求出的近似直線(xiàn) 3A的斜率。這里,d是用于計(jì)算時(shí)間變動(dòng)特性的時(shí)刻t前后的子幀的數(shù),對(duì) 應(yīng)于t的附近。例如設(shè)為d-2。在求出某一幀的回歸系數(shù)時(shí),也可以利用未 必收斂到該幀內(nèi)的范圍的子幀進(jìn)行計(jì)算。對(duì)于rp;也可以同樣計(jì)算。
以下,說(shuō)明例如僅將在I- 1的情況下求出的rfD:、 rp;分別作為基本頻率 的時(shí)間變動(dòng)特性rfD、功率的時(shí)間變動(dòng)特性rp來(lái)處理的情況。
說(shuō)明對(duì)每個(gè)分析幀計(jì)算聲音特征量的方法的一例。將一個(gè)分析幀的長(zhǎng)度 (以下,稱(chēng)為幀長(zhǎng)度)i殳為100msec,并i殳為下一個(gè)幀相對(duì)于當(dāng)前幀通過(guò) 50msec的時(shí)間偏移而形成。實(shí)際上,從聲音信號(hào)數(shù)據(jù)對(duì)如圖3所示那樣相比 分析幀長(zhǎng)度非常短的例如10msec間隔的每個(gè)子幀提取作為聲音特征量的基 本頻率以及功率,并計(jì)算在各個(gè)分析幀中的這些子幀的聲音特征量的平均值即平均基本頻率fO'、基本頻率的平均時(shí)間變動(dòng)特性rfD'、平均功率p'、功率 的平均時(shí)間變動(dòng)特性rp'、動(dòng)態(tài)尺度的平均峰值間隔平均值rm'?;蛘?,不僅 是這些平均值,可以計(jì)算幀內(nèi)的各個(gè)聲音特征量的最大值、最小值或者變動(dòng) 幅度等來(lái)使用。以下,說(shuō)明僅使用了平均值的情況。
優(yōu)選預(yù)先對(duì)各個(gè)聲音特征量進(jìn)行歸一化。歸一化是,例如可以通過(guò)對(duì)各 個(gè)幀的ffi'例如減去涉及成為處理對(duì)象的聲音信號(hào)數(shù)據(jù)整體的平均基本頻率, 或者用平均基本頻率相除來(lái)進(jìn)行,也可以是進(jìn)行標(biāo)準(zhǔn)歸一化從而設(shè)為平均0 分散1。對(duì)于其他的聲音特征量,考慮到同樣地進(jìn)行。此外,必要時(shí)進(jìn)行平 滑化處理。
在情感狀態(tài)的判定時(shí),需要捕捉聲音特征量的時(shí)間變化。在本實(shí)施方式 中,對(duì)每個(gè)幀使用包括該幀的一個(gè)以上的規(guī)定數(shù)的幀的聲音特征量來(lái)構(gòu)成聲 音特征量矢量,從而實(shí)現(xiàn)聲音特征量的時(shí)間變化的捕捉。另外,將提取該聲 音特征量矢量的區(qū)間稱(chēng)為聲音特征量矢量提取區(qū)間(例如,在圖4中的用符 號(hào)W所表示的區(qū)間)。
以下,基于圖4說(shuō)明該聲音特征量的時(shí)間變化的捕捉方法的一例。 對(duì)當(dāng)前幀F(xiàn),將該幀號(hào)碼設(shè)為j,并表示為F,。將在F,中包含的聲音特 征量分別設(shè)為平均基本頻率fO',、基本頻率的平均時(shí)間變動(dòng)特性rfO',、平均 功率p、、功率的平均時(shí)間變動(dòng)特性rp',、動(dòng)態(tài)尺度的平均峰值間隔平均值 raV , ■>
基于以上求出的聲音特征量的聲音特征量矢量的構(gòu)成方法,考慮到例如 通過(guò)將在聲音特征量矢量提取區(qū)間中包含的每個(gè)幀的聲音特征量埋入延遲坐 標(biāo)空間來(lái)構(gòu)成的方法。即,通過(guò)將在從當(dāng)前幀F(xiàn),到S幀量過(guò)去的幀F(xiàn)卜、為止 所包含的期望的聲音特征量表述為矢量來(lái)構(gòu)成。
例如在平均基本頻率的情況下,在圖4所示的例子中,通過(guò)從幀F(xiàn),、 F, ,、……F,—、的各個(gè)聲音特征量所取得的平均基本頻率fD',、 m',—,、……、
fo',_、,求出由frr={fo',, fov,,……,fD',—、K所表示的平均基本頻率的聲音 特征量矢量ro"。
或者,還考慮對(duì)每個(gè)聲音特征量計(jì)算當(dāng)前幀F(xiàn),與從其過(guò)去S幀量的幀 F卜、為止的幀之間的差分量,并將其表述為矢量來(lái)構(gòu)成的方法。作為幀之間的 差分,例如求出當(dāng)前幀F(xiàn),與/人其之前過(guò)去S幀的幀F(xiàn),、、,為止的各個(gè)幀 F卜,、……、F,—、之間的聲音特征量的差分。這里,若將上述S的值例如設(shè)為S = 5,則在上述的分析幀長(zhǎng)度為
100msec,且相鄰幀偏移50msec的情況下,聲音特征量矢量提耳又區(qū)間W的長(zhǎng) 度例如成為350msec。同樣地,構(gòu)成基本頻率的平均時(shí)間變動(dòng)特性的聲音特 征量矢量rfO"、平均功率的聲音特征量矢量p"、功率的平均時(shí)間變動(dòng)特性的 聲音特征量矢量rp"、動(dòng)態(tài)尺度的平均時(shí)間變動(dòng)特性的聲音特征矢量rmv 。
預(yù)先,設(shè)為將排列了決定用于判定情感狀態(tài)的全部聲音特征量矢量的矢 量表述為x。例如在使用所提取的全部聲音特征量的情況下,成為x^fD"7, rfD"', p"7, rp、'7, rm"7)7?;蛘撸谑褂没绢l率的時(shí)間變動(dòng)特性rfD、功率 的時(shí)間變動(dòng)特性rp、動(dòng)態(tài)尺度的峰值間隔平均值rm的情況下,成為x={ rflKA, rp'7, rm""7。另外,在上述中例如矢量fD"被規(guī)定為是列矢量,所以表示其 轉(zhuǎn)置的矢量fD "7'規(guī)定行矢量。
在本實(shí)施方式中,若使用所述聲音特征量中的一個(gè)以上,則能夠判定情 感狀態(tài)。其中,在情感狀態(tài)中特征性地顯現(xiàn)的說(shuō)話(huà)中,難以提取基本頻率fO 其本身的情況較多,經(jīng)常存在缺損的情況。因此,優(yōu)選包括能夠容易地得到 補(bǔ)充那樣的缺損的效果的、基本頻率的時(shí)間變動(dòng)特性rfD。進(jìn)而,為了將說(shuō)話(huà) 人依賴(lài)性較低地抑制的同時(shí)提高判定精度,優(yōu)選還包括功率的時(shí)間變動(dòng)特性 rp。
如上所述,將對(duì)每個(gè)幀進(jìn)行的聲音特征量、聲音特征量矢量的計(jì)算處理 對(duì)涉及內(nèi)容整體的所有幀進(jìn)行,從而能夠在所有幀中分別得到聲音特征量矢量。
以上是步驟S120的詳細(xì)處理。
接著,步驟S130是使用在步驟S120中提取的各個(gè)幀的聲音特征量矢量 和在步驟S110中預(yù)先構(gòu)成的第l統(tǒng)計(jì)模型來(lái)計(jì)算在各個(gè)情感狀態(tài)中的聲音特 征量矢量的出現(xiàn)概率(聲音特征量出現(xiàn)概率)。
以下,說(shuō)明在步驟S130中執(zhí)行的處理的一例。
說(shuō)明基于在步驟S110中生成的第1統(tǒng)計(jì)模型來(lái)計(jì)算聲音特征量矢量的出 現(xiàn)才既率的方法的一例。
由于第l統(tǒng)計(jì)模型是,對(duì)每個(gè)幀賦予的聲音特征量矢量x,在空間上的附 條件概率分布;/(x,li ,),所以對(duì)輸入的聲音特征量矢量x,基于通過(guò)步驟S110 而預(yù)先生成的第1統(tǒng)計(jì)模型;/(x,1。,對(duì)每個(gè)幀全部計(jì)算對(duì)于E,的可取的各 個(gè)值的x,的似然度。并將該計(jì)算的似然度看作在各個(gè)情感狀態(tài)序列E,中x,出現(xiàn)的聲音特征量出現(xiàn)概率。
通過(guò)將以上的處理涉及內(nèi)容(輸入聲音信號(hào)數(shù)據(jù))的全部幀進(jìn)行,從而 能夠?qū)θ康膸?jì)算聲音特征量出現(xiàn)概率。
以上是步驟S130的詳細(xì)處理。
接著,在步驟S140中,使用第2統(tǒng)計(jì)模型,依賴(lài)于追溯了判定情感狀態(tài) 的幀(當(dāng)前幀)之前的一個(gè)以上的幀的情感狀態(tài),計(jì)算在當(dāng)前幀中變化為各 個(gè)情感狀態(tài)的變化概率(即,情感狀態(tài)變化概率)。
以下,說(shuō)明用于執(zhí)行步驟S140的處理的 一例。
首先,說(shuō)明基于在步驟S110中生成的第2統(tǒng)計(jì)模型,計(jì)算情感狀態(tài)變化 概率的方法的一例。
由于第2統(tǒng)計(jì)模型是在情感狀態(tài)E,在空間上的附條件概率分布 所以對(duì)E,一,的所有可取值全部計(jì)算;/(E,li ,—,)的值。將該計(jì)算的值 設(shè)為情感狀態(tài)變化概率。
通過(guò)涉及所有的幀進(jìn)行以上的處理,從而能夠?qū)λ械膸?jì)算情感狀態(tài) 變化概率。
以上是步驟S140的詳細(xì)處理。
接著,在步驟S150中,基于在步驟S130以及步驟S140中計(jì)算的聲音 特征量出現(xiàn)概率以及情感狀態(tài)變化概率,計(jì)算情感狀態(tài)概率。
以下,說(shuō)明在步驟S150中進(jìn)行的計(jì)算情感狀態(tài)概率的處理的一例。
所述兩個(gè)統(tǒng)計(jì)模型;/(x,lE,)和/(E,IU的組具有合起來(lái)被稱(chēng)為廣義狀態(tài) 空間模型的結(jié)構(gòu),與常用于聲音識(shí)別等的Left-to-Right型的HMM (Hidden Markov Models)等具有相同的因果結(jié)構(gòu)(例如,在圖5中的符號(hào)S',所表示 的情感狀態(tài)E卜,、E,以及S。所表示的聲音特征量x,—,、 x,)。
在廣義狀態(tài)空間模型中,得到了時(shí)刻t為止的聲音特征量矢量的序列{ x,} 的情況下,在時(shí)刻t的情感狀態(tài)序列E,的概率pfelK"可基于/Z(x,lf,)和 P"(E,1/^),遞歸性地計(jì)算以下式來(lái)求出(例如,參照非專(zhuān)利文獻(xiàn)5)。數(shù)學(xué)式3
<formula>formula see original document page 20</formula> ……(5)其中,SE表示E,可取的所有值的集合。
一般在廣義狀態(tài)空間模型中,SE的值取非常大的值,所以難以直接計(jì) 算所述式(5)、 (6)而求出p(《l化0的值。
在本實(shí)施方式中,E,可取的所有值被限定為要處理的情感狀態(tài),例如"高 興"、"悲傷"、"可怕"、"激動(dòng)"、"帥氣"、"可愛(ài)"、"興奮"、"熱情"、"浪 漫"、"暴力"、"平穩(wěn)"、"治好"、"暖和"、"寒冷"、"令人害怕"等情感,或 者"笑,'、"哭',、"呼喊"、"叫苦"、"竊竊私語(yǔ)"等的情感流露等,若將該數(shù)
設(shè)為問(wèn),則在考慮了 E, ={e,, e,—,,……,e卜。+J中的可能的全部組合時(shí), SE的大小為問(wèn)"。
例如,在本實(shí)施方式中,估計(jì)的要處理的情感狀態(tài)的數(shù)IEI是在上述的例 子的情況下,大概為IO的幾倍左右。此時(shí),例如設(shè)為n=3,則SE的大小階 次(order)地成為103左右,是即使在當(dāng)前所普及的通用的計(jì)算機(jī),也能夠 充分地直接計(jì)算所述式(5)、 (6)的規(guī)模。
因此,在本實(shí)施方式中,設(shè)為使用式(5)、 (6)通過(guò)計(jì)算機(jī)直接計(jì)算概 率;7fe^,))的值作為情感狀態(tài)概率。在計(jì)算存在困難的情況下,例如采用在非 專(zhuān)利文獻(xiàn)5中記載的近似方法等即可。
此外,將從E,的要素中除去e,之后的數(shù)設(shè)為E',={e,—,, , e,—,,+,},
并且將E',可取的所有值的集合表示為SE',則根據(jù)由式(6 )所求出的p(£,i{x,}), 可通過(guò)計(jì)算以下的式來(lái)求出每個(gè)幀的情感狀態(tài)e,的情感狀態(tài)概率。數(shù)學(xué)式4
圖6表示處理了高興、悲傷、平靜的情感狀態(tài)的情況下的情感狀態(tài)概率 的例子。即,圖6的符號(hào)L1所表示的曲線(xiàn)是高興的情感狀態(tài)概率,符號(hào)L2 所表示的曲線(xiàn)是平靜的情感狀態(tài)概率,符號(hào)L3所表示的曲線(xiàn)是悲傷的情感狀
態(tài)概率。
為了求出情感狀態(tài)E,的概率而基于到時(shí)刻t為止的聲音特征量矢量序列 (x,)來(lái)執(zhí)行計(jì)算,所以上述的方法是可實(shí)時(shí)地執(zhí)行處理的方法。另一方面, 在不需要進(jìn)行實(shí)時(shí)處理的情況下,為了實(shí)現(xiàn)更加強(qiáng)勁的檢測(cè),計(jì)算在得到了 到時(shí)刻TM為止的聲音特征量矢量序列(x,)時(shí)的情感狀態(tài)序列E,的4既率 p(£,|{x,}),并將其設(shè)為情感狀態(tài)概率即可。p(確x,O是除了通過(guò)式(5)、 (6)計(jì)算之外,還可以-使用以下的式求出(例如,參照非專(zhuān)利文獻(xiàn)5)。數(shù)學(xué)式5
粉,})=錄}) Z ……m
L U、
e犯' 尸、"+ l
其中,SE是E,+,可取的所有值的集合。此時(shí)的每個(gè)幀的情感狀態(tài)e,的情
感狀態(tài)概率可通過(guò)計(jì)算以下式求出。數(shù)學(xué)式6
》(e,麻]) ……(9)
通過(guò)涉及所有的幀進(jìn)行以上的處理,從而能夠?qū)λ械膸?jì)算情感狀態(tài) 概率。
以上是步驟S150的詳細(xì)處理。
在步驟S160中,在步驟S150中計(jì)算的情感狀態(tài)概率被情感判定部件所 取得,基于情感狀態(tài)概率判定情感狀態(tài)。
以下,說(shuō)明判定情感狀態(tài)的步驟S160的處理的一例。另夕卜,在以下的說(shuō)
明中,將要處理的情感狀態(tài)的類(lèi)型按照順序附加e'、 e2........ eK的索引。
例如,在處理高興、生氣、悲傷、害怕、驚嚇、緊張、平靜的情感狀態(tài)的情 況下,設(shè)為e、高興、e2:生氣、e3:悲傷、e4:害怕、e5:驚嚇、e6:緊張、 e7:平靜等即可,此時(shí),K = 7。
在步驟S150,由于對(duì)k-l,……,K分別計(jì)算在幀號(hào)碼t的幀F(xiàn),中的 情感狀態(tài)為ek的情感狀態(tài)概率^^;^, 所以能夠使用它最單純地將 與該概率"最高的ek對(duì)應(yīng)的情感狀態(tài)判定為在F,中的情感狀態(tài)?;蛘?,也可 以將取^高值的ek按降序選擇一個(gè)以上,具有這些多個(gè)情感狀態(tài)作為判定結(jié) 果。
此外,根據(jù)情感狀態(tài),有在同一時(shí)刻容易相互想起的狀態(tài)和難以相互想
起的狀態(tài)。例如,可容易想象高興和悲傷難以同時(shí)想起。考慮到這樣的現(xiàn)象,
可以從與某一情感狀態(tài)e4于應(yīng)的情感狀態(tài)概率^減去作為與其他的情感狀態(tài)
(e1, e2,……,e", ek+',……,e"對(duì)應(yīng)的情感狀態(tài)概率(A', p,2 ,……,(1,
p,"1, ......, p,"的凸組合的以下式,即
數(shù)學(xué)式7
<formula>formula see original document page 22</formula> ……(io)/-1,2,...>-1,"1,一,/:
并將歸一化的概率設(shè)為新的pf之后,將它與各個(gè)情感狀態(tài)之間進(jìn)行比較。 此外,也可以簡(jiǎn)單地預(yù)先決定某一閾值,將與比它值大的w對(duì)應(yīng)的情感
狀態(tài)^判定為其幀F(xiàn),的情感狀態(tài)。
通過(guò)涉及全部的幀進(jìn)行以上的處理,從而能夠?qū)γ總€(gè)幀判定情感狀態(tài)。 以上是步驟S160的詳細(xì)處理。
通過(guò)以上的步驟S110 S160,能夠?qū)Πㄈ我獾穆曇粜盘?hào)數(shù)據(jù)的內(nèi)容,
對(duì)每個(gè)幀判定情感狀態(tài)。
然后,在步驟S170中,基于在步驟S150中計(jì)算的情感狀態(tài)概率和在步 驟S160中判定的情感狀態(tài),生成并輸出概要內(nèi)容。
以下,說(shuō)明生成概要內(nèi)容的處理的一例。根據(jù)本發(fā)明的原理,由于對(duì)每個(gè)幀提供情感狀態(tài)概率和情感狀態(tài),所以 作為最小單位可進(jìn)行幀單位的概要提示,但被概括的內(nèi)容優(yōu)選是對(duì)視聽(tīng)者而
言能夠理解含義的內(nèi)容。因此,在本實(shí)施方式中,將連續(xù)的一個(gè)以上的幀集 中作為一個(gè)區(qū)間來(lái)進(jìn)行處理。以下,將該區(qū)間稱(chēng)為聲音小段落。 這里,說(shuō)明生成聲音小段落的方法的一例。
首先,從內(nèi)容聲音信號(hào)數(shù)據(jù)中提取認(rèn)為是說(shuō)話(huà)區(qū)間的區(qū)間。作為提取這 樣的區(qū)間的方法的一例,有以下方法,即利用在聲音波形中的說(shuō)話(huà)區(qū)間的周 期性,將聲音信號(hào)數(shù)據(jù)的自相關(guān)函數(shù)高的區(qū)間看作說(shuō)話(huà)區(qū)間,并將該區(qū)間提 取的方法。
具體地說(shuō),例如對(duì)每個(gè)幀將自相關(guān)函數(shù)值與某一規(guī)定閾值進(jìn)行比較,若 比閾值大,則判定為說(shuō)話(huà)幀,若比閾值小,則判定為非說(shuō)話(huà)幀。將表示比閾 值還高的自相關(guān)函數(shù)值的一系列的說(shuō)話(huà)幀的區(qū)間判定為說(shuō)話(huà)區(qū)間,將不是那 樣的區(qū)間判定為非說(shuō)話(huà)區(qū)間。該闊值的提供方法可以是預(yù)先作為常數(shù)例如0.7 來(lái)提供,也可以是如下決定閾值,即在計(jì)算出要概括的全部?jī)?nèi)容的自相關(guān)函 數(shù)值之后,將一般情況下的說(shuō)話(huà)時(shí)間(或者有聲時(shí)間)和非說(shuō)話(huà)時(shí)間(或者 無(wú)聲時(shí)間)的比例作為基準(zhǔn),從而成為該基準(zhǔn)Bb。的說(shuō)話(huà)時(shí)間比例。
在本實(shí)施方式中,作為提取說(shuō)話(huà)區(qū)間的其他方法,也可以將包含在聲音 特征量矢量的基本頻率收斂在規(guī)定頻率范圍(例如50 350Hz)內(nèi)的一系列的 幀判定為iC話(huà)區(qū)間。通過(guò)以上的處理,能夠從內(nèi)容中以幀單位分離說(shuō)話(huà)區(qū)間和非說(shuō)話(huà)區(qū)間。 接著,將在提取的說(shuō)話(huà)區(qū)間中認(rèn)為是連續(xù)的說(shuō)話(huà)的一系列的說(shuō)話(huà)區(qū)間的 集合集中作為一個(gè)聲音小段落。說(shuō)明生成這樣的聲音小段落的方法的一例。
將內(nèi)容中的說(shuō)話(huà)區(qū)間F的集合從時(shí)間早的順序設(shè)為{F',, F' 2 ,……,F(xiàn)' w }。 其中,N是說(shuō)話(huà)區(qū)間的總數(shù)。
接著,對(duì)于在時(shí)間軸上相鄰的說(shuō)話(huà)區(qū)間F',、 F',+,的時(shí)間間隔,即說(shuō)話(huà)區(qū) 間F',的結(jié)束時(shí)刻t"和下一個(gè)說(shuō)話(huà)區(qū)間F',+,的開(kāi)始時(shí)刻t,+,,,計(jì)算其時(shí)刻的
- t —t
接著,若將該計(jì)算結(jié)果與預(yù)先決定的某一閾值相比較的結(jié)果為小,則考 慮F,、 F,+i為連續(xù)的說(shuō)話(huà)區(qū)間,設(shè)為屬于相同的聲音小段落。然后,通過(guò)將 其對(duì)所有的說(shuō)話(huà)區(qū)間重復(fù),從而能夠?qū)⒖紤]為連續(xù)說(shuō)話(huà)的一 系列的說(shuō)話(huà)區(qū)間 集中到聲音小段落中。
此外,作為生成聲音小段落的方法的其他例子,考慮如下的方法。
首先,涉及要概括的全部?jī)?nèi)容對(duì)每個(gè)說(shuō)話(huà)區(qū)間求出開(kāi)始時(shí)刻、結(jié)束時(shí)刻, 并將這些統(tǒng)一看作二維的矢量。
然后,對(duì)該矢量適用從下向上分組(bottom up clustering )法,使得要概 括的全部?jī)?nèi)容的說(shuō)話(huà)時(shí)間和非說(shuō)話(huà)時(shí)間的比成為與 一般情況的說(shuō)話(huà)時(shí)間和非 說(shuō)話(huà)時(shí)間的比例相同程度,從而生成聲音小段落。例如,設(shè)為一般情況的說(shuō) 話(huà)時(shí)間和非說(shuō)話(huà)時(shí)間的比例為6: 4。此時(shí),可如下所示那樣構(gòu)成聲音小段落。
首先,將排列了說(shuō)話(huà)區(qū)間F,的開(kāi)始時(shí)刻t,、,和結(jié)束時(shí)刻t,,的矢量設(shè)為 t,。此時(shí),內(nèi)容中的全部說(shuō)話(huà)時(shí)間可由1自.,-、,,的總和定義,非說(shuō)話(huà)時(shí)間可作 為從全部?jī)?nèi)容的長(zhǎng)度減去全部說(shuō)話(huà)時(shí)間的時(shí)間來(lái)定義。對(duì)各個(gè)矢量t,計(jì)算與 矢量t,+,或者t,—,之間的范數(shù)(norm)。例如為二次的范數(shù)|1,-t,一 |2,則通過(guò) (t,倉(cāng),-t,_,.、.,。,., ) 2+ ) 2計(jì)算該范數(shù)。通過(guò)對(duì)該范數(shù)設(shè)置閾值,將閾
值以下的說(shuō)話(huà)區(qū)間之間連接,從而定義新的說(shuō)話(huà)區(qū)間F',,重新計(jì)算其開(kāi)始時(shí) 刻t,郝和結(jié)束時(shí)刻t,^。這樣,在時(shí)間上接近的說(shuō)話(huà)區(qū)間依次被集中到一系列 的說(shuō)話(huà)區(qū)間、即聲音小段落中,說(shuō)話(huà)時(shí)間增加。以下,將其對(duì)于范數(shù)的閾值 階段性地提高,重復(fù)到說(shuō)話(huà)區(qū)間和非說(shuō)話(huà)區(qū)間的時(shí)間比例成為最接近6: 4的 比例為止即可。
該方法與預(yù)先決定閾值的方法不同,可吸收內(nèi)容之間的說(shuō)話(huà)速度之差, 自適應(yīng)地構(gòu)成聲音小段落。作為其他方法的一例,有不基于聲音的連續(xù)說(shuō)話(huà)、不說(shuō)話(huà),而基于聲音 的周期性來(lái)構(gòu)成聲音小段落的方法。該周期性可以是與上述的例子相同地, 使用自相關(guān)函數(shù)的值來(lái)判斷,也可以通過(guò)頻譜來(lái)判斷。
在使用自相關(guān)數(shù)值的情況下,可以設(shè)置分類(lèi)基準(zhǔn),基于此來(lái)構(gòu)成聲音小 段落。例如如下設(shè)置分類(lèi)基準(zhǔn),即若自相關(guān)函數(shù)值為0.3以下,則周期性低,
若比0.3大且0.7以下,則周期性稍高,若比0.7大,則周期性高等,從而基
于此來(lái)構(gòu)成聲音小段落。例如,在相鄰區(qū)間的自相關(guān)函數(shù)值從這三個(gè)區(qū)域中
的一個(gè)變化為另一個(gè)的情況下,將其相鄰區(qū)間之間判定為聲音小段落的邊界。
或者,也可以不設(shè)置明確的分類(lèi)基準(zhǔn),而將自相關(guān)函數(shù)值比某一定值大地變
化的相鄰區(qū)間之間作為聲音小段落的邊界來(lái)構(gòu)成聲音.小段落。
在使用頻譜的情況下,也與使用自相關(guān)函數(shù)值的情況相同地,設(shè)置分類(lèi)
基準(zhǔn)或者對(duì)變化的大小設(shè)置基準(zhǔn),從而構(gòu)成聲音小段落。在設(shè)置分類(lèi)基準(zhǔn)的
情況下,例如根據(jù)0 500Hz的頻諳的平均功率為一定值以上/以下,
500Hz lkHz的頻譜的平均功率為一定值以上/以下等,設(shè)置多樣的分類(lèi)基準(zhǔn),
在某一 區(qū)間的對(duì)應(yīng)的分類(lèi)基準(zhǔn)從其之前區(qū)間的對(duì)應(yīng)的分類(lèi)基準(zhǔn)變化的情況
下,將這兩個(gè)區(qū)間之間判定為聲音小段落的邊界。此外,在預(yù)先決定著眼的
頻帶(例如,0 500Hz),在相鄰區(qū)間其頻帶的頻語(yǔ)的平均功率比某一定值大
地變化的情況下(例如,在平均功率差分或者平均功率比成為規(guī)定值以上的
情況下),也可以將相鄰區(qū)間之間作為聲音小段落的邊界來(lái)構(gòu)成聲音小段落。
通過(guò)以上的處理,能夠從內(nèi)容以幀單位提取聲音小段落。
通過(guò)以上的處理,能夠?qū)⑷繋械饺舾蓚€(gè)聲音小段落中。
接著,計(jì)算在構(gòu)成的聲音小段落單位中的情感狀態(tài)的情感度。以下,基
于圖7說(shuō)明計(jì)算該情感度的方法的一例。
將內(nèi)容中的聲音小段落S的集合從時(shí)間早的順序設(shè)為(S,, S2,......,
S,,,、.}。例如在圖7中,表示聲音小段落S,— 、 S,、 S,+l。 NS是聲音小段落的總
數(shù)。此外,將在某一聲音小段落S,中包含的一系列的幀表示為(f,, f2,......,
^,,}。 NFi是在聲音小段落S,中包含的幀數(shù)。
各個(gè)幀f,是通過(guò)情感狀態(tài)概率計(jì)算部件,情感狀態(tài)概率;4|{、})通過(guò)式(7 )
或者(9)所提供。聲音小段落S,的情感狀態(tài)e為ek的情感度j^(e^。是,
例如考慮通過(guò)表示平均值的如下式來(lái)計(jì)算。數(shù)學(xué)式81 WW
P,、.,(")=^I>(e,=Z|{x,}) ……(11)
或者,例如可通過(guò)表示最大值的下式來(lái)計(jì)算。數(shù)學(xué)式9
A,(e = e*)= max /|{x,}) ...... (12)
除了這些之外,例如在聲音小段落內(nèi)進(jìn)行遮蔽(窓掛〖寸)之后計(jì)算情感度等,考慮各種方法,但由于存在在聲音小段落之間比較情感度的情況,所以?xún)?yōu)選情感度在某一定值的范圍內(nèi)例如在0 ~ 1之間收斂。
另外,在圖7中表示了對(duì)于各個(gè)聲音小段落S,內(nèi)的一系列的幀,對(duì)于各
個(gè)情感狀態(tài)e1, e2,……,eK所決定的情感度&(e"')、 A,(e = e2)........
A)(e =。。
可對(duì)所有的聲音小段落進(jìn)行以上的計(jì)算,對(duì)所有的聲音小段落計(jì)算全部情感狀態(tài)的情感度。
接著,說(shuō)明在圖1中的步驟S170的概要內(nèi)容生成。
概要內(nèi)容是通過(guò)從內(nèi)容中依次提取聲音段落而生成,所述聲音段落是由包括情感度高的聲音小段落的 一 系列的聲音小段落而構(gòu)成的目標(biāo)時(shí)間長(zhǎng)以?xún)?nèi)的段落。聲音段落的目標(biāo)時(shí)間例如設(shè)定為5sec (秒)或者10sec左右,集中聲音小段落以使接近它。
使用圖8說(shuō)明這個(gè)處理方法。在從內(nèi)容中提取的全部聲音小段落中,在從最后追溯的方向的目標(biāo)時(shí)間內(nèi)或者從最初前進(jìn)的方向的目標(biāo)時(shí)間內(nèi),將賦予最高的情感度(可以是任何情感狀態(tài))的聲音小段落設(shè)為S,。將該聲音小
段落S,為起點(diǎn),達(dá)到目標(biāo)時(shí)間為止,集中為將時(shí)刻以i-l、 i-2.......追溯的
方向,或者集中為從起點(diǎn)將時(shí)刻以i+l、 i + 2.......前進(jìn)的方向?;蛘?,也
可以在兩個(gè)方向上交互地集中。這樣決定一個(gè)聲音段落,則將在下一個(gè)目標(biāo)時(shí)間內(nèi)的最高情感度的聲音小段落作為基點(diǎn)通過(guò)相同的處理來(lái)決定聲音段落。通過(guò)涉及全部?jī)?nèi)容執(zhí)行這樣的處理,從而能夠生成一系列的聲音段落。
例如,在集中為追溯時(shí)刻的方向的情況下,如圖8所示那樣,在概要內(nèi)容中,情感狀態(tài)較強(qiáng)地表示的聲音小段落S,配置在聲音段落VC的最后。若視聽(tīng)這個(gè)聲音段落VC,則在比最后的聲音小段落S,在先的聲音小段落S卜,、S , 2.......中,成為情感狀態(tài)變強(qiáng)的原因的情況所表示的概要的可能性變高。
26因此,具有可設(shè)為反映了表示情感狀態(tài)的原因和結(jié)果的概要內(nèi)容的優(yōu)點(diǎn)。
另一方面,在集中為將時(shí)刻前進(jìn)的情況下,在概要內(nèi)容中,情感狀態(tài)較
強(qiáng)地表示的聲音小段落S,配置在聲音段落的最初。若視聽(tīng)這個(gè)聲音段落,則
成為可最初視聽(tīng)表示印象深刻的情感狀態(tài)的區(qū)間的概要內(nèi)容,具有成為更加
印象深刻的概要內(nèi)容的優(yōu)點(diǎn)。
或者,在相鄰聲音小段落之間的時(shí)間長(zhǎng)度為某一定的閾值以下的情況下,
也可以通過(guò)集中這些來(lái)構(gòu)成聲音段落。
圖9表示如上那樣決定的一系列的聲音段落VC1、 VC 2、 VC 3,表示VC 1由三個(gè)聲音小段落S,, 、 S,2 、 SI3構(gòu)成,VC2由四個(gè)聲音小段落S,4 、Sl5 、 Sl6 、 S17構(gòu)成,VC3由三個(gè)聲音小段落S,s 、 S,9 、 S2。構(gòu)成的例子。
由于情感度是以聲音小段落為單位提供,所以各個(gè)聲音段落僅具有(聲音小段落的數(shù))x (情感狀態(tài)數(shù))的情感度。在圖9中用x標(biāo)記表示對(duì)各個(gè)聲音段落內(nèi)的各個(gè)聲音小段落S,所求出的情感度化(e:e')、 ........
= J),并且用直線(xiàn)連接表示對(duì)于相同種類(lèi)的情感狀態(tài)ek的情感度。
實(shí)際上,基于對(duì)于各個(gè)情感狀態(tài)ek的情感度,計(jì)算各個(gè)聲音段落內(nèi)的累積情感度。作為這個(gè)計(jì)算方法,例如涉及聲音段落將各個(gè)聲音小段落的情感度的平均或者加權(quán)平均或者最大值進(jìn)行累積加算,從而求出聲音段落的累積情感度。或者,也可以將累積加算結(jié)果用其聲音段落的聲音小段落除算所得的平均值作為累積情感度。
概要內(nèi)容也可以通過(guò)如下生成,即累積情感度(在各個(gè)聲音段落中得到與情感狀態(tài)數(shù)K個(gè)相同數(shù)的累積情感度)從最大的聲音段落按降序地排列,并從上層開(kāi)始依次提取聲音段落使得將作為與全部?jī)?nèi)容的比的壓縮率接近某一定的目標(biāo)值。
另外,該目標(biāo)值也可以是視聽(tīng)者輸入所期望的值。此外,也可以是視聽(tīng)者輸入對(duì)于期望的情感狀態(tài)的累積情感度的期望的基準(zhǔn)值,優(yōu)先地提取與其基準(zhǔn)值匹配的聲音段落來(lái)生成概要。
此外,基于圖10說(shuō)明判定內(nèi)容是否包含處于視聽(tīng)者所期望的情感狀態(tài)的部分的方法的一例。
首先,在步驟S181中,對(duì)于對(duì)每個(gè)聲音段落所賦予的各個(gè)情感狀態(tài)ek(k=l,……,K)的累積情感度,例如計(jì)算貫通全部?jī)?nèi)容的平均、加權(quán)平均、最大值等,并基于其計(jì)算結(jié)果分別計(jì)算對(duì)于各個(gè)情感狀態(tài)ek的全部?jī)?nèi)容的情感度(之后,稱(chēng)為內(nèi)容情感度,并由PCk表示)??筛鶕?jù)該K個(gè)內(nèi)容情感度PCk(k=l, ......, K),提供其內(nèi)容將什么樣的情感狀態(tài)包含多少程度的指標(biāo)。
接著,在步驟S182中,視聽(tīng)者作為條件輸入期望的情感狀態(tài)ek和其情感狀態(tài)中的期望的內(nèi)容情感度RPCk。
接著,在步驟S183中,將對(duì)內(nèi)容賦予的內(nèi)容情感度PCk和輸入條件RPCk進(jìn)行比較參照,進(jìn)行內(nèi)容是否為包含視聽(tīng)者期望的情感狀態(tài)ek的內(nèi)容的判定。
該判定方法是,例如考慮到若作為條件所指定的情感狀態(tài)ek和內(nèi)容情感度RPC、以及對(duì)內(nèi)容賦予的對(duì)應(yīng)的情感狀態(tài)ek的內(nèi)容情感度PCk之間的差的絕對(duì)值IRPCk-PCkl比預(yù)先決定的閾值小,則該內(nèi)容被判定為滿(mǎn)足條件的內(nèi)容?;蛘撸部梢允侨鬚CVRPCk,則判定為滿(mǎn)足條件的內(nèi)容。
然后,在步驟S184中,若是視聽(tīng)者所期望的內(nèi)容,則生成概要內(nèi)容,并
與判定結(jié)果一同提示。
通過(guò)以上的處理,可判定內(nèi)容是否包含處于視聽(tīng)者所期望的情感狀態(tài)的部分。
以上是對(duì)于在步驟S170中的概要內(nèi)容生成處理的細(xì)節(jié)。以上,詳細(xì)地/說(shuō)明了在本實(shí)施方式中的情感才企測(cè)方法。
各個(gè)部件的一部分或者全部功能,使用計(jì)算機(jī)執(zhí)行該程序來(lái)實(shí)現(xiàn)本發(fā)明,也
執(zhí)行該程序。
圖11是表示本發(fā)明的情感^r測(cè)裝置的功能結(jié)構(gòu)的方框圖。在圖11中,情感檢測(cè)裝置800包括聲音特征量提取單元820、聲音特征量出現(xiàn)一既率計(jì)算單元830、情感狀態(tài)變化概率計(jì)算單元840、情感狀態(tài)概率計(jì)算單元850、情感狀態(tài)判定單元860、以及內(nèi)容概要單元870。
此外,聲音特征量出現(xiàn)概率計(jì)算單元830包括第1統(tǒng)計(jì)模型810A,情感狀態(tài)變化概率計(jì)算單元840包括第2統(tǒng)計(jì)模型810B。
第1以及第2統(tǒng)計(jì)模型810A、 810B是將聲音特征量出現(xiàn)概率分布//(x,l《)和情感狀態(tài)變化概率分布/Afi,li^)分別進(jìn)行模型化的模型,所述聲音特征量出現(xiàn)概率分布;/(x,l。和情感狀態(tài)變化概率分布;/(i ,li^)是基于在學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)中包含的聲音特征量以及根據(jù)該聲音所估計(jì)的情感狀態(tài),通過(guò)以往的方法進(jìn)行學(xué)習(xí)而構(gòu)筑。聲音特征量提取單元820對(duì)每個(gè)幀提取在輸入的內(nèi)容聲音信號(hào)數(shù)據(jù)中包含的聲音特征量矢量。
聲音特征量出現(xiàn)概率計(jì)算單元830基于第1統(tǒng)計(jì)模型810A計(jì)算所提取的聲音特征量矢量在情感狀態(tài)中出現(xiàn)的概率p 。
情感狀態(tài)變化概率計(jì)算單元840基于第2統(tǒng)計(jì)模型810B計(jì)算情感狀態(tài)的時(shí)間變化概率^(£,1£,_')。
情感狀態(tài)概率計(jì)算單元850基于聲音特征量出現(xiàn)概率計(jì)算單元830所計(jì)算的出現(xiàn)概率p (;c,|£,)和情感狀態(tài)變化概率計(jì)算單元840所計(jì)算的變化概率M£ji^),使用式(5)、 (6)計(jì)算情感狀態(tài)概率;^,|化})。
情感狀態(tài)判定單元860基于情感狀態(tài)概率計(jì)算單元850所計(jì)算的情感狀態(tài)概率p(i ,IU,判定輸入聲音信號(hào)數(shù)據(jù)的各個(gè)幀的情感狀態(tài)ek(1^1,......,K)。
內(nèi)容概要單元870是根據(jù)需要而設(shè)置在情感檢測(cè)裝置800的單元,其基于所判定的情感狀態(tài)、情感狀態(tài)概率、連續(xù)說(shuō)話(huà)以及連續(xù)非說(shuō)話(huà)時(shí)間、連續(xù)說(shuō)話(huà)、連續(xù)非說(shuō)話(huà)時(shí)間中的一個(gè)以上,;險(xiǎn)測(cè)處于情感狀態(tài)的區(qū)間,并基于此來(lái)生成內(nèi)容的概要。
基于圖12說(shuō)明實(shí)施在圖11所示的情感檢測(cè)裝置800的功能結(jié)構(gòu)的計(jì)算機(jī)的具體裝置結(jié)構(gòu)例子。
包含從外部對(duì)圖12中的輸入單元210作為數(shù)字信號(hào)所輸入的聲音信號(hào)數(shù)據(jù)的內(nèi)容,通過(guò)作為控制單元的CPU ( Central Processing Unit) 221的控制,被暫時(shí)存儲(chǔ)在硬盤(pán)裝置222中。
在輸入單元210中,例如連接了鼠標(biāo)等的指示設(shè)備212和鍵盤(pán)211等。
另夕卜,內(nèi)容可以是通過(guò)通信網(wǎng)絡(luò)接收的內(nèi)容,也可以是從CD ( CompactDisk )、 DVD ( Digital Versatile Disk)等的光盤(pán)驅(qū)動(dòng)裝置213讀出的內(nèi)容。
顯示單元230例如具有液晶畫(huà)面等的監(jiān)視畫(huà)面,可根據(jù)鍵盤(pán)211或者指示設(shè)備212的操作而顯示從CPU 221輸出的信息。在顯示單元230的監(jiān)視畫(huà)面中,根據(jù)需要顯示輸入數(shù)據(jù)、處理經(jīng)過(guò)、處理結(jié)果、概要、內(nèi)容以及其他信息。此外,設(shè)為聲音也可以再現(xiàn)。
通過(guò)圖12中的CPU 22執(zhí)行并實(shí)現(xiàn)記述了在圖11所示的情感檢測(cè)裝置800中的聲音特征量提取單元820、聲音特征量出現(xiàn)概率計(jì)算單元830、情感狀態(tài)變化概率計(jì)算單元840、情感狀態(tài)概率計(jì)算單元850、情感狀態(tài)判定單元860以及內(nèi)容概要單元870的處理功能的程序。另外,該程序例如是存儲(chǔ)在硬盤(pán)裝置222的程序,在執(zhí)行時(shí)必要的程序以及數(shù)據(jù)被讀入到RAM(RandomAccess Memory)224中。該被讀入的程序通過(guò)CPU 221執(zhí)行。
在硬盤(pán)裝置222中,除此之外還存儲(chǔ)有第1統(tǒng)計(jì)模型810A和第2統(tǒng)計(jì)模型810B,此外,存儲(chǔ)所輸入的內(nèi)容。ROM ( Read Only Memory ) 223存儲(chǔ)用于起動(dòng)計(jì)算機(jī)的基本程序、其他程序以及用于控制的參數(shù)等。
輸出單元240作為附加功能具有如下的功能,即提取通過(guò)CPU221的程序執(zhí)行所輸入的內(nèi)容中的聲音信號(hào)數(shù)據(jù)中的情感狀態(tài)的部分,并輸出基于此所生成的概要內(nèi)容。此外,輸出單元240也可以包括將所述生成的概要內(nèi)容記錄在CD、 DVD等的功能。輸出單元240也可以是具有通信功能,可對(duì)外部發(fā)送數(shù)據(jù)的單元。輸出單元240也可以提取對(duì)應(yīng)于聲音信號(hào)數(shù)據(jù)的區(qū)間的視頻信號(hào)數(shù)據(jù),并根據(jù)需要作為概要內(nèi)容與聲音 一 同輸出。
如上所述,在本實(shí)施方式中,作為聲音特征量而包括基本頻率的時(shí)間變
動(dòng)特性的序列,從而即使在存在基本頻率的缺損的情況下,也能夠得到補(bǔ)充
其缺損的效果,可進(jìn)行更加穩(wěn)定的判定。這是應(yīng)對(duì)在情感狀態(tài)的說(shuō)話(huà)中經(jīng)常
不能提取基本頻率的以往技術(shù)問(wèn)題。此外,要保存的僅是表示第1以及第2
統(tǒng)計(jì)模型的函數(shù)方式的符號(hào)以及其參數(shù)的符號(hào)即可,可減少使用的存儲(chǔ)器以及計(jì)算時(shí)間成本。
以下,表示通過(guò)本實(shí)施方式判定期望的情感狀態(tài)以及進(jìn)行概要內(nèi)容生成的實(shí)施例。
第1實(shí)施例
第1實(shí)施例是處理"賦有情感"還是"沒(méi)有情感"的兩種情感狀態(tài),并分別進(jìn)行判定的實(shí)施例。以下說(shuō)明第1實(shí)施例。
在第1實(shí)施例中,對(duì)學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)中的被判定為"賦有情感"的區(qū)間附加"情感,,的標(biāo)記,在除此之外的區(qū)間,對(duì)被判定為"沒(méi)有情感"的區(qū)間附加"非情感,'的標(biāo)記。
在該學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)中,將在進(jìn)行了附加標(biāo)記的區(qū)間中所包含的幀全部提取,并分別對(duì)幀賦予對(duì)所提取的區(qū)間進(jìn)行的標(biāo)記相同的標(biāo)記。這樣,能夠得到以幀單位附加了標(biāo)記的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)。
基于該學(xué)習(xí)用聲音信號(hào)數(shù)據(jù),構(gòu)筑用于計(jì)算聲音特征量出現(xiàn)概率的第1統(tǒng)計(jì)模型;/(x》,)(例如,圖11中的具體的第1統(tǒng)計(jì)模型810A)以及用于計(jì)算情感狀態(tài)變化概率的第2統(tǒng)計(jì)模型(例如,圖11中的具體的統(tǒng)計(jì)模型810B )-并將其存儲(chǔ)。
在第1實(shí)施例中的情感狀態(tài)判定的步驟如下所述。
首先,從輸入的內(nèi)容取得聲音信號(hào)數(shù)據(jù),并按幀單位分割(步驟l)。接著,對(duì)每個(gè)幀提取聲音特征量矢量(步驟2)。然后,使用預(yù)先構(gòu)筑的第l統(tǒng)計(jì)模型,對(duì)每個(gè)幀計(jì)算"賦有情感"的概率和"沒(méi)有情感"的概率后,與"沒(méi)有情感"的概率相比較,從而將"賦有情感"的概率高的幀判定為"賦有情感"的幀(步驟3)。第2實(shí)施例
第2實(shí)施例是,使用在所述第1實(shí)施例中計(jì)算的每個(gè)幀的"賦有情感"的情感狀態(tài)概率以及"沒(méi)有情感"的情感狀態(tài)概率來(lái)生成聲音段落,并生成內(nèi)容的概要的實(shí)施例。
在第2實(shí)施例中也進(jìn)行與第1實(shí)施例的步驟1~步驟3相同的處理步驟。接著第3步驟,利用自相關(guān)函數(shù)值來(lái)提取說(shuō)話(huà)幀之后,對(duì)全部幀適用從下向上分組(bottom up clustering )法使得聲音段落區(qū)間和除此之外的區(qū)間的比接近某一定的目標(biāo)值,從而生成聲音段落(步驟4)。
接著,對(duì)步驟4所生成的各個(gè)聲音段落,計(jì)算"賦有情感,,的累積情感度和"沒(méi)有情感"的累積情感度(步驟5)。然后,選擇以下的任一提示方法,生成概要內(nèi)容,并進(jìn)行提示(步驟6 )。
作為第l提示方法,視聽(tīng)者輸入概要時(shí)間,對(duì)聲音段落從"賦有情感"的累積情感度高開(kāi)始按降序提取最接近所輸入的概要時(shí)間的時(shí)間量,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。
作為第2提示方法,對(duì)聲音段落從"賦有情感"的累積情感度高者開(kāi)始按降序提取最接近預(yù)先決定的概要時(shí)間的時(shí)間量,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。
作為第3提示方法,輸入視聽(tīng)者所輸入或者預(yù)先決定的閾值,提取具有比該闊值高的"賦有情感"的累積情感度,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。
第3實(shí)施例是,作為情感狀態(tài)而處理若干個(gè)具體狀態(tài)(即,高興、生氣、悲傷、害怕、驚嚇、緊張、平靜等的多個(gè)情感狀態(tài)),并分別進(jìn)行判定的實(shí)施
31例。
與第1實(shí)施例相同地,對(duì)學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)中的、認(rèn)為是處于各個(gè)情 感狀態(tài)的區(qū)間賦予對(duì)應(yīng)的標(biāo)記。
從該學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)提取在進(jìn)行了附加標(biāo)記的區(qū)間中包含的全部 幀,并分別對(duì)幀賦予對(duì)所提取的區(qū)間進(jìn)行的標(biāo)記相同的標(biāo)記。這樣,能夠得 到以幀單位附加了標(biāo)記的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)。基于該學(xué)習(xí)用聲音信號(hào)數(shù)據(jù), 構(gòu)筑用于計(jì)算聲音特征量出現(xiàn)概率的第1統(tǒng)計(jì)模型和用于計(jì)算情感狀態(tài)變化
概率的第2統(tǒng)計(jì)模型并將其存儲(chǔ)。
在第3實(shí)施例中的情感狀態(tài)判定的步驟如下所述。
首先,從輸入的內(nèi)容中取得聲音信號(hào)數(shù)據(jù),并按幀單位分割(步驟l)。 接著,對(duì)每個(gè)幀提取聲音特征量矢量(步驟2)。然后,使用預(yù)先構(gòu)筑的第1 以及第2統(tǒng)計(jì)模型,對(duì)每個(gè)幀計(jì)算各個(gè)情感狀態(tài)概率,并將情感狀態(tài)概率最 高的情感狀態(tài)判定為在其幀中的情感狀態(tài)(步驟3 )。
第4實(shí)施例
第4實(shí)施例是,使用在所述第3實(shí)施例中計(jì)算的每個(gè)幀的各個(gè)情感狀態(tài) 概率來(lái)生成聲音段落,并生成內(nèi)容的概要的實(shí)施例。
在第4實(shí)施例中的步驟1 ~步驟3是與第3實(shí)施例的情況相同的步驟。 其之后成為如下的步驟。
接著步驟3,利用自相關(guān)函數(shù)值來(lái)提取說(shuō)話(huà)幀之后,對(duì)全部幀適用從下 向上分組(bottom up clustering )法使得聲音段落區(qū)間和除此之外的區(qū)間的比 接近某一定的目標(biāo)值,從而生成聲音段落(步驟4)。
接著,對(duì)步驟4所生成的各個(gè)聲音段落,計(jì)算各個(gè)情感狀態(tài)的累積情感 度(步驟5)。然后,選擇以下的任一方法,生成概要內(nèi)容,并進(jìn)行提示(步 驟6 )。
作為第l提示方法,視聽(tīng)者輸入期望的情感狀態(tài)以及概要時(shí)間,對(duì)聲音 段落從輸入的情感狀態(tài)的累積情感度高者開(kāi)始按降序提取最接近所輸入的概 要時(shí)間的時(shí)間量,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。
作為第2提示方法,視聽(tīng)者輸入期望的情感狀態(tài),對(duì)聲音段落從輸入的 情感狀態(tài)的累積情感度高者開(kāi)始按降序提取最接近預(yù)先決定的概要時(shí)間的時(shí) 間量,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。
作為第3提示方法,基于視聽(tīng)者輸入的情感狀態(tài)以及視聽(tīng)者輸入或者預(yù)先決定的闞值,對(duì)輸入的情感狀態(tài)提取具有比該閾值高的累積情感度的聲音 段落,并將其結(jié)合而生成概要內(nèi)容后進(jìn)行提示。第5實(shí)施例
第5實(shí)施例是,使用在所述第3實(shí)施例中計(jì)算的每個(gè)幀的各個(gè)情感狀態(tài)
概率以及所判定的情感狀態(tài),進(jìn)行內(nèi)容是否包含^L聽(tīng)者所指定的情感狀態(tài)的
判定的實(shí)施例。
在第5實(shí)施例中的步驟1~步驟5是與第4實(shí)施方式的情況相同的步驟。 其之后成為如下的步驟。
接著步驟5,選擇以下的任一判定方法,進(jìn)行內(nèi)容的判定。
作為第1判定方法,視聽(tīng)者輸入期望的情感狀態(tài)以及內(nèi)容情感度的閾值, 在輸入的情感狀態(tài)的內(nèi)容情感度比輸入的閾值還高的情況下,判定為包括其 情感狀態(tài),并輸出結(jié)果。
作為第2判定方法,視聽(tīng)者輸入期望的情感狀態(tài),在輸入的情感狀態(tài)的 內(nèi)容情感度比預(yù)先決定的閾值還高的情況下,判定為包括其情感狀態(tài),并輸 出結(jié)果。
此外,在第5實(shí)施例中,也可以與所述第4實(shí)施例的步驟6相同地,對(duì) 所判定的內(nèi)容生成概要,進(jìn)行提示。
以上,說(shuō)明了本發(fā)明的實(shí)施方式,但本發(fā)明并不限定于說(shuō)明的實(shí)施方式, 在各個(gè)權(quán)利要求所記載的范圍內(nèi)可進(jìn)行各種變形。
例如,也可以生成包含所生成的概要內(nèi)容的XML (extensible Markup Language)數(shù)據(jù)。若是通用的XML數(shù)據(jù),就能夠提高概要內(nèi)容的利用性。
3權(quán)利要求
1. 一種情感檢測(cè)方法,基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量,進(jìn)行情感檢測(cè)處理,所述情感檢測(cè)方法包括聲音特征量提取步驟,從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本頻率、基本頻率的時(shí)間變動(dòng)特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō)話(huà)速度的時(shí)間變動(dòng)特性中的一個(gè)以上作為聲音特征量矢量,并將該聲音特征量矢量存儲(chǔ)到存儲(chǔ)單元;聲音特征量出現(xiàn)概率計(jì)算處理步驟,從存儲(chǔ)單元讀取各個(gè)分析幀的所述聲音特征量矢量,使用基于預(yù)先輸入的學(xué)習(xí)用聲音數(shù)據(jù)所構(gòu)成的第1統(tǒng)計(jì)模型,將一個(gè)以上的情感狀態(tài)序列作為條件,計(jì)算成為所述聲音特征量矢量的聲音特征量出現(xiàn)概率;情感狀態(tài)變化概率計(jì)算處理步驟,使用第2統(tǒng)計(jì)模型,計(jì)算一個(gè)以上的情感狀態(tài)序列向時(shí)間方向的變化概率作為情感狀態(tài)變化概率;情感狀態(tài)概率計(jì)算處理步驟,基于所述聲音特征量出現(xiàn)概率和所述情感狀態(tài)變化概率,計(jì)算情感狀態(tài)概率;以及信息輸出步驟,基于計(jì)算出的所述情感狀態(tài)概率,輸出有關(guān)包含一個(gè)以上分析幀的各個(gè)區(qū)間的情感狀態(tài)的信息。
2. —種情感檢測(cè)方法,基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量,進(jìn)行 情感檢測(cè)處理,所述情感檢測(cè)方法包括聲音特征量提取處理步驟,從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本 頻率、基本頻率的時(shí)間變動(dòng)特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō) 話(huà)速度的時(shí)間變動(dòng)特性中的 一個(gè)以上作為聲音特征量矢量,并將該聲音特征 量矢量存儲(chǔ)到存儲(chǔ)單元;情感狀態(tài)概率處理步驟,從存儲(chǔ)單元讀取各個(gè)分析幀的所述聲音特征量 矢量,使用由基于預(yù)先輸入的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)所構(gòu)成的一個(gè)以上的統(tǒng)計(jì) 模型,計(jì)算情感狀態(tài)概率,所述情感狀態(tài)概率將對(duì)于一個(gè)以上的情感狀態(tài)序 列的所述聲音特征量矢量作為條件;情感狀態(tài)判定步驟,基于所述情感狀態(tài)概率,判定包含所述分析幀的區(qū) 間的情感狀態(tài);以及輸出與判定出的所述情感狀態(tài)有關(guān)的信息的步驟。
3. 如權(quán)利要求2所述的情感檢測(cè)方法,其中,所述情感狀態(tài)概率處理步驟包括聲音特征量出現(xiàn)概率計(jì)算處理步驟,使用所述一個(gè)以上的統(tǒng)計(jì)模型中的 第l統(tǒng)計(jì)模型,將一個(gè)以上的情感狀態(tài)序列作為條件,計(jì)算成為所述聲音特 征量矢量的聲音特征量出現(xiàn)概率;情感狀態(tài)變化概率計(jì)算處理步驟,使用所述一個(gè)以上的統(tǒng)計(jì)模型中的第狀態(tài)變化概率;以及基于所述聲音特征量出現(xiàn)概率和所述情感狀態(tài)變化概率,計(jì)算所述情感 狀態(tài)概率。
4. 如權(quán)利要求1或3所述的情感檢測(cè)方法,其中, 所述聲音特征量出現(xiàn)概率計(jì)算處理步驟是,在包含一個(gè)以上的分析幀的區(qū)間中,基于所述第1統(tǒng)計(jì)模型計(jì)算所述聲音特征量出現(xiàn)概率的步驟,所述 第1統(tǒng)計(jì)模型是作為在提供了所述情感狀態(tài)序列時(shí)的聲音特征量矢量的附條 件出現(xiàn)概率而構(gòu)成。
5. 如權(quán)利要求1或3所述的情感檢測(cè)方法,其中, 所述情感狀態(tài)變化概率計(jì)算處理步驟是,在包含一個(gè)以上的分析幀的區(qū)間中,基于所述第2統(tǒng)計(jì)模型計(jì)算所述情感狀態(tài)變化概率的步驟,所述第2 統(tǒng)計(jì)模型是將出現(xiàn)所述情感狀態(tài)序列的概率作為在比該區(qū)間至少在一個(gè)分析 幀以上之前區(qū)間提供了情感狀態(tài)序列時(shí)的當(dāng)前分析幀中的情感狀態(tài)序列的附 條件變化概率而構(gòu)成。
6. 如權(quán)利要求2或3所述的情感檢測(cè)方法,其中, 所述情感狀態(tài)判定步驟包括按照所述情感狀態(tài)概率的降序選出所述情驟。
7. 如權(quán)利要求2或3所述的情感檢測(cè)方法,其中, 所述情感狀態(tài)判定步驟包括計(jì)算作為一個(gè)所述情感狀態(tài)的概率和作為除此之外的情感狀態(tài)的概率的凸組合之差,并從該差最大者開(kāi)始按降序選出 一個(gè)以上的情感狀態(tài),將其選出的情感狀態(tài)判定為包含所述分析幀的區(qū)間的情感狀態(tài)的步驟。 ^
8. 如權(quán)利要求1至7的任一項(xiàng)所述的情感檢測(cè)方法,還包括對(duì)每個(gè)分析幀輸入聲音特征量矢量和附加了情感狀態(tài)的標(biāo)記的學(xué)習(xí)用聲 音信號(hào)數(shù)據(jù)的步驟。
9. 如權(quán)利要求1至8的任一項(xiàng)所述的情感檢測(cè)方法,還包括 對(duì)每個(gè)分析幀判定是否為說(shuō)話(huà)幀, 一個(gè)以上的連續(xù)的每個(gè)說(shuō)話(huà)幀構(gòu)成說(shuō)話(huà)區(qū)間,連續(xù)的一個(gè)以上的每個(gè)說(shuō)話(huà)區(qū)間構(gòu)成聲音小段落,對(duì)每個(gè)聲音小段 落基于包含在其中的分析幀的所述情感狀態(tài)概率來(lái)計(jì)算情感狀態(tài)的情感度, 并基于該情感度,從輸入的所述聲音信號(hào)數(shù)據(jù)提取內(nèi)容的概要的步驟。
10. 如權(quán)利要求1至8的任一項(xiàng)所述的情感檢測(cè)方法,還包括 對(duì)每個(gè)分析幀,從所述聲音信號(hào)數(shù)據(jù)求出信號(hào)的周期性,并基于上述周期性,將一個(gè)以上的連續(xù)的每個(gè)分析幀構(gòu)成區(qū)間,并基于所述情感狀態(tài)概率, 對(duì)每個(gè)該區(qū)間計(jì)算情感狀態(tài)的情感度,并基于該情感度,從輸入的所述聲音 信號(hào)數(shù)據(jù)提取內(nèi)容的概要的步驟。
11. 一種情感檢測(cè)裝置,基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量,進(jìn) 行情感檢測(cè)處理,所述情感檢測(cè)裝置包括聲音特征量提取部件,從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本頻率、 基本頻率的時(shí)間變動(dòng)特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō)話(huà)速度的時(shí)間變動(dòng)特性中的 一個(gè)以上作為聲音特征量矢量,并將該聲音特征量矢量 存儲(chǔ)到存儲(chǔ)單元;聲音特征量出現(xiàn)概率計(jì)算處理步驟,從存儲(chǔ)單元讀取各個(gè)分析幀的所述 聲音特征量矢量,使用基于預(yù)先輸入的學(xué)習(xí)用聲音數(shù)據(jù)所構(gòu)成的第1統(tǒng)計(jì)模 型,將一個(gè)以上的情感狀態(tài)序列作為條件,計(jì)算成為所述聲音特征量矢量的 聲音特征量出現(xiàn)概率;情感狀態(tài)變化概率計(jì)算處理部件,使用第2統(tǒng)計(jì)模型,計(jì)算一個(gè)以上的 情感狀態(tài)序列向時(shí)間方向的變化概率作為情感狀態(tài)變化概率;情感狀態(tài)概率計(jì)算處理部件,基于所述聲音特征量出現(xiàn)概率和所述情感 狀態(tài)變化概率,計(jì)算情感狀態(tài)概率;以及信息輸出部件,基于計(jì)算出的所述情感狀態(tài)概率,輸出.有關(guān)包含一個(gè)以 上分析幀的各個(gè)區(qū)間的情感狀態(tài)的信息。
12. —種情感檢測(cè)裝置,基于所輸入的聲音信號(hào)數(shù)據(jù)的聲音特征量,進(jìn) 行情感檢測(cè)處理,所述情感檢測(cè)方法裝置聲音特征量提取處理部件,從所述聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取基本頻率、基本頻率的時(shí)間變動(dòng)特性序列、功率、功率的時(shí)間變動(dòng)特性序列、說(shuō) 話(huà)速度的時(shí)間變動(dòng)特性中的一個(gè)以上作為聲音特征量矢量,并將該聲音特征量矢量存儲(chǔ)到存儲(chǔ)單元;情感狀態(tài)概率處理部件,從存儲(chǔ)單元讀取各個(gè)分析幀的所述聲音特征量 矢量,使用基于預(yù)先輸入的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)所構(gòu)成的一個(gè)以上的統(tǒng)計(jì)模 型,計(jì)算情感狀態(tài)概率,所述情感狀態(tài)概率將對(duì)于一個(gè)以上的情感狀態(tài)序列 的所述聲音特征量矢量作為條件;情感狀態(tài)判定部件,基于所述情感狀態(tài)概率,判定包含所述分析幀的區(qū) 間的情感狀態(tài);以及信息輸出部件,輸出與判定出的所述情感狀態(tài)有關(guān)的信息。
13. 如權(quán)利要求12所述的情感檢測(cè)裝置,其中, 所述情感狀態(tài)概率處理部件包括聲音特征量出現(xiàn)概率計(jì)算處理部件,作為所述一個(gè)以上的統(tǒng)計(jì)模型之一 使用第l統(tǒng)計(jì)模型,將一個(gè)以上的情感狀態(tài)序列作為條件,計(jì)算成為所述聲 音特征量矢量的聲音特征量出現(xiàn)概率;情感狀態(tài)變化概率計(jì)算處理部件,作為所述一個(gè)以上的統(tǒng)計(jì)模型之一使情感狀態(tài)變化概率;以及基于所述聲音特征量出現(xiàn)概率和所述情感狀態(tài)變化概率,計(jì)算所述情感 狀態(tài)概率的部件。
14. 如權(quán)利要求11或13所述的情感檢測(cè)裝置,其中,所述聲音特征量出現(xiàn)概率計(jì)算處理部件是,在包含一個(gè)以上的分析幀的 區(qū)間中,基于所述第1統(tǒng)計(jì)模型計(jì)算所述聲音特征量出現(xiàn)概率的部件,所述 第1統(tǒng)計(jì)模型是將出現(xiàn)所述聲音特征量矢量的概率作為在提供了所述情感狀 態(tài)序列時(shí)的聲音特征量矢量的附條件出現(xiàn)概率而構(gòu)成。
15. 如權(quán)利要求11或13所述的情感檢測(cè)裝置,其中, 所述情感狀態(tài)變化概率計(jì)算處理部件是,在包含一個(gè)以上的分析幀的區(qū)間中,基于統(tǒng)計(jì)模型計(jì)算所述情感狀態(tài)變化概率的部件,所迷統(tǒng)計(jì)模型是將 出現(xiàn)所述情感狀態(tài)序列的概率作為在比該區(qū)間至少在一個(gè)分析幀以上之前區(qū) 間提供了情感狀態(tài)序列時(shí)的當(dāng)前分析幀中的情感狀態(tài)序列的附條件變化概率 而構(gòu)成。
16. 如權(quán)利要求12或13所述的情感^r測(cè)裝置,其中, 所述情感狀態(tài)判定部件包括按照所述情感狀態(tài)概率的降序選出所述情件:、、'、、''' 、日、'、、
17. 如權(quán)利要求12或13所述的情感^r測(cè)裝置,其中, 所述情感狀態(tài)判定部件包括計(jì)算作為一個(gè)所述情感狀態(tài)的概率和作為除此之外的情感狀態(tài)的概率的凸組合之差,并從該差最大者開(kāi)始按降序選出 一個(gè)以上的情感狀態(tài),將其選出的情感狀態(tài)判定為包含所述分析幀的區(qū)間的 情感狀態(tài)的部件。
18. 如權(quán)利要求11至17的任一項(xiàng)所述的情感檢測(cè)裝置,還包括 對(duì)每個(gè)分析幀輸入聲音特征量矢量和附加了情感狀態(tài)的標(biāo)記的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)的部件。
19. 如權(quán)利要求11至18的任一項(xiàng)所述的情感檢測(cè)裝置,還包括 對(duì)每個(gè)分析幀判定是否為說(shuō)話(huà)幀, 一個(gè)以上的連續(xù)的每個(gè)說(shuō)話(huà)幀構(gòu)成說(shuō)話(huà)區(qū)間,連續(xù)的一個(gè)以上的每個(gè)說(shuō)話(huà)區(qū)間構(gòu)成聲音小段落,對(duì)每個(gè)聲音小段 落計(jì)算包含在其中的分析幀的情感狀態(tài)的情感度,并基于該情感度,從輸入 的所述聲音信號(hào)數(shù)據(jù)提取內(nèi)容的概要的部件。
20. 如權(quán)利要求11至18的任一項(xiàng)所述的情感檢測(cè)裝置,還包括 對(duì)每個(gè)分析幀,從所述聲音信號(hào)數(shù)據(jù)求出信號(hào)的周期性,并基于上述周期性,將一個(gè)以上的連續(xù)的每個(gè)分析幀構(gòu)成區(qū)間,并基于所述情感狀態(tài)概率, 對(duì)每個(gè)該區(qū)間計(jì)算情感狀態(tài)的情感度,并基于該情感度,從輸入的所述聲音 信號(hào)數(shù)據(jù)提取內(nèi)容的概要的部件。
21. —種程序,能夠使計(jì)算機(jī)執(zhí)行權(quán)利要求1至IO的任一項(xiàng)所述的情感 才企測(cè)方法。
22. —種記錄介質(zhì),記錄了權(quán)利要求21所述的程序并可由計(jì)算機(jī)讀取。
全文摘要
從聲音信號(hào)數(shù)據(jù)對(duì)每個(gè)分析幀提取聲音特征量,并將該聲音特征量存儲(chǔ)到存儲(chǔ)單元(S120)。接著,從存儲(chǔ)單元讀取所述聲音特征量,使用基于預(yù)先輸入的學(xué)習(xí)用聲音信號(hào)數(shù)據(jù)所構(gòu)成的一個(gè)以上的統(tǒng)計(jì)模型,計(jì)算與所述情感狀態(tài)對(duì)應(yīng)的所述聲音特征量的情感狀態(tài)概率(S130、S140、S150)。然后,基于計(jì)算的所述情感狀態(tài)概率,判定包含所述分析幀的區(qū)間的情感狀態(tài)(S160)。
文檔編號(hào)G10L17/00GK101506874SQ20078003181
公開(kāi)日2009年8月12日 申請(qǐng)日期2007年9月13日 優(yōu)先權(quán)日2006年9月13日
發(fā)明者中嶌信彌, 佐藤隆, 入江豪, 日高浩太, 谷口行信 申請(qǐng)人:日本電信電話(huà)株式會(huì)社