音頻和視頻同步感知模型的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的各實(shí)施例涉及音頻和視頻處理,并且更特別地涉及音頻和視頻同步感知模型。
【背景技術(shù)】
[0002]用戶越來越多地尋找集成音頻和視頻的方式。例如,用戶可以向視頻片段指派音頻,諸如音樂。為了集成音頻和視頻,傳統(tǒng)的技術(shù)可以分析音頻的聲音特性,而不考慮聽到視頻(特別是在與視頻片段結(jié)合時(shí))是否對(duì)收聽者產(chǎn)生情感影響。另外,使用傳統(tǒng)的技術(shù)來使音頻和視頻同步可能是耗時(shí)并且計(jì)算密集的,并且可能依賴于來自用戶的輸入。
【發(fā)明內(nèi)容】
[0003]本
【發(fā)明內(nèi)容】
以簡(jiǎn)化形式介紹了下面在【具體實(shí)施方式】中進(jìn)一步描述的概念的選擇。這樣,本
【發(fā)明內(nèi)容】
不是旨在于標(biāo)識(shí)所要求保護(hù)的主題內(nèi)容的基本特征,也不是旨在用作在確定所要求保護(hù)的主題內(nèi)容的范圍時(shí)的輔助。
[0004]描述了一種基于個(gè)人如何感知音頻和/或視頻(例如,大腦如何處理聲音和/或視覺內(nèi)容)的音頻和視頻同步感知模型。在一個(gè)實(shí)現(xiàn)方式中,標(biāo)識(shí)指示一部分音頻數(shù)據(jù)對(duì)收聽者的情感影響(例如,懷舊效果或者戲劇效果)的該部分音頻數(shù)據(jù)的感知特性??梢曰谙鄳?yīng)特性對(duì)在音頻數(shù)據(jù)的不同部分之間的相對(duì)情感影響進(jìn)行評(píng)估。與不同音頻部分相關(guān)聯(lián)的相對(duì)情感影響可被用來確定用來有助于音頻數(shù)據(jù)與視頻數(shù)據(jù)的自動(dòng)同步的轉(zhuǎn)變點(diǎn)以創(chuàng)造實(shí)現(xiàn)對(duì)收聽者/觀看者的特定總體情感效果的產(chǎn)物(product1n)。
【附圖說明】
[0005]【具體實(shí)施方式】是參考附圖來描述的。在附圖中,標(biāo)號(hào)的最左邊的數(shù)字標(biāo)識(shí)該標(biāo)號(hào)首次出現(xiàn)于的附圖。在說明書和附圖中的不同實(shí)例中使用相同標(biāo)號(hào)可指示類似或者相同的項(xiàng)目。在附圖中表示的實(shí)體可以指示一個(gè)或多個(gè)實(shí)體并且因而可以在討論中可互換地引用單數(shù)或者復(fù)數(shù)形式的實(shí)體。
[0006]圖1是可操作來使用在此描述的技術(shù)的示例實(shí)現(xiàn)方式中的環(huán)境的例示。
[0007]圖2是示例實(shí)現(xiàn)方式中的情境的表示,其中感知模型執(zhí)行音頻處理以自動(dòng)地使音頻數(shù)據(jù)和視頻數(shù)據(jù)同步。
[0008]圖3示出了使用在此描述的技術(shù)的示例感知模型。
[0009]圖4是描繪了過程的流程圖,在該過程中感知模型確定音頻數(shù)據(jù)中在此處與用于產(chǎn)物的視頻數(shù)據(jù)中的變化同步的轉(zhuǎn)變點(diǎn)。
[0010]圖5是描繪了過程的流程圖,在該過程中感知模型選擇音頻數(shù)據(jù)中的轉(zhuǎn)變點(diǎn),該轉(zhuǎn)變點(diǎn)當(dāng)被與視頻數(shù)據(jù)中的變化同步時(shí)產(chǎn)生收聽者中的指明的情感響應(yīng)。
[0011]圖6是描繪了過程的流程圖,在該過程中感知模型基于指示與音頻信號(hào)的不同部分對(duì)應(yīng)的感知特性的值對(duì)音頻信號(hào)的不同部分排名。
[0012]圖7圖示了包括示例設(shè)備的示例系統(tǒng),其代表是可以實(shí)施在此描述的各種技術(shù)的一個(gè)或多個(gè)計(jì)算系統(tǒng)和/或設(shè)備。
【具體實(shí)施方式】
[0013]臟
[0014]分析音樂以得出音樂的基本屬性的傳統(tǒng)模型未能考慮收聽者如何感知音樂。因此,傳統(tǒng)模型不是很好地適合于尋找音頻中實(shí)現(xiàn)特定情感響應(yīng)的點(diǎn)。
[0015]描述了一種基于個(gè)人如何感知音頻和/或視頻(例如,大腦如何處理聲音和/或視覺內(nèi)容)的音頻和視頻同步感知模型。在一個(gè)實(shí)現(xiàn)方式中,標(biāo)識(shí)指示一部分音頻數(shù)據(jù)對(duì)收聽者的情感影響(例如,懷舊效果)的該部分音頻數(shù)據(jù)的感知特性。這些感知特性例如可以反映在聽到該一部分音頻數(shù)據(jù)時(shí)的人類敏感性的測(cè)量??梢曰谙鄳?yīng)特性對(duì)在音頻數(shù)據(jù)的不同部分之間的相對(duì)情感影響進(jìn)行評(píng)估。與不同音頻部分相關(guān)聯(lián)的相對(duì)情感影響可被用來確定用來有助于音頻數(shù)據(jù)與視頻數(shù)據(jù)的自動(dòng)同步的轉(zhuǎn)變點(diǎn)以創(chuàng)造實(shí)現(xiàn)對(duì)收聽者/觀看者的特定總體情感效果的產(chǎn)物。
[0016]可以按照各種方式確定一部分音頻數(shù)據(jù)的感知特性。例如,可以通過分析音頻數(shù)據(jù)、生成圖形地表示音頻數(shù)據(jù)或者感知特性的頻譜圖和/或修改頻譜圖來標(biāo)識(shí)感知特性。響應(yīng)于標(biāo)識(shí)感知特性,在一個(gè)實(shí)現(xiàn)方式中,指示感知特性的值被指派給音頻數(shù)據(jù)的不同部分。
[0017]可以檢測(cè)到音頻數(shù)據(jù)中與一部分音頻數(shù)據(jù)的指示情感影響的感知特性對(duì)應(yīng)的轉(zhuǎn)變點(diǎn)。例如,可以通過對(duì)被指派給音頻數(shù)據(jù)的不同部分的指示感知特性的值進(jìn)行過濾、正規(guī)化、應(yīng)用閾值、比較和/或結(jié)合來檢測(cè)轉(zhuǎn)變點(diǎn)。轉(zhuǎn)變點(diǎn)可被用來以各種方式使音頻與視頻數(shù)據(jù)同步。
[0018]例如,視頻數(shù)據(jù)的呈現(xiàn)中的變化可被與音頻中的轉(zhuǎn)變點(diǎn)同步。視頻數(shù)據(jù)可以表示圖像、圖像幻燈片放映、視頻剪輯、視頻片段和/或?qū)崨r視頻。例如,在幻燈片放映中,在不同圖像之間的變化可被與檢測(cè)的轉(zhuǎn)變點(diǎn)同步。在視頻片段示例中,在視頻幀或者場(chǎng)景之間的變化被與音頻中的轉(zhuǎn)變點(diǎn)同步。在一個(gè)實(shí)現(xiàn)方式中,可以基于匹配在視頻數(shù)據(jù)的變化之間的步幅(pace)與在音頻數(shù)據(jù)中的轉(zhuǎn)變點(diǎn)之間的步幅來使視頻數(shù)據(jù)中的變化與檢測(cè)的轉(zhuǎn)變點(diǎn)同步。通過使視頻數(shù)據(jù)的呈現(xiàn)中的變化與音頻中的轉(zhuǎn)變點(diǎn)同步,音頻的戲劇、感情、興奮和/或情緒被與視頻數(shù)據(jù)的呈現(xiàn)中的潛在對(duì)應(yīng)的戲劇、感情、興奮和/或情緒匹配。
[0019]在以下討論中,首先描述可使用在此描述的技術(shù)的示例環(huán)境。然后描述可在該示例環(huán)境以及其他環(huán)境中被執(zhí)行的示例過程。因此,示例過程的執(zhí)行不限于示例環(huán)境并且示例環(huán)境不限于示例過程的執(zhí)行。
[0020]示例環(huán)培
[0021]圖1是可操作來使用在此描述的技術(shù)的示例實(shí)現(xiàn)方式中的環(huán)境100的例示。所圖示的環(huán)境100包括可以按照各種方式被配置的計(jì)算設(shè)備102和感知模型104。
[0022]計(jì)算設(shè)備102例如可被配置為臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、移動(dòng)設(shè)備(例如,假定諸如平板計(jì)算機(jī)或者移動(dòng)電話之類的手持配置),等等。因此,計(jì)算設(shè)備102的范圍可以是從具有大量存儲(chǔ)器和處理器資源的資源充足設(shè)備(例如,個(gè)人計(jì)算機(jī)、游戲機(jī))到具有有限存儲(chǔ)器和/或處理資源的資源不足設(shè)備(例如,移動(dòng)設(shè)備)。此外,盡管示出了單個(gè)計(jì)算設(shè)備102,但是計(jì)算設(shè)備102可以表示多個(gè)不同設(shè)備,諸如如關(guān)于圖7被進(jìn)一步描述的被企業(yè)用來“在云上(over the cloud) ”執(zhí)行操作的多個(gè)服務(wù)器。
[0023]感知模型104被圖示為包括信號(hào)處理模塊106和同步模塊108。在一個(gè)實(shí)現(xiàn)方式中,感知模型104可操作來使用用于標(biāo)識(shí)指示對(duì)一部分音頻數(shù)據(jù)的收聽者的情感影響(例如,引起特定感覺或情緒的能力)的該部分音頻數(shù)據(jù)的感知特性的技術(shù)。附加地或者備選地,感知模型104可操作來使用用于基于所確定的用于一部分音頻數(shù)據(jù)的感知特性使該部分音頻數(shù)據(jù)與視頻數(shù)據(jù)中的變化同步的技術(shù)。例如,感知模型104可被配置為確定音頻數(shù)據(jù)中基于感知特性的轉(zhuǎn)變點(diǎn)并且自動(dòng)地將產(chǎn)物配置為使視頻數(shù)據(jù)中的變化與這些轉(zhuǎn)變點(diǎn)同步。通過示例而非限制,當(dāng)觀看者觀看使用在此描述的技術(shù)而使轉(zhuǎn)變點(diǎn)與視頻數(shù)據(jù)同步的視頻片段時(shí)可引起快樂的感覺。
[0024]在至少一些實(shí)現(xiàn)方式中,感知模型104可被根據(jù)學(xué)習(xí)模型生成或者備選地通過學(xué)習(xí)模型而被更新。例如,感知模型104可以接收描述人腦如何處理聲音的信息或者可以接收描述與特定聲音相關(guān)聯(lián)的人類敏感性或者人類感情的信息。使用接收的信息,感知模型104可被配置為尋找音頻數(shù)據(jù)中產(chǎn)生期望感情的一部分。例如,感知模型104可以尋找音頻數(shù)據(jù)中產(chǎn)生正向或者負(fù)向感情的一個(gè)或多個(gè)部分。在一個(gè)具體示例中,響應(yīng)于接收到要尋找特定感情的輸入,感知模型104標(biāo)識(shí)音頻中產(chǎn)生特定感情的至少一部分(例如,轉(zhuǎn)變點(diǎn))。
[0025]在一個(gè)或多個(gè)實(shí)現(xiàn)方式中,感知模型104生成接收的音頻數(shù)據(jù)的表示以使得由感知模型104執(zhí)行的技術(shù)被應(yīng)用于音頻數(shù)據(jù)的表示。
[0026]信號(hào)處理模塊106可被配置為對(duì)與對(duì)應(yīng)的音頻信號(hào)相關(guān)聯(lián)的音頻數(shù)據(jù)進(jìn)行處理以生成用于音頻數(shù)據(jù)的不同部分(例如,音頻數(shù)據(jù)內(nèi)的時(shí)間點(diǎn)或者時(shí)間段)的感知特性。感知特性表示用于音頻數(shù)據(jù)的每個(gè)不同部分的感知重要性的水平,并且在一個(gè)具體示例中可以包括影響值、節(jié)奏脈沖值,節(jié)奏值、旋律值或其組合。影響值例如可以表示個(gè)人在音樂中傾聽什么(例如,內(nèi)耳如何處理聲音和/或大腦對(duì)單獨(dú)音頻出現(xiàn)的注意)。例如,影響值可以指示響亮和柔和音量的快速變化、在響亮部分之前或之后的安靜部分,或其組合。在一個(gè)具體示例中,影響值表示對(duì)人類收聽者的感情強(qiáng)度的測(cè)量。
[0027]節(jié)奏脈沖值例如可以表示在音頻數(shù)據(jù)的各部分的頻譜上相對(duì)均勻散布的聲音。例如,節(jié)奏脈沖值可以指示相對(duì)于另一部分音頻數(shù)據(jù)在一部分音頻數(shù)據(jù)的頻譜上相對(duì)均勻散布的響度。
[0028]例如,節(jié)奏值可以指示貢獻(xiàn)于由收聽者所感知的節(jié)奏的用于該部分音頻數(shù)據(jù)的節(jié)奏或者和聲(harmony)。同時(shí),旋律值例如可以表示與該部分音頻數(shù)據(jù)對(duì)應(yīng)的旋律(例如,其上有泛音(overtone)的主導(dǎo)頻率)或者和聲特征隨著時(shí)間的變化程度。
[0029]信號(hào)處理模塊106可被配置為使用各種不同操作來處理音頻數(shù)據(jù)以生成感知特性。這些操作的示例可以包括將音頻信號(hào)轉(zhuǎn)換為頻譜圖、將該頻譜圖映射到感知頻率空間中、將該頻譜圖的動(dòng)態(tài)范圍正規(guī)化和/或處理從正規(guī)