基于虛擬現(xiàn)實(shí)vr場景的多用戶語音交互方法以及裝置的制造方法

文檔序號：10657693閱讀：277來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于虛擬現(xiàn)實(shí)vr場景的多用戶語音交互方法以及裝置的制造方法
【專利摘要】本發(fā)明公開了一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法以及裝置。其中方法包括：在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的；對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音；獲取VR場景的VR音源；將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，并控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。該方法通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)了VR體驗(yàn)下多用戶之間的語音交流。
【專利說明】
基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法以及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域，尤其涉及一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法以及裝置。
【背景技術(shù)】
[0002]隨著通信技術(shù)以及計(jì)算機(jī)技術(shù)的快速發(fā)展，VR(VirtualReality，虛擬現(xiàn)實(shí))技術(shù)逐漸火爆。虛擬現(xiàn)實(shí)VR技術(shù)是一種可以創(chuàng)建和體驗(yàn)虛擬世界的計(jì)算機(jī)仿真系統(tǒng)，利用計(jì)算機(jī)生成一種模擬環(huán)境，也是一種多源信息融合的交互式的三維動態(tài)視景和實(shí)體行為的系統(tǒng)仿真，能夠使用戶沉浸到該環(huán)境中。目前，該VR技術(shù)被廣泛應(yīng)用于影視、虛擬現(xiàn)實(shí)游戲、繪畫等場景下，最為便捷的實(shí)現(xiàn)方式是通過智能手機(jī)配合VR眼鏡，再配上頭戴式耳機(jī)，實(shí)現(xiàn)虛擬視聽效果。這種體驗(yàn)方式發(fā)揮成本優(yōu)勢，提高個人的完全沉浸，然而，目前更多地僅限于單人的VR體驗(yàn)，在多人VR游戲、或多人VR會議等場景下的用戶之間交互比較薄弱。因此，如何實(shí)現(xiàn)VR特定場景下多用戶之間的交互體驗(yàn)已經(jīng)成為亟待解決的問題。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0004]為此，本發(fā)明的第一個目的在于提出一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法。該方法通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)了 VR體驗(yàn)下多用戶之間的語音交流。
[0005]本發(fā)明的第二個目的在于提出一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置。
[0006]為達(dá)上述目的，本發(fā)明第一方面實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法，包括:在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，所述虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的;對所述聲音信號進(jìn)行降噪處理以獲得說話用戶的語音;獲取所述VR場景的VR音源;將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音，并控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。
[0007]根據(jù)本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法，在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，并對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音，之后，獲取VR場景的VR音源，然后，將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，并控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。即通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)VR體驗(yàn)下多用戶之間的語音交流，提升了用戶體驗(yàn)，并且，這種用戶間的交互方式不需額外的設(shè)備支持。
[0008]其中，在本發(fā)明的一個實(shí)施例中，所述移動終端的麥克風(fēng)為多個，在將所述說話用戶的語音與所述VR音源進(jìn)行合成以生成合成語音之前，所述方法還包括:通過所述移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定所述音源的位置信息；其中，根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。
[0009]在本發(fā)明的一個實(shí)施例中，所述根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音，包括:根據(jù)所述音源的位置信息調(diào)整所述當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制所述當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對所述合成語音進(jìn)行輸出。
[0010]在本發(fā)明的一個實(shí)施例中，所述方法還包括:預(yù)先存儲特定用戶的聲紋特征信息；獲取所述說話用戶的語音中的聲紋特征信息，并判斷所述說話用戶的聲紋特征信息是否與所述特定用戶的聲紋特征信息匹配;如果所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息匹配，則將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語
■~>V.曰O
[0011]在本發(fā)明的一個實(shí)施例中，當(dāng)所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息不匹配時，直接控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述VR音源。
[0012]為達(dá)上述目的，本發(fā)明第二方面實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置，包括:第一獲取模塊，用于在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，所述虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的；降噪處理模塊，用于對所述聲音信號進(jìn)行降噪處理以獲得說話用戶的語音;第二獲取模塊，用于獲取所述VR場景的VR音源;合成模塊，用于將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音;控制模塊，用于控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。
[0013]根據(jù)本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置，通過第一獲取模塊在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，降噪處理模塊對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音，第二獲取模塊獲取VR場景的VR音源，合成模塊將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，控制模塊控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。即通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)VR體驗(yàn)下多用戶之間的語音交流，并且，這種用戶間的交互方式不需額外的設(shè)備支持。
[0014]其中，在本發(fā)明的一個實(shí)施例中，所述移動終端的麥克風(fēng)為多個，所述裝置還包括:確定模塊，用于在所述合成模塊將所述說話用戶的語音與所述VR音源進(jìn)行合成以生成合成語音之前，通過所述移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定所述音源的位置信息；其中，所述控制模塊還用于根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。
[0015]在本發(fā)明的一個實(shí)施例中，所述控制模塊具體用于:根據(jù)所述音源的位置信息調(diào)整所述當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制所述當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對所述合成語音進(jìn)行輸出。
[0016]在本發(fā)明的一個實(shí)施例中，所述裝置還包括:預(yù)存儲模塊，用于預(yù)先存儲特定用戶的聲紋特征信息;第三獲取模塊，用于獲取所述說話用戶的語音中的聲紋特征信息;判斷模塊，用于判斷所述說話用戶的聲紋特征信息是否與所述特定用戶的聲紋特征信息匹配;其中，所述合成模塊還用于在所述判斷模塊判斷所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息匹配時，將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音。
[0017]在本發(fā)明的一個實(shí)施例中，所述控制模塊還用于在所述判斷模塊判斷所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息不匹配時，直接控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述VR音源。
[0018]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0019]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解，其中:
[0020]圖1是根據(jù)本發(fā)明一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法的流程圖；
[0021]圖2是根據(jù)本發(fā)明一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置的結(jié)構(gòu)框圖；
[0022]圖3是根據(jù)本發(fā)明另一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置的結(jié)構(gòu)框圖；
[0023]圖4是根據(jù)本發(fā)明又一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置的結(jié)構(gòu)框圖。
[0024]附圖標(biāo)記:
[0025]第一獲取模塊10、降噪處理模塊20、第二獲取模塊30、合成模塊40、控制模塊50、確定模塊60、預(yù)存儲模塊70、第三獲取模塊80和判斷模塊90。
【具體實(shí)施方式】
[0026]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。
[0027]下面參考附圖描述本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法以及裝置。
[0028]圖1是根據(jù)本發(fā)明一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法的流程圖。需要說明的是，本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法可應(yīng)用于基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置，該多用戶語音交互裝置可被配置于移動終端中。其中，該移動終端可以是手機(jī)、平板電腦、個人數(shù)字助理等具有各種操作系統(tǒng)的硬件設(shè)備，優(yōu)選地，該移動終％5可為智能手機(jī)。
[0029]如圖1所示，該基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法可以包括:
[0030]SlOl，在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的。
[0031]可以理解，本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法的應(yīng)用場景為:多個用戶處于虛擬現(xiàn)實(shí)VR場景下，該場景可不限于VR游戲場景、VR會議場景、VR影視場景、VR繪畫場景等。其中，該虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式可以是通過移動終端配合VR眼影以及頭戴式耳機(jī)，以實(shí)現(xiàn)虛擬視聽效果。例如，用戶將移動終端(優(yōu)選為智能手機(jī))放置VR眼鏡上，并戴上已放置移動終端的VR眼鏡和頭戴式耳機(jī)，此時用戶可通過VR眼鏡和頭戴式耳機(jī)進(jìn)入虛擬現(xiàn)實(shí)VR場景中。需要說明的是，在本發(fā)明的實(shí)施例中，該頭戴式耳機(jī)可以是三段式耳機(jī)。
[0032]在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，可開啟當(dāng)前用戶的移動終端的麥克風(fēng)，通過該當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音采集(或拾取)附近環(huán)境的聲音，獲得周圍環(huán)境的聲音信號。例如，如果周圍有用戶說話，則可通過當(dāng)前用戶移動終端的麥克風(fēng)將周圍說話用戶的聲音進(jìn)行拾取。
[0033]S102，對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音。
[0034]可以理解，周圍環(huán)境可能會存在環(huán)境噪音，因此，為了保證人聲清晰度，在獲得周圍環(huán)境的聲音信號之后，還可通過降噪算法對該聲音信號進(jìn)行降噪處理，以濾除該聲音信號中的環(huán)境噪聲，最終得到說話用戶的語音。其中，上述降噪算法可理解為音頻降噪算法，如采樣除燥法、噪聲門等，其中，采樣除燥法可理解為對環(huán)境噪音的波形樣本進(jìn)行取樣，然后對采集到的周圍環(huán)境的聲音信號的波形與采樣噪音樣本進(jìn)行分析，自動去除聲音信號中的噪音;上述噪聲門則是設(shè)定一個電平的門限值，低于這個門限的信號電平全部過濾掉，高于門限值的信號電平全部通過。
[0035]S103，獲取VR場景的VR音源。
[0036]例如，假設(shè)本發(fā)明實(shí)施例的VR場景是通過移動終端配合VR眼鏡和頭戴式耳機(jī)實(shí)現(xiàn)的，則VR場景中的VR音源可以是由移動終端發(fā)出的，如，用戶通過將移動終端放置VR眼鏡中，并佩戴VR眼鏡和頭戴式設(shè)備，當(dāng)用戶玩耍移動終端中的游戲應(yīng)用時，可使得用戶處于VR游戲場景中，此時移動終端的游戲應(yīng)用中播出的音頻即為VR音源。
[0037]S104，將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，并控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。
[0038]具體地，可將獲取到的說話用戶的語音和VR音源同步合成以生成合成語音，并可控制當(dāng)前用戶的頭戴式耳機(jī)將該合成語音進(jìn)行輸出，使得當(dāng)前用戶通過頭戴式耳機(jī)在聽到VR場景中的VR音源的同時，還能夠聽到周圍環(huán)境其他用戶的說話聲，實(shí)現(xiàn)了在VR場景下多個用戶之間的交互體驗(yàn)。例如，當(dāng)用戶處于VR游戲場景中，此時移動終端的游戲應(yīng)用中播出的游戲音頻即為VR音頻，在獲得VR游戲場景的VR音頻以及說話用戶的語音之后，可將說話用戶的語音與VR音頻進(jìn)行同步合成，使得用戶在VR游戲場景中既能夠聽到游戲音頻的同時，還能夠聽到其他說話用戶的語音。
[0039]其中，在本發(fā)明的一個實(shí)施例中，移動終端的麥克風(fēng)可為多個。在本發(fā)明的實(shí)施例中，在將說話用戶的語音與VR音源進(jìn)行合成以生成合成語音之前，該多用戶語音交互方法還可包括:通過移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定音源的位置信息。其中，在本發(fā)明的實(shí)施例中，根據(jù)音源的位置信息控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。
[0040]在本發(fā)明的一個實(shí)施例中，根據(jù)音源的位置信息控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音的具體實(shí)現(xiàn)過程可如下:根據(jù)音源的位置信息調(diào)整當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對合成語音進(jìn)行輸出。
[0041]具體地，在將說話用戶的語音與VR音源進(jìn)行合成以生成合成語音之前，還可通過當(dāng)前用戶移動終端的多個麥克風(fēng)同時對同一音源進(jìn)行收音，根據(jù)每個麥克風(fēng)拾取的信號強(qiáng)度和延時，可辨識出該音源的位置，并將說話用戶的語音合入到VR場景時，可調(diào)整頭戴式耳機(jī)左右聲道的聲音信號大小以還原該音源的位置，使得VR場景下多個用戶之間的語音交互更加真實(shí)。
[0042]為了能夠?qū)崿F(xiàn)VR體驗(yàn)下當(dāng)前用戶與特定用戶之間的交流，進(jìn)一步地，在本發(fā)明的一個實(shí)施例中，該多用戶語音交互方法還可包括:預(yù)先存儲特定用戶的聲紋特征信息;獲取說話用戶的語音中的聲紋特征信息，并判斷說話用戶的聲紋特征信息是否與特定用戶的聲紋特征信息匹配;如果說話用戶的聲紋特征信息與特定用戶的聲紋特征信息匹配，則將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音。需要說明的是，在本發(fā)明的實(shí)施例中，當(dāng)說話用戶的聲紋特征信息與特定用戶的聲紋特征信息不匹配時，直接控制當(dāng)前用戶的頭戴式耳機(jī)輸出VR音源。
[0043]也就是說，可預(yù)先獲取特定用戶的語音，并從該語音中提取該特定用戶的聲紋特征信息，當(dāng)多個用戶處于VR場景下的過程中，在獲取到說話用戶的語音時，可判斷該說話用戶是否是特定用戶，即可通過獲取說話用戶的語音中的聲紋特征信息，并判斷說話用戶的聲紋特征信息是否與特定用戶的聲紋特征信息匹配，如果匹配，則可判定該說話用戶就是特定用戶，此時可將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，并將該合成語音提供給當(dāng)前用戶;如果聲紋特征不匹配，則可判定該說話用戶不是特定用戶，此時不將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，而是直接控制當(dāng)前用戶的頭戴式耳機(jī)輸出VR音源，即不將該說話用戶的語音提供給當(dāng)前用戶。
[0044]根據(jù)本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法，在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，并對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音，之后，獲取VR場景的VR音源，然后，將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，并控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。即通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)VR體驗(yàn)下多用戶之間的語音交流，并且，這種用戶間的交互方式不需額外的設(shè)備支持。
[0045]為了實(shí)現(xiàn)上述實(shí)施例，本發(fā)明還提出了一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置。
[0046]圖2是根據(jù)本發(fā)明一個實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置的結(jié)構(gòu)框圖。需要說明的是，本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置可被配置于移動終端中。其中，該移動終端可以是手機(jī)、平板電腦、個人數(shù)字助理等具有各種操作系統(tǒng)的硬件設(shè)備，優(yōu)選地，該移動終端可為智能手機(jī)。
[0047]如圖2所示，該基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置可以包括:第一獲取模塊10、降噪處理模塊20、第二獲取模塊30、合成模塊40和控制模塊50。
[0048]第一獲取模塊10可用于在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的。
[0049]可以理解，多個用戶可處于虛擬現(xiàn)實(shí)VR場景下，該場景可不限于VR游戲場景、VR會議場景、VR影視場景、VR繪畫場景等。其中，該虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式可以是通過移動終端配合VR眼影以及頭戴式耳機(jī)，以實(shí)現(xiàn)虛擬視聽效果。例如，用戶將移動終端(優(yōu)選為智能手機(jī))放置VR眼鏡上，并戴上已放置移動終端的VR眼鏡和頭戴式耳機(jī)，此時用戶可通過VR眼鏡和頭戴式耳機(jī)進(jìn)入虛擬現(xiàn)實(shí)VR場景中。需要說明的是，在本發(fā)明的實(shí)施例中，該頭戴式耳機(jī)可以是三段式耳機(jī)。
[0050]第一獲取模塊10在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，可開啟當(dāng)前用戶的移動終端的麥克風(fēng)，通過該當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音采集(或拾取)附近環(huán)境的聲音，獲得周圍環(huán)境的聲音信號。例如，如果周圍有用戶說話，則可通過當(dāng)前用戶移動終端的麥克風(fēng)將周圍說話用戶的聲音進(jìn)行拾取。
[0051]降噪處理模塊20可用于對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音。可以理解，周圍環(huán)境可能會存在環(huán)境噪音，因此，為了保證人聲清晰度，在第一獲取模塊10獲得周圍環(huán)境的聲音信號之后，降噪處理模塊20還可通過降噪算法對該聲音信號進(jìn)行降噪處理，以濾除該聲音信號中的環(huán)境噪聲，最終得到說話用戶的語音。其中，上述降噪算法可理解為音頻降噪算法，如采樣除燥法、噪聲門等，其中，采樣除燥法可理解為對環(huán)境噪音的波形樣本進(jìn)行取樣，然后對采集到的周圍環(huán)境的聲音信號的波形與采樣噪音樣本進(jìn)行分析，自動去除聲音信號中的噪音;上述噪聲門則是設(shè)定一個電平的門限值，低于這個門限的信號電平全部過濾掉，高于門限值的信號電平全部通過。
[0052]第二獲取模塊30可用于獲取VR場景的VR音源。例如，假設(shè)本發(fā)明實(shí)施例的VR場景是通過移動終端配合VR眼鏡和頭戴式耳機(jī)實(shí)現(xiàn)的，則VR場景中的VR音源可以是由移動終端發(fā)出的，如，用戶通過將移動終端放置VR眼鏡中，并佩戴VR眼鏡和頭戴式設(shè)備，當(dāng)用戶玩耍移動終端中的游戲應(yīng)用時，可使得用戶處于VR游戲場景中，此時移動終端的游戲應(yīng)用中播出的音頻即為VR音源。由此，第二獲取模塊30可從移動終端的游戲應(yīng)用中獲取該VR音源。
[0053]合成模塊40可用于將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音?？刂颇K50可用于控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。
[0054]更具體地，合成模塊40可將獲取到的說話用戶的語音和VR音源同步合成以生成合成語音，控制模塊50可控制當(dāng)前用戶的頭戴式耳機(jī)將該合成語音進(jìn)行輸出，使得當(dāng)前用戶通過頭戴式耳機(jī)在聽到VR場景中的VR音源的同時，還能夠聽到周圍環(huán)境其他用戶的說話聲，實(shí)現(xiàn)了在VR場景下多個用戶之間的交互體驗(yàn)。
[0055]其中，在本發(fā)明的一個實(shí)施例中，移動終端的麥克風(fēng)可為多個。在本發(fā)明的實(shí)施例中，如圖3所示，該多用戶語音交互裝置還可包括確定模塊60，確定模塊60可用于在合成模塊40將說話用戶的語音與VR音源進(jìn)行合成以生成合成語音之前，通過移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定音源的位置信息。
[0056]其中，在本實(shí)施例中，控制模塊50還用于根據(jù)音源的位置信息控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。具體而言，在本發(fā)明的一個實(shí)施例中，控制模塊50根據(jù)音源的位置信息控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音的具體實(shí)現(xiàn)過程可如下:根據(jù)音源的位置信息調(diào)整當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對合成語音進(jìn)行輸出。
[0057]更具體地，在合成模塊40將說話用戶的語音與VR音源進(jìn)行合成以生成合成語音之前，確定模塊60還可通過當(dāng)前用戶移動終端的多個麥克風(fēng)同時對同一音源進(jìn)行收音，根據(jù)每個麥克風(fēng)拾取的信號強(qiáng)度和延時，可辨識出該音源的位置，并合成模塊40將說話用戶的語音合入到VR場景時，控制模塊50可調(diào)整頭戴式耳機(jī)左右聲道的聲音信號大小以還原該音源的位置，使得VR場景下多個用戶之間的語音交互更加真實(shí)。
[0058]為了能夠?qū)崿F(xiàn)VR體驗(yàn)下當(dāng)前用戶與特定用戶之間的交流，進(jìn)一步地，在本發(fā)明的一個實(shí)施例中，如圖4所示，該多用戶語音交互裝置還可包括:預(yù)存儲模塊70、第三獲取模塊80和判斷模塊90。
[0059]其中，預(yù)存儲模塊70用于預(yù)先存儲特定用戶的聲紋特征信息。第三獲取模塊80用于獲取說話用戶的語音中的聲紋特征信息。判斷模塊90用于判斷說話用戶的聲紋特征信息是否與特定用戶的聲紋特征信息匹配。其中，在本發(fā)明的實(shí)施例中，合成模塊40還可用于在判斷模塊90判斷說話用戶的聲紋特征信息與特定用戶的聲紋特征信息匹配時，將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音。
[0060]在本發(fā)明的實(shí)施例中，控制模塊50還可用于在判斷模塊90判斷說話用戶的聲紋特征信息與特定用戶的聲紋特征信息不匹配時，直接控制當(dāng)前用戶的頭戴式耳機(jī)輸出VR音源。
[0061]也就是說，預(yù)存儲模塊70可預(yù)先獲取特定用戶的語音，并從該語音中提取該特定用戶的聲紋特征信息。當(dāng)多個用戶處于VR場景下的過程中，在獲取到說話用戶的語音時，可判斷該說話用戶是否是特定用戶，即可通過第三獲取模塊80獲取說話用戶的語音中的聲紋特征信息，判斷模塊90判斷說話用戶的聲紋特征信息是否與特定用戶的聲紋特征信息匹配，如果匹配，則可判定該說話用戶就是特定用戶，此時合成模塊40可將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，控制模塊50將該合成語音提供給當(dāng)前用戶；如果聲紋特征不匹配，則可判定該說話用戶不是特定用戶，此時不將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，而是控制模塊50直接控制當(dāng)前用戶的頭戴式耳機(jī)輸出VR音源，即不將該說話用戶的語音提供給當(dāng)前用戶。
[0062]根據(jù)本發(fā)明實(shí)施例的基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置，通過第一獲取模塊在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，降噪處理模塊對聲音信號進(jìn)行降噪處理以獲得說話用戶的語音，第二獲取模塊獲取VR場景的VR音源，合成模塊將說話用戶的語音與VR音源進(jìn)行同步合成以生成合成語音，控制模塊控制當(dāng)前用戶的頭戴式耳機(jī)輸出合成語音。即通過當(dāng)前用戶移動終端的麥克風(fēng)進(jìn)行語音，并配合VR來實(shí)現(xiàn)多人場景下的交互需求，實(shí)現(xiàn)VR體驗(yàn)下多用戶之間的語音交流，并且，這種用戶間的交互方式不需額外的設(shè)備支持。
[0063]在本發(fā)明的描述中，需要理解的是，術(shù)語“第一”、“第二”僅用于描述目的，而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此，限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中，“多個”的含義是至少兩個，例如兩個，三個等，除非另有明確具體的限定。
[0064]在本發(fā)明中，除非另有明確的規(guī)定和限定，術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解，例如，可以是固定連接，也可以是可拆卸連接，或成一體;可以是機(jī)械連接，也可以是電連接;可以是直接相連，也可以通過中間媒介間接相連，可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系，除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言，可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
[0065]在本說明書的描述中，參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中，對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個或多個實(shí)施例或示例中以合適的方式結(jié)合。此外，在不相互矛盾的情況下，本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
[0066]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為，表示包括一個或更多個用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分，并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn)，其中可以不按所示出或討論的順序，包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序，來執(zhí)行功能，這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0067]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟，例如，可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表，可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中，以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用，或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言，〃計(jì)算機(jī)可讀介質(zhì)〃可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置)，便攜式計(jì)算機(jī)盤盒(磁裝置)，隨機(jī)存取存儲器(RAM)，只讀存儲器(ROM)，可擦除可編輯只讀存儲器(EPR0M或閃速存儲器)，光纖裝置，以及便攜式光盤只讀存儲器(CDR0M)。另外，計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì)，因?yàn)榭梢岳缤ㄟ^對紙或其他介質(zhì)進(jìn)行光學(xué)掃描，接著進(jìn)行編輯、解譯或必要時以其他合適方式進(jìn)行處理來以電子方式獲得所述程序，然后將其存儲在計(jì)算機(jī)存儲器中。
[0068]應(yīng)當(dāng)理解，本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中，多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如，如果用硬件來實(shí)現(xiàn)，和在另一實(shí)施方式中一樣，可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對數(shù)據(jù)信號實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用集成電路，可編程門陣列(PGA)，現(xiàn)場可編程門陣列(FPGA)等。
[0069]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成，所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中，該程序在執(zhí)行時，包括方法實(shí)施例的步驟之一或其組合。
[0070]此外，在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理模塊中，也可以是各個單元單獨(dú)物理存在，也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時，也可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中。
[0071] 上述提到的存儲介質(zhì)可以是只讀存儲器，磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項(xiàng)】
1.一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互方法，其特征在于，包括以下步驟: 在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，所述虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的；對所述聲音信號進(jìn)行降噪處理以獲得說話用戶的語音；獲取所述VR場景的VR音源；將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音，并控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。2.如權(quán)利要求1所述的方法，其特征在于，其中，所述移動終端的麥克風(fēng)為多個，在將所述說話用戶的語音與所述VR音源進(jìn)行合成以生成合成語音之前，還包括: 通過所述移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定所述音源的位置信息；其中，根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。3.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音，包括: 根據(jù)所述音源的位置信息調(diào)整所述當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制所述當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對所述合成語音進(jìn)行輸出。4.如權(quán)利要求1所述的方法，其特征在于，還包括: 預(yù)先存儲特定用戶的聲紋特征信息；獲取所述說話用戶的語音中的聲紋特征信息，并判斷所述說話用戶的聲紋特征信息是否與所述特定用戶的聲紋特征信息匹配；如果所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息匹配，則將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音。5.如權(quán)利要求4所述的方法，其特征在于，當(dāng)所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息不匹配時，直接控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述VR音源。6.一種基于虛擬現(xiàn)實(shí)VR場景的多用戶語音交互裝置，其特征在于，包括: 第一獲取模塊，用于在多個用戶處于虛擬現(xiàn)實(shí)VR場景的過程中，通過當(dāng)前用戶的移動終端的麥克風(fēng)進(jìn)行語音采集以獲取周圍環(huán)境的聲音信號，其中，所述虛擬現(xiàn)實(shí)VR場景的實(shí)現(xiàn)方式是通過當(dāng)前用戶的移動終端配合VR眼鏡以及頭戴式耳機(jī)實(shí)現(xiàn)的；降噪處理模塊，用于對所述聲音信號進(jìn)行降噪處理以獲得說話用戶的語音；第二獲取模塊，用于獲取所述VR場景的VR音源；合成模塊，用于將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音；控制模塊，用于控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。7.如權(quán)利要求6所述的裝置，其特征在于，其中，所述移動終端的麥克風(fēng)為多個，所述裝置還包括: 確定模塊，用于在所述合成模塊將所述說話用戶的語音與所述VR音源進(jìn)行合成以生成合成語音之前，通過所述移動終端的多個麥克風(fēng)對同一音源進(jìn)行語音采集，并根據(jù)每個麥克風(fēng)采集到的信號強(qiáng)度信息和延時信息確定所述音源的位置信息；其中，所述控制模塊還用于根據(jù)所述音源的位置信息控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述合成語音。8.如權(quán)利要求7所述的裝置，其特征在于，所述控制模塊具體用于: 根據(jù)所述音源的位置信息調(diào)整所述當(dāng)前用戶的頭戴式耳機(jī)左右聲道的聲音信號大小，并控制所述當(dāng)前用戶的頭戴式耳機(jī)依據(jù)調(diào)整后的聲音信號大小對所述合成語音進(jìn)行輸出。9.如權(quán)利要求6所述的裝置，其特征在于，還包括: 預(yù)存儲模塊，用于預(yù)先存儲特定用戶的聲紋特征信息；第三獲取模塊，用于獲取所述說話用戶的語音中的聲紋特征信息；判斷模塊，用于判斷所述說話用戶的聲紋特征信息是否與所述特定用戶的聲紋特征信息匹配；其中，所述合成模塊還用于在所述判斷模塊判斷所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息匹配時，將所述說話用戶的語音與所述VR音源進(jìn)行同步合成以生成合成語音。10.如權(quán)利要求9所述的裝置，其特征在于，所述控制模塊還用于在所述判斷模塊判斷所述說話用戶的聲紋特征信息與所述特定用戶的聲紋特征信息不匹配時，直接控制所述當(dāng)前用戶的頭戴式耳機(jī)輸出所述VR音源。
【文檔編號】G10L17/22GK106023983SQ201610270381
【公開日】2016年10月12日
【申請日】2016年4月27日
【發(fā)明人】楊宗業(yè)
【申請人】廣東歐珀移動通信有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊宗業(yè);
技術(shù)所有人：廣東歐珀移動通信有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

vr虛擬現(xiàn)實(shí)場景制作相關(guān)技術(shù)

vr虛擬現(xiàn)實(shí)場景相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于虛擬現(xiàn)實(shí)vr場景的多用戶語音交互方法以及裝置的制造方法