聲音處理設(shè)備、聲音處理方法和程序的制作方法

文檔序號：2823731閱讀：162來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音處理設(shè)備、聲音處理方法和程序的制作方法
專利說明本發(fā)明涉及聲音處理設(shè)備、聲音處理方法和程序，并具體地涉及使用獨(dú)立分量分析(ICA)來進(jìn)行聲音分離和噪聲消除的聲音處理設(shè)備、聲音處理方法和程序。
背景技術(shù)：
近來，有一種使用基于ICA (獨(dú)立分量分析)方法的BBS (盲源分離)方法從包括來自多個聲源傳送的聲音的混合聲音中分離出來自一個或者多個聲源傳送的信號的技術(shù)。例如，為了減少難以通過使用ICA的聲源分離來消除的剩余噪聲，公開了一種在使用ICA的聲源分離之后使用非線性處理的技術(shù)(例如公開號為2006-154314的日本待審專利申請)。然而，在ICA處理之后進(jìn)行非線性處理的情況以在先前階段使用ICA的分離處理進(jìn)行得良好為前提。因而，問題在于在使用ICA的分離處理中聲源分離難以達(dá)到某一程度的情況下，在隨后階段進(jìn)行非線性處理也難以獲得充分的性能改進(jìn)。因此，公開了一種在使用ICA的聲源分離之前的階段進(jìn)行非線性處理的技術(shù)(例如日本專利No. 3949150)。根據(jù)日本專利No. 3949150，即使在信號源數(shù)量N和傳感器數(shù)量M 的關(guān)系為N > M的情況下，仍然可以高質(zhì)量地分離混合的信號。在使用ICA的聲源分離中，為了高精確度地提取各信號，必須有M > N。因此，在日本專利No. 3949150中，假定N個聲源不是同時存在，通過進(jìn)行二元掩模等從混合了 N個聲源的觀測信號中提取只包括V(VSM) 個聲源的時頻分量。這樣，通過對有限的時頻分量應(yīng)用ICA等，可以提取各聲源。

發(fā)明內(nèi)容
然而，在日本專利No. 3949150中，形成條件2 < V < M，從而可以提取各聲源個體。然而，問題在于即使在希望從混合信號中消除從一個聲源傳送的信號的情況下仍然在提取聲源個體之后混合必要的信號。希望提供能夠從混合信號中有效地消除包括特定聲源的信號的新的改進(jìn)的聲音處理設(shè)備、聲音處理方法和程序。根據(jù)本發(fā)明的一種實(shí)施方式，提供一種聲音處理設(shè)備，該設(shè)備包括非線性處理單元，通過對由多個聲源生成并且由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；信號選擇單元，從非線性處理單元輸出的多個聲音信號之中選擇包括特定聲源的聲音信號，以及選擇包括多個聲源的觀測信號；以及聲音分離單元，從信號選擇單元選擇的觀測信號中分離出信號選擇單元選擇的包括特定聲源的聲音信號。此外，上述聲音處理設(shè)備還可以包括頻域轉(zhuǎn)換單元，將從多個聲源生成并且由多個傳感器觀測的多個觀測信號轉(zhuǎn)換成頻域信號值，其中非線性處理單元通過對頻域轉(zhuǎn)換單元轉(zhuǎn)換而得的觀測信號值進(jìn)行非線性處理來輸出包括存在于特定區(qū)域中的聲源的多個聲
音信號。此外，可以有如下配置在多個傳感器觀測的多個聲源中包括獨(dú)立性高的特定聲源，非線性處理單元輸出表示獨(dú)立性高的特定聲源的聲音分量的聲音信號，信號選擇單元從非線性處理單元輸出的表示特定聲源的聲音分量的聲音信號和多個觀測信號中選擇包括特定聲源和不同于特定聲源的聲源的觀測信號，以及聲音分離單元從信號選擇單元選擇的觀測信號中消除特定聲源的聲音分量。此外，可以有如下配置非線性處理單元輸出表示存在于生成第一聲源的區(qū)域中的聲音分量的聲音信號，信號選擇單元從由非線性處理單元輸出并存在于生成第一聲源的區(qū)域中的表示聲音分量的聲音信號和多個觀測信號中選擇包括第二聲源的觀測信號，其中包括第二聲源的觀測信號由位于生成第一聲源和不同于第一聲源的聲源的區(qū)域中的傳感器觀測，以及聲音分離單元從信號選擇單元選擇的包括第二聲源的觀測信號中消除第一聲源的聲音分量。此外，非線性處理單元可以包括相位計(jì)算裝置，針對各時頻分量計(jì)算多個傳感器之間的相位差；確定裝置，基于相位計(jì)算裝置計(jì)算的多個傳感器之間的相位差來確定各時頻分量起源的區(qū)域；以及計(jì)算裝置，基于確定裝置的確定結(jié)果來對傳感器觀測到的各時頻分量進(jìn)行預(yù)定的加權(quán)。此外，相位計(jì)算裝置可以利用傳感器之間的延遲來計(jì)算傳感器之間的相位差。此外，可以有如下配置觀測與多個傳感器在數(shù)量上對應(yīng)的多個觀測信號，以及信號選擇單元從由非線性處理單元輸出的多個聲音信號中選擇數(shù)量上與下述數(shù)量對應(yīng)的聲音信號多個傳感器的數(shù)量加上一個觀測信號。此外，可以有如下配置非線性處理單元通過對從包括獨(dú)立性高的特定聲源的三個聲源生成并由三個傳感器觀測的三個觀測信號進(jìn)行非線性處理來輸出第一聲音信號和第二聲音信號，第一聲音信號表示獨(dú)立性高的特定聲源的聲音分量，而第二聲音信號未包括所述三個聲源的全部聲音分量，其中信號選擇單元選擇非線性處理單元輸出的第一聲音信號和第二聲音信號以及選擇包括特定聲源和不同于特定聲源的聲源的觀測信號，以及其中聲音分離單元從信號選擇單元選擇的觀測信號中消除特定聲源的聲音分量。此外，可以有如下配置非線性處理單元通過對從包括獨(dú)立性高的特定聲源的三個聲源生成并由兩個傳感器觀測的兩個觀測信號進(jìn)行非線性處理來輸出表示獨(dú)立性高的特定聲源的聲音分量的聲音信號，信號選擇單元選擇非線性處理單元輸出的聲音信號以及選擇包括特定聲源和不同于特定聲源的聲源的觀測信號，以及聲音分離單元從信號選擇單元選擇的觀測信號中消除特定聲源的聲音分量。根據(jù)本發(fā)明的另一實(shí)施方式，提供一種聲音處理方法，該方法包括以下步驟通過對由多個聲源生成并由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理，來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；從上述非線性處理輸出的多個聲音信號中選擇包括特定聲源的聲音信號，以及選擇包括多個聲源的觀測信號；以及從所選擇的觀測信號中分離出在選擇聲音信號和觀測信號時選擇的包括特定聲源的聲音信號。根據(jù)本發(fā)明的又一實(shí)施方式，提供一種允許計(jì)算機(jī)用作聲音處理設(shè)備的程序，該程序包括非線性處理單元，通過對由多個聲源生成并由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理，來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；信號選擇單元，從非線性處理單元輸出的多個聲音信號之中選擇包括特定聲源的聲音信號，以及選擇包括多個聲源的觀測信號；以及聲音分離單元，從信號選擇單元選擇的觀測信號中分離出信號選擇單元選擇的包括特定聲源的聲音信號。如上所述，根據(jù)本發(fā)明的一種實(shí)施方式，可以從混合信號中有效地消除包括獨(dú)立性高的聲源的信號。

圖1是圖示了使用ICA的聲音分離處理的示意圖。圖2是圖示了使用ICA的聲音分離處理的示意圖。圖3是圖示了使用ICA的聲音分離處理的示意圖。圖4是圖示了根據(jù)該實(shí)施方式的聲源分離單元的使用的示意圖。圖5是圖示了在使用ICA的聲源分離之前的階段進(jìn)行非線性處理的技術(shù)的示意圖。圖6是圖示了根據(jù)本發(fā)明一種實(shí)施方式的聲音處理設(shè)備的概況的示意圖。圖7是示出了根據(jù)本發(fā)明一種實(shí)施方式的聲音處理設(shè)備的功能配置的框圖。圖8是表示根據(jù)上述實(shí)施方式的聲音處理方法的流程圖。圖9是示出了根據(jù)第一示例的聲音處理設(shè)備的配置的框圖。圖10是圖示了根據(jù)上述示例的麥克風(fēng)與聲源間的位置關(guān)系的示意圖。圖11是表示了根據(jù)上述示例的聲音處理方法的流程圖。圖12是具體圖示了根據(jù)上述示例的非線性處理的示意圖。圖13是具體圖示了根據(jù)上述示例的非線性處理的示意圖。圖14是具體圖示了根據(jù)上述示例的非線性處理的示意圖。圖15是具體圖示了根據(jù)上述示例的非線性處理的示意圖。圖16是具體圖示了根據(jù)上述示例的非線性處理的示意圖。圖17是圖示了根據(jù)第二示例的麥克風(fēng)和聲源間的位置關(guān)系的示意圖。圖18是表示了根據(jù)上述示例的聲音處理方法的流程圖。圖19是圖示了本發(fā)明的一種應(yīng)用示例的示意圖。
具體實(shí)施例方式下文將參照附圖描述本發(fā)明的優(yōu)選實(shí)施方式。在本說明書和附圖中對功能配置基本上相同的組成部件分配相同的附圖標(biāo)記，并且省略其贅述。將按以下順序描述“本發(fā)明的優(yōu)選實(shí)施方式”。1.本實(shí)施方式的目的2.聲音處理設(shè)備的功能配置3.聲音處理設(shè)備的操作4.示例4-1.第一示例4-2.第二示例1.本實(shí)施方式的目的首先將描述本發(fā)明的一種實(shí)施方式的目的。近來，有一種通過使用基于ICA(獨(dú)立分量分析)方法的BBS(盲源分離)方法從包括源于多個聲源的聲音的混合聲音中分離出源于一個或多個聲源的信號的技術(shù)。圖1和圖2是圖示了通過使用ICA的聲源分離處理的示意圖。例如，如圖1中所示，通過麥克風(fēng)M_1和麥克觀測要混合在一起的作為獨(dú)立聲源的聲源1 (該聲源為鋼琴聲)和聲源2 (該聲源為人聲)。然后，使用ICA的包括在聲音處理設(shè)備中的聲源分離單元10基于從聲源到麥克風(fēng)的信號或者路徑的統(tǒng)計(jì)獨(dú)立性將混合的信號彼此分離。因而，恢復(fù)彼此獨(dú)立的原聲源11和原聲源12。接著，將描述針對麥克風(fēng)觀測的聲源數(shù)量不同的情況。例如，如圖2中所示，假定聲源1由麥克風(fēng)M_1和麥克風(fēng)M_2觀測，而聲源2只由麥克風(fēng)M_2觀測。此外在這種情況下，獨(dú)立信號由至少一個或者多個麥克風(fēng)觀測。因而，可以恢復(fù)原聲源11和原聲源12。具體而言，使用ICA的聲源分離單元10通過使用麥克風(fēng)M_1觀測到的信息來進(jìn)行從麥克風(fēng) M_2提取聲源1的分量的處理。此外，如圖3中所示，在麥克風(fēng)M_1和麥克風(fēng)12只觀測獨(dú)立聲源的情況下，可以獲取各獨(dú)立聲源而無需分離任何信號。換而言之，在麥克風(fēng)M_1只觀測聲源1而麥克只觀測聲源2的情況下，原聲源11和原聲源12被恢復(fù)而無需分離任何信號。其原因在于使用ICA的聲源分離單元10被操作以輸出獨(dú)立性高的信號。如上所述，在觀測的信號獨(dú)立性高的情況下，可以知道使用ICA的聲源分離單元 10傾向于直接輸出觀測到的信號。因此，通過從輸入到聲源分離單元10的信號中選擇特定信號，可以控制聲源分離單元10的操作。接著，將參照圖4描述根據(jù)本實(shí)施方式的聲源分離單元10的使用。圖4是圖示了根據(jù)本實(shí)施方式的聲源分離單元的使用的示意圖。如圖4中所示，假定麥克風(fēng)M_1只觀測聲源1、2和3中的聲源1。另一方面，麥克風(fēng)M_2觀測聲源1至3。麥克風(fēng)M_2觀測的三個聲源原為獨(dú)立聲源。然而，由于麥克風(fēng)數(shù)量小于聲源數(shù)量，所以通過使用ICA的聲源分離單元10來分離聲源2和聲源3的條件并不充分。因而，難以分離聲源。換而言之，由于不是通過唯一一個信道觀測聲源2和聲源3，所以難以評估聲源2和聲源3的獨(dú)立性。其原因在于聲源的分離是通過在使用ICA的聲源分離單元中使用多個觀測信號來提高分離的信號的獨(dú)立性來實(shí)現(xiàn)的。另一方面，聲源1也由麥克風(fēng)M_1觀測。因而，有可能抑制來自麥克風(fēng)12的聲源 1。在這種情況下，優(yōu)選地，聲源1是例如聲音比聲源2和3大的主導(dǎo)聲源。因而，聲音分離單元10作用以消除來自麥克的聲源1的分量而把聲源2和聲源3用作一對。在本實(shí)施方式中，使用聲源分離單元10的如下特性將多個信號中獨(dú)立性高的信號直接輸出并且從其它信號中消除獨(dú)立性高的信號以便輸出。此外，為了減少上述使用ICA的聲源分離未消除的剩余噪聲，公開了一種在使用 ICA的聲源分離之后使用非線性處理的技術(shù)。然而，在ICA處理之后進(jìn)行非線性處理以在先前階段使用ICA的分離處理進(jìn)行得良好為前提。因而，問題在于在使用ICA的分離處理中聲音分離未達(dá)到某一程度的情況下，在隨后階段加入非線性處理也難以期待充分的性能改進(jìn)。因此，公開了一種在使用ICA的聲源分離之前的階段進(jìn)行非線性處理的技術(shù)。根據(jù)這樣的技術(shù)，即使在聲源數(shù)量N和傳感器數(shù)量M的關(guān)系為N > M的情況下，仍然可以高質(zhì)量地分離混合的信號。在使用ICA的聲源分離中，為了高精確性地提取各信號，必須有 M ^ N0因此，在日本專利No. 3949150中，假定N個聲源不是同時存在，通過使用二元掩模等從混合了 N個聲源的觀測信號中提取只包括V(VSM)個聲源的時頻分量。這樣，通過應(yīng) 用ICA等，可以從有限的時頻分量提取各聲源。圖5是圖示了一種在使用ICA的聲源分離之前的階段進(jìn)行非線性處理的技術(shù)的示意圖。在圖5中，在聲源數(shù)量N為3而麥克風(fēng)數(shù)量M為2的情況下，為了高精確度地分離信號，對觀測信號進(jìn)行作為非線性處理的二元掩模處理等。在有限信號生成單元22進(jìn)行的二元掩模處理中，從包括N個聲源的信號中提取只包括V(VSM)個聲源的分量。因而，可以形成聲源數(shù)量與麥克風(fēng)數(shù)量相同或者比麥克風(fēng)數(shù)量更小的狀態(tài)。如圖5中所示，有限信號生成單元22從麥克風(fēng)11和麥克風(fēng)12觀測到的觀測信號的時頻分量中提取只包括聲源1和聲源2的時頻分量以及只包括聲源2和聲源3的時頻分量。這樣，對滿足條件“聲源數(shù)量=麥克風(fēng)數(shù)量”的時頻分量進(jìn)行使用ICA的聲源分離。因而，聲源分離單元24a分離通過恢復(fù)聲源1獲取的聲源25a和通過恢復(fù)聲源2獲取的聲源25b。此外，聲源分離單元24b分離通過恢復(fù)聲源2獲取的聲源25c和通過恢復(fù)聲源3獲取的聲源25d。在上述技術(shù)中，設(shè)置了條件2 <V<M，這樣可以提取各聲源。然而，問題在于即使在希望從混合信號中只消除源于一個聲源的信號的情況下仍然在提取聲源個體之后混合必要的信號。因此，鑒于上述情形，發(fā)明根據(jù)本實(shí)施方式的聲音處理設(shè)備100。根據(jù)本實(shí)施方式的聲音處理設(shè)備100，可以從混合的信號中有效地消除包括獨(dú)立性高的聲源的信號。在此，將參照圖6描述根據(jù)本發(fā)明一種實(shí)施方式的聲音處理設(shè)備100的概況。圖6是圖示了根據(jù)本發(fā)明一種實(shí)施方式的技術(shù)與圖5中圖示的技術(shù)之間的差異的示意圖。下文將描述如下情況N個聲源(N = 4(S1、S2、S3*S4))由M(M = 2)個麥克風(fēng) 觀測，以及獲得包括聲源Si、S2和S3的信號。如圖6中所示，在圖5中示出的聲音處理設(shè)備20中，有限信號生成單元22提取包括與麥克風(fēng)數(shù)量對應(yīng)的聲源的混合聲音，以及聲源分離單元24a和聲源分離單元24b輸出各聲源的分離信號。這樣，為了獲取包括聲源Si、S2和S3的信號，將針對各聲源分離的信號中的聲源Si、S2和S3的信號加在一起，由此可以獲取只不包括聲源S4的信號。另一方面，在根據(jù)本發(fā)明一種實(shí)施方式的聲音處理設(shè)備100中，非線性處理單元 102以簡化方式提取聲源S4的信號，以及將只包括聲源S4的信號和觀測信號Sl至S4輸入給聲源分離單元。被輸入所選擇的輸入信號的聲源分離單元106將只包括聲源S4的信號和觀測信號Sl至S4識別為兩個獨(dú)立聲源，并輸出通過從包括Sl至S4的觀測信號中消除 S4而獲取的信號(S1+S2+S3)。如上所述，在聲音處理設(shè)備20中，為了獲取包括Sl至S3的聲音信號，進(jìn)行了兩次聲源分離處理，然后進(jìn)行混合必要的聲音信號的處理。然而，根據(jù)本發(fā)明的一種實(shí)施方式，通過非線性處理獲取獨(dú)立性高的一個信號S4，可以進(jìn)行一次聲源分離處理來獲取包括Sl 至S3的期望的聲音信號。2.聲音處理設(shè)備的功能配置接著，將參照圖7描述根據(jù)本實(shí)施方式的聲音處理設(shè)備100的功能配置。如圖7 中所示，聲音處理設(shè)備100包括非線性處理單元102、信號選擇單元104、聲源分離單元106 和控制單元108。非線性處理單元102、信號選擇單元104、聲源分離單元106和控制單元108由計(jì)算機(jī)配置。因此，CPU基于在包括于計(jì)算機(jī)中的ROM(只讀存儲器)中存儲的程序來進(jìn)行上述單元的操作。非線性處理單元102具有如下功能在控制單元108的指揮下，通過對從多個聲源生成并且由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理來輸出存在于預(yù)定區(qū)域中的多個聲音信號。在本實(shí)施方式中，多個傳感器例如為麥克風(fēng)。此外，下文假定麥克風(fēng)數(shù)量M 為2或者更多。非線性處理單元102對M個麥克風(fēng)觀測到的觀測信號進(jìn)行非線性處理并且輸出Mp個聲音信號。
非線性處理單元102可以通過假定由多個傳感器觀測的觀測信號在有多個聲源的情況下很少同時具有相同的時頻分量來提取特定信號。在本實(shí)施方式中，假定獨(dú)立性高的特定聲源包括在由多個傳感器觀測的多個聲源中。在這種情況下，通過非線性處理，非線性處理單元102可以輸出只包括獨(dú)立性高的特定聲源的聲音信號。將在第一示例的描述中具體描述非線性處理單元102進(jìn)行的非線性處理。非線性處理單元102提供輸出的聲音信號給信號選擇單元104。信號選擇單元104具有如下功能在控制單元108的指揮下，從非線性處理單元 102輸出的聲音信號之中選擇包括特定聲源的聲音信號以及選擇包括麥克風(fēng)觀測的多個聲源的觀測信號。如上所述，當(dāng)非線性處理單元102提供表示獨(dú)立性高的特定聲源的聲音分量的聲音信號時，信號選擇單元104從非線性處理單元102輸出的表示特定聲源的聲音分量的聲音信號和麥克風(fēng)觀測到的多個觀測信號之中，選擇包括特定聲源和不同于特定聲源的聲源的觀測信號。后文將詳細(xì)描述信號選擇單元104進(jìn)行的信號選擇處理。信號選擇單元104提供選擇出的聲音信號和觀測信號給聲源分離單元106。聲源分離單元106具有如下功能從信號選擇單元104選擇的觀測信號之中分離出信號選擇單元104選擇的包括特定聲源的聲音信號。聲源分離單元106使用ICA來進(jìn)行聲源分離處理，以提高獨(dú)立性。因而，在向聲源分離單元106輸入表示獨(dú)立性高的特定聲源的聲音分量的聲音信號以及包括特定聲源和不同于特定聲源的聲源的觀測信號的情況下，聲源分離單元106進(jìn)行從包括特定聲源和不同于特定聲源的聲源的觀測信號中分離出特定聲源的聲音分量的處理。在使用ICA的聲源分離處理中，當(dāng)向聲源分離單元輸入L個輸入信號時，輸出數(shù)量上與輸入信號相同的獨(dú)立性高的L個輸出信號。3.聲音處理設(shè)備的操作如上描述了聲音處理設(shè)備100的功能配置。接著將參照圖8描述聲音處理設(shè)備100 的操作。圖8是圖示出聲音處理設(shè)備100的聲音處理方法的流程圖。如圖8中所示，首先，非線性處理單元102通過使用由M個麥克風(fēng)觀測到的信號來進(jìn)行非線性處理，并輸出Mp個聲音信號(S102)。信號選擇單元104從M個麥克風(fēng)觀測到的M個觀測信號和非線性處理單元102輸出的Mp個聲音信號之中選擇要輸入給聲源分離單元106的L個信號(S104)。然后，聲源分離單元106進(jìn)行聲源分離處理，以提高從聲音分離單元106輸出的輸出信號的獨(dú)立性(S106)。然后，聲源分離單元106輸出L個獨(dú)立信號(S108)。如上描述了聲音處理設(shè)備100的操作。4.示例接著將描述使用聲音處理設(shè)備100的示例。下文將聲源數(shù)量表述為N而將麥克風(fēng) 數(shù)量表述為M。在第一示例中，將描述聲源數(shù)量和麥克風(fēng)數(shù)量相等的情況(N = M)。具體而言，將描述聲源數(shù)量和麥克風(fēng)數(shù)量為3的情況。此外，在第二示例中，將描述聲源數(shù)量大于麥克風(fēng)數(shù)量的情況(N > M)。具體而言，將描述聲源數(shù)量為3而麥克風(fēng)數(shù)量為2的情況。4-1.第一示例首先，將參照圖9描述根據(jù)第一示例的聲音處理設(shè)備IOOa的配置。聲音處理設(shè)備 IOOa的基本配置與上述聲音處理設(shè)備100的基本配置相同。因此，在聲音處理設(shè)備IOOa 的描述中示出了聲音處理設(shè)備100的更詳細(xì)的配置。如圖9中所示，聲音處理設(shè)備IOOa包括頻域轉(zhuǎn)換單元101、非線性處理單元102、信號選擇單元104、聲源分離單元106、控制單元 108和時域轉(zhuǎn)換單元110。頻域轉(zhuǎn)換單元101具有將由多個聲源生成并由多個麥克風(fēng)觀測的多個觀測信號轉(zhuǎn)換成頻域信號值的功能。頻域轉(zhuǎn)換單元101提供轉(zhuǎn)換而得的觀測信號值給非線性處理單元102。此外，時域轉(zhuǎn)換單元110具有對聲源分離單元106輸出的輸出信號進(jìn)行時域轉(zhuǎn)換 (如短時傅里葉逆變換)和輸出時間波形的功能。此外，在第一示例中，三個麥克風(fēng)Ml至M3和三個聲源Sl至S3被描述為處于圖10 中示出的位置關(guān)系。在第一示例中，聲源S3是比其它聲源Sl和S2等聲音更大的主導(dǎo)聲源。此外，即使在聲源具有針對麥克風(fēng)的方向性的情況下，聲源S3仍然由麥克風(fēng)觀測為相對于其它聲源的主導(dǎo)聲源。在此，具有方向性例如是在聲源為揚(yáng)聲器的情況下?lián)P聲器前方適合于麥克風(fēng)的情況。另一方面，在聲源為人聲的情況下，具有方向性是人面朝麥克風(fēng)發(fā)言的情況。聲音處理設(shè)備IOOa的目的在于從包括聲源Sl至S3的聲音信號中消除作為特定聲源的聲源S3的聲音信號。接著，將參照圖11描述聲音處理設(shè)備IOOa的聲音處理方法。首先，頻域轉(zhuǎn)換單元 101通過對麥克風(fēng)觀測到的觀測信號進(jìn)行短時傅里葉變換來獲取以下時頻序列(S202)。數(shù)值表達(dá)式1X1 ( ω , t) , X2 ( ω , t) , X3 ( ω , t)接著，確定是否已經(jīng)計(jì)算了在步驟S202中獲取的時頻分量的相位差(S204)。在步驟S204中確定尚未計(jì)算時頻分量的相位差的情況下，進(jìn)行步驟S206的處理。另一方面，在步驟S204中確定已經(jīng)計(jì)算了時頻分量的相位差的情況下，該處理結(jié)束。在步驟S204中確定尚未計(jì)算時頻分量的相位差的情況下，計(jì)算在步驟S202中獲取的時頻分量的以下相位差。數(shù)值表達(dá)式2P12 ( ω，t)，P23 ( ω，t)，P31 ( ω，t)后文將詳細(xì)描述麥克風(fēng)對的相位差。接著，確定麥克風(fēng)對的相位差是否滿足以下條件表達(dá)式1 (S208)。數(shù)值表達(dá)式3條件表達(dá)式1當(dāng)P31 ( ω ) >0 并且 P23 ( ω ) <0在步驟S208中確定麥克風(fēng)對的相位差滿足條件表達(dá)式1的情況下，通過以下數(shù)值表達(dá)式獲取麥克風(fēng)1測量的聲源S3的時頻分量(S212)。數(shù)值表達(dá)式4sl{&,t) = Χ^ω, )
其中，只包括由麥克風(fēng)i觀測的聲源j的時頻分量由以下數(shù)值表達(dá)式表示。數(shù)值表達(dá)式權(quán)利要求
一種聲音處理設(shè)備，包括非線性處理單元，通過對多個觀測信號進(jìn)行非線性處理來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號，所述多個觀測信號由多個聲源生成并由多個傳感器觀測；信號選擇單元，從所述非線性處理單元輸出的所述多個聲音信號中選擇包括特定聲源的聲音信號，以及選擇包括所述多個聲源的觀測信號；以及聲音分離單元，從所述信號選擇單元選擇的觀測信號中分離出所述信號選擇單元選擇的包括所述特定聲源的聲音信號。
2.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，還包括頻域轉(zhuǎn)換單元，將從所述多個聲源生成并由所述多個傳感器觀測的所述多個觀測信號轉(zhuǎn)換成頻域信號值，其中，所述非線性處理單元通過對由所述頻域轉(zhuǎn)換單元轉(zhuǎn)換而得的觀測信號值進(jìn)行非線性處理，來輸出包括存在于特定區(qū)域中的聲源的多個聲音信號。
3.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，在被所述多個傳感器觀測的所述多個聲源中包括獨(dú)立性高的特定聲源，其中，所述非線性處理單元輸出表示所述獨(dú)立性高的特定聲源的聲音分量的聲音信號，其中，所述信號選擇單元從所述非線性處理單元輸出的表示所述特定聲源的所述聲音分量的聲音信號和所述多個觀測信號中選擇包括所述特定聲源和不同于所述特定聲源的聲源的觀測信號，以及其中，所述聲音分離單元從所述信號選擇單元選擇的觀測信號中消除所述特定聲源的所述聲音分量。
4.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，所述非線性處理單元輸出表示存在于生成第一聲源的區(qū)域中的聲音分量的聲音信號，其中，所述信號選擇單元從由所述非線性處理單元輸出并存在于生成所述第一聲源的區(qū)域中的表示所述聲音分量的所述聲音信號和所述多個觀測信號中選擇包括第二聲源的觀測信號，所述包括第二聲源的觀測信號由位于生成所述第一聲源和不同于所述第一聲源的聲源的區(qū)域中的傳感器觀測，以及其中，所述聲音分離單元從所述信號選擇單元選擇的所述包括第二聲源的觀測信號中消除所述第一聲源的所述聲音分量。
5.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，所述非線性處理單元包括相位計(jì)算裝置，針對各時頻分量計(jì)算所述多個傳感器之間的相位差；確定裝置，基于所述相位計(jì)算裝置計(jì)算的所述多個傳感器之間的所述相位差來確定各時頻分量起源的區(qū)域；以及計(jì)算裝置，基于所述確定裝置的確定結(jié)果來對所述傳感器觀測到的各時頻分量進(jìn)行預(yù) 定的加權(quán)。
6.根據(jù)權(quán)利要求5所述的聲音處理設(shè)備，其中所述相位計(jì)算裝置利用所述傳感器之間的延遲來計(jì)算所述傳感器之間的所述相位差。
7.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，觀測與所述多個傳感器在數(shù)量上對應(yīng)的所述多個觀測信號，以及其中，所述信號選擇單元從由所述非線性處理單元輸出的所述多個聲音信號中選擇數(shù) 量上與下述數(shù)量對應(yīng)的聲音信號所述多個傳感器的數(shù)量加上一個觀測信號。
8.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，所述非線性處理單元通過對從包括獨(dú)立性高的所述特定聲源的三個聲源生成并由三個傳感器觀測的三個觀測信號進(jìn)行非線性處理，來輸出第一聲音信號和第二聲音信號，所述第一聲音信號表示所述獨(dú)立性高的所述特定聲源的聲音分量，而所述第二聲音信號未包括所述三個聲源的全部聲音分量，其中，所述信號選擇單元選擇所述非線性處理單元輸出的所述第一聲音信號和所述第二聲音信號，以及選擇包括所述特定聲源和不同于所述特定聲源的聲源的觀測信號，以及其中，所述聲音分離單元從所述信號選擇單元選擇的所述觀測信號中消除所述特定聲源的所述聲音分量。
9.根據(jù)權(quán)利要求1所述的聲音處理設(shè)備，其中，所述非線性處理單元通過對從包括獨(dú)立性高的所述特定聲源的三個聲源生成并由兩個傳感器觀測的兩個觀測信號進(jìn)行非線性處理，來輸出表示所述獨(dú)立性高的所述特定聲源的聲音分量的聲音信號，其中，所述信號選擇單元選擇所述非線性處理單元輸出的所述聲音信號，以及選擇包括所述特定聲源和不同于所述特定聲源的聲源的觀測信號，以及其中，所述聲音分離單元從所述信號選擇單元選擇的所述觀測信號中消除所述特定聲源的所述聲音分量。
10.一種聲音處理方法，包括以下步驟通過對由多個聲源生成并由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理，來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；從由所述非線性處理輸出的所述多個聲音信號中選擇包括特定聲源的聲音信號，以及選擇包括所述多個聲源的所述觀測信號；以及從所選擇的所述觀測信號中分離出在選擇所述聲音信號和所述觀測信號時選擇的所述包括特定聲源的聲音信號。
11.一種允許計(jì)算機(jī)用作聲音處理設(shè)備的程序，所述程序包括非線性處理單元，通過對由多個聲源生成并由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理，來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；信號選擇單元，從所述非線性處理單元輸出的所述多個聲音信號之中選擇包括特定聲源的聲音信號，以及選擇包括所述多個聲源的所述觀測信號；以及聲音分離單元，從所述信號選擇單元選擇的所述觀測信號中分離出所述信號選擇單元選擇的所述包括特定聲源的聲音信號。
全文摘要
公開了聲音處理設(shè)備、聲音處理方法和程序。一種聲音處理設(shè)備包括非線性處理單元，通過對由多個聲源生成并且由多個傳感器觀測的多個觀測信號進(jìn)行非線性處理來輸出包括存在于預(yù)定區(qū)域中的聲源的多個聲音信號；信號選擇單元，從非線性處理單元輸出的多個聲音信號中選擇包括特定聲源的聲音信號，以及選擇包括多個聲源的觀測信號；以及聲音分離單元，從信號選擇單元選擇的觀測信號中分離出信號選擇單元選擇的包括特定聲源的聲音信號。
文檔編號G10L21/02GK101964192SQ201010234009
公開日2011年2月2日申請日期2010年7月15日優(yōu)先權(quán)日2009年7月22日
發(fā)明者關(guān)矢俊之, 安部素嗣申請人:索尼公司

完整全部詳細(xì)技術(shù)資料下載