亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻信號處理設(shè)備和音頻信號處理方法

文檔序號:6757146閱讀:224來源:國知局
專利名稱:音頻信號處理設(shè)備和音頻信號處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及處理音頻信號的多種設(shè)備,例如IC(集成電路)錄音機、MD(迷你盤)錄音機或個人計算機,以及涉及在這些設(shè)備中使用的方法。
背景技術(shù)
如在日本未審查的專利申請第2-206825號中所公開的,已經(jīng)提出用于對記錄的音頻數(shù)據(jù)執(zhí)行語音識別以將音頻數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)的,從而自動創(chuàng)建記錄的記錄準(zhǔn)備設(shè)備。這種技術(shù)允許快速地自動準(zhǔn)備會議記錄。然而,在某些情況中,期望準(zhǔn)備僅僅重要部分的記錄而非基于所有記錄的音頻數(shù)據(jù)來準(zhǔn)備記錄。在此種情況中,需要從記錄的音頻數(shù)據(jù)中尋找到感興趣的部分。
例如,當(dāng)使用IC錄音機、MD錄音機等記錄下較長會議的進(jìn)行時,為了從記錄的音頻數(shù)據(jù)中找到感興趣的部分,需要播放音頻數(shù)據(jù)并聽取播放的聲音。雖然能使用快進(jìn)或快退找到感興趣的部分,但這通常需要付出勞動和時間。因此,已提出能嵌入(分配)促進(jìn)在記錄的數(shù)據(jù)中搜索的標(biāo)記的記錄設(shè)備。例如,在MD錄音機中,此種功能被實現(xiàn)為附加磁道標(biāo)記功能。
然而,附加促進(jìn)對音頻數(shù)據(jù)的搜索的標(biāo)記的功能如上所述是由用戶手動操作的,因此沒有用戶操作就不能分配標(biāo)記。因此,甚至記錄期間當(dāng)用戶試圖執(zhí)行附加標(biāo)記到用戶認(rèn)為是重要的部分中的操作時,如當(dāng)用戶專注于會議進(jìn)行時也會忘記執(zhí)行附加標(biāo)記的操作。
此外,甚至當(dāng)用戶對感興趣的講話分配了標(biāo)記,由于是在聽取感興趣的講話期間執(zhí)行嵌入標(biāo)記的操作,也可能在感興趣的講話之后才記錄該標(biāo)記。因此,為了聽取感興趣的講話,用戶必須執(zhí)行將播放位置移到該標(biāo)記并稍后再向后移動的操作。如果用戶操作到感興趣的部分之前或之后并不得不重復(fù)這一操作,這對用戶來說是麻煩和緊迫的。
此外,具有標(biāo)記的這部分的內(nèi)容是未知的,直至聽取之后。如果聽取后發(fā)現(xiàn)這部分不是感興趣的那一部分,必須重復(fù)移到下一標(biāo)記的操作,直至發(fā)現(xiàn)感興趣的部分,而這樣是很費力的。如上所述,雖然分配幫助搜索音頻數(shù)據(jù)的標(biāo)記的功能十分便利,但是當(dāng)例如用戶不習(xí)慣該操作時,就不能很好的利用分配標(biāo)記給感興趣的音頻數(shù)據(jù)這一功能。

發(fā)明內(nèi)容
因此,本發(fā)明的一個目的是提供一種設(shè)備和方法,易于允許用戶快速地在要處理的音頻信號中找到和使用感興趣的部分。
為實現(xiàn)這一目的,根據(jù)本發(fā)明的一個方面,提供一種音頻信號處理設(shè)備。該音頻信號處理設(shè)備包括第一檢測單元,用于在要處理的音頻信號中根據(jù)該音頻信號基于具有預(yù)定尺寸的各個處理單元來檢測發(fā)言人的改變;獲取單元,用于獲得其中第一檢測單元已檢測到發(fā)言人改變的音頻信號的位置的改變點信息;以及保存單元,用于保存由獲取單元獲取的改變點信息。
在該音頻信號處理設(shè)備中,檢測單元自動檢測在要被處理的音頻信號中的改變點,獲取單元獲取指示在音頻信號中的改變點的位置的改變點信息,保存單元保存該改變點信息。保存指示改變點的位置的改變點信息等同于在要被處理的音頻信號中給改變點分配標(biāo)記。
如上所述檢測和保存的改變點信息使得能夠定位對應(yīng)于該改變點信息的音頻信號,從而可以從該位置開始諸如播放要被處理的音頻信號的處理。因此,允許用戶參考自動分配給該音頻信號中的改變點的標(biāo)記,從音頻信號中快速地找出感興趣的部分,而無需執(zhí)行麻煩的操作。
優(yōu)選地,第一檢測單元能基于各個處理單元提取音頻信號的特征,并根據(jù)提取的特征檢測從非話音段到話音段的改變點以及話音段中的發(fā)言人改變的點。
因此,檢測單元基于具有預(yù)定尺寸的各個處理單元檢測要被處理的音頻信號的特征,并執(zhí)行諸如將特征和先前所檢測到的特征進(jìn)行比較的處理。因此,檢測單元能檢測從無聲段或噪聲段到話音段的改變點以及話音段內(nèi)的發(fā)言人改變點。
因此,標(biāo)記被至少分配給發(fā)言人改變的點,以便能參考發(fā)言人改變點快速地從音頻數(shù)據(jù)中找到感興趣的部分。
該音頻信號處理設(shè)備可以進(jìn)一步包括存儲單元,用于存儲表示一個或多個發(fā)言人的語音特征的一個或多個特征信息,以及所述一個或多個發(fā)言人的一個或多個識別信息,特征信息以及識別信息相互關(guān)聯(lián);還包括識別單元,用于通過比較由第一檢測單元提取的特征和存儲在存儲單元內(nèi)的特征信息來識別發(fā)言人。在此情況中。保存單元保存改變點信息以及由識別單元識別的發(fā)言人的識別信息,該改變點信息和識別信息相互關(guān)聯(lián)。
在該音頻信號處理設(shè)備中,代表發(fā)言人的語音特征的特征信息以及發(fā)言人的識別信息被相互關(guān)聯(lián)地存儲在存儲單元內(nèi)。識別單元通過比較由第一檢測單元提取的特征和存儲在存儲單元內(nèi)的特征信息在改變點識別發(fā)言人。保存單元保存改變點信息以及識別的發(fā)言人的識別信息。
因此,能播放或提取對應(yīng)于特定發(fā)言人的語音的部分,以及根據(jù)在各個改變點的發(fā)言人的識別從音頻數(shù)據(jù)中快速地找到感興趣的部分。
該音頻信號處理設(shè)備可以進(jìn)一步包括第二檢測單元,用于通過分析分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號來檢測發(fā)言人位置。在此情況中,獲取單元根據(jù)由第二檢測單元檢測到的發(fā)言人位置中的改變來識別改變點,并獲取對應(yīng)于所識別的改變點的改變點信息。
在該音頻信號處理設(shè)備中,第二檢測單元通過分析各個音頻信道的多個音頻信號、檢測要被處理的音頻信號中的改變點來檢測發(fā)言人的位置。獲取單元根據(jù)由第一檢測單元檢測到的改變點和由第二檢測單元檢測到的改變點來識別實際使用的改變點,并獲取指示所識別的改變點的位置的改變點信息。
因此,根據(jù)由第二檢測單元檢測到的改變點,能更精確和更可靠地檢測出音頻信號中的改變點,允許從音頻數(shù)據(jù)中搜索出感興趣的部分。
該音頻信號處理設(shè)備可進(jìn)一步包括發(fā)言人信息存儲單元,用于存儲基于分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置的發(fā)言人的識別信息,該發(fā)言人位置和識別信息相互關(guān)聯(lián);以及發(fā)言人信息獲取單元,用于從發(fā)言人信息存儲單元獲取與通過分析多個音頻信道的多個音頻信號而確定的發(fā)言人位置相關(guān)聯(lián)的發(fā)言人的識別信息。在此情況中,識別單元根據(jù)由發(fā)言人信息獲取單元所獲取的識別信息來識別發(fā)言人。
在該音頻信號處理設(shè)備中,發(fā)言人信息存儲單元存儲基于分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置的發(fā)言人的識別信息。即,基于提供各個麥克風(fēng)的位置來確定發(fā)言人的位置。例如,距離第一麥克風(fēng)位置最近的發(fā)言人是A,距離第二麥克風(fēng)位置最近的發(fā)言人是B。因此,例如基于哪個麥克風(fēng)與具有最高電平的音頻數(shù)據(jù)的音頻信道相關(guān)聯(lián),能夠確定當(dāng)前發(fā)言人與哪個麥克風(fēng)相關(guān)聯(lián)。
發(fā)言人信息獲取單元分析各個音頻信道的音頻數(shù)據(jù),根據(jù)與主要用于收集聲音的麥克風(fēng)相關(guān)聯(lián)的那個音頻信道來識別發(fā)言人的位置。識別單元根據(jù)以上述方式獲得的標(biāo)識來識別在改變點的發(fā)言人。因此,可以使用準(zhǔn)確的信息從要被處理的音頻數(shù)據(jù)中搜索感興趣的部分,從而提高發(fā)言人識別的精確性。
音頻信號處理設(shè)備可進(jìn)一步包括顯示信息處理單元。在該種情況中,存儲單元存儲分別與對應(yīng)各個識別信息的發(fā)言人相關(guān)的多個信息,該信息分別和各個識別信息相關(guān),顯示信息處理單元顯示音頻信號中的改變點的位置以及與由識別單元識別的發(fā)言人相關(guān)的信息。
在音頻信號處理設(shè)備中,存儲單元存儲分別與對應(yīng)于各個識別信息的發(fā)言人相關(guān)的信息,例如,不同的圖像數(shù)據(jù)或圖形數(shù)據(jù),如與各個識別信息相關(guān)的面部圖片數(shù)據(jù)、圖標(biāo)數(shù)據(jù)、標(biāo)記圖像數(shù)據(jù)或動畫圖像數(shù)據(jù)。顯示信息處理單元顯示改變點的位置以及與由識別單元所識別的發(fā)言人相關(guān)的信息。
因此,用戶可以直觀地在要被處理的音頻數(shù)據(jù)中找到對應(yīng)于各個發(fā)言人的講話的部分。因此,用戶可以快速地在要被處理的音頻數(shù)據(jù)中找到感興趣的部分。
在音頻信號處理設(shè)備中,第一檢測單元可以根據(jù)通過分析各個音頻信道的多個音頻信號而確定的發(fā)言人位置來檢測發(fā)言人的改變,其中該音頻信號由不同麥克風(fēng)收集。
在音頻信號處理設(shè)備中,通過分析各個音頻信道的多個音頻信號來識別發(fā)言人位置,發(fā)言人位置中的改變點被檢測為改變點。
因此,通過分析各個音頻信道的音頻信號,可以容易并準(zhǔn)確地檢測出要被處理的音頻信號中的改變點,以及可將標(biāo)記分配給發(fā)言人改變的點。此外,還能參考發(fā)言人改變的點來快速地從音頻數(shù)據(jù)中找到感興趣的部分。
優(yōu)選地,在音頻信號處理設(shè)備中,保存單元保存改變點信息以及指示由第一檢測單元所檢測到的發(fā)言人位置的信息,改變點信息和指示發(fā)言人位置的信息相互關(guān)聯(lián)。
在音頻信號處理設(shè)備中,可將保存在保存單元內(nèi)的信息提供給用戶。因此,允許用戶尋找在每個改變點發(fā)言的發(fā)言人的發(fā)言人位置,并從要被處理的音頻數(shù)據(jù)中尋找感興趣的部分。
音頻信號處理設(shè)備可進(jìn)一步包括發(fā)言人信息存儲單元,用于存儲根據(jù)分別與多個麥克風(fēng)相關(guān)的多個音頻信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置的發(fā)言人的識別信息,多個發(fā)言人位置分別與多個識別信息分別相關(guān)聯(lián);以及發(fā)言人信息獲取單元,從發(fā)言人信息存儲單元獲得與發(fā)言人位置相關(guān)聯(lián)的發(fā)言人的識別信息,所述發(fā)言人位置是通過分析多個音頻信道的多個音頻信號來確定的。在此種情況中,保存單元保存改變點信息以及由發(fā)言人信息獲取單元所獲取的識別信息,所述改變點信息和所述識別信息相互關(guān)聯(lián)。
在音頻信號處理設(shè)備中,發(fā)言人信息存儲單元存儲根據(jù)麥克風(fēng)位置確定的發(fā)言人位置以及在各個發(fā)言人位置的發(fā)言人的識別信息,所述發(fā)言人位置與所述識別信息相互關(guān)聯(lián)。發(fā)言人信息獲取裝置通過分析各個音頻信道的多個音頻信號來識別發(fā)言人位置。保存單元保存改變點信息以及發(fā)言人信息獲取單元獲取的識別信息,所述改變點信息和所述識別信息相互關(guān)聯(lián)。
因此,能夠在各個改變點識別發(fā)言人,以及將該信息提供給用戶。因此,能容易并準(zhǔn)確地從要被處理的音頻數(shù)據(jù)中找到感興趣的部分。
音頻信號處理設(shè)備還可以包括顯示信息處理單元。在此種情況中,發(fā)言人信息存儲單元存儲分別與對應(yīng)于各個識別信息的發(fā)言人相關(guān)的信息,所述信息分別與各個識別信息相關(guān)聯(lián),顯示信息處理單元顯示音頻信號內(nèi)的改變點的位置以及與關(guān)聯(lián)于所確定的發(fā)言人位置的發(fā)言人相關(guān)的信息。
在音頻信號處理設(shè)備中,發(fā)言人信息存儲裝置存儲分別與對應(yīng)于各個識別信息的發(fā)言人相關(guān)的多個信息,例如,與各個識別信息相關(guān)的不同的圖像數(shù)據(jù)或圖形數(shù)據(jù),如面部圖片數(shù)據(jù)、圖標(biāo)數(shù)據(jù)、標(biāo)記圖像數(shù)據(jù)、或動畫圖像數(shù)據(jù)。顯示信息處理單元顯示改變點的位置以及關(guān)于由識別單元識別的發(fā)言人的信息。
因此,用戶可以直觀地在要被處理的音頻數(shù)據(jù)中找到對應(yīng)于各個發(fā)言人的講話的部分。因此,用戶能夠快速地在要被處理的音頻數(shù)據(jù)中找到感興趣的部分。
根據(jù)本發(fā)明的另一方面,提供一種音頻信號處理方法。該音頻信號處理方法包括第一檢測步驟,基于具有不同尺寸的各個處理單元,根據(jù)音頻信號來檢測要被處理的音頻信號中的發(fā)言人改變;獲取步驟,獲取指示在第一檢測步驟中檢測到發(fā)言人改變的音頻信號的位置的改變點信息;以及存儲步驟,存儲在獲取步驟獲取的改變點信息到記錄介質(zhì)上。
根據(jù)本發(fā)明,甚至當(dāng)記錄較長會議時,每當(dāng)發(fā)言人改變發(fā)生時就自動分配發(fā)言人改變標(biāo)記。這樣更易于在準(zhǔn)備會議記錄過程中搜索講話,允許容易和快速地重復(fù)播放對應(yīng)于感興趣的發(fā)言人的講話的部分。
此外,能在音頻數(shù)據(jù)的改變點識別發(fā)言人以及管理指示與改變點相關(guān)聯(lián)的發(fā)言人的信息。因此,能夠容易和快速地找到對應(yīng)于特定發(fā)言人的講話的部分而無需播放該音頻數(shù)據(jù)。
此外,對創(chuàng)建會議記錄的人的記憶力的依賴降低了。這有助于提高準(zhǔn)備會議記錄的工作的效率,其中準(zhǔn)備會議記錄曾經(jīng)是費力的和耗時的。此外,還能將記錄的數(shù)據(jù)用作音頻數(shù)據(jù)形式的會議記錄,而無需創(chuàng)建會議記錄。這使搜索更容易。


圖1是根據(jù)本發(fā)明實施例的記錄/播放設(shè)備的框圖;圖2是用于解釋給由記錄/播放設(shè)備記錄的所收集的音頻信號中的改變點分配標(biāo)記的處理方案的圖;圖3是示出在播放記錄的音頻信號期間將播放位置設(shè)定到標(biāo)記時,LCD上所顯示的信息是如何根據(jù)這些操作改變的圖;圖4是圖1所示的記錄/播放設(shè)備所執(zhí)行的記錄處理的流程圖;圖5是圖1所示的記錄/播放設(shè)備所執(zhí)行的播放處理的流程圖;圖6是示出在圖1所示的記錄/播放設(shè)備的外部存儲裝置的存儲區(qū)域內(nèi)創(chuàng)建的音頻特征數(shù)據(jù)庫的例子的圖;圖7是用于解釋在圖1所示達(dá)到記錄/播放設(shè)備內(nèi)的用于分配標(biāo)記給收集到的音頻信號的處理方案的圖;圖8是示出在播放記錄的音頻信號期間將播放位置設(shè)定到標(biāo)記時,LCD上所顯示的信息是如何根據(jù)這些操作改變的圖;圖9是在記錄處理之后給記錄的音頻信號中的改變點分配標(biāo)記的處理流程圖;圖10是示出根據(jù)從圖1所示的記錄/播放設(shè)備傳輸?shù)絺€人計算機的數(shù)據(jù),在顯示器的屏幕上顯示的改變點信息的例子的圖;圖11是示出根據(jù)從圖1所示的記錄/播放設(shè)備傳輸?shù)絺€人計算機的數(shù)據(jù),在顯示器的屏幕上顯示的改變點信息的例子的圖;圖12是根據(jù)本發(fā)明的另一實施例的記錄/播放設(shè)備的框圖;圖13是示出麥克風(fēng)和音頻信號處理器的例子的圖;圖14是示出麥克風(fēng)和音頻信號處理器的另一例子的圖;圖15A和15B是用于解釋在記錄處理之后給記錄的音頻信號內(nèi)的改變點分配標(biāo)記的處理的圖;圖16是示出發(fā)言人位置數(shù)據(jù)庫的例子的圖;圖17A和17B是用于解釋根據(jù)從麥克風(fēng)輸出的信號通過識別發(fā)言人位置來識別發(fā)言人的其他示例方案的圖;和圖18是根據(jù)本發(fā)明的另一實施例的記錄/播放設(shè)備的框圖。
具體實施例方式
現(xiàn)在,將參考

根據(jù)本發(fā)明實施例的設(shè)備、方法以及程序。將以實例來說明實施例,在實例中,將本發(fā)明應(yīng)用到IC錄音機中,所述IC錄音機是用于記錄并播放音頻信號的設(shè)備。
第一實施例IC錄音機結(jié)構(gòu)和操作概覽圖1是IC錄音機的框圖,該錄音機是根據(jù)本發(fā)明第一實施例的記錄/播放設(shè)備。參考圖1,根據(jù)第一實施例的IC錄音機包括用微計算機實現(xiàn)的控制器100??刂破?00包括中央處理單元(CPU)101,存儲程序和各種數(shù)據(jù)的只讀存儲器(ROM)102,主要用作工作區(qū)域的隨機訪問存儲器(RAM)103,這些部件經(jīng)CPU總線104相互連接。如下面將要說明的,RAM 103包括壓縮數(shù)據(jù)區(qū)域103(1)和PCM(脈碼調(diào)制)數(shù)據(jù)區(qū)域103(2)。
控制器100經(jīng)文件處理器110被連接到數(shù)據(jù)存儲裝置111,并經(jīng)輸入處理器120被連接到按鍵操作單元121。此外,控制器100經(jīng)模擬/數(shù)字轉(zhuǎn)換器(下文中簡寫為A/D轉(zhuǎn)換器)132被連接到麥克風(fēng)131,并經(jīng)數(shù)字/模擬轉(zhuǎn)換器(下文中簡寫為D/A轉(zhuǎn)換器)134連接到揚聲器133。此外,控制器100還連接到液晶顯示器(LCD)135。在此實施例中,LCD 135包括LCD控制器的功能。
此外,控制器100連接到數(shù)據(jù)壓縮器141、數(shù)據(jù)擴展器142、音頻特征分析器143以及通信接口(下文中簡寫為通信I/F)144。數(shù)據(jù)壓縮器141、數(shù)據(jù)擴展器142以及音頻特征分析器143的功能由圖1中的雙線指示,也可在控制器100的CPU 101執(zhí)行的軟件(例如程序)內(nèi)實現(xiàn)。
在第一實施例中,通信I/F144是數(shù)字接口,諸如USB(通用串行總線)或IEEE(電子和電氣工程師協(xié)會)-1394接口。通信I/F144允許與連接到連接終端145,如個人計算機或數(shù)字照相機的各種電子裝置交換數(shù)據(jù)。
在根據(jù)第一實施例的IC錄音機中,當(dāng)按下按鍵操作單元121的REC按鍵(錄音按鍵)211時,CPU 101控制相關(guān)部件執(zhí)行記錄處理。在記錄處理中,麥克風(fēng)131收集聲音,收集的聲音由A/D轉(zhuǎn)換器132進(jìn)行A/D轉(zhuǎn)換,所得到的數(shù)字?jǐn)?shù)據(jù)由數(shù)據(jù)壓縮器141壓縮,經(jīng)文件處理器110將所獲得的音頻信號記錄在數(shù)據(jù)存儲裝置111的預(yù)定存儲區(qū)域。
第一實施例中的數(shù)據(jù)存儲裝置111是閃存或包括閃存的存儲器卡。如下面要說明的,數(shù)據(jù)存儲裝置111包括數(shù)據(jù)庫區(qū)域111(1)和音頻文件111(2)。
在記錄處理中,根據(jù)第一實施例的IC錄音機,由音頻特征分析器143的功能分別分析具有預(yù)定尺寸的每一處理單元的所記錄的收集到的音頻信號的特征。當(dāng)檢測到特征改變時,IC錄音機分配標(biāo)記到該改變點。這些標(biāo)記允許從記錄的音頻信號中快速搜索到期望的音頻信號段。
圖2是用于解釋在記錄的收集音頻信號內(nèi)的改變點處分配標(biāo)記的處理方案的圖。如上所述,在根據(jù)第一實施例的IC錄音機中,分別分析由麥克風(fēng)131收集到的具有預(yù)定尺寸的每一處理單元的音頻信號的特征。
通過比較當(dāng)前處理單元的特征分析結(jié)果和前一處理單元的特征分析結(jié)果,檢測到從靜默段或噪聲段到話音段的改變點或在某話音段內(nèi)發(fā)言人改變的點,標(biāo)識音頻信號內(nèi)改變的時間位置。然后,在數(shù)據(jù)存儲裝置111內(nèi)將識別的位置存儲為改變點信息(標(biāo)記信息)。這樣,通過存儲指示音頻信號內(nèi)的改變點位置的改變點信息來實現(xiàn)標(biāo)記所記錄的收集到的音頻信號。
作為例子,可以考慮記錄會議進(jìn)行的例子。假設(shè)在記錄開始之后10秒鐘A開始講話,如圖2所示。在此情況中,在A開始講話之前,收集的是靜默,或純語音之外的無意義的聲音,即諸如干擾的噪聲、拉椅子的聲音、或某個物品撞擊桌面的聲音。當(dāng)A開始講話并收集A的講話時,收集到的音頻信號特征分析結(jié)果與A開始講話之前的結(jié)果明顯不相同。
通過音頻特征分析器143檢測到記錄的收集音頻信號中的改變點,識別(獲得)音頻信號中改變點的位置,在數(shù)據(jù)存儲裝置111內(nèi)將指示音頻信號內(nèi)的識別位置的改變點信息存儲為圖2中的標(biāo)記MK1。圖2顯示將記錄開始之后過去的時間存儲為改變點信息的例子。
進(jìn)一步假定B在A結(jié)束講話之后不久開始講話。在B開始講話之前的時間段是靜默段或噪聲段。在此例子中一樣,當(dāng)B開始講話并且收集B的講話時,對收集的音頻信號的特征分析結(jié)果明顯和B開始講話之前的不同。因此,如圖2標(biāo)記MK2所示,在數(shù)據(jù)存儲裝置111內(nèi)存儲改變點信息(標(biāo)記MK2),從而將標(biāo)記分配給B講話的開始點。
此外,當(dāng)B講話時可能發(fā)生C插話的情況。在此情況中,由于B的聲音和C的聲音不同,對收集的音頻信號的分析結(jié)果在B、C之間不同。因此,如圖2標(biāo)記MK3所示,在數(shù)據(jù)存儲裝置111內(nèi)存儲改變點信息(標(biāo)記MK3),從而將標(biāo)記分配給C講話的起始點。
如上所述,在根據(jù)第一實施例的IC錄音機的記錄處理中,分析收集的音頻信號的特征,并存儲音頻信號特征中的改變點。因此,可將標(biāo)記分配給音頻信號特征內(nèi)的改變點。
參考圖2,標(biāo)記MK1、MK2、MK3的“其他”部分允許與該標(biāo)記相聯(lián)系地存儲相關(guān)信息。例如,如果通過語音識別將語音轉(zhuǎn)換為文本數(shù)據(jù),則該文本數(shù)據(jù)和相關(guān)標(biāo)記一起存儲。
在根據(jù)第一實施例的IC錄音機中,當(dāng)按下按鍵操作單元121的PLAY按鍵(播放按鍵)212時,CPU 101控制相關(guān)部件執(zhí)行播放處理。更具體地,經(jīng)文件處理器110讀取記錄在數(shù)據(jù)存儲裝置111預(yù)定存儲區(qū)域的壓縮數(shù)字音頻信號,由數(shù)據(jù)擴展器142擴展該數(shù)字音頻信號,借此恢復(fù)壓縮之前的原始數(shù)字音頻信號。恢復(fù)的數(shù)字音頻信號被D/A轉(zhuǎn)換器134轉(zhuǎn)換為模擬音頻信號,將該模擬信號提供到揚聲器133。因此,產(chǎn)生要播放的對應(yīng)于記錄的音頻信號的聲音。
在根據(jù)第一實施例的IC錄音機的播放處理中,當(dāng)操作按鍵操作單元121的NEXT按鍵(用于定位下一標(biāo)記的按鍵)214或PREV按鍵(用于定位前一標(biāo)記的按鍵)215時,播放位置被快速地設(shè)定到相關(guān)標(biāo)記的位置,從而播放從那里開始。
圖3是示出根據(jù)操作在LCD 135上所顯示的信息的改變的圖,該圖用于解釋當(dāng)播放記錄的音頻信號時,用于定位記錄的音頻信號上的由標(biāo)記所指示的位置的操作。參考圖3,當(dāng)按下PLAY按鍵211時,如前所述,CPU 101控制相關(guān)部件從指定的記錄音頻信號的開頭開始播放。
在對應(yīng)于A的講話的部分,根據(jù)參考圖2所述在記錄處理中分配的標(biāo)記MK1,顯示A講話開始的時刻,以及指示該標(biāo)記是在開始記錄之后所分配的第一個標(biāo)記的“序列號1”,如圖3A部分所示。
當(dāng)播放繼續(xù)并且對應(yīng)B講話的部分開始播放時,顯示B講話的開始時刻,以及指示該標(biāo)記是在開始記錄之后所分配的第二個標(biāo)記的“序列號2”,如圖3B部分所示。然后,當(dāng)按下PREV按鍵215時,CPU 101將播放位置設(shè)定到A講話的起始點,即標(biāo)記MK1指示的開始點之后的10秒(0分鐘,10秒),從而播放從那里重新開始,如圖3C部分所示。
然后,當(dāng)按下NEXT按鍵214時,CPU 101將播放位置設(shè)定到B的講話的開始點,即在由標(biāo)記MK2指示的開始點之后的1分鐘25秒,從而播放從那里恢復(fù),如圖3D部分所示。當(dāng)再次按下NEXT按鍵214時,CPU 101將播放位置設(shè)定到C的講話的起始點,即由標(biāo)記MK3指示的開始點后的2分鐘30秒,播放從那里恢復(fù),如圖3E部分所示。
如上所述,在根據(jù)第一實施例的IC錄音機中,在記錄處理中,自動分析收集的音頻信號的特征,并分配標(biāo)記到特征內(nèi)的改變點。此外,在播放處理中,通過操作NEXT按鍵214或PREV按鍵215,可將播放位置快速地設(shè)定到由分配的標(biāo)記指示的記錄音頻信號的點,從而播放可以從那里開始。
這允許用戶將播放位置快速地設(shè)定到感興趣的發(fā)言人的講話,并播放和收聽記錄的音頻信號的這一部分。因此,用戶可以快速地準(zhǔn)備關(guān)于感興趣的講話的會議記錄。
雖然為簡化起見,在第一實施例中將指示從記錄開始過去的時間的信息用作改變點信息,但不限于此,例如,記錄在數(shù)據(jù)存儲裝置111的記錄介質(zhì)上的音頻信號的地址也可用作改變點信息。
IC錄音機操作詳細(xì)說明下面,參考圖4和5所示的流程圖詳細(xì)說明根據(jù)第一實施例的IC錄音機所執(zhí)行的記錄處理和播放處理。
記錄處理首先,將說明記錄處理。圖4是顯示由根據(jù)第一實施例的IC錄音機所執(zhí)行的記錄處理的流程圖。圖4所示處理由控制相關(guān)部件的CPU 101執(zhí)行。
當(dāng)被供電但未操作時,根據(jù)第一實施例的IC錄音機等待用戶的輸入操作(步驟S101)。當(dāng)用戶按下操作單元121的操作按鍵時,輸入處理器120檢測到該操作,并通知CPU 101該操作。CPU 101確定所接受的操作是否是按下REC按鍵211(步驟S102)。
如果在步驟S102中確定接受的操作不是REC按鍵211的按下,CPU 101執(zhí)行對應(yīng)于用戶操作的按鍵的處理,例如,對應(yīng)PLAY按鍵212的播放處理,對應(yīng)NEXT按鍵124的定位下一標(biāo)記的處理,或?qū)?yīng)PREV按鍵215的定位前一標(biāo)記的處理(步驟S103)。顯然,也允許快速前進(jìn)或快速后退。
如果在步驟S102確定按下REC按鍵,CPU 101命令文件處理器110執(zhí)行文件記錄處理。響應(yīng)于該命令,文件處理器110在數(shù)據(jù)存儲裝置111內(nèi)創(chuàng)建音頻文件111(2)(步驟S104)。
然后,CPU 101確定按鍵操作單元121的STOP按鍵213是否被按下(步驟S105)。如果在步驟S105確定按下了STOP按鍵213,則執(zhí)行如后面所述的預(yù)定終止處理(步驟S114),并退出圖4所示的處理。
如果在步驟S105確定沒有按下STOP按鍵213,CPU 101命令A(yù)/D轉(zhuǎn)換器132將經(jīng)麥克風(fēng)131輸入的模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號,從而收集的聲音是數(shù)字化的(步驟S106)。
響應(yīng)于該命令,A/D轉(zhuǎn)換器132將經(jīng)麥克風(fēng)131輸入的模擬音頻信號轉(zhuǎn)換為規(guī)則周期(即對于具有預(yù)定尺寸的每一處理單元)的數(shù)字音頻信號,將數(shù)字音頻信號寫入到RAM 103的PCM-數(shù)據(jù)區(qū)域103(2),并通知CPU 101該寫入(步驟S107)。
響應(yīng)于該通知,CPU 101命令數(shù)據(jù)壓縮器141壓縮存儲在RAM 103的PCM數(shù)據(jù)區(qū)域103(2)內(nèi)的數(shù)字音頻信號(PCM數(shù)據(jù))(步驟S108)。響應(yīng)于該命令,數(shù)據(jù)壓縮器141壓縮RAM 103的PCM數(shù)據(jù)區(qū)域103(2)內(nèi)的數(shù)字音頻信號,并將壓縮的數(shù)字音頻信號寫入到RAM 103的壓縮數(shù)據(jù)區(qū)域103(1)(步驟S109)。
然后,CPU 101命令文件處理器110將RAM 103的壓縮數(shù)據(jù)區(qū)域103(1)內(nèi)的壓縮數(shù)字音頻信號寫入到創(chuàng)建在數(shù)據(jù)存儲裝置111中的音頻文件111(2)內(nèi)。因此,文件處理器110將RAM 103的壓縮數(shù)據(jù)區(qū)域103(1)內(nèi)的壓縮數(shù)字音頻信號寫入到數(shù)據(jù)存儲裝置111中的音頻文件111(2)內(nèi)(步驟S110)。
當(dāng)完成將壓縮數(shù)字音頻信號寫入到音頻文件111(2)后,文件處理器110通知CPU 101該完成。然后,CPU 101命令音頻特征分析器143分析先前記錄在RAM 103的PCM數(shù)據(jù)區(qū)域103(2)的數(shù)字音頻信號的特征,從而音頻特征分析器143提取RAM 103的PCM數(shù)據(jù)區(qū)域103(2)內(nèi)的數(shù)字音頻信號的特征(步驟S111)。
音頻特征分析器143的數(shù)字音頻信號的特征分析(特征提取)可以基于不同方法,例如,聲波紋分析、語音速率分析、停頓分析、或重音分析。為簡化說明起見,在此假定根據(jù)第一實施例的IC錄音機的音頻特征分析器143使用聲波紋分析來提取要分析的數(shù)字音頻信號的特征。
音頻特征分析器143比較當(dāng)前提取的音頻特征(聲波紋數(shù)據(jù))和先前提取的聲波紋數(shù)據(jù),以確定從輸入音頻信號提取的特征是否已從先前的特征發(fā)生改變,并通知CPU 101該結(jié)果?;谠摻Y(jié)果,CPU 101確定收集的聲音的特征是否改變(步驟S112)。
如果在步驟S112確定特征未改變,則CPU 101在下一時段(下一處理單元)重復(fù)從步驟S105到步驟S112對音頻信號的處理。
如果在步驟S112確定特征已經(jīng)改變,則CPU 101確定發(fā)言人已改變,并命令文件處理器110分配標(biāo)記到要處理的音頻信號的特征中的改變點(步驟S113)。響應(yīng)于該命令,文件處理器110將指示關(guān)于音頻文件111(2)的音頻特征中的改變點的信息,如指示從音頻文件111(2)開始的時間的信息或指示記錄地址的信息寫入到數(shù)據(jù)存儲裝置111的數(shù)據(jù)庫區(qū)域111(1)。此時,音頻文件111(2)和指示音頻特征改變點的信息相互關(guān)聯(lián)的存儲。
在步驟S113之后,CPU 101在下一時段(下一處理單元)重復(fù)從步驟S105到步驟S112的對音頻信號的處理。
如果在步驟S105確定用戶按下了STOP按鍵213,則CPU 101執(zhí)行預(yù)定的終止處理,所述處理包括命令文件處理器110停止將數(shù)據(jù)寫入到數(shù)據(jù)存儲裝置111的音頻文件111(2)內(nèi);命令數(shù)據(jù)壓縮器141停止壓縮以及命令A(yù)/D轉(zhuǎn)換器132停止到數(shù)字信號的轉(zhuǎn)換(步驟S114)。然后退出圖4所示處理。
音頻特征分析器143通過保持先前提取的音頻特征數(shù)據(jù)(聲波紋數(shù)據(jù)),并將先前的音頻特征數(shù)據(jù)和最近提取的音頻特征數(shù)據(jù)(聲波紋數(shù)據(jù))比較,來確定音頻特征是否改變。如果它滿足將最近提取的特征數(shù)據(jù)僅和前一組特征數(shù)據(jù)比較,則音頻特征分析器就能恒定地僅保持前一組特征數(shù)據(jù)。如果要將最近提取的特征數(shù)據(jù)和兩組或三組先前的特征數(shù)據(jù)比較以提高精確性,即當(dāng)觀察到來自先前兩組或三組特征數(shù)據(jù)之一不同時確定特征已改變,則必須保持兩組或三組先前的特征數(shù)據(jù)。
如上所述,在根據(jù)第一實施例的IC錄音機中,能分析記錄的收集音頻信號的特征,檢測收集的音頻信號的特征內(nèi)的改變點,并分配標(biāo)記到收集的音頻信號中的改變點的位置。
播放處理下面,將說明播放處理。圖5是顯示由根據(jù)第一實施例的IC錄音機執(zhí)行的播放處理的流程圖。圖5所示處理由控制相關(guān)部件的CPU 101執(zhí)行。
在根據(jù)第一實施例的IC錄音機的播放處理中,能夠使用如參考圖4所述的在記錄處理中分配到所收集和記錄的音頻信號的特征中的改變點的標(biāo)記,從記錄的音頻信號中快速地找到期望的音頻信號段。
當(dāng)被供電但不操作時,根據(jù)第一實施例的IC錄音機等待用戶的輸入操作(步驟S201)。當(dāng)用戶按下按鍵操作單元121的操作按鍵時,輸入處理器120檢測到該操作,并通知CPU 101該操作。CPU 101確定接受的操作是否是按下PLAY按鍵212(步驟S202)。
如果在步驟S202確定接受的操作不是PLAY按鍵212的按下,CPU 101執(zhí)行對應(yīng)于用戶操作的按鍵的處理,例如,對應(yīng)REC按鍵212的記錄處理、對應(yīng)NEXT按鍵124的定位下一標(biāo)記的處理或?qū)?yīng)PREV按鍵215的定位前一標(biāo)記的處理(步驟S203)。顯然,也允許快速前進(jìn)或快速向后。
如果在步驟S202確定接受的操作是播放按鍵212的按下,CPU 101命令文件處理器110讀取數(shù)據(jù)存儲裝置111上的音頻文件111(2)(步驟S204)。然后,CPU 101確定是否按下了按鍵操作單元121的STOP按鍵213(步驟S205)。
如果在步驟S205確定操作了STOP按鍵213,則將執(zhí)行如后所述的終止處理(步驟S219)。然后退出圖5所示處理。
如果在步驟S205確定沒有操作STOP按鍵213,則CPU 101命令文件處理器110讀取存儲在數(shù)據(jù)存儲裝置111的音頻文件111(2)內(nèi)的壓縮數(shù)字音頻信號的數(shù)量,所述數(shù)量對應(yīng)于系統(tǒng)所規(guī)定的處理單元的尺寸,并將該數(shù)字音頻信號寫入到RAM 103的壓縮數(shù)據(jù)區(qū)域103(1)(步驟S206)。
當(dāng)完成寫入時,通知CPU 101該完成。然后,CPU 101命令數(shù)據(jù)擴展器142擴展RAM 103的壓縮數(shù)據(jù)區(qū)域103(1)內(nèi)的壓縮數(shù)字音頻信號。然后,數(shù)據(jù)擴展器142擴展壓縮數(shù)字音頻信號,并將擴展后的數(shù)字音頻信號寫入到RAM 103的PCM數(shù)據(jù)區(qū)域103(2)(步驟S207)。
當(dāng)完成寫入時,通知CPU 101該完成。然后,CPU 101命令D/A轉(zhuǎn)換器134將RAM 103的PCM數(shù)據(jù)區(qū)域103(2)內(nèi)的擴展數(shù)字音頻信號轉(zhuǎn)換為模擬信號,并提供該模擬信號到揚聲器133。
因此,對應(yīng)于存儲在數(shù)據(jù)存儲裝置111的音頻文件111(2)內(nèi)的數(shù)字音頻信號的聲音從揚聲器133輸出。然后,D/A轉(zhuǎn)換器134通知CPU 101已經(jīng)輸出通過D/A轉(zhuǎn)換獲得的模擬音頻信號。然后,CPU 101確定是否操作了按鍵操作單元121的操作按鍵(步驟S209)。
如果在步驟S209確定沒有操作任何操作按鍵,則重復(fù)從步驟S205的處理從而繼續(xù)播放數(shù)據(jù)存儲裝置111的音頻文件111(2)內(nèi)的數(shù)字音頻信號。
如果在步驟S209確定操作了操作按鍵,CPU 101確定被操作的按鍵是否是PREV按鍵215(步驟S210)。如果在步驟S210確定操作了PREV按鍵215,則CPU 101命令文件處理器110停止從音頻文件111(2)內(nèi)讀取數(shù)字音頻信號,命令數(shù)據(jù)擴展器142停止擴展,并命令D/A轉(zhuǎn)換器134停止到模擬信號的轉(zhuǎn)換(步驟S211)。
然后,CPU 101命令文件處理器110從數(shù)據(jù)存儲裝置111的數(shù)據(jù)庫區(qū)域111(1)讀取當(dāng)前播放位置之前一個的標(biāo)記信息(改變點信息),從而將播放位置設(shè)定到由該標(biāo)記信息指示的音頻信號位置,并從這里開始播放(步驟S212)。此時,如參考圖3所述的,顯示對應(yīng)于該用于設(shè)定播放位置的標(biāo)記信息的播放位置信息(步驟S213)。然后,處理從步驟S205重復(fù)。
如果在步驟S210確定被操作的按鍵不是PREV按鍵215,則CPU 101確定操作的按鍵是否是NEXT按鍵214(步驟S214)。如果在步驟S214確定操作了NEXT按鍵214,則CPU 101命令文件處理器110停止從音頻文件111(2)讀取數(shù)字音頻信號,命令數(shù)據(jù)擴展器142停止擴展,并命令D/A轉(zhuǎn)換器134停止到模擬信號的轉(zhuǎn)換(步驟S215)。
然后,CPU 101命令文件處理器110從數(shù)據(jù)存儲裝置111的數(shù)據(jù)庫區(qū)域111(1)讀取當(dāng)前播放位置之后一個的標(biāo)記信息(改變點信息),從而將播放位置設(shè)定到由該標(biāo)記信息指示的音頻信號位置,并從這里開始播放(步驟S216)。此時,如參考圖3所述的,顯示對應(yīng)于該用于設(shè)定播放位置的標(biāo)記信息的播放位置信息(步驟S217)。然后,處理從步驟S205重復(fù)。
如果在步驟S214確定操作的按鍵不是NEXT按鍵214,則CPU 101執(zhí)行對應(yīng)于操作的按鍵的處理,例如快進(jìn)或快退。然后,處理從步驟S205重復(fù)。
如上所述,在記錄處理中,當(dāng)檢測到音頻特征改變時,IC錄音機假定發(fā)言人改變,并自動分配標(biāo)記到該改變點。因此,在播放處理中,允許用戶僅僅通過按下PREV按鍵215或NEXT按鍵214到達(dá)各個講話的開始。這極大的促進(jìn)了會議記錄的準(zhǔn)備,例如,當(dāng)重復(fù)播放特定講話或當(dāng)搜索重要講話時。也就是說,能夠快速地從記錄的音頻信號中找到期望的段。
此外,自動檢測收集的音頻信號的特征中的改變點,并自動分配標(biāo)記到改變點。因此,無需用戶的任何操作就將標(biāo)記分配給改變點。
第一實施例的修改當(dāng)記錄會議進(jìn)行并根據(jù)該記錄準(zhǔn)備會議記錄時,如果能夠不用播放記錄的聲音就找到誰在講話會更加方便。因此,在根據(jù)第一實施例的修改的IC錄音機中,通過分析會議參加者的聲音特征而獲得的聲波紋數(shù)據(jù)與符號相聯(lián)系地存儲,其中所述符號用于識別各個參加者,由此分配允許識別發(fā)言人的標(biāo)記。
根據(jù)該修改的IC錄音機和圖1所示根據(jù)第一實施例的IC錄音機結(jié)構(gòu)相類似。然而,在根據(jù)修改的IC錄音機中,例如在數(shù)據(jù)存儲裝置111或RAM103的存儲區(qū)域中創(chuàng)建關(guān)于會議參加者的音頻特征數(shù)據(jù)庫。在下面的說明中,假定在數(shù)據(jù)存儲裝置111的存儲區(qū)域內(nèi)創(chuàng)建音頻特征數(shù)據(jù)庫。
圖6是顯示在根據(jù)修改的IC錄音機的數(shù)據(jù)存儲裝置111的存儲區(qū)域內(nèi)創(chuàng)建的音頻特征數(shù)據(jù)庫的例子的圖。如圖6所示,該例中的音頻特征數(shù)據(jù)庫包括用于識別會議參加者的識別符(例如根據(jù)注冊順序的序列號)、會議參加者的姓名、通過分析會議參加者的聲音特征獲取的聲波紋數(shù)據(jù)、諸如會議參加者面部圖像的圖像數(shù)據(jù)、分配給各個會議參加者的圖標(biāo)數(shù)據(jù)、以及諸如文本數(shù)據(jù)的其他數(shù)據(jù)。
聲波紋數(shù)據(jù)、圖像數(shù)據(jù)、圖標(biāo)數(shù)據(jù)以及其他數(shù)據(jù)的每一個都以文件形式存儲在數(shù)據(jù)存儲裝置111內(nèi),將各個會議參加者的識別符作為關(guān)鍵信息(聯(lián)合信息)。通過特征分析獲得的聲波紋數(shù)據(jù)是在會議之前通過收集會議參加者的聲音并分析這些聲音的特征預(yù)先獲得的。
即,根據(jù)修改的IC錄音機具有音頻特征數(shù)據(jù)庫創(chuàng)建模式。當(dāng)選擇音頻特征數(shù)據(jù)庫創(chuàng)建模式時,收集會議參加者的聲音,分析收集的聲音的特征以獲得聲波紋數(shù)據(jù)。在數(shù)據(jù)存儲裝置111的存儲區(qū)域內(nèi)與諸如序列號碼的識別符相關(guān)聯(lián)地存儲該聲波紋數(shù)據(jù)。
除了識別符以及聲波紋數(shù)據(jù)的其他信息,例如姓名、圖像數(shù)據(jù)、以及圖標(biāo)數(shù)據(jù)經(jīng)連接到連接終端145的個人計算機等提供給根據(jù)修改的IC錄音機,并和識別符以及聲波紋數(shù)據(jù)相關(guān)聯(lián)地存儲,如圖6所示。顯然,例如,可通過操作提供在IC錄音機按鍵操作單元121上的操作按鍵來輸入姓名,并可用連接到連接終端145的數(shù)字照相機捕獲圖像數(shù)據(jù)。
如參考圖1,2和4所述,在根據(jù)修改的IC錄音機中也分析收集的聲音的特征來檢測聲波紋數(shù)據(jù)內(nèi)的改變點,并自動分配標(biāo)記到對應(yīng)于改變點的音頻信號位置。當(dāng)檢測到改變點時,檢查最近收集的聲音的聲波紋數(shù)據(jù)以及音頻特征數(shù)據(jù)庫內(nèi)的聲波紋數(shù)據(jù)的匹配,在分配的標(biāo)記中包括具有匹配聲波紋數(shù)據(jù)的參加者的識別符。
圖7是用于解釋分配標(biāo)記給根據(jù)修改的IC錄音機記錄并收集的音頻信號的處理方案的圖。該分配標(biāo)記的處理基本上和參考圖2所述的相同。然而,將發(fā)言人的識別符附加到標(biāo)記上。
作為例子,將考慮記錄會議進(jìn)行的情況。假定A在開始記錄之后10秒開始講話,如圖2所示。在此情況中,在A開始講話之前,收集的是靜默,或純語音之外的無意義的聲音,即諸如干擾的噪聲、拉椅子的聲音、或某個物品撞擊桌面的聲音。因此,收集到的音頻信號特征分析結(jié)果與A開始講話之前的結(jié)果明顯不相同。標(biāo)識(獲取)在音頻信號中的改變點的位置,將識別的改變點信息存儲為圖7中的標(biāo)記MK1。
在此情況中,檢查最近的聲波紋數(shù)據(jù)和音頻特征數(shù)據(jù)庫的聲波紋數(shù)據(jù)之間的匹配,并在標(biāo)記MK1中包括具有匹配聲波紋數(shù)據(jù)的發(fā)言人的識別符(會議參加者)。圖7還顯示將從記錄開始之后過去的時間存儲為改變點信息的例子。
進(jìn)一步假定在A停止講話后不久B開始講話,B開始講話之前的一小段時間段是靜默或噪聲段。在此情況中,同樣,當(dāng)B開始講話并收集B的聲音時,收集的音頻信號的特征分析結(jié)果和B開始講話之前明顯不相同。因此,如圖7中標(biāo)記MK2所示,存儲改變點信息(標(biāo)記MK2),以便將標(biāo)記分配給B講話的起始點。
在此情況中,同樣的,檢查最近的聲波紋數(shù)據(jù)和音頻特征數(shù)據(jù)庫的聲波紋數(shù)據(jù)之間的匹配,并在標(biāo)記MK2中包括具有匹配聲波紋數(shù)據(jù)的發(fā)言人的識別符(會議參加者)。
此外,還可能出現(xiàn)當(dāng)B講話時C插話的情況。在此情況下,由于B的聲音不同于C的聲音,收集的音頻信號的分析結(jié)果在B、C之間不同。因此,如圖7中標(biāo)記MK3所示,在數(shù)據(jù)存儲裝置111內(nèi)存儲改變點信息(標(biāo)記MK3),從而將標(biāo)記分配給C講話的起始點。
在此情況中,同樣的,檢查最近的聲波紋數(shù)據(jù)和音頻特征數(shù)據(jù)庫的聲波紋數(shù)據(jù)之間的匹配,并在標(biāo)記MK3中包括具有匹配聲波紋數(shù)據(jù)的發(fā)言人的識別符(會議參加者)。
這樣,能夠識別記錄的音頻信號中的哪一部分是誰的講話。例如,能夠輕易地僅播放A的講話并概括A的講話。
對于該修改中的標(biāo)記的其他信息,例如收集的聲音通過語音識別被轉(zhuǎn)換為文本數(shù)據(jù),將該文本數(shù)據(jù)以文本數(shù)據(jù)文件的形式存儲為其他信息。通過使用該文本數(shù)據(jù)文件,能快速地準(zhǔn)備會議記錄或講話概要。
在根據(jù)修改的IC錄音機中,能以類似參考圖1、3和5所述的方式播放記錄的聲音。此外,在根據(jù)修改的IC錄音機的情況中,能無需播放記錄的聲音就能識別記錄的聲音中的每一發(fā)言人的講話。
圖8是顯示LCD 135上顯示的信息是怎樣隨著操作而改變的圖,該圖用于說明當(dāng)播放記錄的音頻信號時,將播放位置設(shè)定到標(biāo)記位置的操作。如圖8所示,當(dāng)按下PLAY按鍵211時,如前所述,CPU 101控制相關(guān)部件,從而從指定的所記錄的音頻信號的起始處開始播放。
在對應(yīng)于A的講話的部分,根據(jù)如參考圖7所述的記錄處理中分配的標(biāo)記MK1,顯示關(guān)于A的講話的開始時刻D(1)、對應(yīng)于發(fā)言人圖像數(shù)據(jù)的面部圖片D(2)、發(fā)言人姓名D(3)、以及該講話起始部分的文本數(shù)據(jù)D(4),并顯示播放標(biāo)記D(5),如圖8的A部分所示。
然后,繼續(xù)播放,當(dāng)開始播放對應(yīng)于B的講話的部分時,根據(jù)記錄處理中分配的播放標(biāo)記MK2,顯示關(guān)于B的講話的開始時刻D(1)、對應(yīng)于發(fā)言人的圖像數(shù)據(jù)的面部圖片D(2)、發(fā)言人姓名D(3)、以及該講話起始部分的文本數(shù)據(jù)D(4),和顯示播放標(biāo)記D(5),如圖8的B部分所示。
然后,當(dāng)按下PREV按鍵215時,CPU 101將播放位置設(shè)定到由標(biāo)記MK1指示的A講話的起始點,即開始之后的10秒(0分鐘,10秒),因此播放從那里開始,如圖8的C部分所示。在此情況中,與圖8A部分所示情況類似地顯示關(guān)于A的講話的開始時刻D(1)、對應(yīng)于發(fā)言人的圖像數(shù)據(jù)的面部圖片D(2)、發(fā)言人姓名D(3)、以及該講話起始部分的文本數(shù)據(jù)D(4),并顯示播放標(biāo)記D(5)。
然后,當(dāng)按下NEXT按鍵214時,CPU 101將播放位置設(shè)定到B的講話的起始點,即由標(biāo)記MK2指示的開始之后的1分鐘25秒,從而播放從那里開始,如圖8的D部分所示。在此情況中,與圖8B部分所示情況類似地顯示關(guān)于B的講話的開始時刻D(1)、對應(yīng)于發(fā)言人的圖像數(shù)據(jù)的面部圖片D(2)、發(fā)言人姓名D(3)、以及該講話起始部分的文本數(shù)據(jù)D(4),并顯示播放標(biāo)記D(5)。
當(dāng)再次按下NEXT按鍵214,CPU 101將播放位置設(shè)定到C的講話的起始點,即由標(biāo)記MK3指示的開始之后的2分鐘30秒,從而播放從那里開始,如圖8的E部分所示。在此情況中,顯示關(guān)于C的講話的開始時刻D(1)、對應(yīng)于發(fā)言人的圖像數(shù)據(jù)的面部圖片D(2)、發(fā)言人姓名D(3)、以及該講話起始部分的文本數(shù)據(jù)D(4),并顯示播放標(biāo)記D(5)。
在該修改中,可以提供一種模式,在該模式中,當(dāng)快速地按下NEXT按鍵214或PREV按鍵215兩次,例如,當(dāng)正播放A的講話時,播放位置被設(shè)定到對應(yīng)于A的講話的下一段或前一段,從而播放從那里開始。即,通過重復(fù)該操作,能以向前或向后的順序僅僅播放對應(yīng)于A的講話的部分。顯然,除了NEXT按鍵214或PREV按鍵215,可以提供專用于該模式的操作按鍵。此時,可以按序自動播放對應(yīng)于A的講話的部分。
如上所述,在根據(jù)修改的IC錄音機中,在記錄處理期間,自動分析收集的音頻信號的特征,并對特征中的改變點分配標(biāo)記。在播放處理中,通過操作NEXT按鍵214或PREV按鍵215,可將播放位置快速設(shè)定到分配的標(biāo)記所指示的記錄音頻信號的位置,從而從那里開始播放。
此外,在記錄音頻信號的改變點,能夠通過顯示發(fā)言人的姓名或面部圖片來闡明發(fā)言人的標(biāo)識。因此,易于快速地找到感興趣的發(fā)言人,僅播放對應(yīng)于特定發(fā)言人的講話的部分等。顯然,作為識別發(fā)言人的信息,可以顯示對應(yīng)特定于每一發(fā)言人的圖標(biāo)數(shù)據(jù)的圖標(biāo)。此外,能夠顯示講話開始部分的文本數(shù)據(jù),該文本數(shù)據(jù)用于區(qū)分是否是感興趣的講話。
此外,根據(jù)該修改的IC錄音機的用戶被允許通過使用播放時顯示的信息快速地將播放位置設(shè)定到感興趣的人的講話,播放并收聽記錄的音頻信號。因此,用戶可以快速地準(zhǔn)備關(guān)于感興趣的講話的會議記錄。
即,能夠無需播放記錄的音頻信號就直觀地認(rèn)出是誰在發(fā)言,從而易于找到特定發(fā)言人的講話。由于可以使用便于識別發(fā)言人的信息,如發(fā)言人的面部圖片,而不是文本字符串或符號,因此改進(jìn)了搜索的容易性。
此外,當(dāng)沒有識別出一個發(fā)言人時,即當(dāng)該發(fā)言人未注冊或當(dāng)即使該發(fā)言人早已注冊,但I(xiàn)C錄音機未能識別出該發(fā)言人時,與該未識別發(fā)言人的講話相關(guān)聯(lián)地分配指示未識別發(fā)言人的符號,從而易于找到這一部分。在此情況中,準(zhǔn)備會議記錄的人播放該未識別發(fā)言人的講話,并識別該發(fā)言人。
當(dāng)將未識別的發(fā)言人識別為注冊發(fā)言人時,可將和該發(fā)言人相關(guān)的符號分配為標(biāo)記。當(dāng)未識別的發(fā)言人被識別為未注冊發(fā)言人時,可執(zhí)行注冊新發(fā)言人的操作。從記錄的語音中提取該發(fā)言人語音的特征,由于該符號與之相關(guān)聯(lián),可以使用在IC錄音機中預(yù)先注冊的符號或輸入到IC錄音機的文本字符串、(如果提供的話)由IC錄音機的照相機圖像形成功能捕獲的圖像、從外部裝置獲得的圖像數(shù)據(jù)等。
根據(jù)該修改的IC錄音機內(nèi)執(zhí)行的記錄處理與參考圖4所述的記錄處理類似。然而,當(dāng)在步驟S113分配指示發(fā)言人改變的標(biāo)記MK1,MK2,MK3,...時,檢查和音頻特征數(shù)據(jù)庫內(nèi)d聲波紋數(shù)據(jù)的匹配以分配相關(guān)發(fā)言人的識別符。當(dāng)沒有對應(yīng)的聲波紋數(shù)據(jù)時,分配指示缺少對應(yīng)聲波紋數(shù)據(jù)的標(biāo)記。
在根據(jù)修改的IC錄音機內(nèi)執(zhí)行的播放處理與參考圖5所述的播放處理類似。然而,當(dāng)在步驟S217顯示指示播放位置的信息時,顯示發(fā)言人的面部圖像、發(fā)言人姓名以及代表講話內(nèi)容的文本數(shù)據(jù)等。
雖然從記錄起始點過去的時間在根據(jù)修改的IC錄音機內(nèi)被用作改變點信息,但不限于此,在數(shù)據(jù)存儲裝置111的記錄介質(zhì)上的記錄音頻信號的地址也可被用作改變點信息。
用于分配標(biāo)記的執(zhí)行處理過程定時在根據(jù)第一實施例的IC錄音機以及根據(jù)第一實施例修改的IC錄音機中,檢測收集的聲音內(nèi)的改變點,并在記錄處理中分配標(biāo)記給對應(yīng)于改變點的音頻信號的位置。然而,不限于第一實施例及其修改,可在記錄處理完成之后分配標(biāo)記。即,可在播放處理中分配標(biāo)記,或可單獨地執(zhí)行標(biāo)記分配處理。
圖9是在記錄處理完成之后用于分配標(biāo)記給記錄的音頻信號內(nèi)的改變點的處理流程圖。即,在播放處理期間給記錄的聲音內(nèi)的改變點分配標(biāo)記時或當(dāng)單獨執(zhí)行給記錄的聲音內(nèi)的改變點分配標(biāo)記的處理時執(zhí)行圖9所示處理。圖9所示處理也由IC錄音機的控制相關(guān)部件的CPU 101執(zhí)行。
CPU 101命令文件處理器110以預(yù)定尺寸的單元讀取存儲在數(shù)據(jù)存儲裝置111的音頻文件內(nèi)的壓縮記錄音頻信號(步驟S301),并確定是否讀取了所有記錄的音頻信號(步驟S302)。
如果在步驟S302確定沒有讀取全部記錄的音頻信號,CPU 101命令數(shù)據(jù)擴展器142擴展壓縮的記錄音頻信號(步驟S303)。然后,CPU 101命令音頻特征分析器143分析擴展音頻信號的特征以獲得聲波紋數(shù)據(jù),并比較該聲波紋數(shù)據(jù)和先前獲得的聲波紋數(shù)據(jù),由此確定記錄的音頻信號的特征是否改變(步驟S305)。
如果在步驟S305確定記錄的音頻信號的特征沒有改變,從步驟S301重復(fù)該處理。如果在步驟S305確定記錄的音頻信號的特征改變了,CPU 101確定發(fā)言人已經(jīng)改變,并命令文件處理器110分配標(biāo)記給音頻特征改變的點(步驟S306)。
因此,文件處理器110將指示從文件起始處過去的時間的信息或指示對應(yīng)記錄位置的地址的信息寫入到數(shù)據(jù)存儲裝置111的數(shù)據(jù)庫區(qū)域111(1),作為指示關(guān)于音頻文件111(2)的音頻特征中的改變點的信息。在此情況中,音頻文件以及指示音頻特征中的改變點的信息相互關(guān)聯(lián)的存儲。
在步驟S306之后,CPU 101對下一時段(下一處理單元)的音頻信號重復(fù)從步驟S301的步驟。然后,如果在步驟S302確定讀取了所有的記錄音頻信號,執(zhí)行預(yù)定的終止處理(步驟S307),退出圖9所示處理。
因此,在記錄處理之后,能夠在播放處理期間檢測到記錄的聲音內(nèi)的改變點,并為記錄的聲音分配標(biāo)記,或獨立執(zhí)行分配標(biāo)記給記錄的聲音的處理。當(dāng)在播放處理中分配標(biāo)記時,如9所示在步驟S303擴展的音頻信號被D/A轉(zhuǎn)換,得到的模擬音頻信號被提供給揚聲器133。
如上所述,通過在記錄之后給記錄的音頻信號的特征中的改變點分配標(biāo)記,可以降低用于記錄的處理負(fù)載以及功耗。此外,由于用戶可能不希望在每個記錄中自動分配標(biāo)記,允許設(shè)定是否在記錄期間自動分配標(biāo)記。當(dāng)用戶關(guān)閉自動標(biāo)記分配功能來執(zhí)行記錄時,如果稍后希望分配標(biāo)記,則允許用戶甚至如上所述在記錄處理之后分配標(biāo)記給記錄的音頻信號,這是非常方便的。
此外,由于可如上所述分配標(biāo)記給記錄的音頻信號,應(yīng)用到不具有記錄功能但具有信號處理功能的設(shè)備是可能的。例如,該實施例可被應(yīng)用于用在個人計算機的應(yīng)用軟件。在此情況下,由音頻記錄設(shè)備記錄的音頻信號被傳送到個人計算機,從而可由運行在個人計算機上的信號處理應(yīng)用軟件來分配標(biāo)記。
此外,通過網(wǎng)絡(luò)等共享由根據(jù)本實施例的設(shè)備創(chuàng)建的數(shù)據(jù),能夠?qū)?shù)據(jù)自身用作會議記錄而無需轉(zhuǎn)錄該數(shù)據(jù)。
因此,本實施例可應(yīng)用于能進(jìn)行信號處理的各種電子設(shè)備,而不僅僅限于記錄設(shè)備。因此,使用根據(jù)本實施例的電子裝置來處理音頻信號,對于已經(jīng)記錄的音頻信號可以獲得類似結(jié)果。即,可以更有效地準(zhǔn)備會議記錄。
此外,如前所述,圖1所示根據(jù)第一實施例的IC錄音機包括通信I/F144,從而該IC錄音機能連接到電子設(shè)備,諸如個人計算機。因此,通過傳送由該IC錄音機記錄的數(shù)字音頻信號,包括分配給改變點的標(biāo)記到個人計算機,能夠在具有較大屏幕的個人計算機的顯示器上顯示更詳細(xì)的信息。這允許快速搜索感興趣的發(fā)言人的講話。
圖10和11是顯示基于從根據(jù)第一實施例的IC錄音機傳送到給個人計算機的記錄信號以及分配給記錄信號的改變點信息(標(biāo)記信息),在連接到個人計算機的顯示器200的顯示屏幕上顯示的改變點信息的例子。
在圖10所示例子中,顯示與記錄的音頻信號相關(guān)的時間范圍指示201,以及在時間范圍指示201的適當(dāng)位置上顯示標(biāo)記(改變點)MK1、MK2、MK3、MK4...。因此,能一眼就認(rèn)出多個改變點的位置。此外,例如使用諸如鼠標(biāo)的點擊裝置通過放置其上的光標(biāo)點擊某個標(biāo)記,能夠從那里播放記錄的聲音。
在圖11所示的例子中,在顯示器200的顯示屏幕上同時顯示圖8所示的多組項。更具體的,顯示發(fā)言人的面部圖片211(1)、211(2)、211(3)...,以及對應(yīng)于講話內(nèi)容的文本數(shù)據(jù)212(1)、212(2)、212(3)...,允許快速搜索感興趣的發(fā)言人的講話。此外,還能使用個人計算機的功能顯示標(biāo)題指示210。
在圖11所示的例子中,左側(cè)的“00”、“01”、“02”、“03”...指示從記錄聲音的開始點過去的時間。顯然,可以實現(xiàn)多種顯示模式,例如顯示圖8所示的多個組的項的模式。
通過將數(shù)據(jù)傳送到諸如個人計算機的具有較大顯示器的設(shè)備,在該數(shù)據(jù)中,用識別發(fā)言人的信息(符號)來識別記錄的講話,能夠無需轉(zhuǎn)錄音頻數(shù)據(jù)就準(zhǔn)備好會議記錄。即,由根據(jù)第一實施例的IC錄音機記錄的數(shù)據(jù)被直接用作會議記錄。
此外,使用諸如插入件從而使數(shù)據(jù)在網(wǎng)頁上變得可用并可通過網(wǎng)頁瀏覽器瀏覽的軟件,能通過網(wǎng)絡(luò)共享會議記錄。這有助于極大地降低用于共享信息,例如使信息有效可用的勞動以及時間。
第二實施例IC錄音機的結(jié)構(gòu)和操作概覽圖12是根據(jù)本發(fā)明第二實施例的記錄/播放設(shè)備IC錄音機的框圖。除了提供兩個麥克風(fēng)131(1)和131(2)以及一個音頻信號處理器136之外,根據(jù)第二實施例的IC錄音機和圖1所示根據(jù)第一實施例的IC錄音機的構(gòu)成相同,該處理器用于處理從兩個麥克風(fēng)131(1)和131(2)輸入的音頻信號。因此,對于根據(jù)第二實施例的IC錄音機,用相同標(biāo)號表示那些對應(yīng)于根據(jù)第一實施例的IC錄音機的部分,省略對它們的詳細(xì)說明。
在根據(jù)第二實施例的IC錄音機中,從兩個麥克風(fēng)131(1)和131(2)輸入的收集的音頻信號由音頻信號處理器136處理,以識別發(fā)言人位置(音源位置),從而可以考慮發(fā)言人的位置來識別收集的音頻信號中的改變點(發(fā)言人改變點)。即,當(dāng)使用由音頻分析而獲得的聲波紋數(shù)據(jù)檢測到收集的音頻信號內(nèi)的改變點時,根據(jù)兩個麥克風(fēng)收集的聲音的發(fā)言人位置被用作輔助信息,從而可以更準(zhǔn)確的識別發(fā)言人或改變點。
圖13是顯示麥克風(fēng)131(1)和131(2)以及音頻信號處理器136的結(jié)構(gòu)例子的圖。在圖13所示的例子中,兩個麥克風(fēng)131(1)和131(2)中的每一個都是單向的,如圖13所示。麥克風(fēng)131(1)和131(2)背靠背相互靠近的分布,從而它們方向性的主方向是相對的。因此,麥克風(fēng)131(1)優(yōu)選地收集發(fā)言人A的講話,而麥克風(fēng)131(2)優(yōu)選地收集發(fā)言人B的講話。
如圖13所示,音頻信號處理器136包括加法器1361、比較器1362、以及A/D轉(zhuǎn)換器1363。由麥克風(fēng)131(1)和131(2)的每一個收集的音頻信號被提供給加法器1361以及比較器1362。
加法器1361將麥克風(fēng)131(1)收集的音頻信號和麥克風(fēng)131(2)收集的音頻信號相加,將音頻信號之和提供給A/D轉(zhuǎn)換器1363。麥克風(fēng)131(1)收集的音頻信號和麥克風(fēng)131(2)收集的音頻信號之和可用下面的等式(1)表示,等效于由一個無方向性麥克風(fēng)收集的音頻信號。
((1+cosθ)/2)+((1-cosθ)/2)=1 (1)比較器1362比較麥克風(fēng)131(1)收集的音頻信號和麥克風(fēng)131(2)收集的音頻信號。當(dāng)麥克風(fēng)131(1)收集的音頻信號電平較高時,比較器1362確定主要是發(fā)言人A在講話,并提供具有值為“1”(高電平)的發(fā)言人區(qū)別信號給控制器100。另一方面,當(dāng)麥克風(fēng)131(2)收集的音頻信號電平較高時,比較器1362確定主要是發(fā)言人B在講話,提供具有值為“0”(低電平)的發(fā)言人區(qū)別信號給控制器100。
因此,根據(jù)麥克風(fēng)131(1)收集的音頻信號和麥克風(fēng)131(2)收集的音頻信號確定發(fā)言人位置,允許區(qū)分發(fā)言人A的講話和發(fā)言人B的講話。
如果第三發(fā)言人C從穿過麥克風(fēng)131(1)和麥克風(fēng)131(2)的方向性的主方向的方向講話,即,從斜對發(fā)言人A和B的位置(圖13的橫向方向),麥克風(fēng)131(1)和131(2)收集的音頻信號的電平實際相等。
為處理在此位置的發(fā)言人C的講話,可為比較器1362定義兩個閾值,確定當(dāng)電平差在±V之內(nèi)時發(fā)言人是位于橫向方向的發(fā)言人C,當(dāng)電平差高于+V時發(fā)言人是發(fā)言人A,而當(dāng)電平差低于-V時發(fā)言人是發(fā)言人B。
通過預(yù)先認(rèn)出在麥克風(fēng)131(1)的方向性方向上的發(fā)言人、麥克風(fēng)131(2)方向性方向上的發(fā)言人、橫貫麥克風(fēng)131(1)和麥克風(fēng)131(2)方向性方向上的發(fā)言人,使得可識別發(fā)言人。因此,當(dāng)根據(jù)通過分析收集的聲音的特征獲得的聲波紋數(shù)據(jù)來檢測到改變點時,可通過考慮由麥克風(fēng)收集到的聲音電平來更準(zhǔn)確地識別發(fā)言人。
麥克風(fēng)和音頻信號處理器的另一個例子可選的,麥克風(fēng)131(1)和131(2)以及音頻信號處理器136可如圖14的構(gòu)成。圖14是顯示麥克風(fēng)131(1)和131(2)以及音頻信號處理器136的另一種示范結(jié)構(gòu)的圖。在圖14所示例子中,兩個麥克風(fēng)131(1)和131(2)是無方向性的,如圖14所示。麥克風(fēng)131(1)和131(2)相互臨近分布,例如中間的縫隙大約為1厘米。
如圖14所示,本例中的音頻信號處理器136包括加法器1361、A/D轉(zhuǎn)換器1363、減法器1364、以及相位比較器1365。由麥克風(fēng)131(1)和131(2)中的每一個收集的音頻信號被提供給加法器1361和減法器1364。
從加法器1361輸出的和信號等效于無方向性麥克風(fēng)的輸出,從減法器1364輸出的減法信號等效于雙向性(8-figure directivity)麥克風(fēng)的輸出。雙向性麥克風(fēng)的輸出的相位根據(jù)聲波的入射方向為正或負(fù)。因此,加法器1361的和輸出(無方向性輸出)的相位與減法器1364的減法輸出相位由相位比較器1365比較,以確定減法器1364的減法輸出的極性,從而識別發(fā)言人。
即,當(dāng)減法器1364的減法輸出的極性是正時,確定收集的是A發(fā)言人的講話。另一方面,當(dāng)減法器1364的減法輸出的極性是負(fù)時,確定收集的是B發(fā)言人的講話。
此外,與參考圖13所述的例子相同,當(dāng)處理斜對發(fā)言人A和B(在圖14的橫向方向上)的發(fā)言人C的講話時,對應(yīng)發(fā)言人C的講話的收集的音頻信號的減法輸出電平較小。因此,通過檢查加法器1361的和輸出以及減法器1364的減法輸出電平,能夠識別發(fā)言人C的講話。
雖然圖14所示音頻信號處理器136包括加法器1361,加法器1361不是必需的部件。例如,麥克風(fēng)131(1)和131(2)之一的輸出信號可以被提供給A/D轉(zhuǎn)換器1363以及相位比較器1365。
如上所述,在圖13和14所示的例子中,在記錄處理中,能夠使用兩個麥克風(fēng)131(1)和131(2)收集的聲音的電平或極性來識別發(fā)言人的位置。此外,通過考慮該識別結(jié)果,能檢測收集的聲音內(nèi)的改變點,并準(zhǔn)確地識別發(fā)言人。
當(dāng)播放處理期間給記錄的聲音分配標(biāo)記時或當(dāng)獨立執(zhí)行給記錄的聲音分配標(biāo)記的處理時能夠采用圖13和14所示的方案。
例如,當(dāng)在記錄處理后應(yīng)用參考圖13說明的方案時,單向麥克風(fēng)131(1)和131(2)收集的音頻信號由2-信道立體聲錄音來記錄,如圖15A所示。而在播放處理或獨立執(zhí)行分配標(biāo)記的處理時,擴展從數(shù)據(jù)存儲裝置111讀取的兩個信道的壓縮音頻信號,然后兩個信道的擴展音頻信號被輸入到具有和圖13所示比較器1362相同功能的比較器中。
因此,能夠確定是主要使用麥克風(fēng)131(1)收集的音頻信號還是主要使用麥克風(fēng)131(2)收集的音頻信號。因此,能夠根據(jù)該確定結(jié)果以及預(yù)先知道的相對于每一麥克風(fēng)的發(fā)言人的位置來識別發(fā)言人。
類似地,在記錄處理之后應(yīng)用參考圖14說明的方案時,由2-信道立體聲錄音記錄從麥克風(fēng)131(1)和131(2)輸出的信號,并在播放處理期間或獨立執(zhí)行分配標(biāo)記的處理時,可通過由圖14所示的音頻信號處理器136執(zhí)行的相同處理來識別發(fā)言人。
當(dāng)使用從麥克風(fēng)131(1)和131(2)的輸出信號識別發(fā)言人時,預(yù)先準(zhǔn)備的指示發(fā)言人相對于每一麥克風(fēng)131(1)和131(2)的位置的信息存儲在IC錄音機中,例如以圖16所示的發(fā)言人位置數(shù)據(jù)庫的形式。
圖16是顯示發(fā)言人位置數(shù)據(jù)庫的例子的圖。在此例中,發(fā)言人位置數(shù)據(jù)庫包括對應(yīng)于來自IC錄音機的音頻信號處理器136的識別結(jié)果的發(fā)言人區(qū)別信號、與各個發(fā)言人區(qū)別信號相關(guān)的麥克風(fēng)的識別信息、以及主要使用麥克風(fēng)的候選發(fā)言人的發(fā)言人識別符。如圖16所示,能夠與單個麥克風(fēng)相聯(lián)系地登記多個麥克風(fēng)。
圖16所示的發(fā)言人位置數(shù)據(jù)庫最好在會議之前預(yù)先創(chuàng)建。通常,會議參加者以及這些參加者的座位是預(yù)先確定的。因此,考慮設(shè)定IC錄音機的位置,能夠在會議之前創(chuàng)建發(fā)言人位置數(shù)據(jù)庫。
當(dāng)會議參加人改變而沒有提前通知時,或在會議期間座位改變,例如,沒有使用基于麥克風(fēng)收集的聲音的發(fā)言人的識別時,僅僅根據(jù)音頻分析獲得的聲波紋數(shù)據(jù)來檢測改變點??蛇x地,在記錄處理后可將發(fā)言人位置數(shù)據(jù)庫調(diào)整為準(zhǔn)確的,并重新分配標(biāo)記給記錄的聲音。
通過使用圖16所示的發(fā)言人位置數(shù)據(jù)庫,能夠識別發(fā)言人位置以及識別在該發(fā)言人位置的發(fā)言人。
雖然在第二實施例中使用兩個麥克風(fēng)131(1)和131(2)以及涉及兩個或三個發(fā)言人,但是麥克風(fēng)的數(shù)目不限于2,發(fā)言人的數(shù)目也不限于3。使用大量麥克風(fēng)能夠識別較大數(shù)目的發(fā)言人。
此外,通過從麥克風(fēng)輸出的信號來識別發(fā)言人的位置進(jìn)而識別發(fā)言人的方案不限于參考圖13和14所述的。例如,也可以使用相鄰放置的四點麥克風(fēng)方法或相鄰放置的三點麥克風(fēng)方法。
在相鄰放置的四點麥克風(fēng)方法中,相鄰放置四個麥克風(fēng)M0、M1、M2和M3,從而麥克風(fēng)之一不在其他三個麥克風(fēng)所限定的平面上,如圖17A所示??紤]到在由四個麥克風(fēng)M0、M1、M2和M3收集的音頻信號的時間結(jié)構(gòu)上的細(xì)微差異,由短期相關(guān)、聲強等計算諸如聲源位置或規(guī)模的空間信息。這樣,通過使用至少四個麥克風(fēng),能夠準(zhǔn)確地識別發(fā)言人位置,并根據(jù)該發(fā)言人位置(座位位置)識別發(fā)言人。
當(dāng)發(fā)言人實際是在一個水平平面的假設(shè)可以接受時,則在一個水平平面內(nèi)提供相互鄰近的三個麥克風(fēng)就足夠了,如圖17B所示。
此外,麥克風(fēng)的配置無需像圖17A和17B所示的是正交的。例如,在圖17B所示相鄰配置的三點麥克風(fēng)方法中,麥克風(fēng)的配置可以是這樣的,三個麥克風(fēng)分布在等邊三角形的頂點。
第二實施例的修改在如上所述根據(jù)第二實施例的IC錄音機中,當(dāng)使用音頻分析獲得的聲波紋數(shù)據(jù)來檢測收集的音頻信號內(nèi)的改變點時,根據(jù)從兩個麥克風(fēng)收集的聲音來考慮主要使用的麥克風(fēng)的區(qū)分的結(jié)果,從而改進(jìn)檢測音頻信號內(nèi)的改變點的精確性。然而,其他配置也是可能的。
例如,可能提供包括兩個麥克風(fēng)131(1)和131(2)以及音頻信號處理器136但不包括音頻特征分析器143的IC錄音機,如圖18所示。即,除了不提供音頻特征分析器143,如18所示的IC錄音機和圖12所示的根據(jù)第二實施例的IC錄音機的結(jié)構(gòu)相同。
能夠僅根據(jù)主要使用的麥克風(fēng)的區(qū)別的結(jié)果,兩個麥克風(fēng)131(1)和131(2)收集的聲音來檢測出發(fā)言人改變點,根據(jù)主要使用的麥克風(fēng)的區(qū)別的結(jié)果檢測發(fā)言人改變,并分配標(biāo)記到對應(yīng)于該改變點的音頻信號的位置。在該例中,無需分析音頻特征的處理,因此降低了CPU 101的負(fù)載。
雖然在上述實施例中給要處理的音頻信號內(nèi)的改變點分配標(biāo)記,但是還能僅給發(fā)言人的改變點分配標(biāo)記,從而更有效的搜索變?yōu)榭赡?。例如,根?jù)要處理的音頻信號的信號電平或聲波紋數(shù)據(jù),話音段與其他段,例如噪聲被非常清楚區(qū)分,僅對話音段的起始點分配標(biāo)記。
此外,根據(jù)音頻信號頻率特征數(shù)據(jù)或聲波紋數(shù)據(jù),能夠區(qū)分發(fā)言人是男還是女,報告在改變點的發(fā)言人的性別的區(qū)別。
此外,根據(jù)以如上方式分配的標(biāo)記信息,能夠提供例如,僅用于搜索的搜索模式;用于改變分配的標(biāo)記的位置、刪除標(biāo)記或增加標(biāo)記的標(biāo)記編輯模式;或用于僅播放基于分配的標(biāo)記所指定的發(fā)言人的講話的特定播放模式,例如僅僅是A的講話。通過添加代碼到CPU 101執(zhí)行的程序中可以相對比較容易地實現(xiàn)這些模式。
此外,可提供數(shù)據(jù)庫更新功能,從而例如可以用用于檢測改變點的聲波紋數(shù)據(jù)更新圖6所示的音頻特征數(shù)據(jù)庫內(nèi)的聲波紋數(shù)據(jù),以此改進(jìn)音頻特征數(shù)據(jù)庫的準(zhǔn)確性。例如,甚至在比較聲波紋數(shù)據(jù)的處理中某發(fā)言人的聲波紋數(shù)據(jù)未發(fā)現(xiàn)匹配時,如果該發(fā)言人的聲波紋數(shù)據(jù)實際上存在于該音頻特征數(shù)據(jù)庫內(nèi),則用最近獲得的聲波紋數(shù)據(jù)來替換音頻特征數(shù)據(jù)庫內(nèi)的聲波紋數(shù)據(jù)。
此外,當(dāng)比較處理中某發(fā)言人的聲波紋數(shù)據(jù)和另一個發(fā)言人的聲波紋數(shù)據(jù)匹配時,可以做出設(shè)置,從而在比較處理中不使用該不同的發(fā)言人的聲波紋數(shù)據(jù)。
當(dāng)聲波紋數(shù)據(jù)和多個發(fā)言人的聲波紋數(shù)據(jù)匹配時,定義使用的聲波紋數(shù)據(jù)的優(yōu)先級,從而該聲波紋數(shù)據(jù)僅和正確的發(fā)言人的聲波紋數(shù)據(jù)匹配。
此外,可給講話的結(jié)束點以及起始點都分配標(biāo)記。此外,分配標(biāo)記的位置可以改變,例如,考慮各個用戶的方便性,在起始點之前或之后幾秒。
此外,如前所述,可使用一種或多種不同方法來分析音頻信號的特征,而不限制于聲波紋分析,以便可以獲得精確的分析數(shù)據(jù)。
雖然以上主要以使用兩個麥克風(fēng)的情況來說明第二實施例,但是麥克風(fēng)的數(shù)目不限于此,可以是不小于2的任何數(shù)。使用諸如信號電平、極性、或各個麥克風(fēng)收集聲音的延遲時間等不同參數(shù)來識別發(fā)言人位置,使得能夠根據(jù)該發(fā)言人位置來識別發(fā)言人。
此外,雖然第一和第二實施例都是以將本發(fā)明應(yīng)用于記錄并播放音頻信號的設(shè)備——IC錄音機的情況來說明的,但是本發(fā)明的應(yīng)用并不限于IC錄音機。例如,本發(fā)明可應(yīng)用于記錄設(shè)備、播放設(shè)備以及和不同記錄介質(zhì)一起使用的記錄/播放設(shè)備,例如諸如硬盤的磁光盤,以及MD或諸如DVD的光盤。
軟件實施本發(fā)明還可以用程序?qū)崿F(xiàn),當(dāng)由CPU 101執(zhí)行時,實現(xiàn)根據(jù)上述實施例的音頻特征分析器143、音頻信號處理器136以及IC錄音機的其他處理單元的功能,并有效連接這些功能。即,本發(fā)明可通過準(zhǔn)備用于執(zhí)行如圖4和5所示的流程的程序以及由CPU 101執(zhí)行該程序來實現(xiàn)。
此外,與上述實施例類似,由錄音機記錄的音頻數(shù)據(jù)可由個人計算機捕獲,該個人計算機內(nèi)部具有實現(xiàn)音頻特征分析器143的功能的程序,以便該個人計算機能夠檢測發(fā)言人改變。
權(quán)利要求
1.一種音頻信號處理設(shè)備,包括第一檢測裝置,用于基于具有預(yù)定尺寸的各個處理單元,根據(jù)音頻信號來檢測在要處理的音頻信號中的發(fā)言人改變;獲取裝置,用于獲取指示其中所述第一檢測單元已檢測到發(fā)言人改變的音頻信號的位置的改變點信息;以及保存裝置,用于保存由獲取裝置獲取的改變點信息。
2.根據(jù)權(quán)利要求1所述的音頻信號處理設(shè)備,其中第一檢測裝置能基于各個處理單元來提取該音頻信號的特征,并根據(jù)所提取的特征來檢測從非話音段到話音段的改變點以及話音段內(nèi)的發(fā)言人改變點。
3.根據(jù)權(quán)利要求2所述的音頻信號處理設(shè)備,進(jìn)一步包括存儲裝置,用于存儲代表一個或多個發(fā)言人的語音特征的一個或多個特征信息,以及所述一個或多個發(fā)言人的一個或多個識別信息,所述多個特征信息和多個識別信息是分別相互關(guān)聯(lián)的;以及識別裝置,用于通過比較第一檢測裝置提取的特征和存儲在存儲裝置內(nèi)的所述多個特征信息來識別發(fā)言人;其中該保存裝置保存改變點信息以及由識別裝置識別的發(fā)言人的識別信息,所述改變點信息和所述識別信息相互聯(lián)系。
4.根據(jù)權(quán)利要求2所述的音頻信號處理設(shè)備,進(jìn)一步包括第二檢測裝置,用于通過分析分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號來檢測發(fā)言人的位置,其中所述獲取裝置根據(jù)第二檢測裝置檢測到的發(fā)言人位置中的改變來識別改變點,并獲取對應(yīng)于所識別的改變點的改變點信息。
5.根據(jù)權(quán)利要求3所述的音頻信號處理設(shè)備,進(jìn)一步包括發(fā)言人信息存儲裝置,用于存儲根據(jù)分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置的多個發(fā)言人的多個識別信息,所述多個發(fā)言人位置分別與所述多個識別信息相關(guān)聯(lián);以及發(fā)言人信息獲取裝置,用于從發(fā)言人信息存儲裝置獲取與發(fā)言人位置相關(guān)聯(lián)的識別信息,該發(fā)言人位置是通過分析多個音頻信道的多個音頻信號來確定的;其中該識別裝置根據(jù)由發(fā)言人信息獲取裝置獲取的識別信息來識別該發(fā)言人。
6.根據(jù)權(quán)利要求3所述的音頻信號處理設(shè)備,進(jìn)一步包括顯示信息處理裝置,其中存儲裝置存儲分別與對應(yīng)于各個識別信息的發(fā)言人相關(guān)聯(lián)的多個信息,所述多個信息分別與各個識別信息相關(guān)聯(lián),以及該顯示信息處理裝置顯示音頻信號中的改變點的位置以及與由識別裝置識別的發(fā)言人相關(guān)的信息。
7.根據(jù)權(quán)利要求1所述的音頻信號處理設(shè)備,其中第一檢測裝置根據(jù)發(fā)言人位置來檢測發(fā)言人改變,其中所述發(fā)言人位置是通過分析各個音頻信道的多個音頻信號而確定的,所述音頻信號是由不同麥克風(fēng)收集的。
8.根據(jù)權(quán)利要求7所述的音頻信號處理設(shè)備,其中保存裝置保存改變點信息以及指示由第一檢測裝置檢測到的發(fā)言人位置的信息,該改變點信息與指示發(fā)言人位置的信息相互關(guān)聯(lián)。
9.根據(jù)權(quán)利要求7所述的音頻信號處理設(shè)備,進(jìn)一步包括發(fā)言人信息存儲裝置,用于存儲根據(jù)分別與多個麥克風(fēng)相關(guān)聯(lián)的多個信道的多個音頻信號而確定的發(fā)言人位置,以及在各個發(fā)言人位置的發(fā)言人的多個識別信息,所述多個發(fā)言人位置分別與所述多個識別信息相互關(guān)聯(lián);以及發(fā)言人信息獲取裝置,用于從發(fā)言人信息存儲裝置獲取與發(fā)言人位置相關(guān)聯(lián)的發(fā)言人的識別信息,該發(fā)言人位置是通過分析多個音頻信道的多個音頻信號來確定的;其中保存裝置保存改變點信息以及由發(fā)言人信息獲取裝置獲取的識別信息,所述改變點信息與所述識別信息相互關(guān)聯(lián)。
10.根據(jù)權(quán)利要求9所述的音頻信號處理設(shè)備,進(jìn)一步包括顯示信息處理裝置,其中發(fā)言人信息存儲裝置存儲分別與對應(yīng)于各個識別信息的發(fā)言人相關(guān)的多個信息,所述多個信息分別與各個識別信息相關(guān)聯(lián),以及該顯示信息處理裝置顯示音頻信號中的改變點的位置,以及與所確定的發(fā)言人位置相聯(lián)系的、與發(fā)言人相關(guān)的信息。
11.一種音頻信號處理方法,包括第一檢測步驟,根據(jù)音頻信號,基于具有預(yù)定尺寸的各個處理單元,檢測要處理的音頻信號中的發(fā)言人改變;獲取步驟,獲取指示已在第一檢測步驟中檢測到發(fā)言人改變的音頻信號的位置的改變點信息;以及存儲步驟,在記錄介質(zhì)上存儲在獲取步驟獲取的改變點信息。
12.根據(jù)權(quán)利要求11所述的音頻信號處理方法,其中在第一檢測步驟中,基于各個處理單元提取該音頻信號的特征,并根據(jù)提取的特征來檢測從非話音段到話音段的改變點以及話音段內(nèi)的發(fā)言人的改變點。
13.根據(jù)權(quán)利要求12所述的音頻信號處理方法,進(jìn)一步包括識別步驟,通過比較在第一檢測步驟中提取的特征和表示一個或多個發(fā)言人的語音特征的一個或多個特征信息來識別發(fā)言人,所述多個特征信息和所述一個或多個發(fā)言人的一個或多個識別信息相互關(guān)聯(lián)地存儲在記錄介質(zhì)上,其中改變點信息和在識別步驟中識別的發(fā)言人的識別信息在存儲步驟中被相互關(guān)聯(lián)地存儲在該記錄介質(zhì)上。
14.根據(jù)權(quán)利要求12所述的音頻信號處理方法,進(jìn)一步包括第二檢測步驟,通過分析分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號來檢測發(fā)言人位置,其中在獲取步驟中,根據(jù)在第二檢測步驟中檢測到的發(fā)言人位置中的改變來識別改變點,并獲取對應(yīng)于所識別的改變點的改變點信息。
15.根據(jù)權(quán)利要求13所述的音頻信號處理方法,進(jìn)一步包括發(fā)言人信息存儲步驟,在發(fā)言人信息存儲裝置上預(yù)先存儲根據(jù)分別與多個麥克風(fēng)相關(guān)聯(lián)的多個音頻信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置上的多個發(fā)言人的多個識別信息,所述多個發(fā)言人位置分別與所述多個識別信息相關(guān)聯(lián);以及發(fā)言人信息獲取步驟,從發(fā)言人信息存儲裝置獲取與發(fā)言人位置相關(guān)聯(lián)的發(fā)言人識別信息,該發(fā)言人位置是通過分析多個音頻信道的多個音頻信號來確定的;其中在該識別步驟中,根據(jù)在發(fā)言人信息獲取步驟獲取的識別信息來識別該發(fā)言人。
16.根據(jù)權(quán)利要求13所述的音頻信號處理方法,進(jìn)一步包括顯示信息處理步驟,其中在記錄介質(zhì)上分別與各個識別信息相關(guān)聯(lián)地存儲分別與對應(yīng)于各個識別信息的多個發(fā)言人相關(guān)的多個信息,以及在顯示信息處理步驟中顯示音頻信號中的改變點的位置和與在識別步驟中所識別的發(fā)言人相關(guān)的信息。
17.根據(jù)權(quán)利要求11所述的音頻信號處理方法,其中在第一檢測步驟中,根據(jù)通過分析各個音頻信道的多個音頻信號而確定的發(fā)言人位置來檢測改變點,該音頻信號是由不同麥克風(fēng)收集的。
18.根據(jù)權(quán)利要求17所述的音頻信號處理方法,其中在存儲步驟中相互關(guān)聯(lián)地存儲改變點信息和在第一檢測步驟中檢測到的指示發(fā)言人位置的信息。
19.根據(jù)權(quán)利要求17所述的音頻信號處理方法,進(jìn)一步包括發(fā)言人信息存儲步驟,在發(fā)言人信息存儲裝置上預(yù)先存儲根據(jù)分別與多個麥克風(fēng)相關(guān)聯(lián)的多個信道的多個音頻信號而確定的多個發(fā)言人位置,以及在各個發(fā)言人位置的多個發(fā)言人的多個識別信息,所述多個發(fā)言人位置分別與多個識別信息相關(guān)聯(lián);以及發(fā)言人信息獲取步驟,從發(fā)言人信息存儲裝置獲取與發(fā)言人位置相關(guān)聯(lián)的發(fā)言人的識別信息,該發(fā)言人位置是通過分析多個音頻信道的多個音頻信號來確定的;其中在存儲步驟中相互關(guān)聯(lián)地存儲改變點信息和在發(fā)言人信息獲取步驟中獲取的識別信息。
20.根據(jù)權(quán)利要求19所述的音頻信號處理方法,進(jìn)一步包括顯示信息處理步驟,其中存儲裝置存儲分別與對應(yīng)于各個識別信息的多個發(fā)言人相關(guān)的多個信息,所述多個信息分別與各個識別信息相關(guān)聯(lián),以及在顯示信息處理步驟中顯示音頻信號中的改變點的位置,以及與所確定的發(fā)言人位置相關(guān)聯(lián)的發(fā)言人有關(guān)的信息。
全文摘要
一種自動檢測要處理的音頻信號中的改變點的音頻特征分析器。中央處理單元(CPU)獲得指示音頻信號內(nèi)的改變點位置的改變點信息,該改變點信息被記錄在數(shù)據(jù)存儲裝置上。CPU根據(jù)用戶通過按鍵操作單元輸入的指令識別改變點信息,定位對應(yīng)于該識別的改變點信息的音頻數(shù)據(jù),從而可以從那里開始諸如播放要處理的音頻數(shù)據(jù)等的處理。
文檔編號G11B20/10GK1652205SQ200510060100
公開日2005年8月10日 申請日期2005年1月14日 優(yōu)先權(quán)日2004年1月14日
發(fā)明者田中出, 飯?zhí)锝∫? 三原悟史, 山田榮一 申請人:索尼株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1