本申請為2011年3月15日進入中國國家階段的、申請日為2008年11月26日的、發(fā)明名稱為“電子設備定向音頻視頻采集”的第200880131153.2號中國專利申請的分案申請。
本發(fā)明涉及一種電子設備,并且更具體地涉及用于電子設備的定向音頻視頻采集。
背景技術:
具有免提電話或者免提應用的電子設備在本領域中是已知的。在免提語音通話期間,可將除用戶的語音之外的任何聲音視為背景噪聲,這些背景噪聲應當被衰減(或者消除)以提高電話交談的質量。噪聲可能涉及與發(fā)送和接收信號相對應的環(huán)境、網(wǎng)絡和音頻鏈。環(huán)境噪聲(或者干擾的聲音/背景噪聲)在免提語音通話期間可能很容易造成干擾,并且有時可能會超過用戶的語音(信號)水平,使得分離二者變得非常困難。這可能導致較差的信噪比(snr)。
在本領域中存在若干種用于語音通信的僅針對音頻源的跟蹤技術。通過使用能夠對源(用戶)方向之外的靈敏度進行衰減的定向性圖案而提供音頻發(fā)送的常規(guī)配置,可以改善snr并在傳輸源信號之前從該信號中消除不需要的信號。然而,這假設了已經(jīng)知曉或者可以估計信號的到達方向(doa)。此外,使用常規(guī)技術的基于音頻的跟蹤一般不適合于靜默的移動源。
在手持移動通信設備的情況中,聲源的相對位置由于設備的移動可能也會發(fā)生移動。相比于在其中可以假設設備相比于聲源的移動是處于相對靜止中的傳統(tǒng)會議室設置而言,設備的連續(xù)把持(例如,由于自然的手勢和手部動作)使得源跟蹤任務的挑戰(zhàn)性大為增加。設備移動可以引起doa中非??斓母淖?,而聲源的移動則不大可能造成這種情況。
在典型的移動通信語音通話中,用戶與設備的相對位置可以改變。由于僅針對音頻的跟蹤系統(tǒng)為了計算一個或多個doa角而需要音頻數(shù)據(jù),因此這對跟蹤信息造成處理延遲(從而妨礙了實時源位置信息更新)。遺憾的是,在實時語音通信中為了流暢運行而需要最小化端對端延遲。這可能引起若干問題。例如,當用戶在講話停頓期間移動時,源跟蹤器在該靜默期中可能失去正確的源位置。當通話者開始講話時,語句的開頭可能因錯誤的位置信息而失真。從多麥克風降噪的角度來看,這意味著用戶的語音被作為背景噪聲源處理,直至考慮到正確的位置信息。
另一類定向音頻采集算法通過利用信號的統(tǒng)計屬性來形成麥克風陣列的定向性圖案。這些算法并不利用專用的聲源位置信息,而是試圖自適應于所需的源。通常這些算法不僅需要適應于源位置中的變化,而且還需要適應于室內沖擊響應中的變化。這使得這些算法對環(huán)境中瞬時變化的反應相對較慢。在沒有外部控制的可能性的情況下,對關于源方向做出自主判斷的算法進行控制也是有意義的。例如,在大聲的干擾源(又稱為干擾機)的情況中,控制麥克風陣列以將源歸類為噪聲源變得更加困難,特別是當干擾源的信號統(tǒng)計與所需源相似時,例如在通話者爭相發(fā)言的情況下尤為如此。
此外,人臉檢測和人臉的視頻跟蹤在本領域中是已知的。臉部檢測對輸入圖像中的一張臉(或者多張臉)的定位進行處理。該過程包括在沒有關于臉部位置的先前知識可用時對整個圖像進行掃描。臉部跟蹤還可以擴展至通過使用時間相關性在視頻序列中定位人臉而進行的臉部檢測。使用關于上一幀中的臉部位置的知識來縮小當前幀中的搜索范圍,而不是單獨地在每個幀中對臉部進行檢測。
例如,特此通過引用整體并入的“facedetectionincolorimages”(r.l.hsu,m.abdel-mottaleb,anda.k.jain,ieeetransactionsonpatternanalysisandmachineintelligence,24:696-706,2002)描述了一種基于膚色檢測的臉部檢測途徑。用于基于膚色檢測的臉部檢測(或跟蹤)的途徑一般對在圖像中所發(fā)現(xiàn)的膚色像素進行確定和分組。接下來,針對每個這樣的像素組計算邊界框(或者最佳擬合橢圓)。選擇核實特定形狀和尺寸限制的皮膚部分作為候選臉部。最后,基于對候選臉部內的孔洞是由于特征(諸如眼睛和嘴)與膚色不同而造成的這一觀察,在每個候選臉部內搜索這些特征。
另外,特此通過引用整體并入的“detectingfacesinimages:asurvey”(m.yang,d.j.kriegman,andn.ahuja,ieeetransactionsonpatternanalysisandmachineintelligence,24:34-58,2002)描述了一種基于臉部紋理信息的臉部檢測途徑。
此外,特此通過引用整體并入的“ahybridapproachtofacedetectionunderunconstrainedenvironments”(a.hadid,m.pietikainen,internationalconferenceofpatternrecognition(icpr2006))描述了一種基于顏色和紋理信息的臉部檢測途徑。
特此通過引用整體并入的美國專利no.6,826,284公開了一種系統(tǒng),其中源跟蹤信息實現(xiàn)了舉例而言諸如相機調向的設備控制。
此外,特此通過引用整體并入的“knowingwhotolistentoinspeechrecognition:visuallyguidedbeamforming”(u.bub,m.hunke,anda.waibel,interactivesystemlaboratories,ieee1995)和“l(fā)isten:asystemforlocatingandtrackingindividualspeakers”(m.collobert,r.ferraud,g.letourneur,o.bernier,j.e.viallet,y.mahieux,d.collobert,francetelecom,ieeetransactions(1999))公開了使用一種機械設備來移動相機朝向用戶臉部,用于在固定的電話會議條件下使用的視覺和音頻跟蹤。
“jointaudio-videoobjectlocalizationandtracking”(n.strobel,s.sporsandr.rabenstein,ieeesignalprocessingmagazine(2001))公開了一種物體跟蹤方法。
另外,美國專利no.5,335,011公開了使用一種聲音定位技術,該技術基于每個用戶位置的先驗知識。
然而,盡管有上述進展,但仍然存在對于提供改進的音頻采集系統(tǒng)的強烈需求。
技術實現(xiàn)要素:
根據(jù)本發(fā)明的一個方面,公開了一種裝置。該裝置包括殼體、電子電路以及音頻-視覺源跟蹤系統(tǒng)。電子電路位于殼體之中。音頻-視覺源跟蹤系統(tǒng)包括第一視頻相機和麥克風陣列。第一視頻相機和麥克風陣列附接至殼體。音頻-視覺源跟蹤系統(tǒng)被配置成從第一視頻相機接收視頻信息。音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應于所述視頻信息而從麥克風陣列采集音頻信息。
根據(jù)本發(fā)明的另一方面,公開了一種方法。提供了一種殼體。在該殼體中安裝電子電路。在該殼體附近提供跟蹤系統(tǒng)。其中跟蹤系統(tǒng)包括第一視頻相機和麥克風。第一視頻相機附接至殼體。麥克風靠近第一視頻相機。跟蹤系統(tǒng)被配置成從第一視頻相機接收視頻信號。跟蹤系統(tǒng)被配置成至少部分地響應于所述視頻信號而從麥克風采集音頻信號。
根據(jù)本發(fā)明的又一方面,公開了一種方法。使用一種裝置的相機采集第一圖像。確定該第一圖像的一部分相對于所述裝置的麥克風陣列的方向。至少部分地基于該第一圖像的所述部分的方向來控制麥克風陣列的預定特性。
根據(jù)本發(fā)明的另一方面,公開了一種機器可讀的程序存儲設備,其有形地體現(xiàn)指令程序,該指令程序可由機器執(zhí)行用于進行操作,以感測音頻信號。分析圖像的一部分。計算出與該圖像的所述部分相對應的方向。該方向是相對于一種裝置的。至少部分地基于計算出的方向而從該裝置導引麥克風陣列。
根據(jù)本發(fā)明的又一方面,公開了一種裝置。該裝置包括殼體、電子電路以及音頻-視覺優(yōu)化系統(tǒng)。電子電路位于殼體之中。音頻-視覺優(yōu)化系統(tǒng)包括第一視頻相機和麥克風陣列。第一視頻相機和麥克風陣列附接至殼體。第一視頻相機包括至少一個可調參數(shù)。音頻-視覺優(yōu)化系統(tǒng)被配置成從麥克風陣列接收音頻信息。音頻-視覺優(yōu)化系統(tǒng)被配置成至少部分地響應于所述音頻信息而對第一視頻相機的所述至少一個可調參數(shù)進行調節(jié)。
根據(jù)本發(fā)明的另一方面,公開了一種方法。使用一種裝置的相機來采集圖像。確定該圖像的一部分的第一位置。采集對應于該第一位置的音頻信息。至少部分地響應于采集到的音頻信息而控制所述相機的參數(shù)。
根據(jù)本發(fā)明的又一方面,公開了一種機器可讀的程序存儲設備,其有形地體現(xiàn)指令程序,該指令程序可由機器執(zhí)行用于進行操作,以采集音頻-視覺信息。調整一種設備的麥克風陣列。評估由該麥克風陣列所接收到的音頻信息。至少部分地基于經(jīng)評估的音頻信息而調節(jié)所述設備的相機參數(shù)。
附圖說明
在聯(lián)系附圖進行的以下描述中,對本發(fā)明的前述方面和其他特征進行解釋,在附圖中:
圖1是包含有本發(fā)明的特征的一種電子設備的正面的透視圖;
圖2是圖1中所示電子設備的背面的透視圖;
圖3是用在圖1中所示電子設備中的一種示例性算法的框圖;
圖4是用在圖1中所示電子設備中的一種跟蹤系統(tǒng)的一部分相對于用戶和坐標系的視圖;
圖5是用在圖1中所示電子設備的跟蹤系統(tǒng)中的臉部檢測元素的視圖;
圖6是包含有本發(fā)明的特征的另一電子設備的透視圖;
圖7是用在圖6中所示電子設備中的一種跟蹤系統(tǒng)的一部分相對于用戶的視圖;
圖8是圖1和圖6中所示電子設備的一種示例性方法的框圖;
圖9是圖1和圖6中所示電子設備的另一示例性方法的框圖;
圖10是圖示了圖1和圖6中所示電子設備的組件的示意圖;
圖11是圖1和圖6中所示電子設備的一種示例性方法的框圖;
圖12是用在圖1和圖6中所示電子設備中的一個示例性臉部位置表的框圖;
圖13是用在圖12中所示表中的另一示例性算法的框圖;
圖14是用在圖12中所示表中的另一示例性算法的框圖;以及
圖15是圖1和圖6中所示電子設備的另一示例性方法的框圖。
具體實施方式
參考圖1,示出了包含有本發(fā)明的特征的電子設備10的透視圖。盡管將參考附圖中所示的示例性實施方式描述本發(fā)明,但是應當理解,本發(fā)明可以在許多替代形式的實施方式之中實施。此外,可以使用任何合適的尺寸、形狀或者類型的元件或材料。
根據(jù)圖1和圖2中所示的本發(fā)明的一個示例,設備10為多功能便攜式電子設備。然而,在替代實施方式中,本發(fā)明的該示例性實施方式的特征例如可以用于諸如移動電話、游戲設備、音樂播放器或者pda之類的任何合適類型的手持便攜式電子設備。此外,如本領域中已知,設備10可以包括多個特征或者應用,舉例而言,比如相機、音樂播放器、游戲機或者因特網(wǎng)瀏覽器。
還參考圖2,設備10總體上包括具有正面14和背面16的殼體12、與天線20相連的收發(fā)器18、殼體12內的電子電路22(舉例而言,比如控制器和存儲器)、用戶輸入?yún)^(qū)域24以及顯示器26。顯示器26也可以構成用戶輸入部分,比如觸摸屏。應當注意的是,在替代實施方式中,設備10可以具有本領域中已知的任何合適類型的特征。
電子設備10還包括主相機28,以及音頻-視覺源跟蹤系統(tǒng)30。主相機28安裝在殼體12內靠近設備10的背面16處。相機28可以包括靜止圖像數(shù)碼相機和/或視頻相機,或者任何其他合適類型的圖像拍攝設備。
音頻-視覺源跟蹤系統(tǒng)30包括副相機32和麥克風陣列34。
副相機32安裝在殼體12內靠近設備10的正面14處。相機32例如可以包括視頻相機。該視頻相機可被定向或者配置成采集設備的用戶臉部的圖像。在使用所述設備進行視頻通話時,該視頻相機可以用于視頻采集。然而,也可以提供任何合適類型的圖像拍攝設備。例如,在替代實施方式中,該視頻相機也可以是安裝至計算機的、用于視頻通話的web攝像頭。
還應當注意的是,根據(jù)本發(fā)明的一個實施方式,相機還可以是在下述移動電話中用于視頻通話的相機,在這樣的移動電話中已集成雙相機:一個面向背面,而另一個面向用戶專門用于視頻免提通話。
麥克風陣列34安裝在殼體12內靠近副相機32處。麥克風陣列34可以圍繞相機32(與之非常接近)。然而,在替代實施方式中,可以提供針對相機34的任何合適的位置或定向。麥克風陣列34被配置用以采集設備用戶的語音。麥克風34可被配置用于二維(2d)或三維(3d)麥克風陣列聲束調向。在圖1中所示的示例中,麥克風陣列34包括四個麥克風。然而,在替代實施方式中,可以提供更多或者更少的麥克風。例如,在一個實施方式中,麥克風陣列34可以包括三個麥克風。
相機32和麥克風陣列34的相對位置和定向可以是事先已知的(固定的),或者基于視覺與聲音源跟蹤信息的時間平均而估計。然而,應當注意的是,可以使用本領域中已知的任何適當?shù)亩ㄎ皇侄蝸硖峁┫鄼C和麥克風陣列的相對位置和定向。麥克風陣列或者相機,或者二者,可以提供關于源距離的信息。
應當注意,盡管附圖示出了主相機28位于電子設備10的背面16而音頻-視覺源跟蹤系統(tǒng)30位于該設備的正面14,但替代實施方式可包括在任何適當位置上的相機28和音頻-視覺源跟蹤系統(tǒng)30。例如,可將主相機28提供在電子設備10的正面14,并且可以將音頻-視覺源跟蹤系統(tǒng)30提供在設備10的背面16。在另一示例中,可將主相機28和音頻-視覺源跟蹤系統(tǒng)30二者都提供在電子設備10的正面14或者背面16。此外,可將相機28和音頻-視覺源跟蹤系統(tǒng)30二者或其中之一提供在殼體12的側面。還可以利用相機信息來跟蹤設備的移動。還應當理解,可以提供兩個以上的相機或者單獨一個相機(其中所述單獨一個相機充當主相機和副相機)。
根據(jù)本發(fā)明的各種示例性實施方式,音頻-視覺源跟蹤系統(tǒng)30為電話交談和視頻電話交談提供臉部跟蹤輔助定向音頻采集。音頻-視覺源跟蹤系統(tǒng)30提高了嘈雜環(huán)境中免提語音/視頻通話的上行音頻性能(或音頻質量),而這可被最終用戶在移動語音通話期間察覺到。
音頻-視覺源跟蹤系統(tǒng)30可以提供人臉的視頻跟蹤以及對麥克風陣列的定向靈敏度的控制,以用于定向音頻采集,從而提高嘈雜環(huán)境中語音和/或視頻通話的質量。本發(fā)明的示例可以包括用于魯棒并高效的臉部檢測和跟蹤的先進技術。這樣的技術和算法已由若干研究團隊開發(fā)出來,并且它們目前正用于若干應用之中(例如臉部識別、臉部跟蹤等)。臉部跟蹤算法可以實現(xiàn)高的性能并且即使在例如計算能力相對較低的機器上(比如移動電話上)也可以實時運行。
音頻-視覺源跟蹤系統(tǒng)30被配置成使用與用戶的臉部位置相對應的視頻信息,用以協(xié)助音頻采集過程。這可以通過確定對設備講話的用戶的嘴部參考點并且將麥克風陣列的聲束形成為朝向用戶的嘴部(或者參考點)而進行。
音頻-視覺源跟蹤系統(tǒng)30檢測和跟蹤由副相機所采集的視頻幀中用戶的臉部(因為副相機被定向為朝著設備用戶)。相機和麥克風在設備內的固定位置允許相機相對于麥克風陣列的定向(或者聲束定向)的已知定向。應當注意的是,對于麥克風聲束定向或者聲束定向的參考還可以指用戶相對于麥克風陣列的面部方向。音頻-視覺源跟蹤系統(tǒng)30可被配置用于選擇性地增強沿著朝向用戶嘴部的特定空間方向的音頻采集靈敏度。例如,可將麥克風陣列34的靈敏度調節(jié)為朝向用戶的方向(舉例而言,比如在用戶正在講話時)。因此有可能剔除不需要的聲音,而這提高了傳輸至遠端用戶的音頻的質量。不需要的聲音可能來自設備的側面或者任何其他方向(舉例而言,比如朝向用戶嘴部的方向之外的任何其他方向),并且可被視為能被消除或者顯著降低的背景噪聲。
在可能有明顯的反射以及直接聲音路徑的封閉環(huán)境中,本發(fā)明的示例通過降低并/或消除來自周圍物體的反射而改善直接聲音路徑(因為期望的源的聲學房間反射未與直接聲音路徑的doa對準)。房間反射的衰減可能也是有益的,因為混響使得語音更加難以理解。本發(fā)明的實施方式通過憑借相應地導引麥克風陣列的聲束朝向用戶來跟蹤用戶臉部的位置,而在講話分音的靜默部分期間提供音頻增強。
本發(fā)明的各種示例性實施方式通過憑借使用關于所需信號的方向的額外信息來允許對移動中的源在講話停頓期間的分離、降低和估計(在非常低的snr水平上),而克服了常規(guī)純音頻技術的限制。
現(xiàn)在還參考圖3,其示出了音頻-視覺源跟蹤系統(tǒng)30的示例性算法100。該算法可被提供用于實現(xiàn)用戶的視頻跟蹤并且控制麥克風陣列(對于要被傳輸?shù)乃枰纛l信號)的定向麥克風聲束的靈敏度。該算法可以包括以下步驟。使用副相機采集圖像幀(步驟102)。在當前圖像幀中檢測用戶的臉部??梢岳缡褂媚w色途徑來檢測臉部位置(步驟104)。確定臉部邊界矩形的中心并且計算嘴部的大致位置(如圖5中所示)。還可以基于嘴部的顏色與膚色不同這一事實(眼睛和嘴在像素的膚色組中表現(xiàn)為孔洞)來檢測嘴部(步驟106)?;谝曨l幀中的嘴部位置并且基于關于相機焦距的知識來確定相對于麥克風陣列的臉部方向(舉例而言,比如嘴部的3d方向)。如果麥克風陣列靠近相機,則可將定義該3d方向的(沿水平和垂直方向的)兩個角確定如下:
θx=atan(x/f),θy=atan(y/f)
其中f表示相機焦距,而x、y是嘴部相對于幀圖像坐標的位置(見圖4、圖5)(步驟108)。增加麥克風陣列沿著確定于步驟108中的方向的定向性(相對靈敏度)(步驟110)。使用副相機采集新的幀(步驟112)。通過在鄰近先前幀中的先前臉部位置處進行搜索而跟蹤新的幀中新的臉部位置(步驟114)。返回步驟106。
應當注意,可將所述算法提供為無限循環(huán)。然而,在替代實施方式中,該算法可以例如通過特定的用戶界面(ui)命令而成為開始/停止算法。然而,可以提供任何適當?shù)乃惴ā?/p>
現(xiàn)在還參考圖4,示出了示例說明如何可以確定朝向所述(跟蹤臉部/嘴部)位置的方向(如以上算法100中所示)的一個示例的視圖。用戶40的嘴部38的(相對于相機32的光心36的)方向由兩個角θx、θy定義。在所示實施方式中,麥克風陣列34緊緊圍繞相機32的光心36。此外,在42處示出了圖像所投射到的圖像傳感器平面,在44處示出了原點處于相機光心的3d坐標系,并且在46處示出了2d圖像坐標系。
現(xiàn)在還參考圖5,示出了示例說明各種臉部檢測元素(如在以上算法100中所示)的視圖。在200處示出了由副相機所采集的示例圖像幀。在圖像幀200中示出了檢測到的用戶40的臉部。在202處示出了臉部區(qū)域的邊界矩形。在204處示出了該邊界矩形的中心。在206處示出了假設為嘴部38的位置的、在所述中心之下的位移。在208處示出了近似于嘴部位置的感興趣點。
本發(fā)明的各種示例性實施方式提供了改進的配置,該配置允許高質量的免提語音和/或視頻通話(即使是在嘈雜環(huán)境中)。此外,還可以提供在講話停頓期間(比如在講話分音之間的停頓期間發(fā)送音頻)的通話者跟蹤的優(yōu)點。另外,本發(fā)明的示例可以利用具有兩個相機(一個相機面向用戶)的移動設備中的已有相機硬件。再另外,只要麥克風陣列位于靠近相機模塊處,那么本發(fā)明的實施方式便可以適配于單相機產(chǎn)品。
現(xiàn)在還參考圖6和圖7,示出了具有包括兩個相機332和三個麥克風334在內的音頻-視覺源跟蹤系統(tǒng)330的電子設備300。音頻-視覺源跟蹤系統(tǒng)330通過使用兩個相機332估計相對于用戶40的嘴部38的聲束定向370而提供上行音頻中的音頻質量改善。如果麥克風陣列334如圖6中所示位于遠離相機視角(實際上相機模塊本身)處,則用戶40的臉部位置與麥克風陣列的中心之間的距離可能難以計算。例如,對于較大的距離380,可以提供深度390信息來估計聲束定向370。另一方面,當相機32與麥克風34之間的距離相對較小時,只有一個相機可以具備設備10的音頻-視覺源跟蹤系統(tǒng)30的配置??梢酝ㄟ^使用兩個相機332估計深度390來提供對相關于用戶40臉部的麥克風聲束方向370的估計。本發(fā)明的實施方式因此在移動電話設計中提供靈活性,其中可以通過具有更好的麥克風位置靈活性而設計麥克風陣列。此外,應當注意的是,可以使用一個或多個相機來估計用戶40的嘴部38的仰角(方位角)396。還可以使用提供針對圖像的深度圖的單個3d相機技術來獲取距離信息。
圖8示出了制造電子設備10、300的方法400。該方法包括以下步驟。提供殼體(步驟402)。在殼體內安裝電子電路(步驟404)。在殼體附近提供跟蹤系統(tǒng),其中所述跟蹤系統(tǒng)包括第一視頻相機和麥克風,其中第一視頻相機附接至殼體,其中麥克風靠近第一視頻相機,其中跟蹤系統(tǒng)被配置成從第一視頻相機接收視頻信號,并且其中跟蹤系統(tǒng)被配置成至少部分地響應于所述視頻信號而從麥克風采集音頻信號(步驟406)。應當注意,任何上述步驟都可以單獨執(zhí)行,或者結合一個或多個所述步驟執(zhí)行。
圖9示出了方法500。該方法包括以下步驟。使用一種裝置的相機采集第一圖像(步驟502)。確定該第一圖像的一部分相對于所述裝置的麥克風陣列的方向(步驟504)。至少部分地基于第一圖像的所述部分的方向來控制麥克風陣列的預定特性(步驟506)。
現(xiàn)在還參考圖10,設備10、300一般包括控制器600,舉例而言,比如微處理器。電子電路包括耦合至控制器600的存儲器602,舉例而言,比如位于印刷電路板上。該存儲器可包括多個存儲器,舉例而言,包括可移動存儲模塊。所述設備具有用戶可以使用的應用604,比如軟件。該應用例如可以包括電話應用、因特網(wǎng)瀏覽應用、游戲娛樂應用、數(shù)碼相機應用等等。這些只是一些示例,而不應被視為限制。一個或多個用戶輸入24、324耦合至控制器600,并且一個或多個顯示器26、326耦合至控制器600。音頻-視覺跟蹤系統(tǒng)30、330也耦合至控制器600。設備10、300可被編程為自動地改變采集或者感測音頻信號。然而,在一個替代實施方式中,這可能并不是自動的。用戶可能需要主動地在跟蹤系統(tǒng)30、330中選擇變化。
本發(fā)明的各種示例性實施方式提供了相比于僅針對音頻的常規(guī)配置的優(yōu)勢。在雙向通信系統(tǒng)中,由于用戶的(以及相應的嘴部參考點的)相對位置和/或手持機的位置可能改變,因而會出現(xiàn)挑戰(zhàn)。僅針對音頻的跟蹤系統(tǒng)需要音頻數(shù)據(jù)來計算到達方向(doa),并因此對于跟蹤信息引入處理延遲。在實時語音通信中,為了流暢的操作而希望最小化點對點延遲。比如,當用戶在講話的靜默部分期間移動時,源跟蹤器將失去嘴部參考點。錯誤的嘴部參考點(這相應地意味著錯誤的麥克風聲束定向)可能很容易在初始講話分音開始時造成失真。這種情況下音頻-視覺源跟蹤系統(tǒng)可能是有益的,因為它可以實時地更新源位置信息。具有空間方向性的一個或多個麥克風通過憑借衰減對于除期望源的方向之外的方向的靈敏度來突出來自所述期望源的方向的聲音,而改善音頻信號的采集。通過音頻-視覺源跟蹤,可以將麥克風陣列的最高靈敏度調向成朝向期望的源(一般是用戶的臉部(或者嘴部))。
仍參考圖10,設備10可以包括根據(jù)本發(fā)明的另一示例的音頻-視覺源跟蹤系統(tǒng)730。與跟蹤系統(tǒng)30類似,跟蹤系統(tǒng)(或者音頻-視覺優(yōu)化系統(tǒng))730(也示于圖1中)包括副相機32和麥克風陣列34。類似地,系統(tǒng)730被配置成通過將音頻靈敏度調整為朝向人臉方向而優(yōu)化設備10的音頻采集。如上所述,可以通過調整麥克風陣列34的靈敏度聲束而朝期望的空間方向最大化音頻靈敏度。然而,系統(tǒng)730在存在多個通話者的情況下(舉例而言,比如在電話會議期間)提供優(yōu)化通信的音頻視覺質量的技術效果。
音頻-視覺優(yōu)化系統(tǒng)730提供一種方法,以在具有多個參與者的一般通信方案中(舉例而言,比如電話會議,或者當在一個位置上存在多個參與者時的專屬視頻電話交談,或者視頻錄制)同時優(yōu)化針對活躍通話者的音頻和視頻質量采集。
根據(jù)本發(fā)明的一個示例,在圖11中示出了一種方法900。所公開的方法可以包括以下處理部分或者步驟。檢測并跟蹤存在于由一個或多個相機所采集到的視頻幀中的所有臉的位置(步驟902)。這可以在視頻通話期間在單獨線程中連續(xù)運行的單獨進程中實現(xiàn)。該進程例如可以監(jiān)控視頻流中所有檢測到的臉的位置,并且在可被其它進程訪問的表中更新這些位置。通過以很短的時間間隔連續(xù)地將麥克風陣列的靈敏度調整為朝向各個臉方向來檢測通話者(步驟904)。如果在這樣的方向上檢測到的音頻水平超過閾值,則將對應的臉視為活躍通話者的臉。當關于當前方向的音頻水平下降至閾值以下時,繼續(xù)進行臉方向的連續(xù)掃描。每當麥克風陣列檢測到一個活躍通話者時,就針對該活躍通話者的臉部的最佳檢測而優(yōu)化相機參數(shù)(步驟906)。舉例而言,這可以包括比如自動對焦至所述臉上,并且根據(jù)該臉部的照明而自動曝光之類的操作。然而,在替代實施方式中,可以調節(jié)和/或優(yōu)化任何相機參數(shù)或操作。以這種方式,系統(tǒng)可以處理在其中通話者的臉并不全都處于相同照明條件下并且處于離一個或多個相機的相同距離處的情況。此外,一些臉可能處于現(xiàn)場的非常亮或者非常暗的區(qū)域之中,并因此需要調節(jié)曝光參數(shù)以正確地采集它們的圖像。另一方面,一些臉可能位于距相機更近或更遠處,使得它們無法同時被全部對焦。在這種情況下,系統(tǒng)可以提供在每一時刻對活躍通話者臉部進行正確對焦的保證。
此外,本發(fā)明的各種實施方式還可以處理其中麥克風陣列未被置于在空間上接近相機之處的情況。例如,參考圖6和圖10,設備300可以包括根據(jù)本發(fā)明的另一示例的音頻-視覺源跟蹤系統(tǒng)830。與跟蹤系統(tǒng)330類似,跟蹤系統(tǒng)830(或者音頻-視覺優(yōu)化系統(tǒng))包括兩個相機332和三個麥克風334。類似地,系統(tǒng)830被配置成通過將音頻靈敏度調整為朝向人臉的方向而優(yōu)化設備的音頻采集。如上所述,音頻-視覺優(yōu)化系統(tǒng)830允許對相對于用戶嘴部的聲束定向進行估計。系統(tǒng)830在無需將麥克風陣列位置限制在一個或多個相機附近的情況下,在有多個通話者的情況中提供經(jīng)優(yōu)化的通信音頻視覺質量。
當麥克風陣列不接近相機時,檢測到的臉部相對于麥克風陣列的方向可能不再與該臉部相對于相機光心的方向相同(或者接近)。如圖7中所示(以及上文所討論),示出了在其中麥克風陣列334被置于距相機的距離380處并且通過立體視覺使用兩個相機332估計深度信息的情況。在這樣的情況中,在沒有深度信息的知識的情況下,或者換言之在沒有3d空間中的臉部位置的知識的情況下,可能無法確定用戶40的臉部(或者嘴部38)相對于麥克風陣列334的方向。音頻-視覺優(yōu)化系統(tǒng)830的兩個相機332允許基于由每個相機所采集的圖像中的臉部相對位置來進行對深度(或者深度信息)的估計(見圖7)。距離380越大,確定關于臉部的深度信息就越重要,以便估計相對于麥克風陣列的臉部定向。應當注意的是,在替代實施方式中,可以提供兩個以上的相機332。此外,在其它實施方式中,在假設已知典型的臉部尺寸的知識的情況下,可以通過分析采集到的圖像中的臉部尺寸而提供使用單個相機的深度估計。
本發(fā)明的各種實施方式可以提供可移動相機鏡頭/光學器件,所述鏡頭/光學器件由麥克風陣列在一定靈活度內控制和調向,這提供了改善的視角靈活性。此外,可以伴隨語音/視頻通話、視頻錄制或者其它相關使用情況而利用本發(fā)明的實施方式。
根據(jù)本發(fā)明的一個實施方式,系統(tǒng)730、830包括兩個可運行在不同線程中的進程。這兩個進程可通過“臉部位置表(fpt)”1000進行通信(見圖12)。fpt1000可由一個進程更新,并由另一進程讀取。fpt中的每個行1002對應于一張檢測到的臉,并且包括該臉部在3d空間中的位置。第一進程可以是“臉部跟蹤器(ft)”進程1100,而第二進程可以是“音頻-視覺優(yōu)化器(avo)”進程1200。圖12示出了本發(fā)明的使用所述兩個進程(“臉部跟蹤器”1100和“音頻-視覺優(yōu)化器”1200)的一個實施方式的示意圖,所述兩個進程運行在不同線程中,并且通過包含該場景中所檢測到的每張臉的位置的表(“臉部位置表”)1000進行通信。ft進程1100可被配置成連續(xù)檢測視頻流中的臉并且在fpt1000中更新它們的位置。avo進程1200可被配置成掃描fpt1000中的臉部位置,檢測活躍通話者的臉部,并優(yōu)化(來自ft進程1100的)對應的方向/位置中的音頻視覺檢測。
現(xiàn)在還參考圖13,可以提供一種運行在ft進程1100中的算法1102來針對每個相機執(zhí)行以下步驟。采集圖像幀(步驟1104)。基于例如膚色方法來檢測該圖像幀中所有臉的位置(步驟1106)。以檢測到的臉在所述圖像中從左至右并且自上而下的位置順序來標記所述檢測到的臉(步驟1108)。一般而言,每張真實的臉在所有相機中都將具有相同的標記。此外,可以為每個相機提供步驟1104-步驟1108中的各個步驟?;谄湓诓煌鄼C幀中的相對位置來估計深度(步驟1110)。用新的臉部位置來更新fpt表1000(步驟1112)。移至步驟1104??梢詾槊總€臉部標記提供步驟1108、步驟1110中的各個步驟。
現(xiàn)在還參考圖14,可以提供一種運行在avo進程1200中(并且假設在fpt表1000中存在k張臉)的算法1202來執(zhí)行以下步驟。將麥克風陣列靈敏度聲束調整為朝向來自fpt表1000的第一張臉(步驟1204)。如果音頻水平高于閾值(步驟1206),則調節(jié)針對當前臉部區(qū)域的相機自動曝光(步驟1208)、調節(jié)針對當前臉部區(qū)域的相機自動對焦(步驟1210),并返回步驟1206。否則(如果音頻水平不高于閾值),則將麥克風陣列靈敏度聲束調整為朝向來自fpt表的下一張臉(步驟1212),并且返回步驟1206。
圖15示出了一種方法1300。該方法1300包括以下步驟。使用一種裝置的相機采集圖像(步驟1302)。確定該圖像的一部分的第一位置(步驟1304)。采集對應于該第一位置的音頻信息(步驟1306)。至少部分地響應于采集到的音頻信息來控制所述相機的參數(shù)(步驟1308)。
根據(jù)本發(fā)明的各種示例性實施方式,公開了一種用于改善的音頻-視覺通信的方法。本發(fā)明的實施方式涉及在存在多個參與者時的一般通信方案(舉例而言,比如視頻通話、視頻錄制)中同時優(yōu)化關于活躍通話者的音頻和視頻(采集)質量。本發(fā)明的實施方式提供這樣一種方法:該方法標識多個通話者群組內的活躍通話者,并且相應地更新視覺參數(shù)。
具有麥克風(音頻)和相機(視頻)的常規(guī)設備配置一般被獨立地考慮,并且該情境限于兩個領域(音頻和視頻)相互聯(lián)系的情況。單獨地(獨立地)考慮麥克風和相機,可能會限制分別在音頻和視頻質量中可能實現(xiàn)的技術效果。本發(fā)明的各種實施方式提供了對兩種類型的傳感器(麥克風和相機)所采集到的信息的結合,以提高彼此的質量。例如,常規(guī)配置一般利用改進的相機、鏡頭和軟件支持來僅僅改善成像和視頻錄制。然而,這些改善一般被采用在較窄的范圍或應用類別內。本發(fā)明的實施方式因此提高質量,并且創(chuàng)造了將改進的技術適配于移動電話設備中的機會。
在一般音頻視覺通信方案(比如視頻會議或者其他視頻電話設置)中,處于一個位置的一個或多個通話者通過音頻和視頻信號與處于另一位置的一個或多個通話者通信。在一種簡單的常規(guī)設置中,在每個位置的一個相機和一個麥克風似乎就足以實現(xiàn)這一通信方案。然而,由于視頻質量一般取決于對所有通話者而言可能并不一定都是最佳的相機設置(例如,活躍通話者可能不在焦點,或者處于現(xiàn)場的非常暗/亮的區(qū)域之中,使得相機無法正確采集圖像),因而可能出現(xiàn)各種技術問題。此外,存在于一個位置的背景噪聲可能會干擾來自活躍通話者方向的音頻信號。另外,相機和麥克風可能未被放置在空間上靠近的位置處,使得活躍通話者相對于麥克風陣列的方向在沒有3d空間中臉部位置的知識的情況下可能無法確定出來。
相應地,本發(fā)明的實施方式可以減輕由常規(guī)配置所造成的上述各種技術問題。根據(jù)本發(fā)明的各種實施方式,音頻和視覺組件可以提供視頻檢測和人臉跟蹤;控制麥克風陣列的定向靈敏度,用于定向音頻采集(自適應聲束成形);以及立體成像,用以采集針對(圖像中的)物體的(相對于相機的)深度信息。如上所述,音頻和視覺組件可以包括至少一個視頻相機,其采集用戶臉部的圖像;以及麥克風陣列,其被配置成采集用戶的語音(其中麥克風陣列無需被置于一個或多個相機附近)。麥克風陣列可以包括至少3個被配置用于對麥克風陣列進行二維(2d)聲束調向的麥克風(例如,其可以是全向麥克風)。當麥克風陣列與相機之間的距離增大時,所述至少一個視頻相機可以包括多個相機。然而,可以提供任何適當?shù)囊纛l/視覺組件配置。
本發(fā)明的實施方式在具有一個或多個參與者并且/或者在嘈雜環(huán)境中的免提語音和/或視頻通話期間提供改進的音頻和視頻采集質量。本發(fā)明的實施方式提供了分別針對音頻數(shù)據(jù)和視覺數(shù)據(jù)的優(yōu)化,并因此提高了許多用例(舉例而言,比如視頻通話、視頻錄制情況)的質量。本發(fā)明的實施方式提供了一種用于標識多通話者群組內的通話者并且更新視覺參數(shù)的方法。系統(tǒng)通過一個或多個相機來檢測/跟蹤臉的位置,通過麥克風陣列的幫助來檢測活躍通話者,并且使用最佳檢測來優(yōu)化視覺信息。
本發(fā)明的各種實施方式可適用于靜默情況,并且還可以適用于多通話者群組。本發(fā)明的實施方式還可以包括由麥克風陣列控制的可移動相機鏡頭/光學器件,這樣可以產(chǎn)生針對視角的提高的靈活性。
本發(fā)明的示例提供了改善的配置,其通過優(yōu)化針對每個時刻的活躍通話者的視頻參數(shù)(曝光、對焦)而允許在不同的位置和照明條件的情況下的增強的音頻/視頻采集。此外,本發(fā)明的一些實施方式可在講話停頓期間實現(xiàn)通話者跟蹤,因為它依靠對可見現(xiàn)場中出現(xiàn)的所有臉部的連續(xù)視頻跟蹤。另外,本發(fā)明的實施方式可以增強視頻錄制和電視電話會議語音通話,以及與音頻數(shù)據(jù)和視覺數(shù)據(jù)二者相關的質量。
根據(jù)本發(fā)明的一個示例,公開了一種裝置。該裝置包括以下元件。殼體。處于該殼體中的電子電路。包括第一視頻相機和麥克風陣列的音頻-視覺源跟蹤系統(tǒng),其中第一視頻相機和麥克風陣列附接至殼體,其中音頻-視覺源跟蹤系統(tǒng)被配置成從第一視頻相機接收視頻信息,并且其中音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應于所述視頻信息而從麥克風陣列采集音頻信息。
根據(jù)本發(fā)明的另一示例,公開了一種機器可讀的程序存儲設備。該程序存儲設備有形地體現(xiàn)指令程序,該指令程序可由機器執(zhí)行用于進行操作,以感測音頻信號。該程序存儲設備可以進行以下操作。分析圖像的一部分。計算與所述圖像的所述部分相對應的方向,其中該方向是相對于一種裝置的。至少部分地基于計算的方向而導引所述裝置的麥克風陣列。
根據(jù)本發(fā)明的又一示例,公開了一種裝置。該裝置包括殼體、電子電路和音頻-視覺優(yōu)化系統(tǒng)。電子電路位于殼體中。音頻-視覺優(yōu)化系統(tǒng)包括第一視頻相機和麥克風陣列。所述第一視頻相機和麥克風陣列附接至殼體。第一視頻相機包括至少一個可調參數(shù)。音頻-視覺優(yōu)化系統(tǒng)被配置成從麥克風陣列接收音頻信息。音頻-視覺優(yōu)化系統(tǒng)被配置成至少部分地響應于所述音頻信息而調節(jié)第一視頻相機的所述至少一個可調參數(shù)。
根據(jù)本發(fā)明的另一示例,公開了一種機器可讀的程序存儲設備。公開了有形地實現(xiàn)可由機器為了進行采集音頻-視覺信息的操作而執(zhí)行的指令程序的程序存儲設備。調整一種設備的麥克風陣列。評估由該麥克風陣列所接收到的音頻信息。至少部分地基于經(jīng)評估的音頻信息來調節(jié)所述設備的相機參數(shù)。
應當理解,本發(fā)明的組件可以可操作地耦合或連接,并且可以存在任何數(shù)量的介于中間的元件及其任何組合(包括無介于中間的元件)。連接可以是直接的或間接的,并且此外組件之間可以僅具有功能上的關系。
應當理解,前文的描述僅僅是對本發(fā)明的示例說明。本領域中技術人員可在不背離本發(fā)明的情況下設計出各種替代和修改。因此,本發(fā)明旨在囊括處于隨附權利要求書范圍內的所有這樣的替代、修改和變動。