亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多源噪聲抑制的制作方法

文檔序號(hào):12515830閱讀:354來源:國(guó)知局
多源噪聲抑制的制作方法與工藝

本申請(qǐng)要求于2014年8月28日提交的美國(guó)臨時(shí)申請(qǐng)No.62/043,344的權(quán)益。出于所有目的,上述申請(qǐng)的主題通過引用并入本文中。

技術(shù)領(lǐng)域

本申請(qǐng)大體上涉及音頻處理,并且更具體地,涉及用于提供多源噪聲抑制的系統(tǒng)和方法。



背景技術(shù):

自動(dòng)語音識(shí)別(ASR)和語音用戶界面(VUI)被廣泛地用于控制不同類型的設(shè)備(諸如,電視機(jī)、游戲機(jī)等)。通常,當(dāng)用戶位于設(shè)備附近(例如,在與設(shè)備相同的房間中)時(shí),用戶發(fā)出語音命令以控制設(shè)備。然而,如果用戶需要為位于不同房間、車庫、不同房子或另一遠(yuǎn)程位置的設(shè)備提供語音命令,則這樣的位置可能是不方便的。此外,由于設(shè)備操作的噪聲環(huán)境而導(dǎo)致語音命令可能不清楚。因此,設(shè)備可能無法識(shí)別所發(fā)出的命令。因此,可能需要用于將口頭命令傳遞到具有VUI界面的設(shè)備的更魯棒的系統(tǒng)和方法。



技術(shù)實(shí)現(xiàn)要素:

提供本發(fā)明內(nèi)容是為了以簡(jiǎn)化形式引入下面在詳細(xì)說明書中進(jìn)一步描述的構(gòu)思的選擇。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)要求保護(hù)的主題的關(guān)健特征或者必要特征,也不旨在用于確定要求保護(hù)的主題的范圍的輔助。

描述了用于多源音頻處理的系統(tǒng)和方法。一種用于多源噪聲抑制的示例性方法包括以下步驟:向音頻流分配權(quán)重,所述音頻流由多個(gè)音頻設(shè)備基本上同步地提供,所述權(quán)重取決于所述音頻流的質(zhì)量;基于所述權(quán)重處理所述音頻流以生成干凈的語音信號(hào);以及將所述干凈的語音信號(hào)提供給至少一個(gè)遠(yuǎn)程設(shè)備用于進(jìn)一步處理。在一些實(shí)施方式中,每個(gè)音頻設(shè)備包括至少一個(gè)麥克風(fēng),并且與物聯(lián)網(wǎng)(本文也稱為物聯(lián)網(wǎng)設(shè)備)相關(guān)聯(lián)。

本公開的其它示例實(shí)施方式和方面將從結(jié)合以下附圖進(jìn)行以下描述變得顯而易見。

附圖說明

實(shí)施方式借助于示例來示出,但是并不限于附圖,在附圖中,相同的標(biāo)記指示相似的元件。

圖1是示出可以實(shí)踐多源噪聲抑制的方法的示例性環(huán)境的框圖。

圖2是示出根據(jù)示例性實(shí)施方式的音頻設(shè)備的框圖。

圖3是示出根據(jù)示例性實(shí)施方式的用于多源噪聲抑制的系統(tǒng)的框圖。

圖4是示出根據(jù)示例性實(shí)施方式的用于多源噪聲抑制的方法的流程圖。

圖5是示出實(shí)現(xiàn)所公開的技術(shù)的實(shí)施方式的示例性計(jì)算系統(tǒng)的框圖。

具體實(shí)施方式

本文中所公開的技術(shù)涉及用于多源噪聲抑制(本文中也稱為基于群的噪聲抑制)的系統(tǒng)和方法??梢岳帽慌渲脼橹辽俨东@聲學(xué)信號(hào)的多個(gè)音頻設(shè)備來實(shí)踐本技術(shù)的各種實(shí)施方式。音頻設(shè)備可以包括蜂窩電話、智能電話、可穿戴設(shè)備、平板電腦、平板手機(jī)、攝像機(jī)、電話聽筒、耳機(jī)、會(huì)議系統(tǒng)以及具有一個(gè)或更多個(gè)麥克風(fēng)和捕獲聲音的功能的其它設(shè)備。在一些實(shí)施方式中,音頻設(shè)備是連接到物聯(lián)網(wǎng)(IoT)或物聯(lián)網(wǎng)的一部分(例如,全球連接的設(shè)備的動(dòng)態(tài)網(wǎng)絡(luò))的設(shè)備,所述設(shè)備可以包括通常不被認(rèn)為是音頻設(shè)備(諸如,智能恒溫器、智能家電等)的設(shè)備。

在各種實(shí)施方式中,音頻設(shè)備還包括射頻(RF)接收器、發(fā)射器和收發(fā)器、有線和/或無線電信和/或聯(lián)網(wǎng)設(shè)備、放大器、音頻和/或視頻播放器、編碼器、解碼器、揚(yáng)聲器、輸入端、輸出端、存儲(chǔ)設(shè)備和用戶輸入設(shè)備。音頻設(shè)備還可以包括輸入設(shè)備(諸如,按鈕、開關(guān)、按鍵、鍵盤、軌跡球、滑塊、觸摸屏、一個(gè)或更多個(gè)麥克風(fēng)、陀螺儀、加速計(jì)、全球定位系統(tǒng)(GPS)接收器等)。音頻設(shè)備還可以包括輸出端(諸如,LED指示器、視頻顯示器、觸摸屏、揚(yáng)聲器等)。

在各種實(shí)施方式中,音頻設(shè)備在固定和便攜式環(huán)境中操作。固定環(huán)境包括住宅和商業(yè)建筑物或結(jié)構(gòu)等。例如,固定實(shí)施方式包括客廳、臥室、家庭影院、會(huì)議室、禮堂、商業(yè)場(chǎng)所等。便攜式環(huán)境包括移動(dòng)車輛、移動(dòng)人員、交通工具等。

本技術(shù)可以用于向設(shè)備(諸如,位于房子的不同部分中、在車輛中或在另一房子中的設(shè)備)提供遠(yuǎn)程命令。另外,本技術(shù)可以用于使得能夠進(jìn)行直播通信(live-talk communication)(即,與位于房子的不同部分或甚至在不同房子中的第二用戶的實(shí)時(shí)通信)。在一些實(shí)施方式中,數(shù)據(jù)通過本地有線網(wǎng)絡(luò)或本地?zé)o線網(wǎng)絡(luò)(參見,例如網(wǎng)絡(luò)140)或通過計(jì)算云160被中繼到另一設(shè)備。

圖1是示出根據(jù)示例性實(shí)施方式的、可以實(shí)踐多源噪聲抑制的方法的環(huán)境100的框圖。示例環(huán)境100包括一個(gè)或更多個(gè)音頻設(shè)備110。音頻設(shè)備110可以位于住宅和/或辦公室內(nèi)的不同地方。每個(gè)音頻設(shè)備110可以被配置為接收聲學(xué)信號(hào),處理所述聲學(xué)信號(hào)以生成音頻流,并將所述音頻流發(fā)送到遠(yuǎn)程設(shè)備。在一些實(shí)施方式中,每個(gè)音頻設(shè)備110可以包括用于捕獲聲學(xué)聲音的至少一個(gè)麥克風(fēng)。在各種實(shí)施方式中,聲學(xué)信號(hào)可以包括來自用戶120被一個(gè)或更多個(gè)噪聲源130污染的聲音。噪聲源130可以包括街道噪聲、環(huán)境噪聲、和來自除了期望的揚(yáng)聲器120之外的實(shí)體的語音。例如,噪聲源130包括工作空調(diào)、通風(fēng)風(fēng)扇、街道噪聲、電視機(jī)、移動(dòng)電話、立體聲音頻系統(tǒng)等。

在各種實(shí)施方式中,音頻設(shè)備110經(jīng)由網(wǎng)絡(luò)140互連。在一些實(shí)施方式中,網(wǎng)絡(luò)140包括本地網(wǎng)絡(luò)(例如,Wi-Fi網(wǎng)絡(luò)、藍(lán)牙網(wǎng)絡(luò)等)。另外或另選地,音頻設(shè)備110可以經(jīng)由有線網(wǎng)絡(luò)或網(wǎng)狀網(wǎng)絡(luò)互連。在一些實(shí)施方式中,音頻設(shè)備110可以包括控制器/協(xié)調(diào)器150(在本文中也稱為“控制器150”)。在特定實(shí)施方式中,音頻設(shè)備110被同步到由外部設(shè)備或控制器150提供的公共時(shí)間源??刂破?協(xié)調(diào)器150可以是路由器、芯片、音頻設(shè)備110(諸如,電視機(jī))中的一個(gè)等。例如,如果音頻設(shè)備110經(jīng)由無線網(wǎng)絡(luò)互連,則路由器可以充當(dāng)控制器/協(xié)調(diào)器150。

在另外的實(shí)施方式中,音頻設(shè)備110中的一個(gè)或更多個(gè)連接到基于云的計(jì)算資源160(在本文中也稱為“計(jì)算云160”和“基于云的計(jì)算資源服務(wù)160”)。在一些實(shí)施方式中,基于云的計(jì)算資源包括一個(gè)或更多個(gè)服務(wù)器群/服務(wù)器群集,所述服務(wù)器群/服務(wù)器群集包括可以與網(wǎng)絡(luò)交換機(jī)和/或路由器協(xié)同定位(co-locate)的計(jì)算機(jī)服務(wù)器的集合?;谠频挠?jì)算資源160可以包括將音頻設(shè)備110互連用于音頻設(shè)備110之間的數(shù)據(jù)交換的應(yīng)用以及用于處理從音頻設(shè)備110、控制器150和其它服務(wù)接收的數(shù)據(jù)的應(yīng)用。

在各種實(shí)施方式中,音頻設(shè)備110恒定地或周期性地監(jiān)聽語音并緩沖音頻數(shù)據(jù)。示例性音頻設(shè)備110經(jīng)由網(wǎng)絡(luò)140彼此通信。在各種實(shí)施方式中,音頻設(shè)備是連接到物聯(lián)網(wǎng)或者物聯(lián)網(wǎng)的一部分的設(shè)備。示例性音頻設(shè)備100具有用于捕獲聲音的一個(gè)或更多個(gè)麥克風(fēng),并且可以連接到網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))。這樣的示例性音頻設(shè)備在本文中也被稱為“物聯(lián)網(wǎng)設(shè)備”或“IoT設(shè)備”。借助于示例而非限制,第一和第二音頻設(shè)備110可以位于距揚(yáng)聲器120(在本文中也稱為說話人或用戶120)不同的距離處。由第一和第二音頻設(shè)備110捕獲的音頻數(shù)據(jù)可以被提供給控制器/協(xié)調(diào)器150,并且被視為來自主麥克風(fēng)和次麥克風(fēng)的數(shù)據(jù)。利用該信息,控制器150可以執(zhí)行回波和噪聲抑制。例如,當(dāng)用戶120在房子周圍行走時(shí),位于整個(gè)房子各處的另選音頻設(shè)備110和麥克風(fēng)可以變得對(duì)于從用戶120拾取語音來說最佳。當(dāng)用戶120說話(例如,向音頻設(shè)備110提供語音命令)時(shí),所有收聽的音頻設(shè)備110和麥克風(fēng)將其帶時(shí)間戳的數(shù)據(jù)發(fā)送到控制器/協(xié)調(diào)器150用于進(jìn)一步處理。

圖2是示出各種實(shí)施方式中的適于實(shí)現(xiàn)多源噪聲抑制的方法的示例性音頻設(shè)備110的框圖。示例音頻設(shè)備110可以包括收發(fā)器210、處理器220、麥克風(fēng)230、音頻處理系統(tǒng)240和輸出設(shè)備250。音頻設(shè)備110可以包括更多組件或其它組件以提供特定的操作或功能。類似地,音頻設(shè)備110可以包括更少的組件以執(zhí)行類似于或等同于圖2所描述的功能的功能。

在圖2的示例中,收發(fā)器210被配置為與網(wǎng)絡(luò)(諸如,互聯(lián)網(wǎng)、廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、蜂窩網(wǎng)絡(luò)等)進(jìn)行通信,以接收和/或發(fā)送音頻數(shù)據(jù)流。接收到的音頻數(shù)據(jù)流可以被轉(zhuǎn)發(fā)到音頻處理系統(tǒng)240和輸出設(shè)備250。

處理器220可以包括實(shí)現(xiàn)音頻數(shù)據(jù)的處理和根據(jù)音頻設(shè)備110(例如,通信設(shè)備和計(jì)算機(jī))的類型的各種其它操作的硬件、固件和軟件。存儲(chǔ)器(例如,非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))可以至少部分地存儲(chǔ)用于由處理器220執(zhí)行的指令和數(shù)據(jù)。

音頻處理系統(tǒng)240可以包括實(shí)現(xiàn)聲學(xué)信號(hào)的編碼的硬件、固件和軟件。例如,音頻處理系統(tǒng)240還被配置為經(jīng)由麥克風(fēng)230(所述麥克風(fēng)230可以是一個(gè)或更多個(gè)麥克風(fēng)或聲傳感器)從聲源接收聲學(xué)信號(hào)并處理所述聲學(xué)信號(hào)。在被麥克風(fēng)230接收之后,聲學(xué)信號(hào)可以通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為電信號(hào)。

示例性輸出設(shè)備250包括可以向聽眾(例如,聲源)提供音頻輸出的任何設(shè)備。例如,示例性輸出設(shè)備250包括揚(yáng)聲器、D類輸出、頭戴式耳機(jī)的聽筒或音頻設(shè)備110上的電話聽筒(handset)。

圖3是示出根據(jù)示例性實(shí)施方式的適于實(shí)現(xiàn)多源噪聲抑制的方法的系統(tǒng)300的框圖。示例系統(tǒng)300可以被合并在控制器150(圖1所示)中,并且用于從一個(gè)或更多個(gè)音頻設(shè)備110(圖1所示)經(jīng)由網(wǎng)絡(luò)140(也在圖1中示出)接收音頻流。系統(tǒng)300可以包括加權(quán)模塊310、噪聲抑制和減少模塊320、回波消除模塊330和ASR模塊340。在一些實(shí)施方式中,系統(tǒng)300的模塊310-340被實(shí)現(xiàn)為存儲(chǔ)在存儲(chǔ)器中并由控制器/協(xié)調(diào)器150的處理器執(zhí)行的指令。在其它實(shí)施方式中,系統(tǒng)300可以被實(shí)現(xiàn)為被并入控制器/協(xié)調(diào)器150中的硬件、芯片或固件。系統(tǒng)300可以在使用適于與物聯(lián)網(wǎng)設(shè)備進(jìn)行通信和在物聯(lián)網(wǎng)設(shè)備中進(jìn)行通信的協(xié)議的環(huán)境中操作。

在另外的實(shí)施方式中,系統(tǒng)300的模塊310-340中的一些或全部可以被實(shí)現(xiàn)為在遠(yuǎn)程服務(wù)器上或者由基于云的計(jì)算資源服務(wù)160(也在圖1中示出)存儲(chǔ)和執(zhí)行的指令??刂破?50可以經(jīng)由網(wǎng)絡(luò)140將用于發(fā)送音頻流和用于處理的其它數(shù)據(jù)的命令傳送到計(jì)算云160,并且可以接收計(jì)算結(jié)果。

在各種實(shí)施方式中,控制器150可以用于執(zhí)行分集匯集(diversity pooling)。也就是說,控制器150可以從N個(gè)音頻設(shè)備110接收N個(gè)音頻數(shù)據(jù)流。每個(gè)音頻流可以包括語音信號(hào)和噪聲。加權(quán)模塊310可以執(zhí)行基于由質(zhì)量度量確定的音頻數(shù)據(jù)的質(zhì)量為每個(gè)接收的音頻數(shù)據(jù)流分配權(quán)重的算法。在特定實(shí)施方式中,基于作為質(zhì)量度量的信噪比來計(jì)算與音頻流相關(guān)聯(lián)的權(quán)重。音頻數(shù)據(jù)的質(zhì)量可以取決于相應(yīng)音頻設(shè)備110在其中操作的特定環(huán)境。因此,在特定實(shí)施方式中,分配給音頻數(shù)據(jù)流的權(quán)重取決于音頻設(shè)備110的環(huán)境條件。例如,如果用戶120正在看電視,則位于用戶120正上方的麥克風(fēng)對(duì)于拾取用戶的語音來說可以是最佳的。然而,如果麥克風(fēng)位于加熱、通風(fēng)或空調(diào)(HVAC)系統(tǒng)附近,則由于在例如空調(diào)(AC)處于操作時(shí)的降低的信噪比而導(dǎo)致麥克風(fēng)可能不是最佳的。因此,分配給來自麥克風(fēng)的音頻數(shù)據(jù)的權(quán)重可以取決于噪聲源(諸如,本示例中的AC)是否激活。

在一些實(shí)施方式中,音頻數(shù)據(jù)的質(zhì)量和分配給音頻數(shù)據(jù)的權(quán)重可以取決于相應(yīng)音頻設(shè)備110的組件的特定特性(例如,麥克風(fēng)的類型、音頻處理系統(tǒng)的類型等)。

在一些實(shí)施方式中,示例性系統(tǒng)300執(zhí)行分布式噪聲抑制和減少以將噪聲與音頻數(shù)據(jù)分離開并使用多音頻流數(shù)據(jù)和分配給音頻流數(shù)據(jù)的權(quán)重來提取干凈的語音。例如,在具有多個(gè)麥克風(fēng)的音頻設(shè)備110中,主聲學(xué)信號(hào)和輔聲學(xué)信號(hào)的能量之間的麥克風(fēng)間電平差(ILD)可以用于聲學(xué)信號(hào)增強(qiáng)。例如,在標(biāo)題為“System and Method for Utilizing Inter-Microphone Level Differences for Speech Enhancement”的美國(guó)專利申請(qǐng)?zhí)?1/343,524(美國(guó)專利號(hào)為8,345,890)中描述了用于聲學(xué)信號(hào)增強(qiáng)的方法和系統(tǒng),出于上述目的,其公開內(nèi)容通過引用并入本文中。

另外,在一些實(shí)施方式中,通過使用多音頻流數(shù)據(jù)和分配給所述音頻流數(shù)據(jù)的權(quán)重,系統(tǒng)300可以執(zhí)行各種其它處理(舉幾個(gè)例子來說,諸如,回波消除和增益控制)。關(guān)于應(yīng)用加權(quán)以修改聲學(xué)信號(hào)的另外的細(xì)節(jié)在標(biāo)題為“Systems and Methods for Producing an Acoustic Field Having a Target Spatial Pattern”(美國(guó)專利號(hào)為8615392)的共同轉(zhuǎn)讓的美國(guó)專利申請(qǐng)?zhí)?2/893,208中找到,并通過引用并入本文中。例如,隨著用戶120圍著房子行走,并且隨著環(huán)境條件改變,分配給來自每個(gè)音頻設(shè)備110的每個(gè)音頻流的權(quán)重被動(dòng)態(tài)地調(diào)整,并且執(zhí)行信號(hào)處理(增益控制、回波消除、噪聲抑制等)以始終確保最佳的音頻質(zhì)量和語音識(shí)別。

所述方法的上述實(shí)施方式可以在IoT環(huán)境中操作?,F(xiàn)在描述關(guān)于根據(jù)各種實(shí)施方式的在IoT環(huán)境中操作的方法的另外的細(xì)節(jié)。

在一些實(shí)施方式中,每個(gè)音頻設(shè)備110包括至少一個(gè)麥克風(fēng),并且與物聯(lián)網(wǎng)(本文也稱為物聯(lián)網(wǎng)設(shè)備或IoT設(shè)備)相關(guān)聯(lián)。

在一些實(shí)施方式中,該方法(并且特別是加權(quán))包括通過在單房間或多房間物聯(lián)網(wǎng)環(huán)境中定位、識(shí)別和映射目標(biāo)聲音(例如,語音)和噪聲源通過組合來自多個(gè)物聯(lián)網(wǎng)設(shè)備(例如,音頻設(shè)備110)上的麥克風(fēng)的多個(gè)音頻流來生成聲學(xué)活動(dòng)地圖,以創(chuàng)建環(huán)境的多維聲學(xué)視圖。

可以使用IoT設(shè)備附近的聲源在IoT設(shè)備之間持續(xù)更新聲學(xué)簽名。

聽覺場(chǎng)景分析和場(chǎng)景分類器可以用于識(shí)別噪聲和目標(biāo)聲音類型。關(guān)于示例性場(chǎng)景分析和場(chǎng)景分類器的另外的細(xì)節(jié)可以在標(biāo)題為“Speech Signal Separation and Synthesis Based on Auditory Scene Analysis and Speech Modeling”的美國(guó)專利申請(qǐng)?zhí)?4/335,850和標(biāo)題為“Monaural Noise Suppression Based on Computational Auditory Scene Analysis”的美國(guó)專利申請(qǐng)?zhí)?2/860,043(美國(guó)專利號(hào)為8,447,596)中找到,這兩個(gè)文獻(xiàn)通過引用并入本文中。在一些實(shí)施方式中,IoT設(shè)備之間的信令機(jī)制(包括發(fā)射器和接收器)用于識(shí)別IoT設(shè)備之間相對(duì)于彼此的位置。

在各種實(shí)施方式中,該方法包括基于聲學(xué)活動(dòng)地圖來識(shí)別為講話者(例如,用戶120)提供良好的信噪比(SNR)的最佳音頻設(shè)備,以及(IoT設(shè)備之中的)最佳音頻設(shè)備的識(shí)別以測(cè)量講話者的環(huán)境和周圍環(huán)境中的噪聲。該識(shí)別可以用于向與音頻設(shè)備相關(guān)聯(lián)的音頻流分配權(quán)重。在各種實(shí)施方式中,來自音頻設(shè)備的音頻流的組合被用于增強(qiáng)目標(biāo)信號(hào)的音頻處理(例如,噪聲消除、噪聲抑制等)。作為結(jié)果,當(dāng)講話者(例如,用戶120)在單個(gè)房間或跨不同房間四處移動(dòng)時(shí),各種實(shí)施方式提供無縫的、免提的語音通信體驗(yàn)。在另外的結(jié)果中,各種實(shí)施方式提供無論哪個(gè)IoT設(shè)備具有最佳SNR的優(yōu)雅的、平滑的切換、以及無論哪個(gè)IoT設(shè)備具有最佳噪聲測(cè)量的優(yōu)雅的、平滑的切換。

此外,在一些實(shí)施方式中,該方法提供流暢(fluid)人機(jī)語音界面,所述流暢人機(jī)語音界面可以得到跨物聯(lián)網(wǎng)環(huán)境中的多個(gè)IoT設(shè)備的高執(zhí)行ASR。

另外,所述方法在特定實(shí)施方式中提供使IoT設(shè)備在最佳位置處、在最佳時(shí)間并且以最佳音量與用戶120進(jìn)行通信(例如,使用揚(yáng)聲器或IoT設(shè)備的其它通信功能)。因此,特定實(shí)施方式將提供正在監(jiān)聽和與用戶120通信的多個(gè)IoT設(shè)備之間和所述多個(gè)IoT設(shè)備中的無縫切換。

在一些實(shí)施方式中,可以將所得到的干凈的語音信號(hào)提供給ASR模塊340,例如,以提取口頭命令。在一些實(shí)施方式中,ASR模塊340可以將遠(yuǎn)程設(shè)備360與口頭命令(根據(jù)命令上下文,例如,電視、流送設(shè)備等)相關(guān)聯(lián),并將所述口頭命令提供給相關(guān)聯(lián)的遠(yuǎn)程設(shè)備360用于進(jìn)一步處理。在其它實(shí)施方式中,干凈語音用于各種語音界面和其它服務(wù)。

示例1.遠(yuǎn)程命令。

通過示例而非限制的方式,在一些實(shí)施方式中,用戶120從音頻設(shè)備110(圖1所示)向一個(gè)設(shè)備提供語音命令,并且所述設(shè)備可以經(jīng)由網(wǎng)絡(luò)140將所述該命令中繼給不同位置處的不同設(shè)備。語音命令可以被位于房屋(例如,房子)周圍的各種音頻設(shè)備110上或連接到房屋(例如,房子)周圍的各種音頻設(shè)備110的麥克風(fēng)拾取并被發(fā)送到控制器/協(xié)調(diào)器150??刂破?協(xié)調(diào)器150可以包括路由器或諸如TV的設(shè)備。一旦控制器/協(xié)調(diào)器150接收到所述命令,它可以請(qǐng)求所有其它設(shè)備發(fā)送帶時(shí)間戳的音頻命令(以及用于上下文的先前音頻的一小部分)??梢允褂枚帑溈孙L(fēng)數(shù)據(jù)來執(zhí)行諸如為音頻流加權(quán)、噪聲抑制、回波消除、增益控制和ASR算法的執(zhí)行的操作,以清理語音命令??梢栽诳刂破?50上或在計(jì)算云160上本地地執(zhí)行數(shù)據(jù)處理。因此,當(dāng)在本示例中用戶120圍繞房屋走動(dòng)并發(fā)出語音命令時(shí),命令被拾取、被處理并被發(fā)送到ASR模塊340。

在一些實(shí)施方式中,用戶120可以向位于房屋的其它區(qū)域(例如,房子的車庫區(qū)域)中的設(shè)備發(fā)送遠(yuǎn)程命令。在其它實(shí)施方式中,如果有人試圖啟動(dòng)車輛(例如,如果用戶的十幾歲的兒子正試圖乘坐車輛),則用戶120可以向車輛發(fā)送遠(yuǎn)程命令或從車輛接收通知。

在另外的實(shí)施方式中,用戶120可以向位于其它房屋(例如,諸如,由用戶的年邁的父母擁有的第二個(gè)房屋)中的設(shè)備發(fā)送遠(yuǎn)程命令,在這種情況下,可以通過計(jì)算云中繼所述命令。

示例2.直播通信。

本文所描述的技術(shù)還可以允許位于房屋的不同部分中的兩個(gè)或更多個(gè)用戶120之間或者各個(gè)房屋(例如,不同房子)中的用戶之間的實(shí)時(shí)通信。

通過示例而非限制的方式,用戶#1發(fā)出語音命令(諸如,“與我的爸爸連接”),并且該命令可以被位于用戶#1附近的各種音頻設(shè)備110拾取。在各種實(shí)施方式中,如上面在示例1中所描述的,處理包含該命令的不同音頻流以提取干凈的語音并識(shí)別所述命令。在該示例中一旦一個(gè)或更多個(gè)控制設(shè)備理解了該命令,則建立音頻設(shè)備110與位于用戶#2(例如,爸爸)附近的一個(gè)或更多個(gè)設(shè)備之間的通信。用戶#1和用戶#2通過位于每個(gè)用戶120附近的音頻設(shè)備110之間所建立的通信鏈路進(jìn)行談話。來自用戶#1的語音被用戶#1附近的一個(gè)或更多個(gè)音頻設(shè)備110接收,被處理以提取干凈的語音,如本文所述,并被發(fā)送到用戶#2(例如,用戶的爸爸)附近的一個(gè)或更多個(gè)音頻設(shè)備110。來自用戶#2(例如,用戶的爸爸)的語音可以類似地被用戶#1處理和接收。

在一些實(shí)施方式中,如果用戶#2位于同一房子中,則可以使用無線(例如,WiFi)或有線(例如,以太網(wǎng))連接通過例如本地網(wǎng)絡(luò)傳送數(shù)據(jù)。在其它實(shí)施方式中,如果用戶#2位于不同的房子中,則通過WAN或包括計(jì)算云環(huán)境的其它基礎(chǔ)設(shè)施來發(fā)送數(shù)據(jù)。使用本文所描述的技術(shù)的足夠的網(wǎng)絡(luò)化音頻設(shè)備110的布置可以使得用戶120能夠在用戶120在整個(gè)房屋(例如,房子)中移動(dòng)時(shí)連接到另一個(gè)人并與另一個(gè)人講話。

圖4是示出根據(jù)示例性實(shí)施方式的用于多源噪聲抑制的方法400的流程圖。示例方法400可以通過向音頻流分配權(quán)重而開始于操作402。音頻流可以由分布式音頻設(shè)備110提供。音頻流可以包含語音和噪聲。在各種實(shí)施方式中,應(yīng)用于音頻流的權(quán)重例如使用信噪比基于音頻流的質(zhì)量來確定。在操作404處繼續(xù)的處理基于分配給音頻流的權(quán)重可以生成干凈的語音。處理可以包括增益控制、噪聲抑制、降噪、回波消除等。在操作406處,示例性方法包括向遠(yuǎn)程設(shè)備(例如,遠(yuǎn)程設(shè)備360)提供干凈的語音,以進(jìn)行進(jìn)一步處理(諸如,ASR)。

圖5示出了可以用于實(shí)現(xiàn)本技術(shù)的各種實(shí)施方式的各種元件(例如,音頻設(shè)備、控制器等)的示例性計(jì)算機(jī)系統(tǒng)500。圖5的計(jì)算機(jī)系統(tǒng)500可以在計(jì)算系統(tǒng)、網(wǎng)絡(luò)、服務(wù)器或其組合的上下文中實(shí)現(xiàn)。圖5的計(jì)算機(jī)系統(tǒng)500包括一個(gè)或更多個(gè)處理器單元510和主存儲(chǔ)器520。主存儲(chǔ)器520部分地存儲(chǔ)用于由處理器單元510執(zhí)行的指令和數(shù)據(jù)。在各種實(shí)施方式中,主存儲(chǔ)器520在操作時(shí)存儲(chǔ)可執(zhí)行代碼。圖5的計(jì)算機(jī)系統(tǒng)500還包括一個(gè)或更多個(gè)海量數(shù)據(jù)存儲(chǔ)設(shè)備530、一個(gè)或更多個(gè)便攜式存儲(chǔ)設(shè)備540、輸出設(shè)備550、用戶輸入設(shè)備560、圖形顯示系統(tǒng)570和外圍設(shè)備580。

圖5所示的組件被描繪為經(jīng)由單個(gè)總線590連接。組件可以通過一個(gè)或更多個(gè)數(shù)據(jù)傳輸裝置連接。處理器單元510和主存儲(chǔ)器520經(jīng)由本地微處理器總線連接,并且海量數(shù)據(jù)存儲(chǔ)設(shè)備530、外圍設(shè)備580、便攜式存儲(chǔ)設(shè)備540和圖形顯示系統(tǒng)570經(jīng)由一個(gè)或更多個(gè)輸入/輸出(I/O)總線連接。

可以利用磁盤驅(qū)動(dòng)器、固態(tài)驅(qū)動(dòng)器或光盤驅(qū)動(dòng)器實(shí)現(xiàn)的海量數(shù)據(jù)存儲(chǔ)設(shè)備530是用于存儲(chǔ)供處理器單元510使用的數(shù)據(jù)和指令的非易失性存儲(chǔ)設(shè)備。海量數(shù)據(jù)存儲(chǔ)設(shè)備530存儲(chǔ)用于實(shí)現(xiàn)本公開的實(shí)施方式的系統(tǒng)軟件,并且可以在程序執(zhí)行期間將軟件的全部或部分加載到主存儲(chǔ)器520中。

便攜式存儲(chǔ)設(shè)備540與便攜式非易失性存儲(chǔ)介質(zhì)(諸如,閃存驅(qū)動(dòng)器、軟盤、光盤、數(shù)字視頻盤或通用串行總線(USB)存儲(chǔ)設(shè)備)協(xié)同操作以向圖5的計(jì)算機(jī)系統(tǒng)500輸入數(shù)據(jù)和軟件代碼以及從圖5的計(jì)算機(jī)系統(tǒng)500輸出數(shù)據(jù)和軟件代碼。用于實(shí)現(xiàn)本公開的實(shí)施方式例的系統(tǒng)軟件可以被存儲(chǔ)在便攜式介質(zhì)上,并經(jīng)由便攜式存儲(chǔ)設(shè)備540輸入到計(jì)算機(jī)系統(tǒng)500中。

用戶輸入設(shè)備560可以提供用戶接口的一部分。用戶輸入設(shè)備560可以包括用于輸入和操縱字母數(shù)字和其它信息的一個(gè)或更多個(gè)麥克風(fēng)、字母數(shù)字鍵盤(諸如,鍵盤)、指示設(shè)備(諸如,鼠標(biāo)、軌跡球、軌跡板、觸筆或光標(biāo)方向鍵)。用戶輸入設(shè)備560還可以包括觸摸屏。另外,如圖5所示的計(jì)算機(jī)系統(tǒng)500包括輸出設(shè)備550。合適的輸出設(shè)備550包括揚(yáng)聲器、打印機(jī)、網(wǎng)絡(luò)接口和監(jiān)視器。

圖形顯示系統(tǒng)570包括液晶顯示器(LCD)或其它合適的顯示設(shè)備。圖形顯示系統(tǒng)570被配置為接收文本和圖形信息并處理所述信息以輸出到顯示設(shè)備。

外圍設(shè)備580可以包括任何類型的計(jì)算機(jī)支持設(shè)備以向計(jì)算機(jī)系統(tǒng)500添加附加功能。

圖5的計(jì)算機(jī)系統(tǒng)500中設(shè)置的組件是通常在計(jì)算機(jī)系統(tǒng)中找到的那些組件,所述組件可以適用于本公開的實(shí)施方式,并且旨在表示本領(lǐng)域公知的這些計(jì)算機(jī)組件的廣泛類別。因此,圖5的計(jì)算機(jī)系統(tǒng)500可以是個(gè)人計(jì)算機(jī)(PC)、手持計(jì)算機(jī)系統(tǒng)、電話、移動(dòng)計(jì)算機(jī)系統(tǒng)、工作站、平板電腦、平板手機(jī)、移動(dòng)電話、服務(wù)器、小型計(jì)算機(jī)、大型計(jì)算機(jī)、可穿戴設(shè)備、嵌入式設(shè)備或任何其它計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)還可以包括不同的總線配置、網(wǎng)絡(luò)平臺(tái)、多處理器平臺(tái)等??梢允褂酶鞣N操作系統(tǒng),所述各種操作系統(tǒng)包括UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNX ANDROID、IOS、CHROME、TIZEN和其它合適的操作系統(tǒng)。

各種實(shí)施方式的處理可以在基于云的軟件中實(shí)現(xiàn)。在一些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)500被實(shí)現(xiàn)為基于云的計(jì)算環(huán)境(諸如,在計(jì)算云內(nèi)操作的虛擬機(jī))。在其它實(shí)施方式中,計(jì)算機(jī)系統(tǒng)500本身可以包括基于云的計(jì)算環(huán)境,其中,計(jì)算機(jī)系統(tǒng)500的功能以分布式的方式執(zhí)行。因此,當(dāng)計(jì)算機(jī)系統(tǒng)500被配置為計(jì)算云時(shí),所述計(jì)算機(jī)系統(tǒng)500可以包括各種形式的多個(gè)計(jì)算設(shè)備,如下面將更詳細(xì)地描述的。

通常,基于云的計(jì)算環(huán)境是通常組合一大批處理器(諸如,在web服務(wù)器內(nèi))的計(jì)算能力和/或組合一大批計(jì)算機(jī)存儲(chǔ)器或存儲(chǔ)設(shè)備的存儲(chǔ)容量的資源。提供基于云的資源的系統(tǒng)可以被其所有者專有地利用,或者所述系統(tǒng)對(duì)于在計(jì)算基礎(chǔ)設(shè)施內(nèi)部署應(yīng)用的其它用戶來說可以是可訪問的以獲得大計(jì)算或存儲(chǔ)資源的益處。

例如,云可以由包括多個(gè)計(jì)算設(shè)備的網(wǎng)絡(luò)服務(wù)器的網(wǎng)絡(luò)形成,所述多個(gè)計(jì)算設(shè)備在配置上類似于計(jì)算機(jī)系統(tǒng)500,每個(gè)服務(wù)器或至少多個(gè)服務(wù)器提供處理器和/或存儲(chǔ)資源。這些服務(wù)器可以管理由多個(gè)用戶(例如,云資源客戶或其它用戶)提供的工作負(fù)載。通常,每個(gè)用戶將工作負(fù)載需求放置在實(shí)時(shí)變化的云資源上。這些變化的性質(zhì)和程度可以取決于例如資源所服務(wù)的業(yè)務(wù)的類型。

以上參照示例實(shí)施方式描述了本技術(shù)。上面的說明性討論并不旨在是窮舉的或?qū)⑺_的主題的實(shí)施方式限制為所公開的形式。鑒于上述教導(dǎo),修改和變化是可能的,以使本領(lǐng)域的其它技術(shù)人員能夠利用可適合于特定用途的那些實(shí)施方式。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1