相關(guān)申請
本申請為在2014年10月20日提交的美國專利申請序號62/066,154的延續(xù),其公開內(nèi)容通過引用整體并入。
本申請大體涉及電子通信,并且更具體地,涉及具有智能語音識別和處理的通信系統(tǒng)、方法和裝置。
背景技術(shù):
現(xiàn)代通信系統(tǒng)(例如,蜂窩電話)中的背景噪聲、房間混響和信號失真破壞許多重要的語音提示(cue),從而產(chǎn)生貧乏的語音信號。然而,語音包含許多冗余的提示,正常聽力的人可以使用這些冗余來補(bǔ)償在日常生活中遇到的大多數(shù)嘈雜、混響或其他形式的失真語音的語音提示丟失。這不是偶然的事故。法規(guī)、公眾壓力和相關(guān)因素致使工作場所、公共場所、學(xué)校等的背景噪聲減少,所以對于正常聽力的人來說,大多數(shù)時間的語音交流是相對有效的。然而,聽力損失的人必須處理兩種形式的貧乏語音,由于受損的聽覺系統(tǒng)中的信號的神經(jīng)處理減少所導(dǎo)致的語音提示丟失以及在失真的語音中的語音提示的額外損失。盡管有聽力損失的許多人能夠使用冗余的語音提示來理解安靜無失真的語音,以補(bǔ)償由受損的聽覺系統(tǒng)中的神經(jīng)處理不足導(dǎo)致的語音提示的丟失,但是失真的語音信號實質(zhì)上更難以理解。放大對于提高安靜無失真語音的清晰度(intelligibility)是有用的,因為它增加了貧乏語音信號中許多有用的冗余提示的可聽性。然而,如果放大的語音信號失真(例如,背景噪聲隨著語音信號被放大),則存在更少的剩余冗余語音提示用于補(bǔ)償受損聽覺系統(tǒng)中的神經(jīng)處理不足和失真語音信號中的語音提示損失所導(dǎo)致的組合語音提示損失。具有聽力損失的老年人在神經(jīng)和認(rèn)知過程中也具有年齡相關(guān)的缺陷,特別是在處理快速時間(temporal)變化方面。因此,這些老年人在理解日常生活中經(jīng)常遇到的各種失真的語音時比年輕的正常聽力成人有更大的困難。常規(guī)的放大在提高失真語音的清晰度方面幾乎沒有什么益處,特別是具有快速時間失真的語音。
自動語音識別領(lǐng)域近年來取得了長足的進(jìn)步。機(jī)器語音識別現(xiàn)在是實際的現(xiàn)實,盡管還不如人類語音識別那樣有效。然而,已經(jīng)開發(fā)了使用自動語音識別技術(shù)的算法來提高貧乏語音的清晰度和質(zhì)量。然而,在助聽器中實現(xiàn)的信號處理算法僅處理聲學(xué)信號。相比之下,自動語音識別算法使用語音信號中的所有信息,其可包括視光學(xué)、發(fā)音、語言和/或統(tǒng)計信息。能夠理解貧乏語音的語音信號中的許多冗余由語音的聲學(xué)和光學(xué)分量在面對面通信中傳達(dá),特別是在具有挑戰(zhàn)性的聆聽條件下。
技術(shù)實現(xiàn)要素:
公開了具有智能語音識別和處理的系統(tǒng)、方法和裝置。在一個實施例中,系統(tǒng)、方法和裝置可實現(xiàn)如本文所述的語音識別輔助(sra)。sra可以以提高聽力損失的人,包括特別是具有聽力損失的幾乎總是也具有年齡相關(guān)的神經(jīng)和認(rèn)知處理缺陷的老年人的語音的清晰度和聲音質(zhì)量的方式來實施。
例如,常規(guī)助聽器處理聲學(xué)信號,而不考慮語音信號的發(fā)音、語言、語義或統(tǒng)計內(nèi)容。然后,經(jīng)過處理的聲學(xué)信號僅使用聽力傳送給聆聽者。因此,本發(fā)明的目的是提供可通過聽覺、視覺以及在特殊情況下,諸如聽力障礙的盲人通過觸覺輔助使用sra觸摸來利用到達(dá)聆聽者的所有語音信息的系統(tǒng)、方法和裝置。根據(jù)通信模式(例如,面對面對話、看電視、收聽音頻記錄),sra以合適的格式將經(jīng)處理的語音信號傳送給聆聽者。
本發(fā)明的另一目的是提供可支持改進(jìn)的或智能的用于為聲音放大候選者的大部分人(例如,老年人)進(jìn)行語音識別的系統(tǒng)、方法和裝置。除聽力損失外,這些候選者可能遇到與神經(jīng)方面的年齡相關(guān)的聽覺處理缺陷和降低的認(rèn)知處理。因此,sra被設(shè)計成以可提高聽力損失的人,包括具有在神經(jīng)和認(rèn)知處理中與年齡相關(guān)的缺陷的老年人的語音的清晰度和聲音質(zhì)量的方式進(jìn)行操作。
根據(jù)聽力損失的性質(zhì)和嚴(yán)重程度以及其他復(fù)雜變量,具有語音感知聽力損失的人之間存在較大的個體差異。因此,在本發(fā)明的另一目的中,可實現(xiàn)sra,使得可對其進(jìn)行訓(xùn)練,以識別對于每個個體用戶未適當(dāng)處理的語音信號的那些方面。然后,sra可為每個用戶修改語音信號,以便提高其清晰度和/或聲音質(zhì)量。使用該訓(xùn)練范式,sra也可用于提高聽力損失的人以及對于他們的年齡具有正常聽力而聆聽貧乏語音的人的語音清晰度和/或聲音質(zhì)量。貧乏的語音可為受到傳輸信號方法獨有的失真所造成的背景噪聲、房間混響或經(jīng)由差的電話或因特網(wǎng)連接接收到的語音的結(jié)果。例如,現(xiàn)代語音通信系統(tǒng)中的新形式失真為蜂窩電話鏈路中的短期信號丟失。這些新的失真形式與日常語音通信(背景噪聲、房間混響)中遇到的失真有很大不同,并因此可能需要非常不同的算法來提高語音清晰度和/或聲音質(zhì)量。sra有能力識別失真的性質(zhì),并且語音信號的哪些方面容易受到失真的影響。通過此方式,sra可針對每種類型的失真自動選擇適當(dāng)?shù)男盘柼幚硭惴?。例如,在一個實施例中,由于sra在一段時間內(nèi)被用戶佩戴的結(jié)果,sra可識別常見的失真。sra識別由于失真而可能被用戶丟失的語音提示,并且通過增強(qiáng)這些提示和/或不太可能受失真影響的其他冗余語音提示來選擇補(bǔ)償這些提示丟失的算法。這種形式的語音處理利用語音信號的物理、發(fā)音、語言和統(tǒng)計特性以及聽力受損用戶的聽覺能力。sra非常適合以此方式處理語音,以提高每個用戶通常遇到的失真的語音清晰度和/或聲音質(zhì)量。sra還具有識別和補(bǔ)償未來可能引入的新形式失真的能力,并且該新形式失真隨著時間的推移可能變得普遍,如通過蜂窩電話引入的類型的失真的情況。應(yīng)注意,sra可被訓(xùn)練成依據(jù)哪些語音提示被丟失、哪些提示被減少或改變和可以被調(diào)整以及哪些剩余的冗余語音提示可以被加強(qiáng)來識別和分類每個失真以補(bǔ)償被丟失、減少或改變的提示。一旦在這些術(shù)語中識別出失真,則確定失真的物理特性。以此方式,sra可被訓(xùn)練成以語音特征級別識別和分類未來可能引入的任何失真。
具體地,實現(xiàn)sra的系統(tǒng)、方法和裝置與常規(guī)的助聽器或具有信號增強(qiáng)特征的蜂窩電話在許多方面不同。sra可使用用于分析到達(dá)聆聽者的物理信號的發(fā)音、語言和統(tǒng)計信息來操作。在另一方面,sra可操作來分析由人類面對面通信或使用基于因特網(wǎng)的音頻-視頻鏈路(諸如,skypetm)使用的由聲學(xué)和光學(xué)信號組成的物理信號。最后,sra可操作以向聆聽者傳送語音,該語音不限于聽覺,而且可以包括視覺和觸覺。盡管未廣泛使用,但觸覺用于向深度耳聾和聾啞人傳送語音提示已經(jīng)有超過一個世紀(jì)了。
在特定實施例中,sra可以以非語音識別模式操作。在非語音識別模式中,sra可操作提供常規(guī)的助聽器功能(例如,聽音樂、警報信號和其他非語音聲音)。此外,該操作模式可處理音頻信號,并進(jìn)一步分析聲學(xué)信號。
在另一實施例中,sra可在語音識別模式下操作。在語音識別模式中,sra可操作以利用物理語音信號中的所有可用的語音信息以及關(guān)于如何產(chǎn)生語音以及口語的發(fā)音、語言和統(tǒng)計特性的信息,以便識別、處理語音并向聆聽者傳送該語音以提高語音清晰度和/或聲音質(zhì)量。
根據(jù)一個實施例,用于提高語音信號的清晰度的方法可包括:(1)至少一個處理器接收包括多個聲音元素的輸入語音信號;(2)至少一個處理器識別輸入語音信號中的聲音元素以提高其清晰度;(3)至少一個處理器通過修改和替換聲音元素中的至少一者來處理該聲音元素;以及(4)至少一個處理器輸出包括經(jīng)處理的聲音元素的經(jīng)處理的語音信號。
在一個實施例中,聲音元素包括連續(xù)聲音元素和非連續(xù)聲音元素中的至少一者。
在一個實施例中,該處理增加了聲音元素的持續(xù)時間。
在一個實施例中,該處理減少了聲音元素的持續(xù)時間。
在一個實施例中,該方法可進(jìn)一步包括:至少一個處理器識別輸入語音信號中的第二聲音元素以提高其清晰度;以及至少一個處理器通過修改和替換該聲音元素中的至少一者來處理第二聲音元素。第二聲音元素可被修改或替換以補(bǔ)償?shù)谝宦曇粼氐奶幚怼?/p>
在一個實施例中,聲音元素可為語音聲音。
在一個實施例中,第一聲音元素可為短持續(xù)的,以及第二元素可為長持續(xù)的,并且所輸出的經(jīng)處理的語音信號包括經(jīng)修改或替換的第一聲音元素和第二聲音元素。
在一個實施例中,該方法可進(jìn)一步包括至少一個處理器通過修改輸入語音信號中的停頓的持續(xù)時間來進(jìn)一步處理輸入語音信號,并且其中,所輸出的經(jīng)處理語音信號包括經(jīng)修改的停頓。
在一個實施例中,該方法可進(jìn)一步包括再現(xiàn)經(jīng)處理的語音信號,并且降低所輸出的經(jīng)處理的語音被再現(xiàn)的速率。
根據(jù)另一實施例,用于提高語音信號的清晰度的方法可包括:(1)至少一個處理器接收輸入語音信號;(2)至少一個處理器識別該輸入語音信號的語音基頻;(3)至少一個處理器通過分析語音信號來處理輸入語音信號,以在有聲語音中提取激勵聲道的共振的周期性音調(diào)脈沖,這些周期性音調(diào)脈沖的頻率為有聲基頻;(4)至少一個處理器用激勵具有更大強(qiáng)度的聲道共振的較寬頻率范圍的周期性音調(diào)脈沖替換所提取的輸入語音信號的周期性音調(diào)脈沖;以及(5)所述至少一個處理器輸出經(jīng)處理的語音信號。
在一個實施例中,替換周期性脈沖可為近似狄拉克脈沖。
在一個實施例中,該方法可進(jìn)一步包括:至少一個處理器通過產(chǎn)生包括語音基頻的補(bǔ)充信號來進(jìn)一步處理輸入語音信號;并且至少一個處理器通過聽覺、觸覺和視覺中的一者輸出補(bǔ)充信號。
在一個實施例中,聲音元素可為語音聲音。
根據(jù)另一實施例,用于提高語音信號的清晰度的方法可包括:(1)至少一個處理器接收包括輸入語音信號的音頻信號;(2)至少一個處理器識別音頻信號的聲學(xué)環(huán)境;(3)至少一個處理器識別接收到的語音信號中的聲音元素以提高其清晰度;(4)至少一個處理器基于聲學(xué)環(huán)境確定用于處理該聲音元素的信號處理策略;(5)至少一個處理器將所確定的信號處理策略應(yīng)用于所識別的聲音元素;和(6)至少一個處理器輸出包括經(jīng)處理的聲音元素的經(jīng)處理的語音信號。
在一個實施例中,該方法可進(jìn)一步包括至少一個處理器確定聲學(xué)環(huán)境降低語音信號的清晰度。
在一個實施例中,基于降低的語音清晰度聆聽條件來確定用于處理語音信號的信號處理策略可包括至少一個計算機(jī)處理器基于來自用戶的反饋改變信號處理策略。反饋可為來自用戶的聽得見的反饋。
在一個實施例中,所確定的信號處理策略降低音段間掩蔽(inter-segmentmasking)。
在一個實施例中,所確定的信號處理策略降低混響掩蔽。
在一個實施例中,所確定的信號處理策略降低背景噪聲。
在一個實施例中,所確定的信號處理策略降低聲學(xué)反饋。
在一個實施例中,聲音元素可為語音聲音。
在一個實施例中,輸出經(jīng)處理的語音信號可包括將經(jīng)處理的語音信號的第一部分輸出到輸出端的第一通道,并將經(jīng)處理的語音信號的第二部分輸出到該輸出端的第二通道。
根據(jù)另一實施例,通信裝置可包括輸入端,其接收包括多個聲音元素的輸入語音信號;至少一個處理器,其識別輸入語音信號中的聲音元素以提高其清晰度,并且通過修改和替換聲音元素中的至少一者來處理該聲音元素;以及輸出端,其輸出包括經(jīng)處理的聲音元素的經(jīng)處理的語音信號。
在一個實施例中,輸入端可包括麥克風(fēng)。
在一個實施例中,輸出端可包括揚聲器。
在一個實施例中,輸出端可包括觸覺換能器。
在一個實施例中,輸入端、至少一個處理器和輸出端共同位于相同的裝置內(nèi)。
在一個實施例中,輸出端和至少一個處理器是分開的。
在一個實施例中,聲音元素可為語音聲音。
根據(jù)另一實施例,通信裝置可包括輸入端,其接收音頻信號,該音頻信號包括輸入語音信號;至少一個處理器,其執(zhí)行以下操作:識別音頻信號的聲學(xué)環(huán)境;識別接收到的語音信號中的聲音元素以提高其清晰度;基于聲學(xué)環(huán)境確定用于處理聲音元素的信號處理策略;并將所確定的信號處理策略應(yīng)用于所識別的聲音元素;以及輸出端,其輸出包括經(jīng)處理的聲音元素的經(jīng)處理的語音信號。
在一個實施例中,至少一個處理器進(jìn)一步確定聲學(xué)環(huán)境降低語音信號的清晰度。
在一個實施例中,輸入端可為麥克風(fēng)。
在一個實施例中,輸出端可為揚聲器。
在一個實施例中,輸出端可包括觸覺換能器。
在一個實施例中,輸入端、至少一個處理器和輸出端共同位于相同的裝置內(nèi)。
在一個實施例中,輸出端和至少一個處理器是分開的。
在一個實施例中,聲音元素可為語音聲音。
根據(jù)另一實施例,用于提高語音信號的清晰度的裝置可包括接收輸入音頻信號的輸入端;與第一用戶耳朵相關(guān)聯(lián)的第一輸出端;與第二用戶耳朵相關(guān)聯(lián)的第二輸出端;以及至少一個處理器,其在第一輸出端和第二輸出端之間切換輸出該輸入音頻信號。
在一個實施例中,切換可為準(zhǔn)周期性的。
根據(jù)另一實施例,用于提高語音信號的清晰度的裝置可包括接收輸入音頻信號的輸入端;與第一用戶耳朵相關(guān)聯(lián)的第一輸出端;與第二用戶耳朵相關(guān)聯(lián)的第二輸出端;至少一個處理器,其執(zhí)行以下操作:將輸入音頻信號中的第一聲音元素識別為強(qiáng)聲音元素;將第一聲音元素輸出到第一輸出端;接收輸入音頻信號中的第二聲音元素;將第二聲音元素輸出到第二輸出端;將輸入音頻信號中的第三聲音元素識別為強(qiáng)聲音元素;將第三聲音元素輸出到第二輸出端;接收輸入音頻信號中的第四聲音元素;并將第四聲音元素輸出到第一輸出端。
附圖說明
為了更全面地理解本發(fā)明、其目的和優(yōu)點,現(xiàn)在結(jié)合附圖參考以下描述,其中:
圖1a描繪了根據(jù)一個實施例的用于智能語音識別和處理的系統(tǒng);
圖1b描繪了根據(jù)另一實施例的用于智能語音識別和處理的系統(tǒng);
圖1c描繪了根據(jù)另一實施例的用于智能語音識別和處理的系統(tǒng);
圖1d描繪了根據(jù)另一實施例的用于智能語音識別和處理的系統(tǒng);
圖1e描繪了根據(jù)另一實施例的用于智能語音識別和處理的系統(tǒng);
圖2描繪了根據(jù)一個實施例的用于智能語音識別和處理的裝置的框圖;
圖3描繪了根據(jù)一個實施例的用于以音類級別(sound-classlevel)處理語音的方法;
圖4描繪了根據(jù)另一實施例的用于以音類級別處理語音的方法;以及
圖5描繪了根據(jù)一個實施例的用于以音段級別(segmentallevel)處理語音的方法;以及
圖6描繪了根據(jù)一個實施例的用于以音段級別處理語音的方法。
具體實施方式
通過參考圖1-圖6可理解本發(fā)明的幾個實施例及其優(yōu)點。
這里使用的短語“接收到的語音信號”是指到達(dá)聆聽者的物理信號。在面對面通信中,所接收到的語音信號具有聲學(xué)和光學(xué)分量。在電話通信中,所接收到的語音信號通常僅由聲學(xué)信號組成。對于具有聽力損失的盲人的特殊情況,接收到的語音信號可包括來自振動裝置的聲音和觸覺語音提示。
如本文所使用的,術(shù)語語音識別輔助或sra是指起到如本文所述作用的任何裝置。sra可以以硬件、軟件或其組合來實現(xiàn)。它也可為如在常規(guī)助聽器中佩戴在耳朵上的獨立裝置,或者它可分成兩個或更多個單元。例如,它可包括兩個單元,一個小的低功率耳戴式單元,其尺寸與常規(guī)助聽器相當(dāng),以及具有較大尺寸的袖珍式穿戴單元,其能夠以相當(dāng)高的功耗進(jìn)行計算密集處理。耳戴式單元可具有一個或更多個具有前置放大器的麥克風(fēng),音頻輸出換能器和至可穿戴視頻顯示器的鏈路。觸摸換能器也可用于向用戶傳送信號。兩個單元通過硬連線電氣鏈路或電磁鏈路相互通信,諸如拾音線圈鏈路、藍(lán)牙鏈路或其他無線電鏈路。雙耳版的sra具有兩個耳戴式單元,每個耳朵上一個。在另一實施方案中,較大的單元可連接到提供鏈路至電話網(wǎng)絡(luò)和/或因特網(wǎng)的另一裝置(例如,智能電話,平板計算機(jī)等)或者是其一部分。這些鏈路允許經(jīng)由普通老式電話(pots)、手機(jī),具有附加信號處理能力的智能手機(jī)、基于互聯(lián)網(wǎng)的通信裝置(硬件和/或軟件)、skypetm或其他通信裝置以及由電子裝置執(zhí)行的其他軟件應(yīng)用等通信。sra的其他實施方案在本公開的范圍內(nèi)。
如本文所用,術(shù)語“聽力損失”可包括對聽覺系統(tǒng)的損傷以及神經(jīng)和認(rèn)知處理中與年齡有關(guān)的缺陷的影響。使用這種更廣泛的聽力損失定義,因為大多數(shù)聽力損失的人是在神經(jīng)和認(rèn)知過程中具有年齡相關(guān)的缺陷的老年人。
如本文所公開,提高語音信號的清晰度可包括提高語音信號的清晰度和/或提高語音信號的聲音質(zhì)量。
語音由向更改所發(fā)送的聲音的聲音傳輸路徑(聲道)傳送聲能的能量源(肺)產(chǎn)生。聲道通常具有取決于聲道形狀的共振頻率。使用頻譜分析測量的這些共振稱為“共振峰”。
語音中有三種能量產(chǎn)生形式:i)周期性激勵,其中,由聲帶振動引起的周期性空氣突發(fā)激勵聲道的共振;ii)隨機(jī)激勵,其中,在聲道中的空氣流的隨機(jī)擾動產(chǎn)生由聲道的共振過濾的類似噪聲的聲音;以及iii)脈沖激勵,其包括單次能量突發(fā),諸如當(dāng)聲道的阻塞突然釋放時所產(chǎn)生的脈沖激勵。
語音的聲音可根據(jù)聲源分為幾類。元音和雙元音通過聲帶的周期性振動產(chǎn)生。這些聲音與輔音相比較長。在元音的穩(wěn)態(tài)部分,聲道的共振(共振峰)不會顯著改變。存在指示相鄰輔音的共振峰過渡進(jìn)入和離開元音。雙元音起始于典型的元音的共振峰模式,然后該元音的共振峰模式合并到第二元音的共振峰模式中。元音和雙元音可以根據(jù)它們的產(chǎn)生方式進(jìn)行子分類,諸如分別由嘴的前部、中心和后部的聲道收縮產(chǎn)生的前元音、央元音和后元音。
通過聲道的隨機(jī)激勵產(chǎn)生的聲音被稱為清擦音(voicelessfricative),諸如sip中的/s/和ship中的/sh/。濁擦音(voicedfricative),諸如zip中的/z/,結(jié)合隨機(jī)激勵與聲道的周期性激勵。
鼻輔音(nasalconsonant),諸如nip中的/n/,通過聲道的周期性激勵產(chǎn)生,如同元音一樣,但是聲道的形狀有很大不同。聲道被阻塞,無論是在嘴唇處還是在嘴的后部,使得聲學(xué)信號經(jīng)由鼻腔離開聲道。鼻輔音中聲道的形狀很復(fù)雜,從而產(chǎn)生共振和反共振的復(fù)雜混合。鼻輔音在低頻中也有大部分的能量。
滑輔音(glideconsonant)以與元音相同的方式產(chǎn)生,但是具有短暫的快速共振峰過渡。滑音的發(fā)音以適合一個元音的形狀的聲道開始,并且以適合另一元音的形狀之后不久結(jié)束。
閉塞輔音(stopconsonant),諸如pin中的/p/和bin中的/b/由聲道中的收縮的突然釋放產(chǎn)生。閉塞輔音可為濁音或清音;例如,/p/為通過唇部收縮產(chǎn)生的清塞音(voicelessstop),而其同源/b/為通過唇部的相同收縮產(chǎn)生的濁塞音(voicedstop)。清塞音的發(fā)音與濁塞音的發(fā)音的不同之處在于收縮釋放之后的開始發(fā)聲被延遲。閉塞輔音也包括稱為停止突發(fā)的隨機(jī)激勵的突發(fā)。停止突發(fā)中的能量量變化很大。在某些情況下,諸如在單詞結(jié)尾的停止,可完全省略停止突發(fā)。
上述聲音類別可被分為兩大類:持續(xù)音和非持續(xù)音。持續(xù)音(元音、雙元音、摩擦音、鼻音和幾個特殊的聲音,諸如lip中的/l/以及rip中的/r/)為持續(xù)的聲音,其持續(xù)時間可以被修改而不改變所說的含義。非持續(xù)音、滑音、閉塞音和塞擦音(閉塞音和摩擦音的組合)具有固定的持續(xù)時間,并且在沒有改變含義的情況下不能在持續(xù)時間內(nèi)更改,除了停止突發(fā)的輕微修改之外。
每個音類中的語音聲音可被細(xì)分成音段或元素,這些音段或元素傳達(dá)含義,有時被稱為音素。不同的語言在每個音類中都有不同的音段/元素集合,但是有許多音段/元素是多種語言通用的。語音也有傳達(dá)含義的超音段的分量,諸如詞重音和信號問題、陳述、重點的語調(diào)。
現(xiàn)在參考圖1a,該圖示出了可用于例如面對面通信中的sra的實施例。在此實施例中,由講話者產(chǎn)生的語音可通過由sra105接收的聲學(xué)和光學(xué)信號發(fā)送給sra的用戶。到達(dá)sra105的聲學(xué)信號可由用作至sra的聲學(xué)輸入的一個或更多個麥克風(fēng)接收。到達(dá)sra105的光信號可由用作至sra105的光學(xué)輸入端的一個或更多個可穿戴式相機(jī)接收。所接收到的聲學(xué)和光學(xué)信號可由sra105處理以提高語音的清晰度和/或聲音質(zhì)量。
sra105的輸出可包括聲學(xué)和/或光學(xué)信號,并且在一些情況下可包括觸覺信號。聲學(xué)信號可通過助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送到耳朵的其他聲學(xué)換能器傳送給用戶。光信號可通過視頻顯示器、頭戴式光學(xué)顯示器、google眼鏡或其他光學(xué)/視頻顯示器傳送給用戶。傳送給用戶的光信號補(bǔ)充了正常面對面通信中可用的講話者臉部和身體動作的視覺提示。振動裝置和其他觸覺換能器也可用于向用戶傳送語音提示。sra也可在無需使用通常在面對面通信中可用的對視覺提示的光學(xué)或觸覺補(bǔ)充的情況下使用。
圖1b描繪了sra105的音頻源可發(fā)送由sra105接收的聲學(xué)語音信號的實施例。音頻源可為收音機(jī)、唱片機(jī)、錄音帶播放器、cd播放器、輔助聆聽裝置、ip語音裝置、音頻會議系統(tǒng)、公共廣播系統(tǒng)、流式無線電裝置、雙向無線電或平板電腦、臺式機(jī)和筆記本計算機(jī)、工作站、電子讀取裝置等的音頻輸出。到達(dá)sra的聲學(xué)信號可由用作至sra105的聲學(xué)輸入端的一個或更多個麥克風(fēng)接收。所接收的聲學(xué)信號可由sra處理以提高語音的清晰度和/或聲音質(zhì)量。
圖1b中的sra105的輸出由聲學(xué)信號組成,其可通過助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送到耳朵的其他聲學(xué)換能器傳送給用戶。由sra105從聲學(xué)信號中提取的語音提示也可通過視頻顯示器、頭戴式光學(xué)顯示器、google眼鏡或其他光學(xué)/視頻顯示器傳送的視覺激勵來傳送。類似地,由sra105從聲學(xué)信號中提取的語音提示也可通過借助于振動裝置和其它觸覺換能器傳送的觸覺激勵來傳送。通過此裝置傳送的語音提示補(bǔ)充了通常在面對面通信中可用的視覺語音提示。
盡管可能認(rèn)識到通過視覺或觸覺裝置傳送的補(bǔ)充語音提示可有助于聽力損失的人,但是未廣泛認(rèn)識到的是,通過此裝置傳送的補(bǔ)充視覺提示也可有助于正常聽力的人在困難的聆聽條件下,如在背景噪聲中或在高度混響的環(huán)境中聆聽,或者通過質(zhì)量差的通信信道聆聽失真的語音。
圖1c描繪了sra105的音頻-視頻源可發(fā)送由sra105接收到的聲學(xué)和光學(xué)信號的實施例。音頻-視頻源可為電視機(jī)、dvd播放器、錄像帶播放器、劇院中的電影、家庭影院、視頻會議系統(tǒng)或平板計算機(jī)、臺式機(jī)和筆記本電腦或工作站等的音頻-視頻輸出。到達(dá)sra105的聲學(xué)信號可由用作sra105的聲輸入端的一個或更多個麥克風(fēng)來接收。到達(dá)sra105的光信號可由用作至sra105的光學(xué)輸入端的一個或更多個相機(jī)接收。所接收到的聲學(xué)和光學(xué)信號可由sra105處理以提高語音的清晰度和/或聲音質(zhì)量。
圖1c中的sra105的輸出可由聲學(xué)、電學(xué)和/或光學(xué)信號組成。聲學(xué)信號可通過助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送到耳朵的其他聲學(xué)換能器傳送給用戶。光信號可通過視頻顯示器、頭戴式光學(xué)顯示器、google眼鏡或其他光學(xué)/視頻顯示器傳送給用戶。振動裝置和其他觸覺換能器也可用于向用戶傳送信號。sra也可在無需使用通常在觀看音頻-視頻顯示時可用的對視覺提示的光學(xué)或觸覺補(bǔ)充的情況下使用。
圖1d描繪了sra105的實施方案,其中,sra105從諸如普通老式電話(pots)、移動電話,具有附加信號處理能力的智能電話之類的通信裝置、基于因特網(wǎng)的通信裝置(硬件和/或軟件)、skypetm或其他通信裝置接收信號。該圖示出了使用通信裝置彼此進(jìn)行通信的兩個人。講話者可對著第一通信裝置110a講話。語音信號可通過通信網(wǎng)絡(luò)115發(fā)送到網(wǎng)絡(luò)的接收端的第二通信裝置110b。通信網(wǎng)絡(luò)的示例包括普通老式電話系統(tǒng)(pots)、蜂窩網(wǎng)絡(luò)、wifi網(wǎng)絡(luò)、因特網(wǎng)、個人區(qū)域網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò)、近場通信網(wǎng)絡(luò)、藍(lán)牙網(wǎng)絡(luò)及其任何組合??筛鶕?jù)需要和/或期望使用任何合適的通信網(wǎng)絡(luò)。
到達(dá)圖1d中的通信裝置110b的信號可通過聲學(xué)和光學(xué)信號和/或借助于硬連線的電氣鏈路或電磁鏈路,諸如拾音線圈鏈路、藍(lán)牙鏈路或其它無線電鏈路傳送至sra105。由sra105接收到的信號可被處理以提高語音的清晰度和/或聲音質(zhì)量。
盡管sra105被描繪為單獨的元件,但是sra105的硬件、軟件和/或功能可被并入到第一通信裝置110a和/或第二通信裝置110b中。
圖1d中的sra105的輸出可由聲學(xué)、電學(xué)和/或光學(xué)信號組成。聲學(xué)信號可通過助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送到耳朵的其他聲換能器傳送給用戶。光信號可通過視頻顯示器、頭戴式光學(xué)顯示器、google眼鏡和其他光學(xué)/視頻顯示器傳送給用戶。振動裝置和其他觸覺換能器也可用于向用戶傳送信號。sra105也可在無需使用通常在觀看音頻-視頻顯示時可用的對視覺提示的光學(xué)或觸覺補(bǔ)充的情況下使用。
圖1e描繪了除了或代替第二通信裝置之外,第一通信裝置110a可包括sra105的實施例。再者,盡管sra105被描繪為單獨的元件,但是sra105的硬件、軟件和/或功能可被并入到第一通信裝置110a中。
在一個實施例中,sra105可被并入或提供給第一通信裝置110a和第二通信裝置110b兩者。
圖2描繪了sra的實施例的框圖。接收器205可拾取到達(dá)sra的聲學(xué)和光學(xué)信號。這些信號可臨時存儲在存儲器210中。附加i/o裝置215可被訪問以用于可選的處理,諸如針對盲人用戶的觸覺輸出。聲學(xué)信號處理器220可與光學(xué)信號處理器225同步地處理聲學(xué)信號。sra205、210、215、220、225、230的某些或全部部件可經(jīng)由接口235通信地耦合。本地接口235可為,例如但不限于,一個或更多個總線或如本領(lǐng)域已知的其他有線或無線連接。經(jīng)處理的聲學(xué)和光學(xué)信號可經(jīng)由輸出裝置230傳送給用戶。
在一個實施例中,sra200可以以軟件、固件、硬件或其組合來實現(xiàn)。在一個實施例中,裝置的一部分以軟件實現(xiàn)為可執(zhí)行程序,并且由特殊或通用計算機(jī),諸如sra的主體內(nèi)的微型計算機(jī),或者借助于至外部計算機(jī),諸如個人計算機(jī)、個人數(shù)據(jù)助理、智能電話、工作站、小型計算機(jī)、大型計算機(jī)等的硬連線線或無線電鏈路執(zhí)行。
在另一實施例中,sra205的一個或更多個輸入/輸出(i/o)部件(205、215、230)可包括能夠以聲學(xué)、光學(xué)或觸覺方式接收/傳送語音信號的外圍裝置,諸如麥克風(fēng)、照相機(jī)、觸覺加速度計或其他輸入傳感器、助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送到耳朵的其他聲學(xué)換能器、視頻顯示器、頭戴式光學(xué)顯示器、google眼鏡、計算機(jī)顯示器或其他光學(xué)/視頻顯示器、用于盲人用戶的振動裝置或其他觸覺換能器等。應(yīng)認(rèn)識到,輸入/輸出裝置可包括可為sra200內(nèi)部或與其分開的附加硬件(未示出)。附加硬件可使用標(biāo)準(zhǔn)有線(例如,通用串行總線)或標(biāo)準(zhǔn)無線連接,諸如拾音線圈鏈路、藍(lán)牙鏈路或其他無線電鏈路連接至/自sra200,以便提供通信??筛鶕?jù)需要或期望使用用于將附加硬件通信地連接至sra200的任何合適的裝置。
sra可被用作非語音識別模式以及語音識別模式中的常規(guī)助聽器。在非語音識別模式下,助聽器的操作允許在使用自動語音識別處理之前獲得用戶理解通過常規(guī)手段放大的語音的能力的基線數(shù)據(jù)。因此,sra可使用行之有效的擬合程序,諸如由dillon,h.在悉尼:boomerang出版社,紐約,斯圖加特:thieme,(2010)第二版第9.2.2節(jié)第239至242頁的《助聽器》(“hearingaids”)中描述的由澳大利亞國家聲學(xué)實驗室(australiannationalacousticlaboratories)開發(fā)的nal程序,以與常規(guī)助聽器相同的方式安裝,該公開通過引用整體并入。然后可獲得用戶如何能夠使用常規(guī)放大來更好理解語音的基線數(shù)據(jù)。標(biāo)準(zhǔn)化語音測試可用于此目的,諸如由nilsson,m.,soli,s.d.和sullivan,j.a.在《聲學(xué)學(xué)會雜志》(jacoustsocam.),95,1085-99(1994)在“用于在安靜和噪聲中測量語音接收閾值的噪聲測試的聽力開發(fā)”(“developmentofthehearinginnoisetestforthemeasurementofspeechreceptionthresholdsinquietandinnoise”)中描述的噪聲測試中的聽力(hearinginnoisetest,hint),其公開內(nèi)容通過引用整體并入。助聽器有益效果的主觀評估也可使用標(biāo)準(zhǔn)化的自我評估調(diào)查問卷,諸如由cox,r.m.和alexander,g.c.在《耳朵聽力》(“earhear.”)16,176-86,(1995)在“助聽器有益效果簡要概況”(“theabbreviatedprofileofhearingaidbenefit”)中所述的助聽器有益效果簡要概況,其公開內(nèi)容通過引用整體并入。此外,面向客戶的改進(jìn)量表(clientorientedscaleofimprovement,cosi)可被管理以確定用戶最希望從sra獲得的有益效果,由dillon,h.,james,a.和ginis,j.,在美國聽覺學(xué)會雜志(“jamacadaudiol.”)8,27-4,(1997)在“面向客戶的改進(jìn)量表(cosi)及其與助聽器提供的其他幾項益處量度和滿意度的關(guān)系”(“clientorientedscaleofimprovement(cosi)anditsrelationshiptoseveralothermeasuresofbenefitandsatisfactionprovidedbyhearingaids.”)中所述,該公開通過引用整體并入。其他測試和評估程序可用于確定具有和不具有語音識別處理的助聽器的有益效果。語音識別處理和上述的基線數(shù)據(jù)的幾個級別不僅在提供評估sra的基礎(chǔ)上有用,而且在識別適用于每個sra用戶的語音識別算法及其實施方案方面也有用。cosi被設(shè)計成識別每個人的最重要需求。與基于常規(guī)放大的每個人的能力的基線數(shù)據(jù)相結(jié)合的信息提供了用于確定語音識別處理水平和實現(xiàn)可能產(chǎn)生最大有益效果的適當(dāng)算法的手段。可在sra中實現(xiàn)的各種語音識別處理級別在下面討論。
音類的語音識別處理
根據(jù)實施例,sra可以以若干不同的級別操作。以音類級別處理語音通常需要最少量的處理來獲得語音清晰度和/或聲音質(zhì)量的提高。圖3描繪了根據(jù)一個實施例的用于以音類級別處理語音的方法。老年人難以理解快速語音,特別是兒童的快速語音。聽覺敏感性的正常年齡相關(guān)損失是部分負(fù)責(zé)的,但更重要的因素是時間(temporal)處理中與正常年齡相關(guān)的缺陷與認(rèn)知處理中年齡相關(guān)的缺陷相結(jié)合。在具有挑戰(zhàn)性的聽力條件(背景噪聲、混響、失真的電話語音)下,正常聽力的年輕人也將表現(xiàn)出減少的時間處理和與語音基頻頻率fo相關(guān)的較差的神經(jīng)同步。在根據(jù)方法300的實施例中,sra減慢語音信號和/或包括停頓的語音信號的元素,以便補(bǔ)償降低的時間處理速率和下降的神經(jīng)同步。為了改善處理速度信號與原始語音信號的時間同步,sra可加速包括停頓的語音信號的某些元素,以便更接近地近似經(jīng)處理的語音信號中的原始語音信號(其可包括非聽覺分量)的整體節(jié)奏和步伐。
在步驟305中,sra可接收語音信號。在一個實施例中,由于語音信號的快速語音速率,該語音信號可能會經(jīng)歷降低的清晰度。
在步驟310中,sra可處理所接收到的語音信號,以便識別語音信號內(nèi)的持續(xù)和非持續(xù)音類。諸如持續(xù)音的音類(元音、雙元音、鼻音、摩擦音)可在持續(xù)時間內(nèi)進(jìn)行調(diào)整,而不影響含義,而非持續(xù)(滑音、閉塞音)對持續(xù)時間內(nèi)的變化特別敏感。根據(jù)實施例,停頓可通過語音信號的中止(cessation)來識別。在步驟310中,持續(xù)音可通過相對較慢的共振峰過渡以及隨時間推移的音調(diào)周期的持續(xù)時間內(nèi)的小變化來識別。零交叉周期性的分析可用于跟蹤fo的變化,并且可以以數(shù)字方式或使用模擬電子器件來實現(xiàn)。
根據(jù)另一實施例,在步驟315中,sra可操作以識別語音信號中的持續(xù)音以及停頓,然后增加它們的持續(xù)時間。因此,可表現(xiàn)出共振峰值和音調(diào)周期的緩慢變化的語音信號的部分可在持續(xù)時間內(nèi)增加以提高清晰度。
在一個實施例中,語音速率的降低可以使用相對簡單的信號處理方法來實現(xiàn)。識別和分析語音波形中的零交叉,以確定波形中零交叉為周期性的那些區(qū)域。兩個周期性零交叉之間的時間差被定義為音調(diào)周期。執(zhí)行分析以識別音調(diào)周期相對穩(wěn)定的波形的區(qū)域。音調(diào)周期的連續(xù)對中的波形為相互關(guān)聯(lián)的。如果互相關(guān)函數(shù)的峰值大于0.95,則該波形的該音段的音調(diào)周期被定義為穩(wěn)定的?;ハ嚓P(guān)也用作零交叉實際上是周期性的檢查。如果語音波形包含一些噪聲,則它也可提供更準(zhǔn)確地音調(diào)周期估計。具有穩(wěn)定音調(diào)周期的波形的區(qū)域允許音調(diào)周期從語音波形重復(fù)或切除,而不引入可聽見的失真。重復(fù)音調(diào)周期會減慢語音速度。切除音調(diào)周期會加速語音。對語音信號的持續(xù)時長調(diào)整簡單易于實現(xiàn),并且可幾乎沒有困難地自動化。該方法也允許有效執(zhí)行音調(diào)同步頻譜分析。此外,可以使用該方法的變化來獲得頻譜的降低。如果語音聲音的音調(diào)周期切除x%,并以更快的速率播放波形,以便不改變語音聲音的持續(xù)時間,則該語音聲音的頻譜將降低x%。通過重復(fù)或切除音調(diào)周期來調(diào)整語速的示例性方法由osberger,m.和h.levitt,h.在mj.acoust.soc.am.(聲學(xué)學(xué)會雜志),1316-1324,66(1979)在“時間錯誤對聾童語音可理解性的影響”(”theeffectsoftimingerrorsontheintelligibilityofdeafchildren’sspeech”)中公開。該方法被用來提高聾啞兒童講話的清晰度。該文獻(xiàn)的公開內(nèi)容通過引用整體并入。
該方法也被用于提高會話語音的清晰度。
對話語音比明確闡述的語音更為快速。具有年齡相關(guān)的聽覺處理缺陷的老年人難以理解快速發(fā)音,特別是由具有高基頻頻率的幼兒發(fā)出的快速語音。這些老年人中的許多人也具有年齡相關(guān)的高頻聽力損失,這增加了他們理解孫輩語音的難度,他們孫輩語音不僅語速很快,而且由于基頻頻率高所以高頻內(nèi)容也相當(dāng)多。如果孩子在發(fā)音之后停頓,以允許較慢處理的語音能夠趕上,則減慢語音將提高其清晰度。語音的頻譜也可以降低,以便在聆聽者有更好聽力的頻率區(qū)域置放更多的語音提示。然而,在語音聲音不自然之前,關(guān)于語速可以降低多少或頻率可能降低多少存在限制。
減慢語速是提高單向語音傳播,即當(dāng)聽錄音時的語音清晰度的簡單實用的方法。如果語速的降低在音頻和視頻信道之間同步,它也可以用于觀看視頻錄制。對于雙向通信,如在對話中,談話者有必要在短語和句子的末尾停頓,以便減慢所處理的語音以趕上講話者的語音。這種講話禮儀可以與彼此了解對方的人或在與聽力喪失的人特別是聽力喪失的老年人以及與年齡相關(guān)的聽覺處理缺陷的人對話時,為理解停頓和慢速語音需求的人有效地工作。
在步驟315中,sra的替代實施例可采用增加持續(xù)時間的其他方法。例如,替代實施例可使用持續(xù)時間增加機(jī)制,諸如用音調(diào)周期異步地添加到波形,或者簡單地減慢語音的再現(xiàn)速率。在這些實施例中,減慢語音可能引入可聽見的失真。在步驟315中,對于音頻-視頻語音傳輸,可通過重復(fù)在重復(fù)幀期間與音調(diào)周期的重復(fù)同步的視頻信號的幀來減慢語音信號。音頻和視頻信號的同步應(yīng)在+/-10毫秒內(nèi),以避免聲學(xué)和光學(xué)語音信號之間的異步感知。在清晰度和/或聲音質(zhì)量降低之前,人與人之間可以容忍多少可感知的異步存在很大的個體差異。
在一些實施例中,減慢語音信號可能引入延遲。根據(jù)通信模式,聆聽者可以容忍多少延遲具有限制。例如,面對面對話可能對接收到語音信號的延遲更敏感,而遠(yuǎn)程會話(通過電話)不那么敏感。
可選地,如果在語音處理中經(jīng)歷延遲,則可由sra執(zhí)行步驟320以減少延遲。在一個實施例中,可將處理延遲降低到面對面通信中的可接受水平的實施方案可包括縮短相對長的持續(xù)音、同時延長短持續(xù)音,使得聲學(xué)信號與視覺感知的光信號同步。
在用于不存在光學(xué)語音信號的情況下處理聲學(xué)語音信號的實施例中,為了提高清晰度,聆聽者可容忍對通過增加語音信號的持續(xù)時間引入的相對長的延遲和/或語音信號的元素。因此,可根據(jù)需要和/或期望使用或調(diào)整任何合適的延遲減少實施方案。需要注意不要使用持續(xù)時間的極端變化,這可能會改變對未強(qiáng)調(diào)的語音模式的強(qiáng)調(diào)??赏ㄟ^增加語音音調(diào)來補(bǔ)償感知強(qiáng)調(diào)的減少。
不需要降低語音速率的實施例專注于在對話語音中略微改變持續(xù)時間的語音聲音。在沒有停止突發(fā)的情況下往往在單詞最終位置產(chǎn)生閉塞輔音,并且許多輔音以強(qiáng)度低于明確發(fā)音的語音的方式產(chǎn)生。這種閉塞輔音的示例由pincheny,m.,durlach,n.和braida,l.在“jspeechhearres.”96-103,1985中在“說清楚很難聽得懂的話i:清晰和對話性語音之間的清晰度差異”(“speakingclearlyforthehardofhearingⅰ:intelligibilitydifferencesbetweenclearandconversationalspeech”)以及由pincheny,m.a,durlach,n.i和braida,l.d.在“jspeechhearres.”29,434-46,1986中在“說清楚很難聽得懂的話ii:清晰和對話性語音之間的聲學(xué)特性”(“speakingclearlyforthehardofhearing.ⅱ:acousticcharacteristicsofclearandconversationalspeech”)中公開。這些文獻(xiàn)的公開內(nèi)容通過引用整體并入本文。
這些聲音可使用專注于包含容易受到對話語音中的失真影響的聲音的音類的突出聲學(xué)特性和易受影響的聲音頻繁發(fā)生的聲音的聲學(xué)特性的兩者的算法來識別并且然后被修改以增加它們的清晰度。這種類型的算法與用于自動語音識別的常規(guī)方法中的算法不同之處在于,搜索特定聲音類型的子集而不是識別發(fā)音中的所有聲音。另外,錯誤率(例如,不會發(fā)現(xiàn)會話語音中已被縮短的易受影響的聲音)可以比用于實際系統(tǒng)要求極低的錯誤率的自動語音識別的常規(guī)方法的錯誤率高得多。
根據(jù)另一實施例,步驟320中使用的實施方案可以用于間歇或時變背景噪聲。在步驟320中,sra可根據(jù)噪聲強(qiáng)度不同地調(diào)整持續(xù)時間。研究表明,在噪聲級別隨著時間變化明顯的情況下,聆聽者專注于當(dāng)語音-噪聲比相對較好時的時間間隔內(nèi)的語音以及不或不太能夠?qū)W⒂诋?dāng)語音-噪聲比相對較差時的語音。在本實施例中,語音可在語音可聽到的時間間隔期間被減慢,從而提高其清晰度,并且使用當(dāng)語音被掩蔽為停頓時的時間間隔,從而允許減慢語音以能跟得上。
在用于不是面對面的電話或因特網(wǎng)通信的sra的另一實施例中,方法300的語音處理對于由于減慢語音所產(chǎn)生的延遲可能不那么敏感。在步驟320中,可能希望說話者停頓以允許延遲的語音跟得上。這些停頓可在短語或句子的末尾引入,以免歪曲語音的韻律。
在步驟325中,語音信號可在完成處理以提高清晰度之后被發(fā)送給用戶。
在通過因特網(wǎng)的面對面通信(例如,使用skypetm、蘋果的facetimetm、視頻電話、視頻會議設(shè)備等)的實施例中,sra可使用聲學(xué)和光學(xué)輸入和輸出信號。因此,用于顯示視頻圖像的googleglasstm、移動裝置或類似裝置可用于顯示減速視頻語音信號。此外,在用于減慢語音的步驟315中,sra所使用的算法也可被包含在用于遠(yuǎn)程面對面通信的計算機(jī)或可視電話中。
在另一實施例中,用于語音處理的額外的清晰度考慮由sra解決。例如,難以理解的部分記錄可在sra以減慢語音模式操作的外部回放系統(tǒng)上重放。
sra也可用于提高混響公共廣播系統(tǒng)的清晰度,諸如交通終端的公告的清晰度。在一個實施例中,sra可在非語音識別操作模式中最初放大公共廣播系統(tǒng)的公告。公告也可由sra記錄。如果公告不可理解,則可根據(jù)需要由sra回放,應(yīng)用方法300的一些或全部元素以提高回放信號的清晰度??筛鶕?jù)需要記錄、存儲和回放幾個公告。因此,改善的重要公共廣播消息的清晰度可以通過sra實現(xiàn)。
對抗神經(jīng)處理異步的實施例
圖4描繪了根據(jù)一個實施例的用于處理以音類級別解決的語音的方法。針對下面所列各項在亞皮質(zhì)級別對神經(jīng)處理不足進(jìn)行研究:i)噪聲中的語音(正常聽力和聽力受損的人,但后者更多),ii)聽力喪失的人的安靜語音,iii)具有與年齡相稱的正常聽力的老年人和與年齡相稱的年齡相關(guān)的聽覺處理缺陷。在亞皮質(zhì)級別減少處理的示例在由dgeffner和dswain編輯的圣地亞哥:plural出版社2012出版由levitt,h.,oden,c.,simon,h.,noack,c.和lotze,a.在“用于年齡相關(guān)的apd的基于計算機(jī)的訓(xùn)練方法:過去、現(xiàn)在和將來,聽覺處理障礙”(“computer-basedtrainingmethodsforage-relatedapd:past,present,andfuture”)第二版第773-801頁的第30章:“評估、管理和治療(assessment,managementandtreatment):”中公開。該文獻(xiàn)的公開內(nèi)容通過引用整體并入。
這些研究表明,語音中的聲道的周期性激勵與傳遞聲音信息的相關(guān)神經(jīng)脈沖之間的同步性減弱。例如,一些聲音比其他聲音更易理解,更可理解的聲音對聲道有更強(qiáng)的周期性激勵。
參考圖4,sra可處理語音信號以模擬具有聲道的強(qiáng)周期性激勵的語音,該聲道被設(shè)計成改善傳送話音信息的神經(jīng)沖動的同步。
在步驟405中,sra接收語音信號。對于在噪聲、混響或其他干擾中聆聽的聽力喪失的人、具有與其年齡相稱的正常聽力的老年人或任何人(年輕人、老年人、正常聽力的人、聽力受損的人),可能會降低聲道的周期性的激勵和傳送聲音信息的相關(guān)聯(lián)的神經(jīng)脈沖之間的同步。
在步驟410中,sra可處理音頻信號以模擬所接收到的語音信號和/或具有較強(qiáng)音調(diào)脈沖的語音信號的元素,該較強(qiáng)音調(diào)脈沖提供處理語音中的聲道的強(qiáng)周期性激勵。包含在語音信號中的任何合適的元素或元素的組合可用于必要和/或期望的處理。
在步驟410中,可加強(qiáng)、重新生成或模擬語音信號,以減少聆聽者在神經(jīng)處理中的缺陷。一種方法可放大包含語音基頻(fo)的頻率區(qū)域。這對于安靜的語音可能很容易做到。然而,許多常見的環(huán)境噪聲在fo的頻率區(qū)域相對較強(qiáng),并且有效地掩蔽了fo。對于這些常見的噪聲,fo的諧波可在噪聲不怎么強(qiáng)的較高頻率檢測到。在噪聲水平較低的頻率區(qū)域中,fo的諧波之間的間隔可提供用于確定fo的手段。
在另一實施例中,包含fo的補(bǔ)充信號可通過聽覺、觸覺或視覺或這些模態(tài)的一些組合來傳送給聆聽者,以便提高清晰度。這種補(bǔ)充信號的示例由hanin,l.,boothroyd,a.,hnath-chisolm,t.在《耳朵聽力期刊》(“j.earhear.”)335-341(1988)中“作為句子發(fā)音的輔助的語音基頻的觸覺表示”(“tactilepresentationofvoicefundamentalfrequencyasanaidtothespeechreadingofsentences”)中公開。該文獻(xiàn)的公開內(nèi)容通過引用整體并入。在一個實施例中,聽覺補(bǔ)充被簡單地添加到噪聲語音信號中。在另一實施例中,可使用陷波濾波器消除噪聲fo,并且由從無噪聲頻率區(qū)域中的諧波fo估計的fo的無噪聲值代替。在另一實施例中,可使用振動裝置傳送觸覺補(bǔ)充。在助聽器中傳送觸覺信號的方便方法是嵌入安裝在sra的耳模中的小壓電觸覺換能器。另一實施例可使用通過googleglasstm傳送的光學(xué)補(bǔ)充。在一個這種實施例中,閃爍圖標(biāo)可被疊加在講話者的喉部區(qū)域的圖像上。該圖標(biāo)可以以與fo成比例的速率閃爍,并且也可與fo的值同步地上下移動。有大量實驗證據(jù)表明,在fo上以觸覺或視覺方式傳送的補(bǔ)充信息可提高聽力損失的人或正常聽力的人在噪聲中聆聽的語音清晰度。
在步驟410中,根據(jù)另一實施例,sra再生或模擬在步驟405中接收到的輸入語音信號和/或語音信號元素,以便改善聲道的周期性激勵與傳送聲音信息的關(guān)聯(lián)神經(jīng)沖動之間的同步。一個實施例為用合成的音調(diào)脈沖來代替輸入語音信號的音調(diào)脈沖,該合成音調(diào)脈沖近似狄拉克脈沖,從而再生語音信號,和/或用激勵聲道中更廣泛范圍的諧振頻率的該新能量源代替語音信號的元素。
在本實施例中,可使用狄拉克脈沖的實際近似,其包括具有快速開始和偏移的非常短持續(xù)時間的脈沖。這種類型的脈沖可在寬的頻率范圍內(nèi)具有平坦的頻譜。理想化的狄拉克脈沖具有零持續(xù)時間以及在無限頻率范圍內(nèi)具有平坦頻譜的無限幅度。通過用具有近似狄拉克脈沖的脈沖的周期性激勵所產(chǎn)生的基頻fo在更寬的頻率范圍內(nèi)具有比輸入語音信號的更寬、更少離散脈沖所產(chǎn)生的fo更強(qiáng)的諧波。更重要的是,在聽覺系統(tǒng)中的語音信號的神經(jīng)處理中,由周期性類似狄拉克脈沖產(chǎn)生的高度離散的音調(diào)周期利用更大程度的同步來跟蹤。
在另一實施例中,可使用線性預(yù)測編碼來預(yù)測在激勵脈沖之間的間隔中的語音信號的衰減。當(dāng)聲道被新的脈沖激勵時,所觀察到的語音信號將與不考慮新的激勵的預(yù)測信號不同。所觀察到的信號和預(yù)測信號之間的差異可用于識別激勵聲道的脈沖的形狀。該技術(shù)可用于將聲道的聲音傳播特性與脈動聲源分開,并且用激勵聲道的不同聲源來再生語音和/或語音信號的元素。
在步驟410中產(chǎn)生的模擬語音或其元素被設(shè)計成改善傳送語音信息的神經(jīng)沖動的同步。該技術(shù)也可提高貧乏語音信號的清晰度。
在步驟415中,語音信號可在提高清晰度的處理完成之后被發(fā)送給用戶。經(jīng)處理的語音信號可通過助聽器輸出換能器、耳內(nèi)揚聲器、耳機(jī)或用于將聲音傳送至耳朵的其他聲換能器以聲學(xué)方式傳送。此外,補(bǔ)充的fo信息可通過振動器或其他觸覺換能器以觸覺傳送。在一個實施方案中,觸覺換能器可為安裝在sra的耳模中的小型壓電換能器,其比佩戴大的可見的觸覺換能器在美觀上更可接受??墒褂米鳛橹芷谛阅芰吭吹膶嶋H近似的狄拉克脈沖來傳送觸覺fo補(bǔ)充,以便改善與fo中的音調(diào)脈沖的神經(jīng)同步。
音段級別的spa語音處理
圖5描繪了根據(jù)一個實施例的用于以音段級別處理語音的方法。
在實施例中,語音聲音的掩蔽可能降低由sra最初接收的清晰度和聲音質(zhì)量。因此,方法500中的sra可處理語音信號以解決掩蔽問題。
在方法500的一個實施例中,sra可被訓(xùn)練成識別接收到的語音信號中的對于助聽器用戶不可理解或不能充分理解的音段/元素。此后,sra可處理語音信號,以使這些音段/元素的清晰度最大化,從而提高語音的清晰度和/或聲音質(zhì)量。
在另一實施例中,在方法500期間,sra可處理語音信號,以便使整個語音信號的清晰度和/或聲音質(zhì)量最大化,而不僅僅是不可理解的音段/元素。根據(jù)該實施例,處理可不限于在音段級別的處理,而是可進(jìn)一步包括超音段的處理。應(yīng)注意,由sra接收到的語音信號可具有聲學(xué)和光學(xué)分量,并且在高級別的背景噪聲和/或混響的情況下,光學(xué)分量可能是特別重要的。
在步驟505中,sra可監(jiān)測音頻信號,以便識別可能對于語音清晰度具有挑戰(zhàn)性的聆聽條件。
在涉及sra的訓(xùn)練的實施例中,可記錄到達(dá)用戶耳朵的聲學(xué)信號。用戶可設(shè)置有方便的手持式或身體佩戴式單元,其允許用戶在語音不可理解時向sra發(fā)信號。sra可將接收到的語音信號(聲學(xué)和光學(xué))臨時存儲在連續(xù)刷新的短期存儲器中,使得當(dāng)sra接收到指示語音不可理解的信號時,存儲在該短期存儲器中的過去x秒的語音信號被記錄以供將來分析。x的值可為可調(diào)整的參數(shù),其允許在用戶發(fā)出語音不可理解的信號的時間間隔之前和期間,立即對接收到的語音信號(包括任何干擾)進(jìn)行記錄和后續(xù)分析。
在具有挑戰(zhàn)性的聆聽條件下,大部分接收到的聲學(xué)語音信號可能不可理解。在步驟505中,在日常使用助聽器的條件下記錄的這些無法理解或無法充分理解的語音信號可最初存儲在sra中,然后被傳送到具有用于詳細(xì)分析的信號處理能力的較大單元。
在步驟510中,sra可識別出每個單獨的助聽器用戶在挑戰(zhàn)性的日常聆聽條件下無法理解或無法充分理解的音段/元素。
在步驟515中,sra可確定用于處理對于每個sra用戶的日常聆聽條件具有挑戰(zhàn)性的語音信號的適當(dāng)信號處理策略。在該實施例中,可為每個用戶確定用于處理在挑戰(zhàn)性日常聆聽條件中接收或受挑戰(zhàn)性的日常收聽條件影響的音頻信號的最有效的信號處理策略。在一個實施例中,sra可改變其放大特性(增益、頻率響應(yīng)、振幅壓縮、頻移)以提高對貧乏語音的識別??墒褂弥T如發(fā)音指數(shù)、語音傳播指數(shù)的人類語音識別模型和其他模型來確定接收被頻率濾波、背景噪聲、混響和日常使用助聽器常常遇到的其他失真歪曲的語音信號的具有聽力損失的人的放大特性。由humes,l.e.,dirks,d.d.,bell,t.s.,ahlstbom,c.和kincaid,g.e.在“j.speech,lang.hear.res.”29,447-462(1986)中在“發(fā)音指數(shù)和語音傳播指數(shù)對正常聽力和聽力障礙聆聽者語音識別的應(yīng)用”(“applicationofthearticulationindexandthespeechtransmissionindextotherecognitionofspeechbynormal-hearingandhearing-impairedlisteners”)中公開,該公開內(nèi)容通過引用整體并入本文。
在另一實施例中,貧乏的語音可被可理解的、未失真的和無噪聲的再生或合成語音替代。再生或合成的語音可用于替代嚴(yán)重失真的貧乏語音信號的音段,或者包括單詞和短語的貧乏語音的較大音段。將再生/重新合成的語音音段與未處理的語音合并可能需要一些額外的處理,以使過渡聲音盡可能自然。
在被設(shè)計成用于與sra的用戶頻繁通信的人(例如,配偶)一起使用的實施例中,在sra的存儲器中存儲可以再現(xiàn)該人的語音的語音合成器。語音合成器的參數(shù)可被精細(xì)調(diào)整,以便考慮用戶聽力損失的性質(zhì)和嚴(yán)重性來最大化合成語音的清晰度和聲音質(zhì)量。如果包括接收到的來自該人的聲音語音信號的單詞和短語的音段或更大音段嚴(yán)重失真或缺失,但是光學(xué)語音信號在沒有失真的情況下接收到,則sra可主要使用光學(xué)語音提示來準(zhǔn)確地識別語音,從而允許在沒有失真的情況下清晰地合成嚴(yán)重失真或缺失的語音音段。如果在沒有失真的情況下接收到聲學(xué)語音信號并且光學(xué)語音信號丟失或嚴(yán)重失真,則該實施例的變型可使用光學(xué)語音合成。光學(xué)語音合成的方法的示例在“促進(jìn)康復(fù)技術(shù)協(xié)會的國際會議”(proc.int.conf.assoc.)232-233(1988)在“通過級聯(lián)處理的視頻語音合成”(“visualspeechsynthesisbyconcatenation”)中公開,其公開內(nèi)容通過引用整體并入本文。
在步驟520中,sra可被訓(xùn)練成在挑戰(zhàn)性的日常聆聽條件下自動識別助聽器用戶無法理解或無法充分理解的音段/元素或其序列。在一個實施例中,頻繁與sra的用戶通信的人(例如,配偶)可在日常使用助聽器中通常遇到的挑戰(zhàn)性聆聽條件下產(chǎn)生一組發(fā)音。發(fā)音的音標(biāo)被提供給sra,然后sra將發(fā)音識別與正確的音標(biāo)進(jìn)行比較和優(yōu)化。這可使用重復(fù)的發(fā)音進(jìn)行若干次。在另一實施例中,sra可在噪聲語音的正弦波模型上進(jìn)行訓(xùn)練,以便提高噪聲中語音識別的精度。改善語音噪聲比和具有正常和聽力受損聆聽者獲得的結(jié)果的正弦波建模示例在由j.beilin和g.r.jensen編輯的哥本哈根:stougardjensen(1993)第十五屆danavox研討會第333-358頁由levitt,h.,bakke,m.,kates,j.,neuman,a.c.和m.在先進(jìn)的信號處理助聽器(recentdevelopmentsinhearinginstrumenttechnology)中公開的“聽力儀器技術(shù)的最新進(jìn)展”(“advancedsignalprocessinghearingaids”),其公開內(nèi)容通過引用整體并入本文。由于人耳的頻譜和時間分辨率有限,盡管使用正弦波模型改善人類聆聽者的語音識別已經(jīng)產(chǎn)生了很小的改進(jìn),但sra的信號處理能力不受這些限制。訓(xùn)練sra的其他方法可根據(jù)需要或期望來實現(xiàn)。
然后,sra可應(yīng)用先前在步驟515中確定的用于提高識別的語音音段的清晰度和/或聲音質(zhì)量的信號處理策略。
在一個實施例中,sra可具有自我訓(xùn)練實施方案。根據(jù)自我訓(xùn)練能力,sra可起到識別在語音處理操作期間遇到的無法理解的音段的作用。隨后,sra可用來自用戶的反饋來動態(tài)地更新語音處理策略。在一個實施例中,sra的用戶可設(shè)置有便利的手持式或身體穿戴式信號單元。在另一實施例中,用戶可通過可聽見的提示向裝置提供指示,以提供此反饋。可根據(jù)需要和/或期望使用可由sra識別的任何聲學(xué)信號。每當(dāng)sra更新語音處理策略時,用戶向sra發(fā)送指示該更新是否致使經(jīng)處理的語音信號改善或遞減的信號。除了這些簡單的二進(jìn)制決策之外,不需要來自用戶的其他通信。對于來自用戶的每個響應(yīng),sra使用自適應(yīng)策略來修改其語音處理策略,以在給定的聆聽條件下有效地收斂于用戶的最佳語音處理策略。用于調(diào)整助聽器的這種適應(yīng)性策略的示例由neuman,a.c.,levitt,h.,mills,r.和schwander.t.在“j.acoust.soc.am.”82,1967-1976(1987)在“三種適應(yīng)性助聽器選擇策略的評估”(“anevaluationofthreeadaptivehearingaidselectionstrategies”)中描述,其公開內(nèi)容通過引用整體并入本文。
sra也可識別無法理解的音段/元素,并且同時執(zhí)行其他語音識別和處理功能。在本實施例中,在主動處理輸入語音信號的情況下,例如,在語音識別模式下操作時,sra可同時監(jiān)測挑戰(zhàn)性的聆聽條件。這可以通過監(jiān)測和識別用戶對指示難以理解的單詞/短語的發(fā)音來確定,諸如“可以重復(fù)一遍”或“你剛剛說什么”。
此外,sra可在語音處理期間識別在這些具有挑戰(zhàn)性的收聽條件中接收到的無法理解的音段/元素,并且自適應(yīng)地調(diào)整用于處理這些音段/元素的策略。因此,在進(jìn)行實施例的語音識別和處理之前,sra可能不一定執(zhí)行單獨的監(jiān)測和/或訓(xùn)練,只是執(zhí)行處理(例如,非語音識別模式)。根據(jù)實施例,sra可通過與任何語音處理步驟525-530并行地或有效地同時地執(zhí)行步驟505-520來完成自訓(xùn)練。
在一個實施例中,sra可采用在步驟515中確定的用于不同類型掩蔽的不同處理策略。在日常語音通信中常常遇到的三種類型的掩蔽為音段間掩蔽、混響掩蔽和背景噪聲掩蔽。下面描述針對這些類型的掩蔽中的每一種的實施例。
降低音段間掩蔽的實施例
在一個實施例中,sra可采用方法500來降低音段間掩蔽。
音段間掩蔽為安靜語音的清晰度降低的主要原因。例如,由于掩蔽的時間擴(kuò)展,強(qiáng)(例如,高強(qiáng)度)音段可掩蔽相鄰的弱(例如,低強(qiáng)度)音段。助聽器的語音信號的放大增加掩蔽的擴(kuò)展。在時間和認(rèn)知處理中,音段間掩蔽可能是具有年齡有關(guān)缺陷的老年人的重要問題。
當(dāng)弱音段在強(qiáng)音段之后(正向掩蔽)時,掩蔽的時間擴(kuò)展可能是相當(dāng)大的。當(dāng)弱音段先于強(qiáng)音段(反向掩蔽)時,存在較少的時間掩蔽。當(dāng)弱音段相對于相鄰的強(qiáng)音段增加強(qiáng)度時,可提高語音清晰度和/或聲音質(zhì)量。然而,進(jìn)一步的考慮可以是強(qiáng)度增加太大可能會降低清晰度和/或聲音質(zhì)量。因此,對于弱音段的級別增加多少是有益的,在有聽力損失的人之間可能會有大的個人差異。
如由kennedy,e.,levitt,h.,neuman,a.c.和weiss,m.在“j.acoust.soc.am.”103,1098-1114(1998)中在“使聽力障礙聆聽者的輔音識別最大化的輔音-元音強(qiáng)度比”(“consonant-vowelintensityratiosformaximizingconsonantrecognitionbyhearing-impairedlisteners”)所證明的,語音識別可以通過對每個聆聽者的語音信號中的每個聲音的強(qiáng)度進(jìn)行個性化調(diào)整來改善。該文獻(xiàn)的公開內(nèi)容通過引用整體并入。高強(qiáng)度聲音之后的低強(qiáng)度聲音可能需要對于聆聽者a可理解來說比聆聽者b更多的放大。sra需要被訓(xùn)練成識別需要被處理為助聽器的用戶可理解的發(fā)音環(huán)境中的語音聲音。訓(xùn)練過程的第一階段是在日常語音通信的條件下,識別進(jìn)行額外處理的候選者的語音聲音。
在一個實施例中,在步驟510中,可識別弱音段被相鄰強(qiáng)音段掩蔽的強(qiáng)弱音段對。在本實施例中,可在常規(guī)使用sra期間獲得所接收的聲學(xué)語音信號的場記錄。在該實施例中,用戶可設(shè)置有方便的手持式或身體穿戴式單元,其允許用戶在語音不可理解時向sra發(fā)信號。在另一實施例中,sra可基于來自用戶的評論(例如,“請重復(fù)”或“你說什么”)來識別語音什么時候可能不可理解。當(dāng)sra接收到指示語音為無法理解的信號時,記錄所接收到的信號(語音加在輸入麥克風(fēng)和照相機(jī)聲學(xué)接收到的干擾)。這些記錄可進(jìn)行分析以識別用戶在日常語音通信中常常遇到的語音聲音需要被處理以提高清晰度和/或聲音質(zhì)量。
因此,sra可以用于為每個用戶有效地識別主要負(fù)責(zé)降低安靜語音的清晰度和/或聲音質(zhì)量的強(qiáng)弱音段對。
一旦sra已佩戴一段時間以識別需要處理以提高清晰度和/或聲音質(zhì)量的語音聲音,則使用前一階段獲得的記錄來對sra進(jìn)行訓(xùn)練,以識別需要額外處理的語音聲音。接下來的階段是開發(fā)處理這些聲音的方法,以提高被識別為需要額外處理的語音聲音的清晰度。
在一個實施方案中,可實施由kennedy等人(1998)開發(fā)的方法,其中,低強(qiáng)度語音聲音以系統(tǒng)級別被調(diào)整以最大化其用于每個用戶的清晰度。增益量有可能取決于需要考慮到的聲音的語音語境。可執(zhí)行助聽器用戶的語音測試以獲得該信息。如果需要進(jìn)行實質(zhì)測試,則可以分階段完成,從最需要處理的聲音開始,以提高清晰度。測試方法和實驗結(jié)果的示例由kennedy,e.,levitt,h.,neuman,a.c.和weiss,m.在“j.acoust.soc.am.”103,1098-1114(1998)中在“使聽力障礙聆聽者輔音識別最大化的輔音-元音強(qiáng)度比”(“consonant-vowelintensityratiosformaximizingconsonantrecognitionbyhearing-impairedlisteners”)中描述,該文獻(xiàn)的公開內(nèi)容通過引用整體并入。
然后可編程sra,以便每當(dāng)sra在日常通信中識別該聲音時,實現(xiàn)針對給定聲音的處理方法。
在另一實施例中,可不執(zhí)行訓(xùn)練。
根據(jù)實施例,在步驟515期間,sra可為用戶確定最合適的信號處理策略。sra可操作以采用行為測量來考慮信號處理策略的實施方案中的個體差異。因此,可分別為sra裝置的每個用戶確定用于最大化清晰度和/或聲音質(zhì)量的適當(dāng)?shù)男盘柼幚聿呗?。已?jīng)開發(fā)了高效的自適應(yīng)搜索程序,并且可用于優(yōu)化每個用戶的信號處理策略的確定。示例由neuman,a.c.,levitt,h.,mills,r.和schwander.t.在“j.acoust.soc.am.”82,1967-1976(1987)在“三種適應(yīng)性助聽器選擇策略的評估”(“anevaluationofthreeadaptivehearingaidselectionstrategies”)中公開。該文獻(xiàn)的公開內(nèi)容通過引用整體并入。
在步驟520中,sra可被訓(xùn)練成自動識別對于用戶來說是無法理解的或無法充分理解的音段對,如先前在該方法的步驟510中所識別的音段對。進(jìn)一步,sra可被訓(xùn)練成應(yīng)用先前確定的個性化信號處理策略。
在步驟525中,根據(jù)其他實施例,sra可處理所接收到的語音信號。該處理可包括將接收到的語音信號在一組連續(xù)的頻率濾波器中濾波,其帶寬等于作為頻率的函數(shù)而變化的臨界聽力頻帶。在該處理期間,sra也可考慮到臨界頻帶內(nèi)和臨界頻帶之間的掩蔽效應(yīng)來執(zhí)行信號分析,以提高語音信號的清晰度。
在另一實施例中,為了提高清晰度和/或聲音質(zhì)量,在步驟525中可增加一對中不太強(qiáng)音段的持續(xù)時間。持續(xù)時間的變化可以代替強(qiáng)度的增加,也可以除了強(qiáng)度的增加之外,有持續(xù)時間的變化??赡苄枰?或期望將更強(qiáng)音段的持續(xù)時間縮短相等的量,以便不改變語音的整體持續(xù)時間??梢愿鶕?jù)需要和/或期望使用任何其他合適的實施方案或?qū)σ舳纬掷m(xù)時間的調(diào)整。
在步驟530中,在完成了改善的清晰度的處理之后,該信號可被輸出給用戶或另一裝置。
在另一實施例中,sra可執(zhí)行信號切換,諸如可以使用雙耳助聽器來實現(xiàn)。在本實施例中,輸出語音信號可在兩個耳朵之間快速切換。因此,緊跟在強(qiáng)音段之后,隨后的不太強(qiáng)的音段可被切換到用戶的另一耳朵。sra可操作以通過使用該技術(shù)消除強(qiáng)音段的時間的掩蔽擴(kuò)展。此外,不太強(qiáng)的音段的強(qiáng)度和/或持續(xù)時間也可增加,以便使清晰度和/或聲音質(zhì)量最大化。根據(jù)實施例,通過在耳朵之間快速切換語音信號,sra輸出可產(chǎn)生位于用戶頭部中心附近的單個聲音圖像的感知。另外,通過適當(dāng)選擇每個耳朵的上升和下降時間,切換瞬變可降低到較低的水平。hoffman,i.和levitt,h.在《通信失真雜志》(“j.communicationdisorders”)11,207-213(1978)中的“關(guān)于同時和交錯掩蔽的注釋”(“anoteonsimultaneousandinterleavedmasking”)中公開了兩耳間的切換方法的示例。本文獻(xiàn)的公開通過引用整體并入。
降低混響掩蔽的實施例
在另一實施例中,sra可降低混響掩蔽。
一般來講,混響掩蔽包括同時和時間的掩蔽擴(kuò)展。當(dāng)前面音段的混響部分與隨后的音段重疊時,發(fā)生同時掩蔽。當(dāng)混響信號掩蔽一個或更多個跟隨的音段時,發(fā)生時間向前掩蔽。
并不是所有的混響都會影響到清晰度或聲音質(zhì)量。低水平混響,如設(shè)計精美的禮堂,加強(qiáng)了所接收到的語音信號并提高了清晰度和聲音質(zhì)量。例如,在消聲室內(nèi)的語音聽起來很弱和不自然。中等水平混響可能會降低小量清晰度,但也可能會大大降低聲音質(zhì)量。高水平混響大大降低了清晰度和聲音質(zhì)量。對于混響的感知以及可接受和不可接受的混響水平之間的界限,在助聽器使用者之間存在很大的個體差異。
根據(jù)實施例,在步驟520中,sra可執(zhí)行語音信號的耳間分析。例如,可分析到達(dá)兩耳的語音信號,以便確定接收到的信號中的混響量作為頻率的函數(shù)。allen等人(1977)公開了示例。為了執(zhí)行該分析,將每個耳朵接收到的聲學(xué)語音信號細(xì)分成一組連續(xù)的頻帶。對應(yīng)于聽力的臨界頻帶的帶寬用于此分析。然后對兩個耳朵的相應(yīng)頻帶中的信號執(zhí)行運行的互相關(guān)。低的耳朵間相關(guān)性指示高度的混響。高的耳朵間相關(guān)性指示相對于混響的強(qiáng)信號。
在該實施例中,具有可忽略的耳朵間相關(guān)性的頻帶由明顯高于語音信號的混響組成并被衰減。具有高的耳朵間相關(guān)性的頻帶包含強(qiáng)的語音信號并被放大?;ハ嚓P(guān)函數(shù)中的峰值的時間偏移識別所接收到的語音信號的耳間時間延遲。該信息可用于確定所接收到的語音信號的方向。
在步驟525中,對于來自不同方向的語音和噪聲的情況,信號處理的行之有效方法可用于放大來自語音方向的信號并且衰減來自噪聲方向的信號,從而增加語音噪聲比并伴隨語音清晰度和聲音質(zhì)量的提高。peterson等人(1987)公開了包括定向麥克風(fēng)的使用和使用griffiths-jim算法進(jìn)行雙信道信號處理的示例。
在步驟530中,在完成了用于提高清晰度的處理之后,該信號可被輸出給用戶。可選地,在步驟530中,可在處理期間將語音信號輸出給聆聽者。
減少背景噪聲掩蔽的實施例
在另一實施例中,sra采用方法500來減少可能由背景噪聲引起的掩蔽。
在實施例中,背景噪聲的掩蔽可能特別地?fù)p害語音清晰度和聲音質(zhì)量。在諸如助聽器的常規(guī)放大裝置中,語音和背景噪聲均被放大。因此,常規(guī)的放大裝置在噪聲中幾乎沒有提供益處,除非實現(xiàn)某種形式的信號處理以降低噪聲水平。
在另一實施例中,sra可同時與環(huán)境噪聲或其他形式的干擾一起接收語音信號。環(huán)境噪聲通常具有與語音不同的頻譜。環(huán)境噪聲也可能具有不同于語音的時間結(jié)構(gòu)。
因此,sra的實施例可使用自動語音識別的元素來提高被背景噪聲掩蔽的語音的清晰度和/或聲音質(zhì)量。
在實施例中,sra可能經(jīng)歷強(qiáng)背景噪聲的掩蔽。除了相同頻率掩蔽之外,掩蔽可產(chǎn)生跨頻率的掩蔽擴(kuò)展。
因此,在步驟525中,sra可采用用于減少頻率掩蔽擴(kuò)展的信號處理策略。信號處理策略可包括將接收到的語音信號過濾成一組連續(xù)的頻帶。此外,處理策略可包括衰減具有完全掩蔽頻帶內(nèi)的語音信號的強(qiáng)噪聲的那些頻帶。這種信號處理方法廣泛應(yīng)用于現(xiàn)代助聽器。
因此,在步驟525期間,除了上述降噪處理方法之外,sra還可采用自動語音識別??梢愿鶕?jù)需要和/或期望使用用于處理語音信號和/或語音信號元素的任何合適的實施方式。該實施方式可包括在本文所述的實施例中或在實施例的任何組合中使用的語音信號處理。
可使用行之有效的自動語音識別算法來識別所接收到的語音信號中的音段/元素。例如,可分析低噪聲頻譜和時間區(qū)域中的可用聲學(xué)語音提示。此外,可使用諸如可穿戴照相機(jī)的外圍裝置所提供的光學(xué)提示來補(bǔ)充由噪聲聲學(xué)語音信號傳送的語音提示,從而獲得更準(zhǔn)確的語音自動識別。
在另一實施例中,聲學(xué)語音信號的分析可包括超出正常聽力范圍的頻率區(qū)域中的語音提示的識別。
在另一實施例中,sra可對所接收到的噪聲語音信號執(zhí)行頻譜-時間分析,以識別背景噪聲的強(qiáng)度小于語音的強(qiáng)度的那些時間和頻譜區(qū)域。
在另一實施例中,sra可分析兩個耳朵之間的振幅和時間差。具體地,在本實施例中,在每個耳朵接收到的在噪聲強(qiáng)度剛好低于語音強(qiáng)度的那些頻譜和時間區(qū)域,包括超出正常聽力范圍的頻譜區(qū)域中的接收到的聲學(xué)信號之間的差異可允許識別所接收到的聲學(xué)信號的方向。行之有效的雙耳信號處理技術(shù)可用于放大來自語音信號方向的信號并衰減來自其他方向的信號,從而增加語音噪聲比。因此,sra可提高語音的清晰度和/或聲音質(zhì)量。
在實施例中,所接收到的語音信號的聲學(xué)和光學(xué)分量均可由sra使用。例如,音段/元素可被編碼以通過視覺和/或觸覺傳遞給sra。視覺語音提示可經(jīng)由顯示語音源(例如,講話者)的視覺顯示器傳送,該語音源具有可表示例如疊加在相關(guān)聯(lián)的顯示區(qū)域,諸如說話人的臉部上的音段/元素或類型的圖標(biāo)或文本字符。sra的外圍裝置可以能夠接收/傳送諸如google眼鏡的視覺語音信號,并因此可在本實施例中使用。在另一實施例中,可以是sra的外圍裝置的顯示系統(tǒng)可將虛擬圖像投影在特定顯示區(qū)域中(例如,疊加在講話者的臉部上)。
此外,根據(jù)sra的實施例,可存在若干種方式對音段/元素進(jìn)行編碼。例如,視覺顯示器可采用顯示一個或更多個音段/元素類型的多個圖標(biāo)或文本字符(例如,一個圖標(biāo)可指示音段/元素為濁音還是清音,第二圖標(biāo)可指示音段是否是閉塞輔音,而第三圖標(biāo)可指示音段是否為摩擦音)。在該示例中繼續(xù),剩余的語音聲音(元音、雙元音、鼻音、滑音、邊音)可通過視覺圖像的顏色進(jìn)行編碼。濁塞音和清塞音在發(fā)音中是不可區(qū)分的。顯示濁音-清音區(qū)別的簡單圖標(biāo)可有助于發(fā)音。停止突發(fā)是閉塞輔音的重要元素,以及表示停止突發(fā)的強(qiáng)度的圖標(biāo)為是閉塞輔音中有關(guān)濁音-清音區(qū)分的有用提示。語音音段或語音音段的元素的視覺顯示與聲學(xué)語音信號同步也是重要的。
在通過觸覺傳送語音提示的實施例中,可使用一個或更多個振動裝置。在一個這種實施例中,視覺顯示器中使用的各種圖標(biāo)和/或文本字符中的每者可使用開關(guān)振動器,并且可使用具有可變振動速率的一個或更多個附加振動器來編碼元音和類元音聲音??筛鶕?jù)用戶的發(fā)音能力使用其他視覺和觸覺顯示器。
在另一實施例中,可使用可為外圍裝置的顯示器來補(bǔ)充正常語音提示。例如,可使用單個視覺圖標(biāo)或文本字符或單個振動器來傳送語音音調(diào)。顯示器可指示音段/元素為濁音還是清音。此外,顯示器可傳送語調(diào)和韻律提示。
在實施例中,sra可在語音信號的處理期間采用各種降噪方法。例如,可使用具有數(shù)字降噪的行之有效的聲學(xué)放大方法來處理噪聲聲學(xué)語音信號??墒褂眯兄行У淖詣诱Z音識別算法來識別所接收的語音信號中的音段/元素,以使得能夠處理信號以在存在噪聲的情況下增加音段/元素的清晰度。
在步驟530中,sra可通過單耳或雙耳的聽覺來輸出具有降低噪聲的經(jīng)處理的語音。因此,sra可通過采用各種降噪機(jī)制來提高語音的清晰度和/或聲音質(zhì)量。在一個實施例中,sra可輸出具有降低的相同頻率掩蔽的語音以及減少的時間掩蔽和頻率掩蔽擴(kuò)展。
減少不穩(wěn)定聲學(xué)反饋的實施例
在另一實施例中,sra可采用方法500來降低聲學(xué)反饋。
根據(jù)實施例,在sra音段/元素級別的處理可允許比現(xiàn)有方法更有效地消除不穩(wěn)定的聲學(xué)反饋。sra可解決當(dāng)前的聲學(xué)反饋減少方法的各種問題。當(dāng)前技術(shù)中遇到的問題的示例可包括依賴于探測信號來識別反饋路徑的特性,以及需要通過被放大的音頻信號來掩蔽這種探測信號。為了實現(xiàn)探測信號掩蔽,可使用低振幅的探測信號;然而,低振幅探測信號可能產(chǎn)生所估計的反饋路徑的差的分辨率,這進(jìn)而可能限制可以實現(xiàn)的反饋減少的量。因此,反饋可在低于最佳放大水平的水平開始被用戶感知。sra可使用與特定音段/元素匹配并替代特定音段/元素的探測信號;從而避免需要探測信號掩蔽,并因此允許探測信號相對較強(qiáng),從而以更高的分辨率估計反饋路徑,這繼而可在用戶感知到反饋開始之前允許更高的最佳放大水平。因此,sra可改善反饋減少。
在此實施例中,sra反饋減少可基于用戶聽力的確定。根據(jù)一個實施例,反饋減少可基于用戶耳朵對隨機(jī)波形的強(qiáng)度-頻率譜的靈敏度的確定。此外,可確定用戶的耳朵對隨機(jī)波形的頻譜敏感,但對波形本身不敏感。例如,具有相同強(qiáng)度-頻率譜的兩個隨機(jī)噪聲波形可能聽起來相同。發(fā)音工作模式中的sra可依據(jù)發(fā)音聲音類型來分析輸入的語音信號。濁音持續(xù)音,諸如元音具有周期性的結(jié)構(gòu),其可通過聲帶的周期性振動來確定。清擦音輔音可通過聲道中的湍流氣流產(chǎn)生,從而產(chǎn)生具有由聲道形狀確定的強(qiáng)度-頻率譜的隨機(jī)波形。
在實施例中,sra可操作以識別清擦音,并用與隨機(jī)波形感知無區(qū)別的已知波形替換摩擦音的隨機(jī)波形。這可通過將若干正弦波與和隨機(jī)波形的頻譜匹配的頻率和振幅相加來實現(xiàn)。模擬隨機(jī)波形的頻率和振幅可能是sra所知的。具有已知波形的類隨機(jī)信號可用作用于估計反饋路徑的探測。這種探測可使用行之有效的反饋減少方法。由于探測是被放大的語音信號的部分,所以它可提供具有比可能處于低電平并被放大的語音信號掩蔽的常規(guī)探測大得多的分辨率的反饋路徑的估計。
在超音段級別的語音sra處理
根據(jù)實施例,sra可對所接收到的語音信號執(zhí)行音段分析和/或在所接收到的語音的音段級別執(zhí)行分析。
已經(jīng)開發(fā)了用于在超音段級別識別語音的非常強(qiáng)大的自動語音識別方法。現(xiàn)代自動語音識別裝置常常用于將語音轉(zhuǎn)換為文本。在這些裝置中所使用的方法也可用于產(chǎn)生語音的發(fā)音表示。
在實施例中,sra可操作以采用自動語音識別算法來識別所接收到的聲學(xué)語音信號并產(chǎn)生語音的發(fā)音表示。此后,可使用行之有效的語音合成或語音再現(xiàn)方法來產(chǎn)生新版本的語音。與未處理的語音相比,合成或再現(xiàn)的語音可能會減慢,以便具有聽力損失的人,包括在時間和認(rèn)知處理中具有與年齡有關(guān)的缺陷的老年人更容易理解。
sra可采用用于減慢語音和/或語音元素以及用于處理語音使其更易于理解的各種信號處理方法。這些方法可包括在前述實施例中使用的信號處理方法的任何變化,諸如提高弱音段/元素的清晰度。
在實施例中,sra可被設(shè)計成用于聆聽諸如講座的語音記錄,其中,減慢語音和/或語音元素的過程不會對例如聆聽者造成任何不便或降低的清晰度。
在其他實施例中,sra可采用自動語音識別算法來識別所接收到的語音信號。所接收到的語音信號的聲學(xué)和光學(xué)分量均可被包含在自動語音識別過程中。sra的輸出可包括聲學(xué)和光學(xué)語音信號。光學(xué)語音信號可由sra裝置輸出,以增加清晰度。另外,光學(xué)語音信號可由通信地耦合至sra的外圍裝置,諸如錄像機(jī)/再現(xiàn)器、dvd播放器或類似裝置輸出。如果減慢語音,視頻再現(xiàn)器的幀速率可能需要調(diào)整以便保持與聲學(xué)語音信號的同步。在sra的前述實施例中描述的方法可用于保持同步的目的。
在其他實施例中,sra可使用自動語音識別算法來識別所接收到的聲學(xué)語音信號并產(chǎn)生語音的發(fā)音表示。因此,可使用行之有效的語音合成或語音再現(xiàn)的方法來產(chǎn)生新版本的語音和/或語音元素。合成或再現(xiàn)的語音可包括在前述實施例中使用的用于提高清晰度的方法的任何變體或組合。例如,該實施例可進(jìn)一步包括語音產(chǎn)生速率平均而言相同與未處理語音速率相同的約束。這種約束可使得sra能夠在與其他人的實時、面對面的對話中方便地使用。
在又一實施例中,sra可操作以使用自動語音識別算法來識別所接收到的聲學(xué)語音信號并產(chǎn)生語音的發(fā)音表示。此后,可修改所接收到的聲學(xué)語音信號以提高其清晰度。在實施例中,sra可使用在前述實施例中采用的任何方法的變化,諸如提高弱音段/元素的清晰度??墒褂盟邮盏降恼Z音信號和/或語音信號的元素的修改而不是合成或再現(xiàn)該語音的新版本,以便說話者的聲音是可識別的并且聲音更自然。
根據(jù)其他實施例,sra可在噪聲和混響環(huán)境中操作。在這些實施例中,sra可采用自動語音識別算法來識別所接收到的語音信號。所接收到的語音信號的聲學(xué)和光學(xué)分量均可被包含在自動語音識別過程中。本申請中sra的輸出可包括:1)合成或再現(xiàn)的安靜聲學(xué)語音信號,2)與所接收到的光學(xué)語音信號的視頻記錄同步回放的合成或再現(xiàn)的安靜聲學(xué)語音信號,3)所接收的聲學(xué)語音信號的修改版本,其已經(jīng)針對可與所接收到的光學(xué)語音信號的視頻記錄同步回放的降噪被處理,4)包括前述實施例中用以提高清晰度的信號處理方法的合成或再現(xiàn)的安靜聲音語音信號。這些信號處理方法可包括各種實施方案,諸如提高弱音段/元素的清晰度以及修改所接收的到光學(xué)語音信號,以提高視覺語音提示的清晰度,諸如增加元音期間的張口并增強(qiáng)牙齒和舌頭的可見度。
根據(jù)另一實施例,sra可操作以提供單詞和/或短語定位(spotting)。在頻繁使用常用詞或短語的情況下,該實施例可被證明是有效的。例如,可在與配偶、同事或可能是sra用戶的語音的頻率源的任何人和/或裝置的對話(例如,定位)期間識別通用單詞和/或短語。在實施例中,sra可被訓(xùn)練以識別頻繁使用的單詞和短語。訓(xùn)練可由sra執(zhí)行,或者訓(xùn)練可由與sra分開的裝置或多個裝置(例如,智能電話、單獨的電子裝置、計算機(jī)(例如,平板計算機(jī)、筆記本電腦、臺式計算機(jī)等),遠(yuǎn)離sra(例如,集中式服務(wù)區(qū)域))提供。訓(xùn)練可由用戶執(zhí)行,或者該裝置可為自訓(xùn)練的。sra的這種訓(xùn)練可增加識別所接收到的語音信號的速度和準(zhǔn)確度。此外,對于給定的說話者為共有的語音模式的知識可在識別該人的語音時提高sra裝置的效率和準(zhǔn)確性。此外,配偶、同事或親密朋友可以一致地學(xué)習(xí)生成頻繁使用的短語。例如,“現(xiàn)在是晚餐時間”可在sra中存儲為或以其他方式指定為頻繁使用的短語。在另一實施例中,sra可采用預(yù)定的單詞和/或短語(例如,預(yù)設(shè)等)。使用預(yù)定的單詞和/或短語可致使可選地執(zhí)行上述特定的訓(xùn)練任務(wù)。根據(jù)實施例,一個或更多個單詞和/或短語可存儲在諸如sra的存儲器的存儲裝置中??筛鶕?jù)需要和/或期望使用任何合適的存儲器(即,遠(yuǎn)程或本地的)。這些短語的相對大的集合可被sra快速和準(zhǔn)確地識別,并且可以以增加語音的識別和清晰度的方式來再現(xiàn)。
語音識別處理的重要方面在于可以在識別過程中使用范圍廣泛的提示。除了在自動語音識別系統(tǒng)中由常規(guī)的聲學(xué)和光學(xué)提示所傳達(dá)的實質(zhì)信息之外,還存在正常聽力范圍之外的聲學(xué)語音提示,或通過外圍聽覺系統(tǒng)的頻率和時間分辨率限制對人類聽覺進(jìn)行掩蔽的聲學(xué)提示。語音識別處理器可以檢測和分析的語音提示數(shù)越多,對貧乏語音的語音識別過程的魯棒性就越大。識別對話語音特別重要的是由發(fā)音、語言、語義提示和許多語音分量的統(tǒng)計特性所傳達(dá)的信息。除了在聲學(xué)和光學(xué)語音信號中的物理提示之外,現(xiàn)代自動語音識別裝置還利用這些提示,盡管其不完美。除了非身體發(fā)音、語言、所使用的語言的語義和統(tǒng)計學(xué)和統(tǒng)計學(xué)屬性之外,將包括以下所有的語音提示考慮在內(nèi)的實施例使用語音識別的隱馬爾可夫模型(hiddenmarkovmodel)來處理所有這些提示:在正常聽力范圍之外的聲學(xué)提示,由于外圍聽覺系統(tǒng)的限制而沒有被審核處理的聲音提示,超出正常視覺范圍的光學(xué)提示(諸如,在閉塞輔音期間肉眼看不到的嘴唇和臉頰的振動),鼻輔音中的振動提示以及聾啞人的泰多碼(tadoma)通信方法中使用的其他觸覺提示。然后將該語音識別裝置的輸出饋送到再現(xiàn)語音的語音合成器中。對于諸如可由背景噪聲、混響和由電子和無線電通信系統(tǒng)引入的失真導(dǎo)致的貧乏的聲學(xué)、光學(xué)和觸覺語音輸入的情況,語音識別處理器使用冗余提示來補(bǔ)償輸入語音信號中丟失或失真的語音提示。然后,再生的語音信號通過聲學(xué)、光學(xué)和觸覺手段傳送給人或另一機(jī)器。
圖6描繪了根據(jù)一個實施例的用于以音段級別處理語音的方法。圖6的實施例與圖5的不同之處在于,圖6沒有描繪可選步驟525,訓(xùn)練步驟505、510、515、525和530基本上類似于上述實施例中描述的那些步驟。
以下美國專利申請通過引用整體并入:在2014年12月10日提交的美國臨時專利申請序列號61/938,072;在2014年4月17日提交的美國臨時專利申請序列號61/981,010;在2015年2月9日提交的美國專利申請序列號14/617,527;以及在2015年4月17日提交的美國專利申請序列號14/689,396。
在下文中,將描述本發(fā)明的系統(tǒng)、裝置和方法的實施方案的一般方面。
例如,本發(fā)明的系統(tǒng)或本發(fā)明的系統(tǒng)的部分可采用“處理部件”的形式,諸如通用計算機(jī)。如本文所使用的,術(shù)語“處理部件”應(yīng)被理解為包括使用至少一個存儲器的至少一個處理器。至少一個存儲器存儲一組指令。指令可永久地或暫時地存儲在處理機(jī)的存儲器或多個存儲器中。處理器執(zhí)行存儲在存儲器或多個存儲器中的指令以便處理數(shù)據(jù)。該組指令可包括執(zhí)行一個特定任務(wù)或多個任務(wù),諸如上述那些任務(wù)的各種指令。用于執(zhí)行特定任務(wù)的這樣一組指令可被表征為程序、軟件程序或簡單地為軟件。
如上所述,處理機(jī)執(zhí)行存儲在存儲器或多個存儲器中的指令用于處理數(shù)據(jù)。例如,數(shù)據(jù)的這種處理可響應(yīng)于處理機(jī)的一個用戶或多個用戶的命令、響應(yīng)于先前處理、響應(yīng)于另一處理機(jī)和/或任何其他輸入的請求。
如上所述,用于實現(xiàn)本發(fā)明的處理機(jī)可為通用計算機(jī)。然而,上述處理機(jī)也可利用各種各樣的其他技術(shù)中的任何技術(shù),包括專用計算機(jī),包括例如微型計算機(jī)、迷你計算機(jī)或大型機(jī)的計算機(jī)系統(tǒng),編程的微處理器,微控制器,外圍集成電路元件,csic(客戶專用集成電路)或asic(專用集成電路),精簡指令集計算機(jī)(risc)或其他集成電路,邏輯電路,數(shù)字信號處理器,諸如fpga、pld、pla或pal的可編程邏輯器件,或能夠?qū)崿F(xiàn)本發(fā)明的方法的步驟的任何其他器件或器件的布置。這些處理機(jī)中的任何一個或全部可在各種裝置,諸如移動電話/裝置、陸線電話、助聽器、個人放大裝置、輔助聆聽裝置、視頻和音頻會議系統(tǒng)、ip語音裝置、流式無線電裝置、雙向收音機(jī)、平板電腦、臺式機(jī)和筆記本電腦、工作站、電子閱讀裝置等中實現(xiàn)。
用于實現(xiàn)本發(fā)明的處理機(jī)可利用合適的操作系統(tǒng)。因此,本發(fā)明的實施例可包括運行ios操作系統(tǒng)、osx操作系統(tǒng)、android操作系統(tǒng)、microsoftwindowstm10操作系統(tǒng)、microsoftwindowstm8操作系統(tǒng)、microsoftwindowstm7操作系統(tǒng)、microsoftwindowstmvistatm操作系統(tǒng)、microsoftwindowstmxptm操作系統(tǒng)、microsoftwindowstmnttm操作系統(tǒng)、windowstm2000操作系統(tǒng)、unix操作系統(tǒng)、linux操作系統(tǒng)、xenix操作系統(tǒng)、ibmaixtm操作系統(tǒng)、hewlett-packarduxtm操作系統(tǒng)、novellnetwaretm操作系統(tǒng)、sunmicrosystemssolaristm操作系統(tǒng)、os/2tm操作系統(tǒng)、beostm操作系統(tǒng)、macintosh操作系統(tǒng)、apache操作系統(tǒng)、opensteptm操作系統(tǒng)或其他操作系統(tǒng)或平臺的處理機(jī)。
應(yīng)理解,為了實施如上所述的本發(fā)明的方法,處理機(jī)的處理器和/或存儲器不必在物理上位于相同的物理或地理位置。也就是說,處理機(jī)所使用的每個處理器和存儲器可位于地理上不同的位置并且被連接以便以任何合適的方式進(jìn)行通信。此外,應(yīng)理解,處理器和/或存儲器中的每者可由設(shè)備的不同物理件組成。因此,處理器不必是在一個位置的一個單件設(shè)備,并且該存儲器不必是在另一位置的另一單件設(shè)備。也就是說,預(yù)期處理器可為在兩個不同物理位置的兩件設(shè)備。兩件不同的設(shè)備可以任何合適的方式連接。另外,存儲器可包括在兩個或更多個物理位置中的兩個或更多個存儲器部分。
為了進(jìn)一步說明,如上所述的處理由各種部件和各種存儲器執(zhí)行。然而,應(yīng)理解,根據(jù)本發(fā)明進(jìn)一步的實施例,由上述兩個不同部件執(zhí)行的處理可由單個部件執(zhí)行。此外,如上所述由一個不同部件執(zhí)行的處理可由兩個不同的部件執(zhí)行。以類似的方式,根據(jù)本發(fā)明的進(jìn)一步的實施例,由兩個不同的存儲器部分執(zhí)行的存儲器存儲可由單個存儲器部分來執(zhí)行。此外,如上所述由一個不同的存儲器部分執(zhí)行的存儲器存儲可由兩個存儲器部分執(zhí)行。
此外,可使用各種技術(shù)來提供各種處理器和/或存儲器之間的通信,并且允許本發(fā)明的處理器和/或存儲器與任何其他實體通信;即,以便例如獲得進(jìn)一步的指令或訪問和使用遠(yuǎn)程存儲器存儲。例如,用于提供這種通信的這種技術(shù)可包括網(wǎng)絡(luò)、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、lan、以太網(wǎng)、經(jīng)由蜂窩塔或衛(wèi)星的無線通信或提供通信的任何客戶端服務(wù)器系統(tǒng)。例如,這種通信技術(shù)可使用任何合適的協(xié)議,諸如tcp/ip、udp或osi。
如上所述,在本發(fā)明的處理中可使用一組指令。該組指令可以是程序或軟件的形式。例如,該軟件可采用系統(tǒng)軟件或應(yīng)用軟件的形式。該軟件也可以是單獨程序的集合、更大程序中的程序模塊或程序模塊的一部分的形式。所使用的軟件也可包括面向?qū)ο缶幊绦问降哪K化編程。該軟件告訴處理機(jī)如何處理正在處理的數(shù)據(jù)。
此外,應(yīng)理解,在本發(fā)明的實施方案和操作中使用的指令或指令集可采用適當(dāng)?shù)男问?,使得處理機(jī)可讀取指令。例如,形成程序的指令可以是合適的編程語言的形式,其被轉(zhuǎn)換為機(jī)器語音或目標(biāo)代碼,以允許處理器或多個處理器讀取指令。也就是說,使用編譯器、匯編器或解譯器將特定編程語言中的編程代碼或源代碼的書寫行轉(zhuǎn)換為機(jī)器語言。機(jī)器語言為專用于特定類型的處理機(jī),即例如專用于特定類型的計算機(jī)的二進(jìn)制編碼的機(jī)器指令。計算機(jī)理解機(jī)器語言。
可根據(jù)本發(fā)明的各種實施例使用任何合適的編程語言。作為說明性地,例如所使用的編程語言可包括匯編語言、ada、apl、basic、c、c++、cobol、dbase、forth、fortran、java、modula-2、pascal、prolog、rexx、visualbasic和/或javascript。此外,結(jié)合本發(fā)明的系統(tǒng)和方法的操作,不需要使用單一類型的指令或單一編程語音。相反,可按需要和/或期望使用任何數(shù)量的不同的編程語言。
此外,在本發(fā)明的實施中使用的指令和/或數(shù)據(jù)可根據(jù)期望利用任何壓縮或加密技術(shù)或算法。加密模塊可用于加密數(shù)據(jù)。此外,文件或其他數(shù)據(jù)可使用例如適當(dāng)?shù)慕饷苣K來解密。
如上所述,本發(fā)明可說明性地以例如具有至少一個存儲器的包括計算機(jī)或計算機(jī)系統(tǒng)的處理機(jī)的形式實施。應(yīng)理解,根據(jù)需要,可將多個指令集,即例如使計算機(jī)操作系統(tǒng)執(zhí)行上述操作的軟件包含在各種媒體或介質(zhì)中的任何媒體或介質(zhì)上。此外,由該組指令處理的數(shù)據(jù)也可包含在各種媒體或介質(zhì)中的任何媒體或介質(zhì)上。也就是說,例如,用于保存本發(fā)明中使用的指令集和/或數(shù)據(jù)的特定介質(zhì),即處理機(jī)中的存儲器可采用各種物理形式或傳輸中的任何物理形式或傳輸。作為說明性地,介質(zhì)可采用紙(paper)、透明紙(papertransparency)、光盤、dvd、集成電路、硬盤、軟盤、光盤、磁帶、ram、rom、prom、eprom、電線、電纜、光纖、通信信道、衛(wèi)星傳輸、存儲卡、sim卡或其他遠(yuǎn)程傳輸?shù)男问?,以及可被本發(fā)明的處理器讀取的任何其他介質(zhì)或數(shù)據(jù)源。
此外,實現(xiàn)本發(fā)明的處理機(jī)中使用的存儲器或多個存儲器可采用各種形式中的任何形式,以允許存儲器按需要保存指令、數(shù)據(jù)或其他信息。因此,存儲器可采用數(shù)據(jù)庫的形式來保存數(shù)據(jù)。例如,數(shù)據(jù)庫可使用諸如平面文件布置或關(guān)系數(shù)據(jù)庫布置的任何所需的文件布置。
在本發(fā)明的系統(tǒng)和方法中,可使用各種“用戶界面”來允許用戶與用于實現(xiàn)本發(fā)明的處理機(jī)或機(jī)器交接。如本文所使用的,用戶界面包括由允許用戶與處理機(jī)交互的處理機(jī)使用的任何硬件、軟件或硬件和軟件的組合。例如,用戶界面可采用對話屏幕的形式。用戶界面也可包括鼠標(biāo)、觸摸屏、鍵盤、小鍵盤、語音讀取器、語音識別器、對話屏幕、菜單框、列表、復(fù)選框、切換開關(guān)、按鈕或允許用戶接收關(guān)于處理機(jī)在處理一組指令和/或向處理機(jī)提供信息時的操作的信息的任何其他裝置。因此,用戶界面為提供用戶與處理機(jī)之間的通信的任何裝置。用戶通過用戶界面向處理機(jī)提供的信息可以是例如命令、數(shù)據(jù)選擇或一些其他輸入的形式。
如上所述,處理機(jī)使用用戶界面來執(zhí)行一組指令,使得處理機(jī)處理用戶的數(shù)據(jù)。用戶界面通常由處理機(jī)用于與用戶交互以傳達(dá)信息或從用戶接收信息。然而,應(yīng)理解,根據(jù)本發(fā)明的系統(tǒng)和方法的一些實施例,人類用戶實際上不需要與本發(fā)明的處理機(jī)所使用的用戶界面交互。相反,還應(yīng)想到,本發(fā)明的用戶界面可與另一處理機(jī)而不是人類用戶交互,即傳送和接收信息。因此,其他處理機(jī)可被表征為用戶。此外,還應(yīng)想到,在本發(fā)明的系統(tǒng)和方法中使用的用戶界面可與另一處理機(jī)或多個處理機(jī)部分地相互作用,同時還與人類用戶部分地相互作用。
本領(lǐng)域的技術(shù)人員應(yīng)容易理解,本發(fā)明易于廣泛使用和應(yīng)用。在不脫離本發(fā)明的實質(zhì)或范圍的情況下,除本文所述以外的本發(fā)明的許多實施例和改型以及許多變化、修改和等同布置應(yīng)在本發(fā)明及其前述描述的合理建議下是明顯的。
因此,盡管在此相對于其實施例詳細(xì)描述了本發(fā)明,但是應(yīng)理解,本發(fā)明僅是本發(fā)明的說明和示例描述的,并且是為了提供本發(fā)明的發(fā)明可實施性。因此,前述發(fā)明并不旨在解釋或限制本發(fā)明或以其他方式排除任何其他類實施例、改型、變化、修改或等同布置。