背景
計算系統(tǒng)可利用各種用戶標(biāo)識方法來允許對諸如用戶賬戶信息、計算系統(tǒng)上的文件、(諸)電子郵件賬戶、(諸)銀行賬戶等個性化和/或機密信息進行訪問。例如,用戶可輸入用戶名稱和口令來啟動使用會話,并在該使用會話期間執(zhí)行的動作可被假定為源自該用戶。其他方法可涉及使用諸如說話者識別之類的生物測定方法,其涉及根據(jù)人的話音特性來標(biāo)識該人。
概述
提供了經(jīng)由語音來增強用戶識別的示例。一個示例方法包括,在計算設(shè)備上,經(jīng)由包括聲學(xué)傳感器在內(nèi)的一個或多個傳感器來監(jiān)視使用環(huán)境,經(jīng)由來自所述聲學(xué)傳感器的數(shù)據(jù)來檢測關(guān)鍵短語的表達(dá),以及基于來自所述聲學(xué)傳感器的所選的數(shù)據(jù),并且還基于在與來自所述聲學(xué)傳感器的所選的數(shù)據(jù)不同的時間收集的其他環(huán)境傳感器數(shù)據(jù)來確定所述關(guān)鍵短語由標(biāo)識的用戶說過的概率。該方法進一步包括,如果該概率滿足或超過閾值概率,則在計算設(shè)備上執(zhí)行動作。
提供本概述以便以簡化的形式介紹以下在詳細(xì)描述中進一步描述的一些概念。本概述并不旨在標(biāo)識所要求保護主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護主題的范圍。此外,所要求保護的主題不限于解決在本公開的任一部分中所提及的任何或所有缺點的實現(xiàn)。
附圖簡述
圖1a和1b示出用于經(jīng)由關(guān)鍵短語分析的用戶識別的示例使用環(huán)境。
圖2示出了解說用于經(jīng)由關(guān)鍵短語檢測來增強用戶識別的示例方法的流程圖。
圖3示出了示例計算系統(tǒng)的框圖。
詳細(xì)描述
本文中公開了涉及經(jīng)由利用在語音輸入中標(biāo)識出的關(guān)鍵短語的話音標(biāo)識的用戶識別。語音輸入可表現(xiàn)為特定單詞、單詞群組、聲音(例如,笑聲、咔噠聲、或其他聲學(xué)聲音)(也被稱為關(guān)鍵短語)接著為命令的形式。由此,將關(guān)鍵短語用于說話者標(biāo)識可允許說話者被標(biāo)識出并且計算系統(tǒng)功能經(jīng)由相同的表達(dá)被調(diào)用,這可提供直觀和高效的用戶體驗。
然而,關(guān)鍵短語可能相對較短,諸如僅幾個單詞或甚至單個單詞。由于關(guān)鍵短語所跨越的話音數(shù)據(jù)歷時很小,存在錯誤拒絕和/或錯誤標(biāo)識的風(fēng)險。由此,公開的示例涉及用在與關(guān)鍵短語的表達(dá)不同的一個或多個時間處收集的環(huán)境上下文信息來增強基于關(guān)鍵短語的說話者識別。例如,執(zhí)行話音標(biāo)識的計算系統(tǒng)可在關(guān)鍵短語的表達(dá)之前和/或之后收集附加聲學(xué)數(shù)據(jù)。附加聲學(xué)數(shù)據(jù)可被分析以確定通過話音標(biāo)識所標(biāo)識出的說話者在關(guān)鍵短語被表達(dá)之前或之后是否也在說話(或不在說話)。如果分析指示說話者在關(guān)鍵短語的表達(dá)之前或之后在說話,則可確定更有可能所標(biāo)識的說話者確實說了關(guān)鍵短語。將理解,可通過感測設(shè)備檢測到并可指示表達(dá)關(guān)鍵短語的人的身份的任何環(huán)境信息都可被利用。示例包括但不限于聲學(xué)數(shù)據(jù)、圖像數(shù)據(jù)(諸如,紅外圖像數(shù)據(jù)、可見圖像數(shù)據(jù)、深度圖像數(shù)據(jù)等)、位置數(shù)據(jù)、運動數(shù)據(jù)和嗅覺數(shù)據(jù)。
圖1a示出了其中計算系統(tǒng)可基于關(guān)鍵短語檢測和環(huán)境上下文信息來執(zhí)行用戶識別的示例使用環(huán)境100。使用環(huán)境100在圖1中被解說為辦公環(huán)境,諸如會議室外面的走廊,其中計算系統(tǒng)102顯示空會議室安排。將理解所解說的使用環(huán)境是出于示例的目的被呈現(xiàn)的,而不旨在構(gòu)成限制,并且所公開的示例可在任何其他合適的使用環(huán)境中被使用。
計算系統(tǒng)102包括顯示設(shè)備104和一個或多個傳感器106。傳感器106可包括用于感測數(shù)據(jù)以增強說話者識別過程的任何合適的傳感器。作為非限制示例,傳感器106可包括一個或多個聲學(xué)傳感器(例如,話筒或話筒陣列)和一個或多個圖像傳感器(例如,可見光相機、深度相機、紅外相機等)。此外,使用環(huán)境100可包括位于計算系統(tǒng)102遠(yuǎn)程的附加傳感器。作為非限制示例,使用環(huán)境100可包括被配置成感測可用電子方式讀取的標(biāo)簽(諸如rfid門禁卡)的鄰近度的鄰近度傳感器(諸如rfid傳感器114)。計算系統(tǒng)102還可與具有附加傳感器的一個或多個外部設(shè)備進行無線通信。例如,計算系統(tǒng)102可與用戶108和/或用戶110的移動設(shè)備進行無線通信以獲得gps數(shù)據(jù)、運動數(shù)據(jù)和專用于該移動設(shè)備的其他數(shù)據(jù)。
計算系統(tǒng)102還可通過網(wǎng)絡(luò)111與其他計算系統(tǒng)進行通信,諸如與包括用戶賬戶信息(例如,雇員信息)的服務(wù)器112進行通信。這樣的用戶賬戶信息可包括標(biāo)識每一用戶的信息,諸如每一所識別的用戶的話音模式數(shù)據(jù)、圖像識別數(shù)據(jù)(例如,彩色圖像、深度圖像、紅外圖像等等),以及其他標(biāo)識信息(諸如,門禁卡信息)。以下結(jié)合圖3來呈現(xiàn)關(guān)于計算系統(tǒng)102的附加信息。
計算系統(tǒng)102可被配置成響應(yīng)于用戶話音輸入而執(zhí)行各種動作。例如,如圖1a所示,第一用戶108可例如通過執(zhí)行包括關(guān)鍵短語和命令的語音輸入來請求使計算系統(tǒng)安排第一用戶和第二用戶之間的會面。作為特定示例,第一用戶108可說關(guān)鍵短語“heyassistant(嗨,助手)”,接著是命令“pleasebookameetingfortodayat3pmformeandjohnforonehour(請為我和john預(yù)訂今天下午3點達(dá)一個小時的會面”。計算系統(tǒng)102可根據(jù)由傳感器106接收的聲學(xué)數(shù)據(jù)來檢測關(guān)鍵短語,并使用該關(guān)鍵短語來識別作出命令的說話者的身份以確定要為誰訂房間。例如,上下文環(huán)境數(shù)據(jù)可被用于將“john”標(biāo)識為第二用戶110。
然而,如以上所解釋的,鑒于關(guān)鍵短語的簡短性,計算系統(tǒng)單單使用關(guān)鍵短語數(shù)據(jù)可能難以準(zhǔn)確地標(biāo)識出關(guān)鍵短語的說話者。這可增加假肯定或假否定標(biāo)識的風(fēng)險。因此,為了增加所確定的說話者的身份是正確的概率,計算系統(tǒng)102可使用在關(guān)鍵短語的表達(dá)之前和/或之后收集的環(huán)境上下文數(shù)據(jù)來增強關(guān)鍵短語說話者標(biāo)識。這樣的環(huán)境數(shù)據(jù)可經(jīng)由傳感器106和/或經(jīng)由系統(tǒng)102外部的一個或多個計算系統(tǒng)的傳感器來收集。例如,傳感器106所聚集的聲學(xué)數(shù)據(jù)可被用于確定在關(guān)鍵短語的表達(dá)之前和/或之后在傳感器106附近說話的人的身份。這可在關(guān)鍵短語被說時提供關(guān)于環(huán)境中的用戶的身份的信息,并可由此增加關(guān)鍵短語是被那些人之一說的概率。作為另一示例,由傳感器106聚集的圖像數(shù)據(jù)可獲得計算系統(tǒng)102可用的圖像信息以確定在關(guān)鍵短語的表達(dá)之前和/或之后出現(xiàn)在使用環(huán)境中的任何用戶的身份。作為進一步示例,用戶位置數(shù)據(jù)(例如,經(jīng)由來自用戶的移動設(shè)備的gps傳感器數(shù)據(jù)、經(jīng)由rfid門禁卡等確定的)可被用于增強說話者標(biāo)識過程。
環(huán)境上下文數(shù)據(jù)可被用于按任何合適的方式來增強關(guān)鍵短語說話者標(biāo)識。例如,計算系統(tǒng)102可使用環(huán)境上下文數(shù)據(jù)作為概率確定的輸入。作為更具體的示例,傳感器106所聚集的聲學(xué)數(shù)據(jù)可被計算系統(tǒng)102用來檢測第一用戶108在關(guān)鍵短語的表達(dá)之前和/或之后在說話(例如,第一用戶108可能在表達(dá)關(guān)鍵短語之前已請求在顯示設(shè)備104上查看天氣報告),這可增加第一用戶108表達(dá)了關(guān)鍵短語的概率。在另一示例中,計算系統(tǒng)102的圖像傳感器可檢測到當(dāng)關(guān)鍵短語被檢測到時,第一用戶108和第二用戶110存在于使用環(huán)境100中,并且當(dāng)關(guān)鍵短語被表達(dá)時,第二用戶110僅路過計算系統(tǒng)102(例如,圖像信息可指示第二用戶110在表達(dá)了關(guān)鍵短語后離開了該使用環(huán)境)。由此,相比于該數(shù)據(jù)不被考慮的情況,第二用戶110表達(dá)關(guān)鍵短語的概率更低。
圖2示出了描繪用于增強關(guān)鍵短語檢測的方法200的示例的流程圖。方法200可以由計算設(shè)備(諸如,圖1的計算系統(tǒng)102)來執(zhí)行。在202,方法200包括用包括聲學(xué)傳感器的一個或多個傳感器來監(jiān)視使用環(huán)境。如上所述,任何合適的傳感器可被使用,諸如位于計算設(shè)備上的傳感器和/或位于計算設(shè)備遠(yuǎn)程的傳感器。除了聲學(xué)傳感器以外,其他傳感器的示例包括但不限于圖像傳感器、位置傳感器和運動傳感器。在一個示例中,一個或多個傳感器可持續(xù)監(jiān)視使用環(huán)境,而不管用戶的存在、用戶和計算設(shè)備之間的交互等。在其他示例中,一個或多個傳感器可按較低功率模式操作,直到活動被檢測到,并且隨后在檢測到某種觸發(fā)活動(例如,運動和/或人在圖像數(shù)據(jù)中的存在、人類話音在聲學(xué)數(shù)據(jù)中的存在、經(jīng)由鄰近度傳感器對最接近的人的檢測等)之際,按較高功率模式獲得環(huán)境上下文數(shù)據(jù)。由一個或多個傳感器收集的環(huán)境上下文信息可被存儲在計算設(shè)備的存儲器設(shè)備本地和/或被發(fā)送給遠(yuǎn)程設(shè)備。
在204,方法200包括根據(jù)所選的聲學(xué)傳感器數(shù)據(jù)來檢測關(guān)鍵短語的表達(dá)。如以上所解釋的,關(guān)鍵短語可被計算設(shè)備用于從一組可能的用戶中標(biāo)識某用戶。此外,在一些示例中,關(guān)鍵短語的表達(dá)可后隨有被配置成調(diào)用要由計算設(shè)備執(zhí)行的動作的命令,其中該動作與標(biāo)識的用戶有關(guān)。將理解,關(guān)鍵短語可使用任何合適的語音分析流水線來檢測。
在206繼續(xù),方法200包括如208所指示的基于來自聲學(xué)傳感器的數(shù)據(jù)來確定關(guān)鍵短語被標(biāo)識出的用戶表達(dá)的概率。在一些示例中,計算設(shè)備可能能夠單獨地基于關(guān)鍵短語來標(biāo)識用戶。然而,如果計算設(shè)備無法單獨地基于關(guān)鍵短語來標(biāo)識用戶,或者如果較高概率標(biāo)識被期望,則對收集到的數(shù)據(jù)的附加分析可被執(zhí)行。由此,該概率還可基于在不同時間收集到的其他環(huán)境傳感器數(shù)據(jù)來確定,如210處所指示的。
如以上參考圖1描述的,其他環(huán)境傳感器數(shù)據(jù)可包括在關(guān)鍵短語被表達(dá)之前和/或之后收集的聲學(xué)數(shù)據(jù)。例如,計算設(shè)備可持續(xù)收集聲學(xué)數(shù)據(jù)并將聲學(xué)數(shù)據(jù)存儲在緩沖器中。當(dāng)關(guān)鍵短語被檢測到時,計算設(shè)備可分析存儲的聲學(xué)數(shù)據(jù),以得到與關(guān)鍵短語被標(biāo)識的用戶表達(dá)的概率有關(guān)的信息。這樣的信息可包括但不限于在檢測到關(guān)鍵短語的表達(dá)之前和/或之后的時間窗內(nèi)(例如在幾分鐘內(nèi)),標(biāo)識的用戶是否在說話。
作為更具體的示例,計算設(shè)備可分析附加聲學(xué)數(shù)據(jù)以確定計算設(shè)備已標(biāo)識為可能表達(dá)關(guān)鍵短語的用戶在該關(guān)鍵短語被表達(dá)之前或之后是否也在說話。如果該分析指示標(biāo)識的用戶在關(guān)鍵短語的表達(dá)之前或之后正在說話,則計算設(shè)備可增加該關(guān)鍵短語被標(biāo)識的用戶說的概率,而如果該分析指示標(biāo)識的用戶在關(guān)鍵短語的表達(dá)之前或之后不在說話,則計算設(shè)備可減小該關(guān)鍵短語由標(biāo)識的用戶說過的概率。
其他環(huán)境傳感器數(shù)據(jù)還可包括在檢測到關(guān)鍵短語的表達(dá)之前和/或之后收集到的圖像數(shù)據(jù)。例如,圖像信息可指示標(biāo)識的用戶在說關(guān)鍵短語之前和/之后是否在與計算設(shè)備相同的房間中。同樣,其他環(huán)境傳感器數(shù)據(jù)可包括從在計算設(shè)備遠(yuǎn)程的傳感器處收集到的位置數(shù)據(jù)。例如,標(biāo)識的用戶可具有便攜式計算設(shè)備,該便攜式計算設(shè)備具有與該計算設(shè)備通信的位置傳感器(例如,gps),并且位置數(shù)據(jù)可指示在關(guān)鍵短語被檢測到之前或之后標(biāo)識的用戶位于哪里。這樣的位置信息還可包括來自鄰近度傳感器的rfid數(shù)據(jù)或其他鄰近度數(shù)據(jù)、標(biāo)識的用戶的日歷信息(例如,標(biāo)識的用戶被排定在與計算設(shè)備相同的房間中嗎)、和/或與位置有關(guān)的任何其他合適的數(shù)據(jù)。
作為更具體的示例,計算設(shè)備可基于用戶的日歷信息確定在關(guān)鍵短語的表達(dá)被檢測到的時間期間用戶是否被排定在給定使用環(huán)境(諸如,會議室)中。如果用戶被排定在該使用環(huán)境中,則計算環(huán)境可增加關(guān)鍵短語由該用戶說過的概率。另一方面,如果那個用戶的日歷信息指示該用戶不被排定在該使用環(huán)境中,則計算設(shè)備可降低關(guān)鍵短語由那個用戶說過的概率。
在一些實現(xiàn)中,環(huán)境數(shù)據(jù)可被分析以檢測可被用作概率確定的附加輸入的用戶行為模式。例如,在聲學(xué)數(shù)據(jù)被分析以確定在關(guān)鍵短語的表達(dá)之前用戶是否正在說話的情況下,話音數(shù)據(jù)的分析可被用于確定標(biāo)識的用戶趨于說很多還是說很少。該信息可隨后被用作概率確定的輸入,使得關(guān)于用戶在關(guān)鍵短語表達(dá)之前和/或之后是否說話了的信息可基于用戶趨于多久說一次話來加權(quán)。可被用于對用戶是否表達(dá)了關(guān)鍵短語的概率進行加權(quán)的進一步行為模式和/或環(huán)境數(shù)據(jù)可包括用戶所在的環(huán)境。例如,用戶可趨于在他或她的辦公室比在會議室中說得更多,在會議室比在公園說得更多等等。在一個更具體的示例中,用戶行為模式可由計算設(shè)備基于通過環(huán)境感測檢測到的先前用戶行為(例如,根據(jù)以上所述的由傳感器收集到的數(shù)據(jù))來確定。用戶行為模式可包括用戶趨于有多頻繁地說話的測量,并且計算設(shè)備可基于標(biāo)識的用戶有多頻繁地說話的測量來調(diào)整概率。例如,如果用戶具有相對較低的平均頻率他或她趨于說話,則該概率可被減小。
繼續(xù)圖2,方法200包括在212,將標(biāo)識的用戶表達(dá)了關(guān)鍵短語的確定的概率與閾值概率進行比較。閾值概率可以是指示標(biāo)識的用戶實際上表達(dá)了關(guān)鍵短語的期望置信水平的任何合適的閾值。在一些示例中,閾值概率可以是數(shù)字值(例如,0.95或95%),而在其他示例中,閾值概率可以是所有可能的標(biāo)識用戶的排名(例如,如果該概率指示標(biāo)識的用戶具有所有可能用戶的最高概率,則該概率可滿足或超過該閾值)。將理解,不同的閾值可適用于不同類型的訪問限制。例如,較高的閾值可適用于基于說話者標(biāo)識授權(quán)對銀行信息(bankinginformation)的訪問,而不是用于基于說話者標(biāo)識來用特定用戶簡檔發(fā)起視頻游戲。
如果該概率滿足或超過閾值概率,則方法200包括在214在計算設(shè)備上執(zhí)行動作。動作可包括認(rèn)證標(biāo)識的用戶,以便允許標(biāo)識的用戶訪問計算設(shè)備和/或經(jīng)由該計算設(shè)備訪問個性化信息。此外,在一些示例中,關(guān)鍵短語的表達(dá)可后隨有使計算設(shè)備執(zhí)行特定動作(諸如安排會面)的命令。在這樣的情況下,響應(yīng)于該概率滿足或超出閾值而執(zhí)行的動作可包括執(zhí)行標(biāo)識的用戶所命令的動作。
另一方面,如果該概率不滿足或沒有超出閾值概率,則方法200包括不執(zhí)行該動作,如216處所指示的。然而,在一些示例中,不止一個用戶可被標(biāo)識為可能表達(dá)關(guān)鍵短語。由此,在218,方法200包括確定其他用戶是否已被標(biāo)識為可能表達(dá)關(guān)鍵短語。如果沒有其他用戶已被標(biāo)識出,方法200可結(jié)束。如果有其他可能用戶已被標(biāo)識出,方法可循環(huán)回到206以確定一個或多個附加標(biāo)識用戶的概率。
如上所述的關(guān)鍵短語表達(dá)和標(biāo)識用戶概率的檢測被描述為在關(guān)鍵短語正被定向到的計算設(shè)備上執(zhí)行。然而,在一些示例中,環(huán)境傳感器數(shù)據(jù)(包括聲學(xué)傳感器數(shù)據(jù))可被發(fā)送到遠(yuǎn)程設(shè)備,且關(guān)鍵短語檢測和用戶標(biāo)識由遠(yuǎn)程設(shè)備執(zhí)行。原始設(shè)備可隨后將標(biāo)識的用戶的指示發(fā)送給計算設(shè)備。
盡管如上所述的關(guān)鍵短語說話者識別利用聲學(xué)數(shù)據(jù),但將理解,關(guān)鍵短語檢測可包括替換或附加的模態(tài),諸如視覺模態(tài)。為了執(zhí)行基于音頻的標(biāo)識,音頻流的模版匹配可被執(zhí)行,或者音頻流的分析和與用戶的模型的比較或與“并非該用戶”的比較可被執(zhí)行。該分析和概率確定可例如在計算設(shè)備本地執(zhí)行,或者可在服務(wù)器遠(yuǎn)程執(zhí)行。在一些示例中,輸入音頻流可在執(zhí)行關(guān)鍵短語檢測之前被調(diào)整(例如,噪聲抑制或回音消除)。
在一個示例中,計算設(shè)備可持續(xù)地為收集的音頻輸入存儲存儲器的緩存,其中存儲器在本地、在云中或在第二設(shè)備上。該設(shè)備可檢測表達(dá)關(guān)鍵短語的用戶。該設(shè)備可隨后確定說了關(guān)鍵短語的用戶,隨后瀏覽歷史,并確定該用戶之前(在某個時間窗口中)是否在說話。如果如此,則用戶說了關(guān)鍵短語的概率被增加。如果不是這樣,則該概率被降低。這也可對歷史中的其他用戶執(zhí)行,例如如果在(說話者標(biāo)識系統(tǒng)的)歷史中存在三個用戶,則檢測到三個用戶的概率全部都會增加,因為更有可能是這些用戶中的任一者繼續(xù)在講話。在歷史緩沖器中的位置(或在時間上與關(guān)鍵短語的接近度)也可被用來調(diào)整概率。
在以上示例中,用戶講話的概率可由在歷史中用戶的嘴巴在移動的視覺線索來增強。在一個示例中,用戶既在歷史中講了話并且還講了關(guān)鍵短語的聯(lián)合概率由每一用戶增強。例如,計算設(shè)備可將用戶遍歷該歷史都在講話并且講了關(guān)鍵短語取為最高確定概率,隨后在下一輪使用該概率來遍歷整個音頻流增強該用戶的概率。這可繼續(xù),直到選擇了清楚的贏家或者已經(jīng)過了特定迭代次數(shù)。
在另一示例中,計算設(shè)備可位于會面正發(fā)生的房間中。計算設(shè)備檢測關(guān)鍵短語,并隨后分析音頻歷史以確定標(biāo)識的用戶是否正在該房間中講話。如果不是這樣,則計算設(shè)備可降低該用戶已表達(dá)了該關(guān)鍵短語的概率。然而,關(guān)于該用戶的元信息可指示用戶很少講話,并且因此該用戶的概率可不被調(diào)整或者可被調(diào)整較小的量。學(xué)習(xí)該信息的能力可被實時(使用計算設(shè)備)或離線完成,并被存儲為關(guān)于該會面、用戶或場景的附加元數(shù)據(jù)。在其中可能用戶是加入內(nèi)部會面的外部方的場景下,機器學(xué)習(xí)可指示外部用戶更有可能講了很多話還是講了很少話。該信息隨后被饋送到說話者標(biāo)識確定中以調(diào)整外部用戶是否可能在講話。同樣,元信息可(基于用戶的日歷)指示用戶應(yīng)當(dāng)在房間中,并且概率可被相應(yīng)地調(diào)整。在一示例中,房間中的相機可標(biāo)識或確認(rèn)用戶不在房間中,由此降低用戶的概率或?qū)⒂脩敉耆珡目紤]中移除。
在又一示例,計算設(shè)備可檢測關(guān)鍵短語,并且在確認(rèn)用戶正在講話時,傳感器歷史可被用于更新用戶的模型。例如,用戶可能正(例如經(jīng)由計算設(shè)備)與位于遠(yuǎn)程的用戶講話,并且用戶可能說了關(guān)鍵短語。歷史緩沖器隨后具有關(guān)于用戶何時在講話的信息(通過音頻和視覺線索)。這隨后被拉出歷史,并被用于更新用戶的說話者標(biāo)識模型。這在其中用戶感冒了或者由于某種原因其話音不同了的情況下可能是有幫助的。該示例還可用于動態(tài)地標(biāo)識新用戶,或者可在用戶改變了話筒時被使用,因為這可被實現(xiàn)來創(chuàng)建新模型或增強可在新設(shè)備上使用的當(dāng)前話筒。
在另一示例中,計算設(shè)備可位于會議房間中記錄會議。計算設(shè)備可僅包括音頻傳感器(并因此可不包括圖像或其他傳感器)。整個會議可被記錄和離線處理。由于設(shè)備不知道誰在房間中,它可使用大說話者模型設(shè)置來分析記錄。在查找關(guān)鍵短語時,設(shè)備可考慮用戶的模型多久一次被評估為正確的在講話的人。在一示例中,用戶的模型可以是最高概率。然而,對前五分鐘和下五分鐘的分析可揭示該用戶沒有再次講話。該系統(tǒng)可隨后降低那個用戶針對那個關(guān)鍵短語的概率。該設(shè)備可隨后分析前五分鐘和將來的五分鐘,并確定第二高概率用戶在那個時間窗口內(nèi)確實講話了。該設(shè)備可隨后以高可能性確定與最高概率用戶相反,第二高概率用戶可能在房間里。
計算設(shè)備可使用機器學(xué)習(xí)來確定在該環(huán)境中用戶說了關(guān)鍵短語但在表達(dá)關(guān)鍵短語之前或之后沒有說任何其他話的可能性,使得該設(shè)備在評估誰在關(guān)鍵短語期間講話時可僅評估在關(guān)鍵短語之前和之后可能說話的那些用戶。
在一些實施例中,本文中描述的方法和過程可以與一個或多個計算設(shè)備的計算系統(tǒng)綁定。具體而言,這樣的方法和過程可被實現(xiàn)為計算機應(yīng)用程序或服務(wù)、應(yīng)用編程接口(api)、庫和/或其他計算機程序產(chǎn)品。
圖3示意性地示出了可執(zhí)行上述方法和過程中的一個或多個的計算系統(tǒng)300的非限制性實施例。以簡化形式示出了計算系統(tǒng)300。計算系統(tǒng)300可采取以下形式:一個或多個個人計算機、服務(wù)器計算機、平板計算機、家庭娛樂計算機、網(wǎng)絡(luò)計算設(shè)備、游戲設(shè)備、移動計算設(shè)備、移動通信設(shè)備(例如,智能電話)和/或其他計算設(shè)備。計算系統(tǒng)102可以是計算系統(tǒng)300的非限制示例。
計算系統(tǒng)300包括邏輯機302和存儲機304。計算系統(tǒng)300可任選地包括顯示子系統(tǒng)306、輸入子系統(tǒng)308、通信子系統(tǒng)314和/或在圖3中未示出的其他組件。
邏輯機302包括被配置成執(zhí)行指令的一個或多個物理設(shè)備。例如,邏輯機可被配置成執(zhí)行作為以下各項的一部分的指令:一個或多個應(yīng)用、服務(wù)、程序、例程、庫、對象、組件、數(shù)據(jù)結(jié)構(gòu)、或其他邏輯構(gòu)造。這種指令可被實現(xiàn)以執(zhí)行任務(wù)、實現(xiàn)數(shù)據(jù)類型、轉(zhuǎn)換一個或多個組件的狀態(tài)、實現(xiàn)技術(shù)效果、或以其他方式得到期望結(jié)果。
邏輯機可包括被配置成執(zhí)行軟件指令的一個或多個處理器。作為補充或替換,邏輯機可包括被配置成執(zhí)行硬件或固件指令的一個或多個硬件或固件邏輯機。邏輯機的處理器可以是單核或多核,且在其上執(zhí)行的指令可被配置為串行、并行和/或分布式處理。邏輯機的各個組件可任選地分布在兩個或更多單獨設(shè)備上,這些設(shè)備可以位于遠(yuǎn)程和/或被配置成進行協(xié)同處理。邏輯機的各方面可由以云計算配置進行配置的可遠(yuǎn)程訪問的聯(lián)網(wǎng)計算設(shè)備來虛擬化和執(zhí)行。
存儲機304包括被配置成保持可由邏輯機執(zhí)行以實現(xiàn)此處所述的方法和過程的指令的一個或多個物理設(shè)備。在實現(xiàn)這些方法和過程時,可以變換存儲機304的狀態(tài)(例如,保存不同的數(shù)據(jù))。
存儲機304可以包括可移動和/或內(nèi)置設(shè)備。存儲機304可包括光學(xué)存儲器(例如,cd、dvd、hd-dvd、藍(lán)光盤等)、半導(dǎo)體存儲器(例如,ram、eprom、eeprom等)和/或磁存儲器(例如,硬盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、mram等)等等。存儲機304可包括易失性、非易失性、動態(tài)、靜態(tài)、讀/寫、只讀、隨機存取、順序存取、位置可尋址、文件可尋址和/或內(nèi)容可尋址設(shè)備。
可以理解,存儲機304包括一個或多個物理設(shè)備。然而,本文描述的指令的各方面可另選地通過不由物理設(shè)備在有限時長內(nèi)持有的通信介質(zhì)(例如,電磁信號、光信號等)來傳播。
邏輯機302和存儲機304的各方面可被一起集成到一個或多個硬件邏輯組件中。這些硬件邏輯組件可包括例如現(xiàn)場可編程門陣列(fpga)、程序和應(yīng)用專用的集成電路(pasic/asic)、程序和應(yīng)用專用的標(biāo)準(zhǔn)產(chǎn)品(pssp/assp)、片上系統(tǒng)(soc)以及復(fù)雜可編程邏輯器件(cpld)。
顯示子系統(tǒng)306可用于呈現(xiàn)由存儲機302所保持的數(shù)據(jù)的視覺表示。此視覺表示可采取圖形用戶界面(gui)的形式。由于本文所描述的方法和過程改變了由存儲機保持的數(shù)據(jù),并由此變換了存儲機的狀態(tài),因此同樣可以轉(zhuǎn)變顯示子系統(tǒng)306的狀態(tài)以視覺地表示底層數(shù)據(jù)的改變。顯示子系統(tǒng)306可包括使用實質(zhì)上任何類型的技術(shù)的一個或多個顯示設(shè)備??蓪⒋祟愶@示設(shè)備與邏輯機302和/或存儲器機304組合在共享封裝中,或者此類顯示設(shè)備可以是外圍顯示設(shè)備。
輸入子系統(tǒng)308可包括諸如鍵盤、鼠標(biāo)、觸摸屏或游戲控制器之類的一個或多個用戶輸入設(shè)備或者與這些用戶輸入設(shè)備對接。在一些實施例中,輸入子系統(tǒng)可以包括所選擇的自然用戶輸入(nui)部件或與其對接。這樣的部件可以是集成式的或者是外設(shè),并且輸入動作的轉(zhuǎn)換和/或處理可以在板上或板下處理。示例nui部件可包括用于語音和/或話音識別的話筒310;諸如紅外、色彩、立體顯示和/或深度相機之類的用于機器視覺和/或姿勢識別的圖像傳感器312;用于運動檢測和/或意圖識別的頭部跟蹤器、眼睛跟蹤器、加速計和/或陀螺儀;以及用于評估腦部活動的電場感測部件。
通信子系統(tǒng)314可以被配置成將計算系統(tǒng)300與一個或多個其它計算設(shè)備可通信地耦合。通信子系統(tǒng)314可包括與一個或多個不同通信協(xié)議兼容的有線和/或無線通信設(shè)備。作為非限制性示例,通信子系統(tǒng)可被配置成用于經(jīng)由無線電話網(wǎng)絡(luò)或者有線或無線局域網(wǎng)或廣域網(wǎng)來進行通信。在一些實施例中,通信子系統(tǒng)可允許計算系統(tǒng)300經(jīng)由諸如因特網(wǎng)這樣的網(wǎng)絡(luò)將消息發(fā)送至其他設(shè)備以及/或者從其他設(shè)備接收消息。
另一示例包括經(jīng)由包括聲學(xué)傳感器的一個或多個傳感器來監(jiān)視使用環(huán)境;經(jīng)由來自聲學(xué)傳感器的所選數(shù)據(jù)來檢測關(guān)鍵短語的表達(dá);基于來自聲學(xué)傳感器的所選數(shù)據(jù)并且還基于在與來自聲學(xué)傳感器的所選數(shù)據(jù)不同的時間收集的其他環(huán)境傳感器數(shù)據(jù),確定關(guān)鍵短語由標(biāo)識的用戶說過的概率;以及,如果該概率滿足或超過閾值概率,則在計算設(shè)備上執(zhí)行一動作。附加地或替換地,這樣的示例可包括其中其他環(huán)境傳感器數(shù)據(jù)包括聲學(xué)傳感器數(shù)據(jù)。在這樣的示例中,其他環(huán)境傳感器數(shù)據(jù)可附加地或替換地包括圖像數(shù)據(jù)。這樣的示例可附加地或替換地包括基于圖像數(shù)據(jù)標(biāo)識使用環(huán)境中的一個或多個人,并且其中確定概率包括至少部分地基于使用環(huán)境中的一個或多個人的確定的身份來確定該概率。在這樣的示例中,其他環(huán)境傳感器數(shù)據(jù)可附加地或替換地包括位置數(shù)據(jù)。在這樣的示例中,位置數(shù)據(jù)可附加地或替換地包括來自鄰近度傳感器的鄰近度數(shù)據(jù)。在這樣的示例中,位置數(shù)據(jù)可附加地或替換地包括標(biāo)識的用戶的日歷信息。這樣的示例可附加地或替換地包括檢測用戶行為模式,并且其中確定概率包括至少部分地基于用戶行為模式來確定概率。在這樣的示例中,用戶行為模式信息可附加地或替換地包括關(guān)于標(biāo)識的用戶多久說一次話的信息。以上描述的示例中的任何一個或全部可按任何合適的方式被組合在各實現(xiàn)中。
計算系統(tǒng)的另一示例包括至少包括聲學(xué)傳感器的一個或多個傳感器;邏輯機;以及存儲機,所述存儲機保持能由邏輯機執(zhí)行來進行以下的指令:經(jīng)由包括所述聲學(xué)傳感器的一個或多個傳感器來監(jiān)視使用環(huán)境;經(jīng)由來自所述聲學(xué)傳感器的所選數(shù)據(jù)來檢測關(guān)鍵短語的表達(dá);基于來自聲學(xué)傳感器的所選數(shù)據(jù)并且還基于在與來自所述聲學(xué)傳感器的所選數(shù)據(jù)不同的時間收集的其他環(huán)境傳感器數(shù)據(jù),確定關(guān)鍵短語由標(biāo)識的用戶說過的概率;以及,如果所述概率滿足或超過閾值概率,則在所述計算系統(tǒng)上執(zhí)行動作。在這樣的示例中,其他環(huán)境傳感器數(shù)據(jù)可附加地或替換地包括圖像數(shù)據(jù),并且其中所述指令可進一步被執(zhí)行以基于所述圖像數(shù)據(jù)標(biāo)識所述使用環(huán)境中的一個或多個人,并至少部分地基于所述使用環(huán)境中的所述一個或多個人的確定的身份來確定所述概率。在這樣的示例中,所述其他環(huán)境傳感器數(shù)據(jù)可附加地或替換地包括位置數(shù)據(jù),所述位置數(shù)據(jù)包括來自鄰近度傳感器的鄰近度數(shù)據(jù)和標(biāo)識的用戶的日歷信息中的一者或多者。在這樣的示例中,所述指令可附加地或替換地被執(zhí)行以基于所述日歷信息來確定在關(guān)鍵短語的表達(dá)被檢測到的時間期間標(biāo)識的用戶是否被排定在所述使用環(huán)境中,并且如果標(biāo)識的用戶被排定在所述使用環(huán)境中,則增加所述關(guān)鍵短語由標(biāo)識的用戶說過的概率。在這樣的示例中,所述指令可附加地或替換地被執(zhí)行以基于經(jīng)由環(huán)境感測檢測到的先前用戶行為來檢測用戶行為模式,所述用戶行為模式包括關(guān)于標(biāo)識的用戶說話有多頻繁的信息,以及基于標(biāo)識的用戶說話的平均頻率來確定所述概率。在這樣的示例中,在來自聲學(xué)傳感器的所選數(shù)據(jù)不同的時間收集到的其他環(huán)境傳感器數(shù)據(jù)可包括在關(guān)鍵短語的表達(dá)之前和/或之后收集的附加聲學(xué)數(shù)據(jù)。在這樣的示例中,所述指令附加地或替換地可被執(zhí)行以確定關(guān)鍵短語由標(biāo)識的用戶說過的概率,分析該附加聲學(xué)數(shù)據(jù)以確定標(biāo)識的用戶在關(guān)鍵短語被表達(dá)之前或之后是否也在說話,以及在標(biāo)識的用戶在關(guān)鍵短語被表達(dá)之前或之后也在說話的情況下,則增加關(guān)鍵短語由標(biāo)識的用戶說過的概率。在這樣的示例中,所述指令附加地或替換地可被執(zhí)行以在該分析指示標(biāo)識的用戶在關(guān)鍵短語的表達(dá)之前或之后不在說話的情況下,降低關(guān)鍵短語由標(biāo)識的用戶說過的概率。以上描述的示例中的任何一個或全部可按任何合適的方式被組合在各實現(xiàn)中。
另一示例提供一種計算系統(tǒng),包括:包括聲學(xué)傳感器的一個或多個傳感器;處理器,所述處理器被配置成執(zhí)行計算機可讀指令;以及,包括存儲在其上的指令的存儲設(shè)備,所述指令可由所述處理器執(zhí)行以:經(jīng)由包括所述聲學(xué)傳感器的所述一個或多個傳感器來監(jiān)視使用環(huán)境;經(jīng)由來自聲學(xué)傳感器的所選數(shù)據(jù)來檢測后隨有命令的關(guān)鍵短語的表達(dá),所述關(guān)鍵短語被配置成標(biāo)識用戶,所述命令被配置成調(diào)用與所述用戶相關(guān)的計算系統(tǒng)動作;如果表達(dá)所述關(guān)鍵短語的用戶的身份是基于來自所述聲學(xué)傳感器的所選數(shù)據(jù)來確定的,則在所述計算系統(tǒng)上為標(biāo)識的用戶執(zhí)行動作;如果表達(dá)所述關(guān)鍵短語的用戶的身份不是基于來自所述聲學(xué)傳感器的所選數(shù)據(jù)來確定的,則基于在與來自所述聲學(xué)傳感器的所選數(shù)據(jù)不同的時間收集的其他環(huán)境傳感器數(shù)據(jù)來確定所述關(guān)鍵短語由一個或多個可能用戶表達(dá)的概率;以及,如果所述概率滿足或超過所述一個或多個其他可能用戶中的所選用戶的閾值概率,則在所述計算系統(tǒng)上為所選用戶執(zhí)行動作。在這樣的示例中,所述指令可附加地或替換地被執(zhí)行以基于經(jīng)由環(huán)境感測檢測到的先前用戶行為來檢測用戶行為模式,并且其中確定所述概率包括至少部分地基于所述用戶行為模式來確定所述概率。在這樣的示例中,可被執(zhí)行以檢測所述用戶行為模式的指令可包括可被執(zhí)行以檢測關(guān)于標(biāo)識的用戶多久說一次話的信息。以上描述的示例中的任何一個或全部可按任何合適的方式被組合在各實現(xiàn)中。
將會理解,本文描述的配置和/或方式本質(zhì)是示例性的,這些具體實施例或本文示例不應(yīng)被視為限制性的,因為許多變體是可能的。本文描述的具體例程或方法可以表示任何數(shù)量的處理策略中的一個或多個。如此,所示和/或所述的各種動作可以以所示和/或所述順序、以其他順序、并行地執(zhí)行,或者被省略。同樣,上述過程的次序可以改變。
本公開的主題包括各種過程、系統(tǒng)和配置的所有新穎和非顯而易見的組合和子組合、和此處所公開的其他特征、功能、動作、和/或特性、以及其任何和全部等效物。